論文の概要: Tell Your Story: Task-Oriented Dialogs for Interactive Content Creation
- arxiv url: http://arxiv.org/abs/2211.03940v1
- Date: Tue, 8 Nov 2022 01:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:01:21.536685
- Title: Tell Your Story: Task-Oriented Dialogs for Interactive Content Creation
- Title(参考訳): ストーリーを伝える:インタラクティブコンテンツ作成のためのタスク指向ダイアログ
- Authors: Satwik Kottur, Seungwhan Moon, Aram H. Markosyan, Hardik Shah, Babak
Damavandi, Alborz Geramifard
- Abstract要約: 本稿では,メディアコレクションからモンタージュをシームレスに検索,コンパイル,編集するためのインタラクティブツールとして,モンタージュ生成のためのタスク指向ダイアログを提案する。
大規模なメディアコレクションからシミュレーションしたメディアモンタージュに条件付き10kのダイアログを含む新しいデータセットC3(Conversational Content Creation)を収集する。
我々の最先端言語モデルの解析とベンチマークは、データセットに存在するマルチモーダルな課題を示している。
- 参考スコア(独自算出の注目度): 11.538915414185022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People capture photos and videos to relive and share memories of personal
significance. Recently, media montages (stories) have become a popular mode of
sharing these memories due to their intuitive and powerful storytelling
capabilities. However, creating such montages usually involves a lot of manual
searches, clicks, and selections that are time-consuming and cumbersome,
adversely affecting user experiences.
To alleviate this, we propose task-oriented dialogs for montage creation as a
novel interactive tool to seamlessly search, compile, and edit montages from a
media collection. To the best of our knowledge, our work is the first to
leverage multi-turn conversations for such a challenging application, extending
the previous literature studying simple media retrieval tasks. We collect a new
dataset C3 (Conversational Content Creation), comprising 10k dialogs
conditioned on media montages simulated from a large media collection.
We take a simulate-and-paraphrase approach to collect these dialogs to be
both cost and time efficient, while drawing from natural language distribution.
Our analysis and benchmarking of state-of-the-art language models showcase the
multimodal challenges present in the dataset. Lastly, we present a real-world
mobile demo application that shows the feasibility of the proposed work in
real-world applications. Our code and data will be made publicly available.
- Abstract(参考訳): 人々は写真やビデオを撮って再生し、個人的な重要性の思い出を共有します。
近年,メディアモンタージュ(ストーリー)は,直感的で強力なストーリーテリング能力によって,これらの記憶を共有する手段として人気を博している。
しかし、このようなモンタージュを作成するには、通常、多くの手動検索、クリック、選択を伴い、時間と手間がかかり、ユーザエクスペリエンスに悪影響を及ぼす。
そこで本稿では,メディアコレクションからモンタージュをシームレスに検索,コンパイル,編集するためのインタラクティブツールとして,モンタージュ生成のためのタスク指向ダイアログを提案する。
我々の知識を最大限に活用するために、我々の研究は、このような難解なアプリケーションにマルチターン会話を利用する最初のものである。
大規模なメディアコレクションからシミュレーションしたメディアモンタージュに条件付き10kのダイアログを含む新しいデータセットC3(Conversational Content Creation)を収集する。
これらのダイアログをシミュレート・アンド・パラフレーズのアプローチで収集し、コストと時間の両方を効率良くするために、自然言語分布から描画します。
最先端言語モデルの分析とベンチマークでは,データセットに存在するマルチモーダルな課題が示されている。
最後に,実世界のアプリケーションにおいて提案手法の有効性を示す実世界のモバイルデモアプリケーションを提案する。
私たちのコードとデータは公開されます。
関連論文リスト
- Generative Timelines for Instructed Visual Assembly [106.80501761556606]
この研究の目的は、自然言語の指示を通じて視覚的タイムライン(例えばビデオ)を操作することである。
そこで本研究では,教師付き視覚アセンブリタスクの実行を訓練した生成モデルであるTimeline Assemblerを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:26:30Z) - Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog [10.290057801577662]
OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
論文 参考訳(メタデータ) (2024-02-20T17:00:59Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Navigating Connected Memories with a Task-oriented Dialog System [13.117491508194242]
マルチターンで対話的な対話を通じて,ユーザがメディアコレクションを検索できるようにする強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
新しいタスク指向のダイアログデータセットCOMETを使用し、シミュレーションされたパーソナルメモリグラフをベースとしたユーザ>アシスタントダイアログ(トータリング103k$発話)を含む。
COMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最先端の言語モデルを強力なベースラインとして採用する。
論文 参考訳(メタデータ) (2022-11-15T19:31:57Z) - DialogLM: Pre-trained Model for Long Dialogue Understanding and
Summarization [19.918194137007653]
本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。
長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。
我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-06T13:55:03Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。