論文の概要: Learning to Generate Long-term Future Narrations Describing Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2503.01416v1
- Date: Mon, 03 Mar 2025 11:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:23.608888
- Title: Learning to Generate Long-term Future Narrations Describing Activities of Daily Living
- Title(参考訳): 日常生活の活動を記述した長期的ナレーション生成の学習
- Authors: Ramanathan Rajendiran, Debaditya Roy, Basura Fernando,
- Abstract要約: 将来のイベントを予測することは、ヘルスケア、スマートホーム技術、監視など、さまざまなアプリケーションドメインにとって不可欠である。
我々は,従来の行動予測を超えて,より長期にわたるナレーション生成を行う,新しいタスクを提案する。
私たちは、この課題に対処するために特別に設計された視覚言語モデルViNaを紹介します。
- 参考スコア(独自算出の注目度): 17.2768602064903
- License:
- Abstract: Anticipating future events is crucial for various application domains such as healthcare, smart home technology, and surveillance. Narrative event descriptions provide context-rich information, enhancing a system's future planning and decision-making capabilities. We propose a novel task: $\textit{long-term future narration generation}$, which extends beyond traditional action anticipation by generating detailed narrations of future daily activities. We introduce a visual-language model, ViNa, specifically designed to address this challenging task. ViNa integrates long-term videos and corresponding narrations to generate a sequence of future narrations that predict subsequent events and actions over extended time horizons. ViNa extends existing multimodal models that perform only short-term predictions or describe observed videos by generating long-term future narrations for a broader range of daily activities. We also present a novel downstream application that leverages the generated narrations called future video retrieval to help users improve planning for a task by visualizing the future. We evaluate future narration generation on the largest egocentric dataset Ego4D.
- Abstract(参考訳): 将来のイベントを予測することは、ヘルスケア、スマートホーム技術、監視など、さまざまなアプリケーションドメインにとって不可欠である。
ナラティブなイベント記述は、コンテキストに富んだ情報を提供し、システムの将来の計画と意思決定能力を強化する。
従来の行動予測を超えて、将来の日常活動の詳細なナレーションを生成する。
私たちは、この課題に対処するために特別に設計された視覚言語モデルViNaを紹介します。
ViNaは、長期のビデオとそれに対応するナレーションを統合して、その後の出来事や行動を予測する一連のナレーションを生成する。
ViNaは、短期的な予測のみを行う既存のマルチモーダルモデルを拡張し、より広範な日常活動のための長期的なナレーションを生成することで、観察されたビデオを記述する。
また,将来を可視化してタスク計画の改善を支援するために,将来的なビデオ検索というナレーションを生かした新しいダウンストリームアプリケーションを提案する。
我々は,エゴセントリックな最大のデータセットであるEgo4Dについて,今後のナレーション生成を評価する。
関連論文リスト
- Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation [71.32108638269517]
我々は、ストーリー指向のベンチマークであるStoryEvalを紹介し、テキスト・トゥ・ビデオ(T2V)モデルのストーリー・コンプリート機能を評価する。
StoryEvalは7つのクラスにまたがる423のプロンプトを備えている。
我々は、GPT-4VやLLaVA-OV-Chat-72Bといった高度な視覚言語モデルを用いて、生成されたビデオ内の各イベントの完了を検証する。
論文 参考訳(メタデータ) (2024-12-17T23:00:42Z) - SIMS: Simulating Human-Scene Interactions with Real World Script Planning [33.31213669502036]
本稿では,長期的物理的プラプティブルなヒューマン・シーンインタラクションの計画と制御のための新しい枠組みを提案する。
大規模言語モデル(LLM)は論理的なストーリーラインを理解し、生成することができる。
これを活用することで、言語理解とシーン理解の両方を実現する二重認識ポリシーを利用する。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - TeaserGen: Generating Teasers for Long Documentaries [59.8220642722399]
1,269の文書集であるDocumentaryNetをティーザーと組み合わせて紹介する。
長文からティーザーを生成するための新しい2段階システムを提案する。
論文 参考訳(メタデータ) (2024-10-08T01:00:09Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Future Language Modeling from Temporal Document History [8.207682890286957]
本稿では,テキストの時間的履歴に基づく将来的なテキストの確率的モデリングという,未来の言語モデリングの課題を紹介する。
我々は、強力な非時間的言語モデルベースラインを改善する将来の言語モデルを構築することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2024-04-16T05:45:52Z) - NECE: Narrative Event Chain Extraction Toolkit [64.89332212585404]
NECEはオープンアクセス型文書レベルのツールキットで,その発生の時間順に物語のイベントを自動的に抽出・アライメントする。
NECEツールキットの高品質さを示し、性別に関するナラティブバイアスを分析するために、その下流の応用を実証する。
また、現状のアプローチの欠点と、今後の研究で生成モデルを活用する可能性についてもオープンに論じる。
論文 参考訳(メタデータ) (2022-08-17T04:30:58Z) - Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding [13.52545041750095]
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を合計869時間収録したビデオ言語ストーリーデータセット『Synopses of Movie Narratives』(SyMoN)をリリースした。
SyMoNは、人間のクリエーターによって作られ、人間のオーディエンスを意図した、自然主義的なストーリーテリングビデオを撮影する。
論文 参考訳(メタデータ) (2022-03-11T01:45:33Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。