論文の概要: Prompting Large Language Models to Reformulate Queries for Moment
Localization
- arxiv url: http://arxiv.org/abs/2306.03422v1
- Date: Tue, 6 Jun 2023 05:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 17:00:57.015868
- Title: Prompting Large Language Models to Reformulate Queries for Moment
Localization
- Title(参考訳): 大規模言語モデルによるモーメントローカライゼーションのためのクエリの再構築
- Authors: Wenfeng Yan, Shaoxiang Chen, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: モーメントローカライゼーションのタスクは、与えられた自然言語クエリの未トリミングビデオ中の時間モーメントをローカライズすることである。
我々は,モーメントクエリを大規模言語モデルを用いて命令セットに再構成し,ローカライズモデルに親しみやすくするための初期の試みを行っている。
- 参考スコア(独自算出の注目度): 79.57593838400618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of moment localization is to localize a temporal moment in an
untrimmed video for a given natural language query. Since untrimmed video
contains highly redundant contents, the quality of the query is crucial for
accurately localizing moments, i.e., the query should provide precise
information about the target moment so that the localization model can
understand what to look for in the videos. However, the natural language
queries in current datasets may not be easy to understand for existing models.
For example, the Ego4D dataset uses question sentences as the query to describe
relatively complex moments. While being natural and straightforward for humans,
understanding such question sentences are challenging for mainstream moment
localization models like 2D-TAN. Inspired by the recent success of large
language models, especially their ability of understanding and generating
complex natural language contents, in this extended abstract, we make early
attempts at reformulating the moment queries into a set of instructions using
large language models and making them more friendly to the localization models.
- Abstract(参考訳): モーメントローカライゼーションのタスクは、与えられた自然言語クエリの未トリミングビデオ中の時間モーメントをローカライズすることである。
非トリミングビデオは、非常に冗長な内容を含んでいるため、クエリの品質は正確な位置決めに不可欠であり、すなわち、クエリは、ビデオ内の何を探すべきかを理解するために、ターゲットモーメントに関する正確な情報を提供するべきである。
しかし、現在のデータセットの自然言語クエリは、既存のモデルでは理解しにくいかもしれない。
例えば、ego4dデータセットは質問文をクエリとして使用し、比較的複雑なモーメントを記述する。
人間にとって自然で単純であるが、そのような疑問文を理解することは、2D-TANのようなメインストリームのモーメントローカライゼーションモデルでは難しい。
近年の大規模言語モデルの成功,特に複雑な自然言語内容の理解と生成能力に触発されて,我々はモーメントクエリを大規模言語モデルを用いて命令セットに再構成し,より局所化モデルに親しみやすくする試みを行っている。
関連論文リスト
- Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。
本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。
大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文 参考訳(メタデータ) (2024-05-21T07:12:27Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。