論文の概要: LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization
- arxiv url: http://arxiv.org/abs/2505.24282v1
- Date: Fri, 30 May 2025 06:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.818808
- Title: LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization
- Title(参考訳): LLMを用いた言語駆動行動の局所化における境界予測の強化のためのクエリ拡張
- Authors: Zirui Shang, Xinxiao Wu, Shuo Yang,
- Abstract要約: ビデオにおける言語駆動のアクションローカライゼーションは、言語クエリとビデオセグメント間のセマンティックアライメントを必要とする。
本稿では,アクション開始と終了境界のテキスト記述を生成することで,元のクエリを拡張することを提案する。
また、フレームと拡張クエリ間の意味的類似性を計算することにより、アクション境界の確率スコアをモデル化する。
提案手法はモデルに依存しないため,既存の言語駆動型アクションローカライゼーションモデルにシームレスに統合することができる。
- 参考スコア(独自算出の注目度): 25.103269229541564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-driven action localization in videos requires not only semantic alignment between language query and video segment, but also prediction of action boundaries. However, the language query primarily describes the main content of an action and usually lacks specific details of action start and end boundaries, which increases the subjectivity of manual boundary annotation and leads to boundary uncertainty in training data. In this paper, on one hand, we propose to expand the original query by generating textual descriptions of the action start and end boundaries through LLMs, which can provide more detailed boundary cues for localization and thus reduce the impact of boundary uncertainty. On the other hand, to enhance the tolerance to boundary uncertainty during training, we propose to model probability scores of action boundaries by calculating the semantic similarities between frames and the expanded query as well as the temporal distances between frames and the annotated boundary frames. They can provide more consistent boundary supervision, thus improving the stability of training. Our method is model-agnostic and can be seamlessly and easily integrated into any existing models of language-driven action localization in an off-the-shelf manner. Experimental results on several datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): ビデオにおける言語駆動のアクションローカライゼーションは、言語クエリとビデオセグメント間のセマンティックアライメントだけでなく、アクション境界の予測も必要である。
しかし、言語クエリは、主にアクションの主要な内容を説明し、通常、手動境界アノテーションの主観性を高め、トレーニングデータにおける境界の不確実性をもたらすアクション開始と終了の境界の具体的な詳細を欠いている。
本稿では,LLMを用いて動作開始と終了境界のテキスト記述を生成し,局所化のためのより詳細な境界手段を提供するとともに,境界の不確実性の影響を低減することにより,元のクエリを拡張することを提案する。
一方、トレーニング中の境界不確実性に対する耐性を高めるために、フレームと拡張クエリ間の意味的類似性、およびフレームと注釈付き境界フレーム間の時間的距離を計算し、アクション境界の確率スコアをモデル化することを提案する。
より一貫性のある境界管理を提供することで、トレーニングの安定性を向上させることができる。
提案手法はモデルに依存しないため,既存の言語駆動型アクションローカライゼーションモデルにシームレスかつ容易に組み込むことができる。
いくつかのデータセットに対する実験結果から,本手法の有効性が示された。
関連論文リスト
- EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video
Grounding with Multimodal Large Language Model [63.93372634950661]
不完全な境界を拡大する上で、より価値のある情報を導入しながら、元の時間的内容の整合性を維持する新しい視点を提案する。
ビデオの連続性、すなわち隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームにアノテートするために強力なマルチモーダル大言語モデル(MLLM)を使用する。
論文 参考訳(メタデータ) (2023-12-05T04:15:56Z) - Boundary-Aware Proposal Generation Method for Temporal Action
Localization [23.79359799496947]
TALは、トリミングされていないビデオの中で、アクションのカテゴリと時間的境界を見つけることを目的としている。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
コントラスト学習を用いた境界認識提案生成(BAPG)手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T01:41:09Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Boundary Guided Context Aggregation for Semantic Segmentation [23.709865471981313]
我々は、画像の全体的意味理解を促進するために、コンテキストアグリゲーションのための重要なガイダンスとして境界を利用する。
我々はCityscapesとADE20Kデータベースに関する広範な実験を行い、最先端の手法で同等の結果を得る。
論文 参考訳(メタデータ) (2021-10-27T17:04:38Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Active Boundary Loss for Semantic Segmentation [58.72057610093194]
本稿では,セマンティックセグメンテーションのための新しいアクティブ境界損失を提案する。
エンド・ツー・エンドのトレーニングにおいて、予測境界とグランド・トゥルース・バウンダリのアライメントを徐々に促進することができる。
実験結果から, アクティブ境界損失によるトレーニングは, 境界Fスコアと平均インターセクションオーバ・ユニオンを効果的に改善できることが示された。
論文 参考訳(メタデータ) (2021-02-04T15:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。