論文の概要: Vision and Intention Boost Large Language Model in Long-Term Action Anticipation
- arxiv url: http://arxiv.org/abs/2505.01713v1
- Date: Sat, 03 May 2025 06:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.240989
- Title: Vision and Intention Boost Large Language Model in Long-Term Action Anticipation
- Title(参考訳): 視覚と意図は長期的行動予測における大規模言語モデルを高める
- Authors: Congqi Cao, Lanshu Hu, Yating Yu, Yanning Zhang,
- Abstract要約: 長期的な行動予測は、長期にわたる将来の行動を予測することを目的としている。
近年の研究では、大きな言語モデル(LLM)を利用して、深刻な情報損失を被るテキストベースの入力を活用している。
本研究では,視覚データのリッチなセマンティック情報を完全に活用する,新しいインテンシブ・コンディション・ビジョン・ランゲージ(ICVL)モデルを提案する。
- 参考スコア(独自算出の注目度): 39.66216219048517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term action anticipation (LTA) aims to predict future actions over an extended period. Previous approaches primarily focus on learning exclusively from video data but lack prior knowledge. Recent researches leverage large language models (LLMs) by utilizing text-based inputs which suffer severe information loss. To tackle these limitations single-modality methods face, we propose a novel Intention-Conditioned Vision-Language (ICVL) model in this study that fully leverages the rich semantic information of visual data and the powerful reasoning capabilities of LLMs. Considering intention as a high-level concept guiding the evolution of actions, we first propose to employ a vision-language model (VLM) to infer behavioral intentions as comprehensive textual features directly from video inputs. The inferred intentions are then fused with visual features through a multi-modality fusion strategy, resulting in intention-enhanced visual representations. These enhanced visual representations, along with textual prompts, are fed into LLM for future action anticipation. Furthermore, we propose an effective example selection strategy jointly considers visual and textual similarities, providing more relevant and informative examples for in-context learning. Extensive experiments with state-of-the-art performance on Ego4D, EPIC-Kitchens-55, and EGTEA GAZE+ datasets fully demonstrate the effectiveness and superiority of the proposed method.
- Abstract(参考訳): 長期的行動予測(LTA)は、長期にわたる将来の行動を予測することを目的としている。
従来のアプローチは主にビデオデータのみから学習するが、事前の知識は欠如している。
近年の研究では、大きな言語モデル(LLM)を利用して、深刻な情報損失を被るテキストベースの入力を活用している。
そこで本研究では,視覚データのリッチな意味情報とLLMの強力な推論能力をフル活用した,意図依存型視覚言語(ICVL)モデルを提案する。
行動の進化を導く高レベルの概念として意図を考慮し、まず、映像入力から直接包括的なテキスト特徴として行動意図を推測する視覚言語モデル(VLM)を提案する。
推定された意図は、多モードの融合戦略を通じて視覚的特徴と融合し、意図的な視覚的表現をもたらす。
これらの拡張された視覚表現は、テキストプロンプトとともに、将来のアクション予測のためにLLMに入力される。
さらに,視覚的・テキスト的類似性を考慮した効果的なサンプル選択手法を提案する。
Ego4D, EPIC-Kitchens-55, EGTEA GAZE+データセットの最先端性能実験により, 提案手法の有効性と優位性を十分に実証した。
関連論文リスト
- VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。