論文の概要: LALM: Long-Term Action Anticipation with Language Models
- arxiv url: http://arxiv.org/abs/2311.17944v1
- Date: Wed, 29 Nov 2023 02:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:36:41.134675
- Title: LALM: Long-Term Action Anticipation with Language Models
- Title(参考訳): LALM:言語モデルによる長期的な行動予測
- Authors: Sanghwan Kim, Daoji Huang, Yongqin Xian, Otmar Hilliges, Luc Van Gool,
and Xi Wang
- Abstract要約: 言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
- 参考スコア(独自算出の注目度): 74.10147822693791
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding human activity is a crucial yet intricate task in egocentric
vision, a field that focuses on capturing visual perspectives from the camera
wearer's viewpoint. While traditional methods heavily rely on representation
learning trained on extensive video data, there exists a significant
limitation: obtaining effective video representations proves challenging due to
the inherent complexity and variability in human activities.Furthermore,
exclusive dependence on video-based learning may constrain a model's capability
to generalize across long-tail classes and out-of-distribution scenarios.
In this study, we introduce a novel approach for long-term action
anticipation using language models (LALM), adept at addressing the complex
challenges of long-term activity understanding without the need for extensive
training. Our method incorporates an action recognition model to track previous
action sequences and a vision-language model to articulate relevant
environmental details. By leveraging the context provided by these past events,
we devise a prompting strategy for action anticipation using large language
models (LLMs). Moreover, we implement Maximal Marginal Relevance for example
selection to facilitate in-context learning of the LLMs. Our experimental
results demonstrate that LALM surpasses the state-of-the-art methods in the
task of long-term action anticipation on the Ego4D benchmark. We further
validate LALM on two additional benchmarks, affirming its capacity for
generalization across intricate activities with different sets of taxonomies.
These are achieved without specific fine-tuning.
- Abstract(参考訳): 人間の活動を理解することは、カメラの装着者の視点から視覚的な視点を捉えることに焦点を当てたエゴセントリック・ビジョンにおいて、重要かつ複雑なタスクである。
効果的なビデオ表現を得ることは、人間の活動に固有の複雑さと変動性によって困難であることを証明する。さらに、ビデオベースの学習への排他的依存は、ロングテールクラスとアウト・オブ・ディストリビューションシナリオをまたいで一般化するモデルの能力を制限する可能性がある。
本研究では,言語モデル(lalm)を用いた長期行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
過去の出来事のコンテキストを活用することで,大規模言語モデル(LLM)を用いた行動予測の促進戦略を考案する。
さらに、LLMの文脈内学習を容易にするために、例えば選択など、最大Marginal Relevanceを実装した。
実験の結果, LALMはEgo4Dベンチマークの長期動作予測作業において最先端の手法を超越していることがわかった。
さらに、LALMを2つの追加ベンチマークで検証し、分類学の異なる複雑な活動にまたがる一般化の能力を確認する。
これらは特定の微調整なしで達成される。
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos [17.001453726107467]
エゴセントリックビデオ自然言語クエリ(NLQ)タスクは、エゴセントリックビデオ内の時間ウィンドウをローカライズする。
本稿では、複数の事前学習モデルを用いて、広範囲なエゴセントリックなビデオコンテンツからの問い合わせに応答する新しいフレームワークであるLifelongMemoryを紹介する。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合する性能を示す。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Learning the Effects of Physical Actions in a Multi-modal Environment [17.757831697284498]
大規模言語モデル(LLM)は、物理的コモンセンス情報を不十分に扱う。
本稿では,現実的な感覚入力のみから行動の結果を予測するマルチモーダルタスクを提案する。
マルチモーダルモデルでは、視覚情報で拡張した場合に、物理的なコモンセンスをキャプチャできることを示す。
論文 参考訳(メタデータ) (2023-01-27T16:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。