論文の概要: Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents
- arxiv url: http://arxiv.org/abs/2502.01218v1
- Date: Mon, 03 Feb 2025 10:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:29.173711
- Title: Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents
- Title(参考訳): 汎用型外用剤の視力訓練における予測順序と継続性
- Authors: Zhizhen Zhang, Lei Zhu, Zhen Fang, Zi Huang, Yadan Luo,
- Abstract要約: 人間のアクションビデオに対する事前学習型視覚言語表現は、エンボディエージェントの訓練のための大規模な専門家によるデモンストレーションへの依存を減らすための、有望なアプローチとして現れてきた。
本研究では,厳密な目標ベース制約を伴わずに,順序付きかつ連続的な視覚言語表現を学習するための行動時間的コヒーレンス学習(AcTOL)を提案する。
- 参考スコア(独自算出の注目度): 39.95793203302782
- License:
- Abstract: Pre-training vision-language representations on human action videos has emerged as a promising approach to reduce reliance on large-scale expert demonstrations for training embodied agents. However, prior methods often employ time contrastive learning based on goal-reaching heuristics, progressively aligning language instructions from the initial to the final frame. This overemphasis on future frames can result in erroneous vision-language associations, as actions may terminate early or include irrelevant moments in the end. To address this issue, we propose Action Temporal Coherence Learning (AcTOL) to learn ordered and continuous vision-language representations without rigid goal-based constraint. AcTOL treats a video as a continuous trajectory where it (1) contrasts semantic differences between frames to reflect their natural ordering, and (2) imposes a local Brownian bridge constraint to ensure smooth transitions across intermediate frames. Extensive imitation learning experiments across varying numbers of demonstrations show that the pretrained features significantly enhance downstream manipulation tasks by up to 49% with high robustness to different linguistic styles of instructions, offering a viable pathway toward generalized embodied agents. The source code is included in the supplementary material for reference.
- Abstract(参考訳): 人間のアクションビデオに対する事前学習型視覚言語表現は、エンボディエージェントの訓練のための大規模な専門家によるデモンストレーションへの依存を減らすための、有望なアプローチとして現れてきた。
しかし、事前の手法は、しばしばゴール獲得ヒューリスティックに基づいて時間に反する学習を採用し、言語命令を初期から最終フレームに段階的に整列させる。
将来のフレームに対するこの過度の強調は、アクションが早期に終了するか、最後には無関係な瞬間を含む可能性があるため、誤った視覚言語関連をもたらす可能性がある。
この問題に対処するために,厳密な目標ベース制約を伴わずに,順序付きかつ連続した視覚言語表現を学習するための行動時間的コヒーレンス学習(AcTOL)を提案する。
AcTOLは動画を連続的な軌跡として扱い、(1)フレーム間の意味的差異を対比して自然な順序を反映し、(2)中間フレーム間のスムーズな遷移を保証するために局所的なブラウン橋の制約を課す。
様々な実証実験の大規模な模倣学習実験により、事前訓練された特徴は、異なる言語スタイルの指示に対して高い堅牢性を持つ下流操作タスクを最大49%向上させ、一般化されたエンボディエージェントへの実行可能な経路を提供することを示した。
ソースコードは、参照のための補足資料に含まれる。
関連論文リスト
- DEPTH: Discourse Education through Pre-Training Hierarchically [33.89893399779713]
DEPTHは、談話指向の事前学習目標を用いて文を表現することを学習するエンコーダ・デコーダモデルである。
DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、T5よりも早く意味と談話レベルの表現を学習する。
論文 参考訳(メタデータ) (2024-05-13T14:35:30Z) - BID: Boundary-Interior Decoding for Unsupervised Temporal Action
Localization Pre-Trainin [13.273908640951252]
本稿では,骨格に基づく動作シーケンスを意味論的に意味のある事前動作セグメントに分割する,教師なし事前学習フレームワークを提案する。
事前学習ネットワークを少量のアノテートデータで微調整することにより、SOTA法よりも大きなマージンで性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-12T06:23:45Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Language-based Action Concept Spaces Improve Video Self-Supervised
Learning [8.746806973828738]
画像CLIPモデルをビデオ領域に適応させるために,言語に結びついた自己教師型学習を導入する。
時間的モデリングのために修正されたバックボーンは、アクション概念空間で運用される列車の目的と自己蒸留設定の下で訓練される。
提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。
論文 参考訳(メタデータ) (2023-07-20T14:47:50Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。