Fugu-MT 論文翻訳(概要): Object-Centric Latent Action Learning

論文の概要: Object-Centric Latent Action Learning

arxiv url: http://arxiv.org/abs/2502.09680v2
Date: Thu, 12 Jun 2025 17:21:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.144225
Title: Object-Centric Latent Action Learning
Title（参考訳）: オブジェクト中心の潜在行動学習
Authors: Albina Klepach, Alexander Nikulin, Ilya Zisman, Denis Tarasov, Alexander Derevyagin, Andrei Polubarov, Nikita Lyubaykin, Vladislav Kurenkov,
Abstract要約: 本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
参考スコア（独自算出の注目度）: 70.3173534658611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Leveraging vast amounts of unlabeled internet video data for embodied AI is currently bottlenecked by the lack of action labels and the presence of action-correlated visual distractors. Although recent latent action policy optimization (LAPO) has shown promise in inferring proxy-action labels from visual observations, its performance degrades significantly when distractors are present. To address this limitation, we propose a novel object-centric latent action learning framework that centers on objects rather than pixels. We leverage self-supervised object-centric pretraining to disentangle action-related and distracting dynamics. This allows LAPO to focus on task-relevant interactions, resulting in more robust proxy-action labels, enabling better imitation learning and efficient adaptation of the agent with just a few action-labeled trajectories. We evaluated our method in eight visually complex tasks across the Distracting Control Suite (DCS) and Distracting MetaWorld (DMW). Our results show that object-centric pretraining mitigates the negative effects of distractors by 50%, as measured by downstream task performance: average return (DCS) and success rate (DMW).
Abstract（参考訳）: インボディードAIのための膨大な量の未ラベルのインターネットビデオデータを活用することは、現在アクションラベルの欠如とアクション関連視覚障害の存在によってボトルネックになっている。最近のLAPO(Latent Action Policy Optimization)は、視覚的観察からプロキシアクションラベルを推論する可能性を示しているが、その性能は、イントラクタが存在すると著しく低下する。この制限に対処するために,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在行動学習フレームワークを提案する。我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。これにより、LAPOはタスク関連相互作用に集中することができ、より堅牢なプロキシ-アクションラベルが得られ、より優れた模倣学習とアクションラベル付き軌道でエージェントの効率的な適応が可能になる。提案手法を,DCS(Distracting Control Suite)とDMW(Distracting MetaWorld)の8つの視覚的複雑なタスクで評価した。その結果,物体中心の事前学習は,平均回帰 (DCS) と成功率 (DMW) のダウンストリームタスク性能から,トラクタの負の効果を50%軽減することがわかった。

関連論文リスト

Latent Action Learning Requires Supervision in the Presence of Distractors [40.33684677920241]
実世界のビデオには、潜在的なアクション学習を妨げるアクション関連障害が含まれていることが示されています。 LAOMは,潜伏動作の質を8倍に向上する簡易なLAPO修正法である。我々は、潜在アクション学習中のデータセット全体の2.5%にも満たない、地道的なアクションによる監視を提供することで、下流のパフォーマンスが平均4.2倍向上することを示した。
論文参考訳（メタデータ） (2025-02-01T09:35:51Z)
Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文参考訳（メタデータ） (2024-12-22T03:25:43Z)
OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions [37.79525665359017]
OccludeNetは、現実世界と合成閉塞シーンの両方を含む、大規模に隠蔽されたビデオデータセットである。本稿では,隠蔽シーンの構造因果モデルを提案するとともに,バックドア調整と対実的推論を用いた因果的行動認識フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-24T06:10:05Z)
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
ActionVOS: Actions as Prompts for Video Object Segmentation [22.922260726461477]
ActionVOSは、人間のアクションをキー言語プロンプトとして使用して、エゴセントリックなビデオの中でアクティブなオブジェクトのみをセグメンテーションすることを目的としている。我々は、効率的なアクション誘導焦点損失を有する行動認識ラベルモジュールを開発した。実験により、ActionVOSは不活性なオブジェクトのミスセグメンテーションを著しく減少させることが示された。
論文参考訳（メタデータ） (2024-07-10T06:57:04Z)
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。 Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文参考訳（メタデータ） (2024-05-14T15:28:48Z)
AD3: Implicit Action is the Key for World Models to Distinguish the Diverse Visual Distractors [31.565238847407112]
本稿では,視覚的邪魔者の暗黙的な動作を学習するためのImplicit Action Generator (IAG)を提案する。暗黙的動作インフォームド・ディバース・ビジュアル・ディトラクタ・ディスタンス・ディスタンス・ディファクタ(AD3)という新しいアルゴリズムを提案する。そこで本手法は,異種・同種両輪のトラヒックを特徴とする様々な視覚制御タスクにおいて,優れた性能を実現する。
論文参考訳（メタデータ） (2024-03-15T02:46:19Z)
Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文参考訳（メタデータ） (2023-11-29T05:28:05Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Sequential Action-Induced Invariant Representation for Reinforcement Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文参考訳（メタデータ） (2023-09-22T05:31:55Z)
TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。 TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2023-06-22T22:21:53Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
Leveraging Action Affinity and Continuity for Semi-supervised Temporal Action Segmentation [24.325716686674042]
本稿では,時間的行動分割タスクに対する半教師付き学習手法を提案する。このタスクの目的は、長い、トリミングされていないプロシージャビデオにおいて、時間的にアクションを検出し、セグメント化することである。本稿では,非競合データに対して,アクション親和性損失とアクション連続性損失の2つの新たな損失関数を提案する。
論文参考訳（メタデータ） (2022-07-18T14:52:37Z)
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文参考訳（メタデータ） (2022-06-23T06:30:08Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Learning Target Candidate Association to Keep Track of What Not to Track [100.80610986625693]
目標を追尾し続けるために、逸脱物を追跡することを提案します。視覚的トラッキングにおいて, トラクタオブジェクト間の接地トルース対応を欠く問題に対処するために, 部分アノテーションと自己監督を組み合わせたトレーニング戦略を提案する。我々のトラッカーは6つのベンチマークで新しい最先端のベンチマークを設定し、AUCスコアはLaSOTで67.2%、OxUvA長期データセットで+6.1%向上した。
論文参考訳（メタデータ） (2021-03-30T17:58:02Z)
Learning to Represent Action Values as a Hypergraph on the Action Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。 Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2020-10-28T00:19:13Z)
Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。 i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文参考訳（メタデータ） (2020-06-22T17:55:59Z)
ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。 THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文参考訳（メタデータ） (2020-03-12T02:40:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。