論文の概要: Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
- arxiv url: http://arxiv.org/abs/2512.06951v1
- Date: Sun, 07 Dec 2025 18:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.604863
- Title: Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
- Title(参考訳): ビジョン・ランゲージ・アクションモデルのタスク適応:2025年Behaviorチャレンジにおける第1位解法
- Authors: Ilia Larchenko, Gleb Zarin, Akash Karnatak,
- Abstract要約: 我々は,2025年のBehavior Challengeで優勝したビジョンアクション政策を提示する。
BEHAVIOR Challengeは、写真リアリスティックなシミュレーションで50種類の多種多様な家庭用タスクを特徴とする大規模なベンチマークである。
このアプローチは、パブリックとプライベートの両方のリーダボード上の50のタスクすべてに対して、26%のqスコアを実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making. Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules. Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.
- Abstract(参考訳): 2025年のBEHAVIOR Challengeで優勝したビジョンアクションポリシー - 写真リアリスティックなシミュレーションにおいて、50の多種多様な長距離ホームタスクを特徴とする大規模なベンチマークで、バイマン操作、ナビゲーション、コンテキスト認識による意思決定が求められている。
Pi0.5アーキテクチャ上に構築され、いくつかのイノベーションを紹介します。
我々の主な貢献はフローマッチングのための相関ノイズであり、トレーニング効率を向上し、スムーズな動作シーケンスに対する相関対応の塗装を可能にする。
また、学習可能な混合層アテンションとシステム2ステージトラッキングをあいまいさの解消に応用する。
トレーニングでは、分散を減らすためにマルチサンプルフローマッチングを採用し、推論ではアクション圧縮とチャレンジ固有の修正ルールを使用している。
このアプローチは、パブリックとプライベートの両方のリーダボード上の50のタスクすべてに対して、26%のqスコアを実現しています。
関連論文リスト
- Shared Multi-modal Embedding Space for Face-Voice Association [21.92195248206171]
FAME 2026の課題は、フェース・ボイス・アソシエーションのトレーニングと、モデルが訓練されていない言語でのテストという2つの要求されたタスクで構成されている。
提案手法は, 一般的な顔と音声の特徴抽出を併用した一様処理パイプラインを分離し, 年齢差の特徴抽出を補完し, 予測支援を行う。
我々のアプローチはFAME 2026チャレンジで23.99%のEER(Equal-Error Rate)で1位を獲得した。
論文 参考訳(メタデータ) (2025-12-04T14:04:15Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Task-Specific Dual-Model Framework for Comprehensive Traffic Safety Video Description and Analysis [7.392659193819963]
交通安全分析は複雑な映像理解を必要とし、行動パターンを捉え、事故防止のための記述を生成する。
本稿では,タスク固有の最適化を通じて,VideoLLaMAとQwen2.5-VLの相補的強みを戦略的に活用する,ユニークなデュアルモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T20:18:23Z) - NTIRE 2025 Challenge on Image Super-Resolution ($\times$4): Methods and Results [159.15538432295656]
NTIRE 2025イメージ超解像(4ドル)チャレンジは、CVPR 2025の第10回NETREワークショップのコンペティションのひとつ。
この課題は、低分解能(LR)画像から高分解能(HR)画像を復元することを目的としている。
286人の参加者が参加し、25チームが有効なエントリーを提出した。
論文 参考訳(メタデータ) (2025-04-20T12:08:22Z) - NTIRE 2025 Challenge on Event-Based Image Deblurring: Methods and Results [162.7095344078484]
NTIRE 2025 : First Challenge on Event-based Image Deblurringについて概説する。
この課題の第一の目的は、高品質な画像の劣化を実現するイベントベースの手法を設計することである。
我々は、この課題がイベントベースの視覚研究のさらなる進歩を後押しすることを期待している。
論文 参考訳(メタデータ) (2025-04-16T18:06:16Z) - The Tenth NTIRE 2025 Image Denoising Challenge Report [145.50639422469158]
主な目的は、高品質な denoising 性能を達成することのできるネットワークアーキテクチャを開発することである。
このタスクは、独立した付加的な白色ガウスノイズ(AWGN)を50の定音レベルで仮定する。
参加者は合計290名で、20チームが有効な結果の提出に成功している。
論文 参考訳(メタデータ) (2025-04-16T17:35:09Z) - 1st Place in ICCV 2023 Workshop Challenge Track 1 on Resource Efficient
Deep Learning for Computer Vision: Budgeted Model Training Challenge [15.213786895534225]
本稿では、プロファイルとインスタンス化フェーズで構成された、リソースを意識したバックボーン検索フレームワークについて述べる。
限られたリソースの推測精度を高めるために,マルチレゾリューションアンサンブルを用いる。
我々は,コンピュータビジョンに関する国際会議 (ICCV) 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision (RCV) で優勝した。
論文 参考訳(メタデータ) (2023-08-09T05:38:18Z) - 2nd Place Solution for SODA10M Challenge 2021 -- Continual Detection
Track [35.06282647572304]
ResNet50-FPNをベースラインとして採用し、最終的な提案モデルのいくつかの改善を試みる。
タスク固有のリプレイ方式,学習率スケジューリング,モデルキャリブレーション,原画像スケールの使用により,画像中の大小オブジェクトの性能向上が期待できる。
論文 参考訳(メタデータ) (2021-10-25T15:58:19Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - CVPR 2020 Continual Learning in Computer Vision Competition: Approaches,
Results, Current Challenges and Future Directions [25.791936837340877]
2020年にCVPRで行われた最初の連続学習コンピュータビジョンチャレンジは、異なる連続学習アルゴリズムを評価する最初の機会の1つである。
優勝チームは79チーム以上、ファイナリストは11チーム、賞金は2300ドルだった。
論文 参考訳(メタデータ) (2020-09-14T08:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。