Fugu-MT 論文翻訳(概要): Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

論文の概要: Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

arxiv url: http://arxiv.org/abs/2503.22886v1
Date: Fri, 28 Mar 2025 21:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.82732
Title: Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models
Title（参考訳）: Task Tokens: 行動基礎モデルへの柔軟なアプローチ
Authors: Ron Vainshtein, Zohar Rimon, Shie Mannor, Chen Tessler,
Abstract要約: 行動基盤モデル(BFM)は、ヒューマノイドエージェントのマルチモーダル、ヒューマンライクな制御を可能にする。タスクトークン(Task Tokens)は、BFMを柔軟性を維持しつつ、特定のタスクに効果的に調整する方法である。タスクトークンは,その一般化能力を維持しつつ,特定の制御タスクにBFMを適用する上で有望なアプローチであることを示す。
参考スコア（独自算出の注目度）: 45.12916211850169
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in imitation learning have led to transformer-based behavior foundation models (BFMs) that enable multi-modal, human-like control for humanoid agents. While excelling at zero-shot generation of robust behaviors, BFMs often require meticulous prompt engineering for specific tasks, potentially yielding suboptimal results. We introduce "Task Tokens", a method to effectively tailor BFMs to specific tasks while preserving their flexibility. Our approach leverages the transformer architecture of BFMs to learn a new task-specific encoder through reinforcement learning, keeping the original BFM frozen. This allows incorporation of user-defined priors, balancing reward design and prompt engineering. By training a task encoder to map observations to tokens, used as additional BFM inputs, we guide performance improvement while maintaining the model's diverse control characteristics. We demonstrate Task Tokens' efficacy across various tasks, including out-of-distribution scenarios, and show their compatibility with other prompting modalities. Our results suggest that Task Tokens offer a promising approach for adapting BFMs to specific control tasks while retaining their generalization capabilities.
Abstract（参考訳）: 近年の模倣学習の進歩により、トランスフォーマーに基づく行動基盤モデル(BFM)は、ヒューマノイド剤のマルチモーダルな人間的な制御を可能にしている。強靭な振る舞いのゼロショット生成に優れているが、BFMは特定のタスクに対して巧妙に迅速なエンジニアリングを必要とし、潜在的に準最適結果をもたらす。タスクトークン(Task Tokens)は、その柔軟性を維持しつつ、特定のタスクにBFMを効果的に調整する手法である。提案手法では,BFMのトランスフォーマーアーキテクチャを活用して,強化学習を通じてタスク固有エンコーダを学習し,元のBFMを凍結したままにしておく。これにより、ユーザ定義の事前の取り込み、報酬設計のバランス、エンジニアリングの促進が可能になる。タスクエンコーダをトレーニングして、追加のBFM入力として使用されるトークンに観察をマッピングすることで、モデルの多様な制御特性を維持しながら、性能改善を導出する。本稿では,タスクトークンの有効性を,配布外シナリオを含む様々なタスクで示すとともに,他のモーダルとの互換性を示す。この結果から,タスクトークンは,その一般化能力を維持しつつ,特定の制御タスクにBFMを適用する上で有望なアプローチであることを示唆した。

関連論文リスト

Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics [42.446740732573296]
行動基礎モデル(BFM)は、任意のタスクに対してゼロショットでポリシーを作成することに成功した。ここでは,BFMファミリーの手法の1つであるフォワード・バックワード(FB)表現が,異なるダイナミクスを区別できないことを示す。本稿では,ゼロショット適応を大幅に促進するトランスフォーマーに基づく信念推定器を備えたFBモデルを提案する。
論文参考訳（メタデータ） (2025-05-19T14:12:19Z)
Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文参考訳（メタデータ） (2024-11-05T04:10:59Z)
SwitchCIT: Switching for Continual Instruction Tuning [14.085371250265224]
大規模言語モデル (LLM) とマルチモーダルモデル (MM) は、様々な領域で印象的な機能を示している。タスクやドメインの進化に大規模なモデルを適用するためには、継続的な命令チューニングが不可欠である。この研究は、パラメータ効率の調整モデルに計算をルーティングするメカニズムを通じて、連続的な命令学習における破滅的な忘れに対処する。
論文参考訳（メタデータ） (2024-07-16T14:37:33Z)
From Instance Training to Instruction Learning: Task Adapters Generation from Instructions [29.452006810725184]
本稿では,事例学習の欠点に対処するために,人間の学習をシミュレートすることに焦点を当てる。タスク固有のモデルを自動的に構築するTAGI(Task Adapters from Instructions)を導入する。超自然的インストラクションとP3データセットを用いたTAGIの評価を行った。
論文参考訳（メタデータ） (2024-06-18T08:14:28Z)
Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文参考訳（メタデータ） (2024-03-01T07:06:57Z)
PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning [28.353530290015794]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文参考訳（メタデータ） (2024-02-23T03:59:18Z)
Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。 FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-02-02T18:00:35Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。 ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文参考訳（メタデータ） (2023-11-01T04:40:05Z)
Learning Task Automata for Reinforcement Learning using Hidden Markov Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文参考訳（メタデータ） (2022-08-25T02:58:23Z)
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文参考訳（メタデータ） (2021-12-10T14:59:06Z)
Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文参考訳（メタデータ） (2020-07-01T09:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。