論文の概要: Bifrost: Steering Strategic Trajectories to Bridge Contextual Gaps for Self-Improving Agents
- arxiv url: http://arxiv.org/abs/2602.05810v1
- Date: Thu, 05 Feb 2026 16:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.024443
- Title: Bifrost: Steering Strategic Trajectories to Bridge Contextual Gaps for Self-Improving Agents
- Title(参考訳): Bifrost: 自己改善剤のためのコンテキストギャップをブリッジするための戦略軌道のステアリング
- Authors: Quan M. Tran, Zhuo Huang, Wenbin Zhang, Bo Han, Koji Yatani, Masashi Sugiyama, Tongliang Liu,
- Abstract要約: 本稿では,自己改善のための訓練不要な方法として,BrIdgeコンテキストギャップFoR不適応軌道ステアリング(Bifrost)を提案する。
ビフロストは既存の軌道再利用と微調整による自己改善法を一貫して上回る。
- 参考スコア(独自算出の注目度): 102.21483770287985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents excel in self-improvement through reflection and iterative refinement, which reuse successful task trajectories as in-context examples to assist subsequent reasoning. However, shifting across tasks often introduces a context mismatch. Hence, existing approaches either discard the trajectories or manipulate them using heuristics, leading to a non-negligible fine-tuning cost or unguaranteed performance. To bridge this gap, we reveal a context-trajectory correlation, where shifts of context are highly parallel with shifts of trajectory. Based on this finding, we propose BrIdge contextual gap FoR imprOvised trajectory STeering (Bifrost), a training-free method that leverages context differences to precisely guide the adaptation of previously solved trajectories towards the target task, mitigating the misalignment caused by context shifts. Our trajectory adaptation is conducted at the representation level using agent hidden states, ensuring trajectory transformation accurately aligns with the target context in a shared space. Across diverse benchmarks, Bifrost consistently outperforms existing trajectory reuse and finetuned self-improvement methods, demonstrating that agents can effectively leverage past experiences despite substantial context shifts.
- Abstract(参考訳): 自律的なエージェントは、リフレクションと反復的な改善を通じて自己改善を推進し、タスク軌跡をインコンテキストの例として再利用し、その後の推論を支援する。
しかし、タスクを切り替えるとコンテキストミスマッチが発生することが多い。
したがって、既存のアプローチは軌跡を捨てるか、ヒューリスティックを使ってそれらを操作し、無視できない微調整コストや保証されないパフォーマンスをもたらす。
このギャップを埋めるために、文脈と軌道の相関が明らかとなり、文脈のシフトは軌道のシフトと非常に平行である。
この知見に基づいて, BrIdge の文脈的ギャップ FoR imprOvised trajectory STeering (Bifrost) を提案する。
我々の軌道適応はエージェント隠蔽状態を用いて表現レベルで行われ、軌道変換が共有空間内のターゲットコンテキストと正確に一致することを保証する。
多様なベンチマークを通じて、Bifrostは既存のトラジェクトリの再利用と微調整された自己改善手法を一貫して上回っており、エージェントがコンテキストシフトがかなりあるにもかかわらず、過去の経験を効果的に活用できることを実証している。
関連論文リスト
- A Turn Toward Better Alignment: Few-Shot Generative Adaptation with Equivariant Feature Rotation [67.2019317630466]
少ない撮影画像生成は、ごく少数の訓練画像を用いて、ソース生成モデルをターゲット領域に効果的に適応することを目的としている。
Equivariant Feature Rotation (EFR) は、ソースドメインとターゲットドメインを2つの相補的なレベルで整列させる新しい適応戦略である。
本手法は,対象領域内の生成性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-24T13:48:22Z) - CAPE: Context-Aware Diffusion Policy Via Proximal Mode Expansion for Collision Avoidance [15.311155448797386]
近位モード拡張(CAPE)による文脈対応拡散政策
CAPEは、文脈認識の事前と推論時のガイダンスで軌道分布モードを拡張する。
本研究では,多様な操作タスクに対するCAPEの評価を行った。
論文 参考訳(メタデータ) (2025-11-27T21:53:09Z) - FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。
これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。
本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文 参考訳(メタデータ) (2025-07-27T22:21:53Z) - Contrast & Compress: Learning Lightweight Embeddings for Short Trajectories [11.6132604160666]
トランスフォーマーエンコーダを応用して, 短い軌道の固定次元埋め込みを学習するための新しいフレームワークを提案する。
コントラスト学習パラダイムにおけるコサインとFFTに基づく類似度指標の影響を分析した。
Argoverse 2データセットに対する実験的な評価は、Cosine類似性目的によって形成された埋め込みが軌道のより優れたクラスタリングをもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-03T07:53:04Z) - Efficient Data Representation for Motion Forecasting: A Scene-Specific Trajectory Set Approach [12.335528093380631]
本研究では,異なる状況に合わせたシーン固有の軌跡セットを生成するための新しい手法を提案する。
決定論的ゴールサンプリングアルゴリズムは関連する地図領域を同定する一方,再帰的分布サブサンプリング (RIDS) 法はトラジェクトリの妥当性を高める。
Argoverse 2データセットの実験では、運転エリアコンプライアンスの最大10%の改善が達成されている。
論文 参考訳(メタデータ) (2024-07-30T11:06:39Z) - Augmenting Safety-Critical Driving Scenarios while Preserving Similarity to Expert Trajectories [3.072340427031969]
軌道拡大は、模倣学習における分布シフトを緩和する手段として機能する。
本稿では,専門家の軌跡データとの類似性を維持するための手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T11:05:47Z) - Recurrent Aligned Network for Generalized Pedestrian Trajectory Prediction [41.000755300574156]
歩行者の軌道予測はコンピュータビジョンとロボット工学において重要な要素である。
従来の研究では、対象領域からの軌道データの一部をモデルに適応させることで、この問題に対処しようと試みてきた。
本稿では、ドメインアライメントによるドメインギャップを最小限に抑えるために、Recurrent Aligned Network(RAN)を導入する。
論文 参考訳(メタデータ) (2024-03-09T06:17:09Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Self-supervised Augmentation Consistency for Adapting Semantic
Segmentation [56.91850268635183]
本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。
私たちは標準データ拡張技術である$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、セマンティック予測の一貫性を保証する。
適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。
論文 参考訳(メタデータ) (2021-04-30T21:32:40Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。