論文の概要: Cross-Environment Neural Reranking for Sample-Efficient Action Selection in Text-Based Agents
- arxiv url: http://arxiv.org/abs/2606.02204v1
- Date: Mon, 01 Jun 2026 13:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.082874
- Title: Cross-Environment Neural Reranking for Sample-Efficient Action Selection in Text-Based Agents
- Title(参考訳): テキストベースエージェントにおけるサンプル効率の良い行動選択のためのクロス環境ニューラルネットワーク
- Authors: Kan Shao,
- Abstract要約: 大規模言語モデルエージェントは、テキストベースのベンチマークでは高いパフォーマンスを達成するが、不当な推論コストを発生させる。
単一軽量モデルが多様な環境において動作選択を行うことができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents achieve strong performance on text-based benchmarks but incur prohibitive inference costs, motivating the use of compact neural rerankers for action selection. We investigate whether a single lightweight model can perform action selection across multiple diverse environments, a capability that would eliminate per-environment model maintenance. Training DeBERTa-v3 (184M-434M parameters) jointly on ALFWorld, WebShop, and ScienceWorld with minority-class upsampling, we find that rebalanced two-environment joint training substantially improves over single-environment ALFWorld performance (net gain +0.412) while maintaining competitive WebShop performance (+0.214 vs. +0.249 single-environment). Three-environment training yields a mean combined net gain of +0.551 +/- 0.024 across 4 seeds, with per-environment results approaching specialized single-environment models while providing positive cross-domain transfer. Cross-environment adaptation is highly sample-efficient: fine-tuning on only 9.2% of target-domain data recovers 93% of full-data performance, and scaling model capacity yields limited benefits, indicating data diversity is the primary driver. Environment-aware LoRA adapter routing with PCGrad achieves a best-seed result of +0.611 (seed 42), with seeds 456 and 789 at +0.554 and +0.559, but exhibits high variance due to seed 123 collapsing to +0.263 (4-seed mean +0.497 +/- 0.158), representing a promising but currently unstable direction. Joint training with clean splits and data rebalancing is a key ingredient. We will release our three-environment benchmark of 51,580 training instances (41,740 raw unique states with minority-class upsampling) and all model checkpoints upon acceptance.
- Abstract(参考訳): 大規模言語モデルエージェントは、テキストベースのベンチマークでは高いパフォーマンスを達成するが、推論コストが不必要であり、アクション選択にコンパクトなニューラルリランカを使用する動機となっている。
一つの軽量モデルが多様な環境にまたがって行動選択を行うことができるかどうかを検討する。
DeBERTa-v3(184M-434Mパラメータ)をALFWorld、WebShop、ScienceWorldとマイノリティクラスアップサンプリングで併用することにより、再バランスされた2環境共同トレーニングは、競争力のあるWebShop性能(+0.214 vs. +0.249シングル環境)を維持しながら、単一環境のALFWorldのパフォーマンス(ネットゲイン+0.412)を大幅に改善することがわかった。
3環境トレーニングでは,4種の種子に+0.551+/-0.024の混合純利益が得られ,各環境は特定の単一環境モデルに近づき,正のクロスドメイン移動をもたらす。
ターゲットドメインデータの9.2%のみを微調整すると、完全なデータ性能の93%が回復し、スケーリングモデルのキャパシティは限られた利益をもたらし、データの多様性が第一の要因であることを示している。
PCGrad による環境に配慮した LoRA アダプタルーティングは、+0.611 (シード42) で、種子 456 と 789 を +0.554 と +0.559 で達成するが、種子 123 が +0.263 (4-seed mean +0.497 +/-0.158) に崩壊し、将来性はあるが現在不安定な方向を示す。
クリーンスプリットとデータリバランシングによる共同トレーニングが重要な要素だ。
51,580のトレーニングインスタンス(少数クラスのアップサンプリングを備えた41,740の生のユニークな状態)と受け入れ時のモデルチェックポイントの3つの環境ベンチマークをリリースする。
関連論文リスト
- TRACE: Capability-Targeted Agentic Training [11.088296897059157]
環境特異的なエージェント自己改善のためのエンドツーエンドシステムであるTRACEを紹介する。
TRACEは、機能不足を特定するために、成功と失敗の軌跡を対比している。
目標とするトレーニング環境を合成し、その能力が行使されたかどうかを報奨する。
各合成環境において、LoRAアダプタをRL経由でトレーニングし、推論時に関連するアダプタにルーティングする。
論文 参考訳(メタデータ) (2026-04-07T02:22:44Z) - Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression [0.0]
The CSIRO Pasture Biomass benchmarkにおいて、視覚基盤モデルの農業レグレッションへの適応を体系的に評価した。
希少な農業データでは、2つの層にゲートされた深さ方向の畳み込み(R2 = 0.903)が、クロスビュー・アテンション・トランスフォーマーより優れる。
バックボーン事前トレーニングスケールは、すべてのアーキテクチャ選択を単調に支配している。
論文 参考訳(メタデータ) (2026-03-08T21:41:01Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - Extract-0: A Specialized Language Model for Document Information Extraction [0.0]
本稿では,文書情報抽出に特化して最適化された7ビリオンパラメータ言語モデルであるExtract-0を提案する。
Extract-0は、GPT-4.1 (0.457)、o3 (0.464)、GPT-4.1-2025 (0.459)を上回り、1000種類の文書抽出タスクのベンチマークで0.573の平均的な報酬を得る。
論文 参考訳(メタデータ) (2025-09-26T20:34:43Z) - Bridging Synthetic and Real-World Domains: A Human-in-the-Loop Weakly-Supervised Framework for Industrial Toxic Emission Segmentation [2.6954348706500766]
産業煙のセグメンテーションは大気汚染の監視と環境保護に重要であるが、現実の環境では高コストでピクセルレベルのアノテーションが不足しているため、しばしば妨げられる。
我々はCEDANetを紹介した。CEDANetは、弱い、市民が提供したビデオレベルラベルと敵対的な特徴アライメントを統合した、クラス対応のドメイン適応フレームワークである。
CEDANetは0.414のF1スコアと0.261のスモーククラスIoUを市民のフィードバックで達成し、ベースラインモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-29T16:53:00Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Towards Instance-adaptive Inference for Federated Learning [80.38701896056828]
Federated Learning(FL)は、複数のクライアントがローカルトレーニングを集約することで、強力なグローバルモデルを学ぶことができる分散学習パラダイムである。
本稿では,FedInsという新しいFLアルゴリズムを提案する。
我々のFedInsは、Tiny-ImageNet上での通信コストが15%未満で、トップパフォーマンスの手法に対して6.64%の改善など、最先端のFLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:58:47Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。