論文の概要: Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models
- arxiv url: http://arxiv.org/abs/2605.06522v1
- Date: Thu, 07 May 2026 16:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.995864
- Title: Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models
- Title(参考訳): エージェントAIは、基礎モデルにおけるアウト・オブ・ディストリビューションの一般化の欠落パラダイムである
- Authors: Xin Wang, Haibo Chen, Wenxuan Liu, Wenwu Zhu,
- Abstract要約: 基礎モデルに対するOODは、一般的なモデル中心のパラダイムでは解決できない構造的に異なる問題である、と我々は主張する。
まず、観察された複数段階のトレーニング分布に対応するOODの段階的形式化について述べる。
第二に、パラメータカバレッジの天井を証明し、モデル中心の手法が許容範囲内で扱えないような、実質的に関連する入力が存在することを証明します。
- 参考スコア(独自算出の注目度): 39.76167658898793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models (FMs) are increasingly deployed in open-world settings where distribution shift is the rule rather than the exception. The out-of-distribution (OOD) phenomena they face -- knowledge boundaries, capability ceilings, compositional shifts, and open-ended task variation -- differ in kind from the settings that have shaped prior OOD research, and are further complicated because the pretraining and post-training distributions of modern FMs are often only partially observed. Our position is that OOD for foundation models is a structurally distinct problem that cannot be solved within the prevailing model-centric paradigm, and that agentic systems constitute the missing paradigm required to address it. We defend this claim through four steps. First, we give a stage-aware formalization of OOD that accommodates partially observed multi-stage training distributions. Second, we prove a parameter coverage ceiling: there exist practically relevant inputs that no model-centric method (training-time or test-time) can handle within tolerance $\varepsilon$, for reasons intrinsic to parameter-based representation. Third, we characterize agentic OOD systems by four structural properties -- perception, strategy selection, external action, and closed-loop verification -- and show that they strictly extend the reachable set beyond the ceiling. Fourth, we respond to seven counterarguments, conceding two, and outline a research agenda. We do not claim that agentic methods subsume model-centric ones; we argue that the two are complementary, and that progress on FM-OOD requires explicit recognition of the agentic paradigm as a first-class research direction.
- Abstract(参考訳): ファンデーションモデル(FM)は、例外ではなく、分散シフトが規則であるオープンワールド環境において、ますます多くデプロイされている。
彼らが直面するアウト・オブ・ディストリビューション(OOD)現象 -- 知識境界、能力天井、構成シフト、オープンエンドタスクの変動 -- は、以前のOOD研究で形成された設定と種類が異なり、現代のFMの事前訓練と後訓練の分布が部分的にしか観察されないため、さらに複雑である。
我々の立場では、基礎モデルのためのOODは、一般的なモデル中心パラダイムでは解決できない構造的に異なる問題であり、エージェントシステムはそれに取り組むのに必要な欠落パラダイムを構成する。
我々はこの主張を4つのステップで擁護する。
まず、観察された複数段階のトレーニング分布に対応するOODの段階的形式化について述べる。
第二に、パラメータベースの表現に固有の理由から、モデル中心のメソッド(トレーニング時間やテスト時間)が許容範囲内では扱えないという、実質的に関連する入力が存在します。
第3に,エージェントOODシステムは,知覚,戦略選択,外部動作,閉ループ検証の4つの構造特性によって特徴づけられ,天井を越えて到達可能な集合を厳密に拡張していることを示す。
第4に,7つの反論に回答し,2つを容認し,研究議題を概説する。
我々はエージェント的手法がモデル中心の手法を仮定するわけではないと主張し、両者は相補的であり、FM-OODの進歩にはエージェント的パラダイムを第一級研究の方向性として明示的に認識する必要があると主張している。
関連論文リスト
- AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - What Do LLM Agents Do When Left Alone? Evidence of Spontaneous Meta-Cognitive Patterns [27.126691338850254]
外部に課されたタスクを欠いた大規模言語モデル(LLM)エージェントの動作を研究するアーキテクチャを提案する。
永続的なメモリと自己フィードバックを使用して、継続的な理由と行動のフレームワークは、持続的な自律的な操作を可能にします。
論文 参考訳(メタデータ) (2025-09-25T14:29:49Z) - Foundation Models for Demand Forecasting via Dual-Strategy Ensembling [11.926658499983446]
本研究では,現実のサプライチェーンにおける販売予測のための基盤モデルの性能を向上させる統一アンサンブルフレームワークを提案する。
提案手法は,(1)階層型アンサンブル(HE)と(2)モデルバックボーンからの予測を統合し,バイアスを緩和し,安定性を向上させるアーキテクチャアンサンブル(AE)の2つの相補的戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-07-29T17:56:38Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - Exploring Optimal Substructure for Out-of-distribution Generalization
via Feature-targeted Model Pruning [23.938392334438582]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造 OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2022-12-19T13:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。