論文の概要: What Do Agents Learn from Trajectory-SFT: Semantics or Interfaces?
- arxiv url: http://arxiv.org/abs/2602.01611v1
- Date: Mon, 02 Feb 2026 04:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.893644
- Title: What Do Agents Learn from Trajectory-SFT: Semantics or Interfaces?
- Title(参考訳): エージェントはトラジェクトリSFTから何を学ぶか:セマンティックスとインタフェース
- Authors: Weizheng Gu, Chengze Li, Zhuohao Yu, Mengyuan Sun, Zhibang Yang, Wei Wang, Hongrui Jia, Shikun Zhang, Wei Ye,
- Abstract要約: 最小限の書き直し環境インタフェースによるインタフェース依存の診断のためのプロトコルレベルの評価拡張であるPIPEを提案する。
AgentBenchとAgentGymの16の環境と、さまざまなオープンソースおよびAPIベースのエージェントから、PIPEは、trajectory-SFTがインターフェイスショートカットを大幅に増幅することを明らかにした。
さらに、トレーニング時間インタフェースの嗜好を定量化する対等なエイリアスに基づく計量であるInterface Reliance(IR)を導入する。
- 参考スコア(独自算出の注目度): 32.72487312750579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly evaluated as interactive agents, yet standard agent benchmarks conflate two qualitatively distinct sources of success: semantic tool-use and interface-specific interaction pattern memorization. Because both mechanisms can yield identical task success on the original interface, benchmark scores alone are not identifiable evidence of environment-invariant capability. We propose PIPE, a protocol-level evaluation augmentation for diagnosing interface reliance by minimally rewriting environment interfaces while preserving task semantics and execution behavior. Across 16 environments from AgentBench and AgentGym and a range of open-source and API-based agents, PIPE reveals that trajectory-SFT substantially amplifies interface shortcutting: trained agents degrade sharply under minimal interface rewrites, while non-trajectory-trained models remain largely stable. We further introduce Interface Reliance (IR), a counterbalanced alias-based metric that quantifies preference for training-time interfaces, and show that interface shortcutting exhibits environment-dependent, non-monotonic training dynamics that remain invisible under standard evaluation. Our code is available at https://anonymous.4open.science/r/What-Do-Agents-Learn-from-Trajectory-SFT-Semantics-or-Interfaces-- 0831/.
- Abstract(参考訳): 大規模言語モデルは対話型エージェントとしてますます評価されているが、標準的なエージェントベンチマークでは、セマンティックツールの使用とインターフェース固有のインタラクションパターン記憶という、2つの定性的に異なる成功源が説明されている。
両方のメカニズムが元のインターフェイス上で同じタスクを成功させる可能性があるため、ベンチマークスコアだけでは環境不変能力を識別できない。
タスクのセマンティクスと実行動作を保ちながら、最小限の書き直し環境インタフェースによってインタフェース依存を診断するためのプロトコルレベルの評価拡張であるPIPEを提案する。
AgentBenchとAgentGymの16の環境と、さまざまなオープンソースおよびAPIベースのエージェントから、PIPEは、trajectory-SFTがインターフェイスショートカットを大幅に増幅することを明らかにした。
さらに、トレーニング時間インタフェースの嗜好を定量化する対等なエイリアス尺度であるInterface Reliance (IR)を導入し、インタフェースショートカットが、標準的な評価では見えない環境に依存しない非モノトニックなトレーニングダイナミクスを示すことを示す。
私たちのコードはhttps://anonymous.4open.science/r/What-Do-Agents-Learn-from-Trajectory-SFT-Semantics-or-Interfaces-0 831/で公開されている。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。
本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。
その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-08-26T17:43:20Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Agent-Environment Alignment via Automated Interface Generation [10.469261669159367]
大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
エージェントの内部の期待と、発行されたアクションの影響と、環境における実際の状態遷移との間には、しばしばミスマッチが発生します。
我々は,環境の静的情報とエージェントに返されるステップワイズ観測の両方を強化するインタフェースであるtextbfALIGNを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:44:50Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。