論文の概要: Measuring temporal effects of agent knowledge by date-controlled tool use
- arxiv url: http://arxiv.org/abs/2503.04188v1
- Date: Thu, 06 Mar 2025 08:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:43.377011
- Title: Measuring temporal effects of agent knowledge by date-controlled tool use
- Title(参考訳): 日付制御ツールによるエージェント知識の時間的効果の測定
- Authors: R. Patrick Xian, Qiming Cui, Stefan Bauer, Reza Abbasi-Asl,
- Abstract要約: 我々は,日付制御ツールから大規模言語モデル(LLM)エージェントの知識変動を測定するために,ツールベースのサンプル外テストフレームワークを構築した。
検索エンジンの時間的効果はツール依存エージェントのパフォーマンスに変換されるが,基本モデルの選択や明示的な推論命令によって緩和できることを示す。
- 参考スコア(独自算出の注目度): 14.994533955052113
- License:
- Abstract: Temporal progression is an integral part of knowledge accumulation and update. Web search is frequently adopted as grounding for agent knowledge, yet its inappropriate configuration affects the quality of agent responses. Here, we construct a tool-based out-of-sample testing framework to measure the knowledge variability of large language model (LLM) agents from distinct date-controlled tools (DCTs). We demonstrate the temporal effects of an LLM agent as a writing assistant, which can use web search to help complete scientific publication abstracts. We show that temporal effects of the search engine translates into tool-dependent agent performance but can be alleviated with base model choice and explicit reasoning instructions such as chain-of-thought prompting. Our results indicate that agent evaluation should take a dynamical view and account for the temporal influence of tools and the updates of external resources.
- Abstract(参考訳): 時間的進歩は知識の蓄積と更新の不可欠な部分である。
Web検索はしばしばエージェント知識の基盤として採用されるが、その不適切な構成はエージェント応答の品質に影響を及ぼす。
そこで我々は,大規模言語モデル (LLM) エージェントの知識変動を,異なる日付制御ツール (DCT) から測定するために,ツールベースのアウトオブサンプルテストフレームワークを構築した。
本稿では,LLMエージェントの書記アシスタントとしての時間的効果を実演し,Web検索を用いて学術論文の要約の完全化を支援する。
検索エンジンの時間的効果はツール依存エージェントのパフォーマンスに変換されるが,基本モデルの選択やチェーン・オブ・シークレット・プロンプトのような明確な推論命令によって緩和できることを示す。
この結果から, エージェント評価は動的視点を取り入れ, ツールの時間的影響と外部リソースの更新を考慮すべきであることが示唆された。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。