Fugu-MT 論文翻訳(概要): Temporal Blindness in Multi-Turn LLM Agents: Misaligned Tool Use vs. Human Time Perception

論文の概要: Temporal Blindness in Multi-Turn LLM Agents: Misaligned Tool Use vs. Human Time Perception

arxiv url: http://arxiv.org/abs/2510.23853v1
Date: Mon, 27 Oct 2025 20:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-29 15:35:36.51412
Title: Temporal Blindness in Multi-Turn LLM Agents: Misaligned Tool Use vs. Human Time Perception
Title（参考訳）: マルチTurn LLMエージェントの時間的盲点:ツール使用と人間の時間知覚の相違
Authors: Yize Cheng, Arshia Soltani Moakhar, Chenrui Fan, Kazem Faghih, Parsa Hosseini, Wenxiao Wang, Soheil Feizi,
Abstract要約: TicToc-v1は、時間感度の異なるマルチターンユーザエージェントトラジェクトリのテストセットである。それぞれのトラジェクトリはユーザからの質問で終わる。そこでは、ツールコールの必要性は、最後のメッセージから経過した時間に依存する。静的な対話と進化する環境の間のギャップを埋め、明確なタイムスタンプで対話メッセージを拡大する。
参考スコア（独自算出の注目度）: 44.77091112136379
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model agents are increasingly used in multi-turn conversational settings to interact with and execute tasks in dynamic environments. However, a key limitation is their temporal blindness: they, by default, operate with a stationary context, failing to account for the real-world time elapsed between messages. This becomes a critical liability when an agent must decide whether to invoke a tool based on how much time has passed since the last observation. Without temporal awareness, agents often either over-rely on previous context (skipping necessary tool calls), or under-rely on it (unnecessarily repeating tool calls). To study this challenge, we introduce TicToc-v1, a test set of multi-turn user-agent trajectories across 34 scenarios with varying time sensitivity. Each trajectory ends with a user question, where the need for a tool call depends on the amount of time elapsed since the last message. To give LLMs temporal context, we augment dialogue messages with explicit timestamps, bridging the gap between static dialogue and evolving environments. We then collected human preferences for these samples, creating two subsets: one where humans preferred relying on the previous observation (prefer-noTool), and another where they preferred a new tool call (prefer-Tool). We evaluated how well LLM tool-calling decisions align with human preferences under varying time intervals on TicToc-v1. Our analysis show that without time information, most models perform only slightly better than random, with the top alignment rate being just over 60%. While adding timestamps leads to a slight improvement, particularly for larger models, the improvement is modest, peaking at around 65%. We also show that naive, prompt-based alignment have limited effectiveness. Our findings highlight the need for specific post-training alignment to align multi-turn LLM tool use with human temporal perception.
Abstract（参考訳）: 大規模言語モデルエージェントは、動的環境におけるタスクと対話し実行するために、マルチターンの会話設定でますます使われている。しかし、重要な制限は、彼らの時間的盲点である。それらはデフォルトでは、静止したコンテキストで動作し、メッセージ間の実際の時間経過を説明できない。これは、エージェントが前回の観察からどれだけの時間が経過したかに基づいてツールを呼び出すかどうかを判断する必要がある場合、重要な責任となる。時間的認識がなければ、エージェントは以前のコンテキスト(必要なツールコールをスキップする)を過度に参照するか、あるいはツールコールを過度に実行する(不要にツールコールを繰り返す)かのいずれかである。この課題を研究するために,34シナリオにわたるマルチターンユーザエージェントトラジェクトリのテストセットであるTicToc-v1を紹介した。それぞれのトラジェクトリはユーザからの質問で終わる。そこでは、ツールコールの必要性は、最後のメッセージから経過した時間に依存する。 LLMに時間的コンテキストを与えるため、静的な対話と進化する環境の間のギャップを埋め、明示的なタイムスタンプで対話メッセージを増強する。ひとつは、人間が以前の観察(prefer-noTool)を優先する部分であり、もうひとつは、新しいツールコール(prefer-Tool)を推奨する部分です。我々は, TicToc-v1において, LLMツールコール決定が時間間隔の異なる人間の嗜好とどの程度一致しているかを評価した。我々の分析では、時間情報がない場合、ほとんどのモデルはランダムよりもわずかに良い結果しか得られず、上位アライメントレートは60%以上である。タイムスタンプを追加すると、特に大型モデルではわずかに改善されるが、改善は控えめで、ピークは65%である。また,ナイーブなプロンプトベースのアライメントが有効性に限界があることも示した。本研究は,マルチターンLDMツールと人間の時間的知覚を合わせるために,特定のトレーニング後アライメントの必要性を浮き彫りにした。

関連論文リスト

Discrete-event Tensor Factorization: Learning a Smooth Embedding for Continuous Domains [0.0]
本稿では、因子化スタイルのレコメンデーションモデルにおいて、時間がどのように符号化されるかを分析する。機能として絶対時間を含めることで、私たちのモデルはさまざまなユーザの好みを学習し、時間とともにアイテムの知覚を変化させることができます。
論文参考訳（メタデータ） (2025-08-06T08:54:57Z)
Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。 Time-MQAの中心はTSQAデータセットである。
論文参考訳（メタデータ） (2025-02-26T13:47:13Z)
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。 GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2025-01-18T06:41:48Z)
TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。我々は時間的接地タスクを時間的精錬タスクとして再構成する。我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文参考訳（メタデータ） (2024-12-12T18:59:11Z)
Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。 2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文参考訳（メタデータ） (2024-09-20T08:57:20Z)
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文参考訳（メタデータ） (2024-06-22T03:20:10Z)
Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文参考訳（メタデータ） (2024-05-31T22:44:48Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。 PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文参考訳（メタデータ） (2022-08-16T17:17:53Z)
TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文参考訳（メタデータ） (2021-06-08T17:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。