論文の概要: Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
- arxiv url: http://arxiv.org/abs/2509.26388v1
- Date: Tue, 30 Sep 2025 15:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.596749
- Title: Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
- Title(参考訳): ゲームタイム:音声言語モデルにおける時間的ダイナミクスの評価
- Authors: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass,
- Abstract要約: 時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
- 参考スコア(独自算出の注目度): 93.844257719952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.
- Abstract(参考訳): 対話型音声言語モデル(SLM)は,リアルタイム音声対話において有望なパラダイムとして浮上している。
しかし、時間的ダイナミクスの能力には、タイミング、テンポ、同時発話の管理能力が含まれており、会話の流布に対する批判的かつ未評価の課題である。
このギャップに対処するために,これらの時間的能力を体系的に評価するフレームワークであるGame-Time Benchmarkを紹介した。
人間が言語活動を通して言語を学ぶ方法にインスパイアされたGame-Timeは、基本的な指示追従タスクと、テンポの定着や同期応答といった時間的制約を伴う高度なタスクで構成されている。
現状のモデルは基本的なタスクをうまく処理するが、現代のシステムの多くは基礎的な命令追従に苦戦している。
より重要なことに、ほぼ全てのモデルは時間的制約の下で大幅に劣化し、時間的認識と完全な二重相互作用において永続的な弱点を露呈する。
Game-Time Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
デモとデータセットは、プロジェクトのWebサイトhttps://ga642381.github.io/Game-Time.comで公開されている。
関連論文リスト
- KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data [22.274663165215237]
時系列分析は、医療、金融、交通、エネルギーなど幅広い分野において重要である。
現在の時系列モデルは、時系列とテキストコンテンツの両方を含む推論を行う能力に制限がある。
Chat-TSは時系列トークンをLLMの語彙に統合し、両方のモダリティに対する推論能力を高める。
論文 参考訳(メタデータ) (2025-03-13T21:05:11Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文 参考訳(メタデータ) (2021-06-08T17:59:21Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。