論文の概要: SayNext-Bench: Why Do LLMs Struggle with Next-Utterance Prediction?
- arxiv url: http://arxiv.org/abs/2602.00327v1
- Date: Fri, 30 Jan 2026 21:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.118971
- Title: SayNext-Bench: Why Do LLMs Struggle with Next-Utterance Prediction?
- Title(参考訳): SayNext-Bench:なぜLLMは次世代の予測に固執するのか?
- Authors: Yueyi Yang, Haotian Liu, Fang Kang, Mengqi Zhang, Zheng Lian, Hao Tang, Haoyu Chen,
- Abstract要約: 先行モデルでさえ、人間の話者の次の発話を予測するのに驚くほど苦労しています。
その代わり、人間は、コンテキストからジェスチャー、視線、感情のトーンといったマルチモーダルな手がかりに基づいて、来るべき発話を予測できる。
我々は,会話における予測処理をエミュレートするために,認知にインスパイアされた設計を取り入れた2経路予測MLLM,SayNext-Chatを開発した。
- 参考スコア(独自算出の注目度): 42.890703748349814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We explore the use of large language models (LLMs) for next-utterance prediction in human dialogue. Despite recent advances in LLMs demonstrating their ability to engage in natural conversations with users, we show that even leading models surprisingly struggle to predict a human speaker's next utterance. Instead, humans can readily anticipate forthcoming utterances based on multimodal cues, such as gestures, gaze, and emotional tone, from the context. To systematically examine whether LLMs can reproduce this ability, we propose SayNext-Bench, a benchmark that evaluates LLMs and Multimodal LLMs (MLLMs) on anticipating context-conditioned responses from multimodal cues spanning a variety of real-world scenarios. To support this benchmark, we build SayNext-PC, a novel large-scale dataset containing dialogues with rich multimodal cues. Building on this, we further develop a dual-route prediction MLLM, SayNext-Chat, that incorporates cognitively inspired design to emulate predictive processing in conversation. Experimental results demonstrate that our model outperforms state-of-the-art MLLMs in terms of lexical overlap, semantic similarity, and emotion consistency. Our results prove the feasibility of next-utterance prediction with LLMs from multimodal cues and emphasize the (i) indispensable role of multimodal cues and (ii) actively predictive processing as the foundation of natural human interaction, which is missing in current MLLMs. We hope that this exploration offers a new research entry toward more human-like, context-sensitive AI interaction for human-centered AI. Our benchmark and model can be accessed at https://saynext.github.io/.
- Abstract(参考訳): 人間の対話における次の発話予測における大規模言語モデル(LLM)の利用について検討する。
LLMの最近の進歩は、ユーザとの自然な会話を行う能力を示しているが、主要なモデルでさえ、人間の話者の次の発話を予測するのに驚くほど苦労していることを示している。
その代わり、人間は、コンテキストからジェスチャー、視線、感情のトーンといったマルチモーダルな手がかりに基づいて、来るべき発話を予測できる。
実世界の様々なシナリオにまたがるマルチモーダルキューからの文脈条件応答を予測するため, LLM と Multimodal LLM (MLLM) を評価するベンチマークである SayNext-Bench を提案する。
このベンチマークをサポートするために、豊富なマルチモーダルキューを含む対話を含む新しい大規模データセットであるSayNext-PCを構築した。
これに基づいて,会話における予測処理をエミュレートするために,認知にインスパイアされた設計を取り入れた2経路予測MLLM,SayNext-Chatを開発した。
実験により,我々のモデルは,語彙的重なり合い,意味的類似性,感情的一貫性の観点から,最先端のMLLMよりも優れていることが示された。
この結果から,マルチモーダルキューからのLLMによる次の発話予測の実現可能性を示し,その課題を強調した。
(i)マルチモーダル・キューと欠かせない役割
(II)現在のMLLMでは欠落している自然人との相互作用の基礎として積極的に予測処理を行う。
この調査によって、人間中心のAIのための、より人間らしくコンテキストに敏感なAIインタラクションに向けた、新たな研究エントリが提供されることを期待しています。
私たちのベンチマークとモデルはhttps://saynext.github.io/でアクセスできます。
関連論文リスト
- Can MLLMs Read the Room? A Multimodal Benchmark for Assessing Deception in Multi-Party Social Interactions [26.074938251210842]
高度な推論能力にもかかわらず、最先端のマルチモーダル大言語モデル(MLLM)は明らかに人間の知能のコアコンポーネントを欠いている。
新しいタスクであるMIDA(Multimodal Interactive Deception Assessment)を導入する。
本論文では,各文に対して,テキストとビデオの同期化を実現する新しいマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2025-11-20T10:44:21Z) - SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。
SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。
また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文 参考訳(メタデータ) (2025-06-05T05:51:35Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - Benchmarking Sequential Visual Input Reasoning and Prediction in
Multimodal Large Language Models [21.438427686724932]
本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。
本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。
実験により,提案したベンチマークの音質と評価方法が検証された。
論文 参考訳(メタデータ) (2023-10-20T13:14:38Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。