論文の概要: $\texttt{DIAMONDs}$: A Dataset for $\mathbb{D}$ynamic $\mathbb{I}$nformation $\mathbb{A}$nd $\mathbb{M}$ental modeling $\mathbb{O}$f $\mathbb{N}$umeric $\mathbb{D}$iscussions
- arxiv url: http://arxiv.org/abs/2505.12651v1
- Date: Mon, 19 May 2025 03:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.373988
- Title: $\texttt{DIAMONDs}$: A Dataset for $\mathbb{D}$ynamic $\mathbb{I}$nformation $\mathbb{A}$nd $\mathbb{M}$ental modeling $\mathbb{O}$f $\mathbb{N}$umeric $\mathbb{D}$iscussions
- Title(参考訳): $\texttt{DIAMONDs}$: A Dataset for $\mathbb{D}$ynamic $\mathbb{I}$nformation $\mathbb{A}$nd $\mathbb{M}$ental modeling $\mathbb{O}$f $\mathbb{N}$umeric $\mathbb{D}$iscussions
- Authors: Sayontan Ghosh, Mahnaz Koupaee, Yash Kumar Lal, Pegah Alipoormolabashi, Mohammad Saqib Hasan, Jun Seok Kang, Niranjan Balasubramanian,
- Abstract要約: 本稿では,高品質なベンチマーク・問合せペアを生成するためのスケーラブルな手法を提案する。
$texttDIAMONDs$は新しい会話型QAデータセットで、共通のビジネス、財務、その他のグループインタラクションをカバーしている。
我々の最先端言語モデルに対する評価は、参加者中心の推論を扱う上で重要な課題であることを示している。
- 参考スコア(独自算出の注目度): 16.052621415969696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding multiparty conversations demands robust Theory of Mind (ToM) capabilities, including the ability to track dynamic information, manage knowledge asymmetries, and distinguish relevant information across extended exchanges. To advance ToM evaluation in such settings, we present a carefully designed scalable methodology for generating high-quality benchmark conversation-question pairs with these characteristics. Using this methodology, we create $\texttt{DIAMONDs}$, a new conversational QA dataset covering common business, financial or other group interactions. In these goal-oriented conversations, participants often have to track certain numerical quantities (say $\textit{expected profit}$) of interest that can be derived from other variable quantities (like $\textit{marketing expenses, expected sales, salary}$, etc.), whose values also change over the course of the conversation. $\texttt{DIAMONDs}$ questions pose simple numerical reasoning problems over such quantities of interest (e.g., $\textit{funds required for charity events, expected company profit next quarter}$, etc.) in the context of the information exchanged in conversations. This allows for precisely evaluating ToM capabilities for carefully tracking and reasoning over participants' knowledge states. Our evaluation of state-of-the-art language models reveals significant challenges in handling participant-centric reasoning, specifically in situations where participants have false beliefs. Models also struggle with conversations containing distractors and show limited ability to identify scenarios with insufficient information. These findings highlight current models' ToM limitations in handling real-world multi-party conversations.
- Abstract(参考訳): マルチパーティの会話を理解するには、動的情報を追跡し、知識の対称性を管理し、拡張された交換所間で関連情報を識別する機能を含む、堅牢な心の理論(ToM)機能が必要である。
このような環境でのToM評価を進めるために,これらの特徴を活かした高品質なベンチマーク・問合せペアを生成するためのスケーラブルな手法を慎重に設計する。
この手法を用いて、共通のビジネス、財務、その他のグループ間相互作用をカバーする新しい会話型QAデータセットである$\texttt{DIAMONDs}$を作成します。
これらの目標志向の会話では、参加者は、他の変動量($\textit{marketing expenses, expected sales, salary}$など)から導出される、ある数値(例えば$\textit{expected profit}$)を追跡しなければならないことが多い。
また、会話の途中で価値も変化する。
$\texttt{DIAMONDs}$ questionは、このような関心事(例えば、チャリティーイベントに必要な$\textit{funds、次の四半期の企業利益など)に関する単純な数値推論の問題を引き起こす。
) 会話で交換された情報の文脈において。
これにより、参加者の知識状態を注意深く追跡し、推論するためのToM機能を正確に評価することができる。
現状の言語モデルに対する我々の評価は、参加者中心の推論を扱う上で、特に参加者が誤った信念を持っている状況において、大きな課題が浮かび上がっていることを示している。
モデルは、邪魔者を含む会話に苦労し、不十分な情報を持つシナリオを識別する限られた能力を示す。
これらの知見は、現実のマルチパーティ会話を扱う上で、現在のモデルのToM制限を強調している。
関連論文リスト
- MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering [21.064096256892686]
マルチモーダル時系列データセットは、クロスモーダル推論と複雑な質問応答の評価において不足している。
時系列およびテキスト理解における大規模言語モデル(LLM)を評価するベンチマークであるMTBench(Multimodal Time Series Benchmark)を紹介する。
MTbench 上での最先端 LLM の評価を行い,ニュース物語と時間パターンの複雑な関係をモデル化する上での有効性を分析した。
論文 参考訳(メタデータ) (2025-03-21T05:04:53Z) - Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding [44.870165050047355]
マルチモーダル・マルチパーティ・会話(MMC)は、あまり研究されていないが重要な研究テーマである。
MMCは、視覚とテキストの両方の文脈に多くのインターロケータが存在するため、文字中心の理解能力を必要とする。
ビデオコンテキストと組み合わせた24,000以上のユニークな発話を含むMCCデータセットであるFriends-MMCを提案する。
論文 参考訳(メタデータ) (2024-12-23T05:32:48Z) - DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling [73.08187964426823]
大規模言語モデル (LLM) によって実現された対話システムは、人間と機械の相互作用において中心的なモードの1つとなっている。
本稿では,新しい研究課題--$textbfD$ialogue $textbfE$lement $textbfMO$delingを紹介する。
本稿では,包括的対話モデリングと評価のために設計された新しいベンチマークである$textbfDEMO$を提案する。
論文 参考訳(メタデータ) (2024-12-06T10:01:38Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Incorporating Pre-trained Model Prompting in Multimodal Stock Volume
Movement Prediction [22.949484374773967]
本稿では,PromptをベースとしたMUltimodal Stock volumE予測モデル(ProMUSE)を提案する。
金融ニュースの理解を深めるために、事前訓練された言語モデルを使用します。
また, この問題を緩和するため, 核融合ヘッドの横にある一方向の頭部を保ちながら, 新たな異方性コントラストアライメントを提案する。
論文 参考訳(メタデータ) (2023-09-11T16:47:01Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded
Dialogue [30.930757279692163]
対話と映像の両方を理解するためには, 対話システムが必要となる。
既存のベンチマークには、対話システムを分析するのに十分なアノテーションがありません。
ビデオや対話でさまざまな推論能力をテストすることができる診断データセットを提示する。
論文 参考訳(メタデータ) (2021-01-01T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。