論文の概要: Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry
- arxiv url: http://arxiv.org/abs/2603.05450v1
- Date: Thu, 05 Mar 2026 18:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.364882
- Title: Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry
- Title(参考訳): 分散型部分的情報ノズル:非対称性下の共通地盤構築の検討
- Authors: Yifan Zhu, Mariah Bradford, Kenneth Lai, Timothy Obiso, Videep Venkatesha, James Pustejovsky, Nikhil Krishnaswamy,
- Abstract要約: 本研究では, エピステミック非対称性下でのマルチモーダル通信を多用する協調作業であるDPIP(Distributed partial Information Puzzle)を紹介する。
提案する内容や信念のダイナミクスに対する推論を支援するために, 音声, ジェスチャー, 行動モダリティ間でアノテートされ, 時間的に一致したこれらの相互作用のマルチモーダルデータセットを提案する。
そこで我々は,(1)多モーダル更新から共有信念を推論するために誘導される最先端の大規模言語モデル(LLM)と,(2)動的疫学論理(DEL)を基盤とした公理パイプラインの2つのパラダイムを評価する。
- 参考スコア(独自算出の注目度): 12.909843280558986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Establishing common ground, a shared set of beliefs and mutually recognized facts, is fundamental to collaboration, yet remains a challenge for current AI systems, especially in multimodal, multiparty settings, where the collaborators bring different information to the table. We introduce the Distributed Partial Information Puzzle (DPIP), a collaborative construction task that elicits rich multimodal communication under epistemic asymmetry. We present a multimodal dataset of these interactions, annotated and temporally aligned across speech, gesture, and action modalities to support reasoning over propositional content and belief dynamics. We then evaluate two paradigms for modeling common ground (CG): (1) state-of-the-art large language models (LLMs), prompted to infer shared beliefs from multimodal updates, and (2) an axiomatic pipeline grounded in Dynamic Epistemic Logic (DEL) that incrementally performs the same task. Results on the annotated DPIP data indicate that it poses a challenge to modern LLMs' abilities to track both task progression and belief state.
- Abstract(参考訳): 共有された信念と相互に認識される事実の集合である共通基盤を確立することは、コラボレーションの基本であるが、現在のAIシステム、特に協力者が異なる情報をテーブルにもたらすマルチモーダルなマルチパーティ設定では、依然として課題である。
本研究では, エピステミック非対称性下でのマルチモーダル通信を多用する協調作業であるDPIP(Distributed partial Information Puzzle)を紹介する。
提案する内容や信念のダイナミクスに対する推論を支援するために, 音声, ジェスチャー, 行動モダリティ間でアノテートされ, 時間的に一致したこれらの相互作用のマルチモーダルデータセットを提案する。
そこで我々は,(1)多モーダル更新から共有信念を推論するために誘導される最先端の大規模言語モデル(LLM)と,(2)動的疫学論理(DEL)を基盤とした公理パイプラインの2つのパラダイムを評価する。
注釈付きDPIPデータの結果は、現代のLCMがタスク進行と信念状態の両方を追跡する能力に挑戦していることを示している。
関連論文リスト
- MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing [10.66971486730557]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合する能力を示すが、しばしば素早い相関に頼っている。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-09-18T19:01:11Z) - UniHR: Hierarchical Representation Learning for Unified Knowledge Graph Link Prediction [59.84402324458322]
実世界の知識グラフ(英語版) (KGs) は標準的な三つの事実だけでなく、より複雑で異種な事実も含んでいる。
ハイパーリレーショナルKG,時間的KG,ネストした事実KGを3次元表現に統一する学習フレームワークであるUniHRを提案する。
5種類のKGにまたがる9つのデータセットの実験は、UniHRの有効性を示し、統一表現の強い可能性を強調している。
論文 参考訳(メタデータ) (2024-11-11T14:22:42Z) - Common Ground Tracking in Multimodal Dialogue [13.763043173931024]
本研究では,共有目標を持つグループの「議論」の下での,現在の共有信念と質問の集合を自動的に識別する手法を提案する。
我々は、音声の書き起こし、韻律的特徴、ジェスチャー、行動、コラボレーションの顔を含む、共有物理空間におけるマルチモーダル相互作用のデータセットを注釈付けする。
我々は、位置する証拠と信念の公理から導かれる正式なクロージャルールのセットにカスケードし、操作を更新します。
論文 参考訳(メタデータ) (2024-03-26T00:25:01Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multimodal Representations Learning Based on Mutual Information
Maximization and Minimization and Identity Embedding for Multimodal Sentiment
Analysis [33.73730195500633]
相互情報の最大化とアイデンティティの埋め込みに基づくマルチモーダル表現モデルを提案する。
2つの公開データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-10T01:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。