論文の概要: TRACE: Real-Time Multimodal Common Ground Tracking in Situated Collaborative Dialogues
- arxiv url: http://arxiv.org/abs/2503.09511v1
- Date: Wed, 12 Mar 2025 16:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:21.572457
- Title: TRACE: Real-Time Multimodal Common Ground Tracking in Situated Collaborative Dialogues
- Title(参考訳): TRACE:Situated Collaborative Dialogueにおけるリアルタイムマルチモーダル・コモングラウンド追跡
- Authors: Hannah VanderHoeven, Brady Bhalla, Ibrahim Khebour, Austin Youngren, Videep Venkatesha, Mariah Bradford, Jack Fitzgerald, Carlos Mabrey, Jingxuan Tu, Yifan Zhu, Kenneth Lai, Changsoo Jung, James Pustejovsky, Nikhil Krishnaswamy,
- Abstract要約: そこで, TRACE は, 位置協調作業におけるライブ*共通グラウンド* トラッキングのための新しいシステムである。
TRACEは、高速でリアルタイムなパフォーマンスに焦点を当て、参加者のスピーチ、アクション、ジェスチャー、視覚的注意を追跡する。
- 参考スコア(独自算出の注目度): 13.738385808151966
- License:
- Abstract: We present TRACE, a novel system for live *common ground* tracking in situated collaborative tasks. With a focus on fast, real-time performance, TRACE tracks the speech, actions, gestures, and visual attention of participants, uses these multimodal inputs to determine the set of task-relevant propositions that have been raised as the dialogue progresses, and tracks the group's epistemic position and beliefs toward them as the task unfolds. Amid increased interest in AI systems that can mediate collaborations, TRACE represents an important step forward for agents that can engage with multiparty, multimodal discourse.
- Abstract(参考訳): そこで, TRACE は, 位置協調作業におけるライブ*共通グラウンド* トラッキングのための新しいシステムである。
TRACEは、迅速なリアルタイムのパフォーマンスに焦点を合わせ、参加者のスピーチ、行動、ジェスチャー、視覚的注意をトラッキングし、これらのマルチモーダル入力を使用して、対話の進行に伴って提起されたタスク関連命題のセットを決定し、タスクが展開するにつれてグループの位置と信念を追跡する。
コラボレーションを仲介できるAIシステムへの関心が高まっている中、TRACEはマルチパーティのマルチモーダルな談話に携わるエージェントにとって重要な一歩である。
関連論文リスト
- Common Ground Tracking in Multimodal Dialogue [13.763043173931024]
本研究では,共有目標を持つグループの「議論」の下での,現在の共有信念と質問の集合を自動的に識別する手法を提案する。
我々は、音声の書き起こし、韻律的特徴、ジェスチャー、行動、コラボレーションの顔を含む、共有物理空間におけるマルチモーダル相互作用のデータセットを注釈付けする。
我々は、位置する証拠と信念の公理から導かれる正式なクロージャルールのセットにカスケードし、操作を更新します。
論文 参考訳(メタデータ) (2024-03-26T00:25:01Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems [29.394466123216258]
本研究は,対話エージェントの主要な特徴,対応するオープンドメインデータセット,およびこれらのデータセットをベンチマークする手法について概説する。
我々は,既存のデータセットの会話から構築された統一dIalogue dataseTであるUNITを提案する。
論文 参考訳(メタデータ) (2023-07-14T10:05:47Z) - A Survey on Proactive Dialogue Systems: Problems, Methods, and Prospects [100.75759050696355]
本稿では,対話エージェントの多種多様な対話における能動性に関する顕著な問題と先進的な設計について概説する。
我々は、現実世界のアプリケーションのニーズを満たすが、将来もっと研究に焦点を当てる必要がある課題について議論する。
論文 参考訳(メタデータ) (2023-05-04T11:38:49Z) - Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation [20.693465164885325]
本稿では,NLPCC-2022-Shared-Task-4マルチモーダル対話理解・生成(MDUG)におけるTeam LingJingの実験手法を紹介する。
MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。
シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-07-05T05:54:20Z) - Response Selection for Multi-Party Conversations with Dynamic Topic
Tracking [63.15158355071206]
我々は、応答と関連する会話コンテキストの間のトピックを一致させるために、動的トピック追跡タスクとして応答選択をフレーム化する。
本研究では,大規模な事前学習モデルによる効率的な符号化を支援する新しいマルチタスク学習フレームワークを提案する。
DSTC-8 Ubuntu IRCデータセットの実験結果は、応答選択とトピックのアンタングル化タスクにおける最先端の結果を示している。
論文 参考訳(メタデータ) (2020-10-15T14:21:38Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。