論文の概要: Finding Common Ground: Annotating and Predicting Common Ground in Spoken
Conversations
- arxiv url: http://arxiv.org/abs/2311.01273v1
- Date: Thu, 2 Nov 2023 14:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:11:41.603297
- Title: Finding Common Ground: Annotating and Predicting Common Ground in Spoken
Conversations
- Title(参考訳): 共通基盤の発見: 会話における共通基盤の注釈と予測
- Authors: Magdalena Markowska, Mohammad Taghizadeh, Adil Soubki, Seyed
Abolghasem Mirroshandel, Owen Rambow
- Abstract要約: 対象者の認知状態に影響を及ぼす発話を意図した方法で生成するために、我々の認知状態と観客の認知状態のモデルを使用する。
認知状態の重要な部分は、話者が信じる内容である共通の根拠であり、話者は聴衆が信じることを信じるなどである。
共通基盤を捉えるための新しいアノテーションとコーパスを導入する。
- 参考スコア(独自算出の注目度): 6.7493211169117995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When we communicate with other humans, we do not simply generate a sequence
of words. Rather, we use our cognitive state (beliefs, desires, intentions) and
our model of the audience's cognitive state to create utterances that affect
the audience's cognitive state in the intended manner. An important part of
cognitive state is the common ground, which is the content the speaker
believes, and the speaker believes the audience believes, and so on. While much
attention has been paid to common ground in cognitive science, there has not
been much work in natural language processing. In this paper, we introduce a
new annotation and corpus to capture common ground. We then describe some
initial experiments extracting propositions from dialog and tracking their
status in the common ground from the perspective of each speaker.
- Abstract(参考訳): 他の人間とコミュニケーションをとるとき、単に単語のシーケンスを生成するわけではない。
むしろ、私たちの認知状態(信念、欲求、意図)と、観客の認知状態のモデルを用いて、意図された方法で聴衆の認知状態に影響を与える発話を作成します。
認知状態の重要な部分は共通の基盤であり、これは話者が信じている内容であり、話者は聴衆が信じるものなどを信じている。
認知科学の共通基盤に多くの注意が払われているが、自然言語処理の研究はあまり行われていない。
本稿では,共通基盤を捉えるための新しいアノテーションとコーパスを提案する。
次に,対話から命題を抽出し,各話者の視点から共通点における状況の追跡を行う実験について述べる。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Empathic Grounding: Explorations using Multimodal Interaction and Large Language Models with Conversational Agents [0.6990493129893112]
話者の感情がフォアグラウンドされるとき、共感的な接地が必要である。
本稿では,ユーザ音声および表情を入力とし,聴取エージェントに対するマルチモーダルグラウンド動作を生成するモデルについて述べる。
本研究は,会話エージェントに対する適切な接地行動を生み出す上での,感情意識とマルチモーダリティの役割を強調した。
論文 参考訳(メタデータ) (2024-07-01T21:46:30Z) - CKERC : Joint Large Language Models with Commonsense Knowledge for
Emotion Recognition in Conversation [0.0]
会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。
会話における感情認識のための共通知識フレームワークであるCKERCを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:37:11Z) - Grounding Gaps in Language Model Generations [67.79817087930678]
大規模言語モデルが人間の接地を反映したテキストを生成するかどうかを考察する。
人間に比べ、LLMは会話の基盤を減らした言語を生成する。
同定された接地ギャップの根源を理解するために,命令チューニングと選好最適化の役割について検討する。
論文 参考訳(メタデータ) (2023-11-15T17:40:27Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Grounding Conversations with Improvised Dialogues [25.486608189901705]
我々は、26,000以上のイエス・アンド・ターンのコーパスを収集し、即興の対話からそれらを書き起こし、より大きながより人口の多い映画脚本対話コーパスからそれらを抽出する。
コーパスとチップチャットの対話システムを微調整し、より基礎的で関連性の高い会話を奨励し、これらの発見を人間による評価で確認する。
論文 参考訳(メタデータ) (2020-04-20T18:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。