論文の概要: A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial
Expressions
- arxiv url: http://arxiv.org/abs/2010.03127v1
- Date: Wed, 7 Oct 2020 02:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:00:38.320952
- Title: A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial
Expressions
- Title(参考訳): 空間表現に基づく視覚的接地対話の言語学的解析
- Authors: Takuma Udagawa, Takato Yamazaki, Akiko Aizawa
- Abstract要約: 本稿では,視覚的対話における言語理解の微粒化を調査するための枠組みを提案する。
われわれはOneCommon Corpus citepudgawa 2019natural,udgawa 2020annotatedに注目する。
我々は,それらの言語構造をテクスト空間表現に基づいて分析し,600の対話に対して包括的で信頼性の高いアノテーションを提供する。
- 参考スコア(独自算出の注目度): 35.24301299033675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent models achieve promising results in visually grounded dialogues.
However, existing datasets often contain undesirable biases and lack
sophisticated linguistic analyses, which make it difficult to understand how
well current models recognize their precise linguistic structures. To address
this problem, we make two design choices: first, we focus on OneCommon Corpus
\citep{udagawa2019natural,udagawa2020annotated}, a simple yet challenging
common grounding dataset which contains minimal bias by design. Second, we
analyze their linguistic structures based on \textit{spatial expressions} and
provide comprehensive and reliable annotation for 600 dialogues. We show that
our annotation captures important linguistic structures including
predicate-argument structure, modification and ellipsis. In our experiments, we
assess the model's understanding of these structures through reference
resolution. We demonstrate that our annotation can reveal both the strengths
and weaknesses of baseline models in essential levels of detail. Overall, we
propose a novel framework and resource for investigating fine-grained language
understanding in visually grounded dialogues.
- Abstract(参考訳): 最近のモデルでは、視覚的な接地対話で有望な結果が得られる。
しかし、既存のデータセットは、しばしば望ましくないバイアスを含んでおり、洗練された言語分析が欠けているため、現在のモデルがその正確な言語構造をどのように認識しているかを理解することは困難である。
まず、設計によるバイアスを最小限に抑える、単純で挑戦的な共通接地データセットであるonecommon corpus \citep{udagawa2019natural,udagawa2020annotated}に注目します。
第2に,それらの言語構造を \textit{spatial expressions} に基づいて分析し,600の対話に対して包括的かつ信頼性の高いアノテーションを提供する。
本アノテーションは述語句構造,修飾,楕円を含む重要な言語構造を捉える。
実験では,これらの構造に対するモデルの理解を基準分解能で評価する。
アノテーションはベースラインモデルの強みと弱みの両方を本質的な詳細レベルで明らかにできることを実証する。
本稿では,視覚的な対話において,言語理解のきめ細かい枠組みと資源を提案する。
関連論文リスト
- Finding Structure in Language Models [3.882018118763685]
この論文は、言語モデルが人間のものと似た文法構造を深く理解しているかどうかに関するものである。
我々は,大規模言語モデルの複雑な性質の理解を深める新しい解釈可能性技術を開発する。
論文 参考訳(メタデータ) (2024-11-25T14:37:24Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Robustness Testing of Language Understanding in Dialog Systems [33.30143655553583]
自然言語理解モデルの頑健性に関して総合的な評価と分析を行う。
本稿では,実世界の対話システムにおける言語理解に関連する3つの重要な側面,すなわち言語多様性,音声特性,雑音摂動について紹介する。
対話システムにおける堅牢性問題をテストするための自然摂動を近似するモデル非依存型ツールキットLAUGを提案する。
論文 参考訳(メタデータ) (2020-12-30T18:18:47Z) - Structured Attention for Unsupervised Dialogue Structure Induction [110.12561786644122]
本稿では、構造化された注意層を離散潜在状態を持つ変化型リカレントニューラルネットワーク(VRNN)モデルに組み込んで、教師なしの方法で対話構造を学ぶことを提案する。
バニラVRNNと比較して、構造化された注意は、構造的帰納バイアスを強制しながら、ソース文の埋め込みの異なる部分にフォーカスすることができる。
論文 参考訳(メタデータ) (2020-09-17T23:07:03Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。