論文の概要: Dialogue Games for Benchmarking Language Understanding: Motivation,
Taxonomy, Strategy
- arxiv url: http://arxiv.org/abs/2304.07007v1
- Date: Fri, 14 Apr 2023 09:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:16:44.237143
- Title: Dialogue Games for Benchmarking Language Understanding: Motivation,
Taxonomy, Strategy
- Title(参考訳): 言語理解のための対話ゲーム:モチベーション、分類、戦略
- Authors: David Schlangen
- Abstract要約: このようなテストは、実践に埋め込まれた言語使用のテストと補完する必要がある、と私は主張する。
言語使用のための状況埋め込みを提供する「対話ゲーム」を構築することを提案する。
- 参考スコア(独自算出の注目度): 16.726800816202033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How does one measure "ability to understand language"? If it is a person's
ability that is being measured, this is a question that almost never poses
itself in an unqualified manner: Whatever formal test is applied, it takes
place on the background of the person's language use in daily social practice,
and what is measured is a specialised variety of language understanding (e.g.,
of a second language; or of written, technical language). Computer programs do
not have this background. What does that mean for the applicability of formal
tests of language understanding? I argue that such tests need to be
complemented with tests of language use embedded in a practice, to arrive at a
more comprehensive evaluation of "artificial language understanding". To do
such tests systematically, I propose to use "Dialogue Games" -- constructed
activities that provide a situational embedding for language use. I describe a
taxonomy of Dialogue Game types, linked to a model of underlying capabilites
that are tested, and thereby giving an argument for the \emph{construct
validity} of the test. I close with showing how the internal structure of the
taxonomy suggests an ordering from more specialised to more general situational
language understanding, which potentially can provide some strategic guidance
for development in this field.
- Abstract(参考訳): 言語を理解する能力"をどのように計測するか?
どのような形式的テストが適用されたとしても、それは日常的な社会実践における人の言語の使用の背景で行われ、測定されるものは、専門化された言語理解(例えば、第二言語、または書かれた技術的言語)である。
コンピュータプログラムにはこの背景がない。
言語理解の形式的テストの適用性には,どのような意味があるのでしょう?
このようなテストは、"人工言語理解"をより包括的に評価するために、プラクティスに埋め込まれた言語使用のテストで補う必要があると思います。
このようなテストを体系的に行うために,言語使用のための状況埋め込みを提供する「対話ゲーム」を構築することを提案する。
対話ゲームタイプの分類を記述し,テスト対象のキャパビライトのモデルと関連づけて,テスト対象の<emph{construct valid}>に対する議論を与える。
私は、分類学の内部構造が、より専門化されたものからより一般的な状況言語理解への命令をいかに示唆するかを示し、この分野の開発に戦略的なガイダンスを提供する可能性があるかを詳しく示します。
関連論文リスト
- Reasoning about Ambiguous Definite Descriptions [2.5398014196797605]
自然言語推論は、複雑な言語理解タスクを解く言語モデルの能力を改善する上で重要な役割を果たす。
言語におけるあいまいさを解決するために、大規模言語モデルが明示的な推論をどの程度有効に活用できるかを評価するためのリソースは存在しない。
この目的のためにあいまいな明確な記述を用い、そのようなフレーズからなる最初のベンチマークデータセットを作成し、公開することを提案する。
論文 参考訳(メタデータ) (2023-10-23T07:52:38Z) - Language Models as Inductive Reasoners [125.99461874008703]
本稿では,帰納的推論のための新しいパラダイム(タスク)を提案し,自然言語の事実から自然言語規則を誘導する。
タスクのための1.2kルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。
我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文 参考訳(メタデータ) (2022-12-21T11:12:14Z) - DALL-E 2 Fails to Reliably Capture Common Syntactic Processes [0.0]
我々は,DALL-E2が構成性に関連する8つの文法的現象を捉える能力について分析した。
DALL-E 2は構文に整合した意味を確実に推測できないことを示す。
論文 参考訳(メタデータ) (2022-10-23T23:56:54Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Integrating Linguistic Theory and Neural Language Models [2.870517198186329]
理論的言語学とニューラル言語モデルが相互にどのように関係しているかを説明するためのケーススタディをいくつか提示する。
この論文は、言語モデルにおける構文意味インタフェースの異なる側面を探求する3つの研究に貢献する。
論文 参考訳(メタデータ) (2022-07-20T04:20:46Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Learning Symbolic Rules for Reasoning in Quasi-Natural Language [74.96601852906328]
我々は,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースシステムを構築した。
本稿では,形式論理文と自然言語文の両方を表現可能な"Quasi-Natural"言語であるMetaQNLを提案する。
提案手法は,複数の推論ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T17:49:00Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。