論文の概要: A Survey on Recognizing Textual Entailment as an NLP Evaluation
- arxiv url: http://arxiv.org/abs/2010.03061v1
- Date: Tue, 6 Oct 2020 22:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:24:53.655422
- Title: A Survey on Recognizing Textual Entailment as an NLP Evaluation
- Title(参考訳): NLP評価におけるテキスト・エンターメントの認識に関する調査
- Authors: Adam Poliak
- Abstract要約: 異なるNLPシステムの意味的理解を比較するための統合評価フレームワークとして,RTE(Recognizing Textual Entailment)が提案された。
我々は,NLPシステムを評価する際に,特定の言語現象に着目した新たなRTEデータセットを利用することを議論する。
- 参考スコア(独自算出の注目度): 5.823300953803177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing Textual Entailment (RTE) was proposed as a unified evaluation
framework to compare semantic understanding of different NLP systems. In this
survey paper, we provide an overview of different approaches for evaluating and
understanding the reasoning capabilities of NLP systems. We then focus our
discussion on RTE by highlighting prominent RTE datasets as well as advances in
RTE dataset that focus on specific linguistic phenomena that can be used to
evaluate NLP systems on a fine-grained level. We conclude by arguing that when
evaluating NLP systems, the community should utilize newly introduced RTE
datasets that focus on specific linguistic phenomena.
- Abstract(参考訳): 異なるNLPシステムの意味的理解を比較するための統合評価フレームワークとして,RTE(Recognizing Textual Entailment)を提案する。
本稿では,NLPシステムの推論能力の評価と理解のための様々なアプローチの概要について述べる。
RTEデータセットと、NLPシステムをきめ細かいレベルで評価するために使用できる特定の言語現象に焦点を当てたRTEデータセットの進歩に焦点を当てて、RTEの議論に焦点を当てる。
我々は、NLPシステムを評価する際、コミュニティは特定の言語現象に焦点を当てた新しいRTEデータセットを利用するべきであると結論づけた。
関連論文リスト
- Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - SETI: Systematicity Evaluation of Textual Inference [24.156140116509064]
本稿では,事前学習言語モデル(PLM)を評価するための新しい総合ベンチマークSETI(Systematicity Evaluation of Textual Inference)を提案する。
特に、SETIは3つの異なるNLIタスクとそれに対応するデータセットを提供し、推論プロセスにおける様々なタイプの体系性を評価する。
実験の結果,プリミティブを組み合わさった知識に遭遇したとき,多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種
論文 参考訳(メタデータ) (2023-05-24T11:35:31Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Natural Language Inference with Self-Attention for Veracity Assessment
of Pandemic Claims [54.93898455714295]
まず、COVID-19に関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。
そこで我々は,自然言語推論に基づく自動妥当性評価のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-05T12:11:31Z) - A Multilingual Perspective Towards the Evaluation of Attribution Methods
in Natural Language Inference [28.949004915740776]
本稿では,自然言語推論(NLI)タスクに対する帰属的手法を評価するための多言語的手法を提案する。
まず,単語アライメントに基づいて忠実度を測定するための新たな言語間戦略を導入する。
次に、異なる出力機構と集約手法を考慮し、帰属手法の包括的な評価を行う。
論文 参考訳(メタデータ) (2022-04-11T22:11:05Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。