論文の概要: LoNLI: An Extensible Framework for Testing Diverse Logical Reasoning
Capabilities for NLI
- arxiv url: http://arxiv.org/abs/2112.02333v2
- Date: Sat, 2 Sep 2023 08:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 12:24:12.500883
- Title: LoNLI: An Extensible Framework for Testing Diverse Logical Reasoning
Capabilities for NLI
- Title(参考訳): LoNLI: NLIのさまざまな論理推論機能をテストする拡張可能なフレームワーク
- Authors: Ishan Tarunesh, Somak Aditya, Monojit Choudhury
- Abstract要約: 自然言語推論(NLI)は、自然言語理解(NLU)をテストするための代表的なタスクである。
半合成大試験台(363テンプレート、363k例)を作成します。
我々は、自由形式の自然言語テンプレート(CheckList)から自動テストケースインスタンス化の公開フレームワークを拡張した。
- 参考スコア(独自算出の注目度): 14.37879960427435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Inference (NLI) is considered a representative task to test
natural language understanding (NLU). In this work, we propose an extensible
framework to collectively yet categorically test diverse Logical reasoning
capabilities required for NLI (and, by extension, NLU). Motivated by behavioral
testing, we create a semi-synthetic large test bench (363 templates, 363k
examples) and an associated framework that offers the following utilities: 1)
individually test and analyze reasoning capabilities along 17 reasoning
dimensions (including pragmatic reasoning); 2) design experiments to study
cross-capability information content (leave one out or bring one in); and 3)
the synthetic nature enables us to control for artifacts and biases. We extend
a publicly available framework of automated test case instantiation from
free-form natural language templates (CheckList) and a well-defined taxonomy of
capabilities to cover a wide range of increasingly harder test cases while
varying the complexity of natural language. Through our analysis of
state-of-the-art NLI systems, we observe that our benchmark is indeed hard (and
non-trivial even with training on additional resources). Some capabilities
stand out as harder. Further, fine-grained analysis and fine-tuning experiments
reveal more insights about these capabilities and the models -- supporting and
extending previous observations; thus showing the utility of the proposed
testbench.
- Abstract(参考訳): 自然言語推論(NLI)は、自然言語理解(NLU)をテストするための代表的なタスクと考えられている。
本研究では,NLIに必要な多種多様な論理的推論能力(および拡張によりNLU)を総合的に検証する拡張可能なフレームワークを提案する。
振る舞いテストによって動機づけられた私たちは、半合成の大規模なテストベンチ(363テンプレート、363k例)と、以下のユーティリティを提供する関連するフレームワークを作成します。
1)17の推論次元(実用的推論を含む)に沿って個別に推論能力をテスト・分析する。
2 クロス能力情報の内容(持ち出し又は持ち帰り)を研究するための設計実験及び
3) 人工的な性質により, 人工物やバイアスを制御できる。
我々は、自由形式の自然言語テンプレート(CheckList)から自動テストケースインスタンス化のフレームワークを拡張し、自然言語の複雑さを変化させながら、ますます難しいテストケースをカバーするために、適切に定義された機能分類を公開しています。
最先端のNLIシステムの解析を通じて、我々のベンチマークは確かに困難である(そして、追加のリソースのトレーニングにおいても)。
能力によっては難易度が増す。
さらに、きめ細かい分析と微調整実験は、これらの機能とモデル -- 以前の観察をサポートし、拡張する -- に関する洞察を明らかにし、提案されたテストベンチの有用性を示している。
関連論文リスト
- TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models [8.22619177301814]
クラスレベルのLLMベースのテストケース生成のためのベンチマークであるTestBenchを紹介する。
GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。
本稿では,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮した詳細な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T06:18:06Z) - Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。
4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文 参考訳(メタデータ) (2024-07-31T21:12:21Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - NEWTON: Are Large Language Models Capable of Physical Reasoning? [36.631017958809224]
本稿では,大規模言語モデルの物理推論能力を評価するためのレポジトリとベンチマークであるNEWTONを紹介する。
リポジトリは、オブジェクトと属性のペアのコレクションを含み、無限スケールのアセスメントテンプレートを生成する基盤を提供する。
GPT-4のようなLCMはシナリオベースタスクでは強い推論能力を示すが、人間に比べてオブジェクト属性推論では一貫性が低い。
論文 参考訳(メタデータ) (2023-10-10T21:08:51Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Probing the Natural Language Inference Task with Automated Reasoning
Tools [6.445605125467574]
自然言語推論(NLI)タスクは、現在のNLPにおいて重要なタスクである。
我々はNLIタスクの論理構造を調べるために他の手法を用いる。
我々は、機械指向の自然言語がNLI文のパースにどの程度うまく利用できるか、また、自動定理証明器が結果の式に対していかにうまく推論できるかを示す。
論文 参考訳(メタデータ) (2020-05-06T03:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。