論文の概要: A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks
- arxiv url: http://arxiv.org/abs/2501.17569v1
- Date: Wed, 29 Jan 2025 11:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:09.545666
- Title: A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks
- Title(参考訳): 理解課題を読み解くための言語的動機付けによるモデル能力の評価手法
- Authors: Elie Antoine, Frédéric Béchet, Géraldine Damnati, Philippe Langlais,
- Abstract要約: モデルのサイズやアーキテクチャに関わらず,特定の例が常に低いスコアを得られるという直感に基づいて,理解タスクを読むための評価手法を提案する。
この複雑さを特徴付けるためのセマンティックフレームアノテーションを活用し、モデルの難易度を考慮に入れうる7つの複雑さ要因について検討する。
- 参考スコア(独自算出の注目度): 10.181408678232055
- License:
- Abstract: We introduce an evaluation methodology for reading comprehension tasks based on the intuition that certain examples, by the virtue of their linguistic complexity, consistently yield lower scores regardless of model size or architecture. We capitalize on semantic frame annotation for characterizing this complexity, and study seven complexity factors that may account for model's difficulty. We first deploy this methodology on a carefully annotated French reading comprehension benchmark showing that two of those complexity factors are indeed good predictors of models' failure, while others are less so. We further deploy our methodology on a well studied English benchmark by using Chat-GPT as a proxy for semantic annotation. Our study reveals that fine-grained linguisticallymotivated automatic evaluation of a reading comprehension task is not only possible, but helps understand models' abilities to handle specific linguistic characteristics of input examples. It also shows that current state-of-the-art models fail with some for those characteristics which suggests that adequately handling them requires more than merely increasing model size.
- Abstract(参考訳): 本稿では,その言語的複雑さにより,モデルのサイズやアーキテクチャに関わらず,一定の例が一貫して低いスコアを得られるという直感に基づいて,理解タスクを読み取るための評価手法を提案する。
この複雑さを特徴付けるためのセマンティックフレームアノテーションを活用し、モデルの難易度を考慮に入れうる7つの複雑さ要因について検討する。
私たちはまず、この方法論を慎重に注釈付けされたフランス語読解ベンチマークにデプロイし、これらの複雑さ要因のうち2つがモデル失敗の予測因子であり、他のものはそうではないことを示す。
さらに,本手法を,意味的アノテーションのプロキシとしてChat-GPTを用いて,よく研究された英語のベンチマークに展開する。
本研究は, より詳細な言語的動機付けによる読解作業の自動評価が可能であるだけでなく, 入力例の特定の言語的特徴に対処するモデルの能力を理解する上でも有効であることを示す。
また、現在の最先端モデルは、それらの特性のいくつかで失敗することを示し、それらに適切に対処するには、単にモデルのサイズを増大させる以上のものが必要であることを示唆している。
関連論文リスト
- Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models [6.394084132117747]
本稿では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用する手法を提案する。
提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。
論文 参考訳(メタデータ) (2024-08-21T00:17:59Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Under the Microscope: Interpreting Readability Assessment Models for
Filipino [0.0]
フィリピンにおける機械学習に基づく可読性評価モデルを,グローバルモデルとローカルモデルによる解釈によって識別する。
その結果,大域的解釈から上位特徴を学習したモデルを用いることで,スピアマン相関による特徴を用いたモデルよりも高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-01T01:27:10Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。