論文の概要: Language Models Are Poor Learners of Directional Inference
- arxiv url: http://arxiv.org/abs/2210.04695v1
- Date: Mon, 10 Oct 2022 13:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:53:26.734393
- Title: Language Models Are Poor Learners of Directional Inference
- Title(参考訳): 言語モデルは方向推論の学習者である
- Authors: Tianyi Li and Mohammad Javad Hosseini and Sabine Weber and Mark
Steedman
- Abstract要約: LMはそのような方向推定を学習する能力に制限がある。
既存のデータセットは方向テストに失敗する。
既存の LM-prompting モデルは、無能な指向性エンターテイメント学習者である。
- 参考スコア(独自算出の注目度): 17.807086499130488
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We examine LMs' competence of directional predicate entailments by supervised
fine-tuning with prompts. Our analysis shows that contrary to their apparent
success on standard NLI, LMs show limited ability to learn such directional
inference; moreover, existing datasets fail to test directionality, and/or are
infested by artefacts that can be learnt as proxy for entailments, yielding
over-optimistic results. In response, we present BoOQA (Boolean Open QA), a
robust multi-lingual evaluation benchmark for directional predicate
entailments, extrinsic to existing training sets. On BoOQA, we establish
baselines and show evidence of existing LM-prompting models being incompetent
directional entailment learners, in contrast to entailment graphs, however
limited by sparsity.
- Abstract(参考訳): 我々は,プロンプトによる微調整を監督することにより,lmsの指向性述語補足能力について検討する。
我々の分析は、従来のNLIでは明らかな成功とは裏腹に、そのような方向推定を学習する能力は限られており、既存のデータセットは方向性テストに失敗し、また/またはエンタテインメントのプロキシとして学習可能なアーティファクトによって引き起こされ、過度な最適化結果が得られることを示している。
提案するBoOQA(Boolean Open QA)は,既存のトレーニングセットに根ざした,指向性述語推論のための頑健な多言語評価ベンチマークである。
BoOQA では,既存の LM-prompting モデルが非能率的指向性エンターテイメント学習者であることを示す。
関連論文リスト
- Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding [4.799288023353623]
NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
論理フィードバックからの強化学習を活用して、言語モデルにおける探索と搾取の効果的なバランスを作る。
これは、より正確で信頼性があり、論理的に一貫した言語モデルの開発に意味を持つ。
論文 参考訳(メタデータ) (2024-03-02T11:54:55Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。