Fugu-MT 論文翻訳(概要): Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but Inconsistently

論文の概要: Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but Inconsistently

arxiv url: http://arxiv.org/abs/2401.06640v1
Date: Fri, 12 Jan 2024 15:40:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 19:11:08.919896
Title: Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but Inconsistently
Title（参考訳）: 実験的文脈は言語モデルにおけるロバストな意味的特性推論をファシリテートするが、矛盾する
Authors: Kanishka Misra, Allyson Ettinger, Kyle Mahowald
Abstract要約: 本稿では,実験環境がプロパティ継承を行う際のLMの堅牢性を向上させることができるケーススタディを提案する。タスクの最小限の修正により、いくつかのLMは入力から浅い非セマンティックを拾うことが判明した。
参考スコア（独自算出の注目度）: 26.56605115674999
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent zero-shot evaluations have highlighted important limitations in the abilities of language models (LMs) to perform meaning extraction. However, it is now well known that LMs can demonstrate radical improvements in the presence of experimental contexts such as in-context examples and instructions. How well does this translate to previously studied meaning-sensitive tasks? We present a case-study on the extent to which experimental contexts can improve LMs' robustness in performing property inheritance -- predicting semantic properties of novel concepts, a task that they have been previously shown to fail on. Upon carefully controlling the nature of the in-context examples and the instructions, our work reveals that they can indeed lead to non-trivial property inheritance behavior in LMs. However, this ability is inconsistent: with a minimal reformulation of the task, some LMs were found to pick up on shallow, non-semantic heuristics from their inputs, suggesting that the computational principles of semantic property inference are yet to be mastered by LMs.
Abstract（参考訳）: 最近のゼロショット評価では、意味抽出を行う言語モデル(LM)の重要な制限が強調されている。しかし、現在では、実例や命令のような実験的な文脈の存在において、LMが根本的な改善を示すことが知られている。これは、以前研究された意味に敏感なタスクにどの程度うまく翻訳できるのか? 我々は、実験的なコンテキストがプロパティ継承を行う際のlmsのロバスト性 -- 新規概念のセマンティクス特性を予測する -- をいかに改善できるか、というケーススタディを提示する。インコンテキストの例と命令の性質を慎重に制御すると、本研究はLMにおける非自明なプロパティ継承挙動につながることを明らかにした。しかし、この能力は矛盾しており、タスクの最小限の再構成で、いくつかのlmsが入力から浅い非意味論的ヒューリスティックを拾い上げることが分かり、意味的性質推論の計算原理はまだlmsによってマスターされていないことを示唆した。

関連論文リスト

Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,大言語モデルにおいて,ノイズの多い例で融合したデータからルールを推論する能力を評価するタスクであるRobust Rule Injectionを紹介する。また,SRR(Sample-steered Rule Refinement)を提案する。本研究は, LLMの推論に挑戦し, 仮説のドリフトやパターンオーバーフィッティングへの感受性を明らかにし, 人為的誘導システム開発に不可欠な実証的証拠を提供した。
論文参考訳（メタデータ） (2025-02-22T10:03:19Z)
InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文参考訳（メタデータ） (2025-02-20T03:48:00Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-07-18T17:59:27Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks [71.19560970717495]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか? 本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-05T17:50:42Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
COMPS: Conceptual Minimal Pair Sentences for testing Property Knowledge and Inheritance in Pre-trained Language Models [8.08493736237816]
そこで本論文では,PLM(pre-trained language model)とPLM(pre-trained language model)を共同でテストする,最小対文の集合であるComposについて述べる。 COMPS 上の 22 個の異なる PLM の解析は、それらが自明に異なるとき、その性質に基づいて容易に概念を区別できることを明らかにする。 PLMはプロパティ継承と大きく整合した動作を示すことができるが、注意をそらす情報の存在下では失敗する。
論文参考訳（メタデータ） (2022-10-05T00:04:18Z)
An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文参考訳（メタデータ） (2022-07-28T08:28:09Z)
oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文参考訳（メタデータ） (2019-12-31T12:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。