論文の概要: LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation
- arxiv url: http://arxiv.org/abs/2407.13744v1
- Date: Thu, 18 Jul 2024 17:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:21:47.876087
- Title: LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation
- Title(参考訳): 機能近似器としてのLCM--ターミノロジー、分類学、評価のための質問
- Authors: David Schlangen,
- Abstract要約: 本稿では,これらのモデルモデルにおける明瞭さの喪失が,「人工的な一般知性」などのメタファーにつながることを論じる。
この提案は、自然言語仕様に基づいて専門関数を近似する能力において、それらの一般化と潜在的な価値を見出すことである。
- 参考スコア(独自算出の注目度): 18.2932386988379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing has moved rather quickly from modelling specific tasks to taking more general pre-trained models and fine-tuning them for specific tasks, to a point where we now have what appear to be inherently generalist models. This paper argues that the resultant loss of clarity on what these models model leads to metaphors like "artificial general intelligences" that are not helpful for evaluating their strengths and weaknesses. The proposal is to see their generality, and their potential value, in their ability to approximate specialist function, based on a natural language specification. This framing brings to the fore questions of the quality of the approximation, but beyond that, also questions of discoverability, stability, and protectability of these functions. As the paper will show, this framing hence brings together in one conceptual framework various aspects of evaluation, both from a practical and a theoretical perspective, as well as questions often relegated to a secondary status (such as "prompt injection" and "jailbreaking").
- Abstract(参考訳): 自然言語処理は、特定のタスクをモデル化することから、より一般的な事前訓練されたモデルに移行し、特定のタスクを微調整するようになる。
本稿では,これらのモデルモデルが持つ明瞭さの喪失が,その強みや弱さを評価するのに役に立たない「人工的な一般知性」のようなメタファーにつながることを論じる。
この提案は、自然言語仕様に基づいて専門関数を近似する能力において、それらの一般化と潜在的な価値を見出すことである。
このフレーミングは近似の質に関する前向きな疑問をもたらすが、それ以上に、これらの関数の発見可能性、安定性、保護性に関する疑問もある。
本稿が示すように、このフレーミングは、実践的、理論的両面から評価の様々な側面と、しばしば二次的な状態(例えば、"prompt Injection" や "jailbreaking" など)に還元される質問を、一つの概念的な枠組みでまとめる。
関連論文リスト
- Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - Ontology Completion with Natural Language Inference and Concept Embeddings: An Analysis [26.918368764004796]
本研究では,特定のオントロジーから欠落する有能な知識の発見という課題を,よく研究された分類学拡張タスクの一般化として考察する。
1行の作業は、このタスクを自然言語推論(NLI)問題として扱い、不足した知識を特定するために言語モデルによって取得された知識に依存します。
別の研究の行では、概念埋め込みを使用して、カテゴリベースの帰納のための認知モデルからインスピレーションを得て、異なる概念が共通しているものを特定する。
論文 参考訳(メタデータ) (2024-03-25T21:46:35Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks [71.19560970717495]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:50:42Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - ExSum: From Local Explanations to Model Understanding [6.23934576145261]
ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法を開発した。
この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。
本稿では,モデル理解の定量化のための数学的枠組みである説明要約(ExSum)を紹介する。
論文 参考訳(メタデータ) (2022-04-30T02:07:20Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Schr\"odinger's Tree -- On Syntax and Neural Language Models [10.296219074343785]
言語モデルは、NLPのワークホースとして登場し、ますます流動的な生成能力を示している。
我々は、多くの次元にまたがる明瞭さの欠如を観察し、研究者が形成する仮説に影響を及ぼす。
本稿では,構文研究における様々な研究課題の意義について概説する。
論文 参考訳(メタデータ) (2021-10-17T18:25:23Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。