論文の概要: Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains
- arxiv url: http://arxiv.org/abs/2311.08704v2
- Date: Thu, 27 Jun 2024 03:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 20:06:29.683678
- Title: Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains
- Title(参考訳): 大言語モデルは概念アノテーションガイドラインに従うことができるか? : 科学的・金融的領域を事例として
- Authors: Marcio Fonseca, Shay B. Cohen,
- Abstract要約: 文ラベリングタスクのコンテキスト内概念ガイドラインに従うための命令調整型言語モデルの能力について検討する。
以上の結果から,概念定義はタスク性能に一貫して寄与するが,実際のコンテキスト下での作業能力に制限があるのは大規模モデルのみであることが示唆された。
- 参考スコア(独自算出の注目度): 19.814974042343028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) exhibit remarkable capacity to leverage in-context demonstrations, it is still unclear to what extent they can learn new concepts or facts from ground-truth labels. To address this question, we examine the capacity of instruction-tuned LLMs to follow in-context concept guidelines for sentence labeling tasks. We design guidelines that present different types of factual and counterfactual concept definitions, which are used as prompts for zero-shot sentence classification tasks. Our results show that although concept definitions consistently help in task performance, only the larger models (with 70B parameters or more) have limited ability to work under counterfactual contexts. Importantly, only proprietary models such as GPT-3.5 and GPT-4 can recognize nonsensical guidelines, which we hypothesize is due to more sophisticated alignment methods. Finally, we find that Falcon-180B-chat is outperformed by Llama-2-70B-chat is most cases, which indicates that careful fine-tuning is more effective than increasing model scale. Altogether, our simple evaluation method reveals significant gaps in concept understanding between the most capable open-source language models and the leading proprietary APIs.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 文脈内実演を活用する能力に優れるが, 新たな概念や事実を根本から学べるかは, いまだ不明である。
この問題に対処するために,文のラベル付け作業における文脈内概念ガイドラインに従うための命令調整型LLMの能力について検討する。
我々は、ゼロショット文分類タスクのプロンプトとして使用される、事実的および反事実的概念定義の異なるタイプを示すガイドラインを設計する。
その結果、概念定義はタスク性能に一貫した助けとなるが、大モデル(70Bパラメータ以上)だけが対実的コンテキスト下での作業能力に制限があることがわかった。
重要なことは、GPT-3.5やGPT-4のようなプロプライエタリなモデルだけが、より洗練されたアライメント手法によって、非感覚的なガイドラインを認識できるということだ。
最後に,Llama-2-70B-chatよりもFalcon-180B-chatの方が優れており,モデルスケールの増加よりも注意深い微調整が有効であることを示す。
さらに,我々の簡易評価手法は,最も有能なオープンソース言語モデルと主要なプロプライエタリAPIの間の概念理解において,大きなギャップを生じさせる。
関連論文リスト
- Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Can LLMs facilitate interpretation of pre-trained language models? [18.77022630961142]
本稿では,事前学習した言語モデルの微粒な解釈分析を可能にするための注釈として,大規模な言語モデルChatGPTを提案する。
文脈的表現に集約的階層的クラスタリングを適用することにより,事前学習言語モデル内の潜在概念を発見する。
以上の結果から,ChatGPTは人間のアノテーションよりも正確で意味的にリッチなアノテーションを生成することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-22T18:03:13Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。