論文の概要: In Search of the Long-Tail: Systematic Generation of Long-Tail Knowledge
via Logical Rule Guided Search
- arxiv url: http://arxiv.org/abs/2311.07237v1
- Date: Mon, 13 Nov 2023 10:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:34:48.281714
- Title: In Search of the Long-Tail: Systematic Generation of Long-Tail Knowledge
via Logical Rule Guided Search
- Title(参考訳): ロングテール探索:論理ルールガイドによるロングテール知識の体系的生成
- Authors: Huihan Li, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Lorraine Li,
Ximing Lu, Faeze Brahman, Wenting Zhao, Yejin Choi, Xiang Ren
- Abstract要約: 本稿では,長い知識文を体系的に生成するLogic-induced-Knowledge-Search (Link) フレームワークを提案する。
リンクは、品質を保ちながら、ロングテール分布でデータを生成するのに有効である。
その結果,ChatGPTとGPT4の誤認識能力は,頭部分布と比較して長身分布において3%低下することがわかった。
- 参考スコア(独自算出の注目度): 69.59343233016517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since large language models have approached human-level performance on many
tasks, it has become increasingly harder for researchers to find tasks that are
still challenging to the models. Failure cases usually come from the long-tail
distribution - data that an oracle language model could assign a probability on
the lower end of its distribution. Current methodology such as prompt
engineering or crowdsourcing are insufficient for creating long-tail examples
because humans are constrained by cognitive bias. We propose a
Logic-Induced-Knowledge-Search (LINK) framework for systematically generating
long-tail knowledge statements. Grounded by a symbolic rule, we search for
long-tail values for each variable of the rule by first prompting a LLM, then
verifying the correctness of the values with a critic, and lastly pushing for
the long-tail distribution with a reranker. With this framework we construct a
dataset, Logic-Induced-Long-Tail (LINT), consisting of 200 symbolic rules and
50K knowledge statements spanning across four domains. Human annotations find
that 84% of the statements in LINT are factually correct. In contrast, ChatGPT
and GPT4 struggle with directly generating long-tail statements under the
guidance of logic rules, each only getting 56% and 78% of their statements
correct. Moreover, their "long-tail" generations in fact fall into the higher
likelihood range, and thus are not really long-tail. Our findings suggest that
LINK is effective for generating data in the long-tail distribution while
enforcing quality. LINT can be useful for systematically evaluating LLMs'
capabilities in the long-tail distribution. We challenge the models with a
simple entailment classification task using samples from LINT. We find that
ChatGPT and GPT4's capability in identifying incorrect knowledge drop by ~3% in
the long-tail distribution compared to head distribution.
- Abstract(参考訳): 大きな言語モデルが多くのタスクで人間レベルのパフォーマンスに近づきつつあるため、研究者はモデルにまだ挑戦しているタスクを見つけることがますます難しくなっている。
障害ケースは通常、長い尾の分布から来ます - オラクル言語モデルがその分布の下部に確率を割り当てることのできるデータです。
プロンプトエンジニアリングやクラウドソーシングのような現在の方法論は、人間が認知バイアスに拘束されているため、長い尾の例を作成するには不十分である。
本稿では,Lar-tail knowledge文を体系的に生成する Logic-induced-Knowledge-Search (LINK) フレームワークを提案する。
まず LLM をプロンプトし,その値の正しさを批評家で検証し,最後にリランカでロングテール分布を推し進めることで,ルールの各変数のロングテール値を探索する。
このフレームワークでは、4つのドメインにまたがる200のシンボリックルールと50Kの知識ステートメントからなるデータセット、Logic-induced-Long-Tail (LINT)を構築します。
人間のアノテーションは、LINTのステートメントの84%が実際正しいことに気付きます。
それとは対照的に、ChatGPTとGPT4は論理規則の指導の下で直接ロングテールステートメントを生成するのに苦労しており、それぞれが正しい文の56%と78%しか得られていない。
さらに、彼らの「長い尾」世代は実際には高い可能性範囲に落ちているので、実際には長い尾ではない。
その結果,LINKは品質を保ちながら長期分布のデータ生成に有効であることが示唆された。
LINTは長期分布におけるLLMの能力を体系的に評価するのに有用である。
LINT のサンプルを用いて,簡単な細部分類タスクでモデルに挑戦する。
chatgpt と gpt4 の誤認識能力は, 頭部分布と比較して, ロングテール分布の約3%減少することがわかった。
関連論文リスト
- LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing [8.647406441990396]
ログ解析にLarge Language Models (LLMs) を用いることの可能性を検討した。
例えば、Flan-T5-baseはLLaMA-7Bに匹敵する結果を短時間で達成する。
また,他のシステムからのログを用いて事前学習したLLMを用いることで,解析精度が向上するとは限らない。
論文 参考訳(メタデータ) (2024-04-27T20:34:29Z) - GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。
LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。
ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文 参考訳(メタデータ) (2024-03-28T18:08:22Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文 参考訳(メタデータ) (2023-09-07T08:53:16Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。