論文の概要: Learning from "Silly" Questions Improves Large Language Models, But Only Slightly
- arxiv url: http://arxiv.org/abs/2411.14121v1
- Date: Thu, 21 Nov 2024 13:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:36.628804
- Title: Learning from "Silly" Questions Improves Large Language Models, But Only Slightly
- Title(参考訳): Silly」質問から学ぶ:大規模言語モデルを改善するが、わずかに改善する
- Authors: Tingyuan Zhu, Shudong Liu, Yidong Wang, Derek F. Wong, Han Yu, Takahiro Shinozaki, Jindong Wang,
- Abstract要約: 本稿では,その成功の潜在的解釈と大規模評価という,隠れた要因について検討することを目的とする。
我々は, GPT-4を用いて, 教育, 心理学, 認知科学の観点から, ルージバ問題の成功事例を分析した。
意外なことに、我々の結果は、ルールが特定のタスクにおけるモデル性能を著しく改善する一方で、他のタスクにおけるパフォーマンスを低下させる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 46.41255699142185
- License:
- Abstract: Constructing high-quality Supervised Fine-Tuning (SFT) datasets is critical for the training of large language models (LLMs). Recent studies have shown that using data from a specific source, Ruozhiba, a Chinese website where users ask "silly" questions to better understand certain topics, can lead to better fine-tuning performance. This paper aims to explore some hidden factors: the potential interpretations of its success and a large-scale evaluation of the performance. First, we leverage GPT-4 to analyze the successful cases of Ruozhiba questions from the perspective of education, psychology, and cognitive science, deriving a set of explanatory rules. Then, we construct fine-tuning datasets by applying these rules to the MMLU training set. Surprisingly, our results indicate that rules can significantly improve model performance in certain tasks, while potentially diminishing performance on others. For example, SFT data generated following the "Counterintuitive Thinking" rule can achieve approximately a 5% improvement on the "Global Facts" task, whereas the "Blurring the Conceptual Boundaries" rule leads to a performance drop of 6.14% on the "Econometrics" task. In addition, for specific tasks, different rules tend to have a consistent impact on model performance. This suggests that the differences between the extracted rules are not as significant, and the effectiveness of the rules is relatively consistent across tasks. Our research highlights the importance of considering task diversity and rule applicability when constructing SFT datasets to achieve more comprehensive performance improvements.
- Abstract(参考訳): 高品質なSupervised Fine-Tuning(SFT)データセットの構築は、大規模言語モデル(LLM)のトレーニングに不可欠である。
最近の研究では、特定のソースからのデータを使用することで、ユーザーが特定のトピックをよりよく理解するために「シリー」な質問をする中国のウェブサイトであるRuozhibaが、より精巧なチューニングパフォーマンスをもたらすことが示されている。
本稿では,その成功の潜在的解釈と大規模評価という,隠れた要因について検討することを目的とする。
まず, GPT-4を用いて, 教育, 心理学, 認知科学の観点から, ルジバ問題の成功事例を分析し, 一連の説明規則を導出する。
そして、これらのルールをMMLUトレーニングセットに適用することにより、微調整データセットを構築する。
意外なことに、我々の結果は、ルールが特定のタスクにおけるモデル性能を著しく改善する一方で、他のタスクにおけるパフォーマンスを低下させる可能性があることを示唆している。
例えば、"Counterintuitive Thinking" のルールに従って生成された SFT データは、"Global Facts" のタスクで約5%改善できるが、"Blurring the Conceptual Boundaries" のルールでは、"Econometrics" のタスクでパフォーマンスが6.14%低下する。
さらに、特定のタスクでは、異なるルールがモデルのパフォーマンスに一貫した影響を与える傾向があります。
このことは、抽出されたルールの違いはそれほど重要ではなく、ルールの有効性はタスク間で比較的一貫性があることを示している。
本研究は、より包括的なパフォーマンス向上を実現するために、SFTデータセットを構築する際のタスク多様性とルール適用性を検討することの重要性を強調した。
関連論文リスト
- KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models [11.07333593086842]
知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-08T21:26:22Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。