論文の概要: TADIS: Steering Models for Deep-Thinking about Demonstration Examples
- arxiv url: http://arxiv.org/abs/2310.00901v2
- Date: Thu, 5 Oct 2023 03:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 11:14:53.402136
- Title: TADIS: Steering Models for Deep-Thinking about Demonstration Examples
- Title(参考訳): TADIS: デモ事例のディープシンキングのためのステアリングモデル
- Authors: Tianci Xue, Ziqi Wang, Yixia Li, Yun Chen, Guanhua Chen
- Abstract要約: 大きな言語モデル(LLM)は、以前よりもはるかに高いパフォーマンスを達成する。
最近の研究によると、妄想的なタスクの例は正しいタスクの例とほとんど同じパフォーマンスを達成できる。
実演例を単に見るのではなく, LLM を "ディープシンキング (deep-Thinking)" として活用する TADIS と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 7.240651102553018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning has been demonstrated that could significantly improve the
zero-shot generalization capability to unseen tasks by an apparent margin. By
incorporating additional context (e.g., task definition, examples) during the
fine-tuning process, Large Language Models (LLMs) achieved much higher
performance than before. However, recent work reported that delusive task
examples can achieve almost the same performance as correct task examples,
indicating the input-label correspondence is less important than previously
thought. Intrigued by this counter-intuitive observation, we suspect models
have the same illusion of competence as humans. Therefore, we propose a novel
method called TADIS that steers LLMs for "Deep-Thinking'' about demonstration
examples instead of merely seeing. To alleviate the illusion of competence of
models, we first ask the model to verify the correctness of shown examples.
Then, using the verification results as conditions to elicit models for a
better answer. Our experimental results show that TADIS consistently
outperforms competitive baselines on in-domain and out-domain tasks (improving
2.79 and 4.03 average ROUGLE-L on out-domain and in-domain datasets,
respectively). Despite the presence of generated examples (not all of the
thinking labels are accurate), TADIS can notably enhance performance in
zero-shot and few-shot settings. This also suggests that our approach can be
adopted on a large scale to improve the instruction following capabilities of
models without any manual labor. Moreover, we construct three types of thinking
labels with different model sizes and find that small models learn from the
format of TADIS but larger models can be steered for "Deep-Thinking''.
- Abstract(参考訳): 命令のチューニングは、目に見えないタスクに対してゼロショットの一般化能力を大幅に改善できることが実証されている。
微調整プロセス中に追加のコンテキスト(タスク定義、例など)を組み込むことで、LLM(Large Language Models)は以前よりもはるかに高いパフォーマンスを実現した。
しかし、近年の研究では、妄想的なタスク例は正しいタスク例とほぼ同等のパフォーマンスを達成できると報告されている。
この直観に反する観察から興味をそそられるのは、モデルが人間と同じ能力の錯覚を持っていることだ。
Therefore, we propose a novel method called TADIS that steers LLMs for "Deep-Thinking'' about demonstration examples instead of merely seeing. To alleviate the illusion of competence of models, we first ask the model to verify the correctness of shown examples. Then, using the verification results as conditions to elicit models for a better answer. Our experimental results show that TADIS consistently outperforms competitive baselines on in-domain and out-domain tasks (improving 2.79 and 4.03 average ROUGLE-L on out-domain and in-domain datasets, respectively). Despite the presence of generated examples (not all of the thinking labels are accurate), TADIS can notably enhance performance in zero-shot and few-shot settings. This also suggests that our approach can be adopted on a large scale to improve the instruction following capabilities of models without any manual labor. Moreover, we construct three types of thinking labels with different model sizes and find that small models learn from the format of TADIS but larger models can be steered for "Deep-Thinking''.
関連論文リスト
- Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Do Models Really Learn to Follow Instructions? An Empirical Study of
Instruction Tuning [37.01833561948585]
命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。
我々は、モデルトレーニングと変更した命令と元の命令とを比較して、モデルがどのようにITのインストラクションを利用するかを分析する。
論文 参考訳(メタデータ) (2023-05-19T02:00:47Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - Assessing Out-of-Domain Language Model Performance from Few Examples [38.245449474937914]
ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:45:26Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。