論文の概要: Base Models Beat Aligned Models at Randomness and Creativity
- arxiv url: http://arxiv.org/abs/2505.00047v1
- Date: Wed, 30 Apr 2025 03:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.121916
- Title: Base Models Beat Aligned Models at Randomness and Creativity
- Title(参考訳): ランダム性と創造性を考慮したベースモデル
- Authors: Peter West, Christopher Potts,
- Abstract要約: ランダム数生成や混合戦略ゲーム(岩紙シッセ、隠れて探す)、創造的な文章など、予測不可能な出力を必要とするタスクについて検討する。
それぞれの場合、アライメントモデルは、例えば他の一様乱数よりも「7」を生成することを好むなど、異なる不利益をもたらす狭い振舞いに傾向する。
テストされたモデル全体では、一般的なベンチマークのパフォーマンス向上は、タスクのパフォーマンス低下と相関する傾向にあり、必要な能力の効果的なトレードオフが示唆されます。
- 参考スコア(独自算出の注目度): 31.03827212644089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment has quickly become a default ingredient in LLM development, with techniques such as reinforcement learning from human feedback making models act safely, follow instructions, and perform ever-better on complex tasks. While these techniques are certainly useful, we propose that they should not be universally applied and demonstrate a range of tasks on which base language models consistently outperform their popular aligned forms. Particularly, we study tasks that require unpredictable outputs, such as random number generation, mixed strategy games (rock-paper-scissors and hide-and-seek), and creative writing. In each case, aligned models tend towards narrow behaviors that result in distinct disadvantages, for instance, preferring to generate "7" over other uniformly random numbers, becoming almost fully predictable in some game states, or prioritizing pleasant writing over creative originality. Across models tested, better performance on common benchmarks tends to correlate with worse performance on our tasks, suggesting an effective trade-off in the required capabilities.
- Abstract(参考訳): 調整は、人間のフィードバックからの強化学習のような技術によって、モデルが安全に動作し、指示に従い、複雑なタスクを常に実行し、LCM開発におけるデフォルトの要素となっている。
これらの手法は確かに有用であるが,これらの手法を普遍的に適用してはならない。
特に、乱数生成、混合戦略ゲーム(岩紙のシッセと隠れて探す)、創造的な文章など、予測不可能な出力を必要とするタスクについて研究する。
それぞれの場合、アライメントモデルは、例えば、他の一様乱数よりも「7」を生成することを好み、ゲーム状態によってほぼ完全に予測可能になったり、創造的な独創性よりも快適な文章を優先順位付けしたりするといった、明確な不利をもたらすような狭い振る舞いに向かう傾向にある。
テストされたモデル全体では、一般的なベンチマークのパフォーマンス向上は、タスクのパフォーマンス低下と相関する傾向にあり、必要な能力の効果的なトレードオフが示唆されます。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Exploring Transferability for Randomized Smoothing [37.60675615521106]
本稿では,頑健なモデルを事前学習する手法を提案する。
クリーンな画像のみを微調整しても、驚くほど強力な認証精度が得られます。
論文 参考訳(メタデータ) (2023-12-14T15:08:27Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。