論文の概要: Playing with Words, Improving with Rewards: Training Language Models for Creative Association
- arxiv url: http://arxiv.org/abs/2605.27832v1
- Date: Wed, 27 May 2026 01:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.675484
- Title: Playing with Words, Improving with Rewards: Training Language Models for Creative Association
- Title(参考訳): 言葉で遊んだり、後悔で改善したりする:創造的協会のための言語モデルの訓練
- Authors: Vijeta Deshpande, Namrata Shivagunde, Sherin Muckatira, Hadrien Glaude, Mikhail Gronas, Claire Stevenson, Roger Beaty, Anna Rumshisky,
- Abstract要約: 大きな言語モデル(LLM)は、ますます困難な問題やユースケースに適用されています。
広大なソリューション空間を効果的にナビゲートするには、LLMは創造的である必要がある。
Codenamesは、クリエイティビティの2つの中心となる軸をエクササイズするワード連想ゲームです。
- 参考スコア(独自算出の注目度): 9.232251624834644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being applied to increasingly difficult problems and use cases. To navigate their vast solution spaces effectively, LLMs need to be creative. Yet the subjective nature of creativity and the limits of human judgment make training LLMs for creativity especially challenging. As a solution, we train LLMs on Codenames, a word-association game that exercises the two central axes of creativity, divergent and convergent thinking, while yielding objectively verifiable outcomes. This verifiability lets us bypass human judgment and train with Reinforcement Learning with Verifiable Rewards (RLVR). We train Qwen3-1.7B, 4B, and 8B models and evaluate them on ten creativity and four reasoning benchmarks. We find that the precision-diversity trade-off is scale-dependent: the 8B model prioritizes creativity over precision, while the 1.7B and 4B models gain reasoning precision at the cost of creativity. Concretely, the 8B model shows modest but consistent creativity gains (8 of 10 benchmarks) with only minor reasoning degradation, whereas the smaller models achieve substantial gains on reasoning tasks. Our study presents a scalable and effective solution to train LLMs for creativity.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ますます困難な問題やユースケースに適用されています。
広大なソリューション空間を効果的にナビゲートするには、LLMは創造的である必要がある。
しかし、創造性の主観性と人間の判断の限界は、創造性のためのLLMの訓練を特に困難にしている。
解決策として、創造性、発散性、収束性という2つの中心軸をエクササイズするワード連想ゲームであるCodenamesでLLMをトレーニングし、客観的に検証可能な結果を得る。
この検証可能性によって、人間の判断を回避し、Reinforcement Learning with Verifiable Rewards (RLVR)でトレーニングすることができます。
Qwen3-1.7B、4B、8Bモデルをトレーニングし、10つのクリエイティビティと4つの推論ベンチマークで評価する。
8Bモデルはクリエイティビティを精度よりも優先し、1.7Bと4Bモデルはクリエイティビティのコストで推論精度を得る。
具体的には、8Bモデルでは、わずかながら一貫性のある創造性(10ベンチマーク中8ベンチマーク)が向上し、小さな推論が低下する一方、小さなモデルでは推論タスクでかなりの利益が得られます。
本研究は,LLMをクリエイティビティのためにトレーニングするための,スケーラブルで効果的なソリューションを提案する。
関連論文リスト
- CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing [67.2958108309687]
CreativityBenchは、LCMにおける余剰ベースのクリエイティビティを評価するためのベンチマークである。
制約の下では、不確実だが物理的に妥当な解を識別する必要がある14Kの基底タスクを生成する。
クローズドおよびオープンソースモデルを含む10の最先端のLLMに対する評価は、モデルがしばしば可塑性オブジェクトを選択することができるが、正しい部分を特定することができないことを示している。
論文 参考訳(メタデータ) (2026-04-06T16:33:23Z) - Large Language Models Align with the Human Brain during Creative Thinking [19.08997828415446]
AUT(Alternate Uses Task)を行う170人の参加者のfMRIデータを用いた創造的思考における脳のアライメントの研究
脳-LLMアライメントはモデルサイズ(デフォルトモードネットワークのみ)とアイデアの独創性(両方のネットワーク)でスケールする。
さらに,ポストトレーニング対象が機能的に選択的に形状アライメントされることを示す。
論文 参考訳(メタデータ) (2026-04-03T22:02:15Z) - CREATE: Testing LLMs for Associative Creativity [51.64544603712446]
創造的連想的推論のためのモデルの能力を評価するためのベンチマークであるCREATEを紹介する。
最強のモデルが他のモデルよりも高い創造性を達成することを示す。
私たちの結果は、高いトークン予算であっても、思考モデルがタスクに対してより効果的であるとは限らないことを示しています。
論文 参考訳(メタデータ) (2026-03-10T17:58:44Z) - Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models [6.036586911740041]
大規模言語モデル(LLM)は、言語的創造的なタスクにますます使われています。
広く使われているダイバージェント・アソシエーション・タスク(DAT)は、新規性を重視し、適切性を無視している。
DAT上での最先端のLCMの範囲を評価し、そのタスクにおけるスコアが、創造力を持たない2つのベースラインのスコアよりも低いことを示す。
論文 参考訳(メタデータ) (2026-01-28T12:41:32Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。
生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。
我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。
我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文 参考訳(メタデータ) (2024-06-08T22:14:51Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。