論文の概要: Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
- arxiv url: http://arxiv.org/abs/2504.15266v1
- Date: Mon, 21 Apr 2025 17:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:36:03.611108
- Title: Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
- Title(参考訳): 一歩進む前にサイコロを回して見る: 次世代の予測の創造的限界を超えて
- Authors: Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan,
- Abstract要約: 我々は、オープンエンドの現実世界のタスクを緩やかに抽象化した、最小限のアルゴリズムタスクスイートを設計する。
私たちの仕事は、オープンエンドのクリエイティブスキルを分析するために、原則として最小限のテストベッドを提供します。
- 参考スコア(独自算出の注目度): 20.432182363429977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We design a suite of minimal algorithmic tasks that are a loose abstraction of open-ended real-world tasks. This allows us to cleanly and controllably quantify the creative limits of the present-day language model. Much like real-world tasks that require a creative, far-sighted leap of thought, our tasks require an implicit, open-ended stochastic planning step that either (a) discovers new connections in an abstract knowledge graph (like in wordplay, drawing analogies, or research) or (b) constructs new patterns (like in designing math problems or new proteins). In these tasks, we empirically and conceptually argue how next-token learning is myopic and memorizes excessively; comparatively, multi-token approaches, namely teacherless training and diffusion models, excel in producing diverse and original output. Secondly, in our tasks, we find that to elicit randomness from the Transformer without hurting coherence, it is better to inject noise right at the input layer (via a method we dub hash-conditioning) rather than defer to temperature sampling from the output layer. Thus, our work offers a principled, minimal test-bed for analyzing open-ended creative skills, and offers new arguments for going beyond next-token learning and softmax-based sampling. We make part of the code available under https://github.com/chenwu98/algorithmic-creativity
- Abstract(参考訳): 我々は、オープンエンドの現実世界のタスクを緩やかに抽象化した、最小限のアルゴリズムタスクスイートを設計する。
これにより、現在の言語モデルの創造的限界をきれいかつ制御的に定量化できます。
創造的で目立たない思考の飛躍を必要とする現実世界のタスクと同じように、私たちのタスクは暗黙のオープンな確率的計画ステップを必要とします。
(a)抽象知識グラフ(語遊び、図形類推、研究など)で新しいつながりを発見する、または
b) 新たなパターン(数学問題や新しいタンパク質の設計など)を構築する。
これらの課題において,次世代学習がいかにミオピックであり,過度に記憶されているかを実証的,概念的に論じる。
第二に,我々のタスクでは,コヒーレンスを損なうことなくトランスフォーマーからランダム性を引き出すためには,出力層からの温度サンプリングを遅らせるよりも,入力層に直接ノイズを注入する(ハッシュコンディショニングをダブする)方がよい。
このように、我々の研究は、オープンエンドの創造的スキルを分析するための原則付き最小限のテストベッドを提供し、次の学習とソフトマックスに基づくサンプリングを越えて、新たな議論を提供する。
コードの一部をhttps://github.com/chenwu98/algorithmic-creativityで公開しています。
関連論文リスト
- Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z) - Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文 参考訳(メタデータ) (2022-08-24T11:25:27Z) - Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit
Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。
実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-18T07:18:25Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Coarse-to-Fine Curriculum Learning [26.213618168827026]
本稿では,課題をより簡単な中間目標のシーケンスに分解する新しいカリキュラム学習手法を提案する。
分類タスクに焦点をあて、自動構築されたラベル階層を用いて中間タスクを設計する。
特にラベルの分類問題において顕著な性能向上を示した。
論文 参考訳(メタデータ) (2021-06-08T03:09:38Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Deep Reinforcement Learning for Complex Manipulation Tasks with Sparse
Feedback [0.0]
Hindsight Experience Replay (HER) はマルチゴール強化学習アルゴリズムである。
本稿では,既存のHERアルゴリズムに基づく3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-12T07:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。