論文の概要: TinyTim: A Family of Language Models for Divergent Generation
- arxiv url: http://arxiv.org/abs/2508.11607v2
- Date: Thu, 30 Oct 2025 17:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.400554
- Title: TinyTim: A Family of Language Models for Divergent Generation
- Title(参考訳): TinyTim: ダイバージェントジェネレーションのための言語モデルファミリー
- Authors: Christopher J. Agostino,
- Abstract要約: 言語モデルであるTinyTimを導入し,より広範なシステム内での分岐生成の源泉として機能する。
教師なし微調整モデル(TinyTim-V1)と新しい命令微調整モデル(TinyTim-V2)の定量的解析は、語彙的発明にとって重要な能力を示す。
この研究は、収束したシステムと組み合わせることで、問題を再編成し、統計的最適化の限界を超えるブレークスルーを強制することができる工学的分岐モデルのための方法論を確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the search for artificial general intelligence, model development and training has focused primarily on vast datasets of known problems and their accepted solutions. This process necessarily produces convergent systems which are fundamentally incapable of the conceptual reframing that is required for genuine creative breakthroughs. Inspired by the divergent cognitive processes that allow humans to make such creative leaps, our work introduces a family of language models, TinyTim, to serve as sources of divergent generation within broader systems. These models have been created by fine-tuning on the anti-parsimonious text of James Joyce's `Finnegans Wake'. Quantitative analysis of both an unsupervised fine-tuned model (TinyTim-V1) and a new instruction-tuned variant (TinyTim-V2) demonstrates a profound capacity for lexical invention; the foundational V1 model exhibits a Yule's K score for lexical richness over twenty times greater than that of convergent baselines. This trait is a stable property of the family, as the instruction-tuned V2 maintains a statistically distinct profile and resists factual convergence, sacrificing benchmark performance to preserve its core generative style. This work establishes a methodology for engineering specialized divergent models that, when paired with convergent systems, can reframe problems and force breakthroughs beyond the reach of statistical optimization alone.
- Abstract(参考訳): 人工知能の探索において、モデル開発とトレーニングは主に既知の問題とその受け入れられた解決策の膨大なデータセットに焦点を当ててきた。
このプロセスは、真に創造的なブレークスルーに必要な概念的リフレーミングが根本的に不可能な収束システムを生成する必要がある。
私たちの研究は、人間の創造的な飛躍を可能にする多様な認知プロセスにインスパイアされ、より広いシステム内での分岐生成の源となる言語モデルであるTinyTimのファミリーを導入しました。
これらのモデルはジェームズ・ジョイスの『Finnegans Wake』の反散文を微調整して作られた。
教師なし微調整モデル (TinyTim-V1) と新しい命令調整モデル (TinyTim-V2) の定量的解析は、語彙的発明にとって重要な能力を示す。
この特性は、命令チューニングされたV2が統計的に異なるプロファイルを保持し、実際の収束に抵抗し、コア生成スタイルを維持するためにベンチマーク性能を犠牲にするため、ファミリーの安定した特性である。
この研究は、収束したシステムと組み合わせることで、問題を再編成し、統計的最適化の限界を超えるブレークスルーを強制することができる工学的分岐モデルのための方法論を確立する。
関連論文リスト
- LOLA -- An Open-Source Massively Multilingual Large Language Model [1.5704590739448838]
LOLAは160以上の言語で訓練された多言語大言語モデルである。
私たちのアーキテクチャと実装の選択は、言語多様性を活用するという課題に対処します。
学習したエキスパート・ルーティング機構は、暗黙の系統パターンを利用して、多言語性の呪いを和らげる可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-17T15:23:08Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Reverse Engineering Configurations of Neural Text Generation Models [86.9479386959155]
モデル選択の結果、機械が生成したテキストに現れるアーティファクトの研究は、新しい研究領域である。
我々は、モデリング選択が検出可能なアーティファクトを生成テキストに残すかどうかを確認するために、広範囲な診断テストを実行する。
我々の重要な発見は、厳密な実験によって裏付けられ、そのような成果物が存在することと、生成されたテキストのみを観察することで異なるモデリング選択を推測できることである。
論文 参考訳(メタデータ) (2020-04-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。