論文の概要: Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets
- arxiv url: http://arxiv.org/abs/2602.10583v1
- Date: Wed, 11 Feb 2026 07:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.524637
- Title: Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets
- Title(参考訳): スプーンの流れ:GFlowNetsによる言語モデルから動的スパン語彙への一般化
- Authors: Bo Xue, Yunchong Song, Fanghao Shao, Xuekai Zhu, Lin Chen, Luoyi Fu, Xinbing Wang, Zhouhan Lin,
- Abstract要約: Flow of SpanS (FOSS)は、スパンジェネレーションのための原則化されたGFlowNetsフレームワークである。
FOSSは、取得したテキストを柔軟にセグメント化することで動的スパン語彙を構築する。
特殊な報酬モデルにより、FoSSは多種多様な高品質のテキストを生成する。
- 参考スコア(独自算出の注目度): 54.06320619464273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard autoregressive language models generate text token-by-token from a fixed vocabulary, inducing a tree-structured state space when viewing token sampling as an action, which limits flexibility and expressiveness. Recent work introduces dynamic vocabulary by sampling retrieved text spans but overlooks that the same sentence can be composed of spans of varying lengths, lacking explicit modeling of the directed acyclic graph (DAG) state space. This leads to restricted exploration of compositional paths and is biased toward the chosen path. Generative Flow Networks (GFlowNets) are powerful for efficient exploring and generalizing over state spaces, particularly those with a DAG structure. However, prior GFlowNets-based language models operate at the token level and remain confined to tree-structured spaces, limiting their potential. In this work, we propose Flow of SpanS (FOSS), a principled GFlowNets framework for span generation. FoSS constructs a dynamic span vocabulary by segmenting the retrieved text flexibly, ensuring a DAG-structured state space, which allows GFlowNets to explore diverse compositional paths and improve generalization. With specialized reward models, FoSS generates diverse, high-quality text. Empirically, FoSS improves MAUVE scores by up to 12.5% over Transformer on text generation and achieves 3.5% gains on knowledge-intensive tasks, consistently outperforming state-of-the-art methods. Scaling experiments further demonstrate FoSS benefits from larger models, more data, and richer retrieval corpora, retaining its advantage over strong baselines.
- Abstract(参考訳): 標準自己回帰言語モデルは、固定語彙からテキストトークン・バイ・トークンを生成し、トークンサンプリングをアクションとして見る際に木構造状態空間を誘導し、柔軟性と表現性を制限する。
最近の研究は、検索したテキストスパンをサンプリングすることによって動的語彙を導入するが、同じ文が様々な長さのスパンで構成され、有向非巡回グラフ(DAG)状態空間の明示的なモデリングを欠いていることを見落としている。
これにより構成経路の探索が制限され、選択された経路に偏りが生じる。
Generative Flow Networks (GFlowNets) は、特にDAG構造を持つ状態空間を効率的に探索し、一般化するために強力である。
しかし、以前のGFlowNetsベースの言語モデルはトークンレベルで動作し、木構造空間に限定され、その可能性を制限する。
本研究では,スパンジェネレーションのためのGFlowNetsフレームワークであるFlow of SpanS (FOSS)を提案する。
FoSSは、取得したテキストを柔軟にセグメント化することで動的スパン語彙を構築し、DAG構造化状態空間を確保し、GFlowNetsが多様な構成パスを探索し、一般化を改善する。
特殊な報酬モデルにより、FoSSは多種多様な高品質のテキストを生成する。
実証的に、FoSSはテキスト生成におけるTransformerよりも最大12.5%のMAUVEスコアを改善し、知識集約的なタスクで3.5%のアップを達成し、一貫して最先端の手法よりも優れている。
スケーリング実験はさらに、より大規模なモデル、より多くのデータ、よりリッチな検索コーパスによるFoSSのメリットを実証し、強力なベースラインに対する優位性を保っている。
関連論文リスト
- PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - STAGE: Simplified Text-Attributed Graph Embeddings Using Pre-trained LLMs [1.4624458429745086]
テキスト分散グラフ(TAG)を符号化するグラフニューラルネットワーク(GNN)モデルにおけるノード機能向上手法を提案する。
本手法では,Large-Language Models (LLMs) を用いてテキスト属性の埋め込みを生成する。
我々は,事前学習したLLMを埋め込みジェネレータとして利用することにより,GNNのアンサンブルトレーニングに堅牢な機能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-10T08:50:25Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - Leveraging Large Language Models for Node Generation in Few-Shot Learning on Text-Attributed Graphs [5.587264586806575]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
LLMはラベルから意味情報を抽出し、模範としてカテゴリに属するサンプルを生成する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。