論文の概要: Towards Improved Sentence Representations using Token Graphs
- arxiv url: http://arxiv.org/abs/2603.03389v1
- Date: Tue, 03 Mar 2026 09:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.03178
- Title: Towards Improved Sentence Representations using Token Graphs
- Title(参考訳): トークングラフを用いた文表現の改善に向けて
- Authors: Krishna Sri Ipsit Mantri, Carola-Bibiane Schönlieb, Zorah Lähner, Moshe Eliasof,
- Abstract要約: GLOTは構造を意識したプールモジュールで、リレーショナル学習後にアグリゲーションとしてプールを再構成する。
トークンの90%がランダムなイントラクタである診断ストレステストでは、GLOTは97%以上の精度を維持し、ベースラインメソッドは崩壊する。
GLUEやMTEBのようなベンチマークの最先端技術と競合し、トレーニング可能なパラメータは20倍少なく、パラメータ効率のよい微調整手法と比較してトレーニング時間を100倍以上高速化する。
- 参考スコア(独自算出の注目度): 41.412173502714225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining a single-vector representation from a Large Language Model's (LLM) token-level outputs is a critical step for nearly all sentence-level tasks. However, standard pooling methods like mean or max aggregation treat tokens as an independent set, discarding the rich relational structure captured by the model's self-attention layers and making them susceptible to signal dilution. To address this, we introduce GLOT, a lightweight, structure-aware pooling module that reframes pooling as relational learning followed by aggregation. Operating on the outputs of a frozen LLM, GLOT first constructs a latent token-similarity graph, then refines token representations with a graph neural network, and finally aggregates them using a readout layer. Experimentally, our approach is remarkably robust and efficient: on a diagnostic stress test where 90% of tokens are random distractors, GLOT maintains over 97% accuracy while baseline methods collapse. Furthermore, it is competitive with state-of-the-art techniques on benchmarks like GLUE and MTEB with 20x fewer trainable parameters and speeds up the training time by over 100x compared with parameter-efficient fine-tuning methods. Supported by a theoretical analysis of its expressive power, our work shows that learning over token graphs is a powerful paradigm for the efficient adaptation of frozen LLMs. Our code is published at https://github.com/ipsitmantri/GLOT.
- Abstract(参考訳): 大規模言語モデル(LLM)のトークンレベルの出力から単一ベクトル表現を得ることは、ほぼすべての文レベルのタスクにとって重要なステップである。
しかしながら、平均アグリゲーションや最大アグリゲーションのような標準的なプール法はトークンを独立した集合として扱い、モデルの自己保持層によって捕獲されたリッチなリレーショナル構造を破棄し、信号の希釈に感受性を持たせる。
GLOTは軽量で構造を意識したプールモジュールで、リレーショナル学習後にアグリゲーションとしてプールを再構成する。
凍結LDMの出力を演算すると、GLOTは遅延トークン類似性グラフを構築し、次にグラフニューラルネットワークでトークン表現を洗練し、最後に読み出し層を使ってそれらを集約する。
トークンの90%がランダムな散逸子である診断ストレステストでは、GLOTは97%以上の精度を維持し、ベースライン法は崩壊する。
さらに、GLUEやMTEBといったベンチマークの最先端技術と競合し、トレーニング可能なパラメータが20倍少なくなり、パラメータ効率のよい微調整手法と比較してトレーニング時間が100倍以上高速化される。
本研究は, その表現力に関する理論的解析から, トークングラフによる学習が, 凍結LDMの効率的な適応のための強力なパラダイムであることが示唆された。
私たちのコードはhttps://github.com/ipsitmantri/GLOT.comで公開されています。
関連論文リスト
- Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - GraphLAMA: Enabling Efficient Adaptation of Graph Language Models with Limited Annotations [46.15515676751084]
大規模言語モデル(LLM)は様々な領域でその強みを示しており、グラフ言語モデル(GLM)としてグラフ解析に最近統合されている。
LLMを予測子として、いくつかのGLMは自然言語で記述された未確認タスクを解釈し、パラメータチューニングなしでプロンプトのいくつかの例から学習することができる。
効率的なチューニングと推論に特化したモデルバックボーンと学習スキームを備えたGraphLAMA法を提案する。
論文 参考訳(メタデータ) (2025-06-11T16:38:01Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Scalability Matters: Overcoming Challenges in InstructGLM with Similarity-Degree-Based Sampling [1.2805157669888096]
提案するSDM-InstructGLMは,GNNに依存することなく,拡張性と効率を向上する命令調整グラフ言語モデル(InstructGLM)フレームワークである。
本手法では,ノード間類似度と次数集中度に基づいてグラフ情報を選択的にサンプリングし,符号化する,類似度に基づくバイアス付きランダムウォーク機構を提案する。
本結果は,LLMのみのグラフ処理の実現可能性を示し,命令ベースの微調整によって最適化されたスケーラブルかつ解釈可能なグラフ言語モデル(GLM)を実現する。
論文 参考訳(メタデータ) (2025-05-02T06:08:21Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - Combining Label Propagation and Simple Models Out-performs Graph Neural
Networks [52.121819834353865]
多くの標準的なトランスダクティブノード分類ベンチマークでは、最先端のGNNの性能を超えたり、一致させることができる。
これをC&S(Correct and Smooth)と呼ぶ。
我々のアプローチは、様々なベンチマークで最先端のGNNの性能を上回るか、ほぼ一致している。
論文 参考訳(メタデータ) (2020-10-27T02:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。