論文の概要: Synergy: End-to-end Concept Model
- arxiv url: http://arxiv.org/abs/2507.12769v1
- Date: Thu, 17 Jul 2025 04:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.336689
- Title: Synergy: End-to-end Concept Model
- Title(参考訳): Synergy: エンドツーエンドの概念モデル
- Authors: Keli Zheng, Zerong Xie,
- Abstract要約: エンド・ツー・エンドの方法で異なるレベルの抽象化をブリッジする言語モデルであるSynergyを紹介します。
我々のモデルは自然にバイトをトークン化することを学び、バイトレベルのByte Pairトークンよりも少ない概念トークンを生成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Synergy, a language model that bridges different levels of abstraction in an end-to-end fashion through a learned routing mechanism. Focusing on low-level linguistic abstraction, we trained our model as a byte-level language model. Our model spontaneously learns to tokenize bytes, producing fewer concept tokens than Byte-level Byte Pair Encoder (BBPE) tokenizers while keeping comparable performance. By comparing with Llama3, we observed an advantage of Synergy under the same model scale and training dataset size. Further studies show that the middle part (the higher abstraction part) of our model performs better when positional encodings are removed, suggesting the emergence of position-independent concepts. These findings demonstrate the feasibility of tokenizer-free architectures, paving the way for more robust and flexible pipelines.
- Abstract(参考訳): 本稿では,学習されたルーティング機構を通じて,さまざまなレベルの抽象化をエンドツーエンドにブリッジする言語モデルであるSynergyを提案する。
低レベルの言語抽象に焦点をあてて、我々はバイトレベルの言語モデルとしてモデルを訓練した。
我々のモデルは、バイト単位のByte Pair Encoder(BBPE)トークンよりも少ない概念トークンを生成しながら、同等のパフォーマンスを維持しながら、自発的にバイトのトークン化を学習する。
Llama3と比較して、同じモデルスケールとトレーニングデータセットサイズでSynergyの利点を観察しました。
さらに,位置に依存しない概念の出現を示唆し,位置エンコーディングを取り除いた場合,モデルの中間部(高い抽象部)がより良い性能を示すことを示す。
これらの知見は、より堅牢で柔軟なパイプラインを実現するために、トークン化不要なアーキテクチャの実現可能性を示している。
関連論文リスト
- MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文 参考訳(メタデータ) (2023-05-09T14:00:15Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。