論文の概要: Dynamic Collaboration of Multi-Language Models based on Minimal Complete Semantic Units
- arxiv url: http://arxiv.org/abs/2508.18763v1
- Date: Tue, 26 Aug 2025 07:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.731891
- Title: Dynamic Collaboration of Multi-Language Models based on Minimal Complete Semantic Units
- Title(参考訳): 最小完全意味単位に基づく多言語モデルの動的協調
- Authors: Chao Hao, Zezheng Wang, Yanhua Huang, Ruiwen Xu, Wenzhe Niu, Xin Liu, Zitong Yu,
- Abstract要約: 本稿では,トークンレベルの多モデル協調による言語モデルの推論能力の向上について検討する。
分散距離に基づく動的選択戦略(DDS)を導入し,マルチモデル協調プロセスを最適化する。
- 参考スコア(独自算出の注目度): 29.79935180749153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the enhancement of reasoning capabilities in language models through token-level multi-model collaboration. Our approach selects the optimal tokens from the next token distributions provided by multiple models to perform autoregressive reasoning. Contrary to the assumption that more models yield better results, we introduce a distribution distance-based dynamic selection strategy (DDS) to optimize the multi-model collaboration process. To address the critical challenge of vocabulary misalignment in multi-model collaboration, we propose the concept of minimal complete semantic units (MCSU), which is simple yet enables multiple language models to achieve natural alignment within the linguistic space. Experimental results across various benchmarks demonstrate the superiority of our method. The code will be available at https://github.com/Fanye12/DDS.
- Abstract(参考訳): 本稿では,トークンレベルの多モデル協調による言語モデルの推論能力の向上について検討する。
提案手法では,複数のモデルによって提供される次のトークン分布から最適なトークンを選択し,自己回帰推論を行う。
より多くのモデルがより良い結果をもたらすという仮定とは対照的に、分散距離に基づく動的選択戦略(DDS)を導入し、マルチモデルコラボレーションプロセスを最適化する。
マルチモデル協調における語彙の不整合(vocabulary misalignment)という重要な課題に対処するために,複数の言語モデルが言語空間内で自然なアライメントを達成できる最小完全意味単位(MCSU)の概念を提案する。
各種ベンチマークによる実験結果から,本手法の優位性が確認された。
コードはhttps://github.com/Fanye12/DDSで入手できる。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation [2.9998889086656586]
本稿では,言語データに基づいて学習した大規模視覚言語モデルの適応手法を提案し,その性能を向上する。
マルチ言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-12T12:04:05Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD [0.8602553195689511]
我々はCorefUD 1.1データセットを利用した新しいエンドツーエンドのニューラルコア参照解決システムを提案する。
提案モデルは、標準のエンドツーエンドのニューラルコア参照解決システムに基づいている。
多様な言語文脈における性能向上のためのいくつかの拡張を提案する。
論文 参考訳(メタデータ) (2024-08-29T20:27:05Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Exploiting Multilingualism in Low-resource Neural Machine Translation
via Adversarial Learning [3.2258463207097017]
Generative Adversarial Networks (GAN) はニューラルマシン翻訳(NMT)に有望なアプローチを提供する
GANでは、バイリンガルモデルと同様に、マルチリンガルNTTはモデルトレーニング中に各文の参照翻訳を1つだけ考慮している。
本稿では,DAASI(Denoising Adversarial Auto-Encoder-based Sentence Interpolation)アプローチによる文計算を提案する。
論文 参考訳(メタデータ) (2023-03-31T12:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。