論文の概要: CIFLEX: Contextual Instruction Flow for Sub-task Execution in Multi-Turn Interactions with a Single On-Device LLM
- arxiv url: http://arxiv.org/abs/2510.01239v1
- Date: Wed, 24 Sep 2025 01:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.742057
- Title: CIFLEX: Contextual Instruction Flow for Sub-task Execution in Multi-Turn Interactions with a Single On-Device LLM
- Title(参考訳): CIFLEX:単一オンデバイスLDMを用いたマルチタスクインタラクションにおけるサブタスク実行のためのコンテキストインストラクションフロー
- Authors: Juntae Lee, Jihwan Bang, Seunghan Yang, Simyung Chang,
- Abstract要約: 単一オンデバイス大規模言語モデル(LLM)を用いたマルチターンインタラクションにおいて,効率的なサブタスク処理のための新しい実行方式を提案する。
我々は、小規模モデルに適した階層的な分類戦略を開発し、複数選択決定をバイナリモデルに分解する。
実験により、CIFLEXはタスク性能を劣化させることなく計算コストを大幅に削減し、デバイス上でスケーラブルで効率的なマルチタスク対話を可能にした。
- 参考スコア(独自算出の注目度): 25.486389526043727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CIFLEX (Contextual Instruction Flow for Sub-task Execution), which is a novel execution system for efficient sub-task handling in multi-turn interactions with a single on-device large language model (LLM). As LLMs become increasingly capable, a single model is expected to handle diverse sub-tasks that more effectively and comprehensively support answering user requests. Naive approach reprocesses the entire conversation context when switching between main and sub-tasks (e.g., query rewriting, summarization), incurring significant computational overhead. CIFLEX mitigates this overhead by reusing the key-value (KV) cache from the main task and injecting only task-specific instructions into isolated side paths. After sub-task execution, the model rolls back to the main path via cached context, thereby avoiding redundant prefill computation. To support sub-task selection, we also develop a hierarchical classification strategy tailored for small-scale models, decomposing multi-choice decisions into binary ones. Experiments show that CIFLEX significantly reduces computational costs without degrading task performance, enabling scalable and efficient multi-task dialogue on-device.
- Abstract(参考訳): 単一オンデバイス大規模言語モデル(LLM)を用いたマルチターンインタラクションにおいて,マルチターン処理を効率的に行うための新しい実行システムであるCIFLEX(Contextual Instruction Flow for Sub-task Execution)を提案する。
LLMの能力が向上するにつれて、単一のモデルで多様なサブタスクを処理し、より効果的かつ包括的なユーザ要求応答をサポートすることが期待されている。
Naiveアプローチは、メインタスクとサブタスク(例えば、クエリ書き換え、要約)を切り替えるときに、会話のコンテキスト全体を再処理する。
CIFLEXはキー値(KV)キャッシュをメインタスクから再利用し、タスク固有の命令のみを分離されたサイドパスに注入することで、このオーバーヘッドを軽減する。
サブタスク実行後、モデルはキャッシュされたコンテキストを介してメインパスにロールバックし、冗長なプリフィル計算を避ける。
サブタスク選択を支援するため,小型モデルに適した階層型分類戦略を開発し,複数選択決定をバイナリモデルに分解する。
実験により、CIFLEXはタスク性能を劣化させることなく計算コストを大幅に削減し、デバイス上でスケーラブルで効率的なマルチタスク対話を可能にした。
関連論文リスト
- Efficient Compositional Multi-tasking for On-device Large Language Models [19.179619181605556]
テキストベースの合成マルチタスクの問題について検討し、各テスト例では複数のタスクを同時に実行する。
私たちのコントリビューションは、実世界のマルチタスクシナリオにおける大規模言語モデルの能力を向上し、複雑なリソース制約のあるユースケースに適用可能にするための基礎を築いてきました。
論文 参考訳(メタデータ) (2025-07-21T21:39:23Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [43.32632163091792]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。
このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。
Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-05T17:28:20Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。