Fugu-MT 論文翻訳(概要): Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access

論文の概要: Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access

arxiv url: http://arxiv.org/abs/2401.09967v1
Date: Thu, 18 Jan 2024 13:31:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 16:34:38.965763
Title: Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access
Title（参考訳）: ログアクセス不要のブラックボックス大言語モデル強化のためのスケッチガイド付き制約付き復号法
Authors: Saibo Geng, Berkay D\"oner, Chris Wendler, Martin Josifoski, Robert West
Abstract要約: 我々は,ブラックボックス大言語モデル(LLM)の制約付き復号法として,スケッチガイド付き制約付き復号法(SGCD)を導入する。 SGCDはブラックボックスLSMのロジットにアクセスすることなく動作する。閉情報抽出および選挙区解析における実験によるSGCDの有効性を実証する。
参考スコア（独自算出の注目度）: 15.948724865944449
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Constrained decoding, a technique for enforcing constraints on language model outputs, offers a way to control text generation without retraining or architectural modifications. Its application is, however, typically restricted to models that give users access to next-token distributions (usually via softmax logits), which poses a limitation with blackbox large language models (LLMs). This paper introduces sketch-guided constrained decoding (SGCD), a novel approach to constrained decoding for blackbox LLMs, which operates without access to the logits of the blackbox LLM. SGCD utilizes a locally hosted auxiliary model to refine the output of an unconstrained blackbox LLM, effectively treating this initial output as a "sketch" for further elaboration. This approach is complementary to traditional logit-based techniques and enables the application of constrained decoding in settings where full model transparency is unavailable. We demonstrate the efficacy of SGCD through experiments in closed information extraction and constituency parsing, showing how it enhances the utility and flexibility of blackbox LLMs for complex NLP tasks.
Abstract（参考訳）: 制約付きデコーディングは、言語モデルの出力に制約を強制するテクニックであり、再トレーニングやアーキテクチャの変更なしにテキスト生成を制御する方法を提供する。しかし、そのアプリケーションは一般的に、blackbox large language model (llm) の制限となる次世代のディストリビューション(通常はsoftmax logits経由で)にアクセスできるモデルに限定されている。本稿では,ブラックボックスLLMのロジットにアクセスせずに動作するブラックボックスLLMの制約付き復号法であるスケッチ誘導制約復号法(SGCD)を提案する。 SGCDは、ローカルにホストされた補助モデルを使用して、制約のないブラックボックスLSMの出力を洗練し、この初期出力を「スケッチ」として効果的に処理し、さらなる実験を行う。このアプローチは従来のロジットベースのテクニックを補完するものであり、完全なモデルの透明性が利用できない設定で制約付きデコードを適用することができる。 sgcdの有効性をクローズド情報抽出と構成解析の実験を通して実証し,複雑なnlpタスクに対するblackbox llmの有用性と柔軟性をいかに高めているかを示した。

関連論文リスト

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
The Challenge of Identifying the Origin of Black-Box Large Language Models [34.284190160785336]
サードパーティは、微調整によって大きな言語モデル(LLM)をカスタマイズでき、ブラックボックスのAPIアクセスのみを提供する。この慣行は不正競争を悪化させるだけでなく、ライセンス契約に違反している。本稿では,LLMに逆トークン埋め込みを積極的にプラグインしてトレースと識別を行うPlugAEを提案する。
論文参考訳（メタデータ） (2025-03-06T11:30:32Z)
Logits are All We Need to Adapt Closed Models [15.227768874282834]
多くの商用の大規模言語モデル(LLM)は、しばしばクローズドソースであり、開発者は特定のアプリケーションとコンテンツ生成の調整を迅速に行うことができる。このようなアクセスが利用可能であれば、迅速なエンジニアリングを超えて、より強力な適応技術を可能にするだろう、と私たちは主張する。ブラックボックスのLCMをアプリケーション固有のコンテンツ生成に向け,トークンレベルの確率再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-03T22:24:22Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。 SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文参考訳（メタデータ） (2024-08-08T11:51:45Z)
Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文参考訳（メタデータ） (2024-07-25T16:13:58Z)
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。 LLMの能力をフル活用するための新しいフレームワークを提案する。さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文参考訳（メタデータ） (2024-06-17T17:59:43Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。 BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。 BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文参考訳（メタデータ） (2024-06-05T12:45:25Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Guiding LLMs The Right Way: Fast, Non-Invasive Constrained Generation [7.687678490751105]
我々は、プリ計算と投機的復号化を利用して、ほとんどオーバーヘッドが無く、場合によっては、制約のない復号化よりも約2$times$のスピードアップを達成できる新しい復号アルゴリズムDOMINOを提案する。
論文参考訳（メタデータ） (2024-02-07T13:36:02Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。