Fugu-MT 論文翻訳(概要): LLMEffiChecker: Understanding and Testing Efficiency Degradation of Large Language Models

論文の概要: LLMEffiChecker: Understanding and Testing Efficiency Degradation of Large Language Models

arxiv url: http://arxiv.org/abs/2210.03696v2
Date: Sat, 25 May 2024 04:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 12:57:42.271190
Title: LLMEffiChecker: Understanding and Testing Efficiency Degradation of Large Language Models
Title（参考訳）: LLMEffiChecker: 大規模言語モデルの理解とテスト効率の低下
Authors: Xiaoning Feng, Xiaohong Han, Simin Chen, Wei Yang,
Abstract要約: 我々は、最先端のLLMにおける潜在的な計算効率を理解し、テストするための最初の試みを行う。ホワイトボックス設定とブラックボックス設定の両方で動作するツールを提案する。ツールは平均的なLCMの応答遅延とエネルギー消費を325%から3244%、そして344%から3616%増加させることができる。
参考スコア（独自算出の注目度）: 6.035408399083156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we make the first attempt to understand and test potential computation efficiency robustness in state-of-the-art LLMs. By analyzing the working mechanism and implementation of 20,543 public-accessible LLMs, we observe a fundamental property in LLMs that could be manipulated in an adversarial manner to reduce computation efficiency significantly. Our key motivation is to generate test inputs that could sufficiently delay the generation of EOS such that LLMs would have to go through enough iterations to satisfy the pre-configured threshold. We present \tool, which can work under both white-box setting and black-box setting. In the white-box scenario, \tool develops a gradient-guided technique that searches for a minimal and unnoticeable perturbation at character-level, token-level, and structure-level. In the black-box scenario, \tool employs a causal inference-based approach to find critical tokens and similarly applies three levels of imperceptible perturbation to them. Both the white-box and black-box settings effectively delay the appearance of EOS, compelling these inputs to reach the naturally-unreachable threshold. To demonstrate the effectiveness of \tool, we conduct a systematic evaluation on nine public-available LLMs: Google T5, AllenAI WMT14, Helsinki-NLP translator, Facebook FairSeq, UNICAMP-DL translator, MarianMT, Google FLAN-T5, MBZUAI LaMini-GPT and Salesforce CodeGen. Experimental results show that \tool can increase on average LLMs' response latency and energy consumption by 325\% to 3244\% and 344\% to 3616\%, respectively, by perturbing just one character or token in the input sentence.
Abstract（参考訳）: 本稿では,現状のLLMにおける計算効率の堅牢性を理解し,検証するための最初の試みを行う。 20,543個のパブリックアクセス可能なLCMの動作機構と実装を分析して,計算効率を著しく低減するために,逆向きに操作できるLCMの基本特性を観察する。我々の主要な動機は、事前設定されたしきい値を満たすのに十分なイテレーションを経なければならないように、EOSの生成を十分に遅らせるテストインプットを生成することです。ホワイトボックス設定とブラックボックス設定の両方で動作可能な \tool を提示する。ホワイトボックスのシナリオでは、 \toolは、文字レベル、トークンレベル、構造レベルで、最小限で目立たない摂動を探索する勾配誘導技術を開発した。ブラックボックスのシナリオでは、シャトールはクリティカルトークンを見つけるために因果推論に基づくアプローチを採用し、同様に3段階の知覚できない摂動をそれらに適用する。ホワイトボックスとブラックボックスの設定の両方がEOSの出現を効果的に遅らせ、これらの入力が自然に到達できない閾値に達するように促した。 Google T5, AllenAI WMT14, Helsinki-NLP Translator, Facebook FairSeq, UNICAMP-DL Translator, MarianMT, Google FLAN-T5, MBZUAI LaMini-GPT, Salesforce CodeGen。実験の結果,入力文中の1文字またはトークンだけを摂動させることで,平均LLMの応答遅延とエネルギー消費を325\%から3244\%,344\%から3616\%に増加させることができることがわかった。

関連論文リスト

Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective [6.258220461022373]
既存のMultimodal Large Language Models (MLLM) は多数の視覚トークンを処理し、計算コストと非効率性をもたらす。トークン圧縮はLLMの入力段階では不可能な性能損失で実現可能であることを示す。本稿では,第1のLCMレイヤのアテンションマップから説明結果へのマッピングを学習し,完全な推論パスの必要性を回避することを提案する。
論文参考訳（メタデータ） (2025-06-01T17:44:16Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Time Will Tell: Timing Side Channels via Output Token Count in Large Language Models [7.686540586889241]
本稿では,大規模言語モデル(LLM)における推論入力に関する機密情報を敵が抽出できる新しいサイドチャネルを示す。我々は,このサイドチャネルを用いた攻撃を,機械翻訳タスクのターゲット言語を復元し,分類タスクの出力クラスを復元する2つの共通LLMタスクで構築する。実験の結果,3つの異なるモデルに対して75%以上の精度で,翻訳タスクの出力言語を学習できることが判明した。
論文参考訳（メタデータ） (2024-12-19T22:29:58Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Efficient Solutions For An Intriguing Failure of LLMs: Long Context Window Does Not Mean LLMs Can Analyze Long Sequences Flawlessly [6.685692482347038]
大規模言語モデル(LLM)は、長い逐次入力の解釈と解析において顕著な能力を示した。本稿では,長い入力シーケンスを扱う場合,LLMが短くなるという,驚くべき制限を明らかにする。本稿では,LLMの性能を最大50%向上させるアドホックな手法を提案し,評価する。
論文参考訳（メタデータ） (2024-08-03T21:31:34Z)
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文参考訳（メタデータ） (2024-07-15T17:59:29Z)
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文参考訳（メタデータ） (2024-06-18T13:17:26Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文参考訳（メタデータ） (2024-04-09T02:51:05Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文参考訳（メタデータ） (2023-11-16T07:03:54Z)
Remember what you did so you know what to do next [10.526351131118096]
我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
論文参考訳（メタデータ） (2023-10-30T19:29:00Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文参考訳（メタデータ） (2022-05-25T18:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。