Fugu-MT 論文翻訳(概要): Can adversarial attacks by large language models be attributed?

論文の概要: Can adversarial attacks by large language models be attributed?

arxiv url: http://arxiv.org/abs/2411.08003v2
Date: Wed, 09 Jul 2025 02:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 15:30:51.932434
Title: Can adversarial attacks by large language models be attributed?
Title（参考訳）: 大規模言語モデルによる敵対的攻撃は考えられるか?
Authors: Manuel Cebrian, Andres Abeliuk, Jan Arne Telle,
Abstract要約: 本研究では,Large Language Models (LLM) のクラスは,出力のみから識別できないことを示す。近年では, 与えられた出力に対して, 可算モデル起源数の爆発を定量化している。
参考スコア（独自算出の注目度）: 1.2289361708127877
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attributing outputs from Large Language Models (LLMs) in adversarial settings-such as cyberattacks and disinformation campaigns-presents significant challenges that are likely to grow in importance. We approach this attribution problem from both a theoretical and an empirical perspective, drawing on formal language theory (identification in the limit) and data-driven analysis of the expanding LLM ecosystem. By modeling an LLM's set of possible outputs as a formal language, we analyze whether finite samples of text can uniquely pinpoint the originating model. Our results show that, under mild assumptions of overlapping capabilities among models, certain classes of LLMs are fundamentally non-identifiable from their outputs alone. We delineate four regimes of theoretical identifiability: (1) an infinite class of deterministic (discrete) LLM languages is not identifiable (Gold's classical result from 1967); (2) an infinite class of probabilistic LLMs is also not identifiable (by extension of the deterministic case); (3) a finite class of deterministic LLMs is identifiable (consistent with Angluin's tell-tale criterion); and (4) even a finite class of probabilistic LLMs can be non-identifiable (we provide a new counterexample establishing this negative result). Complementing these theoretical insights, we quantify the explosion in the number of plausible model origins (hypothesis space) for a given output in recent years. Even under conservative assumptions-each open-source model fine-tuned on at most one new dataset-the count of distinct candidate models doubles approximately every 0.5 years, and allowing multi-dataset fine-tuning combinations yields doubling times as short as 0.28 years. This combinatorial growth, alongside the extraordinary computational cost of brute-force likelihood attribution across all models and potential users, renders exhaustive attribution infeasible in practice.
Abstract（参考訳）: 大規模言語モデル(LLMs)によるサイバー攻撃や偽情報キャンペーンといった敵の設定によるアウトプットは、重要度が増大する可能性のある重要な課題を表している。我々は,この帰属問題に理論的・経験的両面からアプローチし,形式言語理論(限界の識別)と拡大するLLMエコシステムのデータ駆動分析を基礎とした。 LLMの可能な出力の集合を形式言語としてモデル化することにより、テキストの有限標本が生成したモデルを一意に特定できるかどうかを解析する。以上の結果から,モデル間で重なり合う能力の軽度仮定の下では,LLMのある種のクラスは,出力のみから基本的に識別不可能であることが示唆された。 1) 決定性(離散性) LLM言語の無限クラスは識別不可能(Gold's classical result from 1967)、(2) 確率性(probabilistic) LLMの無限クラスは識別不能(決定性)、(3) 決定性(deterministic) LLMの有限クラスは識別可能(Angluin's tell-tale criterionと矛盾)、(4) 確率性(probabilistic) LLMの有限クラスでさえも識別不能(この否定的な結果を確立する新しい反例を提供する)である。これらの理論的な知見を補完し、近年、与えられた出力に対する可算モデル原点(仮説空間)の爆発を定量化する。保守的な前提の下でも、少なくとも1つの新しいデータセットに微調整されたオープンソースモデル - 異なる候補モデルの数は、0.5年毎に2倍になり、マルチデータセットの微調整の組み合わせが0.28年と2倍になる。この組合せ的成長は、すべてのモデルと潜在的なユーザーに対して、異常な計算コストのブルートフォース帰属(brute-force chance attribution)を伴い、実際は徹底的な帰属(Atribution)を可能にする。

関連論文リスト

Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models [0.0]
大規模言語モデル(LLM)は、潜在空間内と外部の両方で推論計算を行うことができる。本研究では,異なる領域におけるモデル内部推論を定量化するベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-14T18:15:27Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Deterministic or probabilistic? The psychology of LLMs as random number generators [0.0]
大規模言語モデル(LLM)は、本質的に確率的文脈認識機構を通じてテキスト生成を変換している。この結果から, 変圧器をベースとしたモデルでは, ランダムな数値出力を誘導すると, 決定論的応答が生じることが判明した。
論文参考訳（メタデータ） (2025-02-27T10:45:27Z)
Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing [7.312170216336085]
我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
論文参考訳（メタデータ） (2025-01-14T17:50:06Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models [59.970391602080205]
本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。各種共通タスクにおける自由形式の応答を生成するよりも,構造化形式に順応することが制限された場合のLLMの性能を評価する。より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下につながる。
論文参考訳（メタデータ） (2024-08-05T13:08:24Z)
Misinforming LLMs: vulnerabilities, challenges and opportunities [4.54019093815234]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、その基盤となるメカニズムはしばしば誤解されている。本稿では,現在のLLMアーキテクチャは,単語埋め込みベクトルの逐次パターンの相関に依存するため,本質的に不確実であると主張している。生成トランスフォーマーベースのモデルとファクトベースと論理プログラミング言語を組み合わせる研究は、信頼できるLLMの開発に繋がる可能性がある。
論文参考訳（メタデータ） (2024-08-02T10:35:49Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Reasoning over Uncertain Text by Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。 LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-02-14T23:05:44Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。 LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文参考訳（メタデータ） (2023-04-28T19:00:43Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。