Fugu-MT 論文翻訳(概要): Can adversarial attacks by large language models be attributed?

論文の概要: Can adversarial attacks by large language models be attributed?

arxiv url: http://arxiv.org/abs/2411.08003v1
Date: Tue, 12 Nov 2024 18:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.026496
Title: Can adversarial attacks by large language models be attributed?
Title（参考訳）: 大規模言語モデルによる敵対的攻撃は考えられるか?
Authors: Manuel Cebrian, Jan Arne Telle,
Abstract要約: 敵の設定における大規模言語モデルからのアウトプットの寄与は、重要度が増大する可能性が高い重要な課題を示す。正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。以上の結果から,特定の言語クラスの識別不可能性から,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。
参考スコア（独自算出の注目度）: 1.3812010983144802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attributing outputs from Large Language Models (LLMs) in adversarial settings-such as cyberattacks and disinformation-presents significant challenges that are likely to grow in importance. We investigate this attribution problem using formal language theory, specifically language identification in the limit as introduced by Gold and extended by Angluin. By modeling LLM outputs as formal languages, we analyze whether finite text samples can uniquely pinpoint the originating model. Our results show that due to the non-identifiability of certain language classes, under some mild assumptions about overlapping outputs from fine-tuned models it is theoretically impossible to attribute outputs to specific LLMs with certainty. This holds also when accounting for expressivity limitations of Transformer architectures. Even with direct model access or comprehensive monitoring, significant computational hurdles impede attribution efforts. These findings highlight an urgent need for proactive measures to mitigate risks posed by adversarial LLM use as their influence continues to expand.
Abstract（参考訳）: 大規模言語モデル(LLMs)によるサイバー攻撃や偽情報といった敵の設定によるアウトプットは、重要度が増大する可能性のある重要な課題を表している。正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。 LLM出力を形式言語としてモデル化することにより、有限テキストサンプルが生成したモデルを一意に特定できるかどうかを解析する。この結果から,特定の言語クラスの識別不可能性から,微調整モデルから出力が重なり合うという軽微な仮定の下では,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。また、Transformerアーキテクチャの表現性制限も考慮している。直接モデルアクセスや包括的な監視であっても、重要な計算ハードルは帰属の努力を妨げる。これらの知見は、敵LSMの使用によるリスクを軽減し、その影響を拡大する上で、積極的な対策が緊急の必要性を浮き彫りにしている。

関連論文リスト

Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models [0.0]
大規模言語モデル(LLM)は、潜在空間内と外部の両方で推論計算を行うことができる。本研究では,異なる領域におけるモデル内部推論を定量化するベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-14T18:15:27Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Deterministic or probabilistic? The psychology of LLMs as random number generators [0.0]
大規模言語モデル(LLM)は、本質的に確率的文脈認識機構を通じてテキスト生成を変換している。この結果から, 変圧器をベースとしたモデルでは, ランダムな数値出力を誘導すると, 決定論的応答が生じることが判明した。
論文参考訳（メタデータ） (2025-02-27T10:45:27Z)
Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing [7.312170216336085]
我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
論文参考訳（メタデータ） (2025-01-14T17:50:06Z)
Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文参考訳（メタデータ） (2025-01-06T07:57:51Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models [59.970391602080205]
本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。各種共通タスクにおける自由形式の応答を生成するよりも,構造化形式に順応することが制限された場合のLLMの性能を評価する。より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下につながる。
論文参考訳（メタデータ） (2024-08-05T13:08:24Z)
Misinforming LLMs: vulnerabilities, challenges and opportunities [4.54019093815234]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、その基盤となるメカニズムはしばしば誤解されている。本稿では,現在のLLMアーキテクチャは,単語埋め込みベクトルの逐次パターンの相関に依存するため,本質的に不確実であると主張している。生成トランスフォーマーベースのモデルとファクトベースと論理プログラミング言語を組み合わせる研究は、信頼できるLLMの開発に繋がる可能性がある。
論文参考訳（メタデータ） (2024-08-02T10:35:49Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Reasoning over Uncertain Text by Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。 LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-02-14T23:05:44Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。 LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文参考訳（メタデータ） (2023-04-28T19:00:43Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。