論文の概要: Origin Tracing and Detecting of LLMs
- arxiv url: http://arxiv.org/abs/2304.14072v1
- Date: Thu, 27 Apr 2023 10:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:46:40.127338
- Title: Origin Tracing and Detecting of LLMs
- Title(参考訳): LLMの起源追跡と検出
- Authors: Linyang Li, Pengyu Wang, Ke Ren, Tianxiang Sun, Xipeng Qiu
- Abstract要約: 本稿では,AI生成コンテキストの追跡と検出に有効な手法を提案する。
提案手法は,ホワイトボックス設定とブラックボックス設定の両方で動作する。
我々は、与えられたテキストの起源を追跡できるかどうかを調べるために、広範囲な実験を構築した。
- 参考スコア(独自算出の注目度): 46.02811367717774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraordinary performance of large language models (LLMs) heightens the
importance of detecting whether the context is generated by an AI system. More
importantly, while more and more companies and institutions release their LLMs,
the origin can be hard to trace. Since LLMs are heading towards the time of
AGI, similar to the origin tracing in anthropology, it is of great importance
to trace the origin of LLMs. In this paper, we first raise the concern of the
origin tracing of LLMs and propose an effective method to trace and detect
AI-generated contexts. We introduce a novel algorithm that leverages the
contrastive features between LLMs and extracts model-wise features to trace the
text origins. Our proposed method works under both white-box and black-box
settings therefore can be widely generalized to detect various LLMs.(e.g. can
be generalized to detect GPT-3 models without the GPT-3 models). Also, our
proposed method requires only limited data compared with the supervised
learning methods and can be extended to trace new-coming model origins. We
construct extensive experiments to examine whether we can trace the origins of
given texts. We provide valuable observations based on the experimental
results, such as the difficulty level of AI origin tracing, and the AI origin
similarities, and call for ethical concerns of LLM providers. We are releasing
all codes and data as a toolkit and benchmark for future AI origin tracing and
detecting studies. \footnote{We are releasing all available resource at
\url{https://github.com/OpenLMLab/}.}
- Abstract(参考訳): 大規模言語モデル(LLM)の異常なパフォーマンスは、コンテキストがAIシステムによって生成されるかどうかを検出する重要性を高める。
さらに重要なのは、多くの企業や機関がLSMをリリースする一方で、その起源を突き止めるのは難しいことだ。
LLMは、人類学の原点追跡と同様、AGIの時代に向かっているため、LLMの起源を辿ることは非常に重要である。
本稿では,まず,llmの起源追跡に関する懸念を提起し,ai生成コンテキストの追跡と検出に有効な手法を提案する。
本稿では,llm間の対比的特徴を活用し,モデルワイズ特徴を抽出してテキスト起源を追跡する新しいアルゴリズムを提案する。
提案手法はホワイトボックスとブラックボックスの両方で動作し,様々なLSMを検出するために広く一般化することができる。
(例えば、GPT-3モデルなしでGPT-3モデルを検出するように一般化することができる)。
また,提案手法は教師付き学習法と比較して限られたデータしか必要とせず,新たなモデルの起源を追究できる。
我々は、与えられたテキストの起源を追跡できるかどうかを調べるために、広範囲な実験を行う。
我々は、AI起源追跡の難易度やAI起源の類似性などの実験結果に基づく貴重な観察を行い、LLMプロバイダの倫理的懸念を求める。
将来のAIの原点追跡と検出のためのツールキットとベンチマークとして、すべてのコードとデータをリリースしています。
私たちはすべての利用可能なリソースを \url{https://github.com/openlmlab/} でリリースしています。
}
関連論文リスト
- Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - HARGPT: Are LLMs Zero-Shot Human Activity Recognizers? [9.414529772034985]
我々は,Large Language Models (LLM) が生のIMUデータを理解し,ゼロショットで人間の活動認識タスクを実行できることを示す。
我々は、GPT4上のHARGPTを、クラス間の類似性の異なる2つの公開データセットを用いてベンチマークし、従来の機械学習と最先端の深い分類モデルの両方に基づいて、様々なベースラインを比較した。
注目すべきは、LLMは生のIMUデータから人間の活動を認識し、両方のデータセットのベースラインを一貫して上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T07:34:51Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。