論文の概要: Preprint: Did I Just Browse A Website Written by LLMs?
- arxiv url: http://arxiv.org/abs/2507.13933v1
- Date: Fri, 18 Jul 2025 14:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.306751
- Title: Preprint: Did I Just Browse A Website Written by LLMs?
- Title(参考訳): プレプリント: LLMsで書かれたWebサイトをブラウズしたか?
- Authors: Sichang "Steven" He, Ramesh Govindan, Harsha V. Madhyastha,
- Abstract要約: LLM-dominant」コンテンツは、人間の入力が少ない大規模言語モデル(LLM)によって生成される。
ウェブサイト全体を分類する信頼性が高くスケーラブルなパイプラインを提案する。
LLMが優位なサイトは,検索結果の順に増加し,ランクも高くなっている。
- 参考スコア(独自算出の注目度): 4.608794377614808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are insufficient, because they perform well mainly on clean, prose-like text, while web content has complex markup and diverse genres. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
- Abstract(参考訳): ウェブコンテンツは、人間の入力が少ない大規模言語モデル(LLM)によって自動的に生成される。
私たちはこれを"LLM-dominant"コンテンツと呼びます。
LLMはプラギア化して幻覚するので、LDM優位の含有量は信頼性が低く非倫理的である。
しかし、ウェブサイトがそのようなコンテンツを公開することはめったになく、人間の読者はそれを区別するのに苦労している。
したがって, LLM-dominant 含有量に対する信頼性の高い検出器を開発する必要がある。
しかし、現状のLLM検出器は、クリーンで散文的なテキストでよく機能するのに対して、Webコンテンツは複雑なマークアップと多様なジャンルを持っているため、不十分である。
ウェブサイト全体を分類する信頼性が高くスケーラブルなパイプラインを提案する。
各ページから抽出したテキストを鼻で分類する代わりに、複数の散文のようなページのLLMテキスト検出器の出力に基づいて各サイトを分類する。
我々は、120の地点で2つの異なる真実のデータセットを収集して、検出器を訓練し、評価し、100%の精度テストを得る。
サーチエンジンの10kサイトと,Common Crawlのアーカイブの10kサイトのうち,LLMが支配的なサイトが広い範囲で検出されている。
LLMが支配するサイトは、検索結果の上位にランクインし、エンドユーザーやWebエコシステム全体に与える影響について疑問を投げかけている。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
コンテンツの証明は、教育機関、ソーシャルメディアプラットフォーム、企業など、多くの組織の機能に不可欠である。
LLM(Large Language Models)が生成するテキストが、人間が生成したコンテンツとほとんど区別できないようになるにつれて、この問題はますます難しくなってきている。
本稿では,あるテキストが与えられた場合,特定の LLM が生成したかどうかを特定できるのか,という問いに答える。
LLM生成したテキストは、歴史に完全に依存したシーケンシャルなプロセスとしてモデル化し、ゼロショット統計テストを設計し、2つの異なるLCM集合によって生成されたテキストを区別する。
論文 参考訳(メタデータ) (2025-01-04T23:51:43Z) - SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding [103.69014172427026]
マルチモーダルな大言語モデル(MLLM)は、最近、テキストに富んだ画像理解において大きな進歩を見せている。
長文書理解を支援するため,任意のMLLMの地平線を拡大できる,**S**elf-**V*isual **R***A*ugmented **G**eneration (SV-RAG) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T02:09:01Z) - Which LLMs are Difficult to Detect? A Detailed Analysis of Potential Factors Contributing to Difficulties in LLM Text Detection [43.66875548677324]
我々は、不均衡なデータセットで分類器を訓練するためにLibAUCライブラリを使用してAIGテキスト分類器を訓練する。
We results in the Deepfake Text dataset shows that AIG-text detection are various across domain。
学生エッセイに焦点をあてたIvy Pandaデータセットでは, LLMのOpenAIファミリは, 分類者が人文と区別することが極めて困難であった。
論文 参考訳(メタデータ) (2024-10-18T21:42:37Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。
本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。
FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文 参考訳(メタデータ) (2024-06-25T13:50:56Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。