論文の概要: Domain Regeneration: How well do LLMs match syntactic properties of text domains?
- arxiv url: http://arxiv.org/abs/2505.07784v2
- Date: Mon, 02 Jun 2025 15:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.363529
- Title: Domain Regeneration: How well do LLMs match syntactic properties of text domains?
- Title(参考訳): ドメイン・リジェネレーション: LLMはテキスト・ドメインの構文的特性とどの程度うまく一致しますか?
- Authors: Da Ju, Hagen Blix, Adina Williams,
- Abstract要約: 我々は、広く使われているオープンソースのLCMに、寛容にライセンスされた英語のテキストであるウィキペディアとニューステキストの2つのドメインからテキストを再生するよう促す。
この再生パラダイムは、LLMが意味的に制御された設定で、元の人間のテキストドメインと忠実に一致できるかどうかを調査することを可能にする。
その結果, 再生分布の大部分は, 平均値, 標準偏差が低く, 長い尾部が減少していることがわかった。
- 参考スコア(独自算出の注目度): 19.04920427362747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent improvement in large language model performance have, in all likelihood, been accompanied by improvement in how well they can approximate the distribution of their training data. In this work, we explore the following question: which properties of text domains do LLMs faithfully approximate, and how well do they do so? Applying observational approaches familiar from corpus linguistics, we prompt a commonly used, opensource LLM to regenerate text from two domains of permissively licensed English text which are often contained in LLM training data -- Wikipedia and news text. This regeneration paradigm allows us to investigate whether LLMs can faithfully match the original human text domains in a fairly semantically-controlled setting. We investigate varying levels of syntactic abstraction, from more simple properties like sentence length, and article readability, to more complex and higher order properties such as dependency tag distribution, parse depth, and parse complexity. We find that the majority of the regenerated distributions show a shifted mean, a lower standard deviation, and a reduction of the long tail, as compared to the human originals.
- Abstract(参考訳): 近年の大規模言語モデルの性能向上には、トレーニングデータの分布をいかに正確に近似できるかの改善が伴っている可能性がある。
本稿では,テキストドメインのどの特性がLLMを忠実に近似し,どの程度うまく動作するのか,という問題について考察する。
コーパス言語学に精通した観察的アプローチを適用することで、一般的に使われているオープンソースのLLMに、LLMトレーニングデータ(ウィキペディアとニューステキスト)に含まれる許可された英語テキストの2つのドメインからテキストを再生するように促します。
このリジェネレーションパラダイムにより、LLMが、意味論的に制御された設定で、元の人間のテキストドメインに忠実に適合できるかどうかを調べることができる。
文長や記事の可読性といったより単純な性質から,依存関係タグの分布やパース深さ,複雑度といった,より複雑で高次な性質まで,さまざまな構文抽象化レベルについて検討する。
その結果, 再生分布の大部分は, 平均値, 標準偏差が低く, 長い尾部が減少していることがわかった。
関連論文リスト
- Low-Perplexity LLM-Generated Sequences and Where To Find Them [0.0]
モデルにより生成された高確率テキストスパンの低パープレクティリティシーケンスの解析を主眼とした体系的アプローチを提案する。
私たちのパイプラインは、変性を避けながら、さまざまなトピックにわたる長いシーケンスを確実に抽出し、トレーニングデータのソースまで追跡します。
一致した人に対しては、ソース文書間で発生した事象の分布を定量化し、冗長リコールのスコープと性質を強調する。
論文 参考訳(メタデータ) (2025-07-02T15:58:51Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。
本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - Do LLMs Really Adapt to Domains? An Ontology Learning Perspective [2.0755366440393743]
大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。
近年の研究では、LLMが知識ベースコンプリート(KBC)やオントロジー学習(OL)などの語彙意味タスクに活用できることが示されている。
LLMは本当にドメインに適応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
論文 参考訳(メタデータ) (2024-07-29T13:29:43Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Improving Domain Adaptation through Extended-Text Reading Comprehension [108.24709810480654]
最近の研究は、適応型パターンによってフォーマットされた理解データを読み取るモデルが、ドメイン固有のタスクのパフォーマンスを大幅に改善できることを実証している。
しかし、これらのパターンはドメイン固有の知識を用いて生のコーパスを解析することができない。
AdaptLLMと比較して、ドメイン固有のタスクで5%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-01-14T13:11:31Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。