論文の概要: Domain Regeneration: How well do LLMs match syntactic properties of text domains?
- arxiv url: http://arxiv.org/abs/2505.07784v1
- Date: Mon, 12 May 2025 17:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.521982
- Title: Domain Regeneration: How well do LLMs match syntactic properties of text domains?
- Title(参考訳): ドメイン・リジェネレーション: LLMはテキスト・ドメインの構文的特性とどの程度うまく一致しますか?
- Authors: Da Ju, Hagen Blix, Adina Williams,
- Abstract要約: 我々は、広く使われているオープンソースのLCMに、寛容にライセンスされた英語のテキストであるウィキペディアとニューステキストの2つのドメインからテキストを再生するよう促す。
この再生パラダイムは、LLMが意味的に制御された設定で、元の人間のテキストドメインと忠実に一致できるかどうかを調査することを可能にする。
その結果, 再生分布の大部分は, 平均値, 標準偏差が低く, 長い尾部が減少していることがわかった。
- 参考スコア(独自算出の注目度): 19.04920427362747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent improvement in large language model performance have, in all likelihood, been accompanied by improvement in how well they can approximate the distribution of their training data. In this work, we explore the following question: which properties of text domains do LLMs faithfully approximate, and how well do they do so? Applying observational approaches familiar from corpus linguistics, we prompt a commonly used, opensource LLM to regenerate text from two domains of permissively licensed English text which are often contained in LLM training data -- Wikipedia and news text. This regeneration paradigm allows us to investigate whether LLMs can faithfully match the original human text domains in a fairly semantically-controlled setting. We investigate varying levels of syntactic abstraction, from more simple properties like sentence length, and article readability, to more complex and higher order properties such as dependency tag distribution, parse depth, and parse complexity. We find that the majority of the regenerated distributions show a shifted mean, a lower standard deviation, and a reduction of the long tail, as compared to the human originals.
- Abstract(参考訳): 近年の大規模言語モデルの性能向上には、トレーニングデータの分布をいかに正確に近似できるかの改善が伴っている可能性がある。
本稿では,テキストドメインのどの特性がLLMを忠実に近似し,どの程度うまく動作するのか,という問題について考察する。
コーパス言語学に精通した観察的アプローチを適用することで、一般的に使われているオープンソースのLLMに、LLMトレーニングデータ(ウィキペディアとニューステキスト)に含まれる許可された英語テキストの2つのドメインからテキストを再生するように促します。
このリジェネレーションパラダイムにより、LLMが、意味論的に制御された設定で、元の人間のテキストドメインに忠実に適合できるかどうかを調べることができる。
文長や記事の可読性といったより単純な性質から,依存関係タグの分布やパース深さ,複雑度といった,より複雑で高次な性質まで,さまざまな構文抽象化レベルについて検討する。
その結果, 再生分布の大部分は, 平均値, 標準偏差が低く, 長い尾部が減少していることがわかった。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。
本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - Do LLMs Really Adapt to Domains? An Ontology Learning Perspective [2.0755366440393743]
大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。
近年の研究では、LLMが知識ベースコンプリート(KBC)やオントロジー学習(OL)などの語彙意味タスクに活用できることが示されている。
LLMは本当にドメインに適応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
論文 参考訳(メタデータ) (2024-07-29T13:29:43Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Improving Domain Adaptation through Extended-Text Reading Comprehension [108.24709810480654]
最近の研究は、適応型パターンによってフォーマットされた理解データを読み取るモデルが、ドメイン固有のタスクのパフォーマンスを大幅に改善できることを実証している。
しかし、これらのパターンはドメイン固有の知識を用いて生のコーパスを解析することができない。
AdaptLLMと比較して、ドメイン固有のタスクで5%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-01-14T13:11:31Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。