論文の概要: Can Large Language Models (or Humans) Distill Text?
- arxiv url: http://arxiv.org/abs/2403.16584v1
- Date: Mon, 25 Mar 2024 09:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:18:23.195056
- Title: Can Large Language Models (or Humans) Distill Text?
- Title(参考訳): 大規模言語モデル(あるいは人間)はテキストを希釈できるか?
- Authors: Nicolas Audinet de Pieuchon, Adel Daoud, Connor Thomas Jerzak, Moa Johansson, Richard Johansson,
- Abstract要約: テキストを蒸留するために,多種多様な言語モデル (LLM) を用いる。
感情を除去する強力なテストでは、処理されたテキストと感情の統計的関連性は、まだ明らかである。
また、人間のアノテータは、他のセマンティックコンテンツを保存しながら感情を蒸留するのにも苦労していることもわかりました。
- 参考スコア(独自算出の注目度): 6.858838842613459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the potential of large language models (LLMs) to distill text: to remove the textual traces of an undesired forbidden variable. We employ a range of LLMs with varying architectures and training approaches to distill text by identifying and removing information about the target variable while preserving other relevant signals. Our findings shed light on the strengths and limitations of LLMs in addressing the distillation and provide insights into the strategies for leveraging these models in computational social science investigations involving text data. In particular, we show that in the strong test of removing sentiment, the statistical association between the processed text and sentiment is still clearly detectable to machine learning classifiers post-LLM-distillation. Furthermore, we find that human annotators also struggle to distill sentiment while preserving other semantic content. This suggests there may be limited separability between concept variables in some text contexts, highlighting limitations of methods relying on text-level transformations and also raising questions about the robustness of distillation methods that achieve statistical independence in representation space if this is difficult for human coders operating on raw text to attain.
- Abstract(参考訳): 本研究では,大言語モデル(LLM)によるテキストの抽出の可能性について検討する。
我々は、様々なアーキテクチャと訓練手法を用いて、他の関連する信号を保持しながら、対象変数に関する情報を特定し、削除することで、テキストを蒸留する。
本研究は, LLMの蒸留における強度と限界を明らかにし, これらのモデルをテキストデータを含む計算社会科学研究に活用するための戦略について考察した。
特に、感情を除去する強力なテストにおいて、処理されたテキストと感情の統計的関連性は、LLM蒸留後の機械学習分類器に対して明らかに検出可能であることを示す。
さらに、人間のアノテータは、他のセマンティックコンテンツを保存しながら感情を蒸留するのにも苦労していることがわかった。
これは、いくつかのテキストコンテキストにおける概念変数の分離性に制限があることを示唆し、テキストレベルの変換に依存するメソッドの制限を強調し、また、人間のコーダーが生のテキスト上で動作させることが困難である場合、表現空間における統計的独立性を達成する蒸留方法の堅牢性に関する疑問を提起する。
関連論文リスト
- Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。