論文の概要: Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals
- arxiv url: http://arxiv.org/abs/2107.06751v1
- Date: Mon, 12 Jul 2021 20:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:13:34.159842
- Title: Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals
- Title(参考訳): 拷問されたフレーズ:科学における疑わしい文体。
刊行物に影響を及ぼす批判的問題の証拠
- Authors: Guillaume Cabanac and Cyril Labb\'e and Alexander Magazinov
- Abstract要約: 確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
- 参考スコア(独自算出の注目度): 69.76097138157816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilistic text generators have been used to produce fake scientific
papers for more than a decade. Such nonsensical papers are easily detected by
both human and machine. Now more complex AI-powered generation techniques
produce texts indistinguishable from that of humans and the generation of
scientific texts from a few keywords has been documented. Our study introduces
the concept of tortured phrases: unexpected weird phrases in lieu of
established ones, such as 'counterfeit consciousness' instead of 'artificial
intelligence.' We combed the literature for tortured phrases and study one
reputable journal where these concentrated en masse. Hypothesising the use of
advanced language models we ran a detector on the abstracts of recent articles
of this journal and on several control sets. The pairwise comparisons reveal a
concentration of abstracts flagged as 'synthetic' in the journal. We also
highlight irregularities in its operation, such as abrupt changes in editorial
timelines. We substantiate our call for investigation by analysing several
individual dubious articles, stressing questionable features: tortured writing
style, citation of non-existent literature, and unacknowledged image reuse.
Surprisingly, some websites offer to rewrite texts for free, generating
gobbledegook full of tortured phrases. We believe some authors used rewritten
texts to pad their manuscripts. We wish to raise the awareness on publications
containing such questionable AI-generated or rewritten texts that passed (poor)
peer review. Deception with synthetic texts threatens the integrity of the
scientific literature.
- Abstract(参考訳): 確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
このような非センセーショナルな論文は、人間と機械の両方で容易に検出できる。
現在、より複雑なAIによる生成技術は、人間のものと区別できないテキストを生成し、いくつかのキーワードから科学的テキストを生成することが文書化されている。
本研究は,「知能」の代わりに「偽造意識」などの定説に代えて,思いがけない奇妙な句という,拷問句の概念を紹介する。
我々は、拷問された句のための文献をまとめ、それらが集中する信頼できる日記を1つ研究した。
先進的な言語モデルの使用を仮定し、最近の論文やいくつかの制御セットの要約を検知した。
対数比較の結果、雑誌に「合成」と記された抽象概念の集中が明らかになった。
また,編集タイムラインの急激な変更など,運用上の不備も強調する。
我々は、複数の疑わしい記事を分析し、拷問された文体、存在しない文学の引用、未承認の画像再利用など、疑わしい特徴を強調して調査を呼び掛けた。
驚いたことに、一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズで溢れるgobbledegookを生み出している。
一部の著者は書き直しテキストを使って原稿をパディングしたと信じている。
我々は、疑わしいAI生成または書き直されたテキストを含む出版物に対する認識を高めたい(貧弱な)ピアレビューをパスした。
合成テキストによる偽装は科学文献の完全性を脅かす。
関連論文リスト
- A Ship of Theseus: Curious Cases of Paraphrasing in LLM-Generated Texts [11.430810978707173]
私たちの研究は、興味深い疑問を浮き彫りにしている: テキストは、多くのパラフレーズを実行したときに、オリジナルの著者を保っているか?
計算手法を用いることで,テキスト分類モデルにおける性能低下が,各パラフレーズが原作者のスタイルから逸脱する程度と密接に関連していることが判明した。
論文 参考訳(メタデータ) (2023-11-14T18:40:42Z) - Towards Effective Paraphrasing for Information Disguise [13.356934367660811]
著者の執筆したオンラインコミュニケーションがセンシティブなドメインに関連する場合,ID(Information Disguise)の研究が重要となる。
著者の投稿から与えられた文に対して,パラフレージングの方向に文の反復摂動を行う枠組みを提案する。
本研究は, パープレキシティスコアを用いたフレーズ重要度ランキングの新たな手法を導入し, ビームサーチによる複数レベルのフレーズ置換を行う。
論文 参考訳(メタデータ) (2023-11-08T21:12:59Z) - Cited Text Spans for Citation Text Generation [12.039469573641217]
自動引用生成システムは,2つの論文間の関係を簡潔かつ正確に記述することを目的としている。
科学的文書の長さのため、既存の抽象的アプローチは引用された論文の要約にのみ条件づけられている。
本稿では,抽象文の代替として,引用テキストスパン(CTS)を条件にすることを提案する。
論文 参考訳(メタデータ) (2023-09-12T16:28:36Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Synthetically generated text for supervised text analysis [5.71097144710995]
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
論文 参考訳(メタデータ) (2023-03-28T14:55:13Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Investigating the detection of Tortured Phrases in Scientific Literature [0.0]
最近の研究では、固定表現の代わりに現れる予期せぬ奇妙なフレーズである「ねじれ句」の概念が紹介されている。
本研究の目的は,未記載の拷問句を自動的に検出する方法について検討することである。
論文 参考訳(メタデータ) (2022-10-24T08:15:22Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。