論文の概要: Hype or not? Formalizing Automatic Promotional Language Detection in Biomedical Research
- arxiv url: http://arxiv.org/abs/2509.24638v1
- Date: Mon, 29 Sep 2025 11:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.949197
- Title: Hype or not? Formalizing Automatic Promotional Language Detection in Biomedical Research
- Title(参考訳): ハイプの有無? バイオメディカルリサーチにおける自動促進言語検出の形式化
- Authors: Bojan Batalo, Erica K. Shimomoto, Neil Millar,
- Abstract要約: 科学では、促進言語(「ハイプ」)が増加しており、証拠の客観的評価を損なう可能性がある。
ハイプを自動的に検出するタスクを導入し,これを双曲的言語,主観的言語と定義する。
我々は,ハイプ言語を識別するための公式ガイドラインを提案し,それをNIH(National Institutes of Health)認定申請コーパスの一部にアノテートする。
- 参考スコア(独自算出の注目度): 2.4596929878045573
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In science, promotional language ('hype') is increasing and can undermine objective evaluation of evidence, impede research development, and erode trust in science. In this paper, we introduce the task of automatic detection of hype, which we define as hyperbolic or subjective language that authors use to glamorize, promote, embellish, or exaggerate aspects of their research. We propose formalized guidelines for identifying hype language and apply them to annotate a portion of the National Institutes of Health (NIH) grant application corpus. We then evaluate traditional text classifiers and language models on this task, comparing their performance with a human baseline. Our experiments show that formalizing annotation guidelines can help humans reliably annotate candidate hype adjectives and that using our annotated dataset to train machine learning models yields promising results. Our findings highlight the linguistic complexity of the task, and the potential need for domain knowledge and temporal awareness of the facts. While some linguistic works address hype detection, to the best of our knowledge, we are the first to approach it as a natural language processing task.
- Abstract(参考訳): 科学では、促進言語(「ハイプ」)が増加しており、証拠の客観的評価、研究の妨げ、科学への信頼を損なう可能性がある。
本稿では,ハイプの自動検出の課題について紹介する。これは,著者が研究の面を誇張し,宣伝し,誇張し,誇張するために使用する,双曲的あるいは主観的言語と定義する。
我々は,ハイプ言語を識別するための公式ガイドラインを提案し,それをNIH(National Institutes of Health)認定申請コーパスの一部にアノテートする。
次に、従来のテキスト分類器と言語モデルを評価し、その性能を人間のベースラインと比較する。
我々の実験は、アノテーションガイドラインの定式化が、候補のハイプ形容詞を確実に注釈付けするのに役立ち、アノテーション付きデータセットを使って機械学習モデルをトレーニングすることで、有望な結果が得られることを示した。
本研究は,課題の言語的複雑さと,ドメイン知識と事実の時間的認識の必要性を明らかにするものである。
いくつかの言語研究は誇大広告の検出に対処していますが、私たちの知る限りでは、自然言語処理タスクとして最初にアプローチしています。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Can Language Models Induce Grammatical Knowledge from Indirect Evidence? [23.580381311886814]
本稿では,言語モデルが間接的データ(間接的証拠)を効率的に用いて文の受理性を推定するかどうかを検討する。
対照的に、人間は間接的エビデンスを効率的に使用しており、これは効率的な言語習得に寄与する帰納的バイアスの1つと考えられている。
実験の結果,同じ構造を持つインスタンスに繰り返し露出しても,言語モデルが文法的知識を誘導しないことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-08T13:23:58Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。
本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文 参考訳(メタデータ) (2022-09-29T15:14:42Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。