論文の概要: Personalized Jargon Identification for Enhanced Interdisciplinary
Communication
- arxiv url: http://arxiv.org/abs/2311.09481v1
- Date: Thu, 16 Nov 2023 00:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:02:02.269516
- Title: Personalized Jargon Identification for Enhanced Interdisciplinary
Communication
- Title(参考訳): 学際コミュニケーション強化のためのパーソナライズされたジャーゴン識別
- Authors: Yue Guo, Joseph Chee Chang, Maria Antoniak, Erin Bransom, Trevor
Cohen, Lucy Lu Wang, Tal August
- Abstract要約: ジェルゴン同定の現在の方法は、主にコーパスレベルの親しみ度指標を使用する。
11人のコンピュータサイエンス研究者から10万以上の用語の親しみやすさアノテーションのデータセットを収集します。
個人,サブドメイン,ドメイン知識を表す特徴について検討し,個々のジャーゴンの親しみ度を予測する。
- 参考スコア(独自算出の注目度): 22.999616448996303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific jargon can impede researchers when they read materials from other
domains. Current methods of jargon identification mainly use corpus-level
familiarity indicators (e.g., Simple Wikipedia represents plain language).
However, researchers' familiarity of a term can vary greatly based on their own
background. We collect a dataset of over 10K term familiarity annotations from
11 computer science researchers for terms drawn from 100 paper abstracts.
Analysis of this data reveals that jargon familiarity and information needs
vary widely across annotators, even within the same sub-domain (e.g., NLP). We
investigate features representing individual, sub-domain, and domain knowledge
to predict individual jargon familiarity. We compare supervised and
prompt-based approaches, finding that prompt-based methods including personal
publications yields the highest accuracy, though zero-shot prompting provides a
strong baseline. This research offers insight into features and methods to
integrate personal data into scientific jargon identification.
- Abstract(参考訳): 科学用語は、他の領域の資料を読むときに研究者を妨げる可能性がある。
現在のjargon識別法は主にコーパスレベルの親しみ度指標(例:Simple Wikipediaは平易な言語を表す)を使用する。
しかし、研究者の用語に対する親しみは、それぞれの背景によって大きく異なる。
我々は,11人の計算機科学研究者から,100以上の論文要約から抽出した10k以上の親近性アノテーションのデータセットを収集した。
このデータの解析により、同じサブドメイン(例えばNLP)内でも、ジャーゴンの親しみやすさや情報の必要性はアノテーションによって大きく異なることが分かる。
個人,サブドメイン,ドメイン知識を表す特徴を調査し,個々のジャーゴン親和性を予測する。
我々は教師付きアプローチとプロンプトベースのアプローチを比較し、個人出版を含むプロンプトベースの手法が、ゼロショットプロンプトが強いベースラインを提供するにもかかわらず、最も精度の高い方法であることを見出した。
この研究は、個人データを科学用語の識別に統合する機能や方法に関する洞察を提供する。
関連論文リスト
- De-jargonizing Science for Journalists with GPT-4: A Pilot Study [3.730699089967391]
このシステムは、ジャーゴンの識別においてかなり高いリコールを達成し、読者のジャーゴンの識別における相対的な違いを保存する。
この発見は、科学記者を支援するための生成AIの可能性を強調し、密集した文書を単純化するツールの開発について将来の研究を知らせる。
論文 参考訳(メタデータ) (2024-10-15T21:10:01Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Understanding metric-related pitfalls in image analysis validation [59.15220116166561]
この研究は、画像解析におけるバリデーションメトリクスに関連する落とし穴に関する情報にアクセスするための、初めての包括的な共通点を提供する。
バイオメディカル画像解析に焦点をあてるが、他の分野へ移行する可能性があるため、対処された落とし穴はアプリケーションドメイン全体にわたって一般化され、新しく作成されたドメインに依存しない分類に分類される。
論文 参考訳(メタデータ) (2023-02-03T14:57:40Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse [2.3371548697609303]
科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
論文 参考訳(メタデータ) (2022-06-15T08:14:55Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。