論文の概要: Resolving the Imbalance Issue in Hierarchical Disciplinary Topic
Inference via LLM-based Data Augmentation
- arxiv url: http://arxiv.org/abs/2310.05318v1
- Date: Mon, 9 Oct 2023 00:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:29:42.989006
- Title: Resolving the Imbalance Issue in Hierarchical Disciplinary Topic
Inference via LLM-based Data Augmentation
- Title(参考訳): LLMデータ拡張による階層型ディシプリナトピック推論の不均衡問題の解消
- Authors: Xunxin Cai, Meng Xiao, Zhiyuan Ning, Yuanchun Zhou
- Abstract要約: 本研究では、大規模言語モデル(Llama V1)をデータジェネレータとして活用し、複雑な学際階層に分類される研究提案を拡大する。
本実験は, 生成したデータの有効性を実証し, 上記の課題に効果的に対処できることを実証した。
- 参考スコア(独自算出の注目度): 5.98277339029019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In addressing the imbalanced issue of data within the realm of Natural
Language Processing, text data augmentation methods have emerged as pivotal
solutions. This data imbalance is prevalent in the research proposals submitted
during the funding application process. Such imbalances, resulting from the
varying popularity of disciplines or the emergence of interdisciplinary
studies, significantly impede the precision of downstream topic models that
deduce the affiliated disciplines of these proposals. At the data level,
proposals penned by experts and scientists are inherently complex technological
texts, replete with intricate terminologies, which augmenting such specialized
text data poses unique challenges. At the system level, this, in turn,
compromises the fairness of AI-assisted reviewer assignment systems, which
raises a spotlight on solving this issue. This study leverages large language
models (Llama V1) as data generators to augment research proposals categorized
within intricate disciplinary hierarchies, aiming to rectify data imbalances
and enhance the equity of expert assignments. We first sample within the
hierarchical structure to find the under-represented class. Then we designed a
prompt for keyword-based research proposal generation. Our experiments attests
to the efficacy of the generated data, demonstrating that research proposals
produced using the prompts can effectively address the aforementioned issues
and generate high quality scientific text data, thus help the model overcome
the imbalanced issue.
- Abstract(参考訳): 自然言語処理領域におけるデータの不均衡問題に対処するために,テキストデータ拡張手法が重要なソリューションとして登場してきた。
このデータ不均衡は、資金調達申請プロセス中に提出された研究提案で顕著である。
このような不均衡は、規律の多様さや学際的な研究の出現によるものであり、これらの提案の関連分野を推論する下流トピックモデルの精度を著しく損なう。
データレベルでは、専門家や科学者によって書かれた提案は本質的に複雑な技術的テキストであり、複雑な用語に満ちている。
システムレベルでは、これはai支援レビューアの割り当てシステムの公正性を損なうことになり、この問題の解決にスポットライトを当てる。
本研究では,大規模言語モデル(llama v1)をデータジェネレータとして活用し,データ不均衡の是正と専門家割り当ての公平性向上を目的とした,複雑な学際階層に分類された研究提案を補強する。
まず、階層構造の中でサンプルを行い、未表現のクラスを見つけます。
そして,キーワードに基づく研究提案生成のプロンプトを設計した。
提案手法は,プロンプトを用いた研究提案が,上記の課題を効果的に解決し,高品質な科学テキストデータを生成することにより,不均衡な問題を克服する上で有効であることを示す。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - Interdisciplinary Fairness in Imbalanced Research Proposal Topic Inference: A Hierarchical Transformer-based Method with Selective Interpolation [26.30701957043284]
自動トピック推論は、手動のトピックフィリングによるヒューマンエラーを低減し、資金調達機関とプロジェクト申請者の間の知識ギャップを埋め、システム効率を向上させる。
既存の手法は、学際的な研究提案と学際的でない提案とのスケールの差を見落とし、不当な現象へと繋がる。
本稿では,Transformerエンコーダ・デコーダアーキテクチャに基づくトピックラベル推論システムを提案する。
論文 参考訳(メタデータ) (2023-09-04T16:54:49Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Is augmentation effective to improve prediction in imbalanced text
datasets? [3.1690891866882236]
データ拡張なしでカットオフを調整することは、オーバーサンプリング手法と同じような結果をもたらすと我々は主張する。
この結果は、不均衡なデータを扱うための様々なアプローチの長所と短所の理解に寄与する。
論文 参考訳(メタデータ) (2023-04-20T13:07:31Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Resilient Neural Forecasting Systems [10.709321760368137]
産業用機械学習システムは、学術文献でしばしば過小評価されるデータ課題に直面している。
本稿では、労働計画におけるニューラル予測アプリケーションのコンテキストにおけるデータ課題と解決策について論じる。
本稿では,周期的リトレーニング方式によるデータ分布の変化に対処し,この設定におけるモデル安定性の重要性について論じる。
論文 参考訳(メタデータ) (2022-03-16T09:37:49Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。