論文の概要: DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem
- arxiv url: http://arxiv.org/abs/2402.16159v4
- Date: Tue, 28 May 2024 07:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 01:18:48.188278
- Title: DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem
- Title(参考訳): DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識
- Authors: Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee,
- Abstract要約: 本稿では,オープンソースソフトウェアシステムに適したエンティティ認識(NER)技術を提案する。
提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。
我々のモデルは最先端のLLMよりもかなり優れています。
- 参考スコア(独自算出の注目度): 4.368725325557961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the AI revolution in place, the trend for building automated systems to support professionals in different domains such as the open source software systems, healthcare systems, banking systems, transportation systems and many others have become increasingly prominent. A crucial requirement in the automation of support tools for such systems is the early identification of named entities, which serves as a foundation for developing specialized functionalities. However, due to the specific nature of each domain, different technical terminologies and specialized languages, expert annotation of available data becomes expensive and challenging. In light of these challenges, this paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our model significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction.
- Abstract(参考訳): AI革命が成立すると、オープンソースのソフトウェアシステム、医療システム、銀行システム、交通システムなど、さまざまな分野のプロフェッショナルをサポートする自動化システムを構築する傾向がますます顕著になっている。
このようなシステムのサポートツールの自動化において重要な要件は、名前付きエンティティの早期識別であり、特殊機能開発の基礎となっている。
しかし、各ドメイン固有の性質、異なる専門用語や専門言語により、利用可能なデータのエキスパートアノテーションは高価で困難になる。
これらの課題を踏まえて,オープンソースのソフトウェアシステムに特化して,エンティティ認識(NER)技術を提案する。
提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。
このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。
これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。
我々のモデルは最先端のLLMよりもかなり優れています。
また,関係抽出の下流課題におけるNERの有効性を示す。
関連論文リスト
- A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models [16.250856588632637]
大規模言語モデル(LLM)の急速な発展は、人工知能の分野を大きく変えた。
これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。
本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。
論文 参考訳(メタデータ) (2024-10-08T21:46:52Z) - Dealing with Data for RE: Mitigating Challenges while using NLP and
Generative AI [2.9189409618561966]
本章では、ソフトウェア工学全般の進化する展望、特に要件工学(RE)について論じている。
自然言語処理(NLP)と生成AIをエンタープライズクリティカルなソフトウェアシステムに統合する際に生じる課題について論じる。
本は、読者に必要な知識とツールを提供するために、実践的な洞察、解決策、例を提供する。
論文 参考訳(メタデータ) (2024-02-26T19:19:47Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z) - Towards a Reference Software Architecture for Human-AI Teaming in Smart
Manufacturing [0.0]
我々は、知識グラフ、トラッキングとシーン分析、およびリレーショナル機械学習のためのコンポーネントに基づくリファレンスソフトウェアアーキテクチャを開発した。
本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。
論文 参考訳(メタデータ) (2022-01-13T10:43:49Z) - From Machine Learning to Robotics: Challenges and Opportunities for
Embodied Intelligence [113.06484656032978]
記事は、インテリジェンスが機械学習技術の進歩の鍵を握っていると主張している。
私たちは、インテリジェンスを具体化するための課題と機会を強調します。
本稿では,ロボット学習の最先端性を著しく向上させる研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-10-28T16:04:01Z) - Engineering an Intelligent Essay Scoring and Feedback System: An
Experience Report [1.5168188294440734]
専門的な採用支援サービスの顧客から提供されるエッセイの質を評価するための探索システムについて述べる。
オープンエンドの顧客提供のソーステキストがあいまいさとエラーのかなりの範囲を持っているため、問題領域は困難です。
また、専門的なビジネスドメイン知識をインテリジェントな処理システムに組み込む必要もあります。
論文 参考訳(メタデータ) (2021-03-25T03:46:05Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z) - Distributed and Democratized Learning: Philosophy and Research
Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。
ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。
本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文 参考訳(メタデータ) (2020-03-18T08:45:10Z) - Synergizing Domain Expertise with Self-Awareness in Software Systems: A
Patternized Architecture Guideline [11.155059219430207]
本稿では、ソフトウェアシステムにおける自己適応性を高めるために、ドメインの専門知識の相乗化と自己認識の重要性を強調する。
我々は、DBASESと呼ばれる概念、豊富なパターン、方法論の総合的なフレームワークを提示し、エンジニアに原則化されたガイドラインを提供する。
論文 参考訳(メタデータ) (2020-01-20T12:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。