論文の概要: Towards Refining Developer Questions using LLM-Based Named Entity Recognition for Developer Chatroom Conversations
- arxiv url: http://arxiv.org/abs/2503.00673v1
- Date: Sun, 02 Mar 2025 00:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:46.793230
- Title: Towards Refining Developer Questions using LLM-Based Named Entity Recognition for Developer Chatroom Conversations
- Title(参考訳): 開発者チャット会話における LLM を用いたエンティティ認識を用いた開発者質問の精査に向けて
- Authors: Pouya Fathollahzadeh, Mariam El Mezouar, Hao Li, Ying Zou, Ahmed E. Hassan,
- Abstract要約: ソフトウェアエンジニアリングのチャットルームでは、コミュニケーションは答えられない不正確な質問によって妨げられることが多い。
SENIR(Software-specific Named Entity Recognition, Intent Detection, and Resolution Classification)を導入する。
我々は、SENIRのエンティティとインテントラベルを付加的な予測機能とともに活用する解像度予測モデルを構築した。
- 参考スコア(独自算出の注目度): 8.366189422552486
- License:
- Abstract: In software engineering chatrooms, communication is often hindered by imprecise questions that cannot be answered. Recognizing key entities can be essential for improving question clarity and facilitating better exchange. However, existing research using natural language processing techniques often overlooks these software-specific nuances. In this paper, we introduce Software-specific Named Entity Recognition, Intent Detection, and Resolution Classification (SENIR), a labeling approach that leverages a Large Language Model to annotate entities, intents, and resolution status in developer chatroom conversations. To offer quantitative guidance for improving question clarity and resolvability, we build a resolution prediction model that leverages SENIR's entity and intent labels along with additional predictive features. We evaluate SENIR on the DISCO dataset using a subset of annotated chatroom dialogues. SENIR achieves an 86% F-score for entity recognition, a 71% F-score for intent detection, and an 89% F-score for resolution status classification. Furthermore, our resolution prediction model, tested with various sampling strategies (random undersampling and oversampling with SMOTE) and evaluation methods (5-fold cross-validation, 10-fold cross-validation, and bootstrapping), demonstrates AUC values ranging from 0.7 to 0.8. Key factors influencing resolution include positive sentiment and entities such as Programming Language and User Variable across multiple intents, while diagnostic entities are more relevant in error-related questions. Moreover, resolution rates vary significantly by intent: questions about API Usage and API Change achieve higher resolution rates, whereas Discrepancy and Review have lower resolution rates. A Chi-Square analysis confirms the statistical significance of these differences.
- Abstract(参考訳): ソフトウェアエンジニアリングのチャットルームでは、コミュニケーションは答えられない不正確な質問によって妨げられることが多い。
キーエンティティを認識することは、質問を明確にし、より良い交換を容易にするために不可欠である。
しかし、自然言語処理技術を用いた既存の研究はしばしばこれらのソフトウェア固有のニュアンスを見落としている。
本稿では、大規模言語モデルを利用して、開発者チャットチャットにおけるエンティティ、意図、解決ステータスをアノテートするラベル付け手法である、ソフトウェア固有のエンティティ認識、インテント検出、解決分類(SENIR)を紹介する。
質問の明瞭度と解決可能性を改善するための定量的ガイダンスを提供するため,SENIRの実体と意図ラベルを付加的な予測機能とともに活用する解決予測モデルを構築した。
注釈付きチャットルーム対話のサブセットを用いて,disCOデータセット上でSENIRを評価する。
SENIRは、エンティティ認識のための86%のFスコア、意図検出のための71%のFスコア、解像度ステータス分類のための89%のFスコアを達成している。
さらに, 種々のサンプリング戦略(SMOTEによるアンサンプとオーバーサンプリング)と評価手法(5倍のクロスバリデーション, 10倍のクロスバリデーション, ブートストラップ)で検証した分解能予測モデルは, 0.7 から 0.8 の範囲の AUC 値を示す。
解決に影響を及ぼす主な要因は、肯定的な感情と、複数の意図にまたがるプログラミング言語やユーザ変数のようなエンティティである。
さらに、API使用率とAPI変更に関する質問は高い解像度率を達成するが、離散性とレビューは低い解像度率を持つ。
Chi-Square分析はこれらの違いの統計的意義を裏付けるものである。
関連論文リスト
- Enhancing Disinformation Detection with Explainable AI and Named Entity Replacement [0.1374949083138427]
モデルバイアスを避けるために、トレーニング前に非形式的要素(URLやエモティコンなど)を擬似匿名化すべきであることを示す。
本手法を,拡張データ前処理および名前付きエンティティ置換の適用前後に,内部データセットと外部データセットを用いて評価する。
その結果, 内部テスト性能を著しく低下させることなく, 外部テストデータを用いた偽情報分類法の平均性能を65.78%向上させることができた。
論文 参考訳(メタデータ) (2025-02-07T12:01:26Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations [11.566214724241798]
本研究では,会話の特定の構造的属性間でのモデル性能を調査する手法を提案する。
我々はモデルの弱点を診断するために、応答選択とアドレス認識タスクに焦点をあてる。
その結果、応答選択は会話のテキストの内容に依存しており、アドレス認識ではその構造的次元を捉える必要があることがわかった。
論文 参考訳(メタデータ) (2024-09-27T10:07:33Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - The curse of language biases in remote sensing VQA: the role of spatial
attributes, language diversity, and the need for clear evaluation [32.7348470366509]
RSVQAの目的は、リモートセンシング画像に関する自然言語で定式化された質問に答えることである。
言語バイアスの問題はしばしばリモートセンシングコミュニティで見過ごされている。
本研究の目的は,RSVQAにおける言語バイアスの問題を3重解析戦略を用いて強調することである。
論文 参考訳(メタデータ) (2023-11-28T13:45:15Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。