論文の概要: An Interpretable Deep Learning System for Automatically Scoring Request
for Proposals
- arxiv url: http://arxiv.org/abs/2008.02347v1
- Date: Wed, 5 Aug 2020 20:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:28:32.955793
- Title: An Interpretable Deep Learning System for Automatically Scoring Request
for Proposals
- Title(参考訳): 提案要求を自動的にスコアリングする解釈可能な深層学習システム
- Authors: Subhadip Maji, Anudeep Srivatsav Appe, Raghav Bali, Veera Raghavendra
Chikka, Arijit Ghosh Chowdhury and Vamsi M Bhandaru
- Abstract要約: 本稿では,Bi-LSTMに基づく新しい回帰モデルを提案する。
また,人間の評価を用いた重要なフレーズの影響を質的に評価する。
最後に,NLPに基づく自動スコアリングシステムにおける技術状況を改善するために,新たな問題文を導入する。
- 参考スコア(独自算出の注目度): 3.244940746423378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Managed Care system within Medicaid (US Healthcare) uses Request For
Proposals (RFP) to award contracts for various healthcare and related services.
RFP responses are very detailed documents (hundreds of pages) submitted by
competing organisations to win contracts. Subject matter expertise and domain
knowledge play an important role in preparing RFP responses along with analysis
of historical submissions. Automated analysis of these responses through
Natural Language Processing (NLP) systems can reduce time and effort needed to
explore historical responses, and assisting in writing better responses. Our
work draws parallels between scoring RFPs and essay scoring models, while
highlighting new challenges and the need for interpretability. Typical scoring
models focus on word level impacts to grade essays and other short write-ups.
We propose a novel Bi-LSTM based regression model, and provide deeper insight
into phrases which latently impact scoring of responses. We contend the merits
of our proposed methodology using extensive quantitative experiments. We also
qualitatively asses the impact of important phrases using human evaluators.
Finally, we introduce a novel problem statement that can be used to further
improve the state of the art in NLP based automatic scoring systems.
- Abstract(参考訳): メディケイド(US Healthcare)内の管理ケアシステムは、RFP(Request For Proposals)を使用して、さまざまな医療関連サービスの契約を付与している。
rfp応答は、競合団体が契約を勝ち取るために提出した非常に詳細な文書(数百ページ)である。
主題の専門知識とドメイン知識は、歴史的提出物の分析とともにRFP応答を作成する上で重要な役割を果たす。
自然言語処理(NLP)システムによるこれらの応答の自動解析は、過去の応答を調べるのに必要な時間と労力を削減し、より良い応答を書くのを支援する。
我々の研究はRFPとエッセイのスコアリングモデルの間に共通点を描き、新しい課題と解釈可能性の必要性を強調した。
典型的なスコアリングモデルは、格付けエッセイや他の短い書き込みに対する単語レベルの影響に焦点を当てている。
本研究では,新しいbi-lstmに基づく回帰モデルを提案し,応答のスコアリングに潜在的に影響を与えるフレーズについて深い洞察を与える。
提案手法の有効性は, 広範囲な定量的実験を用いて論じる。
また,人間の評価を用いた重要なフレーズの影響を質的に評価する。
最後に,NLPに基づく自動スコアリングシステムにおける技術状況を改善するために,新たな問題文を導入する。
関連論文リスト
- Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs [0.41436032949434404]
我々は,大規模なテキストデータセット内の問題フレーミングと物語分析のための新しい検出手法を開発し,厳密に評価する。
問題フレーミングは大きなコーパスにおいて, 与えられた問題に対して, いずれの視点でも, 確実に, 効率的に検出できることを示す。
論文 参考訳(メタデータ) (2024-08-19T07:14:15Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Transformer-based Joint Modelling for Automatic Essay Scoring and Off-Topic Detection [3.609048819576875]
我々は、エッセイを共同でスコア付けし、非トピックエッセイを検出する、教師なしのテクニックを提案している。
提案手法は,2つのエッセイ・スコリング・データセットに対して,作成したベースラインと従来手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-24T21:44:14Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。