論文の概要: Assisting humans in complex comparisons: automated information comparison at scale
- arxiv url: http://arxiv.org/abs/2404.04351v1
- Date: Fri, 5 Apr 2024 18:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:27:22.510807
- Title: Assisting humans in complex comparisons: automated information comparison at scale
- Title(参考訳): 複雑な比較における人的支援--大規模における自動情報比較
- Authors: Truman Yuen, Graham A. Watt, Yuri Lawryshyn,
- Abstract要約: 抽象要約と基準駆動比較(ASC$2$End)システムを開発した。
本システムでは,セマンティックテキスト類似性比較を用いてエビデンス支援分析を生成する。
プロンプトはゼロショット戦略を用いて設計され、モデル推論を改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Large Language Models enable efficient analytics across knowledge domains, rivalling human experts in information comparisons. However, the applications of LLMs for information comparisons face scalability challenges due to the difficulties in maintaining information across large contexts and overcoming model token limitations. To address these challenges, we developed the novel Abstractive Summarization \& Criteria-driven Comparison Endpoint (ASC$^2$End) system to automate information comparison at scale. Our system employs Semantic Text Similarity comparisons for generating evidence-supported analyses. We utilize proven data-handling strategies such as abstractive summarization and retrieval augmented generation to overcome token limitations and retain relevant information during model inference. Prompts were designed using zero-shot strategies to contextualize information for improved model reasoning. We evaluated abstractive summarization using ROUGE scoring and assessed the generated comparison quality using survey responses. Models evaluated on the ASC$^2$End system show desirable results providing insights on the expected performance of the system. ASC$^2$End is a novel system and tool that enables accurate, automated information comparison at scale across knowledge domains, overcoming limitations in context length and retrieval.
- Abstract(参考訳): 生成型大規模言語モデルは、知識領域をまたいだ効率的な分析を可能にし、情報比較において人間の専門家と競合する。
しかし,LLMの情報比較への応用は,大きなコンテキストにわたる情報の維持や,モデルのトークン制限の克服が困難であるため,スケーラビリティ上の課題に直面している。
これらの課題に対処するため、我々は、情報比較を大規模に自動化する新しい抽象要約システムASC$^2$Endを開発した。
本システムでは,セマンティックテキスト類似性比較を用いてエビデンス支援分析を生成する。
我々は,抽象要約や検索拡張生成などの実証されたデータ処理戦略を利用して,トークンの制限を克服し,モデル推論中に関連する情報を保持する。
プロンプトはゼロショット戦略を用いて設計され、モデル推論を改善した。
ROUGEスコアを用いて抽象的な要約を評価し,調査結果から得られた比較品質を評価した。
ASC$^2$Endシステムで評価されたモデルは、システムの期待される性能に関する洞察を提供する望ましい結果を示す。
ASC$^2$Endは、コンテキスト長と検索の制限を克服し、知識領域をまたいだ大規模で正確な自動情報比較を可能にする新しいシステムとツールである。
関連論文リスト
- AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Scalable Learning of Item Response Theory Models [53.43355949923962]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Fast and Accurate Factual Inconsistency Detection Over Long Documents [19.86348214462828]
我々は,新しいチャンキング戦略を用いて,現実の不整合を検出するタスク非依存モデルであるSCALEを紹介する。
このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。
コードとデータはGitHubに公開しています。
論文 参考訳(メタデータ) (2023-10-19T22:55:39Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。