Fugu-MT 論文翻訳(概要): Co-audit: tools to help humans double-check AI-generated content

論文の概要: Co-audit: tools to help humans double-check AI-generated content

arxiv url: http://arxiv.org/abs/2310.01297v1
Date: Mon, 2 Oct 2023 15:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 20:59:07.384978
Title: Co-audit: tools to help humans double-check AI-generated content
Title（参考訳）: 共同監査:AI生成コンテンツの二重チェックを支援するツール
Authors: Andrew D. Gordon, Carina Negreanu, Jos\'e Cambronero, Rasika Chakravarthy, Ian Drosos, Hao Fang, Bhaskar Mitra, Hannah Richardson, Advait Sarkar, Stephanie Simmons, Jack Williams, Ben Zorn
Abstract要約: 本稿では,生成モデルを用いたスプレッドシート計算のための協調監査ツールに関する最近の研究について述べる。我々は,共同監査の原則の予備的リストを提案し,研究課題を概説する。
参考スコア（独自算出の注目度）: 19.561408256727844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Users are increasingly being warned to check AI-generated content for correctness. Still, as LLMs (and other generative models) generate more complex output, such as summaries, tables, or code, it becomes harder for the user to audit or evaluate the output for quality or correctness. Hence, we are seeing the emergence of tool-assisted experiences to help the user double-check a piece of AI-generated content. We refer to these as co-audit tools. Co-audit tools complement prompt engineering techniques: one helps the user construct the input prompt, while the other helps them check the output response. As a specific example, this paper describes recent research on co-audit tools for spreadsheet computations powered by generative models. We explain why co-audit experiences are essential for any application of generative AI where quality is important and errors are consequential (as is common in spreadsheet computations). We propose a preliminary list of principles for co-audit, and outline research challenges.
Abstract（参考訳）: ユーザーはAIが生成したコンテンツを正しくチェックするよう警告されている。それでも、LCM(および他の生成モデル)は、要約、テーブル、コードなどのより複雑な出力を生成するため、ユーザーが品質や正確性のために出力を監査または評価することが難しくなる。そのため、AI生成したコンテンツの二重チェックを支援するツール支援体験の出現が見られます。これを共同監査ツールと呼ぶ。 1つはユーザが入力プロンプトを構築するのを手助けし、もう1つは出力応答をチェックするのを手助けします。具体的な例として、生成モデルを用いたスプレッドシート計算のための協調監査ツールについて述べる。本稿では,品質が重要であり,エラーが連続的(スプレッドシート計算でよく見られる)な生成AIの応用において,コオーディット体験が不可欠である理由を説明する。我々は,共同監査の原則の予備的リストを提案し,研究課題を概説する。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
AuditWen:An Open-Source Large Language Model for Audit [20.173039073935907]
本研究では、Qwenを微調整し、監査領域から命令データを構築するオープンソースの監査LCMであるAuditWenを紹介する。我々は、15の監査タスクと3つのレイヤから28kの命令データセットを構築したQwenを微調整することで、AuditWenと呼ばれる監査LPMを提案する。評価段階において、アプリケーションシナリオから派生した重要な監査タスクのセットをカバーする3k命令のベンチマークを提案した。実験の結果,AuditWenは質問理解と回答生成の両方において優れた性能を示し,即時評価ツールとなった。
論文参考訳（メタデータ） (2024-10-09T02:28:55Z)
Improving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition [24.845241768474363]
LLMを利用するChatGPT Data Analysisのようなツールは、ユーザがデータ分析プログラミングの難しいタスクに取り組むのに役立つ可能性がある。しかし、私たちのフォーマティブな研究は、AI生成結果の検証とAIの運営において深刻な課題を明らかにしました。これらの課題に対処する2つの対照的なアプローチを開発した。
論文参考訳（メタデータ） (2024-07-02T20:33:50Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文参考訳（メタデータ） (2023-10-19T15:40:00Z)
Dcc --help: Generating Context-Aware Compiler Error Explanations with Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。 LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文参考訳（メタデータ） (2023-08-23T02:36:19Z)
Fact-Checking Complex Claims with Program-Guided Reasoning [99.7212240712869]
Program-Guided Fact-Checking (ProgramFC)は、複雑なクレームを単純なサブタスクに分解する新しいファクトチェックモデルである。まず,大規模言語モデルの文脈内学習能力を活用して推論プログラムを生成する。我々は,各サブタスクを対応するサブタスクハンドラに委譲することでプログラムを実行する。
論文参考訳（メタデータ） (2023-05-22T06:11:15Z)
LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.1523466539595]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文参考訳（メタデータ） (2023-04-18T15:35:43Z)
Collaborative Anomaly Detection [66.51075412012581]
本研究では,タスク間の相関関係を埋め込むことで,全てのタスクを共同で学習するための協調的異常検出(CAD)を提案する。条件密度推定と条件確率比推定を用いてCADを探索する。タスク埋め込みモデルを学ぶために、前もって少数のタスクを選択し、それを使ってタスク埋め込みをウォームスタートさせることは有益である。
論文参考訳（メタデータ） (2022-09-20T18:01:07Z)
The Right Tool for the Job: Open-Source Auditing Tools in Machine Learning [0.0]
近年,機械学習,AI倫理,アルゴリズム監査の公平性に関する議論が増えている。多くのオープンソース監査ツールが利用可能だが、ユーザはツールや便利なもの、アクセス方法に常に気付いていない。本稿は,これらのツールを実際に活用する緊急ニーズの強化と,それを実現するモチベーションの提供を目的としている。
論文参考訳（メタデータ） (2022-06-20T15:20:26Z)
XAudit : A Theoretical Look at Auditing with Explanations [29.55309950026882]
この研究は、監査における説明の役割を形式化し、モデル説明が監査に役立つかどうかを調査する。具体的には、線形分類器と決定木を検査し、特徴感度を評価するための説明に基づくアルゴリズムを提案する。以上の結果から,非現実的説明は監査に極めて有用であることが示唆された。
論文参考訳（メタデータ） (2022-06-09T19:19:58Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。