Fugu-MT 論文翻訳(概要): Know Your Limits: A Survey of Abstention in Large Language Models

関連論文リスト

Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文参考訳（メタデータ） (2025-07-25T20:52:58Z)
Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文参考訳（メタデータ） (2025-06-11T14:36:26Z)
Bounded-Abstention Pairwise Learning to Rank [21.876570823233656]
欠如は、アルゴリズムによる意思決定システムによって、不確実または低信頼な決定を人間の専門家に延期することを可能にする。ペアワイズ・ラーニング・ツー・ランク・タスクにおける禁忌のための新しい手法を提案する。我々の貢献は3つある: 最適棄権戦略の理論的特徴、収権モデルを構築するためのモデルに依存しないプラグインアルゴリズム、および複数のデータセットにわたる包括的経験的評価である。
論文参考訳（メタデータ） (2025-05-29T13:35:39Z)
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。各カテゴリの詳細な概要と,この分野の課題について紹介する。調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文参考訳（メタデータ） (2025-05-21T19:17:29Z)
From Speech to Summary: A Comprehensive Survey of Speech Summarization [52.97157554560492]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。その重要性が増しているにもかかわらず、音声要約はまだ明確に定義されておらず、音声認識、テキスト要約、会議要約のような特定の応用を含むいくつかの研究領域と交差している。
論文参考訳（メタデータ） (2025-04-10T17:50:53Z)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。有効性を評価するための標準化された評価基準が欠如している。このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T11:05:42Z)
A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models [36.601209595620446]
本研究では,大規模言語モデル(LLM)の文脈における機械学習手法について検討する。 LLMのアンラーニングは、LLMから望ましくないデータの影響を取り除くための原則的なアプローチを提供する。研究の関心が高まりつつあるにもかかわらず、既存の研究を体系的に整理し、重要な洞察を蒸留する総合的な調査は行われていない。
論文参考訳（メタデータ） (2025-02-22T12:46:14Z)
Rethinking stance detection: A theoretically-informed research agenda for user-level inference using language models [6.13550450196734]
スタンス検出は自然言語処理研究において一般的な課題となっている。我々は,(i)スタンスの理論的概念化の欠如,(ii)個人レベルでのスタンス処理に関する重要なギャップを強調した。
論文参考訳（メタデータ） (2025-02-04T07:52:20Z)
Development of Application-Specific Large Language Models to Facilitate Research Ethics Review [0.0]
IRBレビュープロセスを容易にするアプリケーション固有大規模言語モデル(LLM)を提案する。これらのIRB固有のLCMは、IRB固有の文献と機関的なデータセットに基づいて微調整される。我々は、事前レビューのスクリーニング、予備分析、一貫性チェック、意思決定支援など、潜在的なアプリケーションの概要を述べる。
論文参考訳（メタデータ） (2025-01-18T12:05:05Z)
Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
大規模言語モデル(LLM)における記憶の話題に関する知識体系化(SoK)を提案する。記憶とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることである。本研究は,記憶現象に寄与する要因の解析に続き,記憶現象を測定するために用いられる指標と方法について議論する。
論文参考訳（メタデータ） (2024-10-03T16:34:46Z)
Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文参考訳（メタデータ） (2024-09-05T17:59:12Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文参考訳（メタデータ） (2024-02-11T18:26:18Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文参考訳（メタデータ） (2023-11-16T00:18:50Z)
Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文参考訳（メタデータ） (2023-10-20T05:44:39Z)
Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。 LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-31T04:50:29Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
Dialectical language model evaluation: An initial appraisal of the commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文参考訳（メタデータ） (2023-04-22T06:28:46Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Know Your Limits: A Survey of Abstention in Large Language Models

関連論文リスト