Fugu-MT 論文翻訳(概要): ML-Promise: A Multilingual Dataset for Corporate Promise Verification

論文の概要: ML-Promise: A Multilingual Dataset for Corporate Promise Verification

arxiv url: http://arxiv.org/abs/2411.04473v1
Date: Thu, 07 Nov 2024 06:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.249683
Title: ML-Promise: A Multilingual Dataset for Corporate Promise Verification
Title（参考訳）: ML-Promise: 企業約束検証のための多言語データセット
Authors: Yohei Seki, Hakusen Shu, Anaïs Lhuissier, Hanwool Lee, Juyeon Kang, Min-Yuh Day, Chung-Chi Chen,
Abstract要約: 本稿では,約束検証の概念を紹介する。それは、約束の識別、証拠評価、検証のタイミングの評価などのステップを含む。本稿では,英語,フランス語,中国語,日本語,韓国語を含む最初の多言語データセットML-Promiseを提案する。
参考スコア（独自算出の注目度）: 3.0384771155882606
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Promises made by politicians, corporate leaders, and public figures have a significant impact on public perception, trust, and institutional reputation. However, the complexity and volume of such commitments, coupled with difficulties in verifying their fulfillment, necessitate innovative methods for assessing their credibility. This paper introduces the concept of Promise Verification, a systematic approach involving steps such as promise identification, evidence assessment, and the evaluation of timing for verification. We propose the first multilingual dataset, ML-Promise, which includes English, French, Chinese, Japanese, and Korean, aimed at facilitating in-depth verification of promises, particularly in the context of Environmental, Social, and Governance (ESG) reports. Given the growing emphasis on corporate environmental contributions, this dataset addresses the challenge of evaluating corporate promises, especially in light of practices like greenwashing. Our findings also explore textual and image-based baselines, with promising results from retrieval-augmented generation (RAG) approaches. This work aims to foster further discourse on the accountability of public commitments across multiple languages and domains.
Abstract（参考訳）: 政治家、企業指導者、公人による約束は、大衆の認識、信頼、制度的評価に大きな影響を及ぼす。しかし、これらのコミットメントの複雑さとボリュームは、その達成の検証の困難さと相まって、その信頼性を評価するための革新的な方法を必要としている。本稿では, 確証識別, 証拠評価, 検証のタイミング評価などの段階を含む体系的アプローチである Promise Verification の概念を紹介する。本稿では、特に環境・社会・ガバナンス(ESG)レポートにおいて、約束の詳細な検証を容易にすることを目的とした、英語、フランス語、中国語、日本語、韓国語を含む最初の多言語データセットML-Promiseを提案する。企業環境への貢献がますます強調される中、このデータセットは、特にグリーンウォッシングのようなプラクティスを考慮して、企業の約束を評価するという課題に対処する。また,テキストベースラインと画像ベースラインについても検討し,RAG(Research-augmented Generation)アプローチの有望な結果を得た。この研究は、複数の言語やドメインにわたる公的なコミットメントのアカウンタビリティに関するさらなる議論を促進することを目的としている。

関連論文リスト

Proposal for Improving Google A2A Protocol: Safeguarding Sensitive Data in Multi-Agent Systems [4.37637825272776]
本稿では、既存のプロトコルをレビューし、その制限を特定し、セキュリティ、プライバシ、信頼を改善するための具体的な拡張を提案する。これには、問題と解決策、研究支援の合理性、実装に関する考察を説明する具体的な例が含まれている。
論文参考訳（メタデータ） (2025-05-18T16:25:21Z)
Refining Financial Consumer Complaints through Multi-Scale Model Interaction [8.504311452987036]
本稿では,非公式な会話文入力を説得力のある法的議論に変換する法文改良の課題について考察する。我々は、請求合理性に関する公式判断を付した中国の金融紛争記録のデータセットであるFinDRを紹介した。実験の結果,MSMI(Multi-Scale Model Interaction)はシングルパスプロンプト戦略を著しく上回ることがわかった。
論文参考訳（メタデータ） (2025-04-14T05:51:31Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [333.9220561243189]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2025-02-20T06:20:36Z)
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。 RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。 RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文参考訳（メタデータ） (2025-02-08T06:50:47Z)
Development of Application-Specific Large Language Models to Facilitate Research Ethics Review [0.0]
IRBレビュープロセスを容易にするアプリケーション固有大規模言語モデル(LLM)を提案する。これらのIRB固有のLCMは、IRB固有の文献と機関的なデータセットに基づいて微調整される。我々は、事前レビューのスクリーニング、予備分析、一貫性チェック、意思決定支援など、潜在的なアプリケーションの概要を述べる。
論文参考訳（メタデータ） (2025-01-18T12:05:05Z)
Privacy-Preserving Large Language Models: Mechanisms, Applications, and Future Directions [0.0]
本調査では,大規模言語モデルに適したプライバシ保護機構の展望について考察する。メンバーシップ推論やモデル逆転攻撃といった重要なプライバシー問題に対処する上での有効性を検討する。本稿では、最先端のアプローチと今後のトレンドを合成することによって、堅牢でプライバシーに配慮した大規模言語モデルを構築するための基盤を提供する。
論文参考訳（メタデータ） (2024-12-09T00:24:09Z)
Bottom-Up and Top-Down Analysis of Values, Agendas, and Observations in Corpora and LLMs [1.3119775978504942]
大規模言語モデル (LLM) は、複数の潜在的視点から多様で位置し、説得力のあるテキストを生成する。我々は、安全、正確性、包摂性、文化的忠実さを理由に、彼らが表現する社会文化的価値を特徴づけることを模索する。
論文参考訳（メタデータ） (2024-11-06T18:51:04Z)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2024-10-30T17:35:44Z)
GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization [33.37163476772722]
我々は,多言語,多言語,多文書の要約を新しいタスク,すなわちMCMSに統一し,実世界の要求をオールインワンでカプセル化することを目指している。 GLOBESUMMデータセットは、まず多言語ニュースレポートを多言語で収集し、イベント中心のフォーマットに再構成することで、慎重に構築した。
論文参考訳（メタデータ） (2024-10-05T08:56:44Z)
A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文参考訳（メタデータ） (2024-09-27T14:34:54Z)
TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。 TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文参考訳（メタデータ） (2024-07-06T07:19:30Z)
Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI [0.3495246564946556]
BUMPER(Building Understandable Messaging for Policy and Evidence Review)において,大規模言語モデル(LLM)を使用するためのフレームワークを導入する。 LLMは多様なメディアの大規模なデータベースを理解し合成するためのインタフェースを提供することができる。この枠組みは、政策立案者に対する科学的証拠のアクセシビリティと信頼性を促進することができると我々は主張する。
論文参考訳（メタデータ） (2024-06-27T05:03:03Z)
Towards Trustworthy AI: A Review of Ethical and Robust Large Language Models [1.7466076090043157]
大きな言語モデル(LLM)は多くの分野を変革できるが、その急速な開発は、監視、倫理的創造、ユーザ信頼の構築に重大な課題を生み出している。この総合的なレビューは、意図しない害、透明性の欠如、攻撃に対する脆弱性、人的価値との整合性、環境への影響など、LLMにおける重要な信頼の問題について考察する。これらの課題に対処するため、倫理的監視、業界説明責任、規制、公的な関与を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-06-01T14:47:58Z)
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文参考訳（メタデータ） (2024-05-02T22:43:02Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
Artificial Intelligence across Europe: A Study on Awareness, Attitude and Trust [39.35990066478082]
この研究の目的は、ヨーロッパの文脈における人々の見解や認識をよりよく理解することである。我々は,人々の意識,態度,信頼の3つの側面から構築された新しいアンケート(PAICE)を設計し,検証した。暗黙の矛盾を強調し、信頼のエコシステムの形成を妨げる可能性のあるトレンドを特定します。
論文参考訳（メタデータ） (2023-08-19T11:00:32Z)
EVI: Multilingual Spoken Dialogue Tasks and Dataset for Knowledge-Based Enrolment, Verification, and Identification [49.77911492230467]
3つの認証タスクとその評価プロトコルを形式化する。 EVIは、英語、ポーランド語、フランス語で5,506の対話が可能な、難解な多言語データセットである。
論文参考訳（メタデータ） (2022-04-28T13:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。