このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240216となっている論文です。

PDF登録状況(公開日: 20240216)

TitleAuthorsAbstract論文公表日・翻訳日
# エネルギー効率・フォールトトレラントクラウドコンピューティングのためのシリアル並列信頼性冗長配置最適化

Serial Parallel Reliability Redundancy Allocation Optimization for Energy Efficient and Fault Tolerant Cloud Computing ( http://arxiv.org/abs/2404.03665v1 )

ライセンス: Link先を確認
Gutha Jaya Krishna, (参考訳) Serial-parallelの冗長性は、クラウドコンピューティングでサービスとシステムが利用できることを保証する信頼性の高い方法である。 この方法は、同一のシステムまたはプログラムのコピーを作成することを含み、残る1つだけがアクティブである。 エラーが発生した場合、非アクティブコピーはすぐにバックアップとしてステップインでき、継続的なパフォーマンスと未中断の操作を提供する。 このアプローチは並列冗長( parallel redundancy)と呼ばれ、それ以外はアクティブな冗長(active-active redundancy)と呼ばれ、戦略に関しては例外的である。 すべて一度に実行されるシステムやサービスの複製を生成します。 このフォールトトレランスを実行することで、1つのコピーが失敗すると、適切に機能するすべてのレプリカにワークロードを分散させることができる。 信頼性の割り当ては、システムの機能と、必要な可用性とフォールトトレランスに依存します。 システムやサービスの信頼性を高めるために、シリアル冗長性や並列冗長性を適用することができる。 この概念がいかにうまく機能するかを実証するために、固定並列信頼性の冗長性割り当て問題について検討し、その後に革新的なハイブリッド最適化手法を用いてピーク依存度に最適なアロケーションを求める。 研究の結果を他の研究と比較した。

Serial-parallel redundancy is a reliable way to ensure service and systems will be available in cloud computing. That method involves making copies of the same system or program, with only one remaining active. When an error occurs, the inactive copy can step in as a backup right away, this provides continuous performance and uninterrupted operation. This approach is called parallel redundancy, otherwise known as active-active redundancy, and its exceptional when it comes to strategy. It creates duplicates of a system or service that are all running at once. By doing this fault tolerance increases since if one copy fails, the workload can be distributed across any replica thats functioning properly. Reliability allocation depends on features in a system and the availability and fault tolerance you want from it. Serial redundancy or parallel redundancies can be applied to increase the dependability of systems and services. To demonstrate how well this concept works, we looked into fixed serial parallel reliability redundancy allocation issues followed by using an innovative hybrid optimization technique to find the best possible allocation for peak dependability. We then measured our findings against other research.
翻訳日:2024-07-01 12:08:31 公開日:2024-02-16
# BERTをベースとした新しい分類法によるYouTubeビデオの政治的傾向の検出

A Novel BERT-based Classifier to Detect Political Leaning of YouTube Videos based on their Titles ( http://arxiv.org/abs/2404.04261v1 )

ライセンス: Link先を確認
Nouar AlDahoul, Talal Rahwan, Yasir Zaki, (参考訳) アメリカの成人の4分の1が定期的にYouTubeからニュースを受け取っている。 しかし、プラットフォーム上で利用できる膨大な政治的コンテンツにもかかわらず、YouTubeビデオの政治的傾向を特定するための分類器は提案されていない。 このギャップを埋めるために、Googleの言語モデルであるBertをベースにした新しい分類法を提案し、彼らのタイトルに基づいたYouTubeビデオを、Farleft、Left、Center、Anti-Woke、Right、Far Rightの6つのカテゴリに分類する。 提案した分類器のトレーニングと検証には、1000万本のYouTubeビデオタイトル(さまざまなカテゴリ)の公開データセットを使用しました。 我々は、分類器を同じデータセットでトレーニングしたいくつかの選択肢と比較し、分類器が最高精度(75%)と最高F1スコア(77%)を達成していることを明らかにした。 分類性能をさらに検証するために、Fox NewsやNew York Timesなどの著名なニュース機関のYouTubeチャンネルから、政治的傾向が広く知られているビデオを収集し、分類器を彼らのビデオタイトルに適用する。 ほとんどのケースでは、予測された政治的傾きは通信社と一致している。

A quarter of US adults regularly get their news from YouTube. Yet, despite the massive political content available on the platform, to date no classifier has been proposed to identify the political leaning of YouTube videos. To fill this gap, we propose a novel classifier based on Bert -- a language model from Google -- to classify YouTube videos merely based on their titles into six categories, namely: Far Left, Left, Center, Anti-Woke, Right, and Far Right. We used a public dataset of 10 million YouTube video titles (under various categories) to train and validate the proposed classifier. We compare the classifier against several alternatives that we trained on the same dataset, revealing that our classifier achieves the highest accuracy (75%) and the highest F1 score (77%). To further validate the classification performance, we collect videos from YouTube channels of numerous prominent news agencies, such as Fox News and New York Times, which have widely known political leanings, and apply our classifier to their video titles. For the vast majority of cases, the predicted political leaning matches that of the news agency.
翻訳日:2024-07-01 12:08:31 公開日:2024-02-16
# 不確実性誘導型アノテーションはヒト・イン・ザ・ループとのセグメンテーションを促進する

Uncertainty-guided annotation enhances segmentation with the human-in-the-loop ( http://arxiv.org/abs/2404.07208v1 )

ライセンス: Link先を確認
Nadieh Khalili, Joey Spronck, Francesco Ciompi, Jeroen van der Laak, Geert Litjens, (参考訳) 深層学習アルゴリズムは「ブラックボックス」の性質を批判されることが多いが、伝統的に信頼性のある臨床使用に必要な透明性を提供するには不十分である。 この課題は、局所病院にそのようなモデルが配備されているときに特に顕著であり、様々な画像技術や患者固有の病理により、領域外分布に遭遇する。 しかし、この制限は継続的な学習にユニークな道筋を提供する。 Uncertainty-Guided Annotation (UGA)フレームワークは、人間のループへのアプローチを導入し、AIがその不確実性を臨床医に伝えることができ、事実上、自動品質管理メカニズムとして機能する。 UGAはピクセルレベルでの不確実性を定量化することでこの相互作用を緩和し、それによってモデルの限界を明らかにし、クリニカルガイドによる修正のための扉を開く。 リンパ節転移セグメンテーションのためのCamelyonデータセットを用いてUGAを評価したところ,UGAはDice係数(DC)を0.66から0.76に改善し,さらに10パッチで0.84まで改善した。 より広範なアプリケーションとコミュニティへの貢献を促進するために、私たちはコードをアクセス可能にしました。

Deep learning algorithms, often critiqued for their 'black box' nature, traditionally fall short in providing the necessary transparency for trusted clinical use. This challenge is particularly evident when such models are deployed in local hospitals, encountering out-of-domain distributions due to varying imaging techniques and patient-specific pathologies. Yet, this limitation offers a unique avenue for continual learning. The Uncertainty-Guided Annotation (UGA) framework introduces a human-in-the-loop approach, enabling AI to convey its uncertainties to clinicians, effectively acting as an automated quality control mechanism. UGA eases this interaction by quantifying uncertainty at the pixel level, thereby revealing the model's limitations and opening the door for clinician-guided corrections. We evaluated UGA on the Camelyon dataset for lymph node metastasis segmentation which revealed that UGA improved the Dice coefficient (DC), from 0.66 to 0.76 by adding 5 patches, and further to 0.84 with 10 patches. To foster broader application and community contribution, we have made our code accessible at
翻訳日:2024-07-01 12:08:31 公開日:2024-02-16
# 理論上は決して機能しない

It Will Never Work in Theory ( http://arxiv.org/abs/2405.01546v1 )

ライセンス: Link先を確認
Greg Wilson, Jorge Aranda, Michael Hoye, Brittany Johnson, (参考訳) 私たちは10年以上、ソフトウェア工学の研究者と実践者が互いに話し合うようにしてきました。 本稿は、私たちが行ったことを説明し、その影響を評価し、より大きな成功を期待するアプローチを推奨する。

We have been trying to get software engineering researchers and practitioners to talk to one another for over a decade. This paper describes what we have done, assesses our impact, and recommends an approach that we hope will have greater success.
翻訳日:2024-07-01 11:09:59 公開日:2024-02-16
# 私はこれを、教師ではなくアシスタントにしたいと思っている。AIデジタルアシスタントから学習した学生が望む距離に関する顧客視点の声だ。

I would love this to be like an assistant, not the teacher: a voice of the customer perspective of what distance learning students want from an Artificial Intelligence Digital Assistant ( http://arxiv.org/abs/2403.15396v1 )

ライセンス: Link先を確認
Bart Rienties, John Domingue, Subby Duttaroy, Christothea Herodotou, Felipe Tessarolo, Denise Whitelock, (参考訳) ChatGPTのようなジェネレーティブAIシステムのリリースにより、高等教育を含む領域で人工知能(AI)の利用への関心が高まっている。 近年の統計は、学部生の間でAIの利用が人気になっていることを示しているが、自己申告された利益や実際の使用、特に遠隔学習の文脈からの懸念を含む、AIに対する学生の認識についてはほとんど知られていない。 2段階の混合手法を用いて、仮説的AIデジタルアシスタント(AIDA)の設計に関する様々な分野から10人のオンラインおよび遠隔学習学生の知覚を調査した。 第1ステップでは,学生の知覚をインタビューを通じて捉え,第2ステップでは,学生同士の認識を共有・比較・コントラスト化することで,データの三角測量を支援した。 参加者全員が、リアルタイムのアシストとクエリの解決、学術的なタスクのサポート、パーソナライゼーションとアクセシビリティのサポート、そして感情的および社会的サポートにAIツールを使用することのメリットを研究し、報告しながら、そのようなAIツールの有用性について同意した。 学生の懸念は、AIDA、データプライバシとデータ利用、運用上の課題、学術的完全性と誤用、教育の将来に関する倫理的・社会的意味に関するものである。 また,AIシステムの設計の意義についても論じる。

With the release of Generative AI systems such as ChatGPT, an increasing interest in using Artificial Intelligence (AI) has been observed across domains, including higher education. While emerging statistics show the popularity of using AI amongst undergraduate students, little is yet known about students' perceptions regarding AI including self-reported benefits and concerns from their actual usage, in particular in distance learning contexts. Using a two-step, mixed-methods approach, we examined the perceptions of ten online and distance learning students from diverse disciplines regarding the design of a hypothetical AI Digital Assistant (AIDA). In the first step, we captured students' perceptions via interviews, while the second step supported the triangulation of data by enabling students to share, compare, and contrast perceptions with those of peers. All participants agreed on the usefulness of such an AI tool while studying and reported benefits from using it for real-time assistance and query resolution, support for academic tasks, personalisation and accessibility, together with emotional and social support. Students' concerns related to the ethical and social implications of implementing AIDA, data privacy and data use, operational challenges, academic integrity and misuse, and the future of education. Implications for the design of AI-tailored systems are also discussed.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-16
# 大規模言語モデルの規制: ラウンドテーブルレポート

Regulating Large Language Models: A Roundtable Report ( http://arxiv.org/abs/2403.15397v1 )

ライセンス: Link先を確認
Gabriel Nicholas, Paul Friedl, (参考訳) 2023年7月20日、法、コンピュータ科学、政治科学、その他の分野の専門知識を持つ27人の学者とデジタル権利擁護者のグループが、ニューヨーク大学法学部情報法研究所と民主主義・技術センターが共同で主催する大規模言語モデル、法と政策のラウンドテーブルのために集まった。 ラウンドテーブルは、大規模言語モデル(LLM)によって引き起こされるより大きな社会問題に、法と政策がどう対処できるかを議論するために招集された。 議論は、特に3つの政策トピックに焦点をあてた。 1. 真実性: 誤情報や偽情報の発生の観点から、LLMはどのようなリスクをもたらすのか? 技術的および/または規制の観点から、これらのリスクを緩和するにはどうすればよいのか? 2. プライバシ: LLMの作成、デプロイ、使用に関わる最大のプライバシリスクは何か。 技術的および/または規制の観点から、これらのリスクを緩和するにはどうすればよいのか? 3.市場集中 : LLMは市場・電力集中にどのような脅威をもたらすのか? 技術的および/または規制の観点から、これらのリスクを緩和するにはどうすればよいのか? 本稿では,その日の手続について詳述する。 この問題に関する議論の中で最も重要なコントリビューションだと考えているものを、まず最初に紹介します。 次に、ブレインストーミングの議論で発生した法的および規制上の介入の一覧を示す。

On July 20, 2023, a group of 27 scholars and digital rights advocates with expertise in law, computer science, political science, and other disciplines gathered for the Large Language Models, Law and Policy Roundtable, co-hosted by the NYU School of Law's Information Law Institute and the Center for Democracy & Technology. The roundtable convened to discuss how law and policy can help address some of the larger societal problems posed by large language models (LLMs). The discussion focused on three policy topic areas in particular: 1. Truthfulness: What risks do LLMs pose in terms of generating mis- and disinformation? How can these risks be mitigated from a technical and/or regulatory perspective? 2. Privacy: What are the biggest privacy risks involved in the creation, deployment, and use of LLMs? How can these risks be mitigated from a technical and/or regulatory perspective? 3. Market concentration: What threats do LLMs pose concerning market/power concentration? How can these risks be mitigated from a technical and/or regulatory perspective? In this paper, we provide a detailed summary of the day's proceedings. We first recap what we deem to be the most important contributions made during the issue framing discussions. We then provide a list of potential legal and regulatory interventions generated during the brainstorming discussions.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-16
# 神経科学にインスパイアされた機械学習の展望

A Review of Neuroscience-Inspired Machine Learning ( http://arxiv.org/abs/2403.18929v1 )

ライセンス: Link先を確認
Alexander Ororbia, Ankur Mali, Adam Kohan, Beren Millidge, Tommaso Salvatori, (参考訳) ディープラーニングに対する大きな批判の1つは、学習に使用される信用代入スキーマの生物学的不確実性 -- エラーのバックプロパゲーション -- に関するものだ。 この不確実性は、ハードウェアと非微分不可能な実装との非互換性を含む科学分野にまたがる実践的な制限に変換され、結果として高価なエネルギー要求がもたらされる。 対照的に、生物学的に妥当なクレジット割り当ては、事実上あらゆる学習条件と互換性があり、エネルギー効率が高い。 結果として、ハードウェアと科学的モデリング、例えば物理システムによる学習、および微分不可能な振る舞いに対応できる。 さらに、リアルタイム適応型ニューロモルフィック処理システムの開発にも繋がる可能性がある。 この問題を解決するために、神経科学、認知科学、機械学習の交差点に位置する人工知能研究の学際部門が誕生した。 本稿では, 人工ニューラルネットワークにおける信用代入の生体証明可能なルールをモデル化し, 異なる科学分野のソリューションとCPU, GPU, ニューロモルフィックハードウェアの新規実装に対する優位性について検討する。 我々は,このようなアルゴリズムを実用アプリケーションでより有用にするためには,今後の課題に対処する必要があることを論じる。

One major criticism of deep learning centers around the biological implausibility of the credit assignment schema used for learning -- backpropagation of errors. This implausibility translates into practical limitations, spanning scientific fields, including incompatibility with hardware and non-differentiable implementations, thus leading to expensive energy requirements. In contrast, biologically plausible credit assignment is compatible with practically any learning condition and is energy-efficient. As a result, it accommodates hardware and scientific modeling, e.g. learning with physical systems and non-differentiable behavior. Furthermore, it can lead to the development of real-time, adaptive neuromorphic processing systems. In addressing this problem, an interdisciplinary branch of artificial intelligence research that lies at the intersection of neuroscience, cognitive science, and machine learning has emerged. In this paper, we survey several vital algorithms that model bio-plausible rules of credit assignment in artificial neural networks, discussing the solutions they provide for different scientific fields as well as their advantages on CPUs, GPUs, and novel implementations of neuromorphic hardware. We conclude by discussing the future challenges that will need to be addressed in order to make such algorithms more useful in practical applications.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-16
# 自己管理型DRAM:自律的で効率的なDRAM操作を実現するための低コストフレームワーク

Self-Managing DRAM: A Low-Cost Framework for Enabling Autonomous and Efficient in-DRAM Operations ( http://arxiv.org/abs/2207.13358v5 )

ライセンス: Link先を確認
Hasan Hassan, Ataberk Olgun, A. Giray Yaglikci, Haocong Luo, Onur Mutlu, (参考訳) メモリコントローラは、現在のDRAMチップにおけるDRAM保守操作(例えば、リフレッシュ、RowHammer保護、メモリスクラブ)を管理する。 新しいメンテナンス操作を実装するには、しばしばDRAMインターフェース、メモリコントローラ、および潜在的に他のシステムコンポーネントの変更を必要とする。 このような変更は、開発に長い時間を要する新しいDRAM標準でのみ可能であり、DRAMシステムの進歩が遅くなる。 本稿では,本研究の目的について述べる。 1)新しいDRAM保守操作を可能にするプロセスを容易にし、加速する。 2) より効率的なDRAM内メンテナンス操作を実現する。 我々の考えは、メモリコントローラをDRAM保守の管理から解放することである。 そこで本研究では,DRAMインターフェースやメモリコントローラ,その他のシステムコンポーネントにさらなる変更を加えることなく,新たなDRAM保守機構の実装(あるいは古いものの変更)を可能にする,新しい低コストDRAMアーキテクチャであるSelf-Managing DRAM(SMD)を提案する。 我々は、SMDを使用して、3つのユースケースに対して新しいDRAM保守機構を実装します。 1) 定期更新。 2)RowHammer保護,及び 3) メモリスクラブ。 SMDは,従来のDDR4 DRAMに比べて信頼性が高く,システム性能とエネルギー効率を大幅に向上させる,効率的なメンテナンス機構の導入が容易であることを示す。 SMDベースのメンテナンス機構でリフレッシュ、RowHammer保護、メモリスクラブが7.6%のスピードアップを実現し、20のメモリ集約4コアワークロードで平均5.2%のDRAMエネルギーを消費する。 SMDのソースコードはhttps://github.com/CMU-SAFARI/SelfManagingDRAMで公開・公開しています。

The memory controller is in charge of managing DRAM maintenance operations (e.g., refresh, RowHammer protection, memory scrubbing) in current DRAM chips. Implementing new maintenance operations often necessitates modifications in the DRAM interface, memory controller, and potentially other system components. Such modifications are only possible with a new DRAM standard, which takes a long time to develop, leading to slow progress in DRAM systems. In this paper, our goal is to 1) ease, and thus accelerate, the process of enabling new DRAM maintenance operations and 2) enable more efficient in-DRAM maintenance operations. Our idea is to set the memory controller free from managing DRAM maintenance. To this end, we propose Self-Managing DRAM (SMD), a new low-cost DRAM architecture that enables implementing new in-DRAM maintenance mechanisms (or modifying old ones) with no further changes in the DRAM interface, memory controller, or other system components. We use SMD to implement new in-DRAM maintenance mechanisms for three use cases: 1) periodic refresh, 2) RowHammer protection, and 3) memory scrubbing. We show that SMD enables easy adoption of efficient maintenance mechanisms that significantly improve the system performance and energy efficiency while providing higher reliability compared to conventional DDR4 DRAM. A combination of SMD-based maintenance mechanisms that perform refresh, RowHammer protection, and memory scrubbing achieve 7.6% speedup and consume 5.2% less DRAM energy on average across 20 memory-intensive four-core workloads. We make SMD source code openly and freely available at https://github.com/CMU-SAFARI/SelfManagingDRAM.
翻訳日:2024-03-26 00:08:10 公開日:2024-02-16
# セキュアなオープンハードウェア・オン・チップにおける暗号化加速器としてのOpenTitanの性能評価

Assessing the Performance of OpenTitan as Cryptographic Accelerator in Secure Open-Hardware System-on-Chips ( http://arxiv.org/abs/2402.10395v1 )

ライセンス: Link先を確認
Emanuele Parisi, Alberto Musa, Maicol Ciani, Francesco Barchi, Davide Rossi, Andrea Bartolini, Andrea Acquaviva, (参考訳) RISC-Vオープンソースシステムは、安全とセキュリティが重要となるデプロイメントシナリオに現れている。 OpenTitanはオープンソースのシリコンルーツ・オブ・トラストで、ハイエンドから深く埋め込まれたセキュアな環境まで、幅広いシステムにデプロイされるように設計されている。 OpenTitanがメインプロセッサから暗号化ワークロードをオフロードするのに適した、さまざまな暗号化ハードウェアアクセラレータが利用可能であるにも関わらず、OpenTitanをセキュアなアクセラレータとして使用することに由来するメリットの正確かつ定量的な確立は行われていない。 本稿では、暗号化ワークロードをOpenTitanにオフロードする際の強度と非効率性を徹底的に分析することで、このギャップに対処する。 HMAC、AES、OpenTitan Big Numberアクセラレーター(OTBN)という3つの主要なIPに重点を置いている。これは、セキュアハッシュ関数、メッセージ認証コード、対称暗号、非対称暗号の4つのセキュリティワークロードを加速することができる。 各ワークロードに対して,OpenTitanアクセラレータ用のベアメタルドライバを開発し,セキュアなサイバー物理システムアプリケーション用に設計されたSystem-on-Chip内のRISC-Vアプリケーションコアから計算をオフロードした場合の効率を解析する。 最後に、アプリケーションコア上のソフトウェア実装に対して評価する。 System-on-Chip (SoC) のサイクル精度RTLシミュレータを用いて評価を行った。 我々の研究は、OpenTitanがソフトウェア実装を著しく上回っており、スピードアップは4.3倍から12.5倍であることを示している。 しかし、現在のOpenTitanは16%から61%の範囲で、メモリへのアクセスとアクセルの使用に応じて、アクセル帯域のごく一部を使用しているため、さらに大きなゲインの可能性がある。 弊社の結果は、OpenTitanベースのセキュアなプラットホームの最適化への道を開き、セキュアなアプリケーションでアクセラレーターの潜在能力を最大限に活用するための設計ガイドラインを提供する。

RISC-V open-source systems are emerging in deployment scenarios where safety and security are critical. OpenTitan is an open-source silicon root-of-trust designed to be deployed in a wide range of systems, from high-end to deeply embedded secure environments. Despite the availability of various cryptographic hardware accelerators that make OpenTitan suitable for offloading cryptographic workloads from the main processor, there has been no accurate and quantitative establishment of the benefits derived from using OpenTitan as a secure accelerator. This paper addresses this gap by thoroughly analysing strengths and inefficiencies when offloading cryptographic workloads to OpenTitan. The focus is on three key IPs - HMAC, AES, and OpenTitan Big Number accelerator (OTBN) - which can accelerate four security workloads: Secure Hash Functions, Message Authentication Codes, Symmetric cryptography, and Asymmetric cryptography. For every workload, we develop a bare-metal driver for the OpenTitan accelerator and analyze its efficiency when computation is offloaded from a RISC-V application core within a System-on-Chip designed for secure Cyber-Physical Systems applications. Finally, we assess it against a software implementation on the application core. The characterization was conducted on a cycle-accurate RTL simulator of the System-on-Chip (SoC). Our study demonstrates that OpenTitan significantly outperforms software implementations, with speedups ranging from 4.3x to 12.5x. However, there is potential for even greater gains as the current OpenTitan utilizes a fraction of the accelerator bandwidths, which ranges from 16% to 61%, depending on the memory being accessed and the accelerator used. Our results open the way to the optimization of OpenTitan-based secure platforms, providing design guidelines to unlock the full potential of its accelerators in secure applications.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-16
# ポスト量子暗号

Post-Quantum Cryptography ( http://arxiv.org/abs/2402.10576v1 )

ライセンス: Link先を確認
Pranjal, Atul Chaturvedi, (参考訳) 本稿では,古典暗号における量子後暗号の散文について述べる。 我々は、情報を保護するために実践されている様々な暗号手法について話す。 セキュアな通信の未来は、量子セーフ暗号システムの実装であり、量子後時代において、機密データのセキュリティを確保するためには、ポスト量子暗号の開発が不可欠であることが期待されている。

In this survey we propose to cover the prose of post-quantum cryptography over classical cryptography. We talk about the various cryptographic methods that are being practiced to safeguard our information. The future of secure communication is expected to be the implementation of quantum-safe cryptographic systems, and that in the post-quantum era, the development of post-quantum cryptography is essential for ensuring the security of sensitive data.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-16
# クレデンシャル・コントロール・バランス:銀行からビットコイン、イーサリアムの外部口座および口座抽象化までを抽象化したユニバーサル・ブロックチェーン・アカウント・モデル

Credential Control Balance: A Universal Blockchain Account Model Abstract From Bank to Bitcoin, Ethereum External Owned Account and Account Abstraction ( http://arxiv.org/abs/2402.10616v1 )

ライセンス: Link先を確認
Huifeng Jiao, Dr. Nathapon Udomlertsakul, Dr. Anukul Tamprasirt, (参考訳) ブロックチェーンの時価総額は最高3兆ドルに達し、1兆ドルに下落し、その後1.5兆ドルに回復し、再び上昇している。 ブロックチェーンは、この巨大な市場(Web-12)において、ほとんどのオンチェーン資産をセキュアにしている。 本稿では、ブロックチェーンアカウント開発に関する包括的なレビューから、学術と産業の両方の観点から、ユニバーサルなブロックチェーンアカウントモデルを開始する。 本稿では,会計の進捗状況を分析し,ハイレベルな会計モデルを作成するためにモデル解析手法を用いる。 また、体系的な文献レビュー手法を用いて、会計モデルに関する論文を検索、フィルタリング、分析、評価し、関連する技術トレードオフを分析する。 ブロックチェーン、アカウント、プライベートキー、WOS、Scoops、Bitcoin、Ethereumコミュニティリポジトリのセキュリティといったキーワードで検索すると、従来の銀行口座からBitcoin、EVM対応、抽象化アカウントに至るまで、アカウントモデルの設計と評価に関する詳細な洞察が得られます。 この研究は、データ駆動によるアカウントモデルの比較(セキュリティ、コスト、採用)を通じて、将来の方向性を探求し、クロスモデルアカウント理論の概要を提供し、さらなるブロックチェーン研究を導く。 この記事では、モデル変更ドライバ、アプリケーション技術の進歩について詳しく説明する。

Blockchain market value peaked at $3 trillion, fell to $1 trillion, then recovered to $1.5 trillion and is rising again. Blockchain accounts secure most on-chain assets in this huge market (Web-12). This paper initiates a universal blockchain account model from a comprehensive review of blockchain account development, encompassing both academic and industry perspectives. This paper uses a model analysis method to analysis the account progress and create high level new account model. And it uses systematic literature review method to search, filter, analysis and evaluate the papers about account models and analyzes related technology trade-offs. Searching with key words: blockchain, account, private key and security in WOS, Scopus and Bitcoin and Ethereum community repositories, this research provides in-depth insights into the design and evaluation of account models, from traditional bank accounts to Bitcoin, EVM-adaptable, and abstraction accounts. Through data-driven comparisons of account models (security, cost, adoption), this study also explores future directions and provides an overview of cross-model account theory, guiding further blockchain research. This paper leaves deeper dives into model change drivers, application technology advancements.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-16
# カオスマップに基づく軽量暗号-LFSRアーキテクチャ

Lightweight ciphers based on chaotic Map -- LFSR architectures ( http://arxiv.org/abs/2402.10871v1 )

ライセンス: Link先を確認
M. Garcia-Bosque, C. Sánchez-Azqueta, G. Royo, S. Celma, (参考訳) 本稿では,Skew Tent MapとModified Logistic Mapに基づく2つの異なるストリーム暗号を提案し,解析する。 これらのシステムのランダム性を改善するために、生成されたシーケンスの周期長を増大させる1つの方法が適用された。 この手法を用いることで,これらのシステムのランダム性を幾度となく向上させることができ,セキュアな通信に適したシステムであることが実証された。

In this paper, we propose and analyze two different stream ciphers based on a Skew Tent Map and a Modified Logistic Map respectively. In order to improve the randomness of these systems, a single method for increasing the period length of the generated sequences has been applied. The results prove that the randomness of these systems can be severally increased by using this method, making these systems suitable for secure communications.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-16
# 5Gネットワークにおけるエロームユーザ認証のためのEAP利用の評価

Evaluation of EAP Usage for Authenticating Eduroam Users in 5G Networks ( http://arxiv.org/abs/2402.10889v1 )

ライセンス: Link先を確認
Leonardo Azalim de Oliveira, Edelberto Franco Silva, (参考訳) 通信ネットワーク(5G)の第5世代は、モバイルネットワークにおけるサービス指向パラダイムを確立した。 この新しいコンテキストでは、5G Coreコンポーネントは非常に柔軟になり、モバイルネットワークを提供するだけでなく、WiFiなどの技術を含むいわゆる非3GPPネットワークからのデバイス接続にも使用できる。 この接続の実装には、認証と信頼性を確保するための特定のプロトコルが必要である。 これらの特徴と収束の可能性を考えると,非3GPPユーザ機器で使用される暗号化アルゴリズムと認証手法を慎重に選択する必要がある。 本論文は,エドロアム連盟の文脈で使用可能な試験環境を通じて実施した被験者の分析から得られた重要な知見を明らかにする。

The fifth generation of the telecommunication networks (5G) established the service-oriented paradigm on the mobile networks. In this new context, the 5G Core component has become extremely flexible so, in addition to serving mobile networks, it can also be used to connect devices from the so-called non-3GPP networks, which contains technologies such as WiFi. The implementation of this connectivity requires specific protocols to ensure authentication and reliability. Given these characteristics and the possibility of convergence, it is necessary to carefully choose the encryption algorithms and authentication methods used by non-3GPP user equipment. In light of the above, this paper highlights key findings resulting from an analysis on the subject conducted through a test environment which could be used in the context of the Eduroam federation.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-16
# ニューロン中心のヘビアンラーニング

Neuron-centric Hebbian Learning ( http://arxiv.org/abs/2403.12076v1 )

ライセンス: Link先を確認
Andrea Ferigo, Elia Cunegatti, Giovanni Iacca, (参考訳) 脳の学習メカニズムの背後にある最も顕著な能力の1つは、そのシナプスの構造的、機能的可塑性の適応である。 シナプスは脳全体に情報を伝達する基本的な役割を持っているが、いくつかの研究はシナプスに変化をもたらすニューロンの活性化であることを示している。 しかし、ニューラルネット(NN)のために考案されたほとんどの塑性モデルは、例えばABCDルールでは、ニューロンよりもシナプスに重点を置いており、したがってシナプス固有のヘビアンパラメータを最適化している。 しかし、このアプローチは、各シナプスが複数のヘビアンパラメータに関連付けられているため、最適化プロセスの複雑さを増大させる。 この制限を克服するために,神経中心型ヘビアンラーニング(NcHL)と呼ばれる新しい塑性モデルを提案する。 ABCD法則と比較すると、NcHLはパラメータを5W$から5N$に減らし、重量とニューロンの数に$W$と$N$、通常$N \ll W$に減らしている。 また、ニューロンの活性化の記録に基づいて重みを近似することにより、より少ないメモリを必要とする「太い」NcHLモデルも考案した。 2つのロボティック・ロコモーション・タスクの実験では、NcHLは最大$\sim97$のパラメータを使用してもABCDのルールに相容れない性能を示し、スケーラブルな可塑性を実現している。

One of the most striking capabilities behind the learning mechanisms of the brain is the adaptation, through structural and functional plasticity, of its synapses. While synapses have the fundamental role of transmitting information across the brain, several studies show that it is the neuron activations that produce changes on synapses. Yet, most plasticity models devised for artificial Neural Networks (NNs), e.g., the ABCD rule, focus on synapses, rather than neurons, therefore optimizing synaptic-specific Hebbian parameters. This approach, however, increases the complexity of the optimization process since each synapse is associated to multiple Hebbian parameters. To overcome this limitation, we propose a novel plasticity model, called Neuron-centric Hebbian Learning (NcHL), where optimization focuses on neuron- rather than synaptic-specific Hebbian parameters. Compared to the ABCD rule, NcHL reduces the parameters from $5W$ to $5N$, being $W$ and $N$ the number of weights and neurons, and usually $N \ll W$. We also devise a "weightless" NcHL model, which requires less memory by approximating the weights based on a record of neuron activations. Our experiments on two robotic locomotion tasks reveal that NcHL performs comparably to the ABCD rule, despite using up to $\sim97$ times less parameters, thus allowing for scalable plasticity.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-16
# 自律型マイクロアレイ

Autonomous microARPES ( http://arxiv.org/abs/2403.13815v1 )

ライセンス: Link先を確認
Steinn Ymir Agustsson, Alfred J. H. Jones, Davide Curcio, Søren Ulstrup, Jill Miwa, Davide Mottin, Panagiotis Karras, Philip Hofmann, (参考訳) 角度分解光電子分光法(ARPES)は、固体の電子構造をマッピングする技術である。 近年のX線集光光学の進歩により、ALPESは顕微鏡ツールとして開発され、電子構造が試料の表面を空間的にマッピングできるようになった。 これは、三次元エネルギーモメンタム(E, k_z, k_y$)空間だけでなく、二次元表面積もカバーするための時間を要する走査プロセスの費用がかかる。 ここでは、高光電子放出強度や鋭いスペクトル特徴のため、特に興味のある位置を見つけるために、$\mathbf{k}$-および実空間の両方を自律的に探索するプロトコルを実装している。 探索はガウス過程回帰(英語版)の使用に基づいており、追加のパラメータや最適化基準を含むように容易に拡張することができる。 この自律的な実験制御は、放射光源ASTRID2のSGM4マイクロフォーカスビームラインに実装される。

Angle-resolved photoemission spectroscopy (ARPES) is a technique used to map the occupied electronic structure of solids. Recent progress in X-ray focusing optics has led to the development of ARPES into a microscopic tool, permitting the electronic structure to be spatially mapped across the surface of a sample. This comes at the expense of a time-consuming scanning process to cover not only a three-dimensional energy-momentum ($E, k_z, k_y$) space but also the two-dimensional surface area. Here, we implement a protocol to autonomously search both $\mathbf{k}$- and real space in order to find positions of particular interest, either because of their high photoemission intensity or because of sharp spectral features. The search is based on the use of Gaussian process regression and can easily be expanded to include additional parameters or optimisation criteria. This autonomous experimental control is implemented on the SGM4 micro-focus beamline of the synchrotron radiation source ASTRID2.
翻訳日:2024-03-25 07:17:26 公開日:2024-02-16
# State of the Art Report: Verified Computation

State of the Art Report: Verified Computation ( http://arxiv.org/abs/2308.15191v2 )

ライセンス: Link先を確認
Jim Woodcock, Mikkel Schmidt Andersen, Diego F. Aranha, Stefan Hallerstede, Simon Thrane Hansen, Nikolaj Kuhne Jakobsen, Tomas Kulik, Peter Gorm Larsen, Hugo Daniel Macedo, Carlos Ignacio Isasa Martin, Victor Alexander Mtsimbe Norrild, (参考訳) 本報告では、検証可能な計算の最先端について述べる。 検証可能な計算問題(検証可能な計算問題) コンピュータエージェントが2つあることを仮定する。 第1のエージェントは検証者、第2のエージェントは証明者である。 検証者は、証明者が計算を実行することを望んでいる。 検証者は、計算の記述を証明者に送信する。 証明者がタスクを完了すると、証明者は検証者に出力を返す。 出力には証明が含まれます。 検証者は、この証明を使用して、証明者が出力を正しく計算したかどうかを確認することができる。 このチェックは、計算で使用されるアルゴリズムを検証するために必要ではない。 代わりに、証明者が検証者によって指定された計算を用いて出力を計算したチェックである。 チェックに必要な労力は、計算の実行に必要な労力よりもはるかに少なくなければならない。 この最先端のレポートは、4000ページ以上に及ぶ文献から128の論文を調査している。 その他の論文や書籍は調査されたが、削除された。 調査された論文は圧倒的に数学的だった。 我々は、検証可能な計算の基礎を形成する主要な概念を要約した。 報告書には2つの主要なセクションが含まれている。 第一のより大きい節は確率的にチェック可能な証明とゼロ知識証明の理論的基礎をカバーしている。 第2節では、検証可能な計算の現在の実践について記述している。 次の2つの報告がカバーされる 一 検証可能な計算の軍事的応用及び (ii)技術デモ参加者の集まり。 ひとつは、検証可能な計算における現在の最先端技術によって、どのようなアプリケーションが有効になっているかを知りたい人によって読み取られるように意図されている。 2つ目は、実践的なツールを見て、実験を自分自身で実行したい人のためのものです。

This report describes the state of the art in verifiable computation. The problem being solved is the following: The Verifiable Computation Problem (Verifiable Computing Problem) Suppose we have two computing agents. The first agent is the verifier, and the second agent is the prover. The verifier wants the prover to perform a computation. The verifier sends a description of the computation to the prover. Once the prover has completed the task, the prover returns the output to the verifier. The output will contain proof. The verifier can use this proof to check if the prover computed the output correctly. The check is not required to verify the algorithm used in the computation. Instead, it is a check that the prover computed the output using the computation specified by the verifier. The effort required for the check should be much less than that required to perform the computation. This state-of-the-art report surveys 128 papers from the literature comprising more than 4,000 pages. Other papers and books were surveyed but were omitted. The papers surveyed were overwhelmingly mathematical. We have summarised the major concepts that form the foundations for verifiable computation. The report contains two main sections. The first, larger section covers the theoretical foundations for probabilistically checkable and zero-knowledge proofs. The second section contains a description of the current practice in verifiable computation. Two further reports will cover (i) military applications of verifiable computation and (ii) a collection of technical demonstrators. The first of these is intended to be read by those who want to know what applications are enabled by the current state of the art in verifiable computation. The second is for those who want to see practical tools and conduct experiments themselves.
翻訳日:2024-03-19 07:12:46 公開日:2024-02-16
# Orca-Math:小学生数学におけるSLMの可能性を解き明かす

Orca-Math: Unlocking the potential of SLMs in Grade School Math ( http://arxiv.org/abs/2402.14830v1 )

ライセンス: Link先を確認
Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah(参考訳) 数学的な単語問題解決は、長い間、小言語モデル(SLM)の複雑なタスクとして認識されてきた。 最近の研究では、gsm8kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは34億パラメータであると仮定している。 より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。 さらに、最大100モデル実行の出力を組み合わせることで、より正確な結果が得られる、センスリングも採用している。 結果の選択は、コンセンサス、多数決、あるいはSLMと組み合わせて使用する検証モデルを使用して行われる。 組み立ては精度を大幅に向上させるが、複数の呼び出しによってコストが大幅に上昇する(例えば、Phi-GSMはトップ48を使用して68.2から81.5に性能を向上する)。 本研究では,複数のモデルコールや検証器,コード実行,その他の外部ツールを使わずに,GSM8k上で86.81%を達成したMistral-7Bをベースとした7ビリオンパラメータSLMであるOrca-Mathを紹介する。 提案手法は,(1)エージェントが協調してデータを作成するマルチエージェント構成を用いて生成した200Kの数学問題の高品質な合成データセット,(2)SLMが問題解決を実践し,そのソリューションに対するフィードバックを受信し,SLMソリューションとフィードバックを取り入れた選好ペアから学習する反復学習技術,である。 教師付き微調整だけで訓練すると、gsm8k pass@1メトリックで81.50%に達する。 反復的な選好学習により、Orca-Mathは86.81%のパス@1を達成する。 Orca-Math は LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5 などの大型モデルよりも性能が優れている。 また、はるかに小さなデータ(何百万もの問題に対して数十万という)を使いながら、他の小さなモデルを大幅に上回っている。

Mathematical word problem-solving has long been recognized as a complex task for small language models (SLMs). A recent study hypothesized that the smallest model size, needed to achieve over 80% accuracy on the GSM8K benchmark, is 34 billion parameters. To reach this level of performance with smaller models, researcher often train SLMs to generate Python code or use tools to help avoid calculation errors. Additionally, they employ ensembling, where outputs of up to 100 model runs are combined to arrive at a more accurate result. Result selection is done using consensus, majority vote or a separate a verifier model used in conjunction with the SLM. Ensembling provides a substantial boost in accuracy but at a significant cost increase with multiple calls to the model (e.g., Phi-GSM uses top-48 to boost the performance from 68.2 to 81.5). In this work, we present Orca-Math, a 7-billion-parameter SLM based on the Mistral-7B, which achieves 86.81% on GSM8k without the need for multiple model calls or the use of verifiers, code execution or any other external tools. Our approach has the following key elements: (1) A high quality synthetic dataset of 200K math problems created using a multi-agent setup where agents collaborate to create the data, (2) An iterative learning techniques that enables the SLM to practice solving problems, receive feedback on its solutions and learn from preference pairs incorporating the SLM solutions and the feedback. When trained with Supervised Fine-Tuning alone, Orca-Math achieves 81.50% on GSM8k pass@1 metric. With iterative preference learning, Orca-Math achieves 86.81% pass@1. Orca-Math surpasses the performance of significantly larger models such as LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5. It also significantly outperforms other smaller models while using much smaller data (hundreds of thousands vs. millions of problems).
翻訳日:2024-03-03 19:36:39 公開日:2024-02-16
# IntSat: 競合駆動の制約学習による整数線形プログラミング

IntSat: Integer Linear Programming by Conflict-Driven Constraint-Learning ( http://arxiv.org/abs/2402.15522v1 )

ライセンス: Link先を確認
Robert Nieuwenhuis, Albert Oliveras, Enric Rodriguez-Carbonell(参考訳) 最先端のSATソルバは今や巨大な現実世界のインスタンスを処理できる。 この成功の鍵は、ソリューションの探索中に遭遇する競合を利用する数多くのテクニックを含む、いわゆるConflict-Driven Clause-Learning(CDCL)スキームである。 本稿では、これらの手法を整数線形プログラミング(ilp)に拡張します。変数が純粋に二項ではなく一般の整数値を取る場合、制約は命題節よりも表現力が高く、最適化する目的関数が存在する場合があります。 これらの手法を効率的に実装する方法を説明し、改善の可能性について議論する。 我々の研究は、非常に未成熟な段階でも、我々の技術はICP解決における最先端技術に対する有用な補完であることを示す基本的な実装で裏付けられている。

State-of-the-art SAT solvers are nowadays able to handle huge real-world instances. The key to this success is the so-called Conflict-Driven Clause-Learning (CDCL) scheme, which encompasses a number of techniques that exploit the conflicts that are encountered during the search for a solution. In this article we extend these techniques to Integer Linear Programming (ILP), where variables may take general integer values instead of purely binary ones, constraints are more expressive than just propositional clauses, and there may be an objective function to optimise. We explain how these methods can be implemented efficiently, and discuss possible improvements. Our work is backed with a basic implementation that shows that, even in this far less mature stage, our techniques are already a useful complement to the state of the art in ILP solving.
翻訳日:2024-03-03 19:17:21 公開日:2024-02-16
# 逐次ランダム投影のための確率ツール

Probability Tools for Sequential Random Projection ( http://arxiv.org/abs/2402.14026v1 )

ライセンス: Link先を確認
Yingru Li(参考訳) 不確実性下での逐次的意思決定の課題に根ざしたアプローチである、逐次ランダム投影のための最初の確率的フレームワークを提案する。 解析は、逐次決定過程に固有の適応機構の副産物である確率変数の逐次依存性と高次元の性質によって複雑である。 本研究は,連続的に相互接続される集中イベント列の解析を容易にするため,停止過程の新規構築を特徴とする。 停止過程に由来する自己正規化過程内の混合法を用いることにより、所望の非漸近確率境界が得られる。 この境界はジョンソン・リンデンシュトラウス(JL)補題の非自明なマーチンゲール拡大を表し、ランダム射影とシーケンシャル解析に関する文献への先駆的な貢献を示している。

We introduce the first probabilistic framework tailored for sequential random projection, an approach rooted in the challenges of sequential decision-making under uncertainty. The analysis is complicated by the sequential dependence and high-dimensional nature of random variables, a byproduct of the adaptive mechanisms inherent in sequential decision processes. Our work features a novel construction of a stopped process, facilitating the analysis of a sequence of concentration events that are interconnected in a sequential manner. By employing the method of mixtures within a self-normalized process, derived from the stopped process, we achieve a desired non-asymptotic probability bound. This bound represents a non-trivial martingale extension of the Johnson-Lindenstrauss (JL) lemma, marking a pioneering contribution to the literature on random projection and sequential analysis.
翻訳日:2024-02-25 16:56:41 公開日:2024-02-16
# 人間と機械の操作的集団知性

Operational Collective Intelligence of Humans and Machines ( http://arxiv.org/abs/2402.13273v1 )

ライセンス: Link先を確認
Nikolos Gurney, Fred Morstatter, David V. Pynadath, Adam Russell, Gleb Satyukov(参考訳) 協調行動のための「協調的知性」の運用を支援するメカニズムとして,集約的クラウドソース予測(ACF)の利用を検討する。 データ情報知識、ソフトウェアハードウェア、個人間のシナジーから生じるグループの特性(新たな洞察と認識された権威を持つ)は、これら3つの要素が単独で行動するよりも優れた意思決定のためにジャスト・イン・タイムの知識を可能にする。 集団インテリジェンス(Collective Intelligence)は、人間とAIを結びつける新しい方法から生まれ、意思決定の進歩を可能にする。 Aggregative crowdsourced forecasting(ACF)は、集団知性に対する最近の重要な進歩であり、予測(X\%の確率でYが起こる)と理性(なぜこの確率でXが起こるのか)は、多様な集団から独立して引き起こされ、集約され、さらに高いレベルの意思決定を伝えるために使用される。 本研究は,運用集団的知性を実現するための重要な手段として,acfが運用シナリオ(すなわち,定義されたエージェント,コンポーネント,インタラクションによるイベントのシーケンス)と意思決定に耐えられるかどうかを問うもので,その能力が新たな形態の意思決定を可能にするための新たな運用能力を提供できるかを検討するものである。

We explore the use of aggregative crowdsourced forecasting (ACF) as a mechanism to help operationalize ``collective intelligence'' of human-machine teams for coordinated actions. We adopt the definition for Collective Intelligence as: ``A property of groups that emerges from synergies among data-information-knowledge, software-hardware, and individuals (those with new insights as well as recognized authorities) that enables just-in-time knowledge for better decisions than these three elements acting alone.'' Collective Intelligence emerges from new ways of connecting humans and AI to enable decision-advantage, in part by creating and leveraging additional sources of information that might otherwise not be included. Aggregative crowdsourced forecasting (ACF) is a recent key advancement towards Collective Intelligence wherein predictions (X\% probability that Y will happen) and rationales (why I believe it is this probability that X will happen) are elicited independently from a diverse crowd, aggregated, and then used to inform higher-level decision-making. This research asks whether ACF, as a key way to enable Operational Collective Intelligence, could be brought to bear on operational scenarios (i.e., sequences of events with defined agents, components, and interactions) and decision-making, and considers whether such a capability could provide novel operational capabilities to enable new forms of decision-advantage.
翻訳日:2024-02-25 16:55:26 公開日:2024-02-16
# 人工知能のための自発的心の理論

Spontaneous Theory of Mind for Artificial Intelligence ( http://arxiv.org/abs/2402.13272v1 )

ライセンス: Link先を確認
Nikolos Gurney, David V. Pynadath, Volkan Ustun(参考訳) 人工知能(AI)における心の理論(ToM)への既存のアプローチは、AI(Artificial Social Intelligence, ASI)を開発するための集団能力を制限する可能性がある。 コンピュータサイエンス、認知科学、および関連する分野の研究から、私たちはToMを、自発的ToM(自発的ToM)と呼ばれる、意図しない、おそらく制御不能な認知機能に根ざした他者の精神状態と対比した。 ai tomの研究と開発に関する原則的なアプローチを議論し、堅牢な、あるいは一般のasiが、自然に社会的推論に関わるプロンプトに応答することを提案します。

Existing approaches to Theory of Mind (ToM) in Artificial Intelligence (AI) overemphasize prompted, or cue-based, ToM, which may limit our collective ability to develop Artificial Social Intelligence (ASI). Drawing from research in computer science, cognitive science, and related disciplines, we contrast prompted ToM with what we call spontaneous ToM -- reasoning about others' mental states that is grounded in unintentional, possibly uncontrollable cognitive functions. We argue for a principled approach to studying and developing AI ToM and suggest that a robust, or general, ASI will respond to prompts \textit{and} spontaneously engage in social reasoning.
翻訳日:2024-02-25 16:54:56 公開日:2024-02-16
# 計測誘起位相遷移の一般化と情報交換対称性の破れ

Generalizing measurement-induced phase transitions to information exchange symmetry breaking ( http://arxiv.org/abs/2402.13271v1 )

ライセンス: Link先を確認
Shane P. Kelly and Jamir Marino(参考訳) 本研究では,監視システムの情報ダイナミクスにおける位相遷移を生じる量子バックアクションの条件について検討する。 本稿では,より一般的にシステムから量子コンピュータに量子情報を転送する,投射的測定とプローブからなるプローブを含む幅広い実験をキャプチャするフレームワークを提案する。 我々のフレームワークは、システム、装置、環境を結合するユニタリ進化のモデルを用いている。 進化状態の r\'enyi と von-neumann のエントロピーを用いて情報ダイナミクスを調査し,それらのレプリカ理論を構築した。 実験が持つことのできるレプリカ対称性を特定し、自発的対称性の破れについて議論する。 特に、自発的対称性の破れが絡み合った遷移をもたらす最小部分群を同定する。 この対称性は、装置内の情報が環境に伝達される情報としてシステムのダイナミクスに関する情報である場合にのみ可能となる。 我々はこの要求を情報交換対称性と呼び、エントロピーの関係によって定量化する。 次に、エンタングルメント遷移を、複製理論に言及せずに、情報交換対称性の自発的破壊として理解する方法を示す。 次に、情報交換対称性の破れを示し、測定誘起相転移(MIPT)の現象を一般化する。 この理論は、ハール測度からユニタリが選択された場合、付随するレター[1]で導入されたレンガ造りの量子強調実験に適用し、MIPTとは異なる普遍性を特定する。 この情報交換対称性の破れの概念はMIPTを一般化し、量子化実験における量子情報のダイナミクスを理解するための枠組みを提供する。

In this work we investigate the conditions for quantum back action to result in a phase transition in the information dynamics of a monitored system. We introduce a framework that captures a wide range of experiments encompassing probes comprised of projective measurements and probes which more generally transfer quantum information from the system to a quantum computer. Our framework explicitly uses a model of unitary evolution which couples system, apparatus and environment. Information dynamics is investigated using the R\'enyi and von-Neumann entropies of the evolving state, and we construct a replica theory for them. We identify the possible replica symmetries an experiment can possess and discuss their spontaneous symmetry breaking. In particular, we identify a minimum subgroup whose spontaneous symmetry breaking results in an entanglement transition. This symmetry is only possible when the information in the apparatus is as informative about the dynamics of the system as the information transferred to the environment. We call this requirement the information exchange symmetry and quantify it by a relationship between the entropies. We then show how the entanglement transition can be understood as the spontaneously breaking of the information exchange symmetry and without referring to the replica theory. Information exchange symmetry breaking is then shown to generalize the phenomenology of the measurement-induced phase transition (MIPT). We apply this theory to the brickwork quantum-enhanced experiment introduced in an accompanying Letter [1] in the case where the unitaries are chosen from the Haar measure, and identify a distinct universality from the MIPT. This notion of information exchange symmetry breaking generalizes the MIPT, and provides a framework for understanding the dynamics of quantum information in quantum-enhanced experiments.
翻訳日:2024-02-25 16:54:42 公開日:2024-02-16
# マルチモーダルマルチスケール因果自己回帰モデルによるグローバル熱帯サイクロン強度予測

Global Tropical Cyclone Intensity Forecasting with Multi-modal Multi-scale Causal Autoregressive Model ( http://arxiv.org/abs/2402.13270v1 )

ライセンス: Link先を確認
Xinyu Wang, Kang Chen, Lei Liu, Tao Han, Bin Li, Lei Bai(参考訳) 災害リスク低減戦略の策定には,熱帯サイクロン(TC)強度の正確な予測が不可欠である。 現在の手法は、主にERA5データからの限られた時空間情報に依存し、これらの物理変数間の因果関係を無視し、強度予測に必要な空間的パターンと時間的パターンを完全に捉えることができない。 この問題に対処するために,グローバルTC強度自動回帰予測のための大規模マルチモーダルデータと因果関係を組み合わせた最初のモデルであるマルチモーダルマルチスケール因果自己回帰モデル(MSCAR)を提案する。 さらに,広い空間変数を提供するtcデータセットが現在存在しないことを考慮し,衛星およびera5ベースの熱帯サイクロンデータセット(setcd)を,tcsに関連する最長かつ最も包括的なグローバルデータセットとして紹介する。 データセットの実験では、MSCARは最先端の手法よりも優れており、それぞれ9.52%と6.74%のグローバルおよび地域予測誤差を最大で削減している。 コードとデータセットはhttps://anonymous.4open.science/r/MSCARで公開されている。

Accurate forecasting of Tropical cyclone (TC) intensity is crucial for formulating disaster risk reduction strategies. Current methods predominantly rely on limited spatiotemporal information from ERA5 data and neglect the causal relationships between these physical variables, failing to fully capture the spatial and temporal patterns required for intensity forecasting. To address this issue, we propose a Multi-modal multi-Scale Causal AutoRegressive model (MSCAR), which is the first model that combines causal relationships with large-scale multi-modal data for global TC intensity autoregressive forecasting. Furthermore, given the current absence of a TC dataset that offers a wide range of spatial variables, we present the Satellite and ERA5-based Tropical Cyclone Dataset (SETCD), which stands as the longest and most comprehensive global dataset related to TCs. Experiments on the dataset show that MSCAR outperforms the state-of-the-art methods, achieving maximum reductions in global and regional forecast errors of 9.52% and 6.74%, respectively. The code and dataset are publicly available at https://anonymous.4open.science/r/MSCAR.
翻訳日:2024-02-25 16:54:15 公開日:2024-02-16
# カウントをアカウンタビリティに戻す: ソーシャルメディアの透明性開示の監査 : マイナーのセクシュアル・エクスプロイテーションに着目して

Putting the Count Back Into Accountability: An Audit of Social Media Transparency Disclosures, Focusing on Sexual Exploitation of Minors ( http://arxiv.org/abs/2402.14625v1 )

ライセンス: Link先を確認
Robert Grimm(参考訳) 本稿では,透明性開示のための軽量で定量的な監査手法であるscrapy auditsについて検討する。 量を検証する機会として、冗長かつ繰り返しの開示を扱います。 この論文は、コンテンツモデレーションに関するソーシャルメディアの開示に2つの具体的な監査を適用する。 第一は、未成年者の性的搾取に関する法的義務のある報告書を、ソーシャルメディアと国家クリアリングハウスによって公表されたものである。 後者は、プラットフォームのcsvファイルに含まれる過去の量と、その後の2つのデータ開示を比較している。 シンプルさにもかかわらず、こうしたスクレイピーな監査は有効だ。 調査対象となった16のソーシャルメディアプラットフォームのうち、11がコンテンツモデレーションに関する透明性開示を行い、8が1つの監査の前提条件を満たしている。 しかし、監査に合格するのは4~プラットフォームのみである。 論文は、未成年者のオンライン性的搾取をデータ駆動で概観することで、透明性データの限界を探究し続ける。 したがって、分析は、有効性に対する脅威を特定するだけでなく、潜在的に有用だが利用できない統計を特定するのに特に慎重である。 同様に、未成年者の性的虐待を描写した画像やビデオの自動検出に広く使われている技術の主な欠点を特定する。 総じて、この10年でこうした物質が急増していることを示している。 しかし、これらの物質を全て同一に扱う現在の統計は、大きくて不完全な過剰数であることを示す強い指標もある。 特に、ティーンエージャーのセクスティングなど、多くの技術的違反は、必ずしも未成年者への実際の損害を被っているわけではないが、それでも報告されている。

This paper explores a lightweight, quantitative audit methodology for transparency disclosures called scrappy audits. It amounts to little more than treating redundant and repeated disclosures as opportunities for validating quantities. The paper applies two concrete audits to social media disclosures about content moderation. The first compares legally mandated reports about the sexual exploitation of minors as disclosed by social media and the national clearinghouse receiving them. The second compares historical quantities included in platforms' CSV files across two subsequent disclosures of the data. Despite their simplicity, these scrappy audits are nonetheless effective. Out of 16 surveyed social media platforms, 11 make transparency disclosures about content moderation and 8 meet the prerequisites of one audit. Yet only 4~platforms pass their audits. The paper continues probing the limits of transparency data by presenting a data-driven overview of the online sexual exploitation of minors. Accordingly, the analysis is particularly careful to identify threats to validity as well as potentially helpful, but unavailable statistics. Likewise, it identifies major shortcomings of widely used technologies for the automated detection of images and videos depicting sexual abuse of minors. Overall, the data shows an alarming growth in such material over the last decade. However, there also are strong indicators that current statistics, which treat all such material the same, are large and unhelpful overcounts. Notably, many technical violations of the law, e.g., teenagers sexting, are not necessarily grounded in actual harm to minors but still reported as such.
翻訳日:2024-02-25 16:46:39 公開日:2024-02-16
# 公理的因果レンズによるモデル説明

Model Explanations via the Axiomatic Causal Lens ( http://arxiv.org/abs/2109.03890v7 )

ライセンス: Link先を確認
Gagan Biradar, Vignesh Viswanathan, Yair Zick(参考訳) ブラックボックスモデルの決定を説明することは、信頼できるMLの研究における中心的なテーマである。 文献には数多くの尺度が提案されているが、因果的説明可能性に対する公理的なアプローチを採る者はいない。 そこで本研究では,すべての原因(必要かつ十分な説明)の集合を特徴重みに集約する3つの説明尺度を提案する。 最初の尺度はチョックラーとハルパーンの因果責任の概念の自然な適応であり、他の2つは既存のゲーム理論の影響尺度に対応している。 提案する指標を公理的に処理し,望ましい性質のセットで一意に特徴付けることができることを示した。 我々はまた、ブラックボックスモデル説明のためのShapley-ShubikとBanzhafの指標を計算するための新しい方法の導出にもアプローチを拡張した。 最後に,本研究で提案するすべての説明手法の必要性と満足度について,成人所得者データセットを用いて分析し,比較した。 したがって、私たちの研究は、モデル説明、ゲーム理論の影響、因果分析の間のギャップを正式に橋渡しする最初の方法です。

Explaining the decisions of black-box models is a central theme in the study of trustworthy ML. Numerous measures have been proposed in the literature; however, none of them take an axiomatic approach to causal explainability. In this work, we propose three explanation measures which aggregate the set of all but-for causes -- a necessary and sufficient explanation -- into feature importance weights. Our first measure is a natural adaptation of Chockler and Halpern's notion of causal responsibility, whereas the other two correspond to existing game-theoretic influence measures. We present an axiomatic treatment for our proposed indices, showing that they can be uniquely characterized by a set of desirable properties. We also extend our approach to derive a new method to compute the Shapley-Shubik and Banzhaf indices for black-box model explanations. Finally, we analyze and compare the necessity and sufficiency of all our proposed explanation measures in practice using the Adult-Income dataset. Thus, our work is the first to formally bridge the gap between model explanations, game-theoretic influence, and causal analysis.
翻訳日:2024-02-21 22:10:01 公開日:2024-02-16
# Meta Co-Training: 2つのビューは1より優れている

Meta Co-Training: Two Views are Better than One ( http://arxiv.org/abs/2311.18083v4 )

ライセンス: Link先を確認
Jay C. Rothenberger, Dimitrios I. Diochnos(参考訳) 多くの実用的なコンピュータビジョンシナリオでは、ラベルのないデータは豊富だが、ラベルは乏しく入手が難しい。 その結果,教師付き分類器の性能を高めるためにラベル付きデータを活用した半教師付き学習が近年注目されている。 半教師付きアルゴリズムの主要なクラスはコトレーニングである。 共同トレーニングでは、2つの異なるモデルが異なる独立性と十分なデータ"ビュー"を活用して、より優れた予測を行う。 共トレーニングの間、各モデルは他のモデルを改善するために使用されるラベルのない点に擬似ラベルを作成する。 独立ビューが利用できない一般的なケースでは、事前学習したモデルを使って安価にビューを構築することができる。 構築されたビューを共同トレーニングすることで、構築した個々のビューよりもパフォーマンスが向上し、セミ教師付き学習のアプローチに匹敵するパフォーマンスになりますが、望ましくない特性がいくつかあります。 共同学習に伴う問題を軽減するため,Meta Pseudo Labels アプローチの拡張である Meta Co-Training を2つの視点で紹介する。 提案手法は,ImageNet-10%において,トレーニングリソースの少ない新たな最先端性能を実現するとともに,他の細粒度画像分類データセットに対する半教師付き作業よりも優れる。

In many practical computer vision scenarios unlabeled data is plentiful, but labels are scarce and difficult to obtain. As a result, semi-supervised learning which leverages unlabeled data to boost the performance of supervised classifiers have received significant attention in recent literature. One major class of semi-supervised algorithms is co-training. In co-training two different models leverage different independent and sufficient "views" of the data to jointly make better predictions. During co-training each model creates pseudo labels on unlabeled points which are used to improve the other model. We show that in the common case when independent views are not available we can construct such views inexpensively using pre-trained models. Co-training on the constructed views yields a performance improvement over any of the individual views we construct and performance comparable with recent approaches in semi-supervised learning, but has some undesirable properties. To alleviate the issues present with co-training we present Meta Co-Training which is an extension of the successful Meta Pseudo Labels approach to two views. Our method achieves new state-of-the-art performance on ImageNet-10% with very few training resources, as well as outperforming prior semi-supervised work on several other fine-grained image classification datasets.
翻訳日:2024-02-21 20:17:35 公開日:2024-02-16
# 天体物理モンテカルロシミュレーションにおけるGANの利用に向けて

Toward using GANs in astrophysical Monte-Carlo simulations ( http://arxiv.org/abs/2402.12396v1 )

ライセンス: Link先を確認
Ahab Isaac, Wesley Armour, Karel Ad\'amek(参考訳) X線源によるスペクトルの正確なモデリングにはモンテカルロシミュレーションを用いる必要がある。 これらのシミュレーションは、様々な確率分布をサンプリングすることで、コンパクトな物体の降着過程で発生するような物理過程を評価する必要がある。 これは計算に時間がかかり、もしニューラルネットワークに置き換えられたらスピードアップできる。 我々は、相対論的電子の速度を記述するMaxwell-J\"uttner分布の例において、生成逆数ネットワーク(GAN)が分布を統計的に複製できることを示す。 コルモゴロフ・スミルノフ実験の平均値は、ニューラルネットワークによって生成されたサンプルに対して0.5であり、生成された分布が真の分布と区別できないことを示す。

Accurate modelling of spectra produced by X-ray sources requires the use of Monte-Carlo simulations. These simulations need to evaluate physical processes, such as those occurring in accretion processes around compact objects by sampling a number of different probability distributions. This is computationally time-consuming and could be sped up if replaced by neural networks. We demonstrate, on an example of the Maxwell-J\"uttner distribution that describes the speed of relativistic electrons, that the generative adversarial network (GAN) is capable of statistically replicating the distribution. The average value of the Kolmogorov-Smirnov test is 0.5 for samples generated by the neural network, showing that the generated distribution cannot be distinguished from the true distribution.
翻訳日:2024-02-21 19:03:35 公開日:2024-02-16
# バイオマーカーを用いたモデルの解釈性と信頼性の向上

Improving Model's Interpretability and Reliability using Biomarkers ( http://arxiv.org/abs/2402.12394v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare, Tom Fox, Beam Chansangavej, Amita Krishnan, Ricardo Luis Rodriguez, Bennett P deBoisblanc, Deva Kannan Ramanan, John Michael Galeotti(参考訳) 正確な診断モデルと解釈可能な診断モデルは、医療の安全性に重要な分野である。 提案するバイオマーカーを用いた肺超音波診断パイプラインの解釈可能性を調査し,臨床医の診断能力を高める。 本研究の目的は,バイオマーカーを用いた決定木分類器による説明が,従来のサリエンシマップと比較して不正確なモデル予測を識別する能力を向上させるかどうかを評価することである。 臨床で確立されたバイオマーカーに基づく決定木説明は臨床医の偽陽性の検出を補助し,医療における診断モデルの信頼性を向上させる。

Accurate and interpretable diagnostic models are crucial in the safety-critical field of medicine. We investigate the interpretability of our proposed biomarker-based lung ultrasound diagnostic pipeline to enhance clinicians' diagnostic capabilities. The objective of this study is to assess whether explanations from a decision tree classifier, utilizing biomarkers, can improve users' ability to identify inaccurate model predictions compared to conventional saliency maps. Our findings demonstrate that decision tree explanations, based on clinically established biomarkers, can assist clinicians in detecting false positives, thus improving the reliability of diagnostic models in medicine.
翻訳日:2024-02-21 19:03:25 公開日:2024-02-16
# 計画と学習によるゲームテストの自動化について

On Automating Video Game Testing by Planning and Learning ( http://arxiv.org/abs/2402.12393v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Balyo, G. Michael Youngblood, Filip Dvo\v{r}\'ak, Roman Bart\'ak(参考訳) 本稿では,自動計画と計画行動モデル学習技術を用いて,特定のゲーム面のテストを自動化する手法とワークフローを提案する。 基本的な考え方は、詳細なゲームプレイログを生成し、アクションモデル学習を適用して、計画ドメイン記述言語(PDDL)の形式モデルを取得することである。 このワークフローは、PDDLや他の形式システムの経験のないゲーム開発者と、PDDLモデリングの経験があるがゲーム開発スキルがない人の効率的な協力を可能にする。 本手法とワークフローを概説し,一般的なゲーム開発エンジンであるUnityのチュートリアルプロジェクトのひとつとして提供される,シンプルなロールプレイングゲームである概念実証(concept proof-of-concept)の例で実演する。 本稿では,ワークフローにおけるモデリングエキスパートの必要性を最小化し,さらには排除する第一歩を提案する。

In this paper, we propose a method and workflow for automating the testing of certain video game aspects using automated planning and planning action model learning techniques. The basic idea is to generate detailed gameplay logs and apply action model learning to obtain a formal model in the planning domain description language (PDDL). The workflow enables efficient cooperation of game developers without any experience with PDDL or other formal systems and a person experienced with PDDL modeling but no game development skills. We describe the method and workflow in general and then demonstrate it on a concrete proof-of-concept example -- a simple role-playing game provided as one of the tutorial projects in the popular game development engine Unity. This paper presents the first step towards minimizing or even eliminating the need for a modeling expert in the workflow, thus making automated planning accessible to a broader audience.
翻訳日:2024-02-21 19:03:14 公開日:2024-02-16
# Covid-19パンデミックが公共交通機関に対する影響を理解するための回帰混合モデル

A Regression Mixture Model to understand the effect of the Covid-19 pandemic on Public Transport Ridership ( http://arxiv.org/abs/2402.12392v1 )

ライセンス: Link先を確認
Hugues Moreau, \'Etienne C\^ome, Allou Sam\'e, Latifa Oukhellou(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、政府のロックダウンによるパンデミックの最盛期にも、在宅勤務政策の導入によっても、都市移動を大きく変えた。 鉄道公共交通機関の乗務員への影響を理解するために,公共交通局のクラスタリングと時間帯の分割を両立できる専用回帰混合モデルを提案し,公式のロックダウンや非作業日などの追加変数による変動を無視する。 したがって、各クラスタは、外生変数の効果が定数である一連のセグメントによって定義される。 クラスタ内の各セグメントは、共変量の影響をモデル化する独自の回帰係数を持つので、これらの係数がどのように進化してクラスタの変化を理解するかを分析する。 シミュレーションデータと実データの両方においてモデルの有効性を示す前に,emアルゴリズムを用いた回帰混合モデルとパラメータ推定を提案する。 パリ公共交通システム(paris public transport system)における5年間の乗車率データセットのおかげで、旅行者数だけでなく毎週の通勤にも、パンデミックの影響を分析できる。 さらに,各クラスタ内で発生したパンデミックの具体的変化についても分析する。

The Covid-19 pandemic drastically changed urban mobility, both during the height of the pandemic with government lockdowns, but also in the longer term with the adoption of working-from-home policies. To understand its effects on rail public transport ridership, we propose a dedicated Regression Mixture Model able to perform both the clustering of public transport stations and the segmentation of time periods, while ignoring variations due to additional variables such as the official lockdowns or non-working days. Each cluster is thus defined by a series of segments in which the effect of the exogenous variables is constant. As each segment within a cluster has its own regression coefficients to model the impact of the covariates, we analyze how these coefficients evolve to understand the changes in the cluster. We present the regression mixture model and the parameter estimation using the EM algorithm, before demonstrating the benefits of the model on both simulated and real data. Thanks to a five-year dataset of the ridership in the Paris public transport system, we analyze the impact of the pandemic, not only in terms of the number of travelers but also on the weekly commute. We further analyze the specific changes that the pandemic caused inside each cluster.
翻訳日:2024-02-21 19:02:59 公開日:2024-02-16
# 近似電子表面の分子動力学を加速する多体波動関数の補間

Interpolating many-body wave functions for accelerated molecular dynamics on near-exact electronic surfaces ( http://arxiv.org/abs/2402.11097v1 )

ライセンス: Link先を確認
Yannic Rath and George H. Booth(参考訳) 強相関分子系と機械学習加速分子動力学の計算プローブの開発は数多く行われているが、それらの能力の間には大きなギャップが残っており、原子が移動する時間スケールよりも正確な電子構造を記述する必要がある。 化学空間を通じて相関多電子状態を補間し、これらの基礎状態の指数関数的複雑さを回避し、これらの分野を橋渡しする実践的なアプローチを述べる。 トレーニングセットとしての精度の高い相関波動関数の計算は少ないが、有効多体波動関数の伝播と全ての点におけるその変動エネルギーの推算を伴い、平均場計算のスケーリングを維持しながら、後続の動力学のための近似ポテンシャル曲面への証明可能な収束を示す。 これは、確立された機械学習アプローチにおいて、化学空間を通じた性質の直接補間とは大きく異なるパラダイムを表している。 ローカルディスクリプタに頼らずに、同じモデルから興味のあるすべての電子的特性にアクセスでき、エネルギー自体の直接トレーニングよりもパフォーマンスが向上する。 我々はこれを、Zundelカチオン軌道のプロトンダイナミクスを含む多くの相関電子問題に対する分子動力学を解くために、体系的に改善可能な現代的な電子構造法と組み合わせ、従来の機械学習による質的改善や平均場面上のアブイニシアトダイナミクスを強調する。

While there have been many developments in computational probes of both strongly-correlated molecular systems and machine-learning accelerated molecular dynamics, there remains a significant gap in capabilities between them, where it is necessary to describe the accurate electronic structure over timescales in which atoms move. We describe a practical approach to bridge these fields by interpolating the correlated many-electron state through chemical space, whilst avoiding the exponential complexity of these underlying states. With a small number of accurate correlated wave function calculations as a training set, we demonstrate provable convergence to near-exact potential energy surfaces for subsequent dynamics with propagation of a valid many-body wave function and inference of its variational energy at all points, whilst retaining a mean-field computational scaling. This represents a profoundly different paradigm to the direct interpolation of properties through chemical space in established machine-learning approaches. It benefits from access to all electronic properties of interest from the same model without relying on local descriptors, and demonstrates improved performance compared to the direct training on energies themselves. We combine this with modern systematically-improvable electronic structure methods to resolve the molecular dynamics for a number of correlated electron problems, including the proton dynamics of a Zundel cation trajectory, where we highlight the qualitative improvement from traditional machine learning or ab initio dynamics on mean-field surfaces.
翻訳日:2024-02-21 19:02:19 公開日:2024-02-16
# 量子ウォークとcmv行列に対する反射による境界状態の欠如

Absence of Bound States for Quantum Walks and CMV Matrices via Reflections ( http://arxiv.org/abs/2402.11024v1 )

ライセンス: Link先を確認
Christopher Cedzich and Jake Fillman(参考訳) 我々は、ジミルスカヤ-シモンの精神における反射対称性に基づく基準を与え、(スプリットステップ)量子ウォークとカンテロ-モラル-ベラスケス(CMV)行列の点スペクトルの欠如を示す。 これを実現するために、著者とその協力者による最近の論文のアイデアを用いて、そのような演算子に適した反射対称性を実装する。 いくつかの応用がある。 例えば、ユニタリなほぼマチュー作用素の位相における算術的非局在化とトゥエ=モース部分シフトによって生成されるジェネリックcmv行列の特異連続スペクトルを推定する。

We give a criterion based on reflection symmetries in the spirit of Jitomirskaya--Simon to show absence of point spectrum for (split-step) quantum walks and Cantero--Moral--Vel\'azquez (CMV) matrices. To accomplish this, we use some ideas from a recent paper by the authors and their collaborators to implement suitable reflection symmetries for such operators. We give several applications. For instance, we deduce arithmetic delocalization in the phase for the unitary almost-Mathieu operator and singular continuous spectrum for generic CMV matrices generated by the Thue--Morse subshift.
翻訳日:2024-02-21 19:01:52 公開日:2024-02-16
# 準局所代数のDHR双加群と対称量子セルオートマトン

DHR bimodules of quasi-local algebras and symmetric quantum cellular automata ( http://arxiv.org/abs/2304.00068v3 )

ライセンス: Link先を確認
Corey Jones(参考訳) 離散距離空間上の C*-代数のネットに対して、DHRテンソル圏の双加群バージョンを導入し、有界な拡散を持つ同型な準局所代数の不変性を示す。 格子 $L\subseteq \mathbb{R}^{n}$ 上の抽象スピン系は、ハーグ双対性の弱いバージョンを満たすため、これらの圏のブレイディングを構成する。 一般理論を(圏)対称性の下での格子不変量上の作用素の$A$に応用すると、対称量子セルオートマトン(QCA)の群から、カーネル内の対称有限深さ回路を含む$\textbf{Aut}_{br}(\textbf{DHR}(A))$への準同型が得られる。 融合圏対称性 $\mathcal{D}$ を持つスピン鎖に対して、対称作用素の準局所代数の DHR 圏はドリンフェルト中心 $\mathcal{Z}(\mathcal{D})$ と同値であることを示す。 これは、二重スピンフリップ作用 $\mathbb{Z}/2\mathbb{Z}\times \mathbb{Z}/2\mathbb{Z}\curvearrowright \mathbb{C}^{2}\otimes \mathbb{C}^{2}$ に対して、1D における対称 QCA 変調対称有限深さ回路の群が$S_{3}$ のコピーを含んでいることを示し、したがって対称性のない場合とは対照的に非アーベルである。

For a net of C*-algebras on a discrete metric space, we introduce a bimodule version of the DHR tensor category and show it is an invariant of quasi-local algebras under isomorphisms with bounded spread. For abstract spin systems on a lattice $L\subseteq \mathbb{R}^{n}$ satisfying a weak version of Haag duality, we construct a braiding on these categories. Applying the general theory to quasi-local algebras $A$ of operators on a lattice invariant under a (categorical) symmetry, we obtain a homomorphism from the group of symmetric quantum cellular automata (QCA) to $\textbf{Aut}_{br}(\textbf{DHR}(A))$, containing symmetric finite depth circuits in the kernel. For a spin chain with fusion categorical symmetry $\mathcal{D}$, we show the DHR category of the quasi-local algebra of symmetric operators is equivalent to the Drinfeld center $\mathcal{Z}(\mathcal{D})$ . We use this to show that for the double spin flip action $\mathbb{Z}/2\mathbb{Z}\times \mathbb{Z}/2\mathbb{Z}\curvearrowright \mathbb{C}^{2}\otimes \mathbb{C}^{2}$, the group of symmetric QCA modulo symmetric finite depth circuits in 1D contains a copy of $S_{3}$, hence is non-abelian, in contrast to the case with no symmetry.
翻訳日:2024-02-21 07:25:35 公開日:2024-02-16
# マルコフ鎖の距離とその分化

Distances for Markov Chains, and Their Differentiation ( http://arxiv.org/abs/2302.08621v2 )

ライセンス: Link先を確認
Tristan Brug\`ere, Zhengchao Wan and Yusu Wang(参考訳) ノード属性を持つ(直接)グラフは、様々なアプリケーションで一般的なタイプのデータであり、それを比較するためのメトリクスや効率的なアルゴリズムの開発には膨大な文献がある。 近年、グラフ学習と最適化のコミュニティでは、最適なトランスポート(ot)やweisfeiler-lehman(wl)グラフ同型テストのようなアイデアを活用して、グラフとノード属性を比較するための新しいアプローチが開発されている。 2つの最先端の代表者は(O'Connor et al., 2022)で提案されたOCC距離と(Chen et al., 2022)WL距離である。 興味深いことに、これらの2つの距離は異なるアイデアに基づいて開発されているが、グラフをマルコフ連鎖とみなし、深く結びついている。 実際,本論文では,OTC と WL の両方を包含する Optimal Transport Markov (OTM) 距離と呼ばれるマルコフ連鎖(ノード属性を持つ(直接)グラフを含む)距離を生成する統一的なフレームワークを提案する。 さらに,OTMフレームワーク内に,ディスカウントWL距離と呼ばれる,特別な1パラメータ距離ファミリを導入する。 割引されたWL距離は理論的性質に優れており,既存のOTCおよびWL距離のいくつかの制限に対処できることを示す。 さらに,OTCとWL距離とは対照的に,新しい割引されたWL距離はシンクホーン距離と同様のエントロピー規則化後に区別することができ,例えばグラフ生成モデルにおける再構成損失として,学習フレームワークでの使用に適している。

(Directed) graphs with node attributes are a common type of data in various applications and there is a vast literature on developing metrics and efficient algorithms for comparing them. Recently, in the graph learning and optimization communities, a range of new approaches have been developed for comparing graphs with node attributes, leveraging ideas such as the Optimal Transport (OT) and the Weisfeiler-Lehman (WL) graph isomorphism test. Two state-of-the-art representatives are the OTC distance proposed in (O'Connor et al., 2022) and the WL distance in (Chen et al., 2022). Interestingly, while these two distances are developed based on different ideas, we observe that they both view graphs as Markov chains, and are deeply connected. Indeed, in this paper, we propose a unified framework to generate distances for Markov chains (thus including (directed) graphs with node attributes), which we call the Optimal Transport Markov (OTM) distances, that encompass both the OTC and the WL distances. We further introduce a special one-parameter family of distances within our OTM framework, called the discounted WL distance. We show that the discounted WL distance has nice theoretical properties and can address several limitations of the existing OTC and WL distances. Furthermore, contrary to the OTC and the WL distances, our new discounted WL distance can be differentiated after a entropy-regularization similar to the Sinkhorn distance, making it suitable to use in learning frameworks, e.g., as the reconstruction loss in a graph generative model.
翻訳日:2024-02-21 07:23:24 公開日:2024-02-16
# 複数の例外点を囲むトポロジーの解法

Resolving the topology of encircling multiple exceptional points ( http://arxiv.org/abs/2304.03207v2 )

ライセンス: Link先を確認
Chitres Guria, Qi Zhong, Sahin K. Ozdemir, Yogesh S. S. Patil, Ramy El-Ganainy, Jack G. E. Harris(参考訳) 非ヘルミティシティは、従来の手法では達成できない方法で結合モードシステムを制御する新しいパラダイムとして登場した。 最近注目されているこの制御の1つの側面は、例外点(EP)を取り巻くことである。 これまで、ほとんどの研究は2つの制御パラメータで調整され、独立したEPを持つ2つのモードからなるシステムに焦点を当ててきた。 これらのシステムはEPを囲むエキゾチックな特徴を示すが、よりリッチな挙動は2モード以上のシステムで起こることが示されている。 このようなシステムは2つ以上の制御パラメータで調整することができ、結び目のような構造を形成するEPを含む。 この構造を囲む制御ループは、システムの固有値を非可換ブレイドを追跡させる。 ここでは2つの制御パラメータを持つ3モードシステムというハイブリッドシナリオについて考察する。 制御ループとトポロジの関係を,全次元および2次元のパラメータ空間で記述する。 制御パラメータを高精細な光学キャビティとの光力学的相互作用により提供した3モードメカニカルシステムを用いて,この関係を実験的に実証する。

Non-Hermiticity has emerged as a new paradigm for controlling coupled-mode systems in ways that cannot be achieved with conventional techniques. One aspect of this control that has received considerable attention recently is the encircling of exceptional points (EPs). To date, most work has focused on systems consisting of two modes that are tuned by two control parameters and have isolated EPs. While these systems exhibit exotic features related to EP encircling, it has been shown that richer behavior occurs in systems with more than two modes. Such systems can be tuned by more than two control parameters, and contain EPs that form a knot-like structure. Control loops that encircle this structure cause the system's eigenvalues to trace out non-commutative braids. Here we consider a hybrid scenario: a three-mode system with just two control parameters. We describe the relationship between control loops and their topology in the full and two-dimensional parameter space. We demonstrate this relationship experimentally using a three-mode mechanical system in which the control parameters are provided by optomechanical interaction with a high-finesse optical cavity.
翻訳日:2024-02-21 07:11:48 公開日:2024-02-16
# 多様体学習におけるno-collision transportation mapsの応用

Applications of No-Collision Transportation Maps in Manifold Learning ( http://arxiv.org/abs/2304.00199v4 )

ライセンス: Link先を確認
Elisa Negrini and Levon Nurbekyan(参考訳) 本研究では,[Nurbekyan et. al., 2020]で導入された非衝突輸送マップの画像データの多様体学習への応用について検討する。 近年,移動や変形などの現象を表すデータに対して,移動距離や特徴を応用する動きが急増している。 実際、固定位置での強度を比較することは、しばしばデータ構造を明らかにしない。 no-collision map and distances in (nurbekyan et. al., 2020) は最適輸送 (ot) マップに似た幾何学的特徴に敏感であるが、最適化の欠如により計算が容易である。 本研究では,非衝突距離が単一確率測度の変換(相対的拡張)とユークリッド距離を備えた変換(相対的拡張)ベクトルとの間の等距離を与えることを示す。 さらに、非衝突輸送写像とOTおよび線形化OT写像が一般に回転の等尺性を提供していないことを証明した。 数値実験により,非衝突距離は計算コストのごく一部で他のot法やユークリッド法と比較して,いくつかの多様体学習タスクにおいて類似あるいは良好な性能が得られることが示された。

In this work, we investigate applications of no-collision transportation maps introduced in [Nurbekyan et. al., 2020] in manifold learning for image data. Recently, there has been a surge in applying transportation-based distances and features for data representing motion-like or deformation-like phenomena. Indeed, comparing intensities at fixed locations often does not reveal the data structure. No-collision maps and distances developed in [Nurbekyan et. al., 2020] are sensitive to geometric features similar to optimal transportation (OT) maps but much cheaper to compute due to the absence of optimization. In this work, we prove that no-collision distances provide an isometry between translations (respectively dilations) of a single probability measure and the translation (respectively dilation) vectors equipped with a Euclidean distance. Furthermore, we prove that no-collision transportation maps, as well as OT and linearized OT maps, do not in general provide an isometry for rotations. The numerical experiments confirm our theoretical findings and show that no-collision distances achieve similar or better performance on several manifold learning tasks compared to other OT and Euclidean-based methods at a fraction of a computational cost.
翻訳日:2024-02-21 07:11:00 公開日:2024-02-16
# KPEval: 微粒化セマンティックなキーワード評価を目指して

KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation ( http://arxiv.org/abs/2303.15422v3 )

ライセンス: Link先を確認
Di Wu, Da Yin, Kai-Wei Chang(参考訳) キーフラーゼ抽出法やキーフラーゼ生成法の大幅な進歩にもかかわらず、評価の主なアプローチは、主に人間の参照との正確なマッチングに依存している。 このスキームは、実用性を持つ参照や多様なキーフレーズと意味的に等価なキーフレーズを生成するシステムを認識するのに失敗する。 キーフレーズシステムの能力を評価するため,我々は,参照合意,忠実性,多様性,実用性という4つの重要な側面からなる総合評価フレームワークであるkpevalを提案する。 それぞれの側面について,評価目標を反映したセマンティックベースのメトリクスを設計する。 メタ評価研究により,評価戦略と人間の嗜好の相関が,従来提案されていた指標よりも高いことが示された。 KPEvalを用いて、21のキーフレーズシステムを再評価し、(1)参照なし評価を考慮した場合、確立されたモデル比較結果が盲点であること、(2)大きな言語モデルが事前評価作業によって過小評価されていること、(3)全ての面において優れたモデルが存在しないことを明らかにする。

Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation mainly relies on exact matching with human references. This scheme fails to recognize systems that generate keyphrases semantically equivalent to the references or diverse keyphrases that carry practical utility. To better assess the capability of keyphrase systems, we propose KPEval, a comprehensive evaluation framework consisting of four critical aspects: reference agreement, faithfulness, diversity, and utility. For each aspect, we design semantic-based metrics to reflect the evaluation objectives. Meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously proposed metrics. Using KPEval, we re-evaluate 21 keyphrase systems and discover that (1) established model comparison results have blind-spots especially when considering reference-free evaluation; (2) large language models are underestimated by prior evaluation works; and (3) there is no single best model that can excel in all the aspects.
翻訳日:2024-02-21 07:10:36 公開日:2024-02-16
# AIによる大規模コードオーサリング: 微調整、デプロイ、混合メソッドの評価

AI-assisted Code Authoring at Scale: Fine-tuning, deploying, and mixed methods evaluation ( http://arxiv.org/abs/2305.12050v2 )

ライセンス: Link先を確認
Vijayaraghavan Murali, Chandra Maddila, Imad Ahmad, Michael Bolin, Daniel Cheng, Negar Ghorbani, Renuka Fernandez, Nachiappan Nagappan, Peter C. Rigby(参考訳) 生成LDMは、コードオーサリング中に、ステートメント全体やコードのブロックを推奨できるAIベースのコードオーサリングツールを効果的に活用することが示されている。 本稿では,Metaで開発されたAI支援コードオーサリングツールであるCodeComposeを紹介する。 CodeComposeは、生成能力を双方向にマージするInCoder LLMに基づいている。 CodeComposeをスケールアップしてMetaの何万人もの開発者、9つのプログラミング言語といくつかのコーディングサーフェスに提供しました。 これらの課題に対処するCodeComposeのモデルとシステムアーキテクチャについて設計決定を行う経験を提示する。 このスケールでLLMモデルをリリースするには、まず十分に正確であることを確かめる必要があった。 20Kのソースコードファイルのランダムなサンプルでは、言語によっては、40%から58%の時間で隠れた行を再現することができ、公開データのみに基づいてトレーニングされたモデルに対して1.4倍と4.1倍の改善が可能である。 CodeComposeを開発者向けに徐々にロールアウトしました。 この記事の執筆時点では、16Kの開発者がコードのうち8%をCodeComposeから直接利用している。 数値的な結果を三角測量するために,70人の開発者からのフィードバックをテーマとして分析した。 フィードバックの91.5%は肯定的であり、最も一般的なテーマはapiの発見、定型コードへの対処、コーディングの高速化である。 MetaはこのフィードバックをCodeComposeに統合し続けている。

Generative LLMs have been shown to effectively power AI-based code authoring tools that can suggest entire statements or blocks of code during code authoring. In this paper we present CodeCompose, an AI-assisted code authoring tool developed and deployed at Meta internally. CodeCompose is based on the InCoder LLM that merges generative capabilities with bi-directionality. We have scaled up CodeCompose to serve tens of thousands of developers at Meta, across 9 programming languages and several coding surfaces. We present our experience in making design decisions about the model and system architecture for CodeCompose that addresses these challenges. To release a LLM model at this scale, we needed to first ensure that it is sufficiently accurate. In a random sample of 20K source code files, depending on the language, we are able to reproduce hidden lines between 40% and 58% of the time, an improvement of 1.4x and 4.1x over a model trained only on public data. We gradually rolled CodeCompose out to developers. At the time of this writing, 16K developers have used it with 8% of their code coming directly from CodeCompose. To triangulate our numerical findings, we conduct a thematic analysis on the feedback from 70 developers. We find that 91.5% of the feedback is positive, with the most common themes being discovering APIs, dealing with boilerplate code, and accelerating coding. Meta continues to integrate this feedback into CodeCompose.
翻訳日:2024-02-21 06:59:44 公開日:2024-02-16
# 不公平の原因について--研修サンプルの視点から

On the Cause of Unfairness: A Training Sample Perspective ( http://arxiv.org/abs/2306.17828v2 )

ライセンス: Link先を確認
Yuanshun Yao, Yang Liu(参考訳) モデルの不公平性の原因を特定することは重要かつ比較的未解決なタスクである。 我々は、不公平な主要な情報源であるトレーニングデータのレンズを通してこの問題を考察する。 トレーニングサンプル(1)を異なる(人口統計学的)グループから収集した場合、(2)異なるラベルが付けられた場合、(3)特徴が修正された場合、モデル変更の不公平さはどのようなものか? 言い換えれば、事前定義された概念、すなわち特徴、ラベル、センシティブ属性などのデータ属性に基づいてサンプルを反実的に変更することで、トレーニングサンプルが不公平性に与える影響を定量化する。 我々のフレームワークは、観察された不公平さを理解し、トレーニングデータを修復することで軽減するだけでなく、誤ラベルの検出、不均衡表現の修正、公正な標的となる毒攻撃の検出など、他の多くの応用にも繋がる。

Identifying the causes of a model's unfairness is an important yet relatively unexplored task. We look into this problem through the lens of training data - the major source of unfairness. We ask the following questions: How would the unfairness of a model change if its training samples (1) were collected from a different (e.g. demographic) group, (2) were labeled differently, or (3) whose features were modified? In other words, we quantify the influence of training samples on unfairness by counterfactually changing samples based on predefined concepts, i.e. data attributes such as features, labels, and sensitive attributes. Our framework not only can help practitioners understand the observed unfairness and mitigate it by repairing their training data, but also leads to many other applications, e.g. detecting mislabeling, fixing imbalanced representations, and detecting fairness-targeted poisoning attacks.
翻訳日:2024-02-21 06:37:06 公開日:2024-02-16
# 小さな言語モデルはレコメンダとして役立つか? データ中心のコールドスタートレコメンデーションに向けて

Could Small Language Models Serve as Recommenders? Towards Data-centric Cold-start Recommendations ( http://arxiv.org/abs/2306.17256v4 )

ライセンス: Link先を確認
Xuansheng Wu, Huachi Zhou, Yucheng Shi, Wenlin Yao, Xiao Huang, Ninghao Liu(参考訳) レコメンデーションシステムは、ユーザが過去の行動に基づいて自分の興味にマッチする情報を見つけるのに役立つ。 しかし,システムコールドスタートレコメンデーションとして知られるスタートアップにとっては,歴史的ユーザとイテムの相互作用が欠如しているため,パーソナライズされたレコメンデーションの生成が困難になる。 現在の研究は、ユーザーまたはアイテムのコールドスタートシナリオに取り組むが、システムコールドスタートの解決策がない。 本稿ではまず,言語モデルの文脈内学習に基づくシンプルかつ効果的なアプローチであるPromptRecを提案し,ユーザとアイテムのプロファイルを含む自然言語上での感情分析タスクに推奨タスクを変換する。 しかし、このナイーブな戦略は、オンラインレコメンデーションの大きな遅延に悩まされる大きな言語モデルから生まれる、コンテキスト内学習能力に大きく依存していた。 このギャップを埋めるために,文脈内レコメンデーションと言語モデリングの関係を形式化する理論的枠組みを提案する。 そこで本研究では,(1)モデル事前学習のための洗練されたコーパスの構築,(2)プロンプト事前学習による分解されたプロンプトテンプレートの構築、からなる,データ中心のパイプラインによる小型言語モデルの拡張を提案する。 これらはそれぞれ、トレーニングデータと推論データの開発に対応する。 提案手法を評価するため,提案手法はコールドスタート推薦ベンチマークを導入し,拡張された小型言語モデルが推論時間の17%程度しか持たない大規模モデルに匹敵するコールドスタートレコメンデーション性能を達成できることを実証した。 私たちの知る限りでは、システムコールドスタートレコメンデーション問題に取り組む最初の研究である。 我々の発見は今後の研究に貴重な洞察をもたらすだろう。 ベンチマークと実装はhttps://github.com/JacksonWuxs/PromptRec.comで公開されている。

Recommendation systems help users find information that matches their interests based on their historical behaviors. However, generating personalized recommendations becomes challenging in the absence of historical user-item interactions, a practical problem for startups known as the system cold-start recommendation. Current research tackles user or item cold-start scenarios but lacks solutions for system cold-start. To tackle the problem, we initially propose PromptRec, a simple but effective approach based on in-context learning of language models, where we transform the recommendation task into the sentiment analysis task on natural language containing user and item profiles. However, this naive strategy heavily relied on the strong in-context learning ability emerged from large language models, which could suffer from significant latency for online recommendations. To fill this gap, we present a theoretical framework to formalize the connection between in-context recommendation and language modeling. Based on it, we propose to enhance small language models with a data-centric pipeline, which consists of: (1) constructing a refined corpus for model pre-training; (2) constructing a decomposed prompt template via prompt pre-training. They correspond to the development of training data and inference data, respectively. To evaluate our proposed method, we introduce a cold-start recommendation benchmark, and the results demonstrate that the enhanced small language models can achieve comparable cold-start recommendation performance to that of large models with only around 17% of their inference time. To the best of our knowledge, this is the first study to tackle the system cold-start recommendation problem. We believe our findings will provide valuable insights for future works. The benchmark and implementations are available at https://github.com/JacksonWuxs/PromptRec.
翻訳日:2024-02-21 06:36:50 公開日:2024-02-16
# 核デジタル双生児におけるセンサ配置の制約付き最適化

Constrained optimization of sensor placement for nuclear digital twins ( http://arxiv.org/abs/2306.13637v2 )

ライセンス: Link先を確認
Niharika Karnik, Mohammad G. Abdo, Carlos E. Estrada Perez, Jun Soo Yoo, Joshua J. Cogliati, Richard S. Skifton, Pattrick Calderoni, Steven L. Brunton, and Krithika Manohar(参考訳) 原子炉への広範囲なセンサーアレイの配備は、困難な運転条件と固有の空間制限のために不可能である。 センサを定義された空間制約内に戦略的に配置することは、原子炉の流れ場の再構築と核デジタルツインの生成に不可欠である。 センサ配置の最適化フレームワークに制約を組み込んだデータ駆動手法を開発し,ノイズセンサ計測による再構成誤差の最小化を主目的とする。 提案アルゴリズムは,センサ位置を高次元格子上に最適化し,ユーザ指定制約に適応する。 低次元力学系の全ての実現可能な構成を徹底的に計算することにより、最適化されたセンサの有効性を実証する。 提案手法を検証するため,本アルゴリズムをOPTI-TWIST(Out-of-Pile Testing and Instrumentation Transient Water Irradiation System)の試作カプセルに適用した。 このカプセルは、核燃料の中性子効果をエミュレートするために電気的に加熱される。 最終的にイダホ国立研究所(inl)の過渡的原子炉試験施設(treat)に挿入されるツイストのプロトタイプは、実用的なデモンストレーションとして機能する。 OPTI-TWIST内のセンサによる温度再構成は、最小限の誤差を示し、ノイズによる不確実性の確率的境界を提供し、デジタル双対と実験施設間の通信の基礎を確立する。

The deployment of extensive sensor arrays in nuclear reactors is infeasible due to challenging operating conditions and inherent spatial limitations. Strategically placing sensors within defined spatial constraints is essential for the reconstruction of reactor flow fields and the creation of nuclear digital twins. We develop a data-driven technique that incorporates constraints into an optimization framework for sensor placement, with the primary objective of minimizing reconstruction errors under noisy sensor measurements. The proposed greedy algorithm optimizes sensor locations over high-dimensional grids, adhering to user-specified constraints. We demonstrate the efficacy of optimized sensors by exhaustively computing all feasible configurations for a low-dimensional dynamical system. To validate our methodology, we apply the algorithm to the Out-of-Pile Testing and Instrumentation Transient Water Irradiation System (OPTI-TWIST) prototype capsule. This capsule is electrically heated to emulate the neutronics effect of the nuclear fuel. The TWIST prototype that will eventually be inserted in the Transient Reactor Test facility (TREAT) at the Idaho National Laboratory (INL), serves as a practical demonstration. The resulting sensor-based temperature reconstruction within OPTI-TWIST demonstrates minimized error, provides probabilistic bounds for noise-induced uncertainty, and establishes a foundation for communication between the digital twin and the experimental facility.
翻訳日:2024-02-21 06:35:31 公開日:2024-02-16
# qdoor: 量子ニューラルネットワークにおけるバックドア攻撃に対する近似合成の活用

QDoor: Exploiting Approximate Synthesis for Backdoor Attacks in Quantum Neural Networks ( http://arxiv.org/abs/2307.09529v2 )

ライセンス: Link先を確認
Cheng Chu and Fan Chen and Philip Richerme and Lei Jiang(参考訳) 量子ニューラルネットワーク(QNN)は、オブジェクト認識、自然言語処理、財務分析に成功している。 ノイズ中間スケール量子(NISQ)コンピュータ上でのQNNの精度を最大化するために、近似合成は、エラーを起こしやすい2ビット量子ゲートを低減してQNN回路を変更する。 QNNの成功は、敵がバックドアを介してQNNを攻撃する動機となっている。 しかし、古典的なニューラルネットワーク用に設計されたバックドアをqnnに移植すると、ノイズとnisqコンピュータの近似合成のため、攻撃成功率は低くなる。 以前の量子回路ベースのバックドアは、いくつかの入力を選択的に攻撃したり、QNN回路のあらゆるタイプの符号化レイヤで動作できない。 さらに、QNNにおいて、移植されたバックドアと回路ベースのバックドアの両方を検出することも容易である。 本稿では,未コンパイルQNNと合成QNNの統一的差異を武器として,ほぼ合成QNN回路において高い攻撃成功率を達成するための,新規でステルスなバックドア攻撃であるQDoorを提案する。 QDoorは、通常、トリガーなしで全ての入力に対してQNNの振る舞いを訓練する。 しかし、近似合成後、QNN回路は常に事前定義されたクラスへのトリガーを持つ任意の入力を予測し、通常、良性入力に対して作用する。 以前のバックドア攻撃と比較して、qdoorは攻撃成功率を13\times$、クリーンデータ精度を平均で65\%$改善している。 さらに,未コンパイルQNN回路におけるQDoor攻撃は検出できない。

Quantum neural networks (QNNs) succeed in object recognition, natural language processing, and financial analysis. To maximize the accuracy of a QNN on a Noisy Intermediate Scale Quantum (NISQ) computer, approximate synthesis modifies the QNN circuit by reducing error-prone 2-qubit quantum gates. The success of QNNs motivates adversaries to attack QNNs via backdoors. However, na\"ively transplanting backdoors designed for classical neural networks to QNNs yields only low attack success rate, due to the noises and approximate synthesis on NISQ computers. Prior quantum circuit-based backdoors cannot selectively attack some inputs or work with all types of encoding layers of a QNN circuit. Moreover, it is easy to detect both transplanted and circuit-based backdoors in a QNN. In this paper, we propose a novel and stealthy backdoor attack, QDoor, to achieve high attack success rate in approximately-synthesized QNN circuits by weaponizing unitary differences between uncompiled QNNs and their synthesized counterparts. QDoor trains a QNN behaving normally for all inputs with and without a trigger. However, after approximate synthesis, the QNN circuit always predicts any inputs with a trigger to a predefined class while still acts normally for benign inputs. Compared to prior backdoor attacks, QDoor improves the attack success rate by $13\times$ and the clean data accuracy by $65\%$ on average. Furthermore, prior backdoor detection techniques cannot find QDoor attacks in uncompiled QNN circuits.
翻訳日:2024-02-21 06:23:30 公開日:2024-02-16
# ランダムウォークからグラフスプリントへ:連続時間動的グラフ上の低遅延ノード埋め込みフレームワーク

From random-walks to graph-sprints: a low-latency node embedding framework on continuous-time dynamic graphs ( http://arxiv.org/abs/2307.08433v5 )

ライセンス: Link先を確認
Ahmad Naser Eddin, Jacopo Bono, David Apar\'icio, Hugo Ferreira, Jo\~ao Ascens\~ao, Pedro Ribeiro, Pedro Bizarro(参考訳) 多くの現実世界のデータセットは基盤となる動的グラフ構造を持ち、エンティティとその相互作用は時間とともに進化する。 機械学習モデルは、下流タスクにおける潜在能力を最大限活用するために、これらのダイナミクスを考慮すべきである。 グラフ表現学習における従来のアプローチは、幅優先探索のようなkホップ近傍のサンプリングや、深さ優先探索のようなランダムウォークに重点を置いていた。 しかし、これらの手法は計算コストが高く、動的グラフ上のリアルタイム低レイテンシ推論には適さない。 これらの制限を克服するため,我々は連続時間動的グラフ(CTDG)のための汎用的特徴抽出フレームワークとしてグラフプリントを提案し,レイテンシが低く,最先端の高レイテンシモデルと競合する。 これを実現するために,ランダムウォークに基づく特徴量に対する低レイテンシのストリーミング近似を提案する。 本フレームワークでは,マルチホップ情報を要約した時間認識ノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。 提案手法を3つのオープンソースデータセットと2つの社内データセットで評価し、3つの最先端アルゴリズム(TGN-attn,TGN-ID,Jodie)と比較した。 グラフプリント機能と機械学習分類器が組み合わさって、競合性能(ノード分類タスクのベースラインを5つのデータセットで上回る)を達成することを実証した。 同時に、グラフプリントは推論遅延を著しく減少させ、実験環境では桁違いのスピードアップを達成する。

Many real-world datasets have an underlying dynamic graph structure, where entities and their interactions evolve over time. Machine learning models should consider these dynamics in order to harness their full potential in downstream tasks. Previous approaches for graph representation learning have focused on either sampling k-hop neighborhoods, akin to breadth-first search, or random walks, akin to depth-first search. However, these methods are computationally expensive and unsuitable for real-time, low-latency inference on dynamic graphs. To overcome these limitations, we propose graph-sprints a general purpose feature extraction framework for continuous-time-dynamic-graphs (CTDGs) that has low latency and is competitive with state-of-the-art, higher latency models. To achieve this, a streaming, low latency approximation to the random-walk based features is proposed. In our framework, time-aware node embeddings summarizing multi-hop information are computed using only single-hop operations on the incoming edges. We evaluate our proposed approach on three open-source datasets and two in-house datasets, and compare with three state-of-the-art algorithms (TGN-attn, TGN-ID, Jodie). We demonstrate that our graph-sprints features, combined with a machine learning classifier, achieve competitive performance (outperforming all baselines for the node classification tasks in five datasets). Simultaneously, graph-sprints significantly reduce inference latencies, achieving close to an order of magnitude speed-up in our experimental setting.
翻訳日:2024-02-21 06:22:39 公開日:2024-02-16
# SINCERE: 情報ノイズコントラスト推定の再検討

SINCERE: Supervised Information Noise-Contrastive Estimation REvisited ( http://arxiv.org/abs/2309.14277v2 )

ライセンス: Link先を確認
Patrick Feeney and Michael C. Hughes(参考訳) information noise-contrastive estimation (infonce) loss functionは、その強い経験的結果と理論的動機から、多くの自己教師付きディープラーニング手法の基礎を提供する。 以前の研究は、利用可能なクラスラベルから学習するためのインフォデンスを拡張するために、教師付きコントラスト(supcon)損失を示唆している。 しかし、本研究では、事前の超越損失定式化は、同じクラスからのイメージを学習された埋め込み空間で互いに撃退することを奨励するので、疑わしい正当性を有することが分かる。 我々は,同じクラスの画像が互いに撃退されることを決して起こさない,理論的に正当化されたインフォデンス拡張として,教師付きインフォデンス再訪( duere)損失を提案する。 実験により、SINCEREは異なるクラスからの埋め込みをより分離し、教師付きおよび移動学習のための競争的分類精度を提供する。 さらに、SINCEREの損失と、対象クラスと他のクラスに対するデータ生成分布間の対称性付きKLのばらつきを関連付ける情報理論境界を示す。

The information noise-contrastive estimation (InfoNCE) loss function provides the basis of many self-supervised deep learning methods due to its strong empirical results and theoretic motivation. Previous work suggests a supervised contrastive (SupCon) loss to extend InfoNCE to learn from available class labels. However, in this work we find that the prior SupCon loss formulation has questionable justification because it can encourage some images from the same class to repel one another in the learned embedding space. We propose the Supervised InfoNCE REvisited (SINCERE) loss as a theoretically-justified supervised extension of InfoNCE that never causes images from the same class to repel one another. Experiments show that SINCERE leads to better separation of embeddings from different classes while delivering competitive classification accuracy for supervised and transfer learning. We further show an information-theoretic bound that relates SINCERE loss to the symmeterized KL divergence between data-generating distributions for a target class and all other classes.
翻訳日:2024-02-21 06:00:39 公開日:2024-02-16
# LLMにおけるサブトラー・バイアスの調査:世代モデルにおける年齢、美、制度、国籍バイアス

Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models ( http://arxiv.org/abs/2309.08902v2 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim(参考訳) LLMはますます強力になり、様々なタスクでユーザを支援するために広く利用されている。 この使用は、雇用、人事評価、刑事判決などの連続的な決定に対するLLMバイアスの導入を危険にさらしている。 性別や民族の線に沿ったNLPシステムのバイアスは、特に特定のステレオタイプ(例えばアジア人は数学が得意)について広く研究されている。 本稿では,LLMが社会集団と無関係な肯定的・否定的属性の間に生み出す微妙な相関決定を,年齢や美しさといった,研究の少ないものの連続的な側面に沿った偏見を考察する。 実験心理学において, LLMは「美しいものは良い」というような, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く有するか否かを問う。 本稿では,特定のソーシャルグループの一員として記述された人物について,最も適切な属性を選択するようにモデルに依頼する,文補完タスクのテンプレート生成データセットを提案する。 また、完了タスクを逆転して属性に基づいてソーシャルグループを選択する。 本研究は,4個の切削LDMの相関関係を報告する。 このデータセットは、より一般的なバイアスの進捗を評価するベンチマークとして使用することができ、テンプレート技術は、最小限の人間のアノテーションでベンチマークを拡張するために使用できる。

LLMs are increasingly powerful and widely used to assist users in a variety of tasks. This use risks the introduction of LLM biases to consequential decisions such as job hiring, human performance evaluation, and criminal sentencing. Bias in NLP systems along the lines of gender and ethnicity has been widely studied, especially for specific stereotypes (e.g., Asians are good at math). In this paper, we investigate bias along less-studied but still consequential, dimensions, such as age and beauty, measuring subtler correlated decisions that LLMs make between social groups and unrelated positive and negative attributes. We ask whether LLMs hold wide-reaching biases of positive or negative sentiment for specific social groups similar to the ``what is beautiful is good'' bias found in people in experimental psychology. We introduce a template-generated dataset of sentence completion tasks that asks the model to select the most appropriate attribute to complete an evaluative statement about a person described as a member of a specific social group. We also reverse the completion task to select the social group based on an attribute. We report the correlations that we find for 4 cutting-edge LLMs. This dataset can be used as a benchmark to evaluate progress in more generalized biases and the templating technique can be used to expand the benchmark with minimal additional human annotation.
翻訳日:2024-02-21 05:59:20 公開日:2024-02-16
# 言語モデルから命令追従へ:命令チューニング後のllmにおける振る舞いシフトの理解

From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning ( http://arxiv.org/abs/2310.00492v2 )

ライセンス: Link先を確認
Xuansheng Wu, Wenlin Yao, Jianshu Chen, Xiaoman Pan, Xiaoyang Wang, Ninghao Liu, Dong Yu(参考訳) 大規模言語モデル(llm)は大きな成功を収め、命令チューニングがllmをユーザの意図に合わせる上で重要なステップである。 本研究は,本質的な変化に着目した事前学習モデルの調整方法について検討する。 具体的には,まず,入力出力帰属のためのグラデーションベース手法や,セルフアテンション層やフィードフォワード層におけるパターンや概念を解釈する手法など,局所的および大域的な説明手法を考案した。 次に、事前学習モデルと命令調整モデルから導出される説明を比較して、命令チューニングの影響について検討する。 このアプローチは、人間の理解可能なレベルでのモデルシフトの内部的な視点を提供する。 私たちの発見は、命令チューニングの3つの重要な影響を示しています。 1) LLM にユーザプロンプトから命令部品を認識する権限を与え,ユーザインストラクションに常に調和した応答生成を促進する。 2) 指示動詞に関する単語関係をより多く捉えるために, 自己照会ヘッドを奨励する。 3)フィードフォワードネットワークは,事前学習した知識をユーザ指向のタスクに向けて回転させる。 これらの知見は、命令チューニングのより包括的な理解に寄与し、様々な用途にLLMを解釈し最適化することを目的とした将来の研究の基盤となる。

Large Language Models (LLMs) have achieved remarkable success, where instruction tuning is the critical step in aligning LLMs with user intentions. In this work, we investigate how the instruction tuning adjusts pre-trained models with a focus on intrinsic changes. Specifically, we first develop several local and global explanation methods, including a gradient-based method for input-output attribution and techniques for interpreting patterns and concepts in self-attention and feed-forward layers. The impact of instruction tuning is then studied by comparing the explanations derived from the pre-trained and instruction-tuned models. This approach provides an internal perspective of the model shifts on a human-comprehensible level. Our findings reveal three significant impacts of instruction tuning: 1) It empowers LLMs to recognize the instruction parts from user prompts, and promotes the response generation constantly conditioned on user instructions. 2) It encourages the self-attention heads to capture more word-word relationships about instruction verbs. 3) It encourages the feed-forward networks to rotate their pre-trained knowledge toward user-oriented tasks. These insights contribute to a more comprehensive understanding of instruction tuning and lay the groundwork for future work that aims at interpreting and optimizing LLMs for various applications.
翻訳日:2024-02-21 05:47:00 公開日:2024-02-16
# シーンインフォーマ:部分観測可能な環境におけるアンカーベースオクルージョン推論と軌道予測

Scene Informer: Anchor-based Occlusion Inference and Trajectory Prediction in Partially Observable Environments ( http://arxiv.org/abs/2309.13893v2 )

ライセンス: Link先を確認
Bernard Lange, Jiachen Li, and Mykel J. Kochenderfer(参考訳) 複雑でダイナミックな環境をナビゲートするには、可視領域と遮蔽領域の両方を判断する自律走行車(avs)が必要である。 これには、観測されたエージェントの将来の動きを予測し、隠蔽されたエージェントを推測し、部分観測可能な環境のベクトル化されたシーン表現に基づいて相互作用をモデル化することが含まれる。 しかし, 前者は簡易なラスタライズ法, 後者は完全な環境観測可能性を想定した, 排他的推測と軌道予測に関する先行研究が独立に展開されている。 我々は,観察対象の軌跡を予測し,観察可能な部分的設定でオクルージョンを推定するための統一的なアプローチであるScene Informerを紹介した。 トランスを使って様々な入力モダリティを集約し、AVの計画された経路と交差するオクルージョンの選択的なクエリを容易にする。 この枠組みは、占有確率を推定し、オクルージョンの軌道や観察されたエージェントの予測運動を推定する。 両ドメインの共通可観測性仮定とパフォーマンスへの影響について検討する。 提案手法は,Waymo Open Motion Datasetの観測可能な部分設定において,占有率予測と軌道予測の両方において既存の手法よりも優れる。

Navigating complex and dynamic environments requires autonomous vehicles (AVs) to reason about both visible and occluded regions. This involves predicting the future motion of observed agents, inferring occluded ones, and modeling their interactions based on vectorized scene representations of the partially observable environment. However, prior work on occlusion inference and trajectory prediction have developed in isolation, with the former based on simplified rasterized methods and the latter assuming full environment observability. We introduce the Scene Informer, a unified approach for predicting both observed agent trajectories and inferring occlusions in a partially observable setting. It uses a transformer to aggregate various input modalities and facilitate selective queries on occlusions that might intersect with the AV's planned path. The framework estimates occupancy probabilities and likely trajectories for occlusions, as well as forecast motion for observed agents. We explore common observability assumptions in both domains and their performance impact. Our approach outperforms existing methods in both occupancy prediction and trajectory prediction in partially observable setting on the Waymo Open Motion Dataset.
翻訳日:2024-02-21 05:45:46 公開日:2024-02-16
# エントロピーMCMC:平底盆地からの試料採取

Entropy-MCMC: Sampling from Flat Basins with Ease ( http://arxiv.org/abs/2310.05401v4 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang(参考訳) ベイズ深層学習は後方分布推定の質をカウントする。 しかし、ディープニューラルネットワークの後方は本質的に非常にマルチモーダルであり、局所モードは一般化性能が異なる。 実用的な予算が与えられると、元の後方を狙うことは、いくつかのサンプルが"悪い"モードに閉じ込められ、過剰なフィッティングに苦しむ可能性があるため、最適以下のパフォーマンスにつながる可能性がある。 一般化誤差の低い「良い」モードはエネルギーランドスケープの平坦な流域にしばしば存在するという観察を活かし、これらの平坦な領域の後方の偏差サンプリングを提案する。 具体的には,mcmcサンプラーを平らな盆地に導くために,シャープモードのない後方平滑化に類似した定常分布を補助誘導変数として導入する。 この導出変数をモデルパラメータと統合することにより、計算オーバーヘッドを最小限に抑えた効率的なサンプリングを可能にする単純な結合分布を作成する。 提案手法の収束性を証明し, 強凸条件下での既存の平坦性認識法よりも高速に収束することを示す。 実験により,本手法は後方の平らな盆地から試料を採取し,分類,校正,分布外検出など,複数のベンチマークで比較した基準線を上回った。

Bayesian deep learning counts on the quality of posterior distribution estimation. However, the posterior of deep neural networks is highly multi-modal in nature, with local modes exhibiting varying generalization performance. Given a practical budget, targeting at the original posterior can lead to suboptimal performance, as some samples may become trapped in "bad" modes and suffer from overfitting. Leveraging the observation that "good" modes with low generalization error often reside in flat basins of the energy landscape, we propose to bias sampling on the posterior toward these flat regions. Specifically, we introduce an auxiliary guiding variable, the stationary distribution of which resembles a smoothed posterior free from sharp modes, to lead the MCMC sampler to flat basins. By integrating this guiding variable with the model parameter, we create a simple joint distribution that enables efficient sampling with minimal computational overhead. We prove the convergence of our method and further show that it converges faster than several existing flatness-aware methods in the strongly convex setting. Empirical results demonstrate that our method can successfully sample from flat basins of the posterior, and outperforms all compared baselines on multiple benchmarks including classification, calibration, and out-of-distribution detection.
翻訳日:2024-02-21 05:36:03 公開日:2024-02-16
# Outlier Weighed Layerwise Sparsity (OWL) : LLMを高スパシティに加工するための秘密の欠如

Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity ( http://arxiv.org/abs/2310.05175v2 )

ライセンス: Link先を確認
Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia, Mykola Pechenizkiy, Yi Liang, Zhangyang Wang, Shiwei Liu(参考訳) 大規模言語モデル(llm)は、さまざまなドメインにまたがる優れたパフォーマンスで知られていますが、そのコロッサルモデルのサイズのため、実用的なデプロイメントでは課題があります。 この課題に対して、従来のネットワークプルーニング手法をLCMに適用することに向けた取り組みが行われ、パフォーマンスを損なうことなく一発でプルーニングできる膨大なパラメータが明らかになった。 一般的なLLMプルーニング戦略は、全ての層を同等の間隔で均一にプルーニングするプラクティスに一貫して従って、堅牢な性能を実現している。 しかしながら、この観察は、非一様層状空間が典型的により強い結果をもたらす視覚モデルで観測される一般的な傾向とは対照的である。 この相違の原因を理解するため、我々は総合的研究を行い、LSMにおけるアクティベーション・アウトリアの出現と強い相関関係を見出した。 この発見に触発されて,不均一層幅比(OWL, Outlier Weighed Layerwise sparsity, Outlier Weighed Layerwise sparsity, Outlier Weighed Layerwise sparsity, OWL)を調整したLLM刈り取り手法を導入した。 OWLの疎度比は各層で観測される外層比に比例し, 層間重量の疎度と外層比との配向がより効果的である。 LLaMA-V1ファミリーにまたがって実施した経験的評価と,様々なベンチマークにまたがるOPTは,OWLが従来手法よりも優れていることを示す。 例えばowlは、最先端のwandaとsparsegptを70%高いスパーシティレベルでそれぞれ61.22と6.80パープレキシティで上回り、deepsparse推論エンジンで2倍のエンドツーエンド推論スピードアップを提供するという、驚くべきパフォーマンス向上を示している。 コードはhttps://github.com/luuyin/owlで入手できる。

Large Language Models (LLMs), renowned for their remarkable performance across diverse domains, present a challenge when it comes to practical deployment due to their colossal model size. In response to this challenge, efforts have been directed toward the application of traditional network pruning techniques to LLMs, uncovering a massive number of parameters that can be pruned in one-shot without hurting performance. Prevailing LLM pruning strategies have consistently adhered to the practice of uniformly pruning all layers at equivalent sparsity, resulting in robust performance. However, this observation stands in contrast to the prevailing trends observed in the field of vision models, where non-uniform layerwise sparsity typically yields stronger results. To understand the underlying reasons for this disparity, we conduct a comprehensive study and discover a strong correlation with the emergence of activation outliers in LLMs. Inspired by this finding, we introduce a novel LLM pruning methodology that incorporates a tailored set of non-uniform layerwise sparsity ratios, termed as Outlier Weighed Layerwise sparsity (OWL). The sparsity ratio of OWL is proportional to the outlier ratio observed within each layer, facilitating a more effective alignment between layerwise weight sparsity and outlier ratios. Our empirical evaluation, conducted across the LLaMA-V1 family and OPT, spanning various benchmarks, demonstrates the distinct advantages offered by OWL over previous methods. For instance, OWL exhibits a remarkable performance gain, surpassing the state-of-the-art Wanda and SparseGPT by 61.22 and 6.80 perplexity at a high sparsity level of 70%, respectively, while delivering 2x end-to-end inference speed-up in the DeepSparse inference engine. Codes are available at https://github.com/luuyin/OWL.
翻訳日:2024-02-21 05:35:40 公開日:2024-02-16
# 量子エンハンスド実験における絡み合い遷移

Entanglement transitions in quantum-enhanced experiments ( http://arxiv.org/abs/2310.03061v2 )

ライセンス: Link先を確認
Shane P. Kelly and Jamir Marino(参考訳) 関心のシステムから情報を伝達し、量子コンピュータで処理する量子強化実験は、従来の古典的な実験よりも、標本化作業において指数関数的に有利になる可能性があり、射影的または弱い測定結果のみを古典的なコンピュータに格納する。 本研究では,古典的実験で発生する測定誘起相転移-(mipt)と同様に,量子エンハンシング実験が絡み合い相転移を示すことも示す。 本研究では,2つの量子ビットに対してそれぞれ独立に動作し,一方の量子ビットの量子状態を計測装置に記録し,他方の量子ビットの量子状態を環境に消去する雑音伝達演算を導入する。 次に,雑音伝達の速度によって調整された絡み合い遷移を示すランダムなブロックワーク回路を構築する。 雑音伝達の臨界速度以下では、システムと装置の領域間で広範囲の絡み合いが発生するが、臨界速度を超えると、絡み合いは領域法のスケーリングを満足する。 本研究は,量子エンハンセンシングと創発的エンタングルメント現象をつなぐ基礎的枠組みを確立するために,量子エンハンセンシング実験の幅広いスペクトルの前提条件を明らかにする。

A quantum-enhanced experiment, in which information is transduced from a system of interest and processed on a quantum computer, has the possibility of exponential advantage in sampling tasks over a traditional classical experiment, where only the measurement outcomes of projective or weak measurements are stored on a classical computer. In this work, we demonstrate that, similar to the measurement induced phase transition~(MIPT) occurring in classical experiments, quantum-enhanced experiments can also show entanglement phase transitions. We introduce a noisy transduction operation which replaces projective measurements and acts independently on two qubits, recording the quantum state of one qubit in the measurement apparatus, while erasing the quantum state of the other qubit with the environment. We then construct a random brickwork circuit which shows an entanglement transition tuned by the rate of noisy transduction operations. Below the critical rate of noisy transduction, an extensive amount of entanglement is generated between regions of the system and apparatus, while above the critical rate, entanglement satisfies area law scaling. Our work delineates the prerequisites for a broad spectrum of quantum-enhanced experiments to manifest entanglement transitions, thereby establishing a foundational framework that connects quantum-enhanced sensing with emergent entanglement phenomena.
翻訳日:2024-02-21 05:34:07 公開日:2024-02-16
# LLMにおける下流作業の「難易度」を不可逆かつ単調に損なう小型プレトレーニングウェイト

Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs "Difficult" Downstream Tasks in LLMs ( http://arxiv.org/abs/2310.02277v2 )

ライセンス: Link先を確認
Lu Yin, Ajay Jaiswal, Shiwei Liu, Souvik Kundu, Zhangyang Wang(参考訳) 本稿では,大規模言語モデル(LLM)の事前学習重量に対して,タスク中心の新たな角度を取り入れたJunk DNA仮説を提案する。 LLMの重みにはかなりの冗長性があると考えられており、性能を損なうことなくプルーニングすることでパラメータのかなりの部分が除去できるという概念が導かれる。 一方,本論文では, 従来より訓練済みの重みの少ない重みが, 難しい下流タスクに対処する上で不可欠な重要な知識を包含する, 困難領域における下流タスクのパフォーマンス低下と, より訓練済みの重みとのモノトニックな関係を示す。 さらに,これらの不連続な重みは,下流の連続訓練が許される場合でも,困難なタスクにおいて,知識の欠如や性能劣化を招きかねない結果をもたらすことが判明した。 興味深いことに、我々の評価は、他の一般的な圧縮、すなわち量子化は類似した単調効果を示さず、このタスクの難易度情報を説得力なく歪めないことを示している。 本研究では,(1)同一タスクカテゴリ内,(2)異なるタスクカテゴリ間でのダウンストリームタスクの難易度を評価するために,いくつかの定量化指標を導入する。 我々の広範な実験は、Junk DNA仮説を、さまざまなモデルサイズ、タスク、データセット、さらには刈り取り方法にわたって裏付けている。 コードは、https://github.com/VITA-Group/Junk_DNA_Hypothesis.gitで入手できる。

We present Junk DNA Hypothesis by adopting a novel task-centric angle for the pre-trained weights of large language models (LLMs). It has been believed that weights in LLMs contain significant redundancy, leading to the conception that a considerable chunk of the parameters can be removed by pruning without compromising performance. Contrary to this belief, this paper presents a counter-argument: small-magnitude weights of pre-trained model weights encode vital knowledge essential for tackling difficult downstream tasks - manifested as the monotonic relationship between the performance drop of downstream tasks across the difficulty spectrum, as we prune more pre-trained weights by magnitude. Moreover, we reveal that these seemingly inconsequential weights can result in irreparable loss of knowledge and performance degradation in difficult tasks, even when downstream continual training is allowed. Interestingly, our evaluations show that the other popular compression, namely quantization, fails to exhibit similar monotonic effect and does not as convincingly disentangle this task-difficulty information. To study formally, we introduce several quantifiable metrics to gauge the downstream task difficulty: (1) within the same task category, and (2) across different task categories. Our extensive experiments substantiate the Junk DNA Hypothesis across a diverse range of model sizes, tasks, datasets, and even pruning methods. Codes are available at: https://github.com/VITA-Group/Junk_DNA_Hypothesis.git.
翻訳日:2024-02-21 05:33:21 公開日:2024-02-16
# 強化リフォーム生成を伴う対話型質問応答モデルのロバストトレーニング

Robust Training for Conversational Question Answering Models with Reinforced Reformulation Generation ( http://arxiv.org/abs/2310.13505v3 )

ライセンス: Link先を確認
Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識グラフ(KG)上の会話質問応答モデル(ConvQA)は通常、金QAペアのベンチマークでトレーニングされ、テストされる。 これは、トレーニングが各データセットで見られる表面的なフォームに限られており、評価は少数の持たない質問に基づいて行われることを意味する。 提案するフレームワークであるREIGNを通じて,この制限された学習設定を修復する。 まず, 学習課題の再構成を体系的に生成し, モデルの頑健性を高め, 変形を表面化する。 このような質問の不完全性を考えると、これは特に難しい問題である。 第2に、深い強化学習を用いて、回答の質を向上させるための改良のみを施すことで、ConvQAモデルをより高いパフォーマンスに導く。 第3に、主要なモデルコンポーネントをひとつのベンチマークでトレーニングし、それをゼロショットで他のベンチマークに適用することの可能性を実証する。 最後に、訓練されたモデルに対する頑健さの厳密な評価のために、ベンチマークテストセットにGPT(サイズが20倍に増加する)を促すことによって生成される多種多様な改革を多数使用・リリースする。 以上の結果から,コンブQAモデルでは,ゴールドQAペアのみの標準トレーニングよりも有意に優れていた。

Models for conversational question answering (ConvQA) over knowledge graphs (KGs) are usually trained and tested on benchmarks of gold QA pairs. This implies that training is limited to surface forms seen in the respective datasets, and evaluation is on a small set of held-out questions. Through our proposed framework REIGN, we take several steps to remedy this restricted learning setup. First, we systematically generate reformulations of training questions to increase robustness of models to surface form variations. This is a particularly challenging problem, given the incomplete nature of such questions. Second, we guide ConvQA models towards higher performance by feeding it only those reformulations that help improve their answering quality, using deep reinforcement learning. Third, we demonstrate the viability of training major model components on one benchmark and applying them zero-shot to another. Finally, for a rigorous evaluation of robustness for trained models, we use and release large numbers of diverse reformulations generated by prompting GPT for benchmark test sets (resulting in 20x increase in sizes). Our findings show that ConvQA models with robust training via reformulations, significantly outperform those with standard training from gold QA pairs only.
翻訳日:2024-02-21 05:24:41 公開日:2024-02-16
# 大規模言語モデル学習

Large Language Model Unlearning ( http://arxiv.org/abs/2310.10683v2 )

ライセンス: Link先を確認
Yuanshun Yao, Xiaojun Xu, Yang Liu(参考訳) 我々は,大言語モデル(llm)上で,望ましくない誤動作を忘れる,未学習の実行方法を研究する。 1) 有害な応答の除去, (2) 著作権保護コンテンツの削除,(3) 幻覚の低減,の3つのシナリオを提示する。 アンラーニングはアライメントテクニックとして3つの利点がある。 1) ネガティブな例(有害な例など)しか必要とせず、RLHF(人間からのフィードバックからRL)に必要な例(例えば、有益でしばしば人手書きの例)よりも、収集がずっと簡単で安価である(例えば、レッドチームやユーザー報告による)。 (2)計算効率が高い。 3)どのトレーニングサンプルが誤動作を引き起こすかを知る場合,特に有効である。 私たちの知識を最大限に活用するために、私たちの研究はLLMアンラーニングを初めて探求するものです。 LLMアンラーニングにおける設定、目標、評価を定式化した最初の一人です。 実践者が限られたリソースしか持たなければ、望ましいアウトプットを生成しようとするよりも、望ましくないアウトプットを生成するのをやめることが最優先であることを示す。 負のサンプルしか持たないにも関わらず,非学習によるアライメント性能は,計算時間のわずか2%でrlhfよりも向上した。

We study how to perform unlearning, i.e. forgetting undesirable misbehaviors, on large language models (LLMs). We show at least three scenarios of aligning LLMs with human preferences can benefit from unlearning: (1) removing harmful responses, (2) erasing copyright-protected content as requested, and (3) reducing hallucinations. Unlearning, as an alignment technique, has three advantages. (1) It only requires negative (e.g. harmful) examples, which are much easier and cheaper to collect (e.g. via red teaming or user reporting) than positive (e.g. helpful and often human-written) examples required in RLHF (RL from human feedback). (2) It is computationally efficient. (3) It is especially effective when we know which training samples cause the misbehavior. To the best of our knowledge, our work is among the first to explore LLM unlearning. We are also among the first to formulate the settings, goals, and evaluations in LLM unlearning. We show that if practitioners only have limited resources, and therefore the priority is to stop generating undesirable outputs rather than to try to generate desirable outputs, unlearning is particularly appealing. Despite only having negative samples, our ablation study shows that unlearning can still achieve better alignment performance than RLHF with just 2% of its computational time.
翻訳日:2024-02-21 05:21:50 公開日:2024-02-16
# 合成能力の多重化:合成課題における拡散モデルの探索

Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task ( http://arxiv.org/abs/2310.09336v4 )

ライセンス: Link先を確認
Maya Okawa, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka(参考訳) 現代の生成モデルは、非常に現実的なデータを生成する前例のない能力を示している。 しかし、実世界の本質的な構成性を考えると、これらのモデルの実用的利用には、トレーニングデータセットにない出力を生成するための新しい概念セットを構成する能力を示す必要がある。 先行研究は、最近の拡散モデルが興味深い組成一般化能力を示すが、予測不能に失敗することを示した。 そこで本研究では, 条件付き拡散モデルにおける合成拡散モデルの構成一般化の理解, 学習データの属性の相違, サンプルアウトオブディストリビューション生成能力の測定について検討した。 結果はこう示しています i) 概念からサンプルを生成し,それらを構成する能力が出現する順序は,基礎となるデータ生成プロセスの構造によって支配される。 二 構成的課題における演出は、構成的課題の性能に依拠し、部分的には生成モデルにみられる創発的な現象を説明するため、突然の「緊急」を示す。 (iii) 分布サンプルを生成するためのトレーニングデータの頻度が低い概念を構成するには、分布サンプルを生成するよりもかなり多くの最適化ステップが必要となる。 本研究は、データ中心の観点から、生成モデルにおける能力と構成性を理解するための基礎を築いた。

Modern generative models exhibit unprecedented capabilities to generate extremely realistic data. However, given the inherent compositionality of the real world, reliable use of these models in practical applications requires that they exhibit the capability to compose a novel set of concepts to generate outputs not seen in the training data set. Prior work demonstrates that recent diffusion models do exhibit intriguing compositional generalization abilities, but also fail unpredictably. Motivated by this, we perform a controlled study for understanding compositional generalization in conditional diffusion models in a synthetic setting, varying different attributes of the training data and measuring the model's ability to generate samples out-of-distribution. Our results show: (i) the order in which the ability to generate samples from a concept and compose them emerges is governed by the structure of the underlying data-generating process; (ii) performance on compositional tasks exhibits a sudden "emergence" due to multiplicative reliance on the performance of constituent tasks, partially explaining emergent phenomena seen in generative models; and (iii) composing concepts with lower frequency in the training data to generate out-of-distribution samples requires considerably more optimization steps compared to generating in-distribution samples. Overall, our study lays a foundation for understanding capabilities and compositionality in generative models from a data-centric perspective.
翻訳日:2024-02-21 05:20:51 公開日:2024-02-16
# テキスト・画像生成モデルにおけるプロンプト特異的ポジショニング攻撃

Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models ( http://arxiv.org/abs/2310.13828v2 )

ライセンス: Link先を確認
Shawn Shan, Wenxin Ding, Josephine Passananti, Stanley Wu, Haitao Zheng, Ben Y. Zhao(参考訳) データ中毒攻撃はトレーニングデータを操作し、トレーニング時に機械学習モデルに予期せぬ振る舞いを導入する。 大量のトレーニングデータセットを持つテキストから画像の生成モデルでは、現在の毒殺攻撃の理解は、数百万の毒素サンプルをトレーニングパイプラインに注入する必要があることを示唆している。 本稿では, 生成モデルにおいて, 毒性攻撃が有効であることを示す。 概念ごとのトレーニングデータはこれらのモデルでは極めて限定的であり、個々のプロンプトに反応するモデルの能力をターゲットにした、プロンプト特異的な中毒攻撃に対して脆弱である。 nightshadeは、中毒サンプルがテキストプロンプトと一致する良性画像と視覚的に同一に見えるように最適化されたプロンプト特異的毒殺攻撃である。 ナイトシェード毒のサンプルは有効性にも最適化されており、安定拡散SDXLプロンプトを<100の毒のサンプルで破壊することができる。 ナイトシェイド中毒は関連する概念に「出血」し、複数の攻撃を1つのプロンプトで構成することができる。 意外なことに、適度な数のNightshade攻撃は、テキストから画像への生成モデルにおける一般的な特徴を不安定にし、意味のある画像を生成する能力を効果的に無効にする。 最後に,Op-out/do-no-crawlディレクティブを無視するWebスクレイパーに対して,コンテンツクリエータにとって最後の防御手段としてNightshadeなどのツールを使用することを提案する。

Data poisoning attacks manipulate training data to introduce unexpected behaviors into machine learning models at training time. For text-to-image generative models with massive training datasets, current understanding of poisoning attacks suggests that a successful attack would require injecting millions of poison samples into their training pipeline. In this paper, we show that poisoning attacks can be successful on generative models. We observe that training data per concept can be quite limited in these models, making them vulnerable to prompt-specific poisoning attacks, which target a model's ability to respond to individual prompts. We introduce Nightshade, an optimized prompt-specific poisoning attack where poison samples look visually identical to benign images with matching text prompts. Nightshade poison samples are also optimized for potency and can corrupt an Stable Diffusion SDXL prompt in <100 poison samples. Nightshade poison effects "bleed through" to related concepts, and multiple attacks can composed together in a single prompt. Surprisingly, we show that a moderate number of Nightshade attacks can destabilize general features in a text-to-image generative model, effectively disabling its ability to generate meaningful images. Finally, we propose the use of Nightshade` and similar tools as a last defense for content creators against web scrapers that ignore opt-out/do-not-crawl directives, and discuss possible implications for model trainers and content creators.
翻訳日:2024-02-21 05:07:12 公開日:2024-02-16
# 静電場を用いた超低温双極子分子の衝突損失と散乱長の制御

Controlling collisional loss and scattering lengths of ultracold dipolar molecules with static electric fields ( http://arxiv.org/abs/2311.08301v2 )

ライセンス: Link先を確認
Bijit Mukherjee and Jeremy M. Hutson(参考訳) 超低温分子のトラップされたサンプルは、しばしば短命である。 静電場による遮蔽を利用して極性分子間の反発障壁を作り、そのような損失を防止する。 シールドはRbCにも非常に効果的で、比較的低い双極子モーメントを持ち、NaK、NaRb、NaCsなどの分子に対してより効果的であり、徐々に大きな双極子を持つ。 電場を変化させることで散乱長の実質的な制御が可能となり、分子ボース=アインシュタイン凝縮の安定性や崩壊に欠かせない。 これは双極子-双極子相互作用が電場に調整可能な長距離アトラクションを生じるためである。 RbCでは、遮蔽に責任を持つ反発が支配的であるため、散乱長が遮蔽効果のある範囲で正となる。 NaK の場合、散乱長はゼロから負の値に調整できる。 NaRbとNaCsは、アトラクションが四原子結合状態を支えるのに十分強く、散乱長はこれらの状態がしきい値を越える共鳴極を通過する。 KAg と CsAg に対して、複数の有界状態と複数の極が存在する。 各分子について、散乱長の変動をフィールドで計算し、新しい物理を探求する可能性についてコメントする。

Trapped samples of ultracold molecules are often short-lived, because close collisions between them result in trap loss. We investigate the use of shielding with static electric fields to create repulsive barriers between polar molecules to prevent such loss. Shielding is very effective even for RbCs, with a relatively low dipole moment, and even more effective for molecules such as NaK, NaRb and NaCs, with progressively larger dipoles. Varying the electric field allows substantial control over the scattering length, which will be crucial for the stability or collapse of molecular Bose-Einstein condensates. This arises because the dipole-dipole interaction creates a long-range attraction that is tunable with electric field. For RbCs, the scattering length is positive across the range where shielding is effective, because the repulsion responsible for shielding dominates. For NaK, the scattering length can be tuned across zero to negative values. For NaRb and NaCs, the attraction is strong enough to support tetraatomic bound states, and the scattering length passes through resonant poles where these states cross threshold. For KAg and CsAg, there are multiple bound states and multiple poles. For each molecule, we calculate the variation of scattering length with field and comment on the possibilities for exploring new physics.
翻訳日:2024-02-21 04:59:57 公開日:2024-02-16
# 数千のキャスト: IDEAS Productivity プロジェクトはいかにしてソフトウェア生産性と持続可能性を高めているか

A cast of thousands: How the IDEAS Productivity project has advanced software productivity and sustainability ( http://arxiv.org/abs/2311.02010v2 )

ライセンス: Link先を確認
Lois Curfman McInnes, Michael Heroux, David E. Bernholdt, Anshu Dubey, Elsa Gonsiorowski, Rinku Gupta, Osni Marques, J. David Moulton, Hai Ah Nam, Boyana Norris, Elaine M. Raybourn, Jim Willenbring, Ann Almgren, Ross Bartlett, Kita Cranfill, Stephen Fickas, Don Frederick, William Godoy, Patricia Grubel, Rebecca Hartman-Baker, Axel Huebl, Rose Lynch, Addi Malviya Thakur, Reed Milewicz, Mark C. Miller, Miranda Mundt, Erik Palmer, Suzanne Parete-Koon, Megan Phinney, Katherine Riley, David M. Rogers, Ben Sims, Deborah Stevens and Gregory R. Watson(参考訳) 計算とデータ対応の科学と工学は、あらゆる規模のコンピューティングにおいて、科学と社会の進歩に革命をもたらしている。 例えば、米国DOE Exascale Computing Projectのチームは、前例のないエクサスケールコンピューティング能力を活用することによって、モデリング、シミュレーション、分析の新たなフロンティアに取り組み、次世代アプリケーションをサポートし、コンピュータアーキテクチャの破壊的な変化に対処する高度なソフトウェアエコシステムを構築している。 しかし、科学ソフトウェアの開発者の生産性、持続可能性、そしてそれが生み出す結果の信頼性に関する懸念が高まっている。 IDEASプロジェクトのメンバーは、これらの課題に対処するための触媒として、ソフトウェアコミュニティの育成、方法論とリソースのインキュベーションとキュレーション、開発者の生産性とソフトウェア持続可能性を向上させるための知識の普及などを行っている。 本稿では,これらのシナジスティックな活動が,ラップトップからクラスタ,エクサスケールなど,あらゆる規模の再現可能で持続可能な科学の基盤を構築することによって,科学的発見を緩和する技術的リスクをいかに前進させているかを論じる。

Computational and data-enabled science and engineering are revolutionizing advances throughout science and society, at all scales of computing. For example, teams in the U.S. DOE Exascale Computing Project have been tackling new frontiers in modeling, simulation, and analysis by exploiting unprecedented exascale computing capabilities-building an advanced software ecosystem that supports next-generation applications and addresses disruptive changes in computer architectures. However, concerns are growing about the productivity of the developers of scientific software, its sustainability, and the trustworthiness of the results that it produces. Members of the IDEAS project serve as catalysts to address these challenges through fostering software communities, incubating and curating methodologies and resources, and disseminating knowledge to advance developer productivity and software sustainability. This paper discusses how these synergistic activities are advancing scientific discovery-mitigating technical risks by building a firmer foundation for reproducible, sustainable science at all scales of computing, from laptops to clusters to exascale and beyond.
翻訳日:2024-02-21 04:55:35 公開日:2024-02-16
# TextEE: イベント抽出におけるベンチマーク、再評価、リフレクション、今後の課題

TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction ( http://arxiv.org/abs/2311.09562v2 )

ライセンス: Link先を確認
Kuan-Hao Huang, I-Hung Hsu, Tanmay Parekh, Zhiyu Xie, Zixuan Zhang, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng, Heng Ji(参考訳) イベント抽出は広い範囲のアプリケーションによって大きな関心を集めている。 しかし、近年の研究は評価問題に注意を向けており、報告されたスコアが真のパフォーマンスを正確に反映していないことを示唆している。 本研究では,様々なデータ仮定や前処理ステップによる不整合,データセットやデータ分割バイアスをもたらす可能性のある現在の評価フレームワークの不足,過去のアプローチの再現性低下など,評価課題を特定し,対処する。 これらの課題に対処するため、イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTextEEを紹介します。 TextEEは標準化されたデータ前処理スクリプトと、7つの異なるドメインにまたがる14のデータセットの分割を含む。 また、TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証しています。 再評価の結果から着想を得て,現在NLP時代におけるイベント抽出の役割と,TextEEから派生した今後の課題と洞察について議論した。 最初の標準化された総合的なベンチマークツールであるTextEEは、将来のイベント抽出研究を著しく促進するだろうと考えています。

Event extraction has gained considerable interest due to its wide-ranging applications. However, recent studies draw attention to evaluation issues, suggesting that reported scores may not accurately reflect the true performance. In this work, we identify and address evaluation challenges, including inconsistency due to varying data assumptions or preprocessing steps, the insufficiency of current evaluation frameworks that may introduce dataset or data split bias, and the low reproducibility of some previous approaches. To address these challenges, we present TextEE, a standardized, fair, and reproducible benchmark for event extraction. TextEE comprises standardized data preprocessing scripts and splits for 14 datasets spanning seven diverse domains and includes 14 recent methodologies, conducting a comprehensive benchmark reevaluation. We also evaluate five varied large language models on our TextEE benchmark and demonstrate how they struggle to achieve satisfactory performance. Inspired by our reevaluation results and findings, we discuss the role of event extraction in the current NLP era, as well as future challenges and insights derived from TextEE. We believe TextEE, the first standardized comprehensive benchmarking tool, will significantly facilitate future event extraction research.
翻訳日:2024-02-21 04:44:31 公開日:2024-02-16
# 自動スコアリングのための大規模言語モデルとチェーン・オブ・マインドの適用

Applying Large Language Models and Chain-of-Thought for Automatic Scoring ( http://arxiv.org/abs/2312.03748v2 )

ライセンス: Link先を確認
Gyeong-Geon Lee, Ehsan Latif, Xuansheng Wu, Ninghao Liu, and Xiaoming Zhai(参考訳) 本研究では,gpt-3.5およびgpt-4を用いた大規模言語モデル(llms)の理科評価に対する学生書面応答の自動スコアリングにおける適用について検討した。 我々は、研究者や教育者の間で人工知能ベースの自動採点ツールの使用を制限したアクセシビリティ、技術的な複雑さ、説明可能性の欠如といった課題を克服することに焦点を当てた。 6つの評価タスク(二項と三項)と1,650人の学生の回答からなるテストデータセットを用いて,学生の回答を自動スコアリングするために6つのプロンプトエンジニアリング戦略を採用した。 6つの戦略は、単発またはアイテムのstemと並行して、ゼロショットまたは少数ショットの学習をcotと組み合わせた。 その結果、少ショット(acc = .67)はゼロショット学習(acc = .60)を上回っ、12.6%増加した。 CoTは、アイテムステムとスコアリングルーリックなしで使用される場合、スコアリング精度(acc = .60)に大きな影響を与えなかった。 しかし、コンテクストアイテムのstemとrubricsを組み合わせることでスコアリング精度が向上した(ゼロショットでは13.44%増、少数ショットでは3.7%増)。 cotをスコアリング用ルーブリックで使用した際,各カテゴリ間でよりバランスの取れた精度を示し,スコアリングタスクにおけるllmの有効性を高める上で,ドメイン固有の推論の重要性を強調した。 また, GPT-4は, 単発グリーディサンプリングやアンサンブル投票核サンプリングと組み合わせることで, GPT-3.5よりも優れた性能を示し, 8.64%の差を示した。 特に, GPT-4を用いた単発グリーディサンプリングは, 他の手法よりも優れていた。

This study investigates the application of large language models (LLMs), specifically GPT-3.5 and GPT-4, with Chain-of-Though (CoT) in the automatic scoring of student-written responses to science assessments. We focused on overcoming the challenges of accessibility, technical complexity, and lack of explainability that have previously limited the use of artificial intelligence-based automatic scoring tools among researchers and educators. With a testing dataset comprising six assessment tasks (three binomial and three trinomial) with 1,650 student responses, we employed six prompt engineering strategies to automatically score student responses. The six strategies combined zero-shot or few-shot learning with CoT, either alone or alongside item stem and scoring rubrics. Results indicated that few-shot (acc = .67) outperformed zero-shot learning (acc = .60), with 12.6% increase. CoT, when used without item stem and scoring rubrics, did not significantly affect scoring accuracy (acc = .60). However, CoT prompting paired with contextual item stems and rubrics proved to be a significant contributor to scoring accuracy (13.44% increase for zero-shot; 3.7% increase for few-shot). We found a more balanced accuracy across different proficiency categories when CoT was used with a scoring rubric, highlighting the importance of domain-specific reasoning in enhancing the effectiveness of LLMs in scoring tasks. We also found that GPT-4 demonstrated superior performance over GPT -3.5 in various scoring tasks when combined with the single-call greedy sampling or ensemble voting nucleus sampling strategy, showing 8.64% difference. Particularly, the single-call greedy sampling strategy with GPT-4 outperformed other approaches.
翻訳日:2024-02-21 04:23:19 公開日:2024-02-16
# count reward automata: 報酬関数構造の活用による効率的な強化学習のサンプル

Counting Reward Automata: Sample Efficient Reinforcement Learning Through the Exploitation of Reward Function Structure ( http://arxiv.org/abs/2312.11364v2 )

ライセンス: Link先を確認
Tristan Bester, Benjamin Rosman, Steven James, Geraud Nangue Tasse(参考訳) 形式言語として表現可能な任意の報酬関数をモデル化できる有限状態マシンであるカウント報酬オートマトンを提案する。 通常の言語としてのタスク表現に限られる従来のアプローチとは異なり、我々のフレームワークは制約のない文法で記述されたタスクを許容する。 このような抽象機械を備えたエージェントは、現在のアプローチを利用するエージェントよりも大きなタスク群を解決できることを実証する。 この表現力の増大は、オートマトンの複雑さの増加のコストを伴わないことを示す。 サンプル効率を向上させるためにオートマトン構造を利用する学習アルゴリズムの選定を行う。 提案手法では,大規模言語モデルを用いて自然言語タスク記述から要求される状態機械を特定できることを示す。 実験の結果,本手法は,サンプル効率,自動複雑度,タスク完了度の観点から,競合する手法よりも優れていた。

We present counting reward automata-a finite state machine variant capable of modelling any reward function expressible as a formal language. Unlike previous approaches, which are limited to the expression of tasks as regular languages, our framework allows for tasks described by unrestricted grammars. We prove that an agent equipped with such an abstract machine is able to solve a larger set of tasks than those utilising current approaches. We show that this increase in expressive power does not come at the cost of increased automaton complexity. A selection of learning algorithms are presented which exploit automaton structure to improve sample efficiency. We show that the state machines required in our formulation can be specified from natural language task descriptions using large language models. Empirical results demonstrate that our method outperforms competing approaches in terms of sample efficiency, automaton complexity, and task completion.
翻訳日:2024-02-21 04:10:54 公開日:2024-02-16
# 相対論的ドップラー効果の簡単な量子画像

A simple quantum picture of the relativistic Doppler effect ( http://arxiv.org/abs/2401.02175v2 )

ライセンス: Link先を確認
Daniel Hodgson, Sara Kanzi, and Almut Beige(参考訳) 相対論的ドップラー効果は、異なる慣性参照フレームの観測者が空間と時間が異なるが、光の速度は常に同じであるという事実から生じる。 その結果、光の波束は異なる周波数、波長、振幅を示す。 本稿では,相対性理論に基づく相対論的ドップラー効果に対する局所的アプローチについて述べる。 その後、光の波束の量子状態変換に対する相対論的ドップラー効果の影響を考察し、すべての慣性フレームにおける時空図の同じ点における局所光子が局所光子であることを示す。

The relativistic Doppler effect comes from the fact that observers in different inertial reference frames experience space and time differently, while the speed of light remains always the same. Consequently, a wave packet of light exhibits different frequencies, wavelengths, and amplitudes. In this paper, we present a local approach to the relativistic Doppler effect based on relativity, spatial and time translational symmetries, and energy conservation. Afterwards we investigate the implications of the relativistic Doppler effect for the quantum state transformations of wave packets of light and show that a local photon is a local photon at the same point in the spacetime diagram in all inertial frames.
翻訳日:2024-02-21 03:58:52 公開日:2024-02-16
# マトリックス生成状態をもつフェルミオン回路の高速エミュレーション

Fast emulation of fermionic circuits with matrix product states ( http://arxiv.org/abs/2312.17657v3 )

ライセンス: Link先を確認
Justin Provazza, Klaas Gunst, Huanchen Zhai, Garnet K.-L. Chan, Toru Shiozaki, Nicholas C. Rubin, Alec F. White(参考訳) 本稿では,fermionic quantum emulator (fqe)ソフトウェアライブラリのための行列積状態 (mps) 拡張について述べる。 本稿では、スピン1/2フェルミオンの多体波動関数を近似するための対称性適応行列積状態の理論について論じ、FQEインタフェース(MPS-FQE)のオープンソース実装について述べる。 このソフトウェアは、ほとんどの基本テンソル演算にオープンソースのpyblock3とblock2ライブラリを使用し、fqeのドロップイン代替として、より大きなフェルミオン回路をより効率的だが近似的にエミュレーションすることができる。 最後に,より大きな系の近似エミュレーションが期待できる短期的およびフォールトトレラントな量子アルゴリズムについて,量子位相推定のための状態生成戦略のキャラクタリゼーション,異なる変分量子固有ソルバ ans\"atze のテスト,トロッター誤差の数値評価,一般量子力学問題のシミュレーションなど,いくつかの応用例を示す。 これらすべての例において、MPS-FQEによる近似エミュレーションにより、フルステートベクターエミュレータで利用できるシステムよりもはるかに大きいシステムを扱うことができる。

We describe a matrix product state (MPS) extension for the Fermionic Quantum Emulator (FQE) software library. We discuss the theory behind symmetry adapted matrix product states for approximating many-body wavefunctions of spin-1/2 fermions, and we present an open-source, MPS-enabled implementation of the FQE interface (MPS-FQE). The software uses the open-source pyblock3 and block2 libraries for most elementary tensor operations, and it can largely be used as a drop-in replacement for FQE that allows for more efficient, but approximate, emulation of larger fermionic circuits. Finally, we show several applications relevant to both near-term and fault-tolerant quantum algorithms where approximate emulation of larger systems is expected to be useful: characterization of state preparation strategies for quantum phase estimation, the testing of different variational quantum eigensolver Ans\"atze, the numerical evaluation of Trotter errors, and the simulation of general quantum dynamics problems. In all these examples, approximate emulation with MPS-FQE allows us to treat systems that are significantly larger than those accessible with a full statevector emulator.
翻訳日:2024-02-21 03:58:08 公開日:2024-02-16
# 遺伝的変異評価ワークフローへの生成前訓練トランスフォーマー4モデルの統合準備--文学における機能的証拠の分類に対する性能、ドリフト、非決定性特性の評価

Preparing to Integrate Generative Pretrained Transformer Series 4 models into Genetic Variant Assessment Workflows: Assessing Performance, Drift, and Nondeterminism Characteristics Relative to Classifying Functional Evidence in Literature ( http://arxiv.org/abs/2312.13521v2 )

ライセンス: Link先を確認
Samuel J. Aronson (1,2), Kalotina Machini (1,3), Jiyeon Shin (2), Pranav Sriraman (1), Sean Hamill (4), Emma R. Henricks (1), Charlotte Mailly (1,2), Angie J. Nottage (1), Sami S. Amr (1,3), Michael Oates (1,2), Matthew S. Lebo (1,3) ((1) Mass General Brigham Personalized Medicine, (2) Accelerator for Clinical Transformation, Mass General Brigham, (3) Department of Pathology, Brigham and Women's Hospital, (4) Microsoft Corporation)(参考訳) 背景。 大規模言語モデル(LLM)は、臨床検査における遺伝的変異文献レビューを改善することを約束している。 我々は,GPT-4(Generative Pretrained Transformer 4's)の性能,非決定性,ドリフトを評価し,複雑な臨床プロセスでの使用に適していることを示す。 メソッド。 機能的エビデンスを分類するための2プロンプト法を45項目の開発セットを用いて最適化した。 プロンプトはGPT-4に、変種に関連する記事にあるすべての機能データを供給するか、機能的証拠がないことを示すよう依頼した。 機能的証拠を含むと示される記事について、第2のプロンプトはGPT-4に、証拠を病原性、良性、または中間的/決定的カテゴリーに分類するよう依頼した。 72の手動で分類された記事の最終テストセットは、パフォーマンスのテストに使用された。 結果だ 2023年2月2024年2月25日より,日内(非決定性)と日内(ドリフト)の有意差がみられ,1/18/24以降は減少していた。 この変動はGPT-4シリーズのモデル内およびモデル間で見られ、異なる性能統計に影響を及ぼす。 92.2%の感度、95.6%の正の予測値(PPV)、86.3%の負の予測値(NPV)を持つ機能的証拠を含む1/18/24の論文が20件続いた。 第2のプロンプトは、90.0%の感受性、74.0%のPPV、95.3%のNVP、88.0%の感度、76.6%のPPV、96.9%のNVPを持つ病原性機能的証拠を同定した。 結論だ LLM内の非決定性とドリフトは、臨床ワークフローにLLMベースの機能を導入する際に評価され、監視されなければならない。 この評価やこれらの課題に対する会計の失敗は、患者のケアに不可欠な誤った情報や欠如につながる可能性がある。 我々のプロンプトのパフォーマンスは、記事の優先順位付けを支援するのに十分なようだが、自動意思決定では役に立たない。

Background. Large Language Models (LLMs) hold promise for improving genetic variant literature review in clinical testing. We assessed Generative Pretrained Transformer 4's (GPT-4) performance, nondeterminism, and drift to inform its suitability for use in complex clinical processes. Methods. A 2-prompt process for classification of functional evidence was optimized using a development set of 45 articles. The prompts asked GPT-4 to supply all functional data present in an article related to a variant or indicate that no functional evidence is present. For articles indicated as containing functional evidence, a second prompt asked GPT-4 to classify the evidence into pathogenic, benign, or intermediate/inconclusive categories. A final test set of 72 manually classified articles was used to test performance. Results. Over a 2.5-month period (Dec 2023-Feb 2024), we observed substantial differences in intraday (nondeterminism) and across day (drift) results, which lessened after 1/18/24. This variability is seen within and across models in the GPT-4 series, affecting different performance statistics to different degrees. Twenty runs after 1/18/24 identified articles containing functional evidence with 92.2% sensitivity, 95.6% positive predictive value (PPV) and 86.3% negative predictive value (NPV). The second prompt's identified pathogenic functional evidence with 90.0% sensitivity, 74.0% PPV and 95.3% NVP and for benign evidence with 88.0% sensitivity, 76.6% PPV and 96.9% NVP. Conclusion. Nondeterminism and drift within LLMs must be assessed and monitored when introducing LLM based functionality into clinical workflows. Failing to do this assessment or accounting for these challenges could lead to incorrect or missing information that is critical for patient care. The performance of our prompts appears adequate to assist in article prioritization but not in automated decision making.
翻訳日:2024-02-21 03:54:36 公開日:2024-02-16
# 大規模言語モデルエージェントが6gネットワークに出会うとき:知覚、接地、アライメント

When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and Alignment ( http://arxiv.org/abs/2401.07764v2 )

ライセンス: Link先を確認
Minrui Xu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Shiwen Mao, Zhu Han, Dong In Kim, and Khaled B. Letaief(参考訳) マルチモーダルな大規模言語モデル(LLM)に基づくAIエージェントは、人間とコンピュータのインタラクションに革命をもたらし、医療、教育、製造、エンターテイメントといったさまざまな領域でよりパーソナライズされたアシスタントサービスを提供すると期待されている。 6GネットワークにLLMエージェントをデプロイすることで、ユーザはモバイルデバイスを介して、これまで高価なAIアシスタントサービスにアクセスできるようになる。 それにもかかわらず、モバイルデバイスの限られた能力は、長期にわたる相互作用の間、エッジサーバ上で動作するグローバルなLLMに複雑なタスクをオフロードする必要があるローカルLLMのデプロイと実行の効率を制限している。 本稿では,モバイルデバイスとエッジサーバの協調を利用した6gネットワークにおけるllmエージェントのための分割学習システムを提案する。 提案システムでは,LLMエージェントを知覚,接地,アライメントモジュールに分割し,モジュール間通信により,統合型センシング・通信,デジタルツイン,タスク指向通信など,6Gネットワーク機能上の拡張ユーザ要求を満たす。 さらに,提案システム内のllmのための新しいモデルキャッシングアルゴリズムを導入し,コンテキスト内のモデル利用性を改善し,協調型モバイルおよびエッジ型llmエージェントのネットワークコストを削減する。

AI agents based on multimodal large language models (LLMs) are expected to revolutionize human-computer interaction and offer more personalized assistant services across various domains like healthcare, education, manufacturing, and entertainment. Deploying LLM agents in 6G networks enables users to access previously expensive AI assistant services via mobile devices democratically, thereby reducing interaction latency and better preserving user privacy. Nevertheless, the limited capacity of mobile devices constrains the effectiveness of deploying and executing local LLMs, which necessitates offloading complex tasks to global LLMs running on edge servers during long-horizon interactions. In this article, we propose a split learning system for LLM agents in 6G networks leveraging the collaboration between mobile devices and edge servers, where multiple LLMs with different roles are distributed across mobile devices and edge servers to perform user-agent interactive tasks collaboratively. In the proposed system, LLM agents are split into perception, grounding, and alignment modules, facilitating inter-module communications to meet extended user requirements on 6G network functions, including integrated sensing and communication, digital twins, and task-oriented communications. Furthermore, we introduce a novel model caching algorithm for LLMs within the proposed system to improve model utilization in context, thus reducing network costs of the collaborative mobile and edge LLM agents.
翻訳日:2024-02-21 03:45:44 公開日:2024-02-16
# Prewrite: 強化学習によるプロンプト書き換え

PRewrite: Prompt Rewriting with Reinforcement Learning ( http://arxiv.org/abs/2401.08189v2 )

ライセンス: Link先を確認
Weize Kong and Spurthi Amba Hombaiah and Mingyang Zhang and Qiaozhu Mei and Michael Bendersky(参考訳) プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。 しかし、通常は手動で "trial and error" 形式で行われる。 この手動手順は、時間消費、非効率であり、生成されたプロンプトは、多くの場合、副最適化である。 たとえプロンプトがうまく機能しているように見えるとしても、常に疑問が残る。 これらの問題に対処するため,本稿では,迅速なエンジニアリング自動化について検討する。 開発者やユーザが初期プロンプトをドラフトしたものの、最適化する時間や専門知識がない、特定のユースケースシナリオを検討します。 我々はこれらのドラフトを書き換え、非常に効果的な新しいプロンプトを生成する自動化ツールであるPRewriteを提案する。 PRewriteは、エンドツーエンドの最適化を可能にするReinforcement Learning (RL)フレームワークをベースにしています。 自動ツールは、手作業によるプロンプトを出発点として活用し、書き直し手順をより指導的かつ効率的にする。 生成されたプロンプトは人間の読みやすいものであり、以前の作品と異なり自己説明的である。 多様なデータセットについて広範な実験を行い,この手法で生成されたプロンプトがプロのプロのプロンプトを上回るだけでなく,他の提案手法で生成されたプロンプトよりも優れていることを発見した。

Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a "trial and error" fashion. This manual procedure can be time consuming, ineffective, and the generated prompts are, in a lot of cases, sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these questions, in this paper, we investigate prompt engineering automation. We consider a specific use case scenario in which developers/users have drafted initial prompts, but lack the time/expertise to optimize them. We propose PRewrite, an automated tool to rewrite these drafts and to generate highly effective new prompts. PRewrite is based on the Reinforcement Learning (RL) framework which allows for end-to-end optimization and our design allows the RL search to happen in a large action space. The automated tool leverages manually crafted prompts as starting points which makes the rewriting procedure more guided and efficient. The generated prompts are human readable, and self-explanatory, unlike some of those in previous works. We conducted extensive experiments on diverse datasets and found that the prompts generated with this new method not only outperform professionally crafted prompts, but also prompts generated with other previously proposed methods.
翻訳日:2024-02-21 03:29:16 公開日:2024-02-16
# 補正検索強化ジェネレーション

Corrective Retrieval Augmented Generation ( http://arxiv.org/abs/2401.15884v2 )

ライセンス: Link先を確認
Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, Zhen-Hua Ling(参考訳) 大規模言語モデル(LLM)は、生成したテキストの精度は、カプセル化したパラメトリック知識だけでは確保できないため、必然的に幻覚を示す。 検索強化世代(RAG)は、LLMの実践的な補完であるが、検索された文書の関連性に大きく依存しており、検索がうまくいかなかった場合、モデルがどのように振る舞うかについての懸念を提起する。 この目的のために、我々は、生成の堅牢性を改善するために、CRAG(Corrective Retrieval Augmented Generation)を提案する。 具体的には、検索された文書の全体的な品質を評価する軽量検索評価器を設計し、異なる知識検索アクションをトリガーする信頼度を返却する。 静的なコーパスや限定的なコーパスからの検索は最適なドキュメントしか返せないため、大規模なウェブ検索は検索結果を増強するための拡張として利用される。 また、検索した文書に対して、キー情報に選択的にフォーカスし、その中の無関係情報をフィルタリングする分解処理アルゴリズムを設計する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。 ショートフォームおよびロングフォーム生成タスクをカバーする4つのデータセットの実験は、CRAGがRAGベースのアプローチの性能を大幅に改善できることを示している。

Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.
翻訳日:2024-02-21 03:04:36 公開日:2024-02-16
# マイクロリングを用いたフォトニックGEMM加速器の比較解析

A Comparative Analysis of Microrings Based Incoherent Photonic GEMM Accelerators ( http://arxiv.org/abs/2402.03149v3 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Oluwaseun Adewunmi Alo, and Ishan Thakkar(参考訳) いくつかのマイクロリング共振器(mrr)ベースのアナログフォトニックアーキテクチャは、ディープニューラルネットワークにおける一般行列行列乗算(gemm)を非常にスループットとエネルギー効率で加速するために提案されている。 GEMM関数を実装するために、これらのMRRベースのアーキテクチャは、一般的に5つの異なる方法で光学信号を操作する。 (i)特定のファンアウトを達成するために複数の光信号の分割(コピー) 二 特定のファンインを達成するための複数の光信号の集約(多重化) (iii)アナログ信号振幅に入力値をインプリントする光信号の変調 (iv)アナログ入力重み乗算を実現するための変調光信号の重み付け (v)光信号の総和。 MRRベースのGEMMアクセラレータは、これらの操作の順序がパフォーマンスに与える影響を無視して、任意の順序で信号操作の最初の4つの方法を実行する。 本稿では,(1)masw,(2)asmw,(3)smwaの3種類の命令による加速器機構の詳細な分析を行った。 これらの組織は、異なる大きさのクロストークノイズと光信号損失に影響を及ぼし、回路レベルで異なるレベルの処理並列性、およびシステムレベルでのスループットとエネルギー平均効率に影響を及ぼすことを示す。 CNNの4つのモデルに対する評価結果は,ASMWやMASWに比べ,SMWAの組織がそれぞれ4.4$\times$,5$\times$,5.2$\times$のスループット,エネルギー効率,地域エネルギー効率を実現していることを示している。

Several microring resonator (MRR) based analog photonic architectures have been proposed to accelerate general matrix-matrix multiplications (GEMMs) in deep neural networks with exceptional throughput and energy efficiency. To implement GEMM functions, these MRR-based architectures, in general, manipulate optical signals in five different ways: (i) Splitting (copying) of multiple optical signals to achieve a certain fan-out, (ii) Aggregation (multiplexing) of multiple optical signals to achieve a certain fan-in, (iii) Modulation of optical signals to imprint input values onto analog signal amplitude, (iv) Weighting of modulated optical signals to achieve analog input-weight multiplication, (v) Summation of optical signals. The MRR-based GEMM accelerators undertake the first four ways of signal manipulation in an arbitrary order ignoring the possible impact of the order of these manipulations on their performance. In this paper, we conduct a detailed analysis of accelerator organizations with three different orders of these manipulations: (1) Modulation-Aggregation-Splitting-Weighting (MASW), (2) Aggregation-Splitting-Modulation-Weighting (ASMW), and (3) Splitting-Modulation-Weighting-Aggregation (SMWA). We show that these organizations affect the crosstalk noise and optical signal losses in different magnitudes, which renders these organizations with different levels of processing parallelism at the circuit level, and different magnitudes of throughput and energy-area efficiency at the system level. Our evaluation results for four CNN models show that SMWA organization achieves up to 4.4$\times$, 5$\times$, and 5.2$\times$ better throughput, energy efficiency, and area-energy efficiency, respectively, compared to ASMW and MASW organizations on average.
翻訳日:2024-02-21 02:55:36 公開日:2024-02-16
# 非相互作用フェルミ気体の一体密度行列の遺伝性を保存する

Preserving the Hermiticity of the One-Body Density Matrix for a Non-Interacting Fermi Gas ( http://arxiv.org/abs/2402.02206v2 )

ライセンス: Link先を確認
L. M. Farrell, D. Eaton, P. Chitnelawong, K. Bencheikh, B. P. van Zyl(参考訳) D次元ゼロ温度非接触フェルミガスに対する1体密度行列(ODM)は、様々な$\hbar$-expansion技術によって半古典的状態においてほぼ得られる。 ODM を近似するそれぞれの方法は、エルミート行列と等等級行列の両方を$\hbar$ の任意の順序で生成することが期待できる。 しかし、Kirzhnits と Wigner-Kirkwood の手法はこれらの性質を得られないが、Grammaticos と Voros の手法はそうである。 ここで、任意の $d\geq 1$-dimensions に対して、対称座標への適切な変更を通じて、各メソッドが真に同一であり、エルミート的かつべき等であることを示す。 この変数の変化は、様々な方法の不一致を解消し、キルツニッツ法とウィグナー=キルクウッド法の非エルミート的および非イデマント的挙動は、半古典的$\hbar$-expansionに対する非対称的切断を実行する人工物であることを示している。 私たちの研究は、d = 1, 2, 3, 4$ 式に基づいて、redjatiらによって最初に提案された $d\geq 1$-dimensional grammaticos と voros odm の最初の明示的な導出も提供する。

The one-body density matrix (ODM) for a d-dimensional zero temperature non-interacting Fermi gas can be approximately obtained in the semiclassical regime through different $\hbar$-expansion techniques. One would expect that each method of approximating the ODM should yield equivalent density matrices which are both Hermitian and idempotent to any order in $\hbar$. However, the Kirzhnits and Wigner-Kirkwood methods do not yield these properties, while the method of Grammaticos and Voros does. Here we show explicitly, for arbitrary $d\geq 1$-dimensions through an appropriate change into symmetric coordinates, that each method is indeed identical, Hermitian, and idempotent. This change of variables resolves the inconsistencies between the various methods, showing that the non-Hermitian and non-idempotent behaviour of the Kirzhnits and Wigner-Kirkwood methods is an artifact of performing a non-symmetric truncation to the semiclassical $\hbar$-expansions. Our work also provides the first explicit derivation of the $d\geq 1$-dimensional Grammaticos and Voros ODM, originally proposed by Redjati et al. based on their $d = 1, 2, 3, 4$ expressions.
翻訳日:2024-02-21 02:54:29 公開日:2024-02-16
# コードのための言語モデルの校正と正確性

Calibration and Correctness of Language Models for Code ( http://arxiv.org/abs/2402.02047v3 )

ライセンス: Link先を確認
Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md Rafiqul Islam Rabin, Amin Alipour, Susmit Jha, Prem Devanbu, Toufique Ahmed(参考訳) 機械学習モデルは広く使われているが、しばしば間違っていることもある。 ユーザは、与えられたモデルからのアウトプットを信頼すべきかどうかの信頼できる表示から恩恵を受けるので、アウトプットを使用するかどうかを合理的に判断することができる。 例えば、出力は信頼測度と結びつくことができ、もしこの信頼測度が正しさの確率と強く関連しているなら、そのモデルはよく校正されていると言われる。 この場合、例えば、高信頼出力は安全に受け入れられ、低信頼出力は拒否される。 キャリブレーションは、特にソフトウェア工学において、主に非生成的(例えば分類)な設定で研究されてきた。 しかし、生成されたコードは、しばしば間違っている: 開発者は、いつ、直接の使用、慎重にレビューした後の使用、またはモデル生成コードを捨てるべきかを知る必要がある; キャリブレーションは、生成設定において不可欠である。 しかし、生成されたコードの正確性の概念は非自明であり、キャリブレーションも同様である。 本稿ではいくつかの貢献を行う。 コード生成モデルのキャリブレーションを評価するフレームワークを開発した。 我々は、いくつかのタスク、正確性基準、データセット、そしてアプローチを検討し、大きな生成型コードモデルが最初からうまく調整されていないことを見つける。 次に, platt scaling などの標準手法を用いて, キャリブレーションの改善方法を示す。 私たちのコントリビューションは、言語モデルが生成するコードの現在の使用において、より良いキャリブレーションによる意思決定につながり、ソフトウェア工学における生成モデルの校正方法をさらに改善するための将来の研究のためのフレームワークを提供するでしょう。

Machine learning models are widely used but can also often be wrong. Users would benefit from a reliable indication of whether a given output from a given model should be trusted, so a rational decision can be made whether to use the output or not. For example, outputs can be associated with a confidence measure; if this confidence measure is strongly associated with likelihood of correctness, then the model is said to be well-calibrated. In this case, for example, high-confidence outputs could be safely accepted, and low-confidence outputs rejected. Calibration has so far been studied in mostly non-generative (e.g., classification) settings, especially in Software Engineering. However, generated code can quite often be wrong: Developers need to know when they should e.g., directly use, use after careful review, or discard model-generated code; thus Calibration is vital in generative settings. However, the notion of correctness of generated code is non-trivial, and thus so is Calibration. In this paper we make several contributions. We develop a framework for evaluating the Calibration of code-generating models. We consider several tasks, correctness criteria, datasets, and approaches, and find that by and large generative code models are not well-calibrated out of the box. We then show how Calibration can be improved, using standard methods such as Platt scaling. Our contributions will lead to better-calibrated decision-making in the current use of code generated by language models, and offers a framework for future research to further improve calibration methods for generative models in Software Engineering.
翻訳日:2024-02-21 02:53:18 公開日:2024-02-16
# PEAKによるPeeking:複数のデータストリームに対する逐次的・非パラメトリック複合仮説テスト

Peeking with PEAK: Sequential, Nonparametric Composite Hypothesis Tests for Means of Multiple Data Streams ( http://arxiv.org/abs/2402.06122v2 )

ライセンス: Link先を確認
Brian Cho, Kyra Gan, Nathan Kallus(参考訳) 本稿では,複数データストリームを用いた合成仮説のための新しい非パラメトリックシーケンシャルテストを提案する。 提案手法である \emph{peeking with expectation-based averaged capital} (peak) は,テスト・アズ・ア・ベッティングフレームワークを基盤とし,任意の停止時間にわたって非漸近的な$\alpha$-level テストを提供する。 PEAKは計算的に抽出可能であり、非パラメトリックな仮定を満たす全ての潜在的分布に誤りがある仮説を効率的に否定し、複数のデータストリームで共同合成仮説テストを可能にする。 提案手法の競争性能と計算効率の両立を図り, バンディット設定における腕の識別としきい値の同定により, 理論的知見を数値的に検証した。

We propose a novel nonparametric sequential test for composite hypotheses for means of multiple data streams. Our proposed method, \emph{peeking with expectation-based averaged capital} (PEAK), builds upon the testing-as-betting framework and provides a non-asymptotic $\alpha$-level test across any stopping time. PEAK is computationally tractable and efficiently rejects hypotheses that are incorrect across all potential distributions that satisfy our nonparametric assumption, enabling joint composite hypothesis testing on multiple streams of data. We numerically validate our theoretical findings under the best arm identification and threshold identification in the bandit setting, illustrating both the competitive performance and the computational efficiency of our method against state-of-the-art testing methods.
翻訳日:2024-02-21 01:05:53 公開日:2024-02-16
# 命令チューニングの限界を詳しく見る

A Closer Look at the Limitations of Instruction Tuning ( http://arxiv.org/abs/2402.05119v2 )

ライセンス: Link先を確認
Sreyan Ghosh and Chandra Kiran Reddy Evuru and Sonal Kumar and Ramaneswaran S and Deepali Aneja and Zeyu Jin and Ramani Duraiswami and Dinesh Manocha(参考訳) 命令応答ペアを用いた大規模言語モデル(LLM)の訓練プロセスであるインストラクションチューニング(IT)が,ベースとなる事前学習されたLLMをオープンドメインの会話エージェントに変換する主要な方法として登場した。 顕著な成功と広く採用されているが、その限界と欠点は未検討のままである。 本稿では、厳密な実験と、LLMがITを通して行っている変化の詳細な分析を通して、ITの様々な限界を明らかにする。 特に,(1)llmにおける知識やスキルの向上に失敗していることを示す。 LoRAファインチューニングは学習応答開始とスタイルトークンに限られており、フルパラメータのファインチューニングは知識の劣化につながる。 2)知識ソースから派生したITデータセットからの応答パターンのコピーは,応答品質の低下につながる。 3)全パラメータ細調整は,ITデータセットの概念的に類似したインスタンスからトークンを不正確な借用によって幻覚を増大させる。 (4) IT 改善のための一般的な手法は,シンプルな LoRA 微調整モデルよりも性能改善につながるものではない。 以上の結果から,オープンソースのデータセット上で新たな知識を学習するモデルが,事前学習した知識から生成した応答が,その応答を一貫して上回ることが明らかとなった。 洞察と課題が将来の仕事に刺激を与えてくれることを願っています。

Instruction Tuning (IT), the process of training large language models (LLMs) using instruction-response pairs, has emerged as the predominant method for transforming base pre-trained LLMs into open-domain conversational agents. While IT has achieved notable success and widespread adoption, its limitations and shortcomings remain underexplored. In this paper, through rigorous experiments and an in-depth analysis of the changes LLMs undergo through IT, we reveal various limitations of IT. In particular, we show that (1) IT fails to enhance knowledge or skills in LLMs. LoRA fine-tuning is limited to learning response initiation and style tokens, and full-parameter fine-tuning leads to knowledge degradation. (2) Copying response patterns from IT datasets derived from knowledgeable sources leads to a decline in response quality. (3) Full-parameter fine-tuning increases hallucination by inaccurately borrowing tokens from conceptually similar instances in the IT dataset for generating responses. (4) Popular methods to improve IT do not lead to performance improvements over a simple LoRA fine-tuned model. Our findings reveal that responses generated solely from pre-trained knowledge consistently outperform responses by models that learn any form of new knowledge from IT on open-source datasets. We hope the insights and challenges revealed inspire future work.
翻訳日:2024-02-21 01:04:11 公開日:2024-02-16
# IMUOptimize:トランスフォーマーアーキテクチャを用いた人文推定のための最適IMU配置のためのデータ駆動アプローチ

IMUOptimize: A Data-Driven Approach to Optimal IMU Placement for Human Pose Estimation with Transformer Architecture ( http://arxiv.org/abs/2402.08923v2 )

ライセンス: Link先を確認
Varun Ramani and Hossein Khayami and Yang Bai and Nakul Garg and Nirupam Roy(参考訳) 本稿では、DIP-IMU、IMUPoser、TransPoseといった従来の研究と異なり、双方向RNNと組み合わせて最大6個のIMUを用いて、人間のポーズを予測する新しいアプローチを提案する。 我々は、最適なIMU配置のためのデータ駆動戦略と時系列解析のためのトランスフォーマーベースのモデルアーキテクチャの2つの主要な革新を紹介した。 提案手法は従来の6 IMUベースのbiRNNモデルよりも優れているだけでなく、トランスフォーマーアーキテクチャは24 IMUロケーションから得られたデータからのポーズ再構成を著しく向上し、6 IMUのみを使用する場合のbiRNNに匹敵する性能を示した。 変換器の並列化性や性能と組み合わせることで,最適選択位置の精度が向上し,IMUに基づくポーズ推定の分野に大きな改善がもたらされた。

This paper presents a novel approach for predicting human poses using IMU data, diverging from previous studies such as DIP-IMU, IMUPoser, and TransPose, which use up to 6 IMUs in conjunction with bidirectional RNNs. We introduce two main innovations: a data-driven strategy for optimal IMU placement and a transformer-based model architecture for time series analysis. Our findings indicate that our approach not only outperforms traditional 6 IMU-based biRNN models but also that the transformer architecture significantly enhances pose reconstruction from data obtained from 24 IMU locations, with equivalent performance to biRNNs when using only 6 IMUs. The enhanced accuracy provided by our optimally chosen locations, when coupled with the parallelizability and performance of transformers, provides significant improvements to the field of IMU-based pose estimation.
翻訳日:2024-02-21 00:40:18 公開日:2024-02-16
# ベイズ逆ゲームの自動エンコーディング

Auto-Encoding Bayesian Inverse Games ( http://arxiv.org/abs/2402.08902v2 )

ライセンス: Link先を確認
Xinjie Liu, Lasse Peters, Javier Alonso-Mora, Ufuk Topcu, David Fridovich-Keil(参考訳) 複数のエージェントが共通の環境で相互作用すると、それぞれのエージェントのアクションが他人の将来の決定に影響を与え、非協力的な動的ゲームは自然にこの結合を捉えます。 しかし、インタラクティブなモーションプランニングでは、エージェントは通常、他のプレイヤーの目的が不明であるなど、ゲームの完全なモデルにアクセスできない。 したがって,ゲームの性質が不明であり,観測結果から推測しなければならない,逆ゲーム問題を考える。 既存の最大誤差推定(MLE)アプローチは、不確実性を定量化せずに未知のパラメータの点推定のみを提供し、多くのパラメータ値が観測された振る舞いを説明すると性能が低下する。 これらの制限に対処するため、ベイズ的視点を採り、ゲームパラメータの後方分布を構築する。 Inference tractable のレンダリングには、可変オートエンコーダ(VAE)と組込み微分可能なゲームソルバを用いる。 この構造化されたVAEは、観測された相互作用のラベルのないデータセットからトレーニングすることができ、自然に連続したマルチモーダル分布を処理し、実行時にゲームソリューションを計算せずに推論後部からの効率的なサンプリングをサポートする。 シミュレーション運転シナリオにおける広範な評価は,提案手法が先行的および後方的目標分布を学習し,mleベースラインよりも客観的な推定を精度良く提供し,より安全かつ効率的なゲーム理論的動作計画を支援することを示す。

When multiple agents interact in a common environment, each agent's actions impact others' future decisions, and noncooperative dynamic games naturally capture this coupling. In interactive motion planning, however, agents typically do not have access to a complete model of the game, e.g., due to unknown objectives of other players. Therefore, we consider the inverse game problem, in which some properties of the game are unknown a priori and must be inferred from observations. Existing maximum likelihood estimation (MLE) approaches to solve inverse games provide only point estimates of unknown parameters without quantifying uncertainty, and perform poorly when many parameter values explain the observed behavior. To address these limitations, we take a Bayesian perspective and construct posterior distributions of game parameters. To render inference tractable, we employ a variational autoencoder (VAE) with an embedded differentiable game solver. This structured VAE can be trained from an unlabeled dataset of observed interactions, naturally handles continuous, multi-modal distributions, and supports efficient sampling from the inferred posteriors without computing game solutions at runtime. Extensive evaluations in simulated driving scenarios demonstrate that the proposed approach successfully learns the prior and posterior objective distributions, provides more accurate objective estimates than MLE baselines, and facilitates safer and more efficient game-theoretic motion planning.
翻訳日:2024-02-21 00:40:00 公開日:2024-02-16
# 薬物分子と指標の翻訳における大規模言語モデルの利用の可能性

Emerging Opportunities of Using Large Language Models for Translation Between Drug Molecules and Indications ( http://arxiv.org/abs/2402.09588v2 )

ライセンス: Link先を確認
David Oniani, Jordan Hilsman, Chengxi Zang, Junmei Wang, Lianjin Cai, Jan Zawala, Yanshan Wang(参考訳) 薬物分子は、生物の精神状態や身体状態を変化させる物質である。 承認されたすべての薬物は、その薬が特定の医療状態の治療に使用されることを指示する。 生成的人工知能(AI)技術であるLarge Language Model(LLM)は、最近、分子とそれらのテキスト記述を翻訳する効果を実証しているが、薬物分子と指標間の翻訳を促進する研究や、薬物発見プロセスに多大な恩恵をもたらす研究のギャップが残っている。 特定の指標から薬物を生成する能力は、特定の疾患や標的をターゲットにした薬物の発見を可能にし、最終的には患者により良い治療を与える。 本稿ではまず,薬物分子とそれに対応する指標を翻訳する新しいタスクを提案し,その上で既存のLSMを試験する。 具体的には、T5 LLMの9つのバリエーションを検討し、ChEMBL と DrugBank から得られた2つの公開データセットで評価する。 実験では,このタスクにllmを用いた初期結果を示し,最先端の展望を示す。 私たちはまた、現在の制限を強調し、このタスクのパフォーマンスを改善する可能性のある将来の仕事について議論します。 指標から分子を作り出すことは、疾患のより効率的なターゲティングを可能にし、薬物発見のコストを大幅に削減し、生成的AIの時代における薬物発見の分野に革命をもたらす可能性がある。

A drug molecule is a substance that changes the organism's mental or physical state. Every approved drug has an indication, which refers to the therapeutic use of that drug for treating a particular medical condition. While the Large Language Model (LLM), a generative Artificial Intelligence (AI) technique, has recently demonstrated effectiveness in translating between molecules and their textual descriptions, there remains a gap in research regarding their application in facilitating the translation between drug molecules and indications, or vice versa, which could greatly benefit the drug discovery process. The capability of generating a drug from a given indication would allow for the discovery of drugs targeting specific diseases or targets and ultimately provide patients with better treatments. In this paper, we first propose a new task, which is the translation between drug molecules and corresponding indications, and then test existing LLMs on this new task. Specifically, we consider nine variations of the T5 LLM and evaluate them on two public datasets obtained from ChEMBL and DrugBank. Our experiments show the early results of using LLMs for this task and provide a perspective on the state-of-the-art. We also emphasize the current limitations and discuss future work that has the potential to improve the performance on this task. The creation of molecules from indications, or vice versa, will allow for more efficient targeting of diseases and significantly reduce the cost of drug discovery, with the potential to revolutionize the field of drug discovery in the era of generative AI.
翻訳日:2024-02-21 00:24:43 公開日:2024-02-16
# クラウドセキュリティ脆弱性検出のためのAI計画の活用

Leveraging AI Planning For Detecting Cloud Security Vulnerabilities ( http://arxiv.org/abs/2402.10985v1 )

ライセンス: Link先を確認
Mikhail Kazdagli, Mohit Tiwari, Akshat Kumar(参考訳) クラウドコンピューティングサービスは、データストレージ、処理、コラボレーションのためのスケーラブルで費用効率の良いソリューションを提供する。 人気の高まりとともに、データ漏洩やランサムウェアなどの高度な攻撃につながるセキュリティ脆弱性に関する懸念が高まっている。 まず,ユーザやデータストア,セキュリティロールなど,さまざまなクラウドオブジェクト間の関係を表現し,クラウドシステムにおけるアクセス制御ポリシをモデル化するための汎用フレームワークを提案する。 アクセス制御のミスコンフィギュレーションがクラウド攻撃の主な原因であることが多い。 第2に,ランサムウェアや機密データ流出など,広範な攻撃につながる可能性のあるセキュリティ脆弱性を検出するpddlモデルを開発した。 プランナーはクラウド上の脆弱性を識別するための攻撃を生成できる。 最後に、当社のアプローチを、異なる商用組織の14のAmazon AWSクラウド構成でテストしています。 我々のシステムは、最先端の業界ツールが検出できない幅広いセキュリティ脆弱性を特定できる。

Cloud computing services provide scalable and cost-effective solutions for data storage, processing, and collaboration. Alongside their growing popularity, concerns related to their security vulnerabilities leading to data breaches and sophisticated attacks such as ransomware are growing. To address these, first, we propose a generic framework to express relations between different cloud objects such as users, datastores, security roles, to model access control policies in cloud systems. Access control misconfigurations are often the primary driver for cloud attacks. Second, we develop a PDDL model for detecting security vulnerabilities which can for example lead to widespread attacks such as ransomware, sensitive data exfiltration among others. A planner can then generate attacks to identify such vulnerabilities in the cloud. Finally, we test our approach on 14 real Amazon AWS cloud configurations of different commercial organizations. Our system can identify a broad range of security vulnerabilities, which state-of-the-art industry tools cannot detect.
翻訳日:2024-02-21 00:16:58 公開日:2024-02-16
# ニューラルネットワーク脆弱性の量子インスパイア解析:システム攻撃における共役変数の役割

Quantum-Inspired Analysis of Neural Network Vulnerabilities: The Role of Conjugate Variables in System Attacks ( http://arxiv.org/abs/2402.10983v1 )

ライセンス: Link先を確認
Jun-Jie Zhang, Deyu Meng(参考訳) ニューラルネットワークは、敵の攻撃として現れる小さな非ランダムな摂動に固有の脆弱性を示す。 このような攻撃は入力に対する損失関数の勾配から生じ、入力共役として認識され、ネットワーク構造内のシステム的脆弱性が明らかにされる。 興味深いことに、この機構と量子物理学の不確実性原理の間に数学的合同が現れ、予想外の学際性に光を当てる。 ニューラルネットワークシステムにおけるこの固有の感受性は、一般的に本質的であり、これらのネットワークの本質的な脆弱性だけでなく、これらのブラックボックスネットワークを理解するための学際領域の潜在的な進歩を示唆している。

Neural networks demonstrate inherent vulnerability to small, non-random perturbations, emerging as adversarial attacks. Such attacks, born from the gradient of the loss function relative to the input, are discerned as input conjugates, revealing a systemic fragility within the network structure. Intriguingly, a mathematical congruence manifests between this mechanism and the quantum physics' uncertainty principle, casting light on a hitherto unanticipated interdisciplinarity. This inherent susceptibility within neural network systems is generally intrinsic, highlighting not only the innate vulnerability of these networks but also suggesting potential advancements in the interdisciplinary area for understanding these black-box networks.
翻訳日:2024-02-21 00:16:44 公開日:2024-02-16
# 2次元シュロディンガー方程式を解くためのエルマイトニューラルネットワークシミュレーション

Hermite Neural Network Simulation for Solving the 2D Schrodinger Equation ( http://arxiv.org/abs/2402.10649v1 )

ライセンス: Link先を確認
Kourosh Parand, Aida Pakniyat(参考訳) シュロディンガー方程式(schrodinger equation)は、量子力学系における波動関数の挙動を記述する数学的方程式である。 これは偏微分方程式であり、量子力学の基本原理に関する貴重な洞察を与える。 本稿では,ニューラルネットワークとコロケーション法に基づくエルマイト関数の混合を用いて,シュロディンガー方程式を十分な精度で解くことを目的とした。 当初、エルマイト関数の根はコロケーションポイントとして用いられ、溶液の効率が向上した。 シュロディンガー方程式は無限領域で定義され、ヘルミテ函数を活性化関数として用いると精度が良くなる。 最後に,MATLABのSimulinkツールを用いてシミュレーションを行った。 その結果,物理インフォームドニューラルネットワークと提案手法を用いて得られた結果と比較した。

The Schrodinger equation is a mathematical equation describing the wave function's behavior in a quantum-mechanical system. It is a partial differential equation that provides valuable insights into the fundamental principles of quantum mechanics. In this paper, the aim was to solve the Schrodinger equation with sufficient accuracy by using a mixture of neural networks with the collocation method base Hermite functions. Initially, the Hermite functions roots were employed as collocation points, enhancing the efficiency of the solution. The Schrodinger equation is defined in an infinite domain, the use of Hermite functions as activation functions resulted in excellent precision. Finally, the proposed method was simulated using MATLAB's Simulink tool. The results were then compared with those obtained using Physics-informed neural networks and the presented method.
翻訳日:2024-02-21 00:13:17 公開日:2024-02-16
# 量子一次元ANNNIモデルの位相図の探索

Exploring the Phase Diagram of the quantum one-dimensional ANNNI model ( http://arxiv.org/abs/2402.11022v1 )

ライセンス: Link先を確認
M. Cea, M. Grossi, S. Monaco, E. Rico, L. Tagliacozzo, S. Vallecorsa(参考訳) 本稿では,QML と TN の交叉を,一次元の ANNNI モデルと横場との文脈で検討する。 この研究は、アルゴリズム構築の様々な段階においてQMLとTNを具体的に結合することを目的としており、ANNNIモデルの位相図再構成と教師なしおよび教師なしの技術に焦点を当てている。 このモデルの意義は、量子ゆらぎとフラストレーションのある交換相互作用の表現にあり、磁気秩序、フラストレーション、浮遊相の存在を研究するためのパラダイムとなっている。 結論として、qcnnの制限への対処やqcのより現実的な実装の探求など、システムサイズの増加からの洞察や今後の作業に対する考慮を含む、結果に関する議論を締めくくっている。

In this manuscript, we explore the intersection of QML and TN in the context of the one-dimensional ANNNI model with a transverse field. The study aims to concretely connect QML and TN by combining them in various stages of algorithm construction, focusing on phase diagram reconstruction for the ANNNI model, with supervised and unsupervised techniques. The model's significance lies in its representation of quantum fluctuations and frustrated exchange interactions, making it a paradigm for studying magnetic ordering, frustration, and the presence of a floating phase. It concludes with discussions of the results, including insights from increased system sizes and considerations for future work, such as addressing limitations in QCNN and exploring more realistic implementations of QC.
翻訳日:2024-02-21 00:03:49 公開日:2024-02-16
# TITAN: 大規模トラッピングIon NISQコンピュータ

TITAN: A Distributed Large-Scale Trapped-Ion NISQ Computer ( http://arxiv.org/abs/2402.11021v1 )

ライセンス: Link先を確認
Cheng Chu, Zhenxiao Fu, Yilun Xu, Gang Huang, Hausi Muller, Fan Chen, Lei Jiang(参考訳) Trapped-Ion (TI)技術は、ノイズ中間スケール量子(NISQ)コンピューティングの潜在的なブレークスルーを提供する。 TI量子ビットはコヒーレンス時間と高いゲート忠実度を提供し、大規模なNISQコンピュータにアピールする。 このようなコンピュータを構築するには、量子電荷結合デバイス(qccds)を量子マターリンクとフォトニックスイッチで接続する分散アーキテクチャが必要である。 しかし、現在の分散TI NISQコンピュータはハードウェアとシステムの問題に直面している。 フォトニックスイッチをまたいで量子ビットを絡めるとかなりの遅延が発生し、一方既存のコンパイラは相互接続トポロジを知らずにサブ最適マッピングを生成する。 本稿では,タイタンという大規模分散ti nisqコンピュータについて紹介する。タングルメント遅延を低減するための革新的なフォトニック相互接続設計と,物質リンク通信を最適化する高度なパーティショニング・マッピングアルゴリズムを用いる。 評価の結果、TITANは既存のシステムに比べて56.6%、忠実度は19.7%大幅に向上した。

Trapped-Ion (TI) technology offers potential breakthroughs for Noisy Intermediate Scale Quantum (NISQ) computing. TI qubits offer extended coherence times and high gate fidelity, making them appealing for large-scale NISQ computers. Constructing such computers demands a distributed architecture connecting Quantum Charge Coupled Devices (QCCDs) via quantum matter-links and photonic switches. However, current distributed TI NISQ computers face hardware and system challenges. Entangling qubits across a photonic switch introduces significant latency, while existing compilers generate suboptimal mappings due to their unawareness of the interconnection topology. In this paper, we introduce TITAN, a large-scale distributed TI NISQ computer, which employs an innovative photonic interconnection design to reduce entanglement latency and an advanced partitioning and mapping algorithm to optimize matter-link communications. Our evaluations show that TITAN greatly enhances quantum application performance by 56.6% and fidelity by 19.7% compared to existing systems.
翻訳日:2024-02-21 00:03:35 公開日:2024-02-16
# 多体物理学のためのニューラルネットワーク量子状態

Neural-network quantum states for many-body physics ( http://arxiv.org/abs/2402.11014v1 )

ライセンス: Link先を確認
Matija Medvidovi\'c, Javier Robledo Moreno(参考訳) 変分量子計算は近年、機械学習コミュニティから多くのツールやアルゴリズムを借用している。 高い表現力と効率的な勾配に基づく最適化を活用することで、深層学習問題に触発された試行状態がスピン系、フェルミオン系、量子ビット系の多体相関現象を正確にモデル化できることを示した。 本稿では, 基底状態探索, 時間発展, 重複最適化など, 異なるフレーバーの変動型モンテカルロ(VMC)アプローチの中心方程式を導出し, 量子状態トモグラフィーのようなデータ駆動タスクについて議論する。 変分多様体の幾何学と実用的実装におけるボトルネックに重点が置かれている。 第一原理基底状態とリアルタイム計算の最近の結果について概説する。

Variational quantum calculations have borrowed many tools and algorithms from the machine learning community in the recent years. Leveraging great expressive power and efficient gradient-based optimization, researchers have shown that trial states inspired by deep learning problems can accurately model many-body correlated phenomena in spin, fermionic and qubit systems. In this review, we derive the central equations of different flavors variational Monte Carlo (VMC) approaches, including ground state search, time evolution and overlap optimization, and discuss data-driven tasks like quantum state tomography. An emphasis is put on the geometry of the variational manifold as well as bottlenecks in practical implementations. An overview of recent results of first-principles ground-state and real-time calculations is provided.
翻訳日:2024-02-21 00:03:15 公開日:2024-02-16
# 実世界コーパスを用いたデータプラクティスの自動検出と分析

Automated Detection and Analysis of Data Practices Using A Real-World Corpus ( http://arxiv.org/abs/2402.11006v1 )

ライセンス: Link先を確認
Mukund Srinath, Pranav Venkit, Maria Badillo, Florian Schaub, C. Lee Giles, Shomir Wilson(参考訳) プライバシポリシは、データプラクティスをユーザに通知する上で極めて重要であるが、その長さと複雑さによって、ユーザによるデータ読み込みが妨げられることが多い。 本稿では,プライバシポリシ内のデータプラクティスを,さまざまなレベルで詳細に識別し,視覚化するための自動アプローチを提案する。 ToS;DRプラットフォームからクラウドソースアノテーションを活用することで、ポリシーの抜粋と事前定義されたデータプラクティス記述とを一致させる様々な手法を実験する。 さらに,現実の政策に対するアプローチを評価するケーススタディを実施し,複雑な政策を簡素化する上での有効性を実証する。 実験により,提案手法は,データ実践記述とポリシーの抜粋とを正確に一致させ,ユーザへのプライバシ情報の簡易提示を容易にすることを示した。

Privacy policies are crucial for informing users about data practices, yet their length and complexity often deter users from reading them. In this paper, we propose an automated approach to identify and visualize data practices within privacy policies at different levels of detail. Leveraging crowd-sourced annotations from the ToS;DR platform, we experiment with various methods to match policy excerpts with predefined data practice descriptions. We further conduct a case study to evaluate our approach on a real-world policy, demonstrating its effectiveness in simplifying complex policies. Experiments show that our approach accurately matches data practice descriptions with policy excerpts, facilitating the presentation of simplified privacy information to users.
翻訳日:2024-02-21 00:03:03 公開日:2024-02-16
# バリューバイアスを探る - LLMはどのように理想に向かって進化するか

Exploring Value Biases: How LLMs Deviate Towards the Ideal ( http://arxiv.org/abs/2402.11005v1 )

ライセンス: Link先を確認
Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz(参考訳) 大規模言語モデル(llm)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。 LLMの応答の非決定的メカニズムを理解することは、それらの性能を説明し、現実のアプリケーションにおけるバイアスを識別するのに不可欠である。 これは人間の研究と類似しており、そのような不注意な反応をサンプリングと呼ぶ。 本研究では,LLMのサンプリングを値バイアスに照らして検討し,LLMのサンプリングが高値オプションを好む傾向があることを示す。 値バイアスは、LLMで表される理想値への最も可能性が高い応答のこのシフトに対応する。 実際、この効果は、コンテキスト内プロンプトを通じて学習した新しいエンティティでも再現できる。 このバイアスは予期せぬ場所で現れ、例を挙げるなど、関連するアプリケーションシナリオに影響を及ぼすことを示す。 以上の結果から,LLMにおける価値バイアスは,人間の研究結果と同様,異なるカテゴリで強いことが示唆された。

Large-Language-Models (LLMs) are deployed in a wide range of applications, and their response has an increasing social impact. Understanding the non-deliberate(ive) mechanism of LLMs in giving responses is essential in explaining their performance and discerning their biases in real-world applications. This is analogous to human studies, where such inadvertent responses are referred to as sampling. We study this sampling of LLMs in light of value bias and show that the sampling of LLMs tends to favour high-value options. Value bias corresponds to this shift of response from the most likely towards an ideal value represented in the LLM. In fact, this effect can be reproduced even with new entities learnt via in-context prompting. We show that this bias manifests in unexpected places and has implications on relevant application scenarios, like choosing exemplars. The results show that value bias is strong in LLMs across different categories, similar to the results found in human studies.
翻訳日:2024-02-21 00:02:49 公開日:2024-02-16
# 統計的誘導頭部の進化:マルコフ連鎖の文脈学習

The Evolution of Statistical Induction Heads: In-Context Learning Markov Chains ( http://arxiv.org/abs/2402.11004v1 )

ライセンス: Link先を確認
Benjamin L. Edelman, Ezra Edelman, Surbhi Goel, Eran Malach, Nikolaos Tsilivis(参考訳) 大きな言語モデルは、入力のパターンを模倣するテキストを生成することができる。 我々は,この文脈内学習(icl)能力がどのように出現するかを検討するために,単純なマルコフ連鎖シーケンスモデリングタスクを導入する。 この設定では、各サンプルはマルコフ連鎖上の事前分布から引き出されたマルコフ連鎖からサンプリングされる。 このタスクで訓練されたトランスフォーマーは \emph{statistical induction heads} という形式で、コンテキストのbigram統計量から精度の高い次の予測確率を計算する。 トレーニングの過程において、モデルは複数のフェーズを通り抜ける: 予測が均一な初期段階の後、彼らは、コンテキスト内シングルトーケン統計(ユニグラム)を使用して、サブ最適に予測することを学ぶ。 我々は, この多相過程の実証的理論的研究を行い, 変圧器層間の相互作用から学習結果が得られたこと, より単純なユニグラム溶液の存在が最終ビッグラム溶液の形成を遅らせる証拠を明らかにする。 我々は,マルコフ連鎖上の事前分布を変化させて学習がどう影響するかを調べ,マルコフ連鎖(icl-mc)タスクの文脈内学習をn>2$でn$-gramsに一般化することを検討する。

Large language models have the ability to generate text that mimics patterns in their inputs. We introduce a simple Markov Chain sequence modeling task in order to study how this in-context learning (ICL) capability emerges. In our setting, each example is sampled from a Markov chain drawn from a prior distribution over Markov chains. Transformers trained on this task form \emph{statistical induction heads} which compute accurate next-token probabilities given the bigram statistics of the context. During the course of training, models pass through multiple phases: after an initial stage in which predictions are uniform, they learn to sub-optimally predict using in-context single-token statistics (unigrams); then, there is a rapid phase transition to the correct in-context bigram solution. We conduct an empirical and theoretical investigation of this multi-phase process, showing how successful learning results from the interaction between the transformer's layers, and uncovering evidence that the presence of the simpler unigram solution may delay formation of the final bigram solution. We examine how learning is affected by varying the prior distribution over Markov chains, and consider the generalization of our in-context learning of Markov chains (ICL-MC) task to $n$-grams for $n > 2$.
翻訳日:2024-02-21 00:02:34 公開日:2024-02-16
# ASGEA: エンティティアライメントのためのAlign-Subgraphsからのロジックルールのエクスプロイト

ASGEA: Exploiting Logic Rules from Align-Subgraphs for Entity Alignment ( http://arxiv.org/abs/2402.11000v1 )

ライセンス: Link先を確認
Yangyifei Luo, Zhuo Chen, Lingbing Guo, Qian Li, Wenxuan Zeng, Zhixin Cai, Jianxin Li(参考訳) エンティティアライメント(EA)は、同じ現実世界のオブジェクトを表す異なる知識グラフにまたがるエンティティを識別することを目的としている。 最近の埋め込みベースのEAメソッドは、EAで最先端のパフォーマンスを達成したが、純粋に埋め込み距離に依存し、一対の整列したエンティティの背後にあるロジックルールを無視しているため、解釈可能性の問題に直面した。 本稿では,アライメント・サブグラフから論理ルールを利用するためのアライメント・サブグラフ・エンティティアライメント(asgea)フレームワークを提案する。 ASGEAは橋としてアンカーリンクを使用し、Align-Subgraphを構築し、KGにまたがる経路に沿って展開する。 さらに,解釈可能なパスベースグラフニューラルネットワークASGNNを設計し,KG間の論理規則を効果的に識別し,統合する。 また,ノードレベルのマルチモーダルアテンション機構とマルチモーダルアンカーを組み合わせることで,Align-Subgraphの拡張を行う。 実験の結果,既存の組込み方式に比べて,MMEA(Multi-Modal EA)タスクにおけるASGEAの優れた性能が示された。 私たちのコードはもうすぐ利用可能になるでしょう。

Entity alignment (EA) aims to identify entities across different knowledge graphs that represent the same real-world objects. Recent embedding-based EA methods have achieved state-of-the-art performance in EA yet faced interpretability challenges as they purely rely on the embedding distance and neglect the logic rules behind a pair of aligned entities. In this paper, we propose the Align-Subgraph Entity Alignment (ASGEA) framework to exploit logic rules from Align-Subgraphs. ASGEA uses anchor links as bridges to construct Align-Subgraphs and spreads along the paths across KGs, which distinguishes it from the embedding-based methods. Furthermore, we design an interpretable Path-based Graph Neural Network, ASGNN, to effectively identify and integrate the logic rules across KGs. We also introduce a node-level multi-modal attention mechanism coupled with multi-modal enriched anchors to augment the Align-Subgraph. Our experimental results demonstrate the superior performance of ASGEA over the existing embedding-based methods in both EA and Multi-Modal EA (MMEA) tasks. Our code will be available soon.
翻訳日:2024-02-21 00:02:08 公開日:2024-02-16
# 高齢者2型糖尿病のマルチクラス分類による解析と死亡予測

Analysis and Mortality Prediction using Multiclass Classification for Older Adults with Type 2 Diabetes ( http://arxiv.org/abs/2402.10999v1 )

ライセンス: Link先を確認
Ruchika Desure, Gutha Jaya Krishna(参考訳) 糖尿病を管理するための適切な治療計画を設計するには、医療従事者が生活の残る個人に注意を払う必要がある。 2型糖尿病(T2DM)の高齢者は早期死亡や低血糖を経験する傾向にある。 利用された構造化データセットは、65歳以上の米軍退役軍人275,190人の死亡率予測器を68個備えている。 2つの元のターゲット変数を組み合わせることで、新しいターゲット変数が発明される。 外乱は連続変数の離散化によって処理される。 分類変数はダミー符号化されている。 クラスバランスはランダムアンダーサンプリングによって達成される。 ベンチマーク回帰モデルは、LASSOを用いたマルチノミカルロジスティック回帰を用いて構築される。 Chi-SquaredとInformation Gainはフィルタベースの特徴選択技術である。 Multinomial Logistic Regression、Random Forest、Extreme Gradient Boosting (XGBoost)、One-vs-Restといった分類器が様々なモデルを構築するために使われている。 予想に反して、すべてのモデルは常に性能が劣っている。 XGBoostは、Chi-Squaredの機能選択で最高53.03%の精度を与えている。 全てのモデルは、一貫してクラス3(残留寿命は10年以上)、クラス1(残留寿命は5年)、クラス2(残留寿命は5年以上、最大寿命は10年)の許容性能を示している。 特徴分析は、ほとんど全ての入力変数が複数のターゲットクラスに関連付けられていることを推測している。 ダミー符号化後の入力データの高次元はモデルを混乱させ、誤分類を招いたようである。 本研究のアプローチは, 高い性能の予測モデルを作成するには有効ではないが, マルチクラス分類の観点から見たことがないため, 基礎となっている。

Designing proper treatment plans to manage diabetes requires health practitioners to pay heed to the individuals remaining life along with the comorbidities affecting them. Older adults with Type 2 Diabetes Mellitus (T2DM) are prone to experience premature death or even hypoglycaemia. The structured dataset utilized has 68 potential mortality predictors for 275,190 diabetic U.S. military Veterans aged 65 years or older. A new target variable is invented by combining the two original target variables. Outliers are handled by discretizing the continuous variables. Categorical variables have been dummy encoded. Class balancing is achieved by random under-sampling. A benchmark regression model is built using Multinomial Logistic Regression with LASSO. Chi-Squared and Information Gain are the filter-based feature selection techniques utilized. Classifiers such as Multinomial Logistic Regression, Random Forest, Extreme Gradient Boosting (XGBoost), and One-vs-Rest classifier are employed to build various models. Contrary to expectations, all the models have constantly underperformed. XGBoost has given the highest accuracy of 53.03 percent with Chi-Squared feature selection. All the models have consistently shown an acceptable performance for Class 3 (remaining life is more than 10 years), significantly low for Class 1 (remaining life is up to 5 years), and the worst for Class 2 (remaining life is more than 5 but up to 10 years). Features analysis has deduced that almost all input variables are associated with multiple target classes. The high dimensionality of the input data after dummy encoding seems to have confused the models, leading to misclassifications. The approach taken in this study is ineffective in producing a high-performing predictive model but lays a foundation as this problem has never been viewed from a multiclass classification perspective.
翻訳日:2024-02-21 00:01:47 公開日:2024-02-16
# 微分動的論理による安全なニューラルネットワーク制御

Provably Safe Neural Network Controllers via Differential Dynamic Logic ( http://arxiv.org/abs/2402.10998v1 )

ライセンス: Link先を確認
Samuel Teuber, Stefan Mitsch and Andr\'e Platzer(参考訳) ニューラルネットワーク(NN)はサイバー物理システムのための目標指向コントローラとして大きな可能性を秘めているが、ニューラルネットワークベースの制御システム(NNCS)の安全性を検証することは、NNの実用化に重大な課題をもたらす。 この理由の1つは、nnとハイブリッドシステム分析の難解さである。 VerSAILLE (Verifiably Safe AI via Logically Linked Envelopes): 微分動的論理(dL)とNN検証を組み合わせた最初のアプローチ。 dL の厳密さを維持しながら NN 検証ツールの効率性を活用することができる。 NNにおけるコントローラエンベロープの安全性証明を反映して,コンクリートNNCSの安全性を無限時間水平線上で証明する。 VerSAILLE から得られる NN の検証特性は一般に非線形算術を必要とするが、効率的な NN 検証ツールは単に線形算術をサポートするだけである。 この分割を克服するために,区間線形nn上の多項式実算術特性に対する最初の健全かつ完全検証手法であるモザイクを提案する。 モザイクは、非線形設定への線形特性のための既製ツールを持ち上げる。 適応型巡航制御や空中衝突回避を含むケーススタディの評価は,VerSAILLEとMosaicの汎用性を実証している。

While neural networks (NNs) have a large potential as goal-oriented controllers for Cyber-Physical Systems, verifying the safety of neural network based control systems (NNCSs) poses significant challenges for the practical use of NNs -- especially when safety is needed for unbounded time horizons. One reason for this is the intractability of NN and hybrid system analysis. We introduce VerSAILLE (Verifiably Safe AI via Logically Linked Envelopes): The first approach for the combination of differential dynamic logic (dL) and NN verification. By joining forces, we can exploit the efficiency of NN verification tools while retaining the rigor of dL. We reflect a safety proof for a controller envelope in an NN to prove the safety of concrete NNCS on an infinite-time horizon. The NN verification properties resulting from VerSAILLE typically require nonlinear arithmetic while efficient NN verification tools merely support linear arithmetic. To overcome this divide, we present Mosaic: The first sound and complete verification approach for polynomial real arithmetic properties on piece-wise linear NNs. Mosaic lifts off-the-shelf tools for linear properties to the nonlinear setting. An evaluation on case studies, including adaptive cruise control and airborne collision avoidance, demonstrates the versatility of VerSAILLE and Mosaic: It supports the certification of infinite-time horizon safety and the exhaustive enumeration of counterexample regions while significantly outperforming State-of-the-Art tools in closed-loop NNV.
翻訳日:2024-02-21 00:01:19 公開日:2024-02-16
# 弦重力下におけるワームホール溶液の非連想的幾何学的および量子的情報フローとR-フラックス変形

Nonassociative geometric and quantum information flows and R-flux deformations of wormhole solutions in string gravity ( http://arxiv.org/abs/2402.10993v1 )

ライセンス: Link先を確認
Lauren\c{t}iu Bubuianu, Douglas Singleton, Sergiu I. Vacaru, El\c{s}en Veli Veliev(参考訳) この記事では、弦重力におけるr流束変形を伴う星生成物によって定義される非結合幾何学的古典的および量子的情報流の理論の紹介から成る。 古典シャノンエントロピーの概念の非連想的一般化に対応する量子フォン・ノイマンエントロピー、R\'{e}nyiエントロピーが定式化される。 基本的な幾何学的および量子的情報対象は、リッチフローに対するグリゴリ・ペレルマンの統計熱力学的アプローチと(co)接ローレンツ束としてモデル化された位相空間に一般化された重力理論に従って計算される。 非結合的パラメトリック変形と統計生成関数の非ホロノミック熱幾何学的バージョン、その密度行列としての量子アナログはエントロピー、エネルギー、揺らぎ関数を導出するために考慮される。 これにより、古典的、量子的、条件的エントロピー、相互情報、非連想的絡み合いおよび熱力学的情報変数の定義と計算が可能となる。 非連想的量子幾何学および情報フロー理論の原理を定式化し、修正重力理論に関連する準定常モデルの基本的な性質を研究する。 4次元の4次元のワームホール(各時空および/または運動量型座標で定義される)と8次元の位相空間一般化ワームホール構成の非連想QGIFの非連想変形および絡み合ったカップルに応用される。 最後に, 位相空間ブラックホールやワームホールが非結合量子ビット, 量子チャネル, エンタングルメント証人に対して可逆的であること, 思考実験, 実験室実験, 非結合幾何学的流れおよび重力理論の量子コンピュータモデリングおよび実験の展望について考察する。

This article consists of an introduction to the theory of nonassociative geometric classical and quantum information flows defined by star products with R-flux deformations in string gravity. Corresponding nonassociative generalizations of the concepts of classical Shannon entropy, quantum von Neumann entropy, R\'{e}nyi entropy are formulated. The fundamental geometric and quantum information objects are computed following the Grigori Perelman statistical thermodynamic approach to Ricci flows and gravity theories generalized for phase spaces modelled as (co) tangent Lorentz bundles. Nonassociative parametric deformations and nonholonomic thermo-geometric versions of statistical generating functions, their quantum analogues as density matrices are considered for deriving the entropy, energy and fluctuation functionals. This allows us to define and compute respective classical and quantum relative and conditional entropies, mutual information and nonassociative entanglement and thermodynamic information variables. We formulate the principles of nonassociative quantum geometric and information flow theory, QGIF, and study the basic properties of such quasi-stationary models related to modified gravity theories. Applications are considered for nonassociative deformed and entangled couples of four-dimensional, 4-d, wormholes (defined by respective spacetime and/or momentum type coordinates) and nonassociative QGIFs of 8-d phase space generalized wormholes configurations. Finally, we speculate on phase space black holes and wormholes being transversable for nonassociative qubits, quantum channels and entanglement witness; thought and laboratory experiments are discussed; and perspectives for quantum computer modelling and tests of nonassociative geometric flow and gravity theories are considered.
翻訳日:2024-02-21 00:00:53 公開日:2024-02-16
# 「Understanding AI」:大規模言語モデルにおける意味的接地

"Understanding AI": Semantic Grounding in Large Language Models ( http://arxiv.org/abs/2402.10992v1 )

ライセンス: Link先を確認
Holger Lyre(参考訳) LLMは生成するテキストの意味を理解していますか? 彼らは意味的な根拠を持っていますか? 彼らが何を理解しているのか どのように理解できるでしょうか? LLMを含む生成モデルが自己教師型学習の鍵となるので、最近私たちはAIの世代的転換を目の当たりにしました。 セマンティック・グラウンディングの課題を評価するために,5つの方法論を区別し,議論する。 最も有望な方法は、心の哲学と言語における意味の理論のコア仮定をLLMに適用することである。 接地は、機能的、社会的、因果的接地を3次元的に区別した段階的な関係であることが証明される。 LLMは3次元すべてに基本的な証拠を示す。 LLMは世界モデルを開発するという強い主張がある。 したがって、LLMは確率的なオウムでもセマンティックゾンビでもないが、少なくとも初等的な意味で、彼らが生成する言語を既に理解している。

Do LLMs understand the meaning of the texts they generate? Do they possess a semantic grounding? And how could we understand whether and what they understand? I start the paper with the observation that we have recently witnessed a generative turn in AI, since generative models, including LLMs, are key for self-supervised learning. To assess the question of semantic grounding, I distinguish and discuss five methodological ways. The most promising way is to apply core assumptions of theories of meaning in philosophy of mind and language to LLMs. Grounding proves to be a gradual affair with a three-dimensional distinction between functional, social and causal grounding. LLMs show basic evidence in all three dimensions. A strong argument is that LLMs develop world models. Hence, LLMs are neither stochastic parrots nor semantic zombies, but already understand the language they generate, at least in an elementary sense.
翻訳日:2024-02-21 00:00:21 公開日:2024-02-16
# 半非同期フェデレーション学習の高速化

Accelerating Semi-Asynchronous Federated Learning ( http://arxiv.org/abs/2402.10991v1 )

ライセンス: Link先を確認
Changxin Xu, Yuxin Qiao, Zhanxin Zhou, Fanghao Ni, and Jize Xiong(参考訳) Federated Learning(FL)は、クライアントがプライバシを保持しながらデータ上でモデルをトレーニングできる分散機械学習パラダイムである。 フェデレート平均化(FedAvg)などのFLアルゴリズムは、多くのシナリオにおいてよく収束することが示されている。 しかし、これらの手法ではクライアントがローカルアップデートを同期的にサーバにアップロードする必要があるため、現実的なFL設定では遅くて信頼性が低い。 この問題に対処するため、研究者らは、クライアントが古いグローバルモデルを使用してローカルデータのトレーニングを継続できる非同期FLメソッドを開発した。 しかしながら、これらの手法のほとんどは、相対的なコントリビューションを考慮せずに、単に受信した更新をすべて集約する。 本稿では,受信した更新の安定性と統計的不均一性を考慮したコントリビューション対応非同期FL法を提案する。 本手法は,これらの要因に基づいて各更新のコントリビューションを動的に調整し,既存の方法と比較して収束を高速化する。

Federated Learning (FL) is a distributed machine learning paradigm that allows clients to train models on their data while preserving their privacy. FL algorithms, such as Federated Averaging (FedAvg) and its variants, have been shown to converge well in many scenarios. However, these methods require clients to upload their local updates to the server in a synchronous manner, which can be slow and unreliable in realistic FL settings. To address this issue, researchers have developed asynchronous FL methods that allow clients to continue training on their local data using a stale global model. However, most of these methods simply aggregate all of the received updates without considering their relative contributions, which can slow down convergence. In this paper, we propose a contribution-aware asynchronous FL method that takes into account the staleness and statistical heterogeneity of the received updates. Our method dynamically adjusts the contribution of each update based on these factors, which can speed up convergence compared to existing methods.
翻訳日:2024-02-21 00:00:06 公開日:2024-02-16
# 暗号:古典と後量子

Cryptography: Classical versus Post-Quantum ( http://arxiv.org/abs/2402.10988v1 )

ライセンス: Link先を確認
Abhinav Awasthi and Atul Chaturvedi(参考訳) 古典暗号に対する量子後暗号の利点を,本調査で概説する。 いくつかのポスト量子暗号技術に対処する。 我々は、量子セーフ暗号システムの展開がセキュアな通信の未来であり、ポスト量子時代の機密情報のセキュリティを保証するためには、ポスト量子暗号の開発が不可欠であると結論付けている。

The advantages of post-quantum cryptography over classical cryptography are covered in this survey. We address several post-quantum cryptography techniques. We conclude that the deployment of quantum-safe cryptographic systems is anticipated to be the future of secure communication, and that the development of post-quantum cryptography is essential to guarantee the security of sensitive information in the post quantum era.
翻訳日:2024-02-20 23:59:48 公開日:2024-02-16
# wilke: 生涯の知識編集のためのワイズレイヤーナレッジエディタ

WilKE: Wise-Layer Knowledge Editor for Lifelong Knowledge Editing ( http://arxiv.org/abs/2402.10987v1 )

ライセンス: Link先を確認
Chenhui Hu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao(参考訳) 知識編集は、大規模言語モデル(LLM)における不正確さを、時代遅れや誤った知識のためにコストがかかることなく修正することを目的としている。 しかし、現在の知識編集手法は主に単一編集に焦点を当てており、生涯編集の要件を満たしていない。 本稿では,生涯編集は生涯の知識編集と同義である。 本研究は,生涯の編集において知識編集によって生じる,毒性の蓄積と毒性のフラッシュを特徴とし,主な原因がパターン不一致であると同定した。 我々は、異なる層にまたがる編集知識のパターンマッチング度に基づいて、編集層を選択するWilKEという知識編集手法を提案する。 実験結果から,HilKEの生涯編集では,GPT2-XLとGPT-Jの編集方法に対して平均46.2\%,67.8\%の改善が見られた。

Knowledge editing aims to rectify inaccuracies in large language models (LLMs) without costly retraining for outdated or erroneous knowledge. However, current knowledge editing methods primarily focus on single editing, failing to meet the requirements for lifelong editing. In this paper, lifelong editing is synonymous with lifelong knowledge editing. This study reveals a performance degradation encountered by knowledge editing in lifelong editing, characterized by toxicity buildup and toxicity flash, with the primary cause identified as pattern unmatch. We introduce a knowledge editing approach named WilKE, which selects editing layer based on the pattern matching degree of editing knowledge across different layers. Experimental results demonstrate that, in lifelong editing, WilKE exhibits an average improvement of 46.2\% and 67.8\% on editing GPT2-XL and GPT-J relative to state-of-the-art knowledge editing methods.
翻訳日:2024-02-20 23:59:43 公開日:2024-02-16
# FinTral: GPT-4レベルのマルチモーダル金融大規模言語モデルの一家系

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models ( http://arxiv.org/abs/2402.10986v1 )

ライセンス: Link先を確認
Gagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed(参考訳) 我々は、Mistral-7bモデル上に構築され、財務分析に適した、最先端のマルチモーダル言語モデル(LLM)スイートであるFinTralを紹介する。 FinTralはテキスト、数値、表、画像データを統合する。 我々はFinTralをドメイン固有の事前トレーニング、命令の微調整、RLAIFトレーニングで強化し、本研究のためにキュレートしたテキストおよびビジュアルデータセットの大規模なコレクションを活用する。 また、金融分野における幻覚を含む9つのタスクと25のデータセットを含む広範なベンチマークも導入した。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。 全タスクでChatGPT-3.5を上回っ、9タスク中5タスクでGPT-4を上回っており、AI主導の金融技術の大幅な進歩を示している。 また,様々な金融状況において,fintralがリアルタイム分析や意思決定において優れている可能性を示す。

We introduce FinTral, a suite of state-of-the-art multimodal large language models (LLMs) built upon the Mistral-7b model and tailored for financial analysis. FinTral integrates textual, numerical, tabular, and image data. We enhance FinTral with domain-specific pretraining, instruction fine-tuning, and RLAIF training by exploiting a large collection of textual and visual datasets we curate for this work. We also introduce an extensive benchmark featuring nine tasks and 25 datasets for evaluation, including hallucinations in the financial domain. Our FinTral model trained with direct preference optimization employing advanced Tools and Retrieval methods, dubbed FinTral-DPO-T&R, demonstrates an exceptional zero-shot performance. It outperforms ChatGPT-3.5 in all tasks and surpasses GPT-4 in five out of nine tasks, marking a significant advancement in AI-driven financial technology. We also demonstrate that FinTral has the potential to excel in real-time analysis and decision-making in diverse financial contexts.
翻訳日:2024-02-20 23:59:29 公開日:2024-02-16
# VQAttack: 事前学習モデルによる視覚質問応答に対する変換可能な逆攻撃

VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models ( http://arxiv.org/abs/2402.11083v1 )

ライセンス: Link先を確認
Ziyi Yin, Muchao Ye, Tianrong Zhang, Jiaqi Wang, Han Liu, Jinghui Chen, Ting Wang, Fenglong Ma(参考訳) VQA(Visual Question Answering)は、コンピュータビジョンと自然言語処理における基本的なタスクである。 事前学習と微調整」の学習パラダイムはVQA性能を著しく向上させるが、そのような学習パラダイムの対角的堅牢性は検討されていない。 本稿では,事前学習したマルチモーダル・ソース・モデルを用いて,逆行画像とテキストのペアを作成し,ターゲットのvqaモデルを攻撃するために転送する。 そこで,本稿では,大言語モデル(llm)による画像攻撃とクロスモーダル・ジョイント・アタック・モジュールを用いて,画像とテキストの摂動を反復的に生成できる新しいvqattackモデルを提案する。 各イテレーションにおいて、LLM強化イメージアタックモジュールは、まず遅延表現に基づく損失を最適化し、特徴レベルの画像摂動を生成する。 次にllmを組み込んで、マスク付き回答の反回復損失を最適化することにより、画像の摂動をさらに増強する。 クロスモーダルな共同攻撃モジュールは特定のイテレーションで起動され、画像とテキストの摂動を順次更新する。 特に、テキスト摂動更新は、単語埋め込み空間の学習勾配と単語シノニムに基づく置換の両方に基づいて行われる。 5つの検証モデルを持つ2つのVQAデータセットの実験結果は、最新技術ベースラインと比較して、転送可能な攻撃設定におけるVQAttackの有効性を示す。 この研究は、VQAタスクにおける‘事前学習と微調整’のパラダイムにおいて、重大な盲点を明らかにしている。 ソースコードがリリースされる。

Visual Question Answering (VQA) is a fundamental task in computer vision and natural language process fields. Although the ``pre-training & finetuning'' learning paradigm significantly improves the VQA performance, the adversarial robustness of such a learning paradigm has not been explored. In this paper, we delve into a new problem: using a pre-trained multimodal source model to create adversarial image-text pairs and then transferring them to attack the target VQA models. Correspondingly, we propose a novel VQAttack model, which can iteratively generate both image and text perturbations with the designed modules: the large language model (LLM)-enhanced image attack and the cross-modal joint attack module. At each iteration, the LLM-enhanced image attack module first optimizes the latent representation-based loss to generate feature-level image perturbations. Then it incorporates an LLM to further enhance the image perturbations by optimizing the designed masked answer anti-recovery loss. The cross-modal joint attack module will be triggered at a specific iteration, which updates the image and text perturbations sequentially. Notably, the text perturbation updates are based on both the learned gradients in the word embedding space and word synonym-based substitution. Experimental results on two VQA datasets with five validated models demonstrate the effectiveness of the proposed VQAttack in the transferable attack setting, compared with state-of-the-art baselines. This work reveals a significant blind spot in the ``pre-training & fine-tuning'' paradigm on VQA tasks. Source codes will be released.
翻訳日:2024-02-20 23:52:40 公開日:2024-02-16
# 苦労してるの? アセンブリビデオにおけるストラグル決定のためのデータセットとベースライン

Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos ( http://arxiv.org/abs/2402.11057v1 )

ライセンス: Link先を確認
Shijia Feng, Michael Wray, Brian Sullivan, Casimir Ludwig, Iain Gilchrist, and Walterio Mayol-Cuevas(参考訳) 人々がビデオに苦しむときの決定は、アクションのよりきめ細かい理解を可能にし、インテリジェントなサポートビジュアルインターフェースを構築する機会を開く。 本稿では,3つのアセンブリアクティビティとそれに対応するパフォーマンスベースラインを備えた新しいデータセットを提案する。 配管管(パイプ・ストラグル)、投球テント(テント・ストラグル)、ハノイパズル塔(トウワー・ストラグル)の3つの現実的な問題解決活動を紹介する。 ビデオセグメントは、アノテータによって知覚される闘争のレベルが、強制的な選択4ポイントスケールで評価された。 各ビデオセグメントは、クラウドソースアノテーションに加えて、単一の専門家アノテーションによって注釈付けされた。 このデータセットは、73人の参加者から5.1時間の動画と725,100フレームを収録した最初の闘争アノテーションデータセットである。 本研究は,3つの意思決定課題 – 闘争分類,闘争レベル回帰,闘争ラベル分布学習 – を評価する。 我々は,いくつかの主流のディープニューラルネットワークを用いたタスクのベースライン結果と,アブレーション研究と結果の可視化を提供する。 我々の研究は、闘争を分析し、手動活動中のユーザーを支援し、学習を促進し、その他のビデオ理解能力を高める支援システムに動機づけられている。

Determining when people are struggling from video enables a finer-grained understanding of actions and opens opportunities for building intelligent support visual interfaces. In this paper, we present a new dataset with three assembly activities and corresponding performance baselines for the determination of struggle from video. Three real-world problem-solving activities including assembling plumbing pipes (Pipes-Struggle), pitching camping tents (Tent-Struggle) and solving the Tower of Hanoi puzzle (Tower-Struggle) are introduced. Video segments were scored w.r.t. the level of struggle as perceived by annotators using a forced choice 4-point scale. Each video segment was annotated by a single expert annotator in addition to crowd-sourced annotations. The dataset is the first struggle annotation dataset and contains 5.1 hours of video and 725,100 frames from 73 participants in total. We evaluate three decision-making tasks: struggle classification, struggle level regression, and struggle label distribution learning. We provide baseline results for each of the tasks utilising several mainstream deep neural networks, along with an ablation study and visualisation of results. Our work is motivated toward assistive systems that analyze struggle, support users during manual activities and encourage learning, as well as other video understanding competencies.
翻訳日:2024-02-20 23:52:10 公開日:2024-02-16
# 任意局所制御による多体双極子ライドバーグツイーザーアレイの強化

Enhancing a Many-body Dipolar Rydberg Tweezer Array with Arbitrary Local Controls ( http://arxiv.org/abs/2402.11056v1 )

ライセンス: Link先を確認
Guillaume Bornet, Gabriel Emperauger, Cheng Chen, Francisco Machado, Sabrina Chern, Lucas Leclerc, Bastien G\'ely, Daniel Barredo, Thierry Lahaye, Norman Y. Yao, and Antoine Browaeys(参考訳) 我々は、リドバーグ状態のペアに自由度をエンコードする双極子原子配列において任意の局所制御を可能にするプロトコルを実装し、特徴付けする。 我々のアプローチは、局所アドレッシングビームとグローバルマイクロ波フィールドの組み合わせに依存している。 この方法を用いて、w状態と有限キラリティーを示す状態を含む2種類の3原子絡み合い状態を直接作成する。 量子状態トモグラフィーを行い, 基礎となる絡み合いの性質を検証する。 最後に,マルチベースマルチボディ観測器の能力を活用して,三角形プラーペットからなるフラストレーション形状における低エネルギー状態の断熱的準備について検討した。 局所アドレッシングを用いて初期状態の対称性を調整し、それらのキラリティの相関(基本的には6体観測可能)によってのみ区別される相関状態を作成する能力を示す。 我々のプロトコルは汎用的であり、実験中に配列内の原子の任意の部分群を任意のタイミングで回転させることができる。

We implement and characterize a protocol that enables arbitrary local controls in a dipolar atom array, where the degree of freedom is encoded in a pair of Rydberg states. Our approach relies on a combination of local addressing beams and global microwave fields. Using this method, we directly prepare two different types of three-atom entangled states, including a W-state and a state exhibiting finite chirality. We verify the nature of the underlying entanglement by performing quantum state tomography. Finally, leveraging our ability to measure multi-basis, multi-body observables, we explore the adiabatic preparation of low-energy states in a frustrated geometry consisting of a pair of triangular plaquettes. By using local addressing to tune the symmetry of the initial state, we demonstrate the ability to prepare correlated states distinguished only by correlations of their chirality (a fundamentally six-body observable). Our protocol is generic, allowing for rotations on arbitrary subgroups of atoms within the array at arbitrary times during the experiment; this extends the scope of capabilities for quantum simulations of the dipolar XY model.
翻訳日:2024-02-20 23:51:47 公開日:2024-02-16
# Scoring Rulesによる確率予測木の構築

Building Trees for Probabilistic Prediction via Scoring Rules ( http://arxiv.org/abs/2402.11052v1 )

ライセンス: Link先を確認
Sara Shashaani, Ozge Surer, Matthew Plumlee, Seth Guikema(参考訳) データを用いた決定木は、非パラメトリック予測に広く使われている。 確率分布の予測は、不確実性が分析や意思決定において顕著な役割を果たす点予測よりも好ましい。 非パラメトリックな予測分布を生成するために木を改造する。 木構築の標準手法は, よい予測分布を得られない可能性があり, 適切なスコアリングルールに基づいて, 木を分割基準に変更することを提案する。 シミュレーションデータと実データの両方の解析により、これらの新たな分割基準を用いることで、予測分布全体を考慮した予測特性が改善された。

Decision trees built with data remain in widespread use for nonparametric prediction. Predicting probability distributions is preferred over point predictions when uncertainty plays a prominent role in analysis and decision-making. We study modifying a tree to produce nonparametric predictive distributions. We find the standard method for building trees may not result in good predictive distributions and propose changing the splitting criteria for trees to one based on proper scoring rules. Analysis of both simulated data and several real datasets demonstrates that using these new splitting criteria results in trees with improved predictive properties considering the entire predictive distribution.
翻訳日:2024-02-20 23:51:28 公開日:2024-02-16
# 大規模言語モデルが不足 - 探偵物語における複雑な関係の理解

Large Language Models Fall Short: Understanding Complex Relationships in Detective Narratives ( http://arxiv.org/abs/2402.11051v1 )

ライセンス: Link先を確認
Runcong Zhao, Qinglin Zhu, Hainiu Xu, Jiazheng Li, Yuxiang Zhou, Yulan He, Lin Gui(参考訳) ナラティブ理解のための既存のデータセットは、現実の社会シナリオにおける関係の複雑さと不確実性を表現することができないことが多い。 このギャップに対処するために,探偵物語から複雑な文字関係グラフを抽出・解析する新しいベンチマークであるConanを導入する。 具体的には, 階層的関係カテゴリーをデザインし, 様々なキャラクタの観点から, 人手による役割指向関係の抽出と注釈付けを行い, 大部分のキャラクタに知られている公的な関係と, ごく少数に知られている秘密の関係の両方を取り入れた。 GPT-3.5やGPT-4、Llama2といった先進言語モデル(LLM)を用いた実験は、複雑な関係を推論し、より長い物語を扱う際の限界を明らかにする。 コナンデータセットとパイプライン戦略の組み合わせは、物語の文脈におけるニュアンス付きリレーショナルダイナミクスを理解するLLMの能力を理解することを目的としている。

Existing datasets for narrative understanding often fail to represent the complexity and uncertainty of relationships in real-life social scenarios. To address this gap, we introduce a new benchmark, Conan, designed for extracting and analysing intricate character relation graphs from detective narratives. Specifically, we designed hierarchical relationship categories and manually extracted and annotated role-oriented relationships from the perspectives of various characters, incorporating both public relationships known to most characters and secret ones known to only a few. Our experiments with advanced Large Language Models (LLMs) like GPT-3.5, GPT-4, and Llama2 reveal their limitations in inferencing complex relationships and handling longer narratives. The combination of the Conan dataset and our pipeline strategy is geared towards understanding the ability of LLMs to comprehend nuanced relational dynamics in narrative contexts.
翻訳日:2024-02-20 23:51:18 公開日:2024-02-16
# 顧客向けドキュメント負債の特定と最小化に向けて

Towards identifying and minimizing customer-facing documentation debt ( http://arxiv.org/abs/2402.11048v1 )

ライセンス: Link先を確認
Lakmal Silva, Michael Unterkalmsteiner, Krzysztof Wnuk(参考訳) ソフトウェアドキュメントは、しばしばソフトウェア進化のペースに追いつくのに苦労します。 正し、完全で、最新のドキュメントの欠如により、ソフトウェアシステム統合に遅延をもたらす可能性のある、ドキュメントの欠陥が増えている。 前回のMultiDimErというバグ解析ツールの研究で、文書関連欠陥が多くのバグレポートに寄与する証拠を提供した。 まず、ドキュメントの欠陥に寄与するドキュメントの欠陥タイプを特定し、ドキュメントの負債を特定したいのです。 次に、最も一般的なドキュメントの欠陥を最小限に抑えるための実用的なソリューションを見つけ、ドキュメントの負債を長期的に返済することを目指しています。 産業ソフトウェアシステムに関連する文書欠陥を調査した。 まず、さまざまなドキュメンテーションタイプと関連するバグレポートを調べました。 既存の文書欠陥分類に従って欠陥を分類した。 101の欠陥のサンプルに基づいて、ほとんどの欠陥がドキュメントの欠陥が情報コンテンツ(what)カテゴリ(86)に落ち込んでいることが分かりました。 このカテゴリでは、ドキュメントの欠陥タイプは誤ったコード例(23)、ドキュメントの欠如(35)、古いコンテンツ(19)がドキュメントの欠陥のほとんどに寄与した。 この種のドキュメンテーションの欠陥を軽減するために、2つのソリューションを適用することを提案する。 実際には、大量のリソースと焦点が高品質なソフトウェアの提供に集中しているため、ドキュメントの負債は容易に検出できない。 私たちはドキュメント負債に対処するために2つの主要な解決策を適用することを提案します。 一 動的文書生成(DDG)及び/又は (ii) 自動化ドキュメンテーションテスト(adt)は、ドキュメンテーションのための単一のロバストな情報ソースを定義することに基づいている。

Software documentation often struggles to catch up with the pace of software evolution. The lack of correct, complete, and up-to-date documentation results in an increasing number of documentation defects which could introduce delays in integrating software systems. In our previous study on a bug analysis tool called MultiDimEr, we provided evidence that documentation-related defects contribute to many bug reports. First, we want to identify documentation defect types contributing to documentation defects, thereby identifying documentation debt. Secondly, we aim to find pragmatic solutions to minimize most common documentation defects to pay off the documentation debt in the long run. We investigated documentation defects related to an industrial software system. First, we looked at different documentation types and associated bug reports. We categorized the defects according to an existing documentation defect taxonomy. Based on a sample of 101 defects, we found that most defects are caused by documentation defects falling into the Information Content (What) category (86). Within this category, the documentation defect types Erroneous code examples (23), Missing documentation (35), and Outdated content (19) contributed to most of the documentation defects. We propose to adapt two solutions to mitigate these types of documentation defects. In practice, documentation debt can easily go undetected since a large share of resources and focus is dedicated to delivering high-quality software. We suggest adapting two main solutions to tackle documentation debt by implementing (i) Dynamic Documentation Generation (DDG) and/or (ii) Automated Documentation Testing (ADT), which are both based on defining a single and robust information source for documentation.
翻訳日:2024-02-20 23:51:02 公開日:2024-02-16
# リモート制御トポロジカルクラスにおけるヘラルドベクター偏光単光子の生成

Generation of heralded vector-polarized single photons in remotely controlled topological classes ( http://arxiv.org/abs/2402.11046v1 )

ライセンス: Link先を確認
Samuel Corona-Aquino, Zeferino Ibarra-Borja, Omar Calder\'on-Losada, Bruno Piccirillo, Ver\'onica Vicu\~na-Hern\'andez, Tonatiuh Moctezuma-Quistian, H\'ector Cruz-Ram\'irez, Dorilian Lopez-Mago, Alfred B. U'Ren(参考訳) 本研究では,Vector VortexやFull Poincar\'eビーム状態などの不均一偏光状態における共有光子の合成と制御に関する実験的プロトコルを示す。 レーザビームは、高品位不均質偏光ビームをロバストに作製するための干渉計の必要性をなくした電圧制御スピン-軌道角運動量変換qプレート装置によって形成される。 このようなビームは、自発的パラメトリックダウンコンバージョン(spdc)光子対流源のポンプとして使用される。 本研究は,ベクトル偏光構造だけでなく,強度/位相分布の単一光子移動に対するフルポンプを実証する。 さらに, ヒョウ光子を検出前に投射する偏光を制御することにより, 直接と基底を切り替えたポンプ・シングル光子移動を切り替えることができることを示す。 この非局所的な単光子の制御は、得られた単光子のトポロジカルクラスにも関係していることを示す。 我々は、我々の研究が光子に基づく量子情報処理科学の新しい機会をもたらすと信じている。

We demonstrate an experimental protocol for the preparation and control of heralded single photons in inhomogeneously polarized states, such as Vector Vortex and Full Poincar\'e beam states. A laser beam is shaped by a voltage-controlled spin-to-orbital angular momentum converter q-plate device which eliminates the need for an interferometer for the robust preparation of high-quality inhomogeneously polarized beams. Such a beam is then used as pump in a spontaneous parametric downconversion (SPDC) photon-pair source. We demonstrate the full pump to heralded single photon transfer of the intensity/phase distributions, as well as of the vector polarization structure. Additionally, we show that by controlling the polarization to which the heralding idler photon is projected before detection, we can toggle between the direct and basis-switched pump-single photon transfer. We show that this non-local control of the heralded single photon pertains also to the topological class of the resulting heralded single photon. We believe that our work will lead to new opportunities in photons-based quantum information processing science.
翻訳日:2024-02-20 23:50:34 公開日:2024-02-16
# 私の検索文字列はどのくらい良いですか。 準金標準としての既存レビューの活用に関する考察

How good are my search strings? Reflections on using an existing review as a quasi-gold standard ( http://arxiv.org/abs/2402.11041v1 )

ライセンス: Link先を確認
Huynh Khanh Vi Tran, J\"urgen B\"orstler, Nauman Bin Ali, Michael Unterkalmsteiner(参考訳) 背景: 体系的文学研究(sls)は、エビデンスベースソフトウェアエンジニアリング(ebse)における中核的な研究方法論となっている。 検索完全性、すなわち、関心事に関するすべての関連論文は、SLSの最もよく議論されている妥当性問題の1つとして認識されている。 目的: 本研究は, 検索文字列構築および準金標準(qgs)を用いた検索検証に関する問題に対する意識を高めることを目的とした。 さらに,検索文字列検証のガイドラインの提供も目指している。 方法: 最近完結した第3次研究を事例として、ebseの研究と進歩を他の研究者の観察で補完する。 結果: 文献ではQGS品質評価の問題はあまり注目されておらず, SLSにおける自動検索の有効性が向上する可能性が示唆された。 そこで本研究では、自動検索検証結果のさらなる分析ステップにより、現在の検索検証手法を拡張し、QGS構築のためのレコメンデーションを提案する。 結論:本論文では,SLSにおける検索完全性に影響を与える可能性のある新たな課題について報告する。 さらに、提案されたガイドラインとレコメンデーションは、研究者がSLSにより信頼性の高い検索戦略を実装するのに役立つだろう。

Background: Systematic literature studies (SLS) have become a core research methodology in Evidence-based Software Engineering (EBSE). Search completeness, ie, finding all relevant papers on the topic of interest, has been recognized as one of the most commonly discussed validity issues of SLSs. Aim: This study aims at raising awareness on the issues related to search string construction and on search validation using a quasi-gold standard (QGS). Furthermore, we aim at providing guidelines for search string validation. Method: We use a recently completed tertiary study as a case and complement our findings with the observations from other researchers studying and advancing EBSE. Results: We found that the issue of assessing QGS quality has not seen much attention in the literature, and the validation of automated searches in SLSs could be improved. Hence, we propose to extend the current search validation approach by the additional analysis step of the automated search validation results and provide recommendations for the QGS construction. Conclusion: In this paper, we report on new issues which could affect search completeness in SLSs. Furthermore, the proposed guideline and recommendations could help researchers implement a more reliable search strategy in their SLSs.
翻訳日:2024-02-20 23:50:16 公開日:2024-02-16
# 単一および多目的の強化学習に基づく最適化と解釈可能なaiによる米国原子力艦隊の経済活動を可能にするレガシーアプローチとヒューマンインテリジェンス

Surpassing legacy approaches and human intelligence with hybrid single- and multi-objective Reinforcement Learning-based optimization and interpretable AI to enable the economic operation of the US nuclear fleet ( http://arxiv.org/abs/2402.11040v1 )

ライセンス: Link先を確認
Paul Seurin, Koroush Shirvan(参考訳) 原子力部門は、アメリカ合衆国における炭素フリーエネルギーの主要源である。 それでも、既存の原子力発電所は、ガス発電所のような代替品と経済的に競合できないため、早期閉鎖の脅威に直面している。 コアローディングパターンの最適化による燃料サイクルコストの最適化は、この競争力の欠如に対処する1つのアプローチである。 しかし、この最適化タスクには複数の目的と制約が伴うため、明示的に解決できない候補解が多数存在する。 確率最適化(SO)手法は、燃料サイクルのリロード設計のために様々な原子力施設やベンダーによって使用されているが、手動設計は依然として好ましいアプローチである。 コアリロードパターンの最先端化に向けて,Deep Reinforcement Learningに基づく手法を開発した。 従来の研究はこのアプローチの基礎を築き、合理的な時間枠内で高品質なパターンを発見する能力を示した。 しかし、単一目的の設定でその有用性を示すために、レガシーメソッドと比較する必要がある。 rlメソッドは多目的設定において優れているが、競争力の問題に効果的に対処するためにはまだ適用されていない。 本稿では遺伝的アルゴリズム(GA)、シミュレート・アニーリング(SA)、タブ・サーチ(TS)など、最もよく使われているSOベースの手法に対して、我々のRLベースのアプローチを厳格に比較する。 続いて,革新的デザインを考案する新たなハイブリッドパラダイムを導入し,年間2.8~3.3億ドルの経済効果を得た。 この開発は解釈可能なAIを活用し、ブラックボックス最適化を解釈可能なものにすることでアルゴリズム効率を向上させる。 今後は、このメソッドをスケールして、幅広いコア設計に対処していく予定だ。

The nuclear sector represents the primary source of carbon-free energy in the United States. Nevertheless, existing nuclear power plants face the threat of early shutdowns due to their inability to compete economically against alternatives such as gas power plants. Optimizing the fuel cycle cost through the optimization of core loading patterns is one approach to addressing this lack of competitiveness. However, this optimization task involves multiple objectives and constraints, resulting in a vast number of candidate solutions that cannot be explicitly solved. While stochastic optimization (SO) methodologies are utilized by various nuclear utilities and vendors for fuel cycle reload design, manual design remains the preferred approach. To advance the state-of-the-art in core reload patterns, we have developed methods based on Deep Reinforcement Learning. Previous research has laid the groundwork for this approach and demonstrated its ability to discover high-quality patterns within a reasonable timeframe. However, there is a need for comparison against legacy methods to demonstrate its utility in a single-objective setting. While RL methods have shown superiority in multi-objective settings, they have not yet been applied to address the competitiveness issue effectively. In this paper, we rigorously compare our RL-based approach against the most commonly used SO-based methods, namely Genetic Algorithm (GA), Simulated Annealing (SA), and Tabu Search (TS). Subsequently, we introduce a new hybrid paradigm to devise innovative designs, resulting in economic gains ranging from 2.8 to 3.3 million dollars per year per plant. This development leverages interpretable AI, enabling improved algorithmic efficiency by making black-box optimizations interpretable. Future work will focus on scaling this method to address a broader range of core designs.
翻訳日:2024-02-20 23:49:56 公開日:2024-02-16
# ドメインの正規化アノテーションによるドメインラベルノイズによるサブポピュレーションシフトのロバスト性

Robustness to Subpopulation Shift with Domain Label Noise via Regularized Annotation of Domains ( http://arxiv.org/abs/2402.11039v1 )

ライセンス: Link先を確認
Nathan Stromberg and Rohan Ayyagari and Monica Welfert and Sanmi Koyejo and Lalitha Sankar(参考訳) 最悪のグループ精度(wga)を最適化することを目的としたラストレイヤリトレーニングの既存の方法は、トレーニングデータの注釈付きグループに大きく依存している。 理論と実践の両方において、wgaのダウンサンプリングとアップウエイトを用いたアノテーションベースのデータ拡張はドメインアノテーションノイズに影響を受けやすく、高ノイズのレジームではバニラ経験的リスク最小化で訓練されたモデルのwgaにアプローチする。 明示的なドメインアノテーションを必要とせずにロバストなラストレイヤ分類器をトレーニングするために、ドメイン(rad)の正規化アノテーションを導入します。 その結果、RADは、最近提案されたドメインアノテーションのない手法と競合していることがわかった。 最も重要なのは、公開データセットのトレーニングデータにわずか5%のノイズがあるにもかかわらず、radは最先端のアノテーション依存メソッドよりも優れています。

Existing methods for last layer retraining that aim to optimize worst-group accuracy (WGA) rely heavily on well-annotated groups in the training data. We show, both in theory and practice, that annotation-based data augmentations using either downsampling or upweighting for WGA are susceptible to domain annotation noise, and in high-noise regimes approach the WGA of a model trained with vanilla empirical risk minimization. We introduce Regularized Annotation of Domains (RAD) in order to train robust last layer classifiers without the need for explicit domain annotations. Our results show that RAD is competitive with other recently proposed domain annotation-free techniques. Most importantly, RAD outperforms state-of-the-art annotation-reliant methods even with only 5% noise in the training data for several publicly available datasets.
翻訳日:2024-02-20 23:49:25 公開日:2024-02-16
# 咬合回復性3次元ポーズ推定

Occlusion Resilient 3D Human Pose Estimation ( http://arxiv.org/abs/2402.11036v1 )

ライセンス: Link先を確認
Soumava Kumar Roy, Ilia Badanin, Sina Honari and Pascal Fua(参考訳) 排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つである。 時間的一貫性は影響を軽減するために広く使用されているが、文献の既存のアルゴリズムはそれらを明示的にモデル化していない。 ここでは、変形体を時空間グラフとして表現することでこれを適用する。 次に、このグラフ上でグラフ畳み込みを行い、3dポーズを出力するrefinement networkを導入する。 閉塞に対する堅牢性を確保するため、ドロップアウト手法のようにエッジの一部を無効にするために使用するバイナリマスクセットを用いてネットワークをトレーニングする。 実際、いくつかのジョイントを一定期間隠して、ネットワークに免疫力を持たせるように訓練できるという事実をシミュレートする。 本手法の有効性を,シングルカメラシーケンスのポーズを推定する最先端技術と比較した。

Occlusions remain one of the key challenges in 3D body pose estimation from single-camera video sequences. Temporal consistency has been extensively used to mitigate their impact but the existing algorithms in the literature do not explicitly model them. Here, we apply this by representing the deforming body as a spatio-temporal graph. We then introduce a refinement network that performs graph convolutions over this graph to output 3D poses. To ensure robustness to occlusions, we train this network with a set of binary masks that we use to disable some of the edges as in drop-out techniques. In effect, we simulate the fact that some joints can be hidden for periods of time and train the network to be immune to that. We demonstrate the effectiveness of this approach compared to state-of-the-art techniques that infer poses from single-camera sequences.
翻訳日:2024-02-20 23:49:11 公開日:2024-02-16
# Retrieval-Augmented Generation:Dense Passage Retrieval Retrieving?

Retrieval-Augmented Generation: Is Dense Passage Retrieval Retrieving? ( http://arxiv.org/abs/2402.11035v1 )

ライセンス: Link先を確認
Benjamin Reichman and Larry Heck(参考訳) 高密度通路検索(dpr)は,大規模言語モデル(llm)の性能向上を目的とした検索拡張生成(rag)パラダイムの第一歩である。 DPRファインチューニングネットワークは、クエリと関連するテキストデータ間の埋め込みのアライメントを強化する。 DPRの微調整に関する深い理解は、このアプローチの潜在能力を根本から解き放つために必要である。 本研究では,プロファイリング,レイヤアクティベーション解析,モデル編集の組み合わせを用いて,dprを訓練したモデルをメカニックに検討する。 実験の結果,DPRトレーニングはネットワーク内の知識を分散化し,同一情報に対する複数のアクセス経路を生成する。 事前訓練されたモデルの内部知識は、検索モデルが取得できるものの境界である。 これらの知見は,(1)DPRトレーニングプロセスがより分散化できるように,さらに多くの知識に公開され,(2)事実を分散化された表現として注入し,(3)検索プロセスに知識の不確実性を取り入れ,(4)内部モデル知識を直接知識ベースにマッピングする,という可能性を示している。

Dense passage retrieval (DPR) is the first step in the retrieval augmented generation (RAG) paradigm for improving the performance of large language models (LLM). DPR fine-tunes pre-trained networks to enhance the alignment of the embeddings between queries and relevant textual data. A deeper understanding of DPR fine-tuning will be required to fundamentally unlock the full potential of this approach. In this work, we explore DPR-trained models mechanistically by using a combination of probing, layer activation analysis, and model editing. Our experiments show that DPR training decentralizes how knowledge is stored in the network, creating multiple access pathways to the same information. We also uncover a limitation in this training style: the internal knowledge of the pre-trained model bounds what the retrieval model can retrieve. These findings suggest a few possible directions for dense retrieval: (1) expose the DPR training process to more knowledge so more can be decentralized, (2) inject facts as decentralized representations, (3) model and incorporate knowledge uncertainty in the retrieval process, and (4) directly map internal model knowledge to a knowledge base.
翻訳日:2024-02-20 23:48:59 公開日:2024-02-16
# PAT-Questions: 質問に対する自己更新ベンチマーク

PAT-Questions: A Self-Updating Benchmark for Present-Anchored Temporal Question-Answering ( http://arxiv.org/abs/2402.11034v1 )

ライセンス: Link先を確認
Jannat Ara Meem, Muhammad Shihab Rashid, Yue Dong and Vagelis Hristidis(参考訳) 時間的質問応答(tqa:temporal question answering)に関する既存の研究は、特定のタイムスタンプやイベントに固定された質問に主に焦点を合わせてきた(例:1970年アメリカ合衆国大統領は誰だったか? 時間的文脈が現在と相対的な問題(例えば「前大統領は誰だったのか」など)は、ほとんど研究されていない。 本報告では,この問題をPATQA(Present-Anchored Temporal QA)と呼ぶ。 1) 大規模言語モデル(llm) は時代遅れの知識を持つ可能性、(2) 複雑な時間的関係(例えば 'before' や 'previous' など)は推論が難しいこと、(3) マルチホップ推論が必要であり、(4) ベンチマークの金の答えは継続的に更新されなければならない。 これらの課題に対処するために、単一および複数ホップ時間問題を含むPAT-Questionsベンチマークを導入する。 PAT-Questionsの回答は、ナレッジグラフ上でSPARQLクエリを再実行することで、自動的に更新できる。 我々は、直接的プロンプトと検索強化生成(RAG)を用いて、PAT-Questionsにおける最先端のLLMとSOTA時間的推論モデル(TEMPREASON-T5)を評価した。 その結果、PATQAにおける既存のソリューションの限界を強調し、PATQA推論機能を改善する新しい方法の必要性を動機付けている。

Existing work on Temporal Question Answering (TQA) has predominantly focused on questions anchored to specific timestamps or events (e.g. "Who was the US president in 1970?"). Little work has studied questions whose temporal context is relative to the present time (e.g. "Who was the previous US president?"). We refer to this problem as Present-Anchored Temporal QA (PATQA). PATQA poses unique challenges: (1) large language models (LLMs) may have outdated knowledge, (2) complex temporal relationships (e.g. 'before', 'previous') are hard to reason, (3) multi-hop reasoning may be required, and (4) the gold answers of benchmarks must be continuously updated. To address these challenges, we introduce the PAT-Questions benchmark, which includes single and multi-hop temporal questions. The answers in PAT-Questions can be automatically refreshed by re-running SPARQL queries on a knowledge graph, if available. We evaluate several state-of-the-art LLMs and a SOTA temporal reasoning model (TEMPREASON-T5) on PAT-Questions through direct prompting and retrieval-augmented generation (RAG). The results highlight the limitations of existing solutions in PATQA and motivate the need for new methods to improve PATQA reasoning capabilities.
翻訳日:2024-02-20 23:48:35 公開日:2024-02-16
# MITS:表面コードを設計するための量子サーセラーストーン

MITS: A Quantum Sorcerer Stone For Designing Surface Codes ( http://arxiv.org/abs/2402.11027v1 )

ライセンス: Link先を確認
Avimita Chatterjee, Debarshi Kundu and Swaroop Ghosh(参考訳) 量子コンピューティングの進化期には、量子エラー補正(QEC)の最も効率的なパラメータを決定することが最重要である。 様々な量子コンピュータは様々な種類の物理ノイズを持っている。 伝統的にシミュレータはフォワードパラダイムで動作し、距離、ラウンド、物理的エラーなどのパラメータを使って論理誤差率を出力する。 しかし、表面コードの最大距離とラウンドの使用は資源を浪費する可能性がある。 このギャップを埋めるために、QEC符号を設計するためのよく知られたシミュレータSTIMをリバースエンジニアリングするツールであるMITSを紹介する。 有効な物理誤差を用いてSTIMから包括的なデータセットをキュレートすることにより、MITSは、与えられた量子コンピュータのノイズモデルに対して最適な表面コードパラメータを確認する。 MITSは、量子コンピュータの特定のノイズモデルとターゲット論理誤差率を入力として受け入れ、最適な表面コードラウンドとコード距離を出力する。 これにより、最小の量子ビットとゲートの使用が保証され、所望の論理エラーレートと、既存の量子ビット数とゲート忠実度に関するハードウェアの制限を調和させる。 この課題に対する複数のヒューリスティックスモデルと機械学習モデルを比較し,XGBoostとRandom Forestの回帰が最も効果的であると結論し,Pearson相関係数は0.98$と0.96$である。 MITSはこれらのモデルを用いて、ターゲットエラー率を確実に迅速に達成している。

In the evolving landscape of quantum computing, determining the most efficient parameters for Quantum Error Correction (QEC) is paramount. Various quantum computers possess varied types and amounts of physical noise. Traditionally, simulators operate in a forward paradigm, taking parameters such as distance, rounds, and physical error to output a logical error rate. However, usage of maximum distance and rounds of the surface code might waste resources. To bridge this gap, we present MITS, a tool designed to reverse-engineer the well-known simulator STIM for designing QEC codes. By curating a comprehensive dataset from STIM using valid physical errors, MITS is equipped to ascertain the optimal surface code parameters for a given quantum computer's noise model. MITS accepts the specific noise model of a quantum computer and a target logical error rate as input and outputs the optimal surface code rounds and code distances. This guarantees minimal qubit and gate usage, harmonizing the desired logical error rate with the existing hardware limitations on qubit numbers and gate fidelity. We explored and compared multiple heuristics and machine learning models for this task and concluded that XGBoost and Random Forest regression to be most effective, with Pearson correlation coefficients of $0.98$ and $0.96$ respectively. MITS employs these models to reliably and swiftly achieve the target error rates.
翻訳日:2024-02-20 23:48:10 公開日:2024-02-16
# 疎部分空間変動推論を用いたベイズニューラルネットワークの訓練

Training Bayesian Neural Networks with Sparse Subspace Variational Inference ( http://arxiv.org/abs/2402.11025v1 )

ライセンス: Link先を確認
Junbo Li, Zichen Miao, Qiang Qiu, Ruqi Zhang(参考訳) ベイズニューラルネットワーク(BNN)は不確実な定量化を提供するが、トレーニングと推論コストが大幅に増加するという欠点がある。 スパースBNNは、トレーニング全体を通して緩やかにスパーシティを導入するか、高密度BNNの訓練後の圧縮によって、効率的な推論のために研究されてきた。 大規模なトレーニングコストを削減する方法のジレンマはまだ残っており、特に不確実性について学ぶ必要があるためである。 この課題を解決するために,Sparse Subspace Variational Inference (SSVI)を導入した。このフレームワークは,トレーニングと推論フェーズを通じて一貫した疎度ベイズモデルを維持する最初の完全スパースBNNフレームワークである。 ランダムに初期化された低次元スパース部分空間から始め、スパース部分空間基底選択とその関連するパラメータを交互に最適化する。 基底選択は非微分問題として特徴づけられるが,重み分布統計に基づく新しい基準を導いた除去・付加戦略を用いて最適解を近似する。 我々の広範な実験により,SSVIはスパースBNNの製作において新たなベンチマークを設定し,例えば,モデルサイズが3倍未満の10~20倍の圧縮を実現し,トレーニング中のFLOPの最大20倍の削減を実現した。 注目すべきは、SSVIがハイパーパラメータの堅牢性を強化し、VIの複雑なチューニングの必要性を減らし、時には精度と不確実性の両方でVIトレーニングされた高密度BNNを超越することである。

Bayesian neural networks (BNNs) offer uncertainty quantification but come with the downside of substantially increased training and inference costs. Sparse BNNs have been investigated for efficient inference, typically by either slowly introducing sparsity throughout the training or by post-training compression of dense BNNs. The dilemma of how to cut down massive training costs remains, particularly given the requirement to learn about the uncertainty. To solve this challenge, we introduce Sparse Subspace Variational Inference (SSVI), the first fully sparse BNN framework that maintains a consistently highly sparse Bayesian model throughout the training and inference phases. Starting from a randomly initialized low-dimensional sparse subspace, our approach alternately optimizes the sparse subspace basis selection and its associated parameters. While basis selection is characterized as a non-differentiable problem, we approximate the optimal solution with a removal-and-addition strategy, guided by novel criteria based on weight distribution statistics. Our extensive experiments show that SSVI sets new benchmarks in crafting sparse BNNs, achieving, for instance, a 10-20x compression in model size with under 3\% performance drop, and up to 20x FLOPs reduction during training compared with dense VI training. Remarkably, SSVI also demonstrates enhanced robustness to hyperparameters, reducing the need for intricate tuning in VI and occasionally even surpassing VI-trained dense BNNs on both accuracy and uncertainty metrics.
翻訳日:2024-02-20 23:47:47 公開日:2024-02-16
# ニュージーランドにおける温室効果ガスの動態

Dynamic nowcast of the New Zealand greenhouse gas inventory ( http://arxiv.org/abs/2402.11107v1 )

ライセンス: Link先を確認
Malcolm Jones, Hannah Chorley, Flynn Owen, Tamsyn Hilder, Holly Trowland, Paul Bracewell(参考訳) 気候変動の影響を緩和するためには、温室効果ガス排出量の信頼性と徹底的な報告が国際的および国内的排出量削減目標に向けた進展を測定する上で不可欠である。 ニュージーランドの国内排ガス在庫は現在15~27カ月前に報告されている。 本稿では,ニュージーランドの温室効果ガス排出量を,現在のデータ利用率によってわずか2ヶ月の遅延時間で,国内排出在庫のリリースに先立って,現在(動的に推定)ニュージーランドの温室効果ガス排出量を計上する機械学習手法を提案する。 主な発見は、2020年以降の国内総排出量の0.2%減少(2022年7月)である。 本研究は,排出集中活動のダイナミックな視点の予測力に着目した。 この方法論は、機械学習アプローチが、政策立案者にとって価値のある比較的低い誤差で、部門毎の温室効果ガス排出量を年々見積もることができるという概念実証である。

As efforts to mitigate the effects of climate change grow, reliable and thorough reporting of greenhouse gas emissions are essential for measuring progress towards international and domestic emissions reductions targets. New Zealand's national emissions inventories are currently reported between 15 to 27 months out-of-date. We present a machine learning approach to nowcast (dynamically estimate) national greenhouse gas emissions in New Zealand in advance of the national emissions inventory's release, with just a two month latency due to current data availability. Key findings include an estimated 0.2% decrease in national gross emissions since 2020 (as at July 2022). Our study highlights the predictive power of a dynamic view of emissions intensive activities. This methodology is a proof of concept that a machine learning approach can make sub-annual estimates of national greenhouse gas emissions by sector with a relatively low error that could be of value for policy makers.
翻訳日:2024-02-20 23:41:39 公開日:2024-02-16
# 手書き回路図画像に対するモジュラグラフ抽出

Modular Graph Extraction for Handwritten Circuit Diagram Images ( http://arxiv.org/abs/2402.11093v1 )

ライセンス: Link先を確認
Johannes Bayer, Leo van Waveren, Andreas Dengel(参考訳) 工学のデジタル化が進むにつれて、回路図(スキーマとも呼ばれる)は一般にコンピュータ支援工学(CAE)システムで開発・維持され、自動検証、シミュレーション、下流エンジニアリングステップでのさらなる処理が可能である。 しかし、印刷された古い図式とは別に、手描きの回路図は現在でも教育分野で使われており、訓練生や学生がこの種の図形を描くことを学ぶための容易な手段となっている。 さらに、手描きの図式は典型的には法的制約による試験で使用される。 デジタル回路表現の能力を活用するためには、ラスタグラフから電気グラフを抽出する自動手段が必要である。 それぞれのアプローチは文献で提案されているが、典型的には、小型または非開示データセット上で実行される。 本稿では,個々のサブタスクに対するアプローチを評価して新たなベースラインを形成する,大規模でパブリックなデータセット上でのモジュール型エンドツーエンドソリューションについて述べる。 これらのサブタスクには、オブジェクト検出(電気シンボルとテキスト)、バイナリセグメンテーション(drafterのストローク対背景)、手書き文字認識、電気シンボルとテキストの方向回帰が含まれる。 さらに,コンピュータビジョングラフの集合と修正アルゴリズムを提案する。 すべてのメソッドは公開プロトタイプに統合されている。

As digitization in engineering progressed, circuit diagrams (also referred to as schematics) are typically developed and maintained in computer-aided engineering (CAE) systems, thus allowing for automated verification, simulation and further processing in downstream engineering steps. However, apart from printed legacy schematics, hand-drawn circuit diagrams are still used today in the educational domain, where they serve as an easily accessible mean for trainees and students to learn drawing this type of diagrams. Furthermore, hand-drawn schematics are typically used in examinations due to legal constraints. In order to harness the capabilities of digital circuit representations, automated means for extracting the electrical graph from raster graphics are required. While respective approaches have been proposed in literature, they are typically conducted on small or non-disclosed datasets. This paper describes a modular end-to-end solution on a larger, public dataset, in which approaches for the individual sub-tasks are evaluated to form a new baseline. These sub-tasks include object detection (for electrical symbols and texts), binary segmentation (drafter's stroke vs. background), handwritten character recognition and orientation regression for electrical symbols and texts. Furthermore, computer-vision graph assembly and rectification algorithms are presented. All methods are integrated in a publicly available prototype.
翻訳日:2024-02-20 23:41:24 公開日:2024-02-16
# 男性CEOと女性アシスタント:Paired Stereotype Testによるテキストから画像モデルへのジェンダーバイアスの探索

The Male CEO and the Female Assistant: Probing Gender Biases in Text-To-Image Models Through Paired Stereotype Test ( http://arxiv.org/abs/2402.11089v1 )

ライセンス: Link先を確認
Yixin Wan, Kai-Wei Chang(参考訳) DALLE-3のような最近の大規模テキスト・ツー・イメージ(T2I)モデルは、新しいアプリケーションにおいて大きな可能性を秘めているが、前例のない公平さの課題に直面している。 以前の研究では、単一人物画像生成における性別バイアスが明らかにされていたが、T2Iモデルは2人以上の人物を同時に表現する必要がある可能性がある。 この設定の潜在的なバイアスは未探索のままであり、フェアネス関連の使用リスクにつながる。 T2Iモデルにおけるこれらの性別バイアスの基盤となる側面を研究するために,新しいPaired Stereotype Test (PST) バイアス評価フレームワークを提案する。 PSTはモデルに同じ画像で2つの個人を生成するよう促す。 それらは、異性とステレオタイプ的に関連づけられた2つの社会的アイデンティティによって記述される。 ビアーゼは、生成された画像のジェンダーステレオタイプへのコンフォーメーションのレベルによって測定できる。 PSTを用いてDALLE-3を2つの視点から評価した。 公正な、あるいは反ステレオタイプな独身世代であるように見えるが、PSTは依然としてジェンダー化された職業や権力団体を誇示している。 さらに, DALLE-3は, 独身設定と比較して, 男性ステレオタイプ的同一性を持つ個人に対して, PST下では顕著に男性像が生成される。 したがって、PSTはDALLE-3の基本的な性別バイアスを明らかにするのに効果的である。 以上の結果から,現代T2Iモデルにおける男女差の複雑なパターンが明らかとなり,マルチモーダル生成システムにおける批判的公平性の課題が浮き彫りになった。

Recent large-scale Text-To-Image (T2I) models such as DALLE-3 demonstrate great potential in new applications, but also face unprecedented fairness challenges. Prior studies revealed gender biases in single-person image generation, but T2I model applications might require portraying two or more people simultaneously. Potential biases in this setting remain unexplored, leading to fairness-related risks in usage. To study these underlying facets of gender biases in T2I models, we propose a novel Paired Stereotype Test (PST) bias evaluation framework. PST prompts the model to generate two individuals in the same image. They are described with two social identities that are stereotypically associated with the opposite gender. Biases can then be measured by the level of conformation to gender stereotypes in generated images. Using PST, we evaluate DALLE-3 from 2 perspectives: biases in gendered occupation and biases in organizational power. Despite seemingly fair or even anti-stereotype single-person generations, PST still unveils gendered occupational and power associations. Moreover, compared to single-person settings, DALLE-3 generates noticeably more masculine figures under PST for individuals with male-stereotypical identities. PST is therefore effective in revealing underlying gender biases in DALLE-3 that single-person settings cannot capture. Our findings reveal the complicated patterns of gender biases in modern T2I models, further highlighting the critical fairness challenges in multimodal generative systems.
翻訳日:2024-02-20 23:40:48 公開日:2024-02-16
# Al-InAs超伝導体-半導体ジョセフソン接合によるカー非線形性とパラメトリック増幅

Kerr nonlinearity and parametric amplification with an Al-InAs superconductor-semiconductor Josephson junction ( http://arxiv.org/abs/2402.11085v1 )

ライセンス: Link先を確認
Z.Hao, T. Shaw, M. Hatefipour, W. M. Strickland, B. H. Elfeky, D. Langone, J. Shabani, S. Shankar(参考訳) 量子制限ジョセフソンパラメトリック増幅器(JPAs)は超伝導量子回路において必須成分である。 しかし、ジョセフソンコサインポテンシャルの高次非線形性はゲイン圧縮を引き起こし、拡張性を制限することが知られている。 4次、またはカー非線形性を減らすために、Al-InAs超伝導体-半導体ハイブリッドジョセフソン接合(JJ)を用いたパラメトリック増幅器を実現する。 2つの異なるデバイスからAl-InAs JJのKerr非線形性を抽出し、同じジョセフソンインダクタンスを持つAl-$\text{AlO}_\text{X}$接合よりも3桁低いことを示す。 次に、20dB以上のゲインと119dBm以上の圧縮パワーを実現するAl-InAs接合を用いた4波混合パラメトリック増幅器(4WM)を実演する。

Nearly quantum limited Josephson parametric amplifiers (JPAs) are essential components in superconducting quantum circuits. However, higher order nonlinearities of the Josephson cosine potential are known to cause gain compression, therefore limiting scalability. In an effort to reduce the fourth order, or Kerr nonlinearity, we realize a parametric amplifier with an Al-InAs superconductor-semiconductor hybrid Josephson junction (JJ). We extract the Kerr nonlinearity of the Al-InAs JJ from two different devices and show that it is three orders of magnitude lower compared to an Al-$\text{AlO}_\text{X}$ junction with identical Josephson inductance. We then demonstrate a four-wave-mixing (4WM) parametric amplifier made with an Al-InAs junction that achieves more than 20 dB of gain and -119 dBm of compression power, that outperforms single resonant JPAs based on Al junctions.
翻訳日:2024-02-20 23:40:03 公開日:2024-02-16
# 痛みのAIセキュリティピラミッド

The AI Security Pyramid of Pain ( http://arxiv.org/abs/2402.11082v1 )

ライセンス: Link先を確認
Chris M. Ward, Josh Harguess, Julia Tao, Daniel Christman, Paul Spicer, Mike Tan(参考訳) 私たちは、AI固有の脅威を分類し優先順位付けするために、Painのサイバーセキュリティピラミッドに適応するフレームワークであるPainのAIセキュリティピラミッドを紹介します。 このフレームワークは、さまざまなレベルのAI脅威を理解し、対処するための構造化されたアプローチを提供する。 ベースとなるピラミッドでは、データセットとaiモデルの正確性と信頼性に不可欠な、重みとパラメータを含むデータの完全性を強調している。 データ整合性の確保は、すべてのAI駆動の意思決定と運用の有効性を支えているため、極めて重要です。 次のレベルであるAIシステムパフォーマンスは、モデルドリフト、精度、偽陽性率といったMLOps駆動のメトリクスに焦点を当てている。 これらのメトリクスは、潜在的なセキュリティ違反を検出するために重要であり、AIシステムの早期介入とメンテナンスを可能にする。 さらに、ピラミッドは、AIシステムをターゲットにして敵が使用するツールを特定し、中立化する、Adversarial Toolsによる脅威に対処する。 この層は、進化する攻撃方法論に先立ち続けるための鍵である。 Adversarial Inputレイヤでは、AIモデルを騙したり、利用したりするために設計された入力の検出と緩和に対処する。 これには、AIシステムに対する高度な攻撃にますます使用される、敵対的パターンや即発的なインジェクション攻撃といったテクニックが含まれる。 Data Provenanceは次の重要なレイヤであり、データとモデルの信頼性と系統を保証する。 このレイヤは、AIシステムにおける妥協データやバイアスデータの使用を防止する上で重要なものだ。 頂点には戦術、テクニック、手順(TTP)レイヤがあり、AIセキュリティの最も複雑で困難な側面を扱う。 これには、高度なaiターゲット攻撃に対する深い理解と戦略的アプローチが含まれており、包括的な知識と計画を必要とする。

We introduce the AI Security Pyramid of Pain, a framework that adapts the cybersecurity Pyramid of Pain to categorize and prioritize AI-specific threats. This framework provides a structured approach to understanding and addressing various levels of AI threats. Starting at the base, the pyramid emphasizes Data Integrity, which is essential for the accuracy and reliability of datasets and AI models, including their weights and parameters. Ensuring data integrity is crucial, as it underpins the effectiveness of all AI-driven decisions and operations. The next level, AI System Performance, focuses on MLOps-driven metrics such as model drift, accuracy, and false positive rates. These metrics are crucial for detecting potential security breaches, allowing for early intervention and maintenance of AI system integrity. Advancing further, the pyramid addresses the threat posed by Adversarial Tools, identifying and neutralizing tools used by adversaries to target AI systems. This layer is key to staying ahead of evolving attack methodologies. At the Adversarial Input layer, the framework addresses the detection and mitigation of inputs designed to deceive or exploit AI models. This includes techniques like adversarial patterns and prompt injection attacks, which are increasingly used in sophisticated attacks on AI systems. Data Provenance is the next critical layer, ensuring the authenticity and lineage of data and models. This layer is pivotal in preventing the use of compromised or biased data in AI systems. At the apex is the tactics, techniques, and procedures (TTPs) layer, dealing with the most complex and challenging aspects of AI security. This involves a deep understanding and strategic approach to counter advanced AI-targeted attacks, requiring comprehensive knowledge and planning.
翻訳日:2024-02-20 23:39:35 公開日:2024-02-16
# 量子横場イジングモデルに対するリーブ・ロビンソン相関関数

The Lieb-Robinson correlation function for the quantum transverse field Ising model ( http://arxiv.org/abs/2402.11080v1 )

ライセンス: Link先を確認
Brendan J. Mahoney, Craig S. Lent(参考訳) lieb-robinson相関関数は、異なる時間に別々のサブシステム上で作用する局所演算子間の交換子のノルムである。 これは空間的に分離された量子ビット間の特定の量子相互作用を特徴づけるために有用な状態独立測度を提供する。 このコリレータの有限伝播速度は、量子の影響の「光円錐」を定義する。 逆場イジングモデルにより記述された1次元量子ビットアレイに対するリーブ・ロビンソン相関関数を計算する。 この相関関数の直接計算は、量子ビットの数で状態空間のサイズが指数関数的に増加することで制限されている。 本稿では,計算結果をパウリウォーク上の和に変換することで,システムサイズによる線形スケーリングを実現する手法を提案する。 次に、数百キュービットの配列で伝播を探索し、システム内の量子相転移の効果を観測することができる。 2つの伝播速度が出現し、そのうちの1つは相転移に影響され、もう1つはそうではない。 量子効果の最も関連する速度制限はリーブ・ロビンソン速度ではなく、むしろ単一の準粒子励起の最大群速度であることが明らかになった。 量子臨界点における量子ビットの半無限鎖について、相関関数の解析結果を得る。

The Lieb-Robinson correlation function is the norm of a commutator between local operators acting on separate subsystems at different times. This provides a useful state-independent measure for characterizing the specifically quantum interaction between spatially separated qubits. The finite propagation velocity for this correlator defines a "light-cone" of quantum influence. We calculate the Lieb-Robinson correlation function for one-dimensional qubit arrays described by the transverse field Ising model. Direct calculations of this correlation function have been limited by the exponential increase in the size of the state space with the number of qubits. We introduce a new technique that avoids this barrier by transforming the calculation to a sum over Pauli walks which results in linear scaling with system size. We can then explore propagation in arrays of hundreds of qubits and observe the effects of the quantum phase transition in the system. We see the emergence of two velocities of propagation, one of which is affected by the phase transition and one of which is not. It becomes clear that the most relevant speed limit for quantum influence is not the Lieb-Robinson velocity, but rather the maximum group velocity of single quasiparticle excitations. For the semi-infinite chain of qubits at the quantum critical point, we derive an analytical result for the correlation function.
翻訳日:2024-02-20 23:38:26 公開日:2024-02-16
# 純微調整によるモデル編集

Model Editing by Pure Fine-Tuning ( http://arxiv.org/abs/2402.11078v1 )

ライセンス: Link先を確認
Govind Gangadhar, Karl Stratos(参考訳) 微調整は、より専門的な方法に比べて性能が悪いため、モデル編集に効果がないとして却下される。 しかし、微調整は単純で、編集されるモデルのアーキテクチャの詳細に無関係であり、標準の訓練方法(例えばPEFT)で進行中の進歩を活用することができ、モデルエディターにとって魅力的な選択である。 本稿では,純粋に微調整を行うことがモデル編集に有効な手法であることを示す。 2つの主成分を用いた微調整の微調整を提案する。 まず、条件付き確率を完全な確率よりも最適化する。 第2に,データの一般化と局所性を促進するために,ランダムなパラフレーズと事実によって拡張する。 ZsRE と CounterFact に関する実験により、この簡単な修正により、編集スコアの特別なエディタとマッチしたり、性能が良くなることが示された。

Fine-tuning is dismissed as not effective for model editing due to its poor performance compared to more specialized methods. However, fine-tuning is simple, agnostic to the architectural details of the model being edited, and able to leverage ongoing advances in standard training methods (e.g., PEFT), making it an appealing choice for a model editor. In this work, we show that pure fine-tuning can be a viable approach to model editing. We propose a slight modification of naive fine-tuning with two key ingredients. First, we optimize the conditional likelihood rather than the full likelihood. Second, we augment the data with random paraphrases and facts to encourage generalization and locality. Our experiments on ZsRE and CounterFact show that this simple modification allows fine-tuning to often match or outperform specialized editors in the edit score.
翻訳日:2024-02-20 23:38:05 公開日:2024-02-16
# 決定論的ひずみ工学によるwse$_2$量子エミッタの偏極調整

Tailoring Polarization in WSe$_2$ Quantum Emitters through Deterministic Strain Engineering ( http://arxiv.org/abs/2402.11075v1 )

ライセンス: Link先を確認
Athanasios Paralikis, Claudia Piccinini, Abdulmalik A. Madigawa, Pietro Metuh, Luca Vannucci, Niels Gregersen, and Battulga Munkhbat(参考訳) 遷移金属ジカルコゲナイド(tmd)の量子エミッタは、光量子情報処理のための単一光子を生成する有望なプラットフォームとして最近登場した。 本研究では,タングステンジセレニド(wse$_2$)単分子層における作製量子エミッタの偏極を決定論的に制御する手法を提案する。 高頂点対基比と鋭い頂点を有する非慣習的ナノピラージオメトリを用いて単層における制御された方向ひずみを誘導し、高偏光度(99\pm 4 \%$)かつ高純度(g^{(2)}(0) = 0.030 \pm 0.025$)の単一光子を生成するwse$_2$エミッタを作製した。 我々の研究は、TMDベースの量子エミッタの量子フォトニックアーキテクチャにおける決定論的統合の道を開いた。

A quantum emitter in a transition metal dichalcogenide (TMD) has recently emerged as a promising platform for generating single photons for optical quantum information processing. In this work, we present an approach for deterministically controlling the polarization of fabricated quantum emitters in a tungsten diselenide (WSe$_2$) monolayer. We employ unconventional nanopillar geometries with high apex-to-base ratios and sharp vertices to induce a controlled directional strain in the monolayer, and we report on fabricated WSe$_2$ emitters producing single photons with a high degree of polarization $(99\pm 4 \%$) and high purity ($g^{(2)}(0) = 0.030 \pm 0.025$). Our work paves the way for the deterministic integration of TMD-based quantum emitters in quantum photonic architecture.
翻訳日:2024-02-20 23:37:14 公開日:2024-02-16
# AFaCTA:信頼性LLMアノテーションを用いたFactual Claim Detectionのアノテーション支援

AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators ( http://arxiv.org/abs/2402.11073v1 )

ライセンス: Link先を確認
Jingwei Ni, Minjing Shi, Dominik Stammbach, Mrinmaya Sachan, Elliott Ash, Markus Leippold(参考訳) 生成AIの台頭に伴い、誤情報に対処する自動ファクトチェック手法がますます重要になっている。 しかし、ファクトチェックパイプラインの最初のステップである事実的クレーム検出は、そのスケーラビリティと一般化性を制限する2つの重要な問題に悩まされている。 1) 関連作業における定義を概観し, 検証性に着目した事実的主張の統一的定義を提案する。 そこで本研究では,大規模言語モデル (llm) の助けを借りて,事実クレームのアノテーションを支援する新しいフレームワーク afacta (automatic factual claims detection annotator) を提案する。 AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。 政治発言の分野における広範な評価と実験により、アファクタは、専門家が事実クレームに注釈を付け、高品質の分類器を訓練し、専門家の監督なしにも作業できることが判明した。 PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。

With the rise of generative AI, automated fact-checking methods to combat misinformation are becoming more and more important. However, factual claim detection, the first step in a fact-checking pipeline, suffers from two key issues that limit its scalability and generalizability: (1) inconsistency in definitions of the task and what a claim is, and (2) the high cost of manual annotation. To address (1), we review the definitions in related work and propose a unifying definition of factual claims that focuses on verifiability. To address (2), we introduce AFaCTA (Automatic Factual Claim deTection Annotator), a novel framework that assists in the annotation of factual claims with the help of large language models (LLMs). AFaCTA calibrates its annotation confidence with consistency along three predefined reasoning paths. Extensive evaluation and experiments in the domain of political speech reveal that AFaCTA can efficiently assist experts in annotating factual claims and training high-quality classifiers, and can work with or without expert supervision. Our analyses also result in PoliClaim, a comprehensive claim detection dataset spanning diverse political topics.
翻訳日:2024-02-20 23:36:54 公開日:2024-02-16
# ブリッジング因果発見と大規模言語モデル:統合的アプローチと今後の方向性に関する包括的調査

Bridging Causal Discovery and Large Language Models: A Comprehensive Survey of Integrative Approaches and Future Directions ( http://arxiv.org/abs/2402.11068v1 )

ライセンス: Link先を確認
Guangya Wan, Yuqi Wu, Mengxuan Hu, Zhixuan Chu, Sheng Li(参考訳) 因果発見(CD)とLarge Language Models(LLM)は、人工知能に重要な意味を持つ2つの新しい研究分野を表す。 異なる起源にもかかわらず、CDはデータからの因果関係を明らかにすることに焦点を当て、LLMは人間に似たテキストの処理と生成に重点を置いているが、これらの領域の収束は複雑なシステムを理解するための新しい洞察と方法論を提供する。 本稿では,CDタスクへのLPM(GPT4など)の統合に関する総合的な調査を行う。 我々は,LCMを様々なCDタスクに活用する既存のアプローチを体系的に検討し,因果構造を推測するためにメタデータと自然言語の革新的利用を強調した。 本分析では,従来のCD手法の強化と不完全な専門家としてのLCMの強みと可能性を明らかにするとともに,現在の実践に固有の課題と限界を明らかにする。 さらに、文献のギャップを識別し、因果研究におけるLLMの潜在能力を最大限活用するための今後の研究方向性を提案する。 私たちの知る限りでは、llmsとcdの相乗効果について統一的かつ詳細な調査を行った最初の調査であり、この分野における今後の進歩の舞台を定めています。

Causal discovery (CD) and Large Language Models (LLMs) represent two emerging fields of study with significant implications for artificial intelligence. Despite their distinct origins, CD focuses on uncovering cause-effect relationships from data, and LLMs on processing and generating humanlike text, the convergence of these domains offers novel insights and methodologies for understanding complex systems. This paper presents a comprehensive survey of the integration of LLMs, such as GPT4, into CD tasks. We systematically review and compare existing approaches that leverage LLMs for various CD tasks and highlight their innovative use of metadata and natural language to infer causal structures. Our analysis reveals the strengths and potential of LLMs in both enhancing traditional CD methods and as an imperfect expert, alongside the challenges and limitations inherent in current practices. Furthermore, we identify gaps in the literature and propose future research directions aimed at harnessing the full potential of LLMs in causality research. To our knowledge, this is the first survey to offer a unified and detailed examination of the synergy between LLMs and CD, setting the stage for future advancements in the field.
翻訳日:2024-02-20 23:36:31 公開日:2024-02-16
# 金融時系列クラスタリングによる金融インクルーシブクレジット商品を目指して

Towards Financially Inclusive Credit Products Through Financial Time Series Clustering ( http://arxiv.org/abs/2402.11066v1 )

ライセンス: Link先を確認
Tristan Bester, Benjamin Rosman(参考訳) ファイナンシャルインクルージョン(financial inclusion)は、個人がニーズを満たす金融製品やサービスにアクセスできるようにする。 経済成長と投資機会の鍵となる要因として、財政的包摂は消費支出を増大させ、結果として事業の発展をもたらす。 金融機関は、金融サービスへのアクセスを疎外した社会グループを提供することで、より利益を上げていることが示されている。 消費者取引データに基づく顧客セグメンテーションは、ファイナンシャルインクルージョンを促進するためによく知られた戦略である。 必要なデータは現代の機関で利用可能だが、セグメントアノテーションは通常困難であり、入手するのに費用がかかる。 これにより、ドメインエキスパートの知識に基づいた顧客セグメンテーションの時系列分類モデルの使用が防止される。 その結果、クラスタリングは、顧客をトランザクションデータにエンコードされた消費行動に基づいて均質なグループに分割する、魅力的な代替手段である。 本稿では,現代の金融機関が,消費者の金融行動を理解することができないこと,また,従来型の信用スコアリング技術を導入することなくリスクを負うことなど,金融的包括的信用・貯蓄・保険商品の提供を阻害する重要な課題の1つについて述べる。 本稿では,顧客の金融行動を理解するための新しい時系列クラスタリングアルゴリズムを提案する。 これにより、限定的なクレジットプラクティスに頼らずに、顧客のニーズに基づいたユニークな製品の提供が可能になる。

Financial inclusion ensures that individuals have access to financial products and services that meet their needs. As a key contributing factor to economic growth and investment opportunity, financial inclusion increases consumer spending and consequently business development. It has been shown that institutions are more profitable when they provide marginalised social groups access to financial services. Customer segmentation based on consumer transaction data is a well-known strategy used to promote financial inclusion. While the required data is available to modern institutions, the challenge remains that segment annotations are usually difficult and/or expensive to obtain. This prevents the usage of time series classification models for customer segmentation based on domain expert knowledge. As a result, clustering is an attractive alternative to partition customers into homogeneous groups based on the spending behaviour encoded within their transaction data. In this paper, we present a solution to one of the key challenges preventing modern financial institutions from providing financially inclusive credit, savings and insurance products: the inability to understand consumer financial behaviour, and hence risk, without the introduction of restrictive conventional credit scoring techniques. We present a novel time series clustering algorithm that allows institutions to understand the financial behaviour of their customers. This enables unique product offerings to be provided based on the needs of the customer, without reliance on restrictive credit practices.
翻訳日:2024-02-20 23:36:11 公開日:2024-02-16
# 時間拡大測定のための自由落下時計としての原子干渉計

Atom interferometer as a freely falling clock for time-dilation measurements ( http://arxiv.org/abs/2402.11065v1 )

ライセンス: Link先を確認
Albert Roura(参考訳) 単一光子遷移に基づく光パルス原子干渉計は、中周波帯での重力波検出と超薄暗質物質の探索に有望なツールである。 本稿では,相対論的時間拡張効果を直接測定する自由落下時計としての利用を可能にする新しい計測手法を提案する。 この提案は、FermilabのMAGIS-100実験や、すぐに運用を開始する予定の10m試作機にも追加の要件なしで実装できるため、特にタイムリーである。 これにより、マイクロ波遷移に基づく最高の原子源時計でさえも到達できない自由落下する原子による局所的な実験において、前例のない重力時間拡張の測定が可能となる。 この結果は、この種の干渉計における相対論的効果の包括的治療と、主な系統的効果の詳細な分析によって裏付けられる。 さらに, この理論手法は, 単一光子遷移に基づく光パルス原子干渉計のモデリングに有用である。

Light-pulse atom interferometers based on single-photon transitions are a promising tool for gravitational-wave detection in the mid-frequency band and the search for ultralight dark-matter fields. Here we present a novel measurement scheme that enables their use as freely falling clocks directly measuring relativistic time-dilation effects. The proposal is particularly timely because it can be implemented with no additional requirements in Fermilab's MAGIS-100 experiment or even in the 10-m prototypes that are expected to start operating very soon. This will allow the unprecedented measurement of gravitational time dilation in a local experiment with freely falling atoms, which is out of reach even for the best atomic-fountain clocks based on microwave transitions. The results are supported by a comprehensive treatment of relativistic effects in this kind of interferometers as well as a detailed analysis of the main systematic effects. Furthermore, the theoretical methods developed here constitute a valuable tool for modelling light-pulse atom interferometers based on single-photon transitions in general.
翻訳日:2024-02-20 23:35:48 公開日:2024-02-16
# Persona-DB:協調的データリファインメントを用いた応答予測のための効率的大言語モデルパーソナライズ

Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement ( http://arxiv.org/abs/2402.11060v1 )

ライセンス: Link先を確認
Chenkai Sun, Ke Yang, Revanth Gangi Reddy, Yi R. Fung, Hou Pong Chan, ChengXiang Zhai, Heng Ji(参考訳) 大規模言語モデル(llm)とのパーソナライズされたインタラクションの需要の増加は、ユーザの意見や好みを正確にかつ効率的に識別できる方法論の開発を呼びかけている。 検索の強化は、微調整のコストがかからず、膨大な数のユーザに対応できる効果的な戦略として現れます。 しかし、既存の研究は検索段階の強化に重点を置いており、パーソナライゼーションなどのタスクにおいて重要な側面であるデータベース表現の最適化に限定した調査を行っている。 本研究では, LLMのカスタマイズの文脈において, より効率的な検索のために, データの表現方法に焦点をあてて, 新たな角度から問題を考察する。 この課題に対処するために,タスクコンテキスト間の一般化を改善する階層的な構築プロセスと,ユーザ間の知識ギャップを効果的に橋渡しするための協調的改善という,シンプルで効果的なフレームワークであるPersona-DBを紹介した。 応答予測のタスクでは,Persona-DBは,検索サイズを大幅に削減した精度を維持する上で,優れた効率性を示す。 また,ユーザによるデータ不足によるコールドスタートシナリオでは,15%以上の大幅な改善が見られた。 さらに,検索能力が拡大するにつれて,協調的知識の重要性が高まっている。

The increasing demand for personalized interactions with large language models (LLMs) calls for the development of methodologies capable of accurately and efficiently identifying user opinions and preferences. Retrieval augmentation emerges as an effective strategy, as it can accommodate a vast number of users without the costs from fine-tuning. Existing research, however, has largely focused on enhancing the retrieval stage and devoted limited exploration toward optimizing the representation of the database, a crucial aspect for tasks such as personalization. In this work, we examine the problem from a novel angle, focusing on how data can be better represented for more efficient retrieval in the context of LLM customization. To tackle this challenge, we introduce Persona-DB, a simple yet effective framework consisting of a hierarchical construction process to improve generalization across task contexts and collaborative refinement to effectively bridge knowledge gaps among users. In the task of response forecasting, Persona-DB demonstrates superior efficiency in maintaining accuracy with a significantly reduced retrieval size, a critical advantage in scenarios with extensive histories or limited context windows. Our experiments also indicate a marked improvement of over 15% under cold-start scenarios, when users have extremely sparse data. Furthermore, our analysis reveals the increasing importance of collaborative knowledge as the retrieval capacity expands.
翻訳日:2024-02-20 23:35:31 公開日:2024-02-16
# II-MMR:視覚質問応答におけるマルチモーダルマルチホップ推論の同定と改善

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering ( http://arxiv.org/abs/2402.11058v1 )

ライセンス: Link先を確認
Jihyung Kil, Farideh Tavazoee, Dongyeop Kang, Joo-Kyung Kim(参考訳) VQA(Visual Question Answering)は、視覚と言語(V&L)にまたがる様々な推論シナリオを含むことが多い。 しかしながら、以前のVQA研究のほとんどは、異なる推論ケースで評価することなく、モデル全体の精度を評価することに集中していた。 さらに、いくつかの最近の研究は、特にマルチホップ推論を必要とする複雑なシナリオにおいて、従来のCoT(Chain-of-Thought)がVQAに対して効果的な推論を起こさないことを観察している。 本稿では,VQAにおけるマルチモーダルマルチホップ推論を識別・改善するための新しいアイデアであるII-MMRを提案する。 具体的には、II-MMRは画像でVQA質問を受け取り、2つの新しい言語プロンプトを使って答えに到達する理由を見つける。 (i)予測指示のcotプロンプトに回答する。 (ii)知識三重項指示プロンプト。 II-MMRはこの経路を分析して、現在のVQAベンチマークで異なる推論ケースを特定する。 GQA や A-OKVQA などの一般的なベンチマークでは、II-MMR は VQA のほとんどの質問は答えが簡単であり、単に "シングルホップ" の推論を要求する。 さらに,最近のV&Lモデルでは,従来のCoT法でも複雑なマルチホップ推論問題に苦慮しているが,II-MMRは,ゼロショットと微調整の両方ですべての推論ケースで有効性を示す。

Visual Question Answering (VQA) often involves diverse reasoning scenarios across Vision and Language (V&L). Most prior VQA studies, however, have merely focused on assessing the model's overall accuracy without evaluating it on different reasoning cases. Furthermore, some recent works observe that conventional Chain-of-Thought (CoT) prompting fails to generate effective reasoning for VQA, especially for complex scenarios requiring multi-hop reasoning. In this paper, we propose II-MMR, a novel idea to identify and improve multi-modal multi-hop reasoning in VQA. In specific, II-MMR takes a VQA question with an image and finds a reasoning path to reach its answer using two novel language promptings: (i) answer prediction-guided CoT prompt, or (ii) knowledge triplet-guided prompt. II-MMR then analyzes this path to identify different reasoning cases in current VQA benchmarks by estimating how many hops and what types (i.e., visual or beyond-visual) of reasoning are required to answer the question. On popular benchmarks including GQA and A-OKVQA, II-MMR observes that most of their VQA questions are easy to answer, simply demanding "single-hop" reasoning, whereas only a few questions require "multi-hop" reasoning. Moreover, while the recent V&L model struggles with such complex multi-hop reasoning questions even using the traditional CoT method, II-MMR shows its effectiveness across all reasoning cases in both zero-shot and fine-tuning settings.
翻訳日:2024-02-20 23:35:08 公開日:2024-02-16
# DART: 反転ロバストな教師なしドメイン適応への原則的アプローチ

DART: A Principled Approach to Adversarially Robust Unsupervised Domain Adaptation ( http://arxiv.org/abs/2402.11120v1 )

ライセンス: Link先を確認
Yunjuan Wang, Hussein Hazimeh, Natalia Ponomareva, Alexey Kurakin, Ibrahim Hammoud, Raman Arora(参考訳) 分散シフトと逆例としては、マシンラーニングモデルのデプロイに関する2つの大きな課題がある。 これらの課題は個別に研究されているが、それらの組み合わせは比較的未探索の重要トピックである。 本研究では,分散シフト(unsupervised domain adaptation,uda)の共通設定下での敵対的ロバスト性の問題について検討する。 具体的には、ラベル付きソースドメイン$D_S$とラベルなしターゲットドメイン$D_T$と関連するが異なるディストリビューションが与えられた場合、D_T$に対して逆向きに堅牢なモデルを得る。 ターゲットドメインラベルが存在しないことは、従来の対向ロバスト性防御が$D_T$に直接適用できないため、ユニークな課題となる。 この課題に対処するために、私たちはまず、対向目標損失の一般化を定めます。 (i)データ損失に関する用語、及び (ii)最悪のドメイン分散の尺度。 そこで我々は,DANN (Ganin and Lempitsky, 2015) など,様々な標準 UDA 手法と組み合わせて使用可能な,DART (Divergence Aware adveRsarial Training) と呼ばれる新しい統合防衛フレームワークを開発した。 DARTは、人気のある$\ell_p$-normモデルを含む一般的な脅威モデルに適用でき、ヒューリスティックな正則化やアーキテクチャの変更を必要としない。 敵攻撃に対するUDAモデルの堅牢性を評価するテストベッドであるDomainRobustもリリースしています。 domainrobustは、4つのマルチドメインベンチマークデータセット(46のソースターゲットペア)と、合計11の派生を持つ7つのメタアルゴリズムで構成されている。 我々の大規模実験では、DARTは平均して、競争力のある標準精度を維持しながら、すべてのベンチマークにおけるモデルロバスト性を大幅に向上することを示した。 DARTからの堅牢性の相対的な改善は、ソースとターゲットのドメインペアで考慮された29.2%に達する。

Distribution shifts and adversarial examples are two major challenges for deploying machine learning models. While these challenges have been studied individually, their combination is an important topic that remains relatively under-explored. In this work, we study the problem of adversarial robustness under a common setting of distribution shift - unsupervised domain adaptation (UDA). Specifically, given a labeled source domain $D_S$ and an unlabeled target domain $D_T$ with related but different distributions, the goal is to obtain an adversarially robust model for $D_T$. The absence of target domain labels poses a unique challenge, as conventional adversarial robustness defenses cannot be directly applied to $D_T$. To address this challenge, we first establish a generalization bound for the adversarial target loss, which consists of (i) terms related to the loss on the data, and (ii) a measure of worst-case domain divergence. Motivated by this bound, we develop a novel unified defense framework called Divergence Aware adveRsarial Training (DART), which can be used in conjunction with a variety of standard UDA methods; e.g., DANN [Ganin and Lempitsky, 2015]. DART is applicable to general threat models, including the popular $\ell_p$-norm model, and does not require heuristic regularizers or architectural changes. We also release DomainRobust: a testbed for evaluating robustness of UDA models to adversarial attacks. DomainRobust consists of 4 multi-domain benchmark datasets (with 46 source-target pairs) and 7 meta-algorithms with a total of 11 variants. Our large-scale experiments demonstrate that on average, DART significantly enhances model robustness on all benchmarks compared to the state of the art, while maintaining competitive standard accuracy. The relative improvement in robustness from DART reaches up to 29.2% on the source-target domain pairs considered.
翻訳日:2024-02-20 23:26:53 公開日:2024-02-16
# プライベートPAC学習はオンライン学習より難しいかもしれない

Private PAC Learning May be Harder than Online Learning ( http://arxiv.org/abs/2402.11119v1 )

ライセンス: Link先を確認
Mark Bun, Aloni Cohen, Rathin Desai(参考訳) 我々は、微分プライベートPAC学習の計算複雑性と、それが機械学習の基礎にあるかの研究を継続する。 最近の研究で、プライベートPACモデルとLittlestoneのオンライン学習のミスバウンドモデルとの質的な等価性を明らかにし、特にLittlestone次元の任意の概念クラス$d$は、$\mathrm{poly}(d)$サンプルを使用してプライベートにPACを学習できることを示した。 これにより、オンライン学習者からプライベートPAC学習者への汎用的な変換が、計算効率も維持するかどうかという自然な疑問が提起される。 我々は、合理的な暗号的仮定の下でこの問題に対する否定的な答えを与える(概して、すべての回路に対して識別不能な難読化を構築することができる)。 多項式の誤りを境界として多項式時間で動作するオンライン学習者を認める概念クラスを示すが,計算効率に優れる差動プライベートpac学習者は存在しない。 我々は,私的・非私的なPAC学習者との分離を確立したBun and Zhandry(TCC 2016-A)を構築・一般化する。

We continue the study of the computational complexity of differentially private PAC learning and how it is situated within the foundations of machine learning. A recent line of work uncovered a qualitative equivalence between the private PAC model and Littlestone's mistake-bounded model of online learning, in particular, showing that any concept class of Littlestone dimension $d$ can be privately PAC learned using $\mathrm{poly}(d)$ samples. This raises the natural question of whether there might be a generic conversion from online learners to private PAC learners that also preserves computational efficiency. We give a negative answer to this question under reasonable cryptographic assumptions (roughly, those from which it is possible to build indistinguishability obfuscation for all circuits). We exhibit a concept class that admits an online learner running in polynomial time with a polynomial mistake bound, but for which there is no computationally-efficient differentially private PAC learner. Our construction and analysis strengthens and generalizes that of Bun and Zhandry (TCC 2016-A), who established such a separation between private and non-private PAC learner.
翻訳日:2024-02-20 23:26:21 公開日:2024-02-16
# 言語モデルは誰の感情や道徳的感情を反映しているのか?

Whose Emotions and Moral Sentiments Do Language Models Reflect? ( http://arxiv.org/abs/2402.11114v1 )

ライセンス: Link先を確認
Zihao He, Siyi Guo, Ashwin Rao, Kristina Lerman(参考訳) 言語モデル(LM)は、特にコンテンツモデレーションやヘイトスピーチの検出といった主観的なタスクにおいて、他のグループよりも優れた社会集団の視点を表現することが知られている。 LMが異なる視点をどう表現するかを探求するために、既存の研究は位置的アライメント、すなわちモデルがどのように異なるグループの意見や姿勢を模倣しているかに焦点を当てている。 しかし、人間のコミュニケーションは感情的・道徳的な側面も含む。 lmsの感情的・道徳的トーンが異なるグループのトーンをどのように表現するかを測定する、感情的アライメントの問題を定義する。 36 lmsで生成された応答の影響とtwitterメッセージの影響を比較することで、両イデオロギーグループ間でのlmsの著しい不一致を観察した。 LMを特定のイデオロギー的な視点で操った後も、モデルの不適応とリベラルな傾向は持続し、LM内の体系的偏見が示唆される。

Language models (LMs) are known to represent the perspectives of some social groups better than others, which may impact their performance, especially on subjective tasks such as content moderation and hate speech detection. To explore how LMs represent different perspectives, existing research focused on positional alignment, i.e., how closely the models mimic the opinions and stances of different groups, e.g., liberals or conservatives. However, human communication also encompasses emotional and moral dimensions. We define the problem of affective alignment, which measures how LMs' emotional and moral tone represents those of different groups. By comparing the affect of responses generated by 36 LMs to the affect of Twitter messages, we observe significant misalignment of LMs with both ideological groups. This misalignment is larger than the partisan divide in the U.S. Even after steering the LMs towards specific ideological perspectives, the misalignment and liberal tendencies of the model persist, suggesting a systemic bias within LMs.
翻訳日:2024-02-20 23:25:58 公開日:2024-02-16
# 相対エントロピー基準による量子ソフトカバーとデカップリング

Quantum Soft Covering and Decoupling with Relative Entropy Criterion ( http://arxiv.org/abs/2402.11112v1 )

ライセンス: Link先を確認
Xingyi He, Touheed Anwar Atif, S. Sandeep Pradhan(参考訳) 演算子近接性の基準として相対エントロピーを用いた完全量子チャネルと古典量子チャネル(CQ)に対する量子ソフト被覆問題を提案する。 我々は,スムーズなミンエントロピーとスムーズなマックスディバージェンスの観点から,ワンショット境界を導出することにより,補題の被覆を証明した。 漸近的状態においては、入力状態の最小ランクの対数として定義されるレート不フィムが参照状態と出力状態の間のコヒーレントな情報であり、CQチャネルでは入力符号の最小数の対数として定義されるレート不フィムが入力状態と出力状態の間のヘロブ情報であることを示す。 さらに, 相対エントロピー基準を用いた1ショット量子デカップリング定理を提案する。 相対エントロピー基準に基づく結果はピンスカー不等式により文献で考慮されたトレースノルムに基づいて対応する結果よりも厳密である。

We propose quantum soft covering problems for fully quantum channels and classical-quantum (CQ) channels using relative entropy as a criterion of operator closeness. We prove covering lemmas by deriving one-shot bounds on the rates in terms of smooth min-entropies and smooth max-divergences, respectively. In the asymptotic regime, we show that for quantum channels, the rate infimum defined as the logarithm of the minimum rank of the input state is the coherent information between the reference and output state; for CQ channels, the rate infimum defined as the logarithm of the minimum number of input codewords is the Helovo information between the input and output state. Furthermore, we present a one-shot quantum decoupling theorem with relative entropy criterion. Our results based on the relative-entropy criterion are tighter than the corresponding results based on the trace norm considered in the literature due to the Pinsker inequality.
翻訳日:2024-02-20 23:25:39 公開日:2024-02-16
# 理科教師としての言語モデル

Language Models as Science Tutors ( http://arxiv.org/abs/2402.11111v1 )

ライセンス: Link先を確認
Alexis Chevalier, Jiayi Geng, Alexander Wettig, Howard Chen, Sebastian Mizera, Toni Annala, Max Jameson Aragon, Arturo Rodr\'iguez Fanlo, Simon Frieder, Simon Machado, Akshara Prabhakar, Ellie Thieu, Jiachen T. Wang, Zirui Wang, Xindi Wu, Mengzhou Xia, Wenhan Jia, Jiatong Yu, Jun-Jie Zhu, Zhiyong Jason Ren, Sanjeev Arora, Danqi Chen(参考訳) NLPは最近、強力な科学的問題解決スキルを持つ訓練言語モデル(LM)に向けてエキサイティングな進歩を遂げた。 しかし、モデル開発は、長い科学文書の処理を必要とする教育への応用を含む、科学におけるLMの実際のユースケースに焦点を当てていない。 これを解決するためにTutorEvalとTutorChatを紹介します。 TutorEvalは、専門家によって書かれたSTEM教科書の長い章に関する質問からなる多様な質問答えベンチマークである。 TutorEvalは、科学アシスタントとしてのLMの実際の使用性を測定するのに役立ち、長い文脈、自由形式生成、多分野の科学知識を組み合わせた最初のベンチマークである。 さらに,既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能低下につながることを示す。 そこで、教科書に関する8万の合成対話のデータセットであるtutorchatを作成する。 我々はTutorChatを使って7Bと34Bパラメータを持つLlemmaモデルを微調整する。 数学に特化したこれらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalに優れている。 当社のデータセットはオープンソース素材上に構築されており、モデル、データ、評価をリリースしています。

NLP has recently made exciting progress toward training language models (LMs) with strong scientific problem-solving skills. However, model development has not focused on real-life use-cases of LMs for science, including applications in education that require processing long scientific documents. To address this, we introduce TutorEval and TutorChat. TutorEval is a diverse question-answering benchmark consisting of questions about long chapters from STEM textbooks, written by experts. TutorEval helps measure real-life usability of LMs as scientific assistants, and it is the first benchmark combining long contexts, free-form generation, and multi-disciplinary scientific knowledge. Moreover, we show that fine-tuning base models with existing dialogue datasets leads to poor performance on TutorEval. Therefore, we create TutorChat, a dataset of 80,000 long synthetic dialogues about textbooks. We use TutorChat to fine-tune Llemma models with 7B and 34B parameters. These LM tutors specialized in math have a 32K-token context window, and they excel at TutorEval while performing strongly on GSM8K and MATH. Our datasets build on open-source materials, and we release our models, data, and evaluations.
翻訳日:2024-02-20 23:25:23 公開日:2024-02-16
# Magic Mirror on the Wall, How to Benchmark Quantum Error Correction Codes, overall ?

Magic Mirror on the Wall, How to Benchmark Quantum Error Correction Codes, Overall ? ( http://arxiv.org/abs/2402.11105v1 )

ライセンス: Link先を確認
Avimita Chatterjee and Swaroop Ghosh(参考訳) 量子誤り訂正符号(Quantum Error Correction Codes, QECCs)は、量子コンピューティングの進歩の基礎であり、ノイズやエラーによる有害な影響から量子状態を保護する。 QECCの正しい選択は、ノイズレベルや量子ビットの制約に影響される特定のシナリオに合わせたものであり、技術進歩そのものと同じくらい不可欠である。 本稿では,QECCをベンチマークするための新しい,包括的方法論を提案する。 そこで,8個のqeccを用いて8つのパラメータの組付けを行い,解析を行う。 我々の研究は、普遍的なベンチマーク手法を確立するだけでなく、量子誤差補正に固有のニュアンスバランスを強調する。 論文では,QECCの選択は各事例の具体的な制約や状況に左右されるため,すべての解決方法が存在しないことを強調している。

Quantum Error Correction Codes (QECCs) are fundamental to the advancement of quantum computing, safeguarding quantum states from the detrimental impact of noise and errors. The right choice of QECC, tailored to specific scenarios influenced by noise levels and qubit constraints, is as vital as the technological advancements themselves. This paper introduces a novel and comprehensive methodology for benchmarking QECCs, featuring a set of universal parameters. Utilizing eight distinguished QECCs, we propose a suite of eight parameters for a thorough analysis. Our work not only establishes a universal benchmarking methodology but also underscores the nuanced balance inherent in quantum error correction. The paper highlights that there is no one-size-fits-all solution; the selection of a QECC is contingent upon the specific constraints and circumstances of each case.
翻訳日:2024-02-20 23:25:03 公開日:2024-02-16
# 不完全投票による投票ルールの計算

Computing Voting Rules with Elicited Incomplete Votes ( http://arxiv.org/abs/2402.11104v1 )

ライセンス: Link先を確認
Daniel Halpern, Safwan Hossain, Jamie Tucker-Foltz(参考訳) 多数の$m$候補に対する完全順序選好の指定が困難であることに動機づけられ、投票規則について検討し、投票者は$t < m$ 候補について質問する。 本論文は,この問題の具体例に焦点を当てた先行研究を一般化し,任意の 1 ドル t < m$ に対して計算可能な位置スコアリング規則の集合を完全に特徴付ける。 次に、これを拡張して、単一の投票(除票)に対して、同様の不可避結果を示す。 これらの負の結果は、クエリの数に情報理論と非依存である。 最後に、限定的なクエリで計算可能なスコアリングルールに対して、パラメータ化された上位および下位境界を、決定論的あるいはランダム化アルゴリズムがスコア最大化候補を決定するために与える。 決定論的アルゴリズムのバウンダリ間にはギャップはないが、ランダム化アルゴリズムの正確なクエリ複雑性を特定することは難しい問題であり、1つの特別なケースを解決する。

Motivated by the difficulty of specifying complete ordinal preferences over a large set of $m$ candidates, we study voting rules that are computable by querying voters about $t < m$ candidates. Generalizing prior works that focused on specific instances of this problem, our paper fully characterizes the set of positional scoring rules that can be computed for any $1 \leq t < m$, which notably does not include plurality. We then extend this to show a similar impossibility result for single transferable vote (elimination voting). These negative results are information-theoretic and agnostic to the number of queries. Finally, for scoring rules that are computable with limited-sized queries, we give parameterized upper and lower bounds on the number of such queries a deterministic or randomized algorithm must make to determine the score-maximizing candidate. While there is no gap between our bounds for deterministic algorithms, identifying the exact query complexity for randomized algorithms is a challenging open problem, of which we solve one special case.
翻訳日:2024-02-20 23:24:47 公開日:2024-02-16
# 空間統計空間の最適化による微構造の潜在変数表現の学習に向けて

Toward Learning Latent-Variable Representations of Microstructures by Optimizing in Spatial Statistics Space ( http://arxiv.org/abs/2402.11103v1 )

ライセンス: Link先を確認
Sayed Sajad Hashemi, Michael Guerzhoy, Noah H. Paulson(参考訳) 材料科学において、材料開発は、総称してミクロ組織と呼ばれる材料の内部構造の評価と最適化を伴う。 微細構造は、画像テクスチャに似た確率的構造である。 特定の微細構造は、フーリエ状のフィルタバンクに対する応答によって特徴づけられる画像テクスチャと同様に、その空間統計によってよく特徴づけられる。 材料設計は、Paulson et al. (2017) の低次元表現の恩恵を受ける。 本研究では,変分オートエンコーダ (VAE) を訓練し,データ空間において必ずしも同じ画像を再構成することなく,元のテクスチャの空間統計を保存するテクスチャの再構築を行う。 空間統計空間における原点と再構成の距離を最小化するために,コスト関数に微分可能な項を加えることで,これを実現できる。 実験の結果,合成画像の再構成と原画像間の空間統計空間における距離を最小化するVAEの訓練が可能であることが示唆された。 今後の研究では, 材料ミクロ構造の低次元表現化を目指して, 同じ手法をマイクロ構造に適用する。

In Materials Science, material development involves evaluating and optimizing the internal structures of the material, generically referred to as microstructures. Microstructures structure is stochastic, analogously to image textures. A particular microstructure can be well characterized by its spatial statistics, analogously to image texture being characterized by the response to a Fourier-like filter bank. Material design would benefit from low-dimensional representation of microstructures Paulson et al. (2017). In this work, we train a Variational Autoencoders (VAE) to produce reconstructions of textures that preserve the spatial statistics of the original texture, while not necessarily reconstructing the same image in data space. We accomplish this by adding a differentiable term to the cost function in order to minimize the distance between the original and the reconstruction in spatial statistics space. Our experiments indicate that it is possible to train a VAE that minimizes the distance in spatial statistics space between the original and the reconstruction of synthetic images. In future work, we will apply the same techniques to microstructures, with the goal of obtaining low-dimensional representations of material microstructures.
翻訳日:2024-02-20 23:24:29 公開日:2024-02-16
# ベイズ最適化によるペロブスカイト実験からの物理材料パラメータ抽出

Physics-based material parameters extraction from perovskite experiments via Bayesian optimization ( http://arxiv.org/abs/2402.11101v1 )

ライセンス: Link先を確認
Hualin Zhan, Viqar Ahmad, Azul Mayon, Grace Tabi, Anh Dinh Bui, Zhuofeng Li, Daniel Walters, Hieu Nguyen, Klaus Weber, Thomas White, Kylie Catchpole(参考訳) 定量的な実験分析から材料パラメータを抽出することは合理的な設計と理論の進歩に不可欠である。 しかし, この解析の難易度は, 理論モデルの複雑さ, 材料パラメータ数の増加とともに著しく増大した。 ここでは、キャリアのドリフト拡散と動的欠陥占有を含む複雑なフル物理モデルに基づいて、過渡発光実験から有機金属ペロブスカイト半導体の8つの基本材料パラメータを抽出できる解析プラットフォームを開発するためにベイズ最適化を用いる。 熱劣化の例としては、ドーピング濃度とキャリア移動度の変化が支配的であり、欠陥エネルギー準位はほぼ変わらないことが示されている。 このプラットフォームは、他の実験や実験の組み合わせ、材料発見の加速、太陽電池などの半導体材料の最適化などに便利に適用することができる。

The ability to extract material parameters from quantitative experimental analysis is essential for rational design and theory advancement. However, the difficulty of this analysis increases significantly with the complexity of the theoretical model and the number of material parameters. Here we use Bayesian optimization to develop an analysis platform that can extract up to 8 fundamental material parameters of an organometallic perovskite semiconductor from a transient photoluminescence experiment, based on a complex full physics model that includes drift-diffusion of carriers and dynamic defect occupation. An example study of thermal degradation reveals that changes in doping concentration and carrier mobility dominate, while the defect energy level remains nearly unchanged. This platform can be conveniently applied to other experiments or to combinations of experiments, accelerating materials discovery and optimization of semiconductor materials for photovoltaics and other applications.
翻訳日:2024-02-20 23:24:10 公開日:2024-02-16
# LLMsがCunning Questionsに出会った時: 大規模言語モデルの誤り理解ベンチマーク

When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models ( http://arxiv.org/abs/2402.11100v1 )

ライセンス: Link先を確認
Yinghui Li, Qingyu Zhou, Yuanzhen Luo, Shirong Ma, Yangning Li, Hai-Tao Zheng, Xuming Hu, Philip S. Yu(参考訳) 近年,Large Language Models (LLM) は言語理解と生成において顕著な進化を遂げている。 その後、LLMのあらゆる種類の能力を測定するための様々なベンチマークが生まれている。 本稿では,人間にとって理解は容易だが,モデルでは理解が難しい質問を含む誤理解理解ベンチマーク(flub)を提案することで,llmの推論と理解能力に挑戦する。 具体的には、flubが焦点を絞った厄介な質問は、実際のインターネット環境から収集された厄介でユーモラスで誤解を招く質問から成り立っている。 FLUBベンチマークでは,LLMの誤り理解能力を評価するために3つのタスクを設計する。 FLUBに基づいて,複数の代表および先進LLMの性能を考察し,FLUBが課題であり,今後の研究に値するものであることを考察する。 興味深い発見と貴重な洞察は、広範な実験と詳細な分析で得られます。 当社のベンチマークは,LCMの誤認識を理解する能力の向上をコミュニティに促すことを願っている。

Recently, Large Language Models (LLMs) have made remarkable evolutions in language understanding and generation. Following this, various benchmarks for measuring all kinds of capabilities of LLMs have sprung up. In this paper, we challenge the reasoning and understanding abilities of LLMs by proposing a FaLlacy Understanding Benchmark (FLUB) containing cunning questions that are easy for humans to understand but difficult for models to grasp. Specifically, the cunning questions that FLUB focuses on mainly consist of the tricky, humorous, and misleading questions collected from the real internet environment. And we design three tasks with increasing difficulty in the FLUB benchmark to evaluate the fallacy understanding ability of LLMs. Based on FLUB, we investigate the performance of multiple representative and advanced LLMs, reflecting our FLUB is challenging and worthy of more future study. Interesting discoveries and valuable insights are achieved in our extensive experiments and detailed analyses. We hope that our benchmark can encourage the community to improve LLMs' ability to understand fallacies.
翻訳日:2024-02-20 23:23:54 公開日:2024-02-16
# パリティネットワーク合成による量子最適化の強化

Enhancing Quantum Optimization with Parity Network Synthesis ( http://arxiv.org/abs/2402.11099v1 )

ライセンス: Link先を確認
Colin Campbell, Edward D Dahl(参考訳) 本稿ではパリティネットワーク合成におけるQAOAについて検討する。 パリティネットワーク合成と線形回路インバージョンのための一組のアルゴリズムを提案する。 これらのアルゴリズムは、QAOA回路の対角成分を構築することができ、一般に2つのキュービットゲートの点で最も高価である。 我々は、CNOTの戦略を、ランダム、フル、グラフベースの最適化問題に対する既定のコンパイラツールと比較し、我々の戦略が代替案より優れていることを確かめる。

This paper examines QAOA in the context of parity network synthesis. We propose a pair of algorithms for parity network synthesis and linear circuit inversion. Together, these algorithms can build the diagonal component of the QAOA circuit, generally the most expensive in terms of two qubit gates. We compare the CNOT count of our strategy to off-the-shelf compiler tools for random, full, and graph-based optimization problems and find that ours outperforms the alternatives.
翻訳日:2024-02-20 23:23:38 公開日:2024-02-16
# GIM:インターネットビデオから一般的な画像マッチングを学習

GIM: Learning Generalizable Image Matcher From Internet Videos ( http://arxiv.org/abs/2402.11095v1 )

ライセンス: Link先を確認
Xuelun Shen, Zhipeng Cai, Wei Yin, Matthias M\"uller, Zijun Li, Kaixuan Wang, Xiaozhi Chen, Cheng Wang(参考訳) 画像マッチングは基本的なコンピュータビジョンの問題である。 学習に基づく手法は、既存のベンチマークで最先端のパフォーマンスを達成する一方で、画像の幅を低く一般化する。 このような方法は、通常、異なるシーンタイプのための別々のモデルをトレーニングする必要がある。 根底にある問題の1つは、既存のデータ構築パイプラインのスケーラビリティの制限であり、標準画像マッチングデータセットの多様性を制限する。 この問題に対処するために,インターネットビデオを用いた任意の画像マッチングアーキテクチャに基づいて,単一の一般化可能なモデルを学習するための自己学習フレームワークであるGIMを提案する。 アーキテクチャを与えられたgimは、まず標準のドメイン固有のデータセットでトレーニングし、それを補完的マッチングメソッドと組み合わせて、新しいビデオのフレームに密接なラベルを作成する。 これらのラベルは堅牢なフィッティングによってフィルタリングされ、その後遠くのフレームに伝播することによって強化される。 最終モデルは、強力な拡張を伴う伝播データに基づいて訓練される。 また,画像マッチングのためのゼロショット評価ベンチマークZEBを提案する。 多様なドメインからのデータを混合することにより、ZEBは異なるメソッドのクロスドメイン一般化性能を徹底的に評価することができる。 GIMの適用により、3つの最先端画像マッチングアーキテクチャのゼロショット性能が一貫して改善され、50時間のYouTubeビデオにより、相対ゼロショット性能は8.4%から18.1%向上した。 GIMはまた、投影された3Dポイントクラウド(図)のバードアイビュー(BEV)画像のような極端なクロスドメインデータへの一般化を可能にする。 1(c))であった。 さらに重要なことは、我々の単一のゼロショットモデルは、それぞれのドメイン固有の下流タスクで評価されると、ドメイン固有のベースラインを一貫して上回ります。 ビデオプレゼンテーションはhttps://www.youtube.com/watch? v=FU_MJLD8LeY。

Image matching is a fundamental computer vision problem. While learning-based methods achieve state-of-the-art performance on existing benchmarks, they generalize poorly to in-the-wild images. Such methods typically need to train separate models for different scene types and are impractical when the scene type is unknown in advance. One of the underlying problems is the limited scalability of existing data construction pipelines, which limits the diversity of standard image matching datasets. To address this problem, we propose GIM, a self-training framework for learning a single generalizable model based on any image matching architecture using internet videos, an abundant and diverse data source. Given an architecture, GIM first trains it on standard domain-specific datasets and then combines it with complementary matching methods to create dense labels on nearby frames of novel videos. These labels are filtered by robust fitting, and then enhanced by propagating them to distant frames. The final model is trained on propagated data with strong augmentations. We also propose ZEB, the first zero-shot evaluation benchmark for image matching. By mixing data from diverse domains, ZEB can thoroughly assess the cross-domain generalization performance of different methods. Applying GIM consistently improves the zero-shot performance of 3 state-of-the-art image matching architectures; with 50 hours of YouTube videos, the relative zero-shot performance improves by 8.4%-18.1%. GIM also enables generalization to extreme cross-domain data such as Bird Eye View (BEV) images of projected 3D point clouds (Fig. 1(c)). More importantly, our single zero-shot model consistently outperforms domain-specific baselines when evaluated on downstream tasks inherent to their respective domains. The video presentation is available at https://www.youtube.com/watch?v=FU_MJLD8LeY.
翻訳日:2024-02-20 23:23:29 公開日:2024-02-16
# LLMは何か新しいものを提供するのか?

Word Embeddings Revisited: Do LLMs Offer Something New? ( http://arxiv.org/abs/2402.11094v1 )

ライセンス: Link先を確認
Matthew Freestone and Shubhra Kanti Karmaker Santu(参考訳) 有意義な単語埋め込みを学ぶことは、堅牢な言語モデルをトレーニングするための鍵となる。 最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。 LLM は様々な NLP タスクにおいて顕著な進歩を見せているが、性能改善が単にスケールのためなのか、基礎となる埋め込みが SBERT (Sentence-BERT) や Universal Sentence Encoder (USE) のような古典的なエンコーディングモデルと大きく異なるのかは不明である。 本稿では, 古典的単語埋め込み法とllmに基づく単語埋め込み法を, 潜在ベクトル意味論の観点から比較し, この問題を体系的に検討する。 その結果,llmは古典モデルよりも意味的に関連した単語をクラスタ化する傾向が見られた。 LLMは古典的手法よりも、より高い平均精度をBigger Analogy Test Set (BATS)上で得られる。 最後に、一部のLLMは比較的軽量な古典モデルであるSBERTに似た単語埋め込みを生成する傾向がある。

Learning meaningful word embeddings is key to training a robust language model. The recent rise of Large Language Models (LLMs) has provided us with many new word/sentence/document embedding models. Although LLMs have shown remarkable advancement in various NLP tasks, it is still unclear whether the performance improvement is merely because of scale or whether underlying embeddings they produce significantly differ from classical encoding models like Sentence-BERT (SBERT) or Universal Sentence Encoder (USE). This paper systematically investigates this issue by comparing classical word embedding techniques against LLM-based word embeddings in terms of their latent vector semantics. Our results show that LLMs tend to cluster semantically related words more tightly than classical models. LLMs also yield higher average accuracy on the Bigger Analogy Test Set (BATS) over classical methods. Finally, some LLMs tend to produce word embeddings similar to SBERT, a relatively lighter classical model.
翻訳日:2024-02-20 23:23:00 公開日:2024-02-16
# 関数型部分最小二乗法:最適速度と適応

Functional Partial Least-Squares: Optimal Rates and Adaptation ( http://arxiv.org/abs/2402.11134v1 )

ライセンス: Link先を確認
Andrii Babii and Marine Carrasco and Idriss Tsafack(参考訳) スカラー応答を持つ関数線形回帰モデルとヒルベルト空間値予測器,よく知られた逆問題を考える。 共役勾配法に関連する機能的最小二乗推定器(PLS)の新たな定式化を提案する。 推定器が楕円体のクラス上で(ほぼ)最適収束率を達成できることを示し、未知の不適切度に適応する早期停止規則を導入する。 主成分回帰推定器と主成分回帰推定器との理論的およびシミュレーション比較を提供する。

We consider the functional linear regression model with a scalar response and a Hilbert space-valued predictor, a well-known ill-posed inverse problem. We propose a new formulation of the functional partial least-squares (PLS) estimator related to the conjugate gradient method. We shall show that the estimator achieves the (nearly) optimal convergence rate on a class of ellipsoids and we introduce an early stopping rule which adapts to the unknown degree of ill-posedness. Some theoretical and simulation comparison between the estimator and the principal component regression estimator is provided.
翻訳日:2024-02-20 23:14:41 公開日:2024-02-16
# 背景場を持つ非相互作用量子場理論における厳密局在状態の進化

Evolution of strictly localized states in non-interacting quantum field theories with background fields ( http://arxiv.org/abs/2402.11132v1 )

ライセンス: Link先を確認
M. Alkhateeb and A. Matzkin(参考訳) 本稿では,相対論的波動方程式の時空解を提供する計算量子場理論(qft)スキームの枠組みにおいて,コンパクトな空間的支持を有するスピン1/2フェルミイオンおよびスピン-0ボソニック波パックの構成について検討する。 完全局所化波束を構築するために,正電荷と負電荷の両方の粒子を考慮した空間密度演算子を導入する。 本演算子の真空および単粒子期待値の特性について検討し,標準QFT粒子と反粒子空間密度との比較を行った。 この形式性は、超臨界静電ステップに作用する厳密な局所化された波束のクライントンネルダイナミクスを数値的に計算することで示される。 ここで導入された密度演算子は、純粋な粒子や反粒子波束に固有の無限空間のテールを扱うことを避けることが望ましい状況のモデル化に有用である。

We investigate the construction of spin-1/2 fermionic and spin-0 bosonic wave-packets having compact spatial support in the framework of a computational quantum field theory (QFT) scheme offering space-time solutions of the relativistic wave equations in background fields. In order to construct perfectly localized wave-packets, we introduce a spatial density operator accounting for particles of both positive and negative charge. We examine properties of the vacuum and single-particle expectation values of this operator and compare them to the standard QFT particle and anti-particle spatial densities. The formalism is illustrated by computing numerically the Klein tunneling dynamics of strictly localized wave-packets impinging on a supercritical electrostatic step. The density operator introduced here could be useful to model situations in which it is desirable to avoid dealing with the infinite spatial tails intrinsic to pure particle or anti-particle wave-packets.
翻訳日:2024-02-20 23:14:33 公開日:2024-02-16
# 投機的ストリーミング:補助モデルのない高速LLM推論

Speculative Streaming: Fast LLM Inference without Auxiliary Models ( http://arxiv.org/abs/2402.11131v1 )

ライセンス: Link先を確認
Nikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi(参考訳) 投機的復号化は、補助的ドラフトモデルの予測に基づいて、大きなターゲット言語モデルの推論を高速化する顕著な手法である。 アプリケーション固有の設定では有効であるが、高い受け入れ率を達成するために、ドラフトモデルとターゲットモデルの両方を微調整することが多い。 下流タスクの数が増加するにつれて、これらのドラフトモデルは推論システムにかなりの複雑さをもたらす。 本稿では,次のトークン予測から将来のn-gram予測に微調整対象を変更することで,単一モデルの投機的復号法である投機的ストリーミングを提案する。 投機的ストリーミングは、生成品質を犠牲にすることなく、Summarization、Structured Queries、Meaning Representationといった様々なタスクセットで1.83.1Xのデコーディングを高速化する。 さらに、投機的ストリーミングはパラメータ効率が高い。 約10000Xのパラメータを減らし、Medusaスタイルのアーキテクチャよりもオンパー/ハイスピードアップを実現している。

Speculative decoding is a prominent technique to speed up the inference of a large target language model based on predictions of an auxiliary draft model. While effective, in application-specific settings, it often involves fine-tuning both draft and target models to achieve high acceptance rates. As the number of downstream tasks grows, these draft models add significant complexity to inference systems. We propose Speculative Streaming, a single-model speculative decoding method that fuses drafting into the target model by changing the fine-tuning objective from next token prediction to future n-gram prediction. Speculative Streaming speeds up decoding by 1.8 - 3.1X in a diverse set of tasks, such as Summarization, Structured Queries, and Meaning Representation, without sacrificing generation quality. Additionally, Speculative Streaming is parameter-efficient. It achieves on-par/higher speed-ups than Medusa-style architectures while using ~10000X fewer extra parameters, making it well-suited for resource-constrained devices.
翻訳日:2024-02-20 23:14:17 公開日:2024-02-16
# blendfilter:クエリ生成ブレンドと知識フィルタリングによる検索型大規模言語モデルの拡張

BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering ( http://arxiv.org/abs/2402.11129v1 )

ライセンス: Link先を確認
Haoyu Wang, Tuo Zhao, Jing Gao(参考訳) Retrieval-augmented Large Language Models (LLMs)は、知識集約型シナリオのパフォーマンス向上において、大きなメリットを提供する。 しかし、これらの手法は複雑な入力とノイズの多い知識検索による困難に直面することが多く、特にモデルの有効性を阻害する。 この問題に対処するために,クエリ生成と知識フィルタリングの統合により,検索可能なllmを向上させる新しいアプローチであるblendfilterを提案する。 BlendFilter氏は、外部知識と内部知識の両方を元のクエリと統合し、包括的な情報収集を保証するクエリ生成手法によるブレンディングプロセスを提案する。 さらに,LLMの本質的な機能に特有な知識フィルタリングモジュールを付加し,外部データを効果的に除去する。 我々は3つのオープンドメイン質問応答ベンチマークについて広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインを大幅に超えることを示す。

Retrieval-augmented Large Language Models (LLMs) offer substantial benefits in enhancing performance across knowledge-intensive scenarios. However, these methods often face challenges with complex inputs and encounter difficulties due to noisy knowledge retrieval, notably hindering model effectiveness. To address this issue, we introduce BlendFilter, a novel approach that elevates retrieval-augmented LLMs by integrating query generation blending with knowledge filtering. BlendFilter proposes the blending process through its query generation method, which integrates both external and internal knowledge augmentation with the original query, ensuring comprehensive information gathering. Additionally, our distinctive knowledge filtering module capitalizes on the intrinsic capabilities of the LLM, effectively eliminating extraneous data. We conduct extensive experiments on three open-domain question answering benchmarks, and the findings clearly indicate that our innovative BlendFilter surpasses state-of-the-art baselines significantly.
翻訳日:2024-02-20 23:13:55 公開日:2024-02-16
# Q-Embroidery: 量子分類器の織物へのウィービング量子エラー補正に関する研究

Q-Embroidery: A Study of Weaving Quantum Error Correction into the Fabric of Quantum Classifiers ( http://arxiv.org/abs/2402.11127v1 )

ライセンス: Link先を確認
Avimita Chatterjee, Debarshi Kundu and Swaroop Ghosh(参考訳) 量子コンピューティングは、様々な分野の変換ポテンシャルを持っているが、その実用的応用はエラーの感受性によって妨げられている。 本研究は,量子誤り訂正符号(QECC)を複雑・多ビット分類タスクに適用することにより,先駆的な貢献を行う。 1量子ビットと2量子ビットの量子分類器をqecc、特にステアン符号と距離3と5の曲面符号で実装し、2次元および4次元のデータセットを解析した。 本研究は、ビットフリップ、位相フリップ、偏極誤差を含む様々な物理誤差に対して量子分類器の堅牢性と精度を高めるために、これらのQECCの性能を独自に評価する。 その結果、実用シナリオにおけるqeccの有効性は、理論上優位に留まらず、量子ビットの可用性、所望の精度、特定のタイプや物理的エラーのレベルなど様々な要因に依存することが強調された。

Quantum computing holds transformative potential for various fields, yet its practical application is hindered by the susceptibility to errors. This study makes a pioneering contribution by applying quantum error correction codes (QECCs) for complex, multi-qubit classification tasks. We implement 1-qubit and 2-qubit quantum classifiers with QECCs, specifically the Steane code, and the distance 3 & 5 surface codes to analyze 2-dimensional and 4-dimensional datasets. This research uniquely evaluates the performance of these QECCs in enhancing the robustness and accuracy of quantum classifiers against various physical errors, including bit-flip, phase-flip, and depolarizing errors. The results emphasize that the effectiveness of a QECC in practical scenarios depends on various factors, including qubit availability, desired accuracy, and the specific types and levels of physical errors, rather than solely on theoretical superiority.
翻訳日:2024-02-20 23:13:28 公開日:2024-02-16
# Kolmogorov n-Widths for Multitask Physics-Informed Machine Learning (PIML) Methods: Towards Robust Metrics

Kolmogorov n-Widths for Multitask Physics-Informed Machine Learning (PIML) Methods: Towards Robust Metrics ( http://arxiv.org/abs/2402.11126v1 )

ライセンス: Link先を確認
Michael Penwarden, Houman Owhadi, Robert M. Kirby(参考訳) 偏微分方程式(PDE)を解くための物理インフォームド・機械学習(PIML)がCS&E(Computational Science and Engineering)の世界で注目を集めている。 このトピックは、マルチタスク学習(multitask learning)と呼ばれる、シングルまたはPDE問題の集合を解決するための、幅広いメソッドとモデルを含んでいる。 PIMLの特徴は、PDE問題を解決する際に、大規模データの代わりに機械学習モデルのトレーニングプロセスに物理法則を組み込むことである。 このメソッドの集合の全体的な成功にもかかわらず、分析、ベンチマーク、そして一般的にあるアプローチを他の方法と比較するのは信じられないほど難しい。 kolmogorov n-widths を近似関数の有効性の尺度として用いることで、様々なマルチタスク piml アーキテクチャの比較において、このメトリックを公平に適用する。 より低い精度境界を計算し、様々なPDE問題に基づいてモデルの学習基底関数を解析する。 これはマルチタスクPIMLアーキテクチャを比較するための最初の客観的指標であり、選択的サンプリングとオーバーフィッティングからモデル検証の不確実性を取り除くのに役立つ。 また、アクティベーション関数の選択など、モデルアーキテクチャの改善の道筋を明らかにし、タスク固有のエラーを報告する際には観察されない"Worst-case"シナリオへのモデル一般化に大きな影響を与える。 また、このメトリックを正規化による最適化プロセスに組み込んで、マルチタスクPDE問題に対するモデルの一般化性を向上させる。

Physics-informed machine learning (PIML) as a means of solving partial differential equations (PDE) has garnered much attention in the Computational Science and Engineering (CS&E) world. This topic encompasses a broad array of methods and models aimed at solving a single or a collection of PDE problems, called multitask learning. PIML is characterized by the incorporation of physical laws into the training process of machine learning models in lieu of large data when solving PDE problems. Despite the overall success of this collection of methods, it remains incredibly difficult to analyze, benchmark, and generally compare one approach to another. Using Kolmogorov n-widths as a measure of effectiveness of approximating functions, we judiciously apply this metric in the comparison of various multitask PIML architectures. We compute lower accuracy bounds and analyze the model's learned basis functions on various PDE problems. This is the first objective metric for comparing multitask PIML architectures and helps remove uncertainty in model validation from selective sampling and overfitting. We also identify avenues of improvement for model architectures, such as the choice of activation function, which can drastically affect model generalization to "worst-case" scenarios, which is not observed when reporting task-specific errors. We also incorporate this metric into the optimization process through regularization, which improves the models' generalizability over the multitask PDE problem.
翻訳日:2024-02-20 23:12:59 公開日:2024-02-16
# スイッチ変数による暗黙因果モデルの絡み合い

Disentanglement in Implicit Causal Models via Switch Variable ( http://arxiv.org/abs/2402.11124v1 )

ライセンス: Link先を確認
Shayan Shirahmad Gale Bagi and Zahra Gharaee and Oliver Schulte and Mark Crowley(参考訳) 既知の接地グラフ構造が存在しない場合の観察的および介入的データからの因果表現の学習は、暗黙的潜在因果表現学習を必要とする。 因果的な学習機構は通常、ハードとソフトの介入という2つの介入データを含む。 現実のシナリオでは、ソフト介入はハード介入よりも現実的であり、後者は完全に制御された環境を必要とする。 因果変化を直接強制するハード介入とは異なり、ソフト介入は因果機構に影響を与えることによって間接的に影響を与える。 本稿では,変分オートエンコーダ(VAE)フレームワークにおけるソフト介入による暗黙の潜時因果表現学習に取り組む。 提案手法は,異なる因果機構を切り替えるためのスイッチ変数を用いてソフト介入効果をモデル化する。 実験では,ベースラインアプローチと比較して,同定可能な因果表現の学習の改善を一貫して観察した。

Learning causal representations from observational and interventional data in the absence of known ground-truth graph structures necessitates implicit latent causal representation learning. Implicitly learning causal mechanisms typically involves two categories of interventional data: hard and soft interventions. In real-world scenarios, soft interventions are often more realistic than hard interventions, as the latter require fully controlled environments. Unlike hard interventions, which directly force changes in a causal variable, soft interventions exert influence indirectly by affecting the causal mechanism. In this paper, we tackle implicit latent causal representation learning in a Variational Autoencoder (VAE) framework through soft interventions. Our approach models soft interventions effects by employing a causal mechanism switch variable designed to toggle between different causal mechanisms. In our experiments, we consistently observe improved learning of identifiable, causal representations, compared to baseline approaches.
翻訳日:2024-02-20 23:12:16 公開日:2024-02-16
# 文脈的バンディットを用いたウォーファリンドーシングの最適化 : オフラインポリシー学習と評価手法

Optimizing Warfarin Dosing Using Contextual Bandit: An Offline Policy Learning and Evaluation Method ( http://arxiv.org/abs/2402.11123v1 )

ライセンス: Link先を確認
Yong Huang, Charles A. Downs, Amir M. Rahmani(参考訳) 抗凝固薬であるウォーファリンは、異常な血液凝固に関連する疾患を予防し対処するために配合され、世界で最も処方された薬物の1つである。 しかし、個々の反応の変化によって適切な投与量を決定することは依然として困難であり、誤った服用を処方することは深刻な結果をもたらす可能性がある。 コンテキストバンディットと強化学習は、この問題に取り組む上での約束を示している。 医療における観察データの普及と意思決定の安全性を考慮し,新しい政策を導出するための実証として,歴史的政策からの観察データのみを活用し,文脈的バンディット設定におけるオフライン政策学習と評価を活用し,最適なパーソナライズド・ドセージ戦略を確立した。 我々の学習方針は、遺伝子型入力を伴わずにこれらのベースラインアプローチを超越し、たとえ準最適実証を与えられたとしても、有望な応用可能性を示す。

Warfarin, an anticoagulant medication, is formulated to prevent and address conditions associated with abnormal blood clotting, making it one of the most prescribed drugs globally. However, determining the suitable dosage remains challenging due to individual response variations, and prescribing an incorrect dosage may lead to severe consequences. Contextual bandit and reinforcement learning have shown promise in addressing this issue. Given the wide availability of observational data and safety concerns of decision-making in healthcare, we focused on using exclusively observational data from historical policies as demonstrations to derive new policies; we utilized offline policy learning and evaluation in a contextual bandit setting to establish the optimal personalized dosage strategy. Our learned policies surpassed these baseline approaches without genotype inputs, even when given a suboptimal demonstration, showcasing promising application potential.
翻訳日:2024-02-20 23:11:17 公開日:2024-02-16
# dual facetsのナビゲート:大規模言語モデルにおけるシーケンシャルメモリ編集の包括的評価

Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models ( http://arxiv.org/abs/2402.11122v1 )

ライセンス: Link先を確認
Zihao Lin, Mohammad Beigi, Hongxuan Li, Yufan Zhou, Yuxiang Zhang, Qifan Wang, Wenpeng Yin, Lifu Huang(参考訳) メモリ編集(me)は誤った事実を修正したり、新しい事実を大規模言語モデル(llm)に注入する効率的な方法として登場した。 パラメータ修飾 me とパラメータ保存 me (元のパラメータを保持しながら余分なモジュールを統合する) である。 ME評価に関するこれまでの研究には2つの限界がある。 (i)単一編集のみによるllmの評価、連続編集の必要性の無視、及び (II) 論理的推論や読解といった LLM の幅広い能力を見越して, 基本的事実三重項にのみ焦点をあてた評価。 本研究は、これらの制限を3倍の貢献で解決する。 i) シーケンシャル編集において, ME が LLM の基本機能にどのように影響するかを検討する。 パラメータ修飾のほとんどは、シーケンシャルな編集の後、すべてのタスクで一貫してパフォーマンスを低下させます。 対照的に、パラメータ保存MEはLLMの基本能力を効果的に維持するが、異なるフォーマットで提示された編集された知識を正確に思い出すのに苦労する。 (ii)我々は、編集するレイヤ、モデルサイズ、命令のチューニングなど、さまざまな編集設定に評価を拡張します。 実験の結果、私の悪影響を軽減できるいくつかの戦略が示された。 (iii)パラメータ修飾meがllmを3次元から損なう理由についてさらに説明する。編集後のパラメータ変化、言語モデリング機能、文脈内学習機能。 私たちの詳細な研究は、現実のシナリオにおけるMEのより慎重な利用を提唱しています。

Memory Editing (ME) has emerged as an efficient method to modify erroneous facts or inject new facts into Large Language Models (LLMs). Two mainstream ME methods exist: parameter-modifying ME and parameter-preserving ME (integrating extra modules while preserving original parameters). Regrettably, previous studies on ME evaluation have two critical limitations: (i) evaluating LLMs with single edit only, neglecting the need for continuous editing, and (ii) evaluations focusing solely on basic factual triples, overlooking broader LLM capabilities like logical reasoning and reading understanding. This study addresses these limitations with contributions threefold: (i) We explore how ME affects a wide range of fundamental capabilities of LLMs under sequential editing. Experimental results reveal an intriguing phenomenon: Most parameter-modifying ME consistently degrade performance across all tasks after a few sequential edits. In contrast, parameter-preserving ME effectively maintains LLMs' fundamental capabilities but struggles to accurately recall edited knowledge presented in a different format. (ii) We extend our evaluation to different editing settings, such as layers to edit, model size, instruction tuning, etc. Experimental findings indicate several strategies that can potentially mitigate the adverse effects of ME. (iii) We further explain why parameter-modifying ME damages LLMs from three dimensions: parameter changes after editing, language modeling capability, and the in-context learning capability. Our in-depth study advocates more careful use of ME in real-world scenarios.
翻訳日:2024-02-20 23:10:51 公開日:2024-02-16
# 質問応答のための教師なしLLM適応

Unsupervised LLM Adaptation for Question Answering ( http://arxiv.org/abs/2402.12170v1 )

ライセンス: Link先を確認
Kuniaki Saito, Kihyuk Sohn, Chen-Yu Lee, Yoshitaka Ushiku(参考訳) 大規模言語モデル(llm)は、自己教師付きトレーニングを通じて、大規模トレーニングデータセットに存在する多様な知識を学習する。 インストラクションチューニングによってLLMは、多様な質問に対して正しい情報を返す能力を取得する。 しかし、これらの事前訓練されたLLMを異なる組織や期間などの新しいターゲットドメインに適用すると、QAタスクは相当なアノテーションコストが発生する。 この課題に取り組むために,質問応答に対する教師なしllm適応という新しいタスクを提案する。 本課題では,学習済みのLLM,公開可能なQAデータセット(ソースデータ),および対象ドメインからのラベルなし文書を活用する。 私たちのゴールは、ターゲットドメインに関する質問に答えられるLLMを学ぶことです。 1つの合成データセットと2つの実データセットを導入し、ソースとターゲットデータに微調整されたモデルを評価し、興味深い洞察を明らかにする。 一 未記載の文書に記載された情報についての質問がないにもかかわらず、対象領域に関する質問に対して正しい回答を提供する能力を有する微調整モデル (二 文書の中間又は末尾にある情報にアクセスするのが困難である。) (iii)この課題は、適応中に入力トークンをランダムトークンに置き換えることで部分的に軽減することができる。

Large language models (LLM) learn diverse knowledge present in the large-scale training dataset via self-supervised training. Followed by instruction-tuning, LLM acquires the ability to return correct information for diverse questions. However, adapting these pre-trained LLMs to new target domains, such as different organizations or periods, for the question-answering (QA) task incurs a substantial annotation cost. To tackle this challenge, we propose a novel task, unsupervised LLM adaptation for question answering. In this task, we leverage a pre-trained LLM, a publicly available QA dataset (source data), and unlabeled documents from the target domain. Our goal is to learn LLM that can answer questions about the target domain. We introduce one synthetic and two real datasets to evaluate models fine-tuned on the source and target data, and reveal intriguing insights; (i) fine-tuned models exhibit the ability to provide correct answers for questions about the target domain even though they do not see any questions about the information described in the unlabeled documents, but (ii) they have difficulties in accessing information located in the middle or at the end of documents, and (iii) this challenge can be partially mitigated by replacing input tokens with random ones during adaptation.
翻訳日:2024-02-20 16:27:23 公開日:2024-02-16
# 非ユークリッド予測器を用いた計量空間価値回帰のためのfr\'echetランダム森林

Fr\'echet random forests for metric space valued regression with non euclidean predictors ( http://arxiv.org/abs/1906.01741v3 )

ライセンス: Link先を確認
Louis Capitaine, J\'er\'emie Bigot, Rodolphe Thi\'ebaut and Robin Genuer(参考訳) ランダムフォレスト(英: random forests)は、入力変数と出力変数の複雑な関係を学習する能力と高次元データを扱う能力から、多くの科学研究で広く用いられている統計学習手法である。 しかし、現在のランダムフォレストアプローチは、曲線、画像、形状といった異種データを扱うのに十分な柔軟性がない。 本稿では,入力変数と出力変数が一般的な距離空間で値を取るデータを扱うために,fr\'echet木とfr\'echetランダムフォレストを導入する。 この目的のために、木のノードを分割する新しい方法を導入し、木や森林の予測手順を一般化した。 そして、ランダム森林のバグエラーと変動重要度スコアを自然に適用する。 データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理を与え、Fr'echet純ランダム木に適用する。 本手法は, 縦・画像・スカラーデータを組み合わせた異種データのシミュレーションシナリオを用いて検討した。 最後に,空気質に関する実データを用いて,提案手法の実践例を示す。

Random forests are a statistical learning method widely used in many areas of scientific research because of its ability to learn complex relationships between input and output variables and also its capacity to handle high-dimensional data. However, current random forest approaches are not flexible enough to handle heterogeneous data such as curves, images and shapes. In this paper, we introduce Fr\'echet trees and Fr\'echet random forests, which allow to handle data for which input and output variables take values in general metric spaces. To this end, a new way of splitting the nodes of trees is introduced and the prediction procedures of trees and forests are generalized. Then, random forests out-of-bag error and variable importance score are naturally adapted. A consistency theorem for Fr\'echet regressogram predictor using data-driven partitions is given and applied to Fr\'echet purely uniformly random trees. The method is studied through several simulation scenarios on heterogeneous data combining longitudinal, image and scalar data. Finally, one real dataset about air quality is used to illustrate the use of the proposed method in practice.
翻訳日:2024-02-19 21:37:49 公開日:2024-02-16
# MogaNet:マルチオーダーGated Aggregation Network

MogaNet: Multi-order Gated Aggregation Network ( http://arxiv.org/abs/2211.03295v3 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li(参考訳) カーネルを可能な限りグローバルにすることで、Modern ConvNetsはコンピュータビジョンタスクに大きな可能性を示した。 しかし、ディープニューラルネットワーク(DNN)における \textit{multi-order game-theoretic interaction} の最近の進歩は、表現的相互作用がカーネルサイズの増加とともに効果的にエンコードされていない現代のConvNetの表現ボトルネックを明らかにしている。 この課題に対処するために、我々は、複雑性と性能のトレードオフが好ましい純ConvNetモデルにおける識別的視覚表現学習のための、MogaNetと呼ばれるモダンなConvNetの新しいファミリーを提案する。 MogaNetは概念的に単純だが効果的な畳み込みとゲートアグリゲーションをコンパクトモジュールにカプセル化し、識別的特徴を効率的に収集し、文脈適応化する。 MogaNetは、CoCOオブジェクトの検出、ADE20Kセマンティックセグメンテーション、2D\&3D人間のポーズ推定、ビデオ予測など、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの効率、競合性能を示している。 特に、MogaNetは、ImageNet-1Kの5.2Mと181Mのパラメータで80.0\%と87.8\%の精度を達成し、ParC-NetとConvNeXt-Lを上回っ、それぞれ59\%のFLOPと17Mのパラメータを節約した。 ソースコードは \url{https://github.com/westlake-ai/moganet} で入手できる。

By contextualizing the kernel as global as possible, Modern ConvNets have shown great potential in computer vision tasks. However, recent progress on \textit{multi-order game-theoretic interaction} within deep neural networks (DNNs) reveals the representation bottleneck of modern ConvNets, where the expressive interactions have not been effectively encoded with the increased kernel size. To tackle this challenge, we propose a new family of modern ConvNets, dubbed MogaNet, for discriminative visual representation learning in pure ConvNet-based models with favorable complexity-performance trade-offs. MogaNet encapsulates conceptually simple yet effective convolutions and gated aggregation into a compact module, where discriminative features are efficiently gathered and contextualized adaptively. MogaNet exhibits great scalability, impressive efficiency of parameters, and competitive performance compared to state-of-the-art ViTs and ConvNets on ImageNet and various downstream vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D\&3D human pose estimation, and video prediction. Notably, MogaNet hits 80.0\% and 87.8\% accuracy with 5.2M and 181M parameters on ImageNet-1K, outperforming ParC-Net and ConvNeXt-L, while saving 59\% FLOPs and 17M parameters, respectively. The source code is available at \url{https://github.com/Westlake-AI/MogaNet}.
翻訳日:2024-02-19 21:34:57 公開日:2024-02-16
# 多環境FDD-OFDMシステムの深層学習による秘密鍵生成

Enabling Deep Learning-based Physical-layer Secret Key Generation for FDD-OFDM Systems in Multi-Environments ( http://arxiv.org/abs/2211.03065v2 )

ライセンス: Link先を確認
Xinwei Zhang, Guyue Li, Junqing Zhang, Linning Peng, Aiqun Hu, Xianbin Wang(参考訳) 深層学習に基づく物理層秘密鍵生成(PKG)は、周波数分割二重化(FDD)直交周波数分割多重化(OFDM)システムにおける不完全なアップリンク/ダウンリンクチャネルの相反性を克服するために用いられている。 しかし、既存の取り組みでは、トレーニングサンプルとテストサンプルが同じ分布に従う特定の環境において、ユーザにとって重要な生成に重点を置いている。 本稿では,複数の環境におけるPKG問題を学習に基づく問題として,既知の環境からデータやモデルなどの知識を学習し,鍵を迅速かつ効率的に生成する。 具体的には,鍵生成のためのディープトランスファー学習(DTL)とメタラーニングに基づくチャネル特徴マッピングアルゴリズムを提案する。 2つのアルゴリズムは、異なるトレーニング方法を使用して、既知の環境でモデルを事前学習し、新しい環境に素早く適応し、デプロイする。 シミュレーションおよび実験結果から,適応のない手法と比較して,DTLとメタ学習アルゴリズムの両方が生成鍵の性能を向上させることが示された。 さらに, 複雑度解析により, メタラーニングアルゴリズムはdtlアルゴリズムよりも少ないコストで優れた性能が得られることを示した。

Deep learning-based physical-layer secret key generation (PKG) has been used to overcome the imperfect uplink/downlink channel reciprocity in frequency division duplexing (FDD) orthogonal frequency division multiplexing (OFDM) systems. However, existing efforts have focused on key generation for users in a specific environment where the training samples and test samples follow the same distribution, which is unrealistic for real-world applications. This paper formulates the PKG problem in multiple environments as a learning-based problem by learning the knowledge such as data and models from known environments to generate keys quickly and efficiently in multiple new environments. Specifically, we propose deep transfer learning (DTL) and meta-learning-based channel feature mapping algorithms for key generation. The two algorithms use different training methods to pre-train the model in the known environments, and then quickly adapt and deploy the model to new environments. Simulation and experimental results show that compared with the methods without adaptation, the DTL and meta-learning algorithms both can improve the performance of generated keys. In addition, the complexity analysis shows that the meta-learning algorithm can achieve better performance than the DTL algorithm with less cost.
翻訳日:2024-02-19 21:34:25 公開日:2024-02-16
# MultiMatch: 半教師付きドメイン一般化のためのマルチタスク学習

MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization ( http://arxiv.org/abs/2208.05853v2 )

ライセンス: Link先を確認
Lei Qi, Hongpeng Yang, Yinghuan Shi, Xin Geng(参考訳) ドメイン一般化(DG)は、ソースドメインのモデルを学習して、見えないターゲットドメインをうまく一般化することを目的としている。 これは大きな成功を収めたものの、既存の手法のほとんどは、実世界のアプリケーションでは時間がかかり高価であるソースドメインの全トレーニングサンプルのラベル情報を必要とする。 本稿では,各ソースドメインにいくつかのラベル情報が存在する半教師付きドメイン一般化(SSDG)タスクを解決する。 この課題に対処するために,我々はまず,マルチドメイン学習の理論を分析した。 1【ドメインギャップの影響の緩和・緩和】 2) モデルトレーニングに全サンプルを活用することで, ソース領域の一般化誤差を効果的に低減し, 擬似ラベルの品質向上を図る。 本稿では,マルチタスク学習フレームワークにfixmatchを拡張し,ssdgのための高品質な擬似ラベルを生成するマルチマッチを提案する。 具体的には、各トレーニングドメインをひとつのタスク(すなわちローカルタスク)として考慮し、すべてのトレーニングドメイン(すなわちグローバルタスク)を組み合わせることで、見えないテストドメインのために追加のタスクをトレーニングします。 マルチタスクフレームワークでは,個別のBNと分類器を各タスクに利用し,擬似ラベル処理中に異なるドメインからの干渉を効果的に緩和する。 また、フレームワーク内のほとんどのパラメータは共有されており、すべてのトレーニングサンプルで十分にトレーニングすることができる。 さらに、擬似ラベル精度とモデルの一般化をさらに高めるために、トレーニングおよびテスト中のグローバルタスクとローカルタスクから予測を融合する。 提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。

Domain generalization (DG) aims at learning a model on source domains to well generalize on the unseen target domain. Although it has achieved great success, most of existing methods require the label information for all training samples in source domains, which is time-consuming and expensive in the real-world application. In this paper, we resort to solving the semi-supervised domain generalization (SSDG) task, where there are a few label information in each source domain. To address the task, we first analyze the theory of the multi-domain learning, which highlights that 1) mitigating the impact of domain gap and 2) exploiting all samples to train the model can effectively reduce the generalization error in each source domain so as to improve the quality of pseudo-labels. According to the analysis, we propose MultiMatch, i.e., extending FixMatch to the multi-task learning framework, producing the high-quality pseudo-label for SSDG. To be specific, we consider each training domain as a single task (i.e., local task) and combine all training domains together (i.e., global task) to train an extra task for the unseen test domain. In the multi-task framework, we utilize the independent BN and classifier for each task, which can effectively alleviate the interference from different domains during pseudo-labeling. Also, most of parameters in the framework are shared, which can be trained by all training samples sufficiently. Moreover, to further boost the pseudo-label accuracy and the model's generalization, we fuse the predictions from the global task and local task during training and testing, respectively. A series of experiments validate the effectiveness of the proposed method, and it outperforms the existing semi-supervised methods and the SSDG method on several benchmark DG datasets.
翻訳日:2024-02-19 21:33:32 公開日:2024-02-16
# ロバスト心電図分類のための相関ネットワークアーキテクチャ

Decorrelative Network Architecture for Robust Electrocardiogram Classification ( http://arxiv.org/abs/2207.09031v4 )

ライセンス: Link先を確認
Christopher Wiedeman and Ge Wang(参考訳) 人工知能は医療データ分析において大きな進歩を遂げてきたが、堅牢性と信頼性の欠如により、これらの手法が広く展開されるのを防いだ。 すべてのシナリオで正確なネットワークをトレーニングすることは不可能であるため、モデルは、自信を持って運用できない状況を認識する必要がある。 ベイズ深層学習法は不確実性を推定するためにモデルパラメータ空間をサンプリングするが、これらのパラメータは敵の攻撃によって悪用されるため、しばしば同じ脆弱性を被る。 本稿では,相補的特徴を多用したネットワークのための特徴分離とフーリエ分割に基づく新しいアンサンブル手法を提案する。 我々は,単チャンネル心電図の分類と,逆行訓練とDVERGEをベイズアンサンブルの枠組みに適応させて比較を行った。 以上の結果から,非相関とフーリエ分割の組み合わせは一般に不飽和データの性能を維持しつつ,投影勾配降下におけるロバスト性や不確実性の推定や,様々な大きさの滑らかな逆襲を実証する。 さらに,本手法では,対戦型トレーニングやDVERGEよりもはるかに少ない演算量で,対戦型サンプルによるコストの最適化は不要である。 これらの方法は、より堅牢で信頼できるモデルのために他のタスクにも適用できる。

Artificial intelligence has made great progress in medical data analysis, but the lack of robustness and trustworthiness has kept these methods from being widely deployed. As it is not possible to train networks that are accurate in all scenarios, models must recognize situations where they cannot operate confidently. Bayesian deep learning methods sample the model parameter space to estimate uncertainty, but these parameters are often subject to the same vulnerabilities, which can be exploited by adversarial attacks. We propose a novel ensemble approach based on feature decorrelation and Fourier partitioning for teaching networks diverse complementary features, reducing the chance of perturbation-based fooling. We test our approach on single and multi-channel electrocardiogram classification, and adapt adversarial training and DVERGE into the Bayesian ensemble framework for comparison. Our results indicate that the combination of decorrelation and Fourier partitioning generally maintains performance on unperturbed data while demonstrating superior robustness and uncertainty estimation on projected gradient descent and smooth adversarial attacks of various magnitudes. Furthermore, our approach does not require expensive optimization with adversarial samples, adding much less compute to the training process than adversarial training or DVERGE. These methods can be applied to other tasks for more robust and trustworthy models.
翻訳日:2024-02-19 21:33:02 公開日:2024-02-16
# 条件付きモーメント制約に対する汎関数的経験的確率推定

Functional Generalized Empirical Likelihood Estimation for Conditional Moment Restrictions ( http://arxiv.org/abs/2207.04771v2 )

ライセンス: Link先を確認
Heiner Kremer, Jia-Jie Zhu, Krikamol Muandet, Bernhard Sch\"olkopf(参考訳) 因果推論、経済学、そしてより一般的には、ロバストな機械学習は条件付きモーメント制限として表現できるが、非条件付きモーメント制限の連続性を解決する必要があるため、見積もりは困難になる。 従来の研究は、一般化モーメント法(GMM)を連続モーメント制限に拡張することでこの問題に対処した。 対照的に、一般化経験的可能性(GEL)はより一般的なフレームワークを提供し、GMMベースの推定器と比較して、より良好な小サンプル特性を享受することが示されている。 機械学習の最近の発展の恩恵を受けるため、任意のモデルを活用可能なGELの機能的再構成を提供する。 その結果生じる無限次元最適化問題の双対定式化に動機づけられ,実用的な手法を考案し,漸近的性質を探求する。 最後に,2つの条件付きモーメント制限問題に対する最先端の経験的性能を実現する,カーネルおよびニューラルネットワークによる推定器の実装を提案する。

Important problems in causal inference, economics, and, more generally, robust machine learning can be expressed as conditional moment restrictions, but estimation becomes challenging as it requires solving a continuum of unconditional moment restrictions. Previous works addressed this problem by extending the generalized method of moments (GMM) to continuum moment restrictions. In contrast, generalized empirical likelihood (GEL) provides a more general framework and has been shown to enjoy favorable small-sample properties compared to GMM-based estimators. To benefit from recent developments in machine learning, we provide a functional reformulation of GEL in which arbitrary models can be leveraged. Motivated by a dual formulation of the resulting infinite dimensional optimization problem, we devise a practical method and explore its asymptotic properties. Finally, we provide kernel- and neural network-based implementations of the estimator, which achieve state-of-the-art empirical performance on two conditional moment restriction problems.
翻訳日:2024-02-19 21:32:09 公開日:2024-02-16
# 時系列領域におけるデータ拡張技術:調査と分類

Data Augmentation techniques in time series domain: A survey and taxonomy ( http://arxiv.org/abs/2206.13508v4 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera, \'Angel Gonz\'alez-Prieto, Alberto Mozo and Sandra G\'omez-Canaval(参考訳) ディープラーニングベースの生成モデルの最新技術により、時系列分野におけるその顕著なパフォーマンスを活用するのに、それほど時間がかからない。 時系列処理に使用されるディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。 これらの特徴は通常、現実世界では豊富ではなく、通常は制限され、保証されなければならない制約がある。 したがって、データ量を増やす効果的な方法は、ノイズや置換を加えたり、新しい合成データを生成することによって、データ拡張技術を使用することである。 この研究は、利用可能なすべてのアルゴリズムの概要を提供するため、この分野の現状を体系的にレビューし、最も関連する研究の分類法を提案する。 異なるバリエーションの効率性は、プロセスの中心的な部分として評価され、パフォーマンスを評価するためのさまざまな指標が評価され、各モデルに関する主要な問題が分析されます。 本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。

With the latest advances in Deep Learning-based generative models, it has not taken long to take advantage of their remarkable performance in the area of time series. Deep neural networks used to work with time series heavily depend on the size and consistency of the datasets used in training. These features are not usually abundant in the real world, where they are usually limited and often have constraints that must be guaranteed. Therefore, an effective way to increase the amount of data is by using Data Augmentation techniques, either by adding noise or permutations and by generating new synthetic data. This work systematically reviews the current state-of-the-art in the area to provide an overview of all available algorithms and proposes a taxonomy of the most relevant research. The efficiency of the different variants will be evaluated as a central part of the process, as well as the different metrics to evaluate the performance and the main problems concerning each model will be analysed. The ultimate aim of this study is to provide a summary of the evolution and performance of areas that produce better results to guide future researchers in this field.
翻訳日:2024-02-19 21:31:51 公開日:2024-02-16
# Causal Scoring:効果推定、効果順序付け、効果分類のためのフレームワーク

Causal Scoring: A Framework for Effect Estimation, Effect Ordering, and Effect Classification ( http://arxiv.org/abs/2206.12532v4 )

ライセンス: Link先を確認
Carlos Fern\'andez-Lor\'ia and Jorge Lor\'ia(参考訳) 本稿では,意思決定の文脈におけるフレーム因果推定の新しい手法として因果スコアを導入する。 因果スコアは因果効果についての洞察を提供することで意思決定を支援するスコアの推定を伴います。 本稿では,これらのスコアの因果的解釈として,エフェクト推定(EE),エフェクト順序付け(EO),エフェクト分類(EC)の3つを挙げる。 EE解釈では、因果スコアは効果そのものを表す。 eoの解釈は、スコアが効果の大きさの代理となり、因果効果に基づいて個人の分類が可能になることを暗示している。 EC解釈は、事前定義されたしきい値を用いて、個人をハイエフェクトとローエフェクトのカテゴリに分類することができる。 本稿では,2つの重要な結果から,これら代替因果解釈(EOとEC)の価値を実証する。 まず,統計的モデリングと目的因果解釈の整合により,因果推定の精度が向上することを示す。 第2に,より柔軟な因果解釈は,より広い範囲の場面で可能であり,その妥当性を評価する条件を提案する。 本稿では,自己選択による観察不能な共起,関心の一次結果に関するデータの欠如,介入時の個人行動に関するデータの欠如など,多様なシナリオによる因果的スコアの実践的有用性を示す。 これらの例は、様々な文脈における統計的推定の柔軟な因果解釈について、因果スコアリングが推論をいかに促進するかを示す。 それらは、確立された見積もり、代理的な結果に対する効果推定、そして潜在的な因果的なスコアとして非因果的な量の予測まで含んでいる。

This paper introduces causal scoring as a novel approach to frame causal estimation in the context of decision making. Causal scoring entails the estimation of scores that support decision making by providing insights into causal effects. We present three valuable causal interpretations of these scores: effect estimation (EE), effect ordering (EO), and effect classification (EC). In the EE interpretation, the causal score represents the effect itself. The EO interpretation implies that the score can serve as a proxy for the magnitude of the effect, enabling the sorting of individuals based on their causal effects. The EC interpretation enables the classification of individuals into high- and low-effect categories using a predefined threshold. We demonstrate the value of these alternative causal interpretations (EO and EC) through two key results. First, we show that aligning the statistical modeling with the desired causal interpretation improves the accuracy of causal estimation. Second, we establish that more flexible causal interpretations are plausible in a wider range of settings and propose conditions to assess their validity. We showcase the practical utility of causal scoring through diverse scenarios, including situations involving unobserved confounding due to self-selection, lack of data on the primary outcome of interest, or lack of data on how individuals behave when intervened. These examples illustrate how causal scoring facilitates reasoning about flexible causal interpretations of statistical estimates in various contexts. They encompass confounded estimates, effect estimates on surrogate outcomes, and even predictions about non-causal quantities as potential causal scores.
翻訳日:2024-02-19 21:31:34 公開日:2024-02-16
# Hofstadter butterflies と moir\'e ヘテロ構造の金属/絶縁体転移

Hofstadter butterflies and metal/insulator transitions for moir\'e heterostructures ( http://arxiv.org/abs/2206.11891v3 )

ライセンス: Link先を確認
Simon Becker, Lingrui Ge, Jens Wittsten(参考訳) 我々はTimmel と Mele が最近導入したタイトバインディングモデルについて考察する。 層対称せん断ひずみを印加したハニカム格子を2つ考慮し, 格子間のトンネルを1つの異なる方向に周期的に変調する。 これにより、モデルを1つの空間次元に効果的に還元し、行列値準周期作用素の理論に従わせることができる。 次に, ホフシュタッター型蝶の出現と非相互作用moir\'e系で実験的に検証された金属/絶縁体遷移について説明し, 電荷輸送とスペクトル特性について検討した。 ディオファンチン状態によって記述される十分不可避なmoir\'e長さと、物理的な圧力を加えることで調整できる格子間の強い結合に対して、これは局在現象の発生に繋がる。

We consider a tight-binding model recently introduced by Timmel and Mele for strained moir\'e heterostructures. We consider two honeycomb lattices to which layer antisymmetric shear strain is applied to periodically modulate the tunneling between the lattices in one distinguished direction. This effectively reduces the model to one spatial dimension and makes it amenable to the theory of matrix-valued quasi-periodic operators. We then study the charge transport and spectral properties of this system, explaining the appearance of a Hofstadter-type butterfly and the occurrence of metal/insulator transitions that have recently been experimentally verified for non-interacting moir\'e systems. For sufficiently incommensurable moir\'e lengths, described by a diophantine condition, as well as strong coupling between the lattices, which can be tuned by applying physical pressure, this leads to the occurrence of localization phenomena.
翻訳日:2024-02-19 21:31:06 公開日:2024-02-16
# 量子ゲームの定義

Defining Quantum Games ( http://arxiv.org/abs/2206.00089v3 )

ライセンス: Link先を確認
Laura Piispanen, Marcel Pfaffhauser, James R. Wootton, Julian Togelius, Annakaisa Kultima(参考訳) 本稿では,既存の量子物理学関連ゲームを調査し,それらに基づいて量子ゲームの概念の定義を提案する。 量子ゲームは、量子物理学の知覚可能な次元、量子テクノロジーの次元、市民科学のような科学的目的の次元の3つの次元のいずれかを通して、量子物理学や量子現象の理論を使用する、あるいは参照する任意のルールベースのゲームであると定義する。 また,量子コンピュータゲームの概念,量子コンピュータ上のゲーム,市民科学との関連についても論じる。 同時に、デジタル、アナログ、ハイブリッド手段を通じて量子力学と関連するトピックを探索する様々なゲームが存在する。 本稿では,量子ゲームの現象を解析・定義するために,量子ゲームの3次元が用いられることを提案する。

In this article, we survey the existing quantum physics related games and based on them propose a definition for the concept of quantum games. We define quantum games as any type of rule-based games that use the principles or reference the theory of quantum physics or quantum phenomena through any of three proposed dimensions: the perceivable dimension of quantum physics, the dimension of quantum technologies, and the dimension of scientific purposes like citizen science. We also discuss the concept of quantum computer games, games on quantum computers and their relation to citizen science. At the same time, there are various games exploring quantum mechanics and related topics through digital, analogue, and hybrid means. We propose that three dimensions of quantum games identified in this article are used for analysing and defining the phenomenon of quantum games.
翻訳日:2024-02-19 21:30:51 公開日:2024-02-16
# コンピュータビジョンのためのGANに関する調査:最近の研究、分析、分類

A survey on GANs for computer vision: Recent research, analysis and taxonomy ( http://arxiv.org/abs/2203.11242v3 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera and Alberto D\'iaz-\'Alvarez(参考訳) 過去数年間、ディープラーニングの分野には、主にgans(generative adversarial networks)の影響が中心となって、いくつかの革命が起きている。 gansはモデルを定義する際にユニークなアーキテクチャを提供するだけでなく、社会に直接影響を与える驚くべき結果を生み出します。 GANがもたらした大きな改善と新たな研究領域により、コミュニティは常に、時代に追いつくことがほとんど不可能な新しい研究を考え出しています。 我々の調査は、最新のアーキテクチャ、損失関数の最適化、バリデーションメトリクス、そして最も広く認識されている変種の適用領域を示す、GANの概要を概観することを目的としている。 モデルアーキテクチャの異なるバリエーションの効率を評価し、最適なアプリケーション領域を示します。プロセスの重要な部分として、ganのパフォーマンスを評価するためのさまざまな指標と頻繁に使用される損失関数を分析します。 本調査の最終目的は,今後の研究者を導く上で,より優れた結果が得られるGANの進化と性能の要約を提供することである。

In the last few years, there have been several revolutions in the field of deep learning, mainly headlined by the large impact of Generative Adversarial Networks (GANs). GANs not only provide an unique architecture when defining their models, but also generate incredible results which have had a direct impact on society. Due to the significant improvements and new areas of research that GANs have brought, the community is constantly coming up with new researches that make it almost impossible to keep up with the times. Our survey aims to provide a general overview of GANs, showing the latest architectures, optimizations of the loss functions, validation metrics and application areas of the most widely recognized variants. The efficiency of the different variants of the model architecture will be evaluated, as well as showing the best application area; as a vital part of the process, the different metrics for evaluating the performance of GANs and the frequently used loss functions will be analyzed. The final objective of this survey is to provide a summary of the evolution and performance of the GANs which are having better results to guide future researchers in the field.
翻訳日:2024-02-19 21:30:20 公開日:2024-02-16
# 量子デバイスのためのマルコフ雑音モデリングとパラメータ抽出フレームワーク

Markovian Noise Modelling and Parameter Extraction Framework for Quantum Devices ( http://arxiv.org/abs/2202.04474v3 )

ライセンス: Link先を確認
Dean Brand, Ilya Sinayskiy, Francesco Petruccione(参考訳) 近年、ノイズ中間スケール量子(NISQ)コンピュータは量子力学のテストベッドとして広く利用されている。 この研究は、デバイス性能を評価するベンチマーク手順において、量子システムのマルコフノイズとダイナミクスをモデル化するための、ハードウェアに依存しない新しいフレームワークを提供する。 アクセス可能な例として、このフレームワークの応用と性能はibm量子コンピュータで実証されている。 このフレームワークは、以前研究したキャリブレーション実験やトモグラフィ手順よりも信頼性の高い簡易なプロセスを通じて、複数のキャリブレーションパラメータを同時に抽出するのに役立つ。 さらに、この方法では、包括的手順で量子コンピュータの複数のハードウェアパラメータのリアルタイムキャリブレーションが可能となり、将来の量子回路において各デバイスの性能を定量的に把握することができる。 ここで提案されるフレームワークは,パラメータ抽出時のキュービット対間の一貫性を強調した上で,デバイス全体を一度に評価するよりも計算コストの低いキャリブレーションプロセスを実現する。

In recent years, Noisy Intermediate Scale Quantum (NISQ) computers have been widely used as a test bed for quantum dynamics. This work provides a new hardware-agnostic framework for modelling the Markovian noise and dynamics of quantum systems in benchmark procedures used to evaluate device performance. As an accessible example, the application and performance of this framework is demonstrated on IBM Quantum computers. This framework serves to extract multiple calibration parameters simultaneously through a simplified process which is more reliable than previously studied calibration experiments and tomographic procedures. Additionally, this method allows for real-time calibration of several hardware parameters of a quantum computer within a comprehensive procedure, providing quantitative insight into the performance of each device to be accounted for in future quantum circuits. The framework proposed here has the additional benefit of highlighting the consistency among qubit pairs when extracting parameters, which leads to a less computationally expensive calibration process than evaluating the entire device at once.
翻訳日:2024-02-19 21:29:48 公開日:2024-02-16
# 初期における乱流発展--渦崩壊の考え方に基づくシナリオ

The turbulence development at its initial stage: a scenario based on the idea of vortices decay ( http://arxiv.org/abs/2303.05908v3 )

ライセンス: Link先を確認
S.V. Talalov(参考訳) 本稿では,その初期段階における量子乱流の発展モデルを提案する。 提案されたモデルにおける乱流の起源は、内部構造を持つ渦ループの崩壊である。 我々は、平衡状態が確立する前に、このプロセスの初期段階を考慮する。 その結果, 発達する乱流の密度行列が計算された。 古典渦環系の量子化スキームは、著者が以前に提案したアプローチに基づいている。

In this paper, a model of the development of a quantum turbulence in its initial stage is proposed. The origin of the turbulence in the suggested model is the decay of vortex loops with an internal structure. We consider the initial stage of this process, before an equilibrium state is established. As result of our study, the density matrix of developing turbulent flow is calculated. The quantization scheme of the classical vortex rings system is based on the approach proposed by the author earlier.
翻訳日:2024-02-19 21:21:34 公開日:2024-02-16
# 行列積状態を用いた正規分布の量子状態合成

Quantum State Preparation of Normal Distributions using Matrix Product States ( http://arxiv.org/abs/2303.01562v2 )

ライセンス: Link先を確認
Jason Iaconis, Sonika Johri, Elton Yechao Zhu(参考訳) 状態準備は多くの量子アルゴリズムの必須成分である。 本研究では、行列積状態を用いた滑らかな微分可能確率分布の効率的な表現法と、最近発見された量子状態から近似行列積状態への初期化手法を組み合わせる。 これを用いて, 20 量子ビットの閉じ込められたイオン量子コンピュータにおいて, 正規確率分布のクラスを符号化する量子状態を生成する。 本稿では,この状態形成過程の全体的忠実性に寄与する異なる誤差源の奥行き解析を行う。 私たちの研究は、スケーラブルな分散ローディングのための量子ハードウェアの研究を提供します。

State preparation is a necessary component of many quantum algorithms. In this work, we combine a method for efficiently representing smooth differentiable probability distributions using matrix product states with recently discovered techniques for initializing quantum states to approximate matrix product states. Using this, we generate quantum states encoding a class of normal probability distributions in a trapped ion quantum computer for up to 20 qubits. We provide an in depth analysis of the different sources of error which contribute to the overall fidelity of this state preparation procedure. Our work provides a study in quantum hardware for scalable distribution loading, which is the basis of a wide range of algorithms that provide quantum advantage.
翻訳日:2024-02-19 21:21:29 公開日:2024-02-16
# マルチビュー学習のための解釈可能な深層学習法

Interpretable Deep Learning Methods for Multiview Learning ( http://arxiv.org/abs/2302.07930v2 )

ライセンス: Link先を確認
Hengkang Wang, Han Lu, Ju Sun, Sandra E Safo(参考訳) 技術的な進歩により、独特で補完的なデータやビュー(ゲノム学、プロテオミクス、メタボロミクスなど)の生成が可能となり、新しい生物医学的な発見につながる可能性のあるマルチビュー学習研究の新しい時代が開かれた。 本稿では,マルチビュー学習のための解釈型ディープラーニング手法ideepviewlearnを提案する。 iDeepViewLearnは、ディープラーニングの柔軟性と、データと知識駆動型機能選択の統計的メリットを組み合わせて、解釈可能な結果を提供する。 深層ニューラルネットワークは、観測データと再構成データの違いを最小限に抑える最適化問題を通じて、ビュー非依存の低次元埋め込みを学習し、再構成データに正規化ペナルティを課す。 グラフの正規化ラプラシアンは、各ビューにおける変数間の二元関係をモデル化するために使用され、従って関連する変数の選択を促進する。 iDeepViewLearnは、乳がん関連遺伝子の発現とメチル化データを含む、2つの実世界のデータでテストされている。 ideepviewlearnは競合する分類結果を示し、乳癌で死亡した人とそうでない人とを区別する遺伝子とcpg部位を同定した。 その結果,iDeepViewLearnはマルチビュー学習における他の深層学習法と比較して,サンプルサイズが小さい実データアプリケーションとシミュレーションの結果から,小型のサンプルサイズの問題に対して有用な方法である可能性が示唆された。

Technological advances have enabled the generation of unique and complementary types of data or views (e.g. genomics, proteomics, metabolomics) and opened up a new era in multiview learning research with the potential to lead to new biomedical discoveries. We propose iDeepViewLearn (Interpretable Deep Learning Method for Multiview Learning) for learning nonlinear relationships in data from multiple views while achieving feature selection. iDeepViewLearn combines deep learning flexibility with the statistical benefits of data and knowledge-driven feature selection, giving interpretable results. Deep neural networks are used to learn view-independent low-dimensional embedding through an optimization problem that minimizes the difference between observed and reconstructed data, while imposing a regularization penalty on the reconstructed data. The normalized Laplacian of a graph is used to model bilateral relationships between variables in each view, therefore, encouraging selection of related variables. iDeepViewLearn is tested on simulated and two real-world data, including breast cancer-related gene expression and methylation data. iDeepViewLearn had competitive classification results and identified genes and CpG sites that differentiated between individuals who died from breast cancer and those who did not. The results of our real data application and simulations with small to moderate sample sizes suggest that iDeepViewLearn may be a useful method for small-sample-size problems compared to other deep learning methods for multiview learning.
翻訳日:2024-02-19 21:20:58 公開日:2024-02-16
# クラウドとエッジにおけるアジャイルとDevOpsの品質エンジニアリング

Quality Engineering for Agile and DevOps on the Cloud and Edge ( http://arxiv.org/abs/2302.03651v2 )

ライセンス: Link先を確認
Eitan Farchi and Saritha Route(参考訳) 今日のソフトウェアプロジェクトには、拡張、修正、パッチをほぼ毎日クライアントに提供する必要がある。 毎週リリースや日次リリースがほとんど標準であり、大きな機能アップグレードや四半期リリースと並んでいる。 ソフトウェアデリバリはこれまで以上にアジャイルでなければなりません。 過去にアジャイルベースのデリバリモデルを実験していた企業は、今ではエンタープライズグレードにスケールアップしようとしている。 これにより、テストの構築と実行を迅速に行う能力から、製造サイクルで品質を確立するための迅速かつ洞察に富んだ検証シーケンスとテストを提供するためのさまざまな手段、技術、手順へと、ニーズがシフトする。 この本は、アジャイル開発サイクルに品質工学を効果的に組み込む必要性に対処し、エンタープライズ規模の高品質なアジャイル開発の必要性に対処します。

Today's software projects include enhancements, fixes, and patches need to be delivered almost on a daily basis to clients. Weekly and daily releases are pretty much the norm and sit alongside larger feature upgrades and quarterly releases. Software delivery has to be more agile now than ever before. Companies that were, in the past, experimenting with agile based delivery models, are now looking to scale it to enterprise grade. This shifts the need from the ability to build and execute tests rapidly, to using different means, technologies and procedures to provide rapid and insightful validation sequences and tests to establish quality withing the manufacturing cycle. This book addresses the need of effectively embedding quality engineering throughout the agile development cycle thus addressing the need for enterprise scale high quality agile development.
翻訳日:2024-02-19 21:20:29 公開日:2024-02-16
# 単一細胞は空間トークンである:空間転写データインプテーションのためのトランスフォーマー

Single Cells Are Spatial Tokens: Transformers for Spatial Transcriptomic Data Imputation ( http://arxiv.org/abs/2302.03038v2 )

ライセンス: Link先を確認
Hongzhi Wen, Wenzhuo Tang, Wei Jin, Jiayuan Ding, Renming Liu, Xinnan Dai, Feng Shi, Lulu Shang, Hui Liu, Yuying Xie(参考訳) 空間的に解決された転写学は、遺伝子発現とともに物理的な位置を提供することによって、単細胞解析にエキサイティングなブレークスルーをもたらす。 しかし, 空間分解能が極めて高いため, 細胞レベルでの空間転写学的データは欠落した値に大きく影響する。 標準的な解決策は、不足している値にインプテーションを行うことであるが、既存の方法の多くは、空間情報を見逃したり、長距離の空間情報をキャプチャする能力を持たずに、局所化された空間コンテキストだけを取り込んだりしている。 マルチヘッド自己アテンション機構と位置エンコーディングを用いて、トランスフォーマーモデルはトークン間の関係を容易に把握し、位置情報をエンコードする。 本稿では, 単一細胞を空間トークンとして扱うことにより, トランスフォーマを用いて空間的タンプトミクスのインプテーションを促進する方法について検討する。 特に、(1) $\textit{how to encode in cells in transformers}$, (2) $\textit{ how to training a transformer for transcriptomic imputation}$。 これら2つの質問に答えることで、細胞内レベルの空間転写データに対するトランスフォーマーベースの計算フレームワークであるSpaFormerを提案する。 大規模な実験により、SpaFormerは3つの大規模データセット上で既存の最先端の計算アルゴリズムよりも優れた計算効率を維持しながら性能を発揮している。

Spatially resolved transcriptomics brings exciting breakthroughs to single-cell analysis by providing physical locations along with gene expression. However, as a cost of the extremely high spatial resolution, the cellular level spatial transcriptomic data suffer significantly from missing values. While a standard solution is to perform imputation on the missing values, most existing methods either overlook spatial information or only incorporate localized spatial context without the ability to capture long-range spatial information. Using multi-head self-attention mechanisms and positional encoding, transformer models can readily grasp the relationship between tokens and encode location information. In this paper, by treating single cells as spatial tokens, we study how to leverage transformers to facilitate spatial tanscriptomics imputation. In particular, investigate the following two key questions: (1) $\textit{how to encode spatial information of cells in transformers}$, and (2) $\textit{ how to train a transformer for transcriptomic imputation}$. By answering these two questions, we present a transformer-based imputation framework, SpaFormer, for cellular-level spatial transcriptomic data. Extensive experiments demonstrate that SpaFormer outperforms existing state-of-the-art imputation algorithms on three large-scale datasets while maintaining superior computational efficiency.
翻訳日:2024-02-19 21:19:58 公開日:2024-02-16
# 通信複雑度を損なう非局所的ボックスの未知領域の拡張

Extending the Known Region of Nonlocal Boxes that Collapse Communication Complexity ( http://arxiv.org/abs/2302.00488v2 )

ライセンス: Link先を確認
Pierre Botteron, Anne Broadbent, Marc-Olivier Proulx(参考訳) ノンシグナリングボックス(non-signalling box, n)は、光速通信の原理によって定義される理論的資源である。 量子相関を一般化し、通信複雑性(cc)を崩壊させることが知られている。 しかし、この崩壊は自然界では達成不可能であると強く信じられており、その研究は非現実的な理論を直観している。 本報では,非局所的な箱がccを崩壊させるのに十分な条件を見いだし,既知の崩壊領域を広げる。 NSのいくつかのスライスでは、この条件は楕円の外側の領域と一致することを示す。

Non-signalling boxes (NS) are theoretical resources defined by the principle of no-faster-than-light communication. They generalize quantum correlations, and some of them are known to collapse communication complexity (CC). However, this collapse is strongly believed to be unachievable in Nature, so its study provides intuition on which theories are unrealistic. In the present letter, we find a better sufficient condition for a nonlocal box to collapse CC, thus extending the known collapsing region. In some slices of NS, we show this condition coincides with an area outside of an ellipse.
翻訳日:2024-02-19 21:19:33 公開日:2024-02-16
# 記述論理EL++のためのデュアルボックス埋め込み

Dual Box Embeddings for the Description Logic EL++ ( http://arxiv.org/abs/2301.11118v4 )

ライセンス: Link先を確認
Mathias Jackermeier, Jiaoyan Chen, Ian Horrocks(参考訳) 形式的意味論が記述論理(DL)に根ざしているOWLオントロジーは、知識表現に広く用いられている。 知識グラフ(kgs)と同様に、オントロジーはしばしば不完全であり、それらの維持と構築は困難である。 古典的帰納的推論アルゴリズムは、オントロジーの正確な形式的意味論を用いて、行方不明な事実を予測する一方で、近年では、オントロジーから推測可能な事実を導出できる帰納的推論技術への関心が高まっている。 kgsと同様に、有望なアプローチは潜在ベクトル空間におけるオントロジーの埋め込みを学習し、さらに基盤となるdlのセマンティクスに準拠させることである。 様々なアプローチが提案されているが、現在のオントロジー埋め込み手法にはいくつかの欠点があり、特に1対1、多対1、多対多の関係と役割包含公理を忠実にモデル化できない。 この問題に対処し、オントロジーの完成性能を向上させるため、dl el++用のbox$^2$elという新しいオントロジー埋め込み手法を提案し、概念と役割の両方をボックスとして表現し、バンピング機構を用いて概念間関係をモデル化する。 理論的には、box$^2$elの健全性を証明し、広範囲な実験評価を行い、推定予測、ロールアサーション予測、近似帰納的推論のタスクにおいて、様々なデータセットにまたがる最新結果を達成する。

OWL ontologies, whose formal semantics are rooted in Description Logic (DL), have been widely used for knowledge representation. Similar to Knowledge Graphs (KGs), ontologies are often incomplete, and maintaining and constructing them has proved challenging. While classical deductive reasoning algorithms use the precise formal semantics of an ontology to predict missing facts, recent years have witnessed growing interest in inductive reasoning techniques that can derive probable facts from an ontology. Similar to KGs, a promising approach is to learn ontology embeddings in a latent vector space, while additionally ensuring they adhere to the semantics of the underlying DL. While a variety of approaches have been proposed, current ontology embedding methods suffer from several shortcomings, especially that they all fail to faithfully model one-to-many, many-to-one, and many-to-many relations and role inclusion axioms. To address this problem and improve ontology completion performance, we propose a novel ontology embedding method named Box$^2$EL for the DL EL++, which represents both concepts and roles as boxes (i.e., axis-aligned hyperrectangles), and models inter-concept relationships using a bumping mechanism. We theoretically prove the soundness of Box$^2$EL and conduct an extensive experimental evaluation, achieving state-of-the-art results across a variety of datasets on the tasks of subsumption prediction, role assertion prediction, and approximating deductive reasoning.
翻訳日:2024-02-19 21:18:55 公開日:2024-02-16
# Orbit:対話型ロボット学習環境のための統一シミュレーションフレームワーク

Orbit: A Unified Simulation Framework for Interactive Robot Learning Environments ( http://arxiv.org/abs/2301.04195v2 )

ライセンス: Link先を確認
Mayank Mittal, Calvin Yu, Qinxi Yu, Jingzhou Liu, Nikita Rudin, David Hoeller, Jia Lin Yuan, Ritvik Singh, Yunrong Guo, Hammad Mazhar, Ajay Mandlekar, Buck Babich, Gavriel State, Marco Hutter, Animesh Garg(参考訳) NVIDIA Isaac Simによるロボット学習のための統一的でモジュール化されたフレームワークOrbitを紹介する。 写真リアリスティックなシーンと高忠実で変形可能なボディシミュレーションを備えたロボット環境を、簡単かつ効率的に作成するためのモジュラーデザインを提供する。 orbitでは、シングルステージのキャビネットの開閉や折りたたみから、部屋の再編成のような多段階のタスクまで、さまざまな難易度を持ったベンチマークタスクを提供します。 多様な観察と行動空間での作業をサポートするため、異なる物理的センサーとモーションジェネレータを備えた固定アームと移動マニピュレータを含む。 orbitはgpuベースの並列化を活用することで、強化学習ポリシのトレーニングと、手作りのソリューションやエキスパートソリューションからの大規模なデモンストレーションデータセットの収集を数分で実現する。 要約すると、オープンソースのフレームワークは16のロボットプラットフォーム、4つのセンサーモジュール、10のモーションジェネレータ、20以上のベンチマークタスク、そして4つの学習ライブラリへのラッパーが簡単に提供される。 このフレームワークでは,表現学習,強化学習,模倣学習,タスク・モーション計画など,さまざまな研究分野をサポートすることを目指している。 これらのコミュニティで学際的なコラボレーションを確立するのに役立ち、モジュラリティによって将来的により多くのタスクやアプリケーションを簡単に拡張できることを願っています。

We present Orbit, a unified and modular framework for robot learning powered by NVIDIA Isaac Sim. It offers a modular design to easily and efficiently create robotic environments with photo-realistic scenes and high-fidelity rigid and deformable body simulation. With Orbit, we provide a suite of benchmark tasks of varying difficulty -- from single-stage cabinet opening and cloth folding to multi-stage tasks such as room reorganization. To support working with diverse observations and action spaces, we include fixed-arm and mobile manipulators with different physically-based sensors and motion generators. Orbit allows training reinforcement learning policies and collecting large demonstration datasets from hand-crafted or expert solutions in a matter of minutes by leveraging GPU-based parallelization. In summary, we offer an open-sourced framework that readily comes with 16 robotic platforms, 4 sensor modalities, 10 motion generators, more than 20 benchmark tasks, and wrappers to 4 learning libraries. With this framework, we aim to support various research areas, including representation learning, reinforcement learning, imitation learning, and task and motion planning. We hope it helps establish interdisciplinary collaborations in these communities, and its modularity makes it easily extensible for more tasks and applications in the future.
翻訳日:2024-02-19 21:18:23 公開日:2024-02-16
# 腫瘍臨床判断支援システムのための人工知能モデル

Artificial Intelligence Model for Tumoral Clinical Decision Support Systems ( http://arxiv.org/abs/2301.03701v2 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera, Jes\'us Troya Garc\`ia, Alberto D\'iaz-\'Alvarez, Miguel Grac\'ia-Remesal(参考訳) 脳腫瘍評価における比較診断は、新しい患者を評価する際に、医療センターの利用可能な情報を用いて類似の症例を比較することができる。 人工知能モデルを活用することで、提案システムは与えられたクエリに対して最も類似した脳腫瘍を検索することができる。 主な目的は、患者特有の正常な特徴と病理に焦点をあてて、医療画像のより正確な表現を生成することによって、診断プロセスを強化することである。 以前のモデルとの重要な違いは、バイナリ情報のみからリッチな画像記述子を生成する能力であり、コストがかかり、腫瘍のセグメンテーションを得るのが困難である。 提案したモデルは、人工知能を使用して患者の特徴を検出し、データベースから最も類似したケースを推奨する。 このシステムは類似した事例を示唆するだけでなく、その設計における健全な特徴と異常な特徴の表現のバランスをとる。 これは、その使用の一般化を促進するだけでなく、臨床医の意思決定プロセスを支援する。 この一般化は、システムにほとんど変化がない異なる診断領域における将来の研究を可能にする。 我々は類似研究に関連してアプローチの比較分析を行った。 提案アーキテクチャでは, 腫瘍および健常領域のDice係数が0.474であり, 過去の文献より優れていた。 提案モデルは,脳スキャンから解剖学的特徴と病理学的特徴を抽出,組み合わせることに優れ,安価なラベル情報に依存しつつ最先端の結果を得る。 これにより、トレーニングプロセス全体のコストが大幅に削減される。 以上より, 比較診断の効率と正確性, 腫瘍病理の治療法が向上する可能性が示唆された。

Comparative diagnostic in brain tumor evaluation makes possible to use the available information of a medical center to compare similar cases when a new patient is evaluated. By leveraging Artificial Intelligence models, the proposed system is able of retrieving the most similar cases of brain tumors for a given query. The primary objective is to enhance the diagnostic process by generating more accurate representations of medical images, with a particular focus on patient-specific normal features and pathologies. A key distinction from previous models lies in its ability to produce enriched image descriptors solely from binary information, eliminating the need for costly and difficult to obtain tumor segmentation. The proposed model uses Artificial Intelligence to detect patient features to recommend the most similar cases from a database. The system not only suggests similar cases but also balances the representation of healthy and abnormal features in its design. This not only encourages the generalization of its use but also aids clinicians in their decision-making processes. This generalization makes possible for future research in different medical diagnosis areas with almost not any change in the system. We conducted a comparative analysis of our approach in relation to similar studies. The proposed architecture obtains a Dice coefficient of 0.474 in both tumoral and healthy regions of the patients, which outperforms previous literature. Our proposed model excels at extracting and combining anatomical and pathological features from brain scans, achieving state-of-the-art results while relying on less expensive label information. This substantially reduces the overall cost of the training process. Our findings highlight the significant potential for improving the efficiency and accuracy of comparative diagnostics and the treatment of tumoral pathologies.
翻訳日:2024-02-19 21:18:01 公開日:2024-02-16
# JKOスキームによる流れニューラルネットワークの正規化

Normalizing flow neural networks by JKO scheme ( http://arxiv.org/abs/2212.14424v4 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) 正規化フローは効率的なサンプリングと推定のための深層生成モデルのクラスであり、特に高次元において魅力的な性能を達成する。 フローは、しばしば可逆的残留ブロックの列を使って実装される。 既存の作業では、特別なネットワークアーキテクチャとフロートラジェクトリの正規化が採用されている。 本稿では、ワッサーシュタイン勾配流の離散時間力学を展開させるJordan-Kinderleherer-Otto(JKO)スキームにインスパイアされた、JKO-iFlowと呼ばれるニューラルODEフローネットワークを開発する。 提案手法は残差ブロックを次々と積み重ねることで,残差ブロックの効率的なブロックワイドトレーニングを可能にし,SDEトラジェクトリのサンプリングやスコアマッチングや変動学習を回避し,エンドツーエンドトレーニングにおけるメモリ負荷と難易度を低減する。 また,確率空間における誘導軌道の漸進的改善によるフローネットワークの適応時間パラメータ化を開発し,モデル精度をさらに向上する。 合成および実データを用いた実験により,提案するjko-iflowネットワークは,計算コストとメモリコストを大幅に削減し,既存のフローモデルや拡散モデルと比較して競合性能が向上することを示した。

Normalizing flow is a class of deep generative models for efficient sampling and likelihood estimation, which achieves attractive performance, particularly in high dimensions. The flow is often implemented using a sequence of invertible residual blocks. Existing works adopt special network architectures and regularization of flow trajectories. In this paper, we develop a neural ODE flow network called JKO-iFlow, inspired by the Jordan-Kinderleherer-Otto (JKO) scheme, which unfolds the discrete-time dynamic of the Wasserstein gradient flow. The proposed method stacks residual blocks one after another, allowing efficient block-wise training of the residual blocks, avoiding sampling SDE trajectories and score matching or variational learning, thus reducing the memory load and difficulty in end-to-end training. We also develop adaptive time reparameterization of the flow network with a progressive refinement of the induced trajectory in probability space to improve the model accuracy further. Experiments with synthetic and real data show that the proposed JKO-iFlow network achieves competitive performance compared with existing flow and diffusion models at a significantly reduced computational and memory cost.
翻訳日:2024-02-19 21:17:35 公開日:2024-02-16
# Tiered Reward関数:決定的振る舞いの特定と高速学習

Tiered Reward Functions: Specifying and Fast Learning of Desired Behavior ( http://arxiv.org/abs/2212.03733v2 )

ライセンス: Link先を確認
Zhiyuan Zhou, Shreyas Sundara Raman, Henry Sowerby, Michael L. Littman(参考訳) 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。 人間として、学習プロセスにおける私たちの仕事は、望ましい行動を表現するために報酬関数を設計し、エージェントが素早くそのような行動を学習できるようにすることです。 本研究では,望ましい状態に到達し,望ましくない状態を避けるように定式化したタスクにおける報酬設計問題を考える。 まず,行動嗜好のトレードオフを解決するために,政策空間の厳密な部分順序付けを提案する。 我々は、悪い状態をより長く避けながら、より早く、より高い確率で良い状態に到達する政策を好む。 次に,環境非依存的な報酬機能である階層報酬を導入し,我々の嗜好関係に応じてパレートオプティマイズとなる政策を誘導することが保証されることを示す。 最後に,複数の表型および深層強化学習アルゴリズムを用いて,複数の環境上で評価を行うことにより,Tiered Rewardが高速学習につながることを示す。

Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our job in the learning process is to design reward functions to express desired behavior and enable the agent to learn such behavior swiftly. In this work, we consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space to resolve trade-offs in behavior preference. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we introduce Tiered Reward, a class of environment-independent reward functions and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we demonstrate that Tiered Reward can lead to fast learning by evaluating on several environments using multiple tabular and deep reinforcement-learning algorithms.
翻訳日:2024-02-19 21:17:14 公開日:2024-02-16
# ヒジャックの垂直的フェデレート学習モデルが一党

Hijack Vertical Federated Learning Models As One Party ( http://arxiv.org/abs/2212.00322v2 )

ライセンス: Link先を確認
Pengyu Qiu, Xuhong Zhang, Shouling Ji, Changjiang Li, Yuwen Pu, Xing Yang, Ting Wang(参考訳) Vertical Federated Learning(VFL)は、コラボレーション者が分散形式で機械学習モデルを一緒に構築できるようにする、新たなパラダイムである。 一般に、これらのパーティーには共通のユーザグループがあるが、独自の機能がある。 既存のVFLフレームワークは、データのプライバシとセキュリティ保証を提供するために暗号化技術を使用しており、計算効率と高速な実装を研究する一連の研究につながっている。 しかし、vflモデルのセキュリティは未検討のままである。

Vertical federated learning (VFL) is an emerging paradigm that enables collaborators to build machine learning models together in a distributed fashion. In general, these parties have a group of users in common but own different features. Existing VFL frameworks use cryptographic techniques to provide data privacy and security guarantees, leading to a line of works studying computing efficiency and fast implementation. However, the security of VFL's model remains underexplored.
翻訳日:2024-02-19 21:16:58 公開日:2024-02-16
# NorMatch:半教師付き学習における正規化フローと識別型分類器とのマッチング

NorMatch: Matching Normalizing Flows with Discriminative Classifiers for Semi-Supervised Learning ( http://arxiv.org/abs/2211.09593v2 )

ライセンス: Link先を確認
Zhongying Deng, Rihuan Ke, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero(参考訳) Semi-Supervised Learning (SSL)は、小さなラベル付きセットと大量のラベルなしデータを使ってモデルを学習することを目的としている。 ラベルのないデータをうまく活用するために、最新のSSLメソッドでは、単一の識別分類器から予測される擬似ラベルを使用する。 しかし、生成した擬似ラベルは、モデルの性能に大きな影響を及ぼす固有の確証バイアスとノイズに必然的に関連付けられる。 この作業では、NorMatchというSSLの新しいフレームワークを紹介します。 まず, 正規化フローに基づく新たな不確実性推定手法を補助分類器として導入し, 判別分類器の強化をもたらす疑似ラベルを強要する。 第2に,高信頼性と低信頼性の疑似ラベルを両立させるためのしきい値のないサンプル重み付け手法を提案する。 さらに,教師なしの方法でラベルなしデータの分布をモデル化するために正規化フローを利用する。 このモデリング仮定は、ラベルのないデータによる生成的分類器の性能をさらに向上させ、より優れた識別的分類器の訓練に暗黙的に寄与する。 数値的および視覚的な結果を通じて、NorMatchが複数のデータセットで最先端のパフォーマンスを達成することを示す。

Semi-Supervised Learning (SSL) aims to learn a model using a tiny labeled set and massive amounts of unlabeled data. To better exploit the unlabeled data the latest SSL methods use pseudo-labels predicted from a single discriminative classifier. However, the generated pseudo-labels are inevitably linked to inherent confirmation bias and noise which greatly affects the model performance. In this work we introduce a new framework for SSL named NorMatch. Firstly, we introduce a new uncertainty estimation scheme based on normalizing flows, as an auxiliary classifier, to enforce highly certain pseudo-labels yielding a boost of the discriminative classifiers. Secondly, we introduce a threshold-free sample weighting strategy to exploit better both high and low confidence pseudo-labels. Furthermore, we utilize normalizing flows to model, in an unsupervised fashion, the distribution of unlabeled data. This modelling assumption can further improve the performance of generative classifiers via unlabeled data, and thus, implicitly contributing to training a better discriminative classifier. We demonstrate, through numerical and visual results, that NorMatch achieves state-of-the-art performance on several datasets.
翻訳日:2024-02-19 21:16:31 公開日:2024-02-16
# GradTree: 勾配の未熟な軸方向決定木を学習する

GradTree: Learning Axis-Aligned Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v5 )

ライセンス: Link先を確認
Sascha Marton and Stefan L\"udtke and Christian Bartelt and Heiner Stuckenschmidt(参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。 しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。 したがって、共通のアプローチは各内部ノードの局所的な不純物を最小化する欲望成長アルゴリズムを用いてdtsを学ぶ。 残念なことに、この欲深い手順は不正確な木につながる可能性がある。 本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。 提案手法では,高密度dt表現上のストレートスルー演算子を用いたバックプロパゲーションを用いて,全木パラメータを協調的に最適化する。 提案手法は,バイナリ分類ベンチマークの既存手法を上回り,マルチクラスタスクの競合結果を得る。 https://github.com/s-marton/GradTree

Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to inaccurate trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation, to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks. The method is available under: https://github.com/s-marton/GradTree
翻訳日:2024-02-19 21:09:16 公開日:2024-02-16
# 可逆ニューラルネットワークによる説明の絡み合った意味空間の学習

Learning Disentangled Semantic Spaces of Explanations via Invertible Neural Networks ( http://arxiv.org/abs/2305.01713v2 )

ライセンス: Link先を確認
Yingji Zhang, Danilo S. Carvalho, Andr\'e Freitas(参考訳) 切り離された潜在空間は通常、より良い意味分離性と幾何学的性質を持ち、より良い解釈可能性とより制御可能なデータ生成をもたらす。 これはコンピュータビジョンでよく研究されているが、画像不等角化などのタスクでは、nlpドメインの文不等角化は比較的調査されていない。 これまでのほとんどの作業は、スタイル転送のコンテキスト内で、感情のようなタスク固有の生成要因を分離することに集中してきた。 本研究では,より一般的な文意味的特徴の局所的な修正と制御を目標とした,より一般的な文の絡み合いに着目した。 そこで本研究では, 文意味的不等角化の新たな概念と, トランスコーダ型言語オートエンコーダ (ae) を統合したフローベースインバータブルニューラルネットワーク (inn) 機構を導入することで, 分離性の高い潜在空間を実現する。 実験の結果, 分散潜在空間を, 意味的に不規則な文空間に適合させることにより, 最近の最先端言語vaeモデルと比較して, 言語解釈性, 生成制御性が向上した。

Disentangled latent spaces usually have better semantic separability and geometrical properties, which leads to better interpretability and more controllable data generation. While this has been well investigated in Computer Vision, in tasks such as image disentanglement, in the NLP domain sentence disentanglement is still comparatively under-investigated. Most previous work have concentrated on disentangling task-specific generative factors, such as sentiment, within the context of style transfer. In this work, we focus on a more general form of sentence disentanglement, targeting the localised modification and control of more general sentence semantic features. To achieve this, we contribute to a novel notion of sentence semantic disentanglement and introduce a flow-based invertible neural network (INN) mechanism integrated with a transformer-based language Autoencoder (AE) in order to deliver latent spaces with better separability properties. Experimental results demonstrate that the model can conform the distributed latent space into a better semantically disentangled sentence space, leading to improved language interpretability and controlled generation when compared to the recent state-of-the-art language VAE models.
翻訳日:2024-02-19 21:09:02 公開日:2024-02-16
# 符号学習言語モデルの冗長性と概念解析

Redundancy and Concept Analysis for Code-trained Language Models ( http://arxiv.org/abs/2305.00875v2 )

ライセンス: Link先を確認
Arushi Sharma, Zefu Hu, Christopher Quinn, Ali Jannesari(参考訳) コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。 しかし、計算のボトルネックとメモリの制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。 これらの問題に対処する効果的な戦略を実装するには、これらの「ブラックボックス」モデルの理解を深める必要がある。 本稿では,ソースコードモデルにおいて,潜在表現の中で<textit{ important}ニューロンを識別する最初のニューロンレベル解析を行う。 我々は、与えられたタスクと非常に類似または無関係なニューロンを排除することにより、これを達成する。 このアプローチは、どのニューロンやレイヤを排除できるか(冗長解析)、重要なコード特性がネットワーク内にあるのか(概念解析)を理解するのに役立ちます。 冗長性分析を用いて,知識伝達およびモデル最適化アプリケーションに関する観測を行う。 コードインテリジェンスタスクに関して、95%以上のニューロンが冗長であり、精度を損なうことなく排除できることがわかった。 また、ベースライン精度で予測できるニューロンのいくつかのサブセットも発見する。 概念分析を通じて、モデル予測に影響を与えるのに使用できる潜在コード表現における人間の認識可能な概念のトレーサビリティと分布について検討する。 我々は、重要なニューロンの個別およびサブセットを特定のコード特性に追跡し、トークンレベルタスクのための「番号」ニューロン、「ストリング」ニューロン、高レベルな「テキスト」ニューロン、および文レベル下流タスクにとって重要な高レベルな概念を同定する。 これはまた、分解可能で転送可能なタスク関連機能がどのようにあるかを理解するのに役立ち、学習、モデル圧縮、深層ニューラルネットワークをモジュールに分解するより良いテクニックを考案するのに役立つ。

Code-trained language models have proven to be highly effective for various code intelligence tasks. However, they can be challenging to train and deploy for many software engineering applications due to computational bottlenecks and memory constraints. Implementing effective strategies to address these issues requires a better understanding of these 'black box' models. In this paper, we perform the first neuron-level analysis for source code models to identify \textit{important} neurons within latent representations. We achieve this by eliminating neurons that are highly similar or irrelevant to the given task. This approach helps us understand which neurons and layers can be eliminated (redundancy analysis) and where important code properties are located within the network (concept analysis). Using redundancy analysis, we make observations relevant to knowledge transfer and model optimization applications. We find that over 95\% of the neurons are redundant with respect to our code intelligence tasks and can be eliminated without significant loss in accuracy. We also discover several subsets of neurons that can make predictions with baseline accuracy. Through concept analysis, we explore the traceability and distribution of human-recognizable concepts within latent code representations which could be used to influence model predictions. We trace individual and subsets of important neurons to specific code properties and identify 'number' neurons, 'string' neurons, and higher-level 'text' neurons for token-level tasks and higher-level concepts important for sentence-level downstream tasks. This also helps us understand how decomposable and transferable task-related features are and can help devise better techniques for transfer learning, model compression, and the decomposition of deep neural networks into modules.
翻訳日:2024-02-19 21:08:39 公開日:2024-02-16
# 量子スピン鎖の可積分性と複雑性

Integrability and complexity in quantum spin chains ( http://arxiv.org/abs/2305.00037v3 )

ライセンス: Link先を確認
Ben Craps, Marine De Clerck, Oleg Evnin, Philip Hacker(参考訳) 可積分系の力学的進化は、一般的なシステムの進化よりも定量的な意味で単純であるべきだという認識が広まっているが、実際は可積分性と複雑性の減少の関係は解明されていない。 我々は、与えられた量子ハミルトニアンの固有ベクトルの観点から特定の行列を構築することにより、この種の接続を提供する。 この行列のヌル固有値は、単純局所性(可積分性の指標)を持つ保存量と1対1対応である。 一方、固有値の典型的な大きさは、同じ局所性仕様で定義される量子進化作用素のニールセンの複雑さの明示的な境界を制御している。 この接続が、積分性によって管理される高度に構造化された保存則の様々な配列を持つ量子スピン鎖の具体的な例でどのように機能するかを実証する。

There is a widespread perception that dynamical evolution of integrable systems should be simpler in a quantifiable sense than the evolution of generic systems, though demonstrating this relation between integrability and reduced complexity in practice has remained elusive. We provide a connection of this sort by constructing a specific matrix in terms of the eigenvectors of a given quantum Hamiltonian. The null eigenvalues of this matrix are in one-to-one correspondence with conserved quantities that have simple locality properties (a hallmark of integrability). The typical magnitude of the eigenvalues, on the other hand, controls an explicit bound on Nielsen's complexity of the quantum evolution operator, defined in terms of the same locality specifications. We demonstrate how this connection works in a few concrete examples of quantum spin chains that possess diverse arrays of highly structured conservation laws mandated by integrability.
翻訳日:2024-02-19 21:08:10 公開日:2024-02-16
# 分散線形系ソルバの収束率に及ぼすデータ不均質性の影響について

On the Effects of Data Heterogeneity on the Convergence Rates of Distributed Linear System Solvers ( http://arxiv.org/abs/2304.10640v2 )

ライセンス: Link先を確認
Boris Velasevic, Rohit Parasnis, Christopher G. Brinton, Navid Azizan(参考訳) 線形方程式の大規模系を解く基本的な問題を考える。 特に,タスクマスターは,各方程式のサブセットを持つ機械の集合の助けを借りて,分散/フェデレーション方式でシステムを解くことを意図した設定を考える。 この問題を解決する方法はいくつかあるが、プロジェクションベースの手法の収束率と最適化ベースの手法との厳密な比較は欠落している。 本稿では,これらの2種類のアルゴリズムを,各クラスから最も効率的な手法,すなわち最近提案された Accelerated Projection-Based Consensus (APC) と Distributed Heavy-Ball Method (D-HBM) に着目して分析・比較する。 この目的のために,我々はまず,角不均一性と呼ばれるデータ不均一性の幾何学的概念を提案し,その一般性について議論する。 この概念を用いて、解析したアルゴリズムの収束率を限定して比較し、クロスマシンと局所データの両方がそれらの量に与える影響を捉える。 我々の分析は、APCが大規模なデータ不均一性が存在する現実的なシナリオにおいて最も効率的な方法であることを示す以外に、多くの新しい洞察をもたらす。 我々の数値解析は理論的な結果を検証する。

We consider the fundamental problem of solving a large-scale system of linear equations. In particular, we consider the setting where a taskmaster intends to solve the system in a distributed/federated fashion with the help of a set of machines, who each have a subset of the equations. Although there exist several approaches for solving this problem, missing is a rigorous comparison between the convergence rates of the projection-based methods and those of the optimization-based ones. In this paper, we analyze and compare these two classes of algorithms with a particular focus on the most efficient method from each class, namely, the recently proposed Accelerated Projection-Based Consensus (APC) and the Distributed Heavy-Ball Method (D-HBM). To this end, we first propose a geometric notion of data heterogeneity called angular heterogeneity and discuss its generality. Using this notion, we bound and compare the convergence rates of the studied algorithms and capture the effects of both cross-machine and local data heterogeneity on these quantities. Our analysis results in a number of novel insights besides showing that APC is the most efficient method in realistic scenarios where there is a large data heterogeneity. Our numerical analyses validate our theoretical results.
翻訳日:2024-02-19 21:07:54 公開日:2024-02-16
# MS-LSTM:ビデオ予測領域における時空間多スケール表現の探索

MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain ( http://arxiv.org/abs/2304.07724v3 )

ライセンス: Link先を確認
Zhifeng Ma, Hao Zhang, Jie Liu(参考訳) 空間的および時間的次元における動きの劇的な変化は、映像予測タスクを極めて困難にする。 既存のRNNモデルは、モデルをより深くまたは拡張することで、より高い性能が得られる。 ビデオのマルチスケール機能は、レイヤを積み重ねることによってのみ得られるが、これは非効率であり、(メモリ、FLOP、トレーニング時間など)耐え難いトレーニングコストをもたらす。 そこで本研究では,MS-LSTMと呼ばれる時空間的マルチスケールモデルを提案する。 積層層に基づくMS-LSTMでは、時空間情報を完全にキャプチャする2つの効率的なマルチスケール設計が組み込まれている。 具体的には、ミラー化されたピラミッド構造を持つLSTMを用いて空間的マルチスケール表現を構築し、異なる畳み込みカーネルを持つLSTMを用いて時間的マルチスケール表現を構築する。 理論的にMS-LSTMとそのコンポーネントのトレーニングコストと性能を解析する。 4つのビデオデータセット上の12のベースラインモデルによる詳細な比較実験により、MS-LSTMの性能は向上するが、トレーニングコストは低下することが示された。

The drastic variation of motion in spatial and temporal dimensions makes the video prediction task extremely challenging. Existing RNN models obtain higher performance by deepening or widening the model. They obtain the multi-scale features of the video only by stacking layers, which is inefficient and brings unbearable training costs (such as memory, FLOPs, and training time). Different from them, this paper proposes a spatiotemporal multi-scale model called MS-LSTM wholly from a multi-scale perspective. On the basis of stacked layers, MS-LSTM incorporates two additional efficient multi-scale designs to fully capture spatiotemporal context information. Concretely, we employ LSTMs with mirrored pyramid structures to construct spatial multi-scale representations and LSTMs with different convolution kernels to construct temporal multi-scale representations. We theoretically analyze the training cost and performance of MS-LSTM and its components. Detailed comparison experiments with twelve baseline models on four video datasets show that MS-LSTM has better performance but lower training costs.
翻訳日:2024-02-19 21:07:21 公開日:2024-02-16
# 封建グラフ強化学習

Feudal Graph Reinforcement Learning ( http://arxiv.org/abs/2304.05099v3 )

ライセンス: Link先を確認
Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi(参考訳) グラフベースの表現と重み付けモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである。 しかし、最近のグラフ深層学習文献で示されているように、メッセージパッシング演算子は情報伝達のボトルネックを生じさせ、グローバルな調整を妨げる。 ハイレベルな計画が必要なタスクでは、この問題は劇的になります。 本研究では,階層的RLとピラミッド型メッセージパッシングアーキテクチャに頼って,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。 特に、fgrlは、階層の上部から階層化されたグラフ構造を通じてハイレベルなコマンドが伝播するポリシーの階層を定義する。 下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャする。 結果として得られたエージェントは、あるレベルのアクションが以下のレベルの目標を設定するポリシー委員会によって特徴づけられ、タスクの分解を包含する階層的な意思決定構造を実装する。 提案手法をベンチマークmujoco環境上で評価し,fgrlが関連するベースラインと好適に比較できることを示す。 さらに、コマンド伝搬機構の詳細な分析により、メッセージパッシング方式が階層的な意思決定方針の学習に有利であることを示す。

Graph-based representations and weight-sharing modular policies constitute prominent approaches to tackling composable control problems in Reinforcement Learning (RL). However, as shown by recent graph deep learning literature, message-passing operators can create bottlenecks in information propagation and hinder global coordination. The issue becomes dramatic in tasks where high-level planning is needed. In this work, we propose a novel methodology, named Feudal Graph Reinforcement Learning (FGRL), that addresses such challenges by relying on hierarchical RL and a pyramidal message-passing architecture. In particular, FGRL defines a hierarchy of policies where high-level commands are propagated from the top of the hierarchy down through a layered graph structure. The bottom layers mimic the morphology of the physical system, while the upper layers capture more abstract sub-modules. The resulting agents are then characterized by a committee of policies where actions at a certain level set goals for the level below, thus implementing a hierarchical decision-making structure that encompasses task decomposition. We evaluate the proposed framework on locomotion tasks on benchmark MuJoCo environments and show that FGRL compares favorably against relevant baselines. Furthermore, an in-depth analysis of the command propagation mechanism provides evidence that the introduced message-passing scheme favors the learning of hierarchical decision-making policies.
翻訳日:2024-02-19 21:07:02 公開日:2024-02-16
# 視覚タスクのための視覚言語モデル:調査

Vision-Language Models for Vision Tasks: A Survey ( http://arxiv.org/abs/2304.00685v2 )

ライセンス: Link先を確認
Jingyi Zhang, Jiaxing Huang, Sheng Jin and Shijian Lu(参考訳) ほとんどの視覚認識研究は、ディープニューラルネットワーク(dnn)トレーニングにおけるクラウドラベルデータに大きく依存しており、それらは通常、単一の視覚認識タスクごとにdnnを訓練し、手間と時間を要する視覚認識パラダイムへと繋がる。 この2つの課題に対処するため、視覚言語モデル(VLM)は近年、インターネット上でほぼ無限に利用できるWebスケールの画像テキストペアからリッチな視覚言語相関を学習し、単一のVLMを用いて様々な視覚認識タスクのゼロショット予測を可能にする、集中的に研究されている。 This paper provides a systematic review of visual language models for various visual recognition tasks, including: (1) the background that introduces the development of visual recognition paradigms; (2) the foundations of VLM that summarize the widely-adopted network architectures, pre-training objectives, and downstream tasks; (3) the widely-adopted datasets in VLM pre-training and evaluations; (4) the review and categorization of existing VLM pre-training methods, VLM transfer learning methods, and VLM knowledge distillation methods; (5) the benchmarking, analysis and discussion of the reviewed methods; (6) several research challenges and potential research directions that could be pursued in the future VLM studies for visual recognition. この調査に関連するプロジェクトはhttps://github.com/jingyi0000/vlm_surveyで作成されている。

Most visual recognition studies rely heavily on crowd-labelled data in deep neural networks (DNNs) training, and they usually train a DNN for each single visual recognition task, leading to a laborious and time-consuming visual recognition paradigm. To address the two challenges, Vision-Language Models (VLMs) have been intensively investigated recently, which learns rich vision-language correlation from web-scale image-text pairs that are almost infinitely available on the Internet and enables zero-shot predictions on various visual recognition tasks with a single VLM. This paper provides a systematic review of visual language models for various visual recognition tasks, including: (1) the background that introduces the development of visual recognition paradigms; (2) the foundations of VLM that summarize the widely-adopted network architectures, pre-training objectives, and downstream tasks; (3) the widely-adopted datasets in VLM pre-training and evaluations; (4) the review and categorization of existing VLM pre-training methods, VLM transfer learning methods, and VLM knowledge distillation methods; (5) the benchmarking, analysis and discussion of the reviewed methods; (6) several research challenges and potential research directions that could be pursued in the future VLM studies for visual recognition. A project associated with this survey has been created at https://github.com/jingyi0000/VLM_survey.
翻訳日:2024-02-19 21:06:40 公開日:2024-02-16
# 病理画像診断のためのクロススケールマルチインスタンス学習

Cross-scale Multi-instance Learning for Pathological Image Diagnosis ( http://arxiv.org/abs/2304.00216v3 )

ライセンス: Link先を確認
Ruining Deng, Can Cui, Lucas W. Remedios, Shunxing Bao, R. Michael Womick, Sophie Chiron, Jia Li, Joseph T. Roland, Ken S. Lau, Qi Liu, Keith T. Wilson, Yaohong Wang, Lori A. Coburn, Bennett A. Landman, Yuankai Huo(参考訳) 複数スケールにわたる情報に関する高解像度スライド画像(WSI)の解析は、デジタル病理学において重要な課題である。 MIL(Multi-Instance Learning)は、オブジェクトの袋(小さな画像パッチの集合)を分類することで高解像度画像を扱うための一般的なソリューションである。 しかし、そのような処理は通常、WSIsの1つのスケール(例えば20倍)で行われ、人間の病理学者による診断の鍵となるスケール間情報を無視している。 本研究では,病的画像診断のための1つのMILネットワークにスケール間関係を明示的に集約する,新しいクロススケールMILアルゴリズムを提案する。 本論文の貢献は,(1)マルチスケール情報とスケール間関係を統合した新しいクロススケールMIL(CS-MIL)アルゴリズムの提案,(2)スケール固有の形態的特徴を持つ玩具データセットの作成と公開,(3)社内と公共の両方のデータセット上でのスーパーパフォーマンスを,我々の単純なクロススケールMIL戦略によって実証する。 公式実装はhttps://github.com/hrlblab/CS-MILで公開されている。

Analyzing high resolution whole slide images (WSIs) with regard to information across multiple scales poses a significant challenge in digital pathology. Multi-instance learning (MIL) is a common solution for working with high resolution images by classifying bags of objects (i.e. sets of smaller image patches). However, such processing is typically performed at a single scale (e.g., 20x magnification) of WSIs, disregarding the vital inter-scale information that is key to diagnoses by human pathologists. In this study, we propose a novel cross-scale MIL algorithm to explicitly aggregate inter-scale relationships into a single MIL network for pathological image diagnosis. The contribution of this paper is three-fold: (1) A novel cross-scale MIL (CS-MIL) algorithm that integrates the multi-scale information and the inter-scale relationships is proposed; (2) A toy dataset with scale-specific morphological features is created and released to examine and visualize differential cross-scale attention; (3) Superior performance on both in-house and public datasets is demonstrated by our simple cross-scale MIL strategy. The official implementation is publicly available at https://github.com/hrlblab/CS-MIL.
翻訳日:2024-02-19 21:06:19 公開日:2024-02-16
# 超伝導回路の半古典力学--カオス力学とフラクタル誘引子

Semiclassical dynamics of a superconducting circuit: chaotic dynamics and fractal attractors ( http://arxiv.org/abs/2303.17492v2 )

ライセンス: Link先を確認
Davide Stirpe, Juuso Manninen, Francesco Massel(参考訳) ここでは、電圧バイアスの存在下で、2つのジョセフソン接合からなる超伝導回路の半古典力学について検討する。 我々は、電圧源を半ホロノミック制約として考慮し、問題のハミルトニアン記述を通じて回路の運動方程式を導出する。 システムのダイナミクスは、振動するピボットを持つ平面ロータのダイナミクスに対応していることがわかった。 このシステムはカオス特性を持つリッチな動的挙動を示し,循環解のトポロジカルな分類を示し,動的誘引子のフラクタル的性質について考察する。

We study here the semiclassical dynamics of a superconducting circuit constituted by two Josephson junctions in series, in the presence of a voltage bias. We derive the equations of motion for the circuit through a Hamiltonian description of the problem, considering the voltage sources as semi-holonomic constraints. We find that the dynamics of the system corresponds to that of a planar rotor with an oscillating pivot. We show that the system exhibits a rich dynamical behaviour with chaotic properties and we present a topological classification of the cyclic solutions, providing insight into the fractal nature of the dynamical attractors.
翻訳日:2024-02-19 21:05:54 公開日:2024-02-16
# コントラスト学習は類似グラフ上のスペクトルクラスタリング

Contrastive Learning Is Spectral Clustering On Similarity Graph ( http://arxiv.org/abs/2303.15103v3 )

ライセンス: Link先を確認
Yifan Zhang, Zhiquan Tan, Jingqin Yang, Yang Yuan(参考訳) コントラスト学習は強力な自己教師付き学習手法であるが,その動作方法や動作理由に関する理論的な理解は限られている。 本稿では,標準InfoNCE損失を用いたコントラスト学習が類似グラフ上のスペクトルクラスタリングと等価であることを示す。 この等価性をビルディングブロックとして利用し、分析をCLIPモデルに拡張し、類似したマルチモーダルオブジェクトが組み合わさっていることを厳密に特徴付ける。 いくつかの視覚データセット上で標準のガウスカーネルよりも優れたカーネル関数の混合を組み込んだカーネルインフォネッセロス(Kernel-InfoNCE)を導入する。 コードはhttps://github.com/yifanzhang-pro/kernel-infonceで入手できる。

Contrastive learning is a powerful self-supervised learning method, but we have a limited theoretical understanding of how it works and why it works. In this paper, we prove that contrastive learning with the standard InfoNCE loss is equivalent to spectral clustering on the similarity graph. Using this equivalence as the building block, we extend our analysis to the CLIP model and rigorously characterize how similar multi-modal objects are embedded together. Motivated by our theoretical insights, we introduce the Kernel-InfoNCE loss, incorporating mixtures of kernel functions that outperform the standard Gaussian kernel on several vision datasets. The code is available at https://github.com/yifanzhang-pro/Kernel-InfoNCE.
翻訳日:2024-02-19 21:05:43 公開日:2024-02-16
# 知識表現としての自然言語の論理的推論--サーベイ

Logical Reasoning over Natural Language as Knowledge Representation: A Survey ( http://arxiv.org/abs/2303.12023v2 )

ライセンス: Link先を確認
Zonglin Yang, Xinya Du, Rui Mao, Jinjie Ni, Erik Cambria(参考訳) 論理的推論は人間の認知と知性の中心である。 帰納的、帰納的、帰納的推論を含む。 AIにおける論理的推論の過去の研究は、形式言語を知識表現と記号的推論として用いた。 しかし、形式言語による推論は困難である(例えば、脆さや知識獲得のボトルネック)。 本稿では,自然言語を知識表現として用いる論理推論の新しいパラダイムの概要と,論理推論の哲学的定義と分類,新しいパラダイムの利点,ベンチマークと手法,新しいパラダイムの挑戦,今後の方向性,関連するnlp分野との関係について述べる。 この新しいパラダイムは、形式表現の多くの課題を緩和するだけでなく、エンドツーエンドのニューラルメソッドよりも優れているため、有望である。 本調査は, 変圧器を用いた LLM に着目し, 英語表現に対する帰納的, 帰納的, 帰納的推論に着目する。

Logical reasoning is central to human cognition and intelligence. It includes deductive, inductive, and abductive reasoning. Past research of logical reasoning within AI uses formal language as knowledge representation and symbolic reasoners. However, reasoning with formal language has proved challenging (e.g., brittleness and knowledge-acquisition bottleneck). This paper provides a comprehensive overview on a new paradigm of logical reasoning, which uses natural language as knowledge representation and pretrained language models as reasoners, including philosophical definition and categorization of logical reasoning, advantages of the new paradigm, benchmarks and methods, challenges of the new paradigm, possible future directions, and relation to related NLP fields. This new paradigm is promising since it not only alleviates many challenges of formal representation but also has advantages over end-to-end neural methods. This survey focus on transformer-based LLMs explicitly working on deductive, inductive, and abductive reasoning over English representation.
翻訳日:2024-02-19 21:05:28 公開日:2024-02-16
# ニアリニア量子レギュレータのグローバル最適政策への政策勾配の収束

Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators ( http://arxiv.org/abs/2303.08431v3 )

ライセンス: Link先を確認
Yinbin Han, Meisam Razaviyayn and Renyuan Xu(参考訳) 意思決定者に部分的な情報を与える非線形制御システムは、様々なアプリケーションで広く使われている。 このような非線形システムの研究の一歩として, ほぼ線形2次制御系における最適政策を見つけるための強化学習手法を検討する。 特に、線形成分と非線形成分を結合し、同じ構造を持つポリシーによって制御される動的システムを考える。 非線形成分が小さなリプシッツ係数を持つカーネルからなると仮定すると、コスト関数の最適化景観を特徴づける。 コスト関数は一般に非凸であるが、大域最適化器の近傍で局所的な強い凸性と滑らか性を確立する。 さらに,これらの特性を利用する初期化機構を提案する。 開発を基盤として,線形レートでグローバルな最適政策に収束することが保証される政策勾配アルゴリズムを設計する。

Nonlinear control systems with partial information to the decision maker are prevalent in a variety of applications. As a step toward studying such nonlinear systems, this work explores reinforcement learning methods for finding the optimal policy in the nearly linear-quadratic regulator systems. In particular, we consider a dynamic system that combines linear and nonlinear components, and is governed by a policy with the same structure. Assuming that the nonlinear component comprises kernels with small Lipschitz coefficients, we characterize the optimization landscape of the cost function. Although the cost function is nonconvex in general, we establish the local strong convexity and smoothness in the vicinity of the global optimizer. Additionally, we propose an initialization mechanism to leverage these properties. Building on the developments, we design a policy gradient algorithm that is guaranteed to converge to the globally optimal policy with a linear rate.
翻訳日:2024-02-19 21:05:12 公開日:2024-02-16
# 異種良腕識別

Differential Good Arm Identification ( http://arxiv.org/abs/2303.07154v3 )

ライセンス: Link先を確認
Yun-Da Tsai, Tzu-Hsien Tsai, Shou-De Lin(参考訳) 本稿では,GAIと呼ばれる確率的マルチアームバンディット問題の変種を対象とする。 GAIは純粋な探索用バンディット問題であり、できるだけ多くの良い腕をできるだけ少ないサンプルで出力することを目的としており、良い腕は期待される報酬が与えられた閾値より大きい腕として定義される。 本研究では,データ駆動方式で最新のhdocアルゴリズムのサンプル複雑性を改善するための,微分可能な優れたアーム識別アルゴリズムであるdgaiを提案する。 また,DGAIは,アームセットに対する事前知識のしきい値から,汎用マルチアームバンディット(MAB)問題の性能をさらに向上させることができることを示した。 GAIタスクとMABタスクの両方の合成および実世界のデータセットにおいて,我々のアルゴリズムがベースラインアルゴリズムよりも有意に優れていることを確認した。

This paper targets a variant of the stochastic multi-armed bandit problem called good arm identification (GAI). GAI is a pure-exploration bandit problem with the goal to output as many good arms using as few samples as possible, where a good arm is defined as an arm whose expected reward is greater than a given threshold. In this work, we propose DGAI - a differentiable good arm identification algorithm to improve the sample complexity of the state-of-the-art HDoC algorithm in a data-driven fashion. We also showed that the DGAI can further boost the performance of a general multi-arm bandit (MAB) problem given a threshold as a prior knowledge to the arm set. Extensive experiments confirm that our algorithm outperform the baseline algorithms significantly in both synthetic and real world datasets for both GAI and MAB tasks.
翻訳日:2024-02-19 21:04:50 公開日:2024-02-16
# 強化学習を用いた相手ゴールによる信用限度調整の最適化

Optimizing Credit Limit Adjustments Under Adversarial Goals Using Reinforcement Learning ( http://arxiv.org/abs/2306.15585v2 )

ライセンス: Link先を確認
Sherly Alfonso-S\'anchez, Jes\'us Solano, Alejandro Correa-Bahnsen, Kristina P. Sendova, and Cristi\'an Bravo(参考訳) 強化学習は、決定論的環境を持つビデオゲームから、シナリオが確率的であるポートフォリオや運用管理まで、多くの問題に対して研究されてきたが、銀行問題においてこれらの手法をテストする試みは少ない。 本研究では,強化学習技術を用いて最適なクレジットカード制限調整策の発見と自動化を試みた。 過去のデータから、顧客1人当たりの2つのアクション、すなわち、個人の現在の信用限度を増大または維持することを検討した。 この方針を見出すため、まずこの意思決定問題を、期待利益を最大化する最適化問題として定式化し、ポートフォリオ収益の最大化とポートフォリオ条項の最小化という2つの逆の目標をバランスさせた。 第二に、問題の特異性を考慮して、私たちはオフライン学習戦略を使用して、ラテンアメリカのスーパーアプリからの履歴データに基づいてアクションの影響をシミュレートし、強化学習エージェントを訓練しました。 提案手法に基づき,最適化ハイパーパラメータを持つダブルq学習エージェントは,この決定の複雑な性質を反映するだけでなく,現実世界のバンキングシナリオにおける強化学習を探求するインセンティブを提供するため,非自明な最適方針を生成することができる。 本研究は、信頼限度調整に強化学習フレームワークを適用するための概念的構造を確立し、専門家主導のシステムにのみ依存するのではなく、主にデータ駆動方式に基づいて意思決定を行う客観的手法を提案する。 また,提案モデルの要件であるバランス予測問題に対する代替データの利用についても検討した。 このようなデータの利用は必ずしも予測の利益をもたらすとは限らない。

Reinforcement learning has been explored for many problems, from video games with deterministic environments to portfolio and operations management in which scenarios are stochastic; however, there have been few attempts to test these methods in banking problems. In this study, we sought to find and automatize an optimal credit card limit adjustment policy by employing reinforcement learning techniques. Because of the historical data available, we considered two possible actions per customer, namely increasing or maintaining an individual's current credit limit. To find this policy, we first formulated this decision-making question as an optimization problem in which the expected profit was maximized; therefore, we balanced two adversarial goals: maximizing the portfolio's revenue and minimizing the portfolio's provisions. Second, given the particularities of our problem, we used an offline learning strategy to simulate the impact of the action based on historical data from a super-app in Latin America to train our reinforcement learning agent. Our results, based on the proposed methodology involving synthetic experimentation, show that a Double Q-learning agent with optimized hyperparameters can outperform other strategies and generate a non-trivial optimal policy not only reflecting the complex nature of this decision but offering an incentive to explore reinforcement learning in real-world banking scenarios. Our research establishes a conceptual structure for applying reinforcement learning framework to credit limit adjustment, presenting an objective technique to make these decisions primarily based on data-driven methods rather than relying only on expert-driven systems. We also study the use of alternative data for the problem of balance prediction, as the latter is a requirement of our proposed model. We find the use of such data does not always bring prediction gains.
翻訳日:2024-02-19 20:58:29 公開日:2024-02-16
# HamLib: 量子アルゴリズムとハードウェアのベンチマークのためのハミルトンのライブラリ

HamLib: A library of Hamiltonians for benchmarking quantum algorithms and hardware ( http://arxiv.org/abs/2306.13126v3 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Daniel Marti-Dafcik, Yang Ho, Daniel P Tabor, David E Bernal Neira, Alicia B Magann, Shavindra Premaratne, Pradeep Dubey, Anne Matsuura, Nathan Bishop, Wibe A de Jong, Simon Benjamin, Ojas D Parekh, Norm Tubman, Katherine Klymko, Daan Camps(参考訳) 計算ハードウェア、ソフトウェア、アルゴリズムを特徴付け、ベンチマークするためには、多くの問題インスタンスを手元に持つことが不可欠である。 これは量子計算に当てはまるものではなく、実世界の問題インスタンスの集合がベンチマーク研究を可能にし、アルゴリズムとハードウェアの設計の両方を改善するのに役立つ。 そこで本稿では,量子ハミルトニアンの大規模データセットを提案する。 HamLib(ハミルトン図書館)と呼ばれるこのデータセットは、オンラインで無料で利用可能であり、2から1000キュービットまでの問題サイズを含んでいる。 HamLibには、Heisenbergモデル、Fermi-Hubbardモデル、Bose-Hubbardモデル、分子電子構造、分子振動構造、MaxCut、Max-$k$-SAT、Max-$k$-Cut、QMaxCut、旅行セールスパーソンの問題が含まれている。 この努力の目標は (a)問題インスタンスを作成してqubit表現にマップする必要をなくし、研究者の時間を節約する。 (b)新しいアルゴリズムやハードウェアのより徹底的なテストを可能にすること、及び (c) 研究における再現性と標準化を可能にすること。

In order to characterize and benchmark computational hardware, software, and algorithms, it is essential to have many problem instances on-hand. This is no less true for quantum computation, where a large collection of real-world problem instances would allow for benchmarking studies that in turn help to improve both algorithms and hardware designs. To this end, here we present a large dataset of qubit-based quantum Hamiltonians. The dataset, called HamLib (for Hamiltonian Library), is freely available online and contains problem sizes ranging from 2 to 1000 qubits. HamLib includes problem instances of the Heisenberg model, Fermi-Hubbard model, Bose-Hubbard model, molecular electronic structure, molecular vibrational structure, MaxCut, Max-$k$-SAT, Max-$k$-Cut, QMaxCut, and the traveling salesperson problem. The goals of this effort are (a) to save researchers time by eliminating the need to prepare problem instances and map them to qubit representations, (b) to allow for more thorough tests of new algorithms and hardware, and (c) to allow for reproducibility and standardization across research studies.
翻訳日:2024-02-19 20:57:59 公開日:2024-02-16
# 単位球面上の学習表現:オンライン連続学習のための角ガウスとフォン・ミセス・フィッシャー分布の探索

Learning Representations on the Unit Sphere: Investigating Angular Gaussian and von Mises-Fisher Distributions for Online Continual Learning ( http://arxiv.org/abs/2306.03364v4 )

ライセンス: Link先を確認
Nicolas Michel, Giovanni Chierchia, Romain Negrel, Jean-Fran\c{c}ois Bercher(参考訳) 単位球上に分布する表現の学習には,最大アフター推定原理を用いる。 本研究では,単位球面上に投影されたガウス分布に対応する角ガウス分布を用い,それに伴う損失関数を導出する。 また、単位球面におけるガウスの条件であるフォン・ミセス=フィッシャー分布も考慮する。 学習された表現は、ガウスの以前の手段である固定方向に向かってプッシュされ、データドリフトに耐性のある学習戦略が実現される。 これにより、連続したデータストリーム上でニューラルネットワークをトレーニングする問題であるオンライン連続学習に適合する。複数の分類タスクが順次提示され、過去のタスクからのデータがアクセス不能になり、現在のタスクからのデータは1回だけ見ることができる。 この課題に対処するために,新たな損失関数を備えたメモリベース表現学習手法を提案する。 提案手法では,タスク境界に関する負のデータや知識は必要とせず,計算効率が向上し,バッチサイズも小さくなった。 提案手法は,標準的な評価シナリオと,ぼやけたタスク境界を持つ現実シナリオの両方において,現在の最先端手法よりも優れていることを示す。 再現性のために、比較対象のメソッド毎に同じトレーニングパイプラインを使用し、https://github.com/Nicolas1203/ocl-fdでコードを共有します。

We use the maximum a posteriori estimation principle for learning representations distributed on the unit sphere. We propose to use the angular Gaussian distribution, which corresponds to a Gaussian projected on the unit-sphere and derive the associated loss function. We also consider the von Mises-Fisher distribution, which is the conditional of a Gaussian in the unit-sphere. The learned representations are pushed toward fixed directions, which are the prior means of the Gaussians; allowing for a learning strategy that is resilient to data drift. This makes it suitable for online continual learning, which is the problem of training neural networks on a continuous data stream, where multiple classification tasks are presented sequentially so that data from past tasks are no longer accessible, and data from the current task can be seen only once. To address this challenging scenario, we propose a memory-based representation learning technique equipped with our new loss functions. Our approach does not require negative data or knowledge of task boundaries and performs well with smaller batch sizes while being computationally efficient. We demonstrate with extensive experiments that the proposed method outperforms the current state-of-the-art methods on both standard evaluation scenarios and realistic scenarios with blurry task boundaries. For reproducibility, we use the same training pipeline for every compared method and share the code at https://github.com/Nicolas1203/ocl-fd.
翻訳日:2024-02-19 20:57:38 公開日:2024-02-16
# DiffPack: 自己回帰型タンパク質側鎖包装のためのねじり拡散モデル

DiffPack: A Torsional Diffusion Model for Autoregressive Protein Side-Chain Packing ( http://arxiv.org/abs/2306.01794v2 )

ライセンス: Link先を確認
Yangtian Zhang, Zuobai Zhang, Bozitao Zhong, Sanchit Misra, Jian Tang(参考訳) タンパク質は生物学的機能の実行において重要な役割を担い、3D構造はそれらの機能を決定するのに不可欠である。 タンパク質の構造予測、設計、タンパク質-タンパク質相互作用の応用において、タンパク質側鎖の構造を正確に予測することが重要である。 従来の手法は計算集約的で精度に制限があるが、既存の機械学習手法は問題を回帰タスクとして扱い、一定の共有結合長と角度によって課される制限を無視する。 本研究では, 側鎖の束縛における自由度である側鎖の束縛角度の結合分布を, 側鎖の束縛空間を拡散し, 偏微分することによって学習する, 対角拡散モデルDiffPackを提案する。 4つのねじり角の同時摂動から生じる問題を避けるために,4つのねじり角を$\chi_1$ から $\chi_4$ に自己回帰的に生成し,ねじり角ごとに拡散モデルを訓練する。 本手法はタンパク質側鎖パッキングのベンチマークで評価し,casp13およびcasp14の角度精度がそれぞれ1.9\%$および13.5\%$向上し,モデルサイズが著しく小さくなることを示した(60\times$ less parameters)。 さらに,alphafold2モデルにおける側鎖予測の強化に本手法の有効性を示す。 コードはhttps://github.com/DeepGraphLearning/DiffPackで入手できる。

Proteins play a critical role in carrying out biological functions, and their 3D structures are essential in determining their functions. Accurately predicting the conformation of protein side-chains given their backbones is important for applications in protein structure prediction, design and protein-protein interactions. Traditional methods are computationally intensive and have limited accuracy, while existing machine learning methods treat the problem as a regression task and overlook the restrictions imposed by the constant covalent bond lengths and angles. In this work, we present DiffPack, a torsional diffusion model that learns the joint distribution of side-chain torsional angles, the only degrees of freedom in side-chain packing, by diffusing and denoising on the torsional space. To avoid issues arising from simultaneous perturbation of all four torsional angles, we propose autoregressively generating the four torsional angles from $\chi_1$ to $\chi_4$ and training diffusion models for each torsional angle. We evaluate the method on several benchmarks for protein side-chain packing and show that our method achieves improvements of $11.9\%$ and $13.5\%$ in angle accuracy on CASP13 and CASP14, respectively, with a significantly smaller model size ($60\times$ fewer parameters). Additionally, we show the effectiveness of our method in enhancing side-chain predictions in the AlphaFold2 model. Code is available at https://github.com/DeepGraphLearning/DiffPack.
翻訳日:2024-02-19 20:57:12 公開日:2024-02-16
# 敵政策の再考:RLにおける汎用的な攻撃の定式化と防御

Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in RL ( http://arxiv.org/abs/2305.17342v2 )

ライセンス: Link先を確認
Xiangyu Liu, Souradip Chakraborty, Yanchao Sun, Furong Huang(参考訳) 既存の作品の多くは、敵の攻撃に対する強化学習エージェントの脆弱性を示すために、被害者の状態や行動に対する直接的な摂動や、基礎となる遷移ダイナミクスに焦点を当てている。 しかし、そのような直接操作は常に実現できるとは限らない。 本稿では,訓練された被害者エージェントである$\nu$が, \textit{adversarial policy} で$\alpha$を制御する攻撃者によって悪用されるマルチエージェント設定を考える。 以前のモデルでは、攻撃者が$\alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。 さらに、これらの敵対的な政策に対する効果的な防御が欠如している。 これらの制限に対処するために、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入し、攻撃者が状態分布シフトを規制し、よりステルスな敵ポリシーを作成できるようにする。 さらに,時間スケールの分離による対人訓練を通じて,多項式収束による防御を最も堅牢な被害者政策に適用する。 これは教師付き学習とは対照的であり、敵の訓練は一般的には \textit{empirical} の防御しか提供しない。 本研究は,Robosumoコンペティション実験を用いて,ベースラインと同じ勝利率を維持する場合,我々の汎用攻撃定式化により,よりステルスな敵政策がもたらされることを示す。 さらに、我々の敵対的トレーニングアプローチは、安定した学習ダイナミクスと、悪用可能な被害者ポリシーをもたらします。

Most existing works focus on direct perturbations to the victim's state/action or the underlying transition dynamics to demonstrate the vulnerability of reinforcement learning agents to adversarial attacks. However, such direct manipulations may not be always realizable. In this paper, we consider a multi-agent setting where a well-trained victim agent $\nu$ is exploited by an attacker controlling another agent $\alpha$ with an \textit{adversarial policy}. Previous models do not account for the possibility that the attacker may only have partial control over $\alpha$ or that the attack may produce easily detectable "abnormal" behaviors. Furthermore, there is a lack of provably efficient defenses against these adversarial policies. To address these limitations, we introduce a generalized attack framework that has the flexibility to model to what extent the adversary is able to control the agent, and allows the attacker to regulate the state distribution shift and produce stealthier adversarial policies. Moreover, we offer a provably efficient defense with polynomial convergence to the most robust victim policy through adversarial training with timescale separation. This stands in sharp contrast to supervised learning, where adversarial training typically provides only \textit{empirical} defenses. Using the Robosumo competition experiments, we show that our generalized attack formulation results in much stealthier adversarial policies when maintaining the same winning rate as baselines. Additionally, our adversarial training approach yields stable learning dynamics and less exploitable victim policies.
翻訳日:2024-02-19 20:55:37 公開日:2024-02-16
# 開量子系におけるリーブ・シュルツ・マティス理論

Lieb-Schultz-Mattis Theorem in Open Quantum Systems ( http://arxiv.org/abs/2305.16496v2 )

ライセンス: Link先を確認
Kohei Kawabata, Ramanjit Sohal, Shinsei Ryu(参考訳) リーブ=シュルツ=マティス(LSM)の定理は、量子多体系の一般的な制約を与え、ハルダンギャップ現象や物質の位相相において重要な役割を果たす。 ここで、LSM定理を開量子系に拡張し、対称性のみに基づくリウヴィリアンの定常状態とスペクトルギャップを制限する一般定理を確立する。 具体的には,非整数充填数に対して翻訳不変性とu(1)対称性が同時に存在する場合,一意なガッピング定常状態が禁止されることを示す。 実例として、スピン-1/2散逸的ハイゼンベルクモデルでは散逸的ギャップが開いていないのに対し、散逸的ギャップはスピン-1系では開量子系におけるハルデンギャップ現象の類似である。 さらに、lsm制約は、リウヴィリアンの散逸形式因子の量子異常にそれ自体を表わすことを示した。 また、Kubo-Martin-Schwinger対称性のような開量子系に固有の対称性による LSM の制約も見出す。 我々の研究は、オープン量子システムにおける位相と現象の統一的な理解に繋がる。

The Lieb-Schultz-Mattis (LSM) theorem provides a general constraint on quantum many-body systems and plays a significant role in the Haldane gap phenomena and topological phases of matter. Here, we extend the LSM theorem to open quantum systems and establish a general theorem that restricts the steady state and spectral gap of Liouvillians based solely on symmetry. Specifically, we demonstrate that the unique gapped steady state is prohibited when translation invariance and U (1) symmetry are simultaneously present for noninteger filling numbers. As an illustrative example, we find that no dissipative gap is open in the spin-1/2 dissipative Heisenberg model while a dissipative gap can be open in the spin-1 counterpart -- an analog of the Haldane gap phenomena in open quantum systems. Furthermore, we show that the LSM constraint manifests itself in a quantum anomaly of the dissipative form factor of Liouvillians. We also find the LSM constraints due to symmetry intrinsic to open quantum systems, such as Kubo-Martin-Schwinger symmetry. Our work leads to a unified understanding of phases and phenomena in open quantum systems.
翻訳日:2024-02-19 20:55:11 公開日:2024-02-16
# クロスリンガル擬似ラベルによる教師なしasr

Unsupervised ASR via Cross-Lingual Pseudo-Labeling ( http://arxiv.org/abs/2305.13330v3 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert(参考訳) 最近の研究では、非ペアリングオーディオとテキストのみを使用して、$\textit{unsupervised}$ automatic speech recognition (asr)システムをトレーニングできることが示されている。 既存の教師なしのASRメソッドは、トレーニングにラベル付きデータを使用できないと仮定する。 ある言語にラベル付きオーディオがない場合でも、他の言語で利用可能なラベル付きデータとして$\textit{always}$がある、と我々は主張する。 文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$\textit{unsupervised}$ AMをブートストラップすることができることを示す。 は、$\textit{target}$言語でラベル付きオーディオが利用できないことを意味する。 私たちのアプローチは2つの重要な要素に基づいている。 i) $\textit{target}$ Language AM と $\textit{other}$ Language AM を使って $\textit{target}$ Language の擬似ラベル (PL) を生成する (ii)$\textit{target language model}$でこれらのPLを制約します。 例えば、英語 am から swahili への転送は 18% の wer を達成している。 また、文字ベースのwav2vec-u 2.0をljspeechの絶対werで15%上回り、ラベル付きドイツ語データを60k時間ではなく800hで上回っている。

Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have any labeled audio for a given language, there is $\textit{always}$ labeled data available for other languages. We show that it is possible to use character-level acoustic models (AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new language. Here, "unsupervised" means no labeled audio is available for the $\textit{target}$ language. Our approach is based on two key ingredients: (i) generating pseudo-labels (PLs) of the $\textit{target}$ language using some $\textit{other}$ language AM and (ii) constraining these PLs with a $\textit{target language model}$. Our approach is effective on Common Voice: e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of labeled German data instead of 60k hours of unlabeled English data.
翻訳日:2024-02-19 20:54:32 公開日:2024-02-16
# カード:時系列予測のためのチャネルアラインロバストブレンド変圧器

CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting ( http://arxiv.org/abs/2305.12095v5 )

ライセンス: Link先を確認
Wang Xue, Tian Zhou, Qingsong Wen, Jinyang Gao, Bolin Ding, Rong Jin(参考訳) 最近の研究では、時系列予測のための変圧器モデルの大きなパワーが実証されている。 トランスフォーマーの成功に繋がる重要な要素の1つは、トレーニングの堅牢性を改善するためのチャネル非依存(CI)戦略である。 しかし、CIにおける異なるチャネル間の相関の無知は、モデルの予測能力を制限する。 本研究では,CI型変換器の時系列予測における問題点に対処する特別な変換器,すなわちCARD(Channel Aligned Robust Blend Transformer)を設計する。 まずcardでは,信号間の時間的相関と,複数の変数間の時間的依存性の両方をキャプチャ可能なチャネルアライメントアテンション構造を導入している。 第2に,マルチスケールの知識を効率的に活用するために,異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。 第3に, 時系列予測のためのロバストな損失関数を導入して, 潜在過充足問題を緩和する。 この新しい損失関数は、予測の不確実性に基づく有限地平線上の予測の重要性を強調する。 複数の長期・短期予測データセットの評価は,CARDが最先端の時系列予測手法よりも優れていることを示す。 コードは以下のリポジトリで入手できる。https://github.com/wxie9/card

Recent studies have demonstrated the great power of Transformer models for time series forecasting. One of the key elements that lead to the transformer's success is the channel-independent (CI) strategy to improve the training robustness. However, the ignorance of the correlation among different channels in CI would limit the model's forecasting capacity. In this work, we design a special Transformer, i.e., Channel Aligned Robust Blend Transformer (CARD for short), that addresses key shortcomings of CI type Transformer in time series forecasting. First, CARD introduces a channel-aligned attention structure that allows it to capture both temporal correlations among signals and dynamical dependence among multiple variables over time. Second, in order to efficiently utilize the multi-scale knowledge, we design a token blend module to generate tokens with different resolutions. Third, we introduce a robust loss function for time series forecasting to alleviate the potential overfitting issue. This new loss function weights the importance of forecasting over a finite horizon based on prediction uncertainties. Our evaluation of multiple long-term and short-term forecasting datasets demonstrates that CARD significantly outperforms state-of-the-art time series forecasting methods. The code is available at the following repository:https://github.com/wxie9/CARD
翻訳日:2024-02-19 20:54:10 公開日:2024-02-16
# CRITIC: ツール・インタラクティブ・クオリティクスによる大規模言語モデルの自動修正

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing ( http://arxiv.org/abs/2305.11738v3 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデル(LLM)の最近の発展は印象的だ。 しかしながら、これらのモデルは、幻覚的な事実、欠陥コードの生成、攻撃的で有害なコンテンツの作成など、矛盾や問題のある振る舞いを示すこともある。 これらのモデルとは異なり、人間は通常、外部ツールを使用して、ファクトチェックの検索エンジンやデバッグのコードインタプリタなど、初期コンテンツをクロスチェックし、洗練する。 この観察にインスパイアされたCRITICと呼ばれるフレームワークは、基本的には「ブラックボックス」であり、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と段階的な修正を可能にする。 具体的には、初期出力から始めると、CRITICはテキストの特定の側面を評価するための適切なツールと対話し、この検証プロセスで得られたフィードバックに基づいて出力を更新する。 自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを示す。 一方,本研究は,LLMの自己改善を促進する上で,外部からのフィードバックの重要性を強調している。

Recent developments in large language models (LLMs) have been impressive. However, these models sometimes show inconsistencies and problematic behavior, such as hallucinating facts, generating flawed code, or creating offensive and toxic content. Unlike these models, humans typically utilize external tools to cross-check and refine their initial content, like using a search engine for fact-checking, or a code interpreter for debugging. Inspired by this observation, we introduce a framework called CRITIC that allows LLMs, which are essentially "black boxes" to validate and progressively amend their own outputs in a manner similar to human interaction with tools. More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process. Comprehensive evaluations involving free-form question answering, mathematical program synthesis, and toxicity reduction demonstrate that CRITIC consistently enhances the performance of LLMs. Meanwhile, our research highlights the crucial importance of external feedback in promoting the ongoing self-improvement of LLMs.
翻訳日:2024-02-19 20:53:48 公開日:2024-02-16
# グラフ誘起和生成ネットワークを用いた確率的グラフ表現学習

Tractable Probabilistic Graph Representation Learning with Graph-Induced Sum-Product Networks ( http://arxiv.org/abs/2305.10544v2 )

ライセンス: Link先を確認
Federico Errica, Mathias Niepert(参考訳) 本稿では,グラフ表現学習のための確率的フレームワークであるgspns(graph-induced sum-product network)を提案する。 メッセージパッシングニューラルネットワークの文脈において頂点によって誘導される計算木にインスパイアされた我々は、親SPNのパラメータが子供の和単位の後方混合確率の学習可能な変換である和積ネットワーク(SPN)の階層を構築する。 重み共有とGSPNのツリー形状の計算グラフにより、確率モデルのさらなる利点を生かしたディープグラフネットワークの有効性と有効性が得られる。 このモデルが持つ競争力は,不足するデータの下での監視シナリオの不足や,一般的なニューラルモデルと比較したグラフ分類に代表される。 実験は超パラメータの定性解析と確率的クエリに答えるモデルの能力で補完する。

We introduce Graph-Induced Sum-Product Networks (GSPNs), a new probabilistic framework for graph representation learning that can tractably answer probabilistic queries. Inspired by the computational trees induced by vertices in the context of message-passing neural networks, we build hierarchies of sum-product networks (SPNs) where the parameters of a parent SPN are learnable transformations of the a-posterior mixing probabilities of its children's sum units. Due to weight sharing and the tree-shaped computation graphs of GSPNs, we obtain the efficiency and efficacy of deep graph networks with the additional advantages of a probabilistic model. We show the model's competitiveness on scarce supervision scenarios, under missing data, and for graph classification in comparison to popular neural models. We complement the experiments with qualitative analyses on hyper-parameters and the model's ability to answer probabilistic queries.
翻訳日:2024-02-19 20:53:29 公開日:2024-02-16
# スピン偏極フェルミオンの二次元弾性衝突速度

Elastic collision rates of spin-polarized fermions in two dimensions ( http://arxiv.org/abs/2305.08549v2 )

ライセンス: Link先を確認
Muhammad Awais Altaf, Takashi Mukaiyama, Muhammad Waseem(参考訳) 2次元スピン偏極超低温フェルミガス中の$p$波弾性衝突速度を,$p$波フェシュバッハ共鳴の存在下で検討した。 有効範囲が支配的な場合,共鳴近傍における弾性衝突速度係数の解析関係を導出する。 弾性衝突速度は、共鳴に向かって$e^{-q_{r}^{2} / q_{T}^{2}}$の指数スケーリングによって向上する。 ここで、$q_{r}$は共鳴運動量、$q_T$は熱運動量である。 3次元の場合の類似表現は、最近の実験で熱化速度の測定をうまく説明できた [phys. rev. a 88, 012710 (2013)]。 有効範囲が無視できるゼロレンジ限界では、弾性衝突速度係数は温度$T^2$と散乱領域$A_{p}^2$に比例する。 この極限では、高速度から低速への$p$波の衝突によるエネルギー移動は、三次元の場合に比べて約$\sqrt{2}$の速さである。 また,背景散乱限界における3体損失の存在下での衝突安定性についても論じる。 以上の結果から,$p$-waveの蒸発は効率が向上し,実験におけるシステムのダイナミクスに関する洞察が得られる可能性が示唆された。

We study the $p$-wave elastic collision rates in a two-dimensional spin-polarized ultracold Fermi gas in the presence of a $p$-wave Feshbach resonance. We derive the analytical relation of the elastic collision rate coefficient in the close vicinity of resonance when the effective range is dominant. The elastic collision rate is enhanced by an exponential scaling of $e^{-q_{r}^{2} / q_{T}^{2}}$ towards the resonance. Here, $q_{r}$ is the resonant momentum and $q_T$ is the thermal momentum. An analogous expression is derived for the case of three dimensions successfully explains the thermalization rates measurement in the recent experiment~[Phys. Rev. A 88, 012710 (2013)]. In the zero-range limit where the effective range is negligible, the elastic collision rate coefficient is proportional to temperature $T^2$ and scattering area $A_{p}^2$. In this limit, energy transfer from high to low velocity through $p$-wave collision is approximately $\sqrt{2}$ times faster compared to the three-dimensional case. We also discuss the collisional stability in the presence of three-body losses in the background scattering limit. Our results suggest that $p$-wave evaporation may be performed with improved efficiency and may provide insight into the dynamics of the system in experiments.
翻訳日:2024-02-19 20:52:57 公開日:2024-02-16
# 自然言語定義からの多関係双曲語埋め込み

Multi-Relational Hyperbolic Word Embeddings from Natural Language Definitions ( http://arxiv.org/abs/2305.07303v5 )

ライセンス: Link先を確認
Marco Valentino, Danilo S. Carvalho, Andr\'e Freitas(参考訳) 自然言語定義は再帰的で自己説明的な意味構造を持ち、潜在空間における明示的な概念的関係と制約を保存できる表現学習法をサポートすることができる。 本稿では,この構造を明示的に活用し,定義から単語埋め込みを導出するマルチリレーショナルモデルを提案する。 辞書から定義項と定義項の相関関係を自動的に抽出することにより,ハイパーボリック空間の翻訳フレームワークを通じて単語埋め込みの問題を定式化し,定義のグローバルな意味構造を捉えるためのプロキシとして利用する方法を示す。 広範な実証分析によって、フレームワークは、制御可能かつ解釈可能なトラバーサルに必要な意味マッピングを維持しながら、望ましい構造的制約を課すのに役立つことが示されている。 さらに,双曲語埋め込みがユークリッド語よりも優れていることを明らかにし,本質的に効率的かつ解釈可能な利点を生かして,最先端のニューラルモデルと比較して,マルチリレーショナルアプローチが競争結果を得ることができることを示す。

Natural language definitions possess a recursive, self-explanatory semantic structure that can support representation learning methods able to preserve explicit conceptual relations and constraints in the latent space. This paper presents a multi-relational model that explicitly leverages such a structure to derive word embeddings from definitions. By automatically extracting the relations linking defined and defining terms from dictionaries, we demonstrate how the problem of learning word embeddings can be formalised via a translational framework in Hyperbolic space and used as a proxy to capture the global semantic structure of definitions. An extensive empirical analysis demonstrates that the framework can help imposing the desired structural constraints while preserving the semantic mapping required for controllable and interpretable traversal. Moreover, the experiments reveal the superiority of the Hyperbolic word embeddings over the Euclidean counterparts and demonstrate that the multi-relational approach can obtain competitive results when compared to state-of-the-art neural models, with the advantage of being intrinsically more efficient and interpretable.
翻訳日:2024-02-19 20:52:40 公開日:2024-02-16
# ML対応ソフトウェア構築におけるVモデルの検討:システム工学の視点から

An Exploratory Study of V-Model in Building ML-Enabled Software: A Systems Engineering Perspective ( http://arxiv.org/abs/2308.05381v3 )

ライセンス: Link先を確認
Jie JW Wu(参考訳) 機械学習(ML)コンポーネントは、ますます重要で影響力のあるソフトウェアシステムに追加されているが、プロトタイプのMLモデルから現実のプロダクションシステムのソフトウェア開発プロセスは、さらなる複雑さと学際的なコラボレーションの課題によって、依然として困難である。 これは、\textit{ml-enabled systems}を構築する際に、ウォーターフォール、スパイラル、アジャイルモデルのような従来のソフトウェアライフサイクルモデルを使うのに困難をもたらす。 本研究では,ml対応システム構築における学際的なコラボレーション課題に対処するために,vモデルの利用を検討するためにシステム工学レンズを適用する。 ソフトウェア企業の実践者たちにインタビューすることで、MLコンポーネントで製品を構築する際に、V-Modelを使って学際的なコラボレーションを管理するための8つの提案を確立しました。 これらの提案に基づき, ML 対応システムの構築において, V-Model の特徴が, 実践者が遭遇するいくつかのコラボレーション課題と効果的に一致していることが判明した。 ML対応システムの構築において,システム分解,クリアシステム境界,検証検証(V\&V)の整合性など,Vモデルの特徴を活用する新たなプロセスモデルを検討することを推奨する。

Machine learning (ML) components are being added to more and more critical and impactful software systems, but the software development process of real-world production systems from prototyped ML models remains challenging with additional complexity and interdisciplinary collaboration challenges. This poses difficulties in using traditional software lifecycle models such as waterfall, spiral, or agile models when building \textit{ML-enabled systems}. In this research, we apply a Systems Engineering lens to investigate the use of V-Model in addressing the interdisciplinary collaboration challenges when building ML-enabled systems. By interviewing practitioners from software companies, we established a set of 8 propositions for using V-Model to manage interdisciplinary collaborations when building products with ML components. Based on the propositions, we found that despite requiring additional efforts, the characteristics of V-Model align effectively with several collaboration challenges encountered by practitioners when building ML-enabled systems. We recommend future research to investigate new process models that leverage the characteristics of V-Model such as the system decomposition, clear system boundary, and consistency of Validation \& Verification (V\&V) for building ML-enabled systems.
翻訳日:2024-02-19 20:45:27 公開日:2024-02-16
# Fair Machine Unlearning: 格差を緩和しながらデータを削除する

Fair Machine Unlearning: Data Removal while Mitigating Disparities ( http://arxiv.org/abs/2307.14754v2 )

ライセンス: Link先を確認
Alex Oesterling, Jiaqi Ma, Flavio P. Calmon, Hima Lakkaraju(参考訳) 忘れられる権利は、EUの一般データ保護規則(GDPR)のような規制フレームワークによって概説される中核的な原則である。 この原則により、個人は、デプロイされた機械学習モデルから個人情報を削除することを要求できる。 フォージェッティング”は、残りのデータセットを再トレーニングすることで、ナビケートに実現できるが、新しいリクエスト毎に処理を行うには計算コストがかかる。 このように、再訓練の効率的な代替手段として、いくつかの機械学習手法が提案されている。 これらの手法は再トレーニングの予測性能を近似することを目的としているが、不学習がフェアネスのような現実世界のアプリケーションにとって重要な他の特性にどのように影響するかを考慮しない。 本研究では,最も効率的なアンラーニング手法では一般的なフェアネス介入に対応できないことを実証し,公平な目的からデータインスタンスを効率的にアンラーニングできる最初の公正マシンアンラーニング手法を提案する。 理論的結果から,提案手法がデータを引き出すことができ,公平性を確実に維持できることを示す。 実世界のデータセットを用いた広範囲な実験では、公平性を保ちながら、未学習データインスタンスにおける本手法の有効性を強調した。

The Right to be Forgotten is a core principle outlined by regulatory frameworks such as the EU's General Data Protection Regulation (GDPR). This principle allows individuals to request that their personal data be deleted from deployed machine learning models. While "forgetting" can be naively achieved by retraining on the remaining dataset, it is computationally expensive to do to so with each new request. As such, several machine unlearning methods have been proposed as efficient alternatives to retraining. These methods aim to approximate the predictive performance of retraining, but fail to consider how unlearning impacts other properties critical to real-world applications such as fairness. In this work, we demonstrate that most efficient unlearning methods cannot accommodate popular fairness interventions, and we propose the first fair machine unlearning method that can efficiently unlearn data instances from a fair objective. We derive theoretical results which demonstrate that our method can provably unlearn data and provably maintain fairness performance. Extensive experimentation with real-world datasets highlight the efficacy of our method at unlearning data instances while preserving fairness.
翻訳日:2024-02-19 20:44:32 公開日:2024-02-16
# 大規模言語モデルの自己利益と他者の利害のバランスを予測できる能力の評価

Assessing Large Language Models' ability to predict how humans balance self-interest and the interest of others ( http://arxiv.org/abs/2307.12776v3 )

ライセンス: Link先を確認
Valerio Capraro, Roberto Di Paolo, Veronica Pizziol(参考訳) 生成型人工知能(ai:generative artificial intelligence)は、意思決定プロセスに革命をもたらす巨大な可能性を持っている。 生成AIを活用することで、人間はデータ駆動の洞察と予測の恩恵を受けることができ、幅広い要因と潜在的な結果を考慮する情報決定能力を高めることができる。 しかし、多くの決定が社会的意味を持ち、AIが意思決定の信頼できるアシスタントになるためには、自己利益と他者の利益のバランスを捉えることが不可欠である。 本研究は,12ヶ国108実験において,最も先進的なチャットボット3種によるディクテータゲーム決定の予測能力について検討した。 GPT-4(BardでもBingでもない)だけが質的な行動パターンを正しく捉え、自己関心、不平等、完全に利他的という3つの主要な行動のクラスを特定する。 それでも、GPT-4は利他的振る舞いを過大評価しながら、常に自己関心と不平等を過小評価している。 このバイアスは、AI開発者やユーザにとって重要な意味を持ち、人間の利他主義に対する過度に楽観的な期待は、失望、フラストレーション、公共政策やビジネスコンテキストにおける最適下決定、さらには社会的衝突につながる可能性がある。

Generative artificial intelligence (AI) holds enormous potential to revolutionize decision-making processes, from everyday to high-stake scenarios. By leveraging generative AI, humans can benefit from data-driven insights and predictions, enhancing their ability to make informed decisions that consider a wide array of factors and potential outcomes. However, as many decisions carry social implications, for AI to be a reliable assistant for decision-making it is crucial that it is able to capture the balance between self-interest and the interest of others. We investigate the ability of three of the most advanced chatbots to predict dictator game decisions across 108 experiments with human participants from 12 countries. We find that only GPT-4 (not Bard nor Bing) correctly captures qualitative behavioral patterns, identifying three major classes of behavior: self-interested, inequity-averse, and fully altruistic. Nonetheless, GPT-4 consistently underestimates self-interest and inequity-aversion, while overestimating altruistic behavior. This bias has significant implications for AI developers and users, as overly optimistic expectations about human altruism may lead to disappointment, frustration, suboptimal decisions in public policy or business contexts, and even social conflict.
翻訳日:2024-02-19 20:44:15 公開日:2024-02-16
# 選好は進化し、あなたのバンディットも進化する - オンラインプラットフォームのための進化した状態のバンディット

Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms ( http://arxiv.org/abs/2307.11655v2 )

ライセンス: Link先を確認
Khashayar Khosravi, Renato Paes Leme, Chara Podimata, and Apostolis Tsorvantzis(参考訳) 本稿では, 決定論的に進化し, 観測不能な状態を考慮しつつ, 包括的フィードバックによる学習モデルを提案する(B-DES$)。 私たちのモデルのワークホースアプリケーションは、レコメンデーションシステムのための学習とオンライン広告のための学習です。 どちらの場合も、アルゴリズムが各ラウンドで得られる報酬は、選択されたアクションの短期的な報酬の関数であり、システムがどのように「健康」である(すなわち、その状態によって測定される)。 例えば、レコメンデーションシステムでは、プラットフォームが特定のタイプのコンテンツに対するユーザのエンゲージメントから得られる報酬は、特定のコンテンツの固有の特徴だけでなく、プラットフォーム上の他のタイプのコンテンツとのインタラクションの結果、ユーザの好みがどのように進化したかにも依存する。 我々の一般的なモデルは、状態が進化する異なるレートの$\lambda \in [0,1]$(例えば、以前のコンテンツ消費の結果、ユーザの嗜好がどれだけ速く変化するか)を考慮し、特殊なケースとして標準のマルチアームバンディットを包含する。 このアルゴリズムの目標は、最も固定された腕の「emph{sequence}」に対する後悔の概念を最小化することである。 我々は,進化率$\lambda$の任意の値についてオンライン学習アルゴリズムを提示し,様々なモデルの誤特定に対して,結果の頑健性を示す。

We propose a model for learning with bandit feedback while accounting for deterministically evolving and unobservable states that we call \emph{Bandits with Deterministically Evolving States} ($B-DES$). The workhorse applications of our model are learning for recommendation systems and learning for online ads. In both cases, the reward that the algorithm obtains at each round is a function of the short-term reward of the action chosen and how "healthy" the system is (i.e., as measured by its state). For example, in recommendation systems, the reward that the platform obtains from a user's engagement with a particular type of content depends not only on the inherent features of the specific content, but also on how the user's preferences have evolved as a result of interacting with other types of content on the platform. Our general model accounts for the different rate $\lambda \in [0,1]$ at which the state evolves (e.g., how fast a user's preferences shift as a result of previous content consumption) and encompasses standard multi-armed bandits as a special case. The goal of the algorithm is to minimize a notion of regret against the best-fixed \emph{sequence} of arms pulled, which is significantly harder to attain compared to standard benchmark of the best-fixed action in hindsight. We present online learning algorithms for any possible value of the evolution rate $\lambda$ and we show the robustness of our results to various model misspecifications.
翻訳日:2024-02-19 20:43:52 公開日:2024-02-16
# FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets ( http://arxiv.org/abs/2307.10928v3 )

ライセンス: Link先を確認
Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo(参考訳) 大規模言語モデル(LLM)の評価は、命令追従が人的価値と整合し、必要なスキルセットが命令によって異なるため困難である。 しかし,これまでの研究は主に粗粒度評価(全体選好評価)に焦点をあてており,インスタンス毎のスキル構成を必要とするユーザ指示の性質を考慮せず,解釈可能性の制限を行っている。 本稿では,粗いスコアリングを各命令のスキルレベルスコアに分解する,人間ベースおよびモデルベース評価のための細粒度評価プロトコルであるflask (fine- grain language model evaluation based alignment skill sets)を提案する。 モデル性能の総合的視点と評価の信頼性向上には,評価の微粒度が重要であることを実験的に観察した。 FLASKを用いて、複数のオープンソースとプロプライエタリなLCMを比較し、モデルベースと人間ベースの評価との間に高い相関関係を観察する。 評価データとコードの実装はhttps://github.com/kaistAI/FLASK.comで公開しています。

Evaluation of Large Language Models (LLMs) is challenging because instruction-following necessitates alignment with human values and the required set of skills varies depending on the instruction. However, previous studies have mainly focused on coarse-grained evaluation (i.e. overall preference-based evaluation), which limits interpretability since it does not consider the nature of user instructions that require instance-wise skill composition. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment Skill Sets), a fine-grained evaluation protocol for both human-based and model-based evaluation which decomposes coarse-level scoring to a skill set-level scoring for each instruction. We experimentally observe that the fine-graininess of evaluation is crucial for attaining a holistic view of model performance and increasing the reliability of the evaluation. Using FLASK, we compare multiple open-source and proprietary LLMs and observe a high correlation between model-based and human-based evaluations. We publicly release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
翻訳日:2024-02-19 20:43:20 公開日:2024-02-16
# 異常な表面を包含する光機械的閉ループにおける選択的冷却とスクイーズ

Selective cooling and squeezing in a lossy optomechanical closed loop embodying an exceptional surface ( http://arxiv.org/abs/2307.09851v3 )

ライセンス: Link先を確認
Beyza S\"utl\"uo\u{g}lu Ege and Ceyhun Bulutay(参考訳) 1つの光学的および2つの退化機械的共振器からなる閉ループ損失光学系を計算学的に検討した。 このシステムは、相互結合係数のループ位相から導出される基本合成プラケットを構成する。 特定の量子特性を調べる際に、プラケット位相から選択された共振器内の2次分散の制御を探索する。 機械的スクイージングを組み込むために、キャビティ励起レーザに振幅変調を付加する。 数値解析は,冷却のための定常共分散の積分自由計算と,スクイーズのためのフロッケ法に依拠する。 我々は,非ハーミティシティが,異常点に近づいた冷却とスクイーズを促進させる上で,いかに重要な役割を担っているか,物理的知見を提供する。 この強化は、機械的結合率の関数としての複素固有値 loci の挙動と関係している。 さらに,パラメータ空間は例外曲面を具現化し,実験パラメータの変動による例外点特異点の堅牢性を保証する。 しかし、ポンプレーザのデチューニングは、メカニカル共鳴周波数に十分近い量でレッドサイドバンドに存在しない限り、例外的な表面から離れる。 最後に,この異種パラメトリックキャラクタは,技術的に重要な周波数依存的なスクイージングを付与することを示す。

A closed-loop, lossy optomechanical system consisting of one optical and two degenerate mechanical resonators is computationally investigated. This system constitutes an elementary synthetic plaquette derived from the loop phase of the intercoupling coefficients. In examining a specific quantum attribute, we delve into the control of quadrature variances within the resonator selected through the plaquette phase. To incorporate mechanical squeezing, an amplitude modulation is additionally applied to the cavity-pumping laser. Our numerical analysis relies on the integration-free computation of steady-state covariances for cooling, and the Floquet technique for squeezing. We provide physical insights into how non-Hermiticity plays a crucial role in enhancing cooling and squeezing in proximity to exceptional points. This enhancement is associated with the behavior of complex eigenvalue loci as a function of the intermechanical coupling rate. Additionally, we demonstrate that the parameter space embodies an exceptional surface, ensuring the robustness of exceptional point singularities under experimental parameter variations. However, the pump laser detuning breaks away from the exceptional surface unless it resides on the red-sideband by an amount sufficiently close to the mechanical resonance frequency. Finally, we show that this disparate parametric character entitles frequency-dependent squeezing which is of technological importance.
翻訳日:2024-02-19 20:42:31 公開日:2024-02-16
# クラス不均衡学習のためのグラフ埋め込み直観的ファジィ乱数ベクトル関数型ニューラルネットワーク

Graph Embedded Intuitionistic Fuzzy Random Vector Functional Link Neural Network for Class Imbalance Learning ( http://arxiv.org/abs/2307.07881v2 )

ライセンス: Link先を確認
M.A. Ganaie, M. Sajid, A.K. Malik, M. Tanveer(参考訳) 機械学習の領域は、クラス不均衡学習として知られる重要な研究領域に直面しており、マイノリティクラスの正確な分類においてかなりのハードルが生じる。 この問題は、多数派クラスがトレーニングプロセスで優先されるバイアス付きモデルとなり、少数派クラスの過小評価につながる可能性がある。 ランダムベクトル汎関数リンク(rvfl)ネットワークは、その一般化性能と効率性が良いため、広く使われている効果的な分類学習モデルである。 しかし、不均衡なデータセットを扱うときに苦しむ。 この制限を克服するために,クラス不均衡学習(ge-ifrvfl-cil)モデルのためのグラフ埋め込み直観的ファジィrvflを提案する。 提案されているGE-IFRVFL-CILモデルは、多くのメリットを提供している。 (i)$ データセット固有のトポロジ構造を保存するためにグラフ埋め込みを活用する$ $ (ii)データの不確実性と不正確性を扱うために直観的ファジィ理論を用いる$,$ (iii)一番重要なのは、クラス不均衡学習に取り組むことです。 重み付けスキーム,グラフ埋め込み,直観的ファジィ集合のアマルガメーションにより,KEELベンチマークの不均衡データセットにおいて,ガウス雑音のないモデルの方が優れた性能が得られる。 さらに,提案したGE-IFRVFL-CILをADNIデータセット上に実装し,実世界の応用におけるモデルの有効性を実証した。 提案されたge-ifrvfl-cilモデルは、クラス不均衡問題に対処するための有望な解決策を提供し、ノイズや外れ値の影響を緩和し、データセット固有の幾何学的構造を保存する。

The domain of machine learning is confronted with a crucial research area known as class imbalance learning, which presents considerable hurdles in precise classification of minority classes. This issue can result in biased models where the majority class takes precedence in the training process, leading to the underrepresentation of the minority class. The random vector functional link (RVFL) network is a widely used and effective learning model for classification due to its good generalization performance and efficiency. However, it suffers when dealing with imbalanced datasets. To overcome this limitation, we propose a novel graph embedded intuitionistic fuzzy RVFL for class imbalance learning (GE-IFRVFL-CIL) model incorporating a weighting mechanism to handle imbalanced datasets. The proposed GE-IFRVFL-CIL model offers plethora of benefits: $(i)$ leveraging graph embedding to preserve the inherent topological structure of the datasets, $(ii)$ employing intuitionistic fuzzy theory to handle uncertainty and imprecision in the data, $(iii)$ and the most important, it tackles class imbalance learning. The amalgamation of a weighting scheme, graph embedding, and intuitionistic fuzzy sets leads to the superior performance of the proposed models on KEEL benchmark imbalanced datasets with and without Gaussian noise. Furthermore, we implemented the proposed GE-IFRVFL-CIL on the ADNI dataset and achieved promising results, demonstrating the model's effectiveness in real-world applications. The proposed GE-IFRVFL-CIL model offers a promising solution to address the class imbalance issue, mitigates the detrimental effect of noise and outliers, and preserves the inherent geometrical structures of the dataset.
翻訳日:2024-02-19 20:42:10 公開日:2024-02-16
# プルーニング対量子化:どちらが良いか

Pruning vs Quantization: Which is Better? ( http://arxiv.org/abs/2307.02973v2 )

ライセンス: Link先を確認
Andrey Kuzmin, Markus Nagel, Mart van Baalen, Arash Behboodi, Tijmen Blankevoort(参考訳) ニューラルネットワークのプルーニングと量子化技術は、ニューラルネットワーク自体と同じくらい古い。 しかし、現在では両者のアドホックな比較しか発表されていない。 本稿では,ニューラルネットワークの量子化とプルーニングのどちらがよいのか,という問いに答える。 この質問に答えることで、今後ニューラルネットワークハードウェアに関する設計決定が下されることを期待します。 ディープニューラルネットワークを圧縮する2つの手法を広範囲に比較した。 まず、一般的なデータ分布に対する期待量子化とプルーニング誤差の分析比較を行う。 次に,学習ネットワークにおける層毎のプルーニングと量子化誤差の上限を低くし,最適化後の経験的誤差と比較する。 最後に,8つの大規模モデルを3つのタスクでトレーニングするための実験的な比較を行った。 その結果,ほとんどの場合,量子化はプルーニングよりも優れていた。 圧縮比が非常に高いいくつかのシナリオでのみ、プルーニングは精度の観点から有益である。

Neural network pruning and quantization techniques are almost as old as neural networks themselves. However, to date only ad-hoc comparisons between the two have been published. In this paper, we set out to answer the question on which is better: neural network quantization or pruning? By answering this question, we hope to inform design decisions made on neural network hardware going forward. We provide an extensive comparison between the two techniques for compressing deep neural networks. First, we give an analytical comparison of expected quantization and pruning error for general data distributions. Then, we provide lower bounds for the per-layer pruning and quantization error in trained networks, and compare these to empirical error after optimization. Finally, we provide an extensive experimental comparison for training 8 large-scale models on 3 tasks. Our results show that in most cases quantization outperforms pruning. Only in some scenarios with very high compression ratio, pruning might be beneficial from an accuracy standpoint.
翻訳日:2024-02-19 20:41:42 公開日:2024-02-16
# 量子相関に対する半定値プログラミング緩和

Semidefinite programming relaxations for quantum correlations ( http://arxiv.org/abs/2307.02551v3 )

ライセンス: Link先を確認
Armin Tavakoli, Alejandro Pozas-Kerstjens, Peter Brown, Mateus Ara\'ujo(参考訳) 半定義プログラムは線型目的関数と正の半定義行列の領域を含む凸最適化問題である。 過去20年にわたり、量子情報科学において必須のツールとなっている。 それ以外の多くの難解な基本問題や応用問題は、半定値プログラムへの緩和によってうまくアプローチできる。 本稿では,このような手法を量子相関の文脈で検討する。 非局所性、量子通信、量子ネットワーク、絡み合い、量子暗号など、量子相関の様々な研究トピックに半定緩和のコアアイデアをどのように適用できるかについて議論する。

Semidefinite programs are convex optimisation problems involving a linear objective function and a domain of positive semidefinite matrices. Over the last two decades, they have become an indispensable tool in quantum information science. Many otherwise intractable fundamental and applied problems can be successfully approached by means of relaxation to a semidefinite program. Here, we review such methodology in the context of quantum correlations. We discuss how the core idea of semidefinite relaxations can be adapted for a variety of research topics in quantum correlations, including nonlocality, quantum communication, quantum networks, entanglement, and quantum cryptography.
翻訳日:2024-02-19 20:41:29 公開日:2024-02-16
# メタ推論:大規模言語モデルのための意味論的シンボリックデコンストラクション

Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models ( http://arxiv.org/abs/2306.17820v3 )

ライセンス: Link先を確認
Yiming Wang, Zhuosheng Zhang, Pei Zhang, Baosong Yang, Rui Wang(参考訳) ニューラルシンボリックな手法は、大規模言語モデル(llm)の推論能力を高める効果を示している。 しかし、既存のメソッドは主に構文的に自然言語をpythonやsqlのような完全な形式言語にマッピングする。 これらの方法は、推論タスクをプログラムに変換し、コンピュータの実行マインドセットに適合し、人間の推論習慣から逸脱することを要求する。 実世界の象徴的手法の適用性と適応性を広げるために,メタ推論を言語学的観点から提案する。 この方法では、llmが推論非依存な意味情報を汎用的な象徴表現に分解し、より一般的な推論知識を効率的に捕捉する。 算術,記号的,論理的推論などの従来の推論タスクと,理論的推論のようなより複雑な対話的推論タスクを包含する10以上のデータセットについて,広範な実験を行った。 実験結果から,メタ推論はコンテキスト内推論精度,学習効率,領域外一般化,出力安定性をChain-of-Thought手法と比較して著しく向上することが示された。 コードとデータは \url{https://github.com/Alsace08/Meta-Reasoning} で公開されている。

Neural-symbolic methods have demonstrated efficiency in enhancing the reasoning abilities of large language models (LLMs). However, existing methods mainly rely on syntactically mapping natural languages to complete formal languages like Python and SQL. Those methods require that reasoning tasks be convertible into programs, which cater to the computer execution mindset and deviate from human reasoning habits. To broaden symbolic methods' applicability and adaptability in the real world, we propose the Meta-Reasoning from a linguistic perspective. This method empowers LLMs to deconstruct reasoning-independent semantic information into generic symbolic representations, thereby efficiently capturing more generalized reasoning knowledge. We conduct extensive experiments on more than ten datasets encompassing conventional reasoning tasks like arithmetic, symbolic, and logical reasoning, and the more complex interactive reasoning tasks like theory-of-mind reasoning. Experimental results demonstrate that Meta-Reasoning significantly enhances in-context reasoning accuracy, learning efficiency, out-of-domain generalization, and output stability compared to the Chain-of-Thought technique. Code and data are publicly available at \url{https://github.com/Alsace08/Meta-Reasoning}.
翻訳日:2024-02-19 20:41:19 公開日:2024-02-16
# 分極量子回路における古典計算性能境界

Classically computing performance bounds on depolarized quantum circuits ( http://arxiv.org/abs/2306.16360v2 )

ライセンス: Link先を確認
Sattwik Deb Mishra, Miguel Fr\'ias-P\'erez, Rahul Trivedi(参考訳) 量子コンピュータとシミュレータは、古典的および量子的ハミルトニアンの基底状態の発見において、古典的コンピュータを上回る可能性がある。 しかし、この利点が誤り訂正なしでノイズの存在に持続できるかどうかはまだ不明である。 本稿では,ラグランジュ双対性の原理を生かして,量子回路の出力状態によって達成可能な最小エネルギーに対する検証可能な下限を,非分極ノイズの存在下で古典的に計算する数値解法を開発した。 提案手法は、雑音量子回路の性能に回路構造依存的な境界を与えることができるという理論的および数値的な証拠を提供する。

Quantum computers and simulators can potentially outperform classical computers in finding ground states of classical and quantum Hamiltonians. However, if this advantage can persist in the presence of noise without error correction remains unclear. In this paper, by exploiting the principle of Lagrangian duality, we develop a numerical method to classically compute a certifiable lower bound on the minimum energy attainable by the output state of a quantum circuit in the presence of depolarizing noise. We provide theoretical and numerical evidence that this approach can provide circuit-architecture dependent bounds on the performance of noisy quantum circuits.
翻訳日:2024-02-19 20:40:55 公開日:2024-02-16
# ペプチドからナノ構造へ:高速で安定な機械学習力場のためのユークリッド変換器

From Peptides to Nanostructures: A Euclidean Transformer for Fast and Stable Machine Learned Force Fields ( http://arxiv.org/abs/2309.15126v2 )

ライセンス: Link先を確認
J. Thorben Frank, Oliver T. Unke, Klaus-Robert M\"uller, Stefan Chmiela(参考訳) 近年,機械学習力場 (mlffs) の開発は,ab-initio reference calculations に基づく大きな進歩を遂げている。 分子動力学(MD)シミュレーションにおけるMLFFの信頼性は, 試験誤差が低いにもかかわらず, 拡張されたシミュレーションタイムスケールに対する不安定性への懸念から, 精査が進んでいる。 以上の結果から, 累積的不正確性に対するロバスト性とmlffsにおける等価表現の利用との間には, 潜在的な関連性が示唆された。 そこで本稿では,sparse equivariant representations (euclidean variable) と,invariant と equivariant information を分離するself-attention mechanismを組み合わせた so3krates と呼ばれるトランスフォーマーアーキテクチャを提案する。 SO3kratesは精度、安定性、速度の独特な組み合わせを実現し、拡張時間とシステムサイズスケールでの物質の量子特性の洞察に富んだ分析を可能にする。 この能力を示すために、柔軟なペプチドや数百個の原子を持つ超分子構造のための安定なMD軌道を生成する。 さらに, 中型鎖状分子(例えば小ペプチド)のpesトポロジーを数千のミニマを探索することにより検討した。 注目すべきは、SO3kratesは、相反する安定性の要求と、生物化学の分野における現実的な探索タスクにとって重要な、トレーニングデータを超えた新しい最小エネルギーコンフォメーションの出現の間にバランスをとる能力を示すことである。

Recent years have seen vast progress in the development of machine learned force fields (MLFFs) based on ab-initio reference calculations. Despite achieving low test errors, the reliability of MLFFs in molecular dynamics (MD) simulations is facing growing scrutiny due to concerns about instability over extended simulation timescales. Our findings suggest a potential connection between robustness to cumulative inaccuracies and the use of equivariant representations in MLFFs, but the computational cost associated with these representations can limit this advantage in practice. To address this, we propose a transformer architecture called SO3krates that combines sparse equivariant representations (Euclidean variables) with a self-attention mechanism that separates invariant and equivariant information, eliminating the need for expensive tensor products. SO3krates achieves a unique combination of accuracy, stability, and speed that enables insightful analysis of quantum properties of matter on extended time and system size scales. To showcase this capability, we generate stable MD trajectories for flexible peptides and supra-molecular structures with hundreds of atoms. Furthermore, we investigate the PES topology for medium-sized chainlike molecules (e.g., small peptides) by exploring thousands of minima. Remarkably, SO3krates demonstrates the ability to strike a balance between the conflicting demands of stability and the emergence of new minimum-energy conformations beyond the training data, which is crucial for realistic exploration tasks in the field of biochemistry.
翻訳日:2024-02-19 20:34:59 公開日:2024-02-16
# 3次元スライスワッサーシュタインのための準モンテカルロ

Quasi-Monte Carlo for 3D Sliced Wasserstein ( http://arxiv.org/abs/2309.11713v2 )

ライセンス: Link先を確認
Khai Nguyen and Nicola Bariletto and Nhat Ho(参考訳) モンテカルロ (mc) 積分はスライスワッサースタイン距離(sw)の標準近似法として用いられており、その解析式には難解な期待値が含まれている。 しかし、絶対近似誤差の観点からはMC積分は最適ではない。 より優れた経験的SWのクラスを提供するため、準スライクなワッサーシュタイン近似(QSW)を提案し、準モンテカルロ法(QMC)を用いる。 SWのQMCに関する総合的な調査では,3次元の確率測度間のSWの計算に焦点をあてる。 より詳細には、3次元単位超球面上のqmc点集合を構築するための様々な方法について実験的に評価し、ガウス写像と等面積写像、一般化スパイラル点、離散エネルギーの最適化などについて述べる。 さらに、確率最適化のための非バイアス推定器を得るために、議論された点集合にランダム性を導入することにより、QSWをランダム化準スライスワッサースタイン(RQSW)に拡張する。 理論的には、QSWの漸近収束とRQSWの不偏性を証明する。 最後に,ポイントクラウド比較,ポイントクラウド補間,イメージスタイル転送,深度クラウドオートエンコーダの訓練など,様々な3Dタスクについて実験を行い,提案したQSWおよびRQSW変種の性能を実証する。

Monte Carlo (MC) integration has been employed as the standard approximation method for the Sliced Wasserstein (SW) distance, whose analytical expression involves an intractable expectation. However, MC integration is not optimal in terms of absolute approximation error. To provide a better class of empirical SW, we propose quasi-sliced Wasserstein (QSW) approximations that rely on Quasi-Monte Carlo (QMC) methods. For a comprehensive investigation of QMC for SW, we focus on the 3D setting, specifically computing the SW between probability measures in three dimensions. In greater detail, we empirically evaluate various methods to construct QMC point sets on the 3D unit-hypersphere, including the Gaussian-based and equal area mappings, generalized spiral points, and optimizing discrepancy energies. Furthermore, to obtain an unbiased estimator for stochastic optimization, we extend QSW to Randomized Quasi-Sliced Wasserstein (RQSW) by introducing randomness in the discussed point sets. Theoretically, we prove the asymptotic convergence of QSW and the unbiasedness of RQSW. Finally, we conduct experiments on various 3D tasks, such as point-cloud comparison, point-cloud interpolation, image style transfer, and training deep point-cloud autoencoders, to demonstrate the favorable performance of the proposed QSW and RQSW variants.
翻訳日:2024-02-19 20:33:59 公開日:2024-02-16
# 計算的議論における異なる種類の分散シナリオをどう扱うか? 包括的かつきめ細かいフィールド研究

How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study ( http://arxiv.org/abs/2309.08316v2 )

ライセンス: Link先を確認
Andreas Waldis, Yufang Hou and Iryna Gurevych(参考訳) 事前学習型言語モデル(lms)の出現により、自然言語処理が著しく進んだが、ood(out-of-distribution)シナリオにおけるその効果は依然として大きな課題となっている。 計算的議論 (CA) は、複雑なアノテーションスキームと高いアノテーションコストが、利用可能なテキストソースやトピックの多元性をほとんどカバーしないリソースを生み出すため、これらの課題の影響を顕著に受けている分野である。 このデータ不足のため、検出された共変分布からのデータへの一般化は、姿勢検出や引数分類といったcaタスクで一般的な課題である。 この研究は、OODシナリオに対するLMの能力を体系的に評価する。 以前の作業ではトピックシフトやOODのような特定のOODタイプを対象としていましたが、CAでは3つの一般的なOODシナリオ – トピックシフト、ドメインシフト、言語シフト – に対処しています。 本研究は,OODにおけるテキスト内学習(ICL)の一般的な優位性に挑戦するものである。 このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。 具体的には、iclはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝る。 まとめると、我々はcaにおけるoodシナリオの多様性をナビゲートし、これらの課題を克服するためのベースサイズのlmsの可能性を実証的に強調する。

The advent of pre-trained Language Models (LMs) has markedly advanced natural language processing, but their efficacy in out-of-distribution (OOD) scenarios remains a significant challenge. Computational argumentation (CA), modeling human argumentation processes, is a field notably impacted by these challenges because complex annotation schemes and high annotation costs naturally lead to resources barely covering the multiplicity of available text sources and topics. Due to this data scarcity, generalization to data from uncovered covariant distributions is a common challenge for CA tasks like stance detection or argument classification. This work systematically assesses LMs' capabilities for such OOD scenarios. While previous work targets specific OOD types like topic shifts or OOD uniformly, we address three prevalent OOD scenarios in CA: topic shift, domain shift, and language shift. Our findings challenge the previously asserted general superiority of in-context learning (ICL) for OOD. We find that the efficacy of such learning paradigms varies with the type of OOD. Specifically, while ICL excels for domain shifts, prompt-based fine-tuning surpasses for topic shifts. To sum up, we navigate the heterogeneity of OOD scenarios in CA and empirically underscore the potential of base-sized LMs in overcoming these challenges.
翻訳日:2024-02-19 20:33:33 公開日:2024-02-16
# ニュース要約におけるジェンダーバイアス:尺度,落とし穴,コーパス

Gender Bias in News Summarization: Measures, Pitfalls and Corpora ( http://arxiv.org/abs/2309.08047v2 )

ライセンス: Link先を確認
Julius Steen, Katja Markert(参考訳) 要約は、大言語モデル(llm)の重要な応用である。 要約モデルのこれまでの評価は、コンテンツの選択、忠実性、文法性、一貫性に重点を置いてきた。 しかし,llmが有害な社会バイアスを再現し,強化することが知られている。 これらのバイアスは、要約のような比較的制約された設定でモデル出力に影響を与えるか? この質問に答えるために、我々はまず、実運用モデルとともに、要約モデルにおけるバイアスされた振る舞いに関する多くの定義を導入し、導入する。 入力文書に固有のバイアスが要約にバイアス分析を組み込むことができることを見出し,注意深く分類された属性を持つ入力文書を生成する手法を提案する。 これにより、リアルな入力文書で作業しながら、制御された環境で要約動作を研究できる。 最後に,目的要約モデルと汎用チャットモデルの両方から生成した英語要約の性別バイアスをケーススタディとして測定する。 単一の文書要約におけるコンテンツ選択は、性別バイアスの影響を受けないが、幻覚は要約における下流バイアスの証拠を示す。

Summarization is an important application of large language models (LLMs). Most previous evaluation of summarization models has focused on their performance in content selection, faithfulness, grammaticality and coherence. However, it is well known that LLMs reproduce and reinforce harmful social biases. This raises the question: Do these biases affect model outputs in a relatively constrained setting like summarization? To help answer this question, we first motivate and introduce a number of definitions for biased behaviours in summarization models, along with practical operationalizations. Since we find that biases inherent to input documents can confound bias analysis in summaries, we propose a method to generate input documents with carefully controlled demographic attributes. This allows us to study summarizer behavior in a controlled setting, while still working with realistic input documents. Finally, we measure gender bias in English summaries generated by both purpose-built summarization models and general purpose chat models as a case study. We find content selection in single document summarization to be largely unaffected by gender bias, while hallucinations exhibit evidence of downstream biases in summarization.
翻訳日:2024-02-19 20:33:11 公開日:2024-02-16
# 古典量子ハイブリッドモデル

Classical-Quantum Hybrid Models ( http://arxiv.org/abs/2309.05014v3 )

ライセンス: Link先を確認
Daniel R. Terno(参考訳) ハイブリッド古典量子モデル(Hybrid classical-quantum model)は、ある種の自由度が古典的に扱われるシステムの時間進化を研究する計算スキームである。 まず,これらのモデルに対するモチベーションを提示し,満たさなければならない要件を概説し,その開発に説明を与える。 次に, 様々な非相対論的スキームとその関連する制約について, 特に可逆力学に着目して検討する。

Hybrid classical-quantum models are computational schemes that investigate the time evolution of systems, where some degrees of freedom are treated classically, while others are described quantum-mechanically. First, we present the motivation for such models, outline the requirements they must satisfy, and provide explanations for their development. Then we review various popular non-relativistic schemes and their associated limitations, with a particular emphasis on reversible dynamics.
翻訳日:2024-02-19 20:32:57 公開日:2024-02-16
# テンパレート指数測度を用いた最適輸送

Optimal Transport with Tempered Exponential Measures ( http://arxiv.org/abs/2309.04015v3 )

ライセンス: Link先を確認
Ehsan Amid, Frank Nielsen, Richard Nock, and Manfred K. Warmuth(参考訳) 最適輸送の分野では、2つの顕著なサブフィールドが向かい合っている。 (i)未正規化最適輸送 "\`a-la-kantorovich" は極めて疎い計画をもたらすが、スケール性に乏しいアルゴリズムである。 (ii)エントロピーレギュラライズド最適輸送 "\`a-la-sinkhorn-cuturi" は近似近似アルゴリズムを持つが、最大にスパースな計画に繋がる。 本稿では、間接測度正規化を伴う指数族を一般化したテンポ指数測度への後者の拡張が、非常に高速な近似アルゴリズムと空間性の両方で非常に便利な中間層に到達し、空間性パターンまで制御されていることを示す。 さらに,我々の定式化は,不均衡な最適輸送問題設定に自然に適合する。

In the field of optimal transport, two prominent subfields face each other: (i) unregularized optimal transport, "\`a-la-Kantorovich", which leads to extremely sparse plans but with algorithms that scale poorly, and (ii) entropic-regularized optimal transport, "\`a-la-Sinkhorn-Cuturi", which gets near-linear approximation algorithms but leads to maximally un-sparse plans. In this paper, we show that an extension of the latter to tempered exponential measures, a generalization of exponential families with indirect measure normalization, gets to a very convenient middle ground, with both very fast approximation algorithms and sparsity, which is under control up to sparsity patterns. In addition, our formulation fits naturally in the unbalanced optimal transport problem setting.
翻訳日:2024-02-19 20:32:48 公開日:2024-02-16
# Bi$_2$Se$_3$ナノシートのトポロジー

Topology of Bi$_2$Se$_3$ nanosheets ( http://arxiv.org/abs/2309.02792v4 )

ライセンス: Link先を確認
Lucas Maisel Licer\'an, Sebastiaan Koerhuis, Daniel Vanmaekelbergh, Henk Stoof(参考訳) 近年, トポロジカル絶縁体Bi$_2$Se$_3$の2次元コロイドナノ結晶の量子スピンホールエッジチャネルが直接観測されている。 本研究は, 従来, 薄いナノシートを記述するために用いられてきた4バンド有効モデルを再考する。 3次元の $\boldsymbol{k} \boldsymbol{k} \boldsymbol{p}$ モデルから派生したもので、物質が小さな厚さのために隙間となる$\Gamma$ 点における上下電子状態を記述する。 しかし、3次元理論から直接導かれる表面状態の4バンドモデルだけでは、いくつかの4重層からなる薄膜の記述には不適切であり、また、かなりの範囲の厚さで不正確な位相不変量が得られることも判明した。 この制限に対処するために、曲面状態に加えて、フェルミ準位に最も近いバルク状態の集合も組み込む8バンドモデルを提案する。 8バンドモデルは実験的な観測のほとんどを捉えているだけでなく、厚さの異なる薄膜における$\mathbb{z}_{2}$の以前の第一原理計算とも一致している。 さらに,細いBi$_2$Se$_3$ナノシートのトポロジ特性は,表面状およびバルク状キャラクタリゼーションのバンド間の相互作用の結果現れることを示した。 具体的には、4バンドモデルの状況とは対照的に、8バンドモデルの面状バンドは、追加のバルク状バンドの存在により可逆性があるため、位相的に非自明である。

Recently, the quantum spin-Hall edge channels of two-dimensional colloidal nanocrystals of the topological insulator Bi$_2$Se$_3$ were observed directly. Motivated by this development, we reconsider the four-band effective model which has been traditionally employed in the past to describe thin nanosheets of this material. Derived from a three-dimensional $\boldsymbol{k} \boldsymbol{\cdot} \boldsymbol{p}$ model, it physically describes the top and bottom electronic surface states at the $\Gamma$ point that become gapped due to the material's small thickness. However, we find that the four-band model for the surface states alone, as derived directly from the three-dimensional theory, is inadequate for the description of thin films of a few quintuple layers and even yields an incorrect topological invariant within a significant range of thicknesses. To address this limitation we propose an eight-band model which, in addition to the surface states, also incorporates the set of bulk states closest to the Fermi level. We find that the eight-band model not only captures most of the experimental observations, but also agrees with previous first-principles calculations of the $\mathbb{Z}_{2}$ invariant in thin films of varying thickness. Moreover, we demonstrate that the topological properties of thin Bi$_2$Se$_3$ nanosheets emerge as a result of an interplay between bands of surface-like and bulk-like character. Specifically, contrary to the situation in the four-band model, the surface-like bands of the eight-band model are topologically nontrivial due to a band inversion enabled by the presence of the additional bulk-like bands.
翻訳日:2024-02-19 20:32:33 公開日:2024-02-16
# オープンドメイン科学仮説発見のための大規模言語モデル

Large Language Models for Automated Open-domain Scientific Hypotheses Discovery ( http://arxiv.org/abs/2309.02726v2 )

ライセンス: Link先を確認
Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, Erik Cambria(参考訳) 仮説的帰納は、科学者が世界を観察し、それらの観察を説明する仮説を提案しようとするときに、主要な推論タイプとして認識される。 過去の仮説的帰納法の研究は、(1)データセットにおける観察的注釈は手動で選択した文(近接ドメイン設定で記述)であり、(2)基礎的真理仮説は、ほとんど常識的な知識であり、課題の難易度を低下させる。 本稿では,最近の50の社会科学出版物からなる社会科学学術的仮説発見のための最初のnlpデータセットと,研究仮説を50の論文で開発可能な十分な情報を含む生のウェブコーパスを提案することで,これらの課題に取り組む。 最後のゴールは、生のウェブコーパスの山だけで、有効で斬新で有用な科学的仮説を自動的に生成するシステムを作ることです。 以前の設定とは異なり、新しいデータセットは(1)観察としてopen-domain data(raw web corpus)を使用する必要があり、(2)人間にさらに新しい仮説を提案する。 タスク用にマルチモジュールフレームワークが開発され、ベースフレームワークのパフォーマンス向上を実証的に示す3つのフィードバックメカニズムが開発されている。 最後に,本フレームワークは,gpt-4に基づく評価と専門家による評価の両方において優れた性能を示す。我々の知る限りでは,llmが「文学に存在しない」かつ「現実を反映する」科学的仮説を生成することができることを示す最初の研究である。

Hypothetical induction is recognized as the main reasoning type when scientists make observations about the world and try to propose hypotheses to explain those observations. Past research on hypothetical induction is under a constrained setting: (1) the observation annotations in the dataset are carefully manually handpicked sentences (resulting in a close-domain setting); and (2) the ground truth hypotheses are mostly commonsense knowledge, making the task less challenging. In this work, we tackle these problems by proposing the first NLP dataset for social science academic hypotheses discovery, consisting of 50 recent top social science publications; and a raw web corpus that contains enough information to make it possible to develop all the research hypotheses in the 50 papers. The final goal is to create systems that automatically generate valid, novel, and helpful scientific hypotheses, given only a pile of raw web corpus. Different from the previous settings, the new dataset requires (1) using open-domain data (raw web corpus) as observations; and (2) proposing hypotheses even new to humanity. A multi-module framework is developed for the task, as well as three different feedback mechanisms that empirically show performance gain over the base framework. Finally, our framework exhibits superior performance in terms of both GPT-4 based evaluation and expert-based evaluation.To the best of our knowledge, this is the first work showing that LLMs are able to generate novel ("not existing in the literature") and valid ("reflecting reality") scientific hypotheses.
翻訳日:2024-02-19 20:31:34 公開日:2024-02-16
# 長期広告記憶可能性:記憶可能な広告の理解と生成

Long-Term Ad Memorability: Understanding and Generating Memorable Ads ( http://arxiv.org/abs/2309.00378v3 )

ライセンス: Link先を確認
Harini S I, Somesh Singh, Yaman K Singla, Aanisha Bhattacharyya, Veeky Baths, Changyou Chen, Rajiv Ratn Shah, Balaji Krishnamurthy(参考訳) マーケターは広告に何十億ドルも費やすが、どうなってしまうのか? 購入時に、顧客が広告を見たブランドを認識できなければ、広告に費やされたお金は本質的に無駄になる。 マーケティングの重要性にもかかわらず、これまでML文学における広告の記憶可能性に関する研究は行われていない。 過去の記憶可能性に関するすべての研究は、オブジェクトやアクションビデオのような特定のコンテンツの短期的なリコールについて行われた。 一方、広告業界は長期的な記憶力だけを気にしており、広告はほとんど常に非常にマルチモーダルである。 そこで,第1回記憶可能性データセットLAMDBAを公開し,参加者1749名と276ブランドを対象とする2205件の広告を作成した。 さまざまな参加者のサブグループと広告タイプで統計的テストを行うと、広告を記憶しやすいものにする多くの興味深い知見が得られます。例えば、広告を素早く移動する広告は、遅いシーンを持つ広告よりも記憶に残る。 次に,Henryという新しいモデルを提案し,すべての顕著な文献記憶可能性データセットに対して,最先端のパフォーマンスを実現するコンテンツの記憶可能性を予測する。 Henry氏は、目に見えないデータセットで0ショットでより良い結果が得られるような強力な一般化性能を示している。 最後に、記憶可能な広告生成を意図して、自動注釈付きデータを利用して高品質な記憶可能な広告生成モデルを構築するスケーラブルな方法を提案する。 当社のアプローチであるSEED(Self rEwarding mEmorability Modeling)は,LAMBDAをシードデータとしてトレーニングした言語モデルから始まり,LLMを段階的にトレーニングして,より記憶に残る広告を生成する。 生成した広告は、オリジナルの広告よりも記憶力スコアが44\%高いことを示す。 さらに,500万件の広告と自動アサインされた記憶可能性スコアからなる大規模広告データセットであるUltraLAMBDAをリリースする。

Marketers spend billions of dollars on advertisements, but to what end? At purchase time, if customers cannot recognize the brand for which they saw an ad, the money spent on the ad is essentially wasted. Despite its importance in marketing, until now, there has been no study on the memorability of ads in the ML literature. All previous memorability studies have been conducted on short-term recall on specific content types like object and action videos. On the other hand, the advertising industry only cares about long-term memorability, and ads are almost always highly multimodal. Therefore, we release the first memorability dataset, LAMDBA, consisting of 1749 participants and 2205 ads covering 276 brands. Running statistical tests over different participant subpopulations and ad types, we find many interesting insights into what makes an ad memorable, e.g., fast-moving ads are more memorable than those with slower scenes; people who use ad-blockers remember a lower number of ads than those who don't. Next, we present a novel model, Henry, to predict the memorability of a content which achieves state-of-the-art performance across all prominent literature memorability datasets. Henry shows strong generalization performance with better results in 0-shot on unseen datasets. Finally, with the intent of memorable ad generation, we present a scalable method to build a high-quality memorable ad generation model by leveraging automatically annotated data. Our approach, SEED (Self rEwarding mEmorability Modeling), starts with a language model trained on LAMBDA as seed data and progressively trains the LLM to generate more memorable ads. We show that the generated advertisements have 44\% higher memorability scores than the original ads. Further, we release a large-scale ad dataset, UltraLAMBDA, consisting of 5 million ads with their automatically-assigned memorability scores.
翻訳日:2024-02-19 20:30:35 公開日:2024-02-16
# 汚染データを用いた多変量時系列異常検出

Multivariate Time-Series Anomaly Detection with Contaminated Data ( http://arxiv.org/abs/2308.12563v2 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho and Narges Armanfard(参考訳) 主流の教師なし異常検出アルゴリズムは、しばしば学術データセットで優れているが、クリーンなトレーニングデータを含む制御された実験条件のため、実際の性能は制限されている。 実用的な異常検出における一般的な問題であるノイズによるトレーニングの課題は、しばしば見過ごされている。 先駆的な試みとして,感覚時系列異常検出(TSAD)におけるラベルレベルのノイズの領域について検討した。 本稿では,トレーニングデータを異常で汚染した場合に,新しいかつ実用的な非教師付きTSADを提案する。 TSAD-Cと呼ばれるアプローチでは、トレーニングフェーズ中に異常ラベルにアクセスできない。 TSAD-Cは、トレーニングデータに存在する異常(いわゆるノイズ)を補正する除染器と、純粋な正規データのサロゲートとみなすことができる除染データ内の長期的な内部および変数間の依存関係をキャプチャする長距離可変依存性モデリングモジュールと、あらゆるタイプの異常を検知する異常スコーリングモジュールの3つのモジュールを含む。 3つの信頼性データセットで実施した広範囲な実験は、我々のアプローチが既存の方法論を超えることを決定的に証明し、この分野における新しい最先端性能を確立した。

Mainstream unsupervised anomaly detection algorithms often excel in academic datasets, yet their real-world performance is restricted due to the controlled experimental conditions involving clean training data. Addressing the challenge of training with noise, a prevalent issue in practical anomaly detection, is frequently overlooked. In a pioneering endeavor, this study delves into the realm of label-level noise within sensory time-series anomaly detection (TSAD). This paper presents a novel and practical end-to-end unsupervised TSAD when the training data are contaminated with anomalies. The introduced approach, called TSAD-C, is devoid of access to abnormality labels during the training phase. TSAD-C encompasses three modules: a Decontaminator to rectify the abnormalities (aka noise) present in the training data, a Long-range Variable Dependency Modeling module to capture both long-term intra- and inter-variable dependencies within the decontaminated data that can be considered as a surrogate of the pure normal data, and an Anomaly Scoring module to detect anomalies from all types. Our extensive experiments conducted on three reliable datasets conclusively demonstrate that our approach surpasses existing methodologies, thus establishing a new state-of-the-art performance in the field.
翻訳日:2024-02-19 20:30:04 公開日:2024-02-16
# CMD: コンテキスト対応モデル自己組織化のためのフレームワーク

CMD: a framework for Context-aware Model self-Detoxification ( http://arxiv.org/abs/2308.08295v2 )

ライセンス: Link先を確認
Zecheng Tang, Keyan Zhou, Juntao Li, Yuyang Ding, Pinzheng Wang, Bowen Yan, Min Zhang(参考訳) テキストデトキシフィケーションは、有害なコンテンツを生成する言語モデルのリスクを最小化することを目的としている。 モデル出力を直接拘束する既存の解毒方法や、非毒性コーパス上でのモデルトレーニングでは、解毒効果と生成品質の適切なバランスが得られない。 この問題は、言語モデルが文脈と密接に一致する出力を生成するように設計されているのに対して、デトキシフィケーションメソッドは文脈から意味的に逸脱しても出力の安全性を確保するために努力しているため、文脈によって課される制約の無視に起因している。 この観点から、まずコンテキストをデトックス化し、次に安全なコンテキストに沿って言語モデルを生成させるという、コンテキストとデトックス化プロセスの両方に注意を払うコンテキスト対応モデルセルフデトックス化~(CMD)フレームワークを導入する。 具体的には、CMDフレームワークには、言語モデルを使用してデータを合成し、これらのデータをトレーニングに応用する2つのフェーズがある。 また、負の毒性サンプルからモデル生成を促進する有毒な対照的な損失も導入する。 各種 LLM 実験により,MSD フレームワークの有効性が検証された。

Text detoxification aims to minimize the risk of language models producing toxic content. Existing detoxification methods of directly constraining the model output or further training the model on the non-toxic corpus fail to achieve a decent balance between detoxification effectiveness and generation quality. This issue stems from the neglect of constrain imposed by the context since language models are designed to generate output that closely matches the context while detoxification methods endeavor to ensure the safety of the output even if it semantically deviates from the context. In view of this, we introduce a Context-aware Model self-Detoxification~(CMD) framework that pays attention to both the context and the detoxification process, i.e., first detoxifying the context and then making the language model generate along the safe context. Specifically, CMD framework involves two phases: utilizing language models to synthesize data and applying these data for training. We also introduce a toxic contrastive loss that encourages the model generation away from the negative toxic samples. Experiments on various LLMs have verified the effectiveness of our MSD framework, which can yield the best performance compared to baselines.
翻訳日:2024-02-19 20:29:29 公開日:2024-02-16
# Codebook Knowledge, NLI, ChatGPTによる政治ゼロショット関係分類の合成

Synthesizing Political Zero-Shot Relation Classification via Codebook Knowledge, NLI, and ChatGPT ( http://arxiv.org/abs/2308.07876v2 )

ライセンス: Link先を確認
Yibo Hu, Erick Skorupa Parolin, Latifur Khan, Patrick T. Brandt, Javier Osorio, Vito J. D'Orazio(参考訳) 広範な注釈なしで、進化するイベントオントロジーの中で政治的関係を正確に分類できるか? 本研究では,既存のアノテーションコードブックから知識のみを活用できるゼロショット学習手法について検討した。 我々は,高度なChatGPT(GPT-3.5/4)と自然言語推論(NLI)に基づくZSPモデルの性能を評価する。 ChatGPTはコードブックのラベル要約をプロンプトとして使用し、ZSPはタスクをコンテキスト、イベントモード、クラス曖昧化に分解してタスク固有の仮説を洗練させる。 この分解は、スキーマ変更に対する解釈性、効率性、適応性を高める。 実験の結果、ChatGPTの強みと限界が明らかとなり、重要な点として、ZSPは辞書ベースの手法といくつかの教師付きモデルに対する競争力に優れていた。 これらの知見は、事象記録の検証とオントロジーの進展に対するZSPの価値を裏付けるものである。 本研究は、トランスファー学習と既存の専門知識を活用し、この分野の研究効率と拡張性を高める効果を強調する。

Can we accurately classify political relations within evolving event ontologies without extensive annotations? Our study investigates zero-shot learning methods that utilize only expert knowledge from existing annotation codebook. We assess the performance of advanced ChatGPT (GPT-3.5/4) and a natural language inference (NLI)-based model called ZSP. ChatGPT uses codebooks' label summaries as prompts, whereas ZSP breaks down the classification task into context, event mode, and class disambiguation to refine task-specific hypotheses. This decomposition enhances interpretability, efficiency, and adaptability to schema changes. The experiments reveal ChatGPT's strengths and limitations, and crucially, ZSP's outperformance of dictionary-based methods and its competitive edge over some supervised models. These findings affirm the value of ZSP for validating event records and advancing ontology development. Our study underscores the efficacy of leveraging transfer learning and existing expertise to enhance research efficiency and scalability in this area.
翻訳日:2024-02-19 20:29:07 公開日:2024-02-16
# InstructCoder: コード編集のための言語モデルを強化する

InstructCoder: Empowering Language Models for Code Editing ( http://arxiv.org/abs/2310.20329v2 )

ライセンス: Link先を確認
Kaixin Li, Qisheng Hu, Xu Zhao, Hui Chen, Yuxi Xie, Tiedong Liu, Qizhe Xie, Junxian He(参考訳) コード編集は、開発者が日々扱う様々な実用的なタスクを含んでいる。 その妥当性と実用性にもかかわらず、自動コード編集は、データ不足による深層学習モデルの進化において、まだ未熟な領域である。 本稿では,ユーザ指示に基づくコード編集における大規模言語モデル(llm)の利用について検討する。 editevalと呼ばれる新しい人書き実行ベースのベンチマークで評価した結果、現在のモデルが命令を満たすのに苦労していることが分かりました。 InstructCoderは、汎用コード編集にLLMを適用するために設計された最初のインストラクションチューニングデータセットであり、コメント挿入、コード最適化、コードリファクタリングなどの多種多様なコード編集タスクを含んでいる。 114,000以上の命令入力出力トリプレットで構成され、複数の異なるコード編集シナリオをカバーする。 収集プロセスは、github pythonリポジトリからソースされたフィルタされたコミットデータから始まります。 その後、データセットは反復プロセスを通じて体系的に拡張され、シードタスクと生成タスクの両方を使用して、より多くのデータに対してchatgptを促す。 instructcoderで微調整されたオープンソースのllmは、コード編集の精度を著しく向上させ、高度なプロプライエタリllmに匹敵する優れたコード編集性能を示す。 データセットとソースコードはhttps://github.com/qishenghu/codeinstructで公開されている。

Code editing encompasses a variety of pragmatic tasks that developers deal with daily. Despite its relevance and practical usefulness, automatic code editing remains an underexplored area in the evolution of deep learning models, partly due to data scarcity. In this work, we explore the use of Large Language Models (LLMs) to edit code based on user instructions. Evaluated on a novel human-written execution-based benchmark dubbed EditEval, we found current models often struggle to fulfill the instructions. In light of this, we contribute InstructCoder, the first instruction-tuning dataset designed to adapt LLMs for general-purpose code editing, containing high-diversity code-editing tasks such as comment insertion, code optimization, and code refactoring. It consists of over 114,000 instruction-input-output triplets and covers multiple distinct code editing scenarios. The collection process starts with filtered commit data sourced from GitHub Python repositories as seeds. Subsequently, the dataset is systematically expanded through an iterative process, where both seed and generated tasks are used to prompt ChatGPT for more data. Our findings reveal that open-source LLMs fine-tuned on InstructCoder can significantly enhance the accuracy of code edits, exhibiting superior code-editing performance matching advanced proprietary LLMs. The datasets and the source code are publicly available at https://github.com/qishenghu/CodeInstruct.
翻訳日:2024-02-19 20:22:09 公開日:2024-02-16
# OpsEval: 大規模言語モデルのための総合的なIT運用ベンチマークスイート

OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models ( http://arxiv.org/abs/2310.07637v3 )

ライセンス: Link先を確認
Yuhe Liu, Changhua Pei, Longlong Xu, Bohan Chen, Mingze Sun, Zhirui Zhang, Yongqian Sun, Shenglin Zhang, Kun Wang, Haiming Zhang, Jianhui Li, Gaogang Xie, Xidao Wen, Xiaohui Nie, Minghua Ma, Dan Pei(参考訳) 情報技術(IT)運用(Ops)、特にIT運用のための人工知能(AIOps)は、既存の情報システムの秩序的で安定した運用を維持するための保証である。 Gartnerの予測によると、自動化ITオペレーションにおけるAIテクノロジの利用は新しいトレンドになっている。 NLP関連のタスクで顕著な能力を発揮した大規模言語モデル(LLM)は、障害の根本原因分析、オペレーションの生成とメンテナンススクリプトの生成、アラート情報の要約など、AIOpsの分野で大きな可能性を示している。 しかし、Opsタスクにおける現在のLLMのパフォーマンスはまだ決定されていない。 本稿では,LLM向けに設計されたタスク指向OpsベンチマークであるOpsEvalを提案する。 OpsEvalは、さまざまな能力レベルの重要なシナリオにおいて、LLMの習熟度を初めて評価する。 ベンチマークには、英語と中国語の7184のマルチチョイス質問と1736のqwering(qa)形式が含まれている。 本研究では,現在主流となっている大規模言語モデルの総合的な性能評価を行い,様々なllm手法が運用性能に与える影響を示し,モデル定量化,qa評価,幻覚的問題など様々な話題に関連する知見について考察した。 評価の信頼性を確保するため、何十人ものドメイン専門家を招き、手動で質問をレビューします。 同時に、テストQAの20%をオープンソースとして公開し、現在の研究者がOpsLLMモデルの事前評価を行うのを支援しています。 残りの80%は公開されていないが、テストセットのリークの問題を除去するために使用される。 さらに、私たちはオンラインのリーダーボードを構築しました。これはリアルタイムで更新され、更新を続けます。 私たちのデータセットとleaderboardはどちらも公開されています。

Information Technology (IT) Operations (Ops), particularly Artificial Intelligence for IT Operations (AIOps), is the guarantee for maintaining the orderly and stable operation of existing information systems. According to Gartner's prediction, the use of AI technology for automated IT operations has become a new trend. Large language models (LLMs) that have exhibited remarkable capabilities in NLP-related tasks, are showing great potential in the field of AIOps, such as in aspects of root cause analysis of failures, generation of operations and maintenance scripts, and summarizing of alert information. Nevertheless, the performance of current LLMs in Ops tasks is yet to be determined. In this paper, we present OpsEval, a comprehensive task-oriented Ops benchmark designed for LLMs. For the first time, OpsEval assesses LLMs' proficiency in various crucial scenarios at different ability levels. The benchmark includes 7184 multi-choice questions and 1736 question-answering (QA) formats in English and Chinese. By conducting a comprehensive performance evaluation of the current leading large language models, we show how various LLM techniques can affect the performance of Ops, and discussed findings related to various topics, including model quantification, QA evaluation, and hallucination issues. To ensure the credibility of our evaluation, we invite dozens of domain experts to manually review our questions. At the same time, we have open-sourced 20% of the test QA to assist current researchers in preliminary evaluations of their OpsLLM models. The remaining 80% of the data, which is not disclosed, is used to eliminate the issue of the test set leakage. Additionally, we have constructed an online leaderboard that is updated in real-time and will continue to be updated, ensuring that any newly emerging LLMs will be evaluated promptly. Both our dataset and leaderboard have been made public.
翻訳日:2024-02-19 20:21:46 公開日:2024-02-16
# スムースに気をつけて:ラベルのスムースティングはプライバシシールドになるだけでなく、モデル反転攻撃のための触媒にもなる

Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks ( http://arxiv.org/abs/2310.06549v2 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) ラベル平滑化 -- ハードラベルの代わりにソフト化ラベルを使用する -- は、ディープラーニングで広く採用されている正規化手法であり、一般化やキャリブレーションの強化など、さまざまなメリットがある。 しかし、モデルプライバシを保存することの意味は、まだ解明されていない。 このギャップを埋めるために、分類器に符号化された知識を利用してクラス表現サンプルを生成し、トレーニングデータに関する機密情報を推測することを目的としたモデル反転攻撃(MIAs)に対するラベルスムーシングの影響を検討する。 広範な分析を通じて,従来のラベル平滑化がmiasを助長し,モデルのプライバシリークを増加させることが明らかとなった。 さらに、ネガティブな要因による平滑化はこの傾向に対処し、クラス関連情報の抽出を阻害し、プライバシーの保護を阻害し、最先端の防衛を破ることを明らかにする。 これにより、MIAに対するモデルレジリエンスを強化するための実用的で強力な新しい方法が確立される。

Label smoothing -- using softened labels instead of hard ones -- is a widely adopted regularization method for deep learning, showing diverse benefits such as enhanced generalization and calibration. Its implications for preserving model privacy, however, have remained unexplored. To fill this gap, we investigate the impact of label smoothing on model inversion attacks (MIAs), which aim to generate class-representative samples by exploiting the knowledge encoded in a classifier, thereby inferring sensitive information about its training data. Through extensive analyses, we uncover that traditional label smoothing fosters MIAs, thereby increasing a model's privacy leakage. Even more, we reveal that smoothing with negative factors counters this trend, impeding the extraction of class-related information and leading to privacy preservation, beating state-of-the-art defenses. This establishes a practical and powerful novel way for enhancing model resilience against MIAs.
翻訳日:2024-02-19 20:21:19 公開日:2024-02-16
# denoising diffusion probabilistic modelによる生成量子機械学習

Generative quantum machine learning via denoising diffusion probabilistic models ( http://arxiv.org/abs/2310.05866v4 )

ライセンス: Link先を確認
Bingzhi Zhang, Peng Xu, Xiaohui Chen and Quntao Zhuang(参考訳) 深層生成モデルは、コンピュータビジョン、テキスト生成、大規模言語モデルにとって鍵となる技術である。 denoising diffusion probabilistic models (ddpms) は、多くのコンピュータビジョンタスクで多様で高品質なサンプルを生成する能力と、柔軟なモデルアーキテクチャと比較的単純なトレーニングスキームを組み込むことによって、最近注目を集めている。 量子生成モデルは、絡み合いと重ね合わせによって強化され、古典的および量子データの学習に新たな洞察をもたらした。 量子化拡散確率モデル(QuDDPM)を提案し,量子データの学習を効率的に学習できるようにする。 quddpmは、表現性を保証するのに十分な回路層を採用する一方、ターゲット分布とノイズの補間として複数の中間トレーニングタスクを導入し、不毛高原を避け、効率的なトレーニングを保証する。 学習誤差の境界を提供し,量子ノイズモデル,量子多体位相,量子データの位相構造を学習する上でのquddpmの能力を示す。 この結果は、汎用的で効率的な量子生成学習のパラダイムを提供する。

Deep generative models are key-enabling technology to computer vision, text generation, and large language models. Denoising diffusion probabilistic models (DDPMs) have recently gained much attention due to their ability to generate diverse and high-quality samples in many computer vision tasks, as well as to incorporate flexible model architectures and a relatively simple training scheme. Quantum generative models, empowered by entanglement and superposition, have brought new insight to learning classical and quantum data. Inspired by the classical counterpart, we propose the quantum denoising diffusion probabilistic model (QuDDPM) to enable efficiently trainable generative learning of quantum data. QuDDPM adopts sufficient layers of circuits to guarantee expressivity, while it introduces multiple intermediate training tasks as interpolation between the target distribution and noise to avoid barren plateau and guarantee efficient training. We provide bounds on the learning error and demonstrate QuDDPM's capability in learning correlated quantum noise model, quantum many-body phases, and topological structure of quantum data. The results provide a paradigm for versatile and efficient quantum generative learning.
翻訳日:2024-02-19 20:21:00 公開日:2024-02-16
# 認識を表現した解釈可能なセミオティックスネットワーク

Interpretable Semiotics Networks Representing Awareness ( http://arxiv.org/abs/2310.05212v3 )

ライセンス: Link先を確認
David Kupeev and Eyal Nitcany(参考訳) 人間は物体を毎日知覚し、様々なチャンネルを使って知覚を伝える。 本稿では,物体の知覚とその表現を追跡・シミュレートする計算モデルについて述べる。 内部表現("observed")と"seen"("seen")の2つの重要な要素を記述し、親しみやすいコンピュータビジョンの概念(エンコーディングとデコード)に関連付ける。 これらの要素が結合してセミオティックスネットワークを形成し、物体知覚と人間のコミュニケーションの認識をシミュレートする。 現在、ほとんどのニューラルネットワークは解釈できない。 一方、私たちのモデルは、この制限を克服します。 実験はモデルの可視性を実証する。 人による物体知覚モデルにより,ネットワークによる物体知覚を定義することができる。 本稿では,ベースライン分類器と付加層を含む新たなネットワークを構築することにより,画像ベースライン分類器の例を示す。 この層はネットワーク全体に「知覚」された画像を生成し、知覚化された画像分類器に変換する。 ネットワーク内では,アセンブルやランダム化時の分類タスクにおいて,内部画像表現がより効率的になる。 本実験では,MNISTトレーニングデータベースのベースライン分類器の性能を,制限された画像数で比較した。 我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。

Humans perceive objects daily and communicate their perceptions using various channels. Here, we describe a computational model that tracks and simulates objects' perception and their representations as they are conveyed in communication. We describe two key components of our internal representation ("observed" and "seen") and relate them to familiar computer vision notions (encoding and decoding). These elements are joined together to form semiotics networks, which simulate awareness in object perception and human communication. Nowadays, most neural networks are uninterpretable. On the other hand, our model overcomes this limitation. The experiments demonstrates the visibility of the model. Our model of object perception by a person allows us to define object perception by a network. We demonstrate this with an example of an image baseline classifier by constructing a new network that includes the baseline classifier and an additional layer. This layer produces the images "perceived" by the entire network, transforming it into a perceptualized image classifier. Within our network, the internal image representations become more efficient for classification tasks when they are assembled and randomized. In our experiments, the perceptualized network outperformed the baseline classifier on MNIST training databases consisting of a restricted number of images. Our model is not limited to persons and can be applied to any system featuring a loop involving the processing from "internal" to "external" representations.
翻訳日:2024-02-19 20:20:41 公開日:2024-02-16
# Keep Keep: 学習したタスクの可塑性を最大化するタスク関連部分空間の同定

Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks ( http://arxiv.org/abs/2310.04741v5 )

ライセンス: Link先を確認
Daniel Anthes and Sushrut Thorat and Peter K\"onig and Tim C. Kietzmann(参考訳) 連続学習アルゴリズムは、事前情報を保存しながら新しい知識を得ようとする。 これらのアルゴリズムは、しばしば安定性を強調し、新しいタスクを学習する際のネットワーク更新を制限する。 多くの場合、そのような制約はモデルの可塑性、すなわち新しいタスクの要求に適応するモデルの能力にコストがかかる。 しかし、すべては有害か? 本稿では、ニューラルネットワークにおけるアクティベーション空間を2つのサブスペースに分解できる、すなわち、変更が前のタスクに影響を及ぼす読み出し範囲と、変更が前のパフォーマンスを変えないヌル空間の2つに分解できる、という問題にアプローチする。 この手法を用いた実験の結果,すべてのアクティベーション変化が忘れることと関連しているわけではないことが判明した。 代わりに、タスクの読み出しで見える部分空間の唯一の変化は安定性を低下させるが、この部分空間の外の変化を制限することは可塑性の喪失にのみ関連付けられる。 様々な一般的なアルゴリズムを分析し、正規化に基づく手法が2つの空間を完全に解き放たず、その結果、必要以上に可塑性を制限していることを示す。 我々は,2つの部分空間で直接学習を操作できる線形モデルを調査し,活性化変化を安定性と可塑性に因果的に関連付けることにより,結果を拡大する。 階層的,非線形の場合については,関数的に関連する部分空間を深層非線形ネットワークの各層で推定し,これまでの知見を裏付ける近似を提示する。 この研究は、連続学習における安定性と塑性の背後にあるメカニズムに関する洞察を導き出す新しい手段を提供し、学習のための最大空間を許容しながら推論を安定化する将来の連続学習アルゴリズムの開発を導く診断ツールとして機能する。

Continual learning algorithms strive to acquire new knowledge while preserving prior information. Often, these algorithms emphasise stability and restrict network updates upon learning new tasks. In many cases, such restrictions come at a cost to the model's plasticity, i.e. the model's ability to adapt to the requirements of a new task. But is all change detrimental? Here, we approach this question by proposing that activation spaces in neural networks can be decomposed into two subspaces: a readout range in which change affects prior tasks and a null space in which change does not alter prior performance. Based on experiments with this novel technique, we show that, indeed, not all activation change is associated with forgetting. Instead, the only change in the subspace visible to the readout of a task can lead to decreased stability, while restricting change outside of this subspace is associated only with a loss of plasticity. Analysing various commonly used algorithms, we show that regularisation-based techniques do not fully disentangle the two spaces and, as a result, restrict plasticity more than need be. We expand our results by investigating a linear model in which we can manipulate learning in the two subspaces directly and thus causally link activation changes to stability and plasticity. For hierarchical, nonlinear cases, we present an approximation that enables us to estimate functionally relevant subspaces at every layer of a deep nonlinear network, corroborating our previous insights. Together, this work provides novel means to derive insights into the mechanisms behind stability and plasticity in continual learning and may serve as a diagnostic tool to guide developments of future continual learning algorithms that stabilise inference while allowing maximal space for learning.
翻訳日:2024-02-19 20:20:21 公開日:2024-02-16
# フェデレーションK平均クラスタリング

Federated K-means Clustering ( http://arxiv.org/abs/2310.01195v2 )

ライセンス: Link先を確認
Swier Garst and Marcel Reinders(参考訳) フェデレートドラーニング(Federated Learning)とは、データをプールすることなく、機械学習目的で分散データセットを使用することで、データのプライバシとオーナシップを向上するテクニックである。 制御FL研究はここ数年で大きく成長してきたが、教師なしFL手法はいまだに乏しい。 この研究はK平均クラスタリングを連合的に実装するアルゴリズムを導入し、センター間で異なる数のクラスタの課題に対処し、より分離しやすいデータセットに収束する。

Federated learning is a technique that enables the use of distributed datasets for machine learning purposes without requiring data to be pooled, thereby better preserving privacy and ownership of the data. While supervised FL research has grown substantially over the last years, unsupervised FL methods remain scarce. This work introduces an algorithm which implements K-means clustering in a federated manner, addressing the challenges of varying number of clusters between centers, as well as convergence on less separable datasets.
翻訳日:2024-02-19 20:19:32 公開日:2024-02-16
# Light Schr\"odinger Bridge

Light Schr\"odinger Bridge ( http://arxiv.org/abs/2310.01174v2 )

ライセンス: Link先を確認
Alexander Korotin, Nikita Gushchin, Evgeny Burnaev(参考訳) 計算シュロディンガーブリッジ(SB)の分野での最近の進歩にもかかわらず、既存のSBソルバは依然として重み付けされており、複数のニューラルネットワークの複雑な最適化が必要である。 クラスタリングにおける$k$-means法、分類におけるロジスティック回帰、離散的最適輸送におけるシンクホーンアルゴリズムのように、SBの単純なyet効果ベースラインの役割を果たす主解法は存在しないことが判明した。 この問題に対処し、高速で簡単なSB解法を提案する。 私たちの開発は、最近この分野に登場した2つのアイデアの賢い組み合わせです。 (a)和指数二次関数を持つシュロディンガーポテンシャルのパラメータ化と (b)エネルギー関数としてログシュレッディンガーポテンシャルを見ること。 これらのアイデアを組み合わせることで,軽量でシミュレーションフリーで理論的に正当化可能なsbソルバが,単純で簡単な最適化目標で実現できることを示す。 結果として、痛みを伴うハイパーパラメータ選択なしで、CPU上で数分で適度な次元でSBを解くことができる。 我々の光解法は密度推定に広く用いられているガウス混合モデルに似ている。 この類似性に着想を得て、光解法がSBの普遍近似であることを示す重要な理論的結果も証明した。 LightSBソルバのコードはhttps://github.com/ngushchin/LightSBにある。

Despite the recent advances in the field of computational Schrodinger Bridges (SB), most existing SB solvers are still heavy-weighted and require complex optimization of several neural networks. It turns out that there is no principal solver which plays the role of simple-yet-effective baseline for SB just like, e.g., $k$-means method in clustering, logistic regression in classification or Sinkhorn algorithm in discrete optimal transport. We address this issue and propose a novel fast and simple SB solver. Our development is a smart combination of two ideas which recently appeared in the field: (a) parameterization of the Schrodinger potentials with sum-exp quadratic functions and (b) viewing the log-Schrodinger potentials as the energy functions. We show that combined together these ideas yield a lightweight, simulation-free and theoretically justified SB solver with a simple straightforward optimization objective. As a result, it allows solving SB in moderate dimensions in a matter of minutes on CPU without a painful hyperparameter selection. Our light solver resembles the Gaussian mixture model which is widely used for density estimation. Inspired by this similarity, we also prove an important theoretical result showing that our light solver is a universal approximator of SBs. The code for the LightSB solver can be found at https://github.com/ngushchin/LightSB
翻訳日:2024-02-19 20:19:21 公開日:2024-02-16
# 圧縮llmは知識を忘れるか? 実践的意義のある実験研究

Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications ( http://arxiv.org/abs/2310.00867v3 )

ライセンス: Link先を確認
Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang Wang(参考訳) 大規模言語モデル(llm)の圧縮は、特に知識集約的なタスクにおいて、パフォーマンスを低下させる。 本研究は, LLMの固有知識と治療の可能性に, 圧縮がどう影響するかを考察する。 1つはllm圧縮後に忘れられた(または消去された)知識であり、それゆえ圧縮されたモデルを追加のパラメータでデータから(re)learnに置き換える必要がある。 広範な実験は2つの予想を検証するために行われる。 推論時間動的プロンプト(idp: inference-time dynamic prompting, 推論時間動的プロンプト, 推論時間動的プロンプト)と呼ばれる変種を導入することで、プロンプトのポテンシャルをさらに解き放つことができる。 実験結果から,loraのような古典的再学習法と比較して,ippの促進は圧縮後性能の回復に寄与するが,余分なパラメータサイズを21倍削減し,推論遅延を60%削減できることが示唆された。 そこで,本実験では,「知識の忘れ」に対する「知識のずれ」の予測を強く支持し,圧縮LDM性能を回復するための新しい効率的なメカニズムに光を当てた。 さらに,刺激モデルと再学習モデル間の注意とアクティベーションパターンの可視化と分析を行い,2つの異なるシステムでのパフォーマンス回復を実証した。

Compressing Large Language Models (LLMs) often leads to reduced performance, especially for knowledge-intensive tasks. In this work, we dive into how compression damages LLMs' inherent knowledge and the possible remedies. We start by proposing two conjectures on the nature of the damage: one is certain knowledge being forgotten (or erased) after LLM compression, hence necessitating the compressed model to (re)learn from data with additional parameters; the other presumes that knowledge is internally displaced and hence one requires merely "inference re-direction" with input-side augmentation such as prompting, to recover the knowledge-related performance. Extensive experiments are then designed to (in)validate the two conjectures. We observe the promise of prompting in comparison to model tuning; we further unlock prompting's potential by introducing a variant called Inference-time Dynamic Prompting (IDP), that can effectively increase prompt diversity without incurring any inference overhead. Our experiments consistently suggest that compared to the classical re-training alternatives such as LoRA, prompting with IDP leads to better or comparable post-compression performance recovery, while saving the extra parameter size by 21x and reducing inference latency by 60%. Our experiments hence strongly endorse the conjecture of "knowledge displaced" over "knowledge forgotten", and shed light on a new efficient mechanism to restore compressed LLM performance. We additionally visualize and analyze the different attention and activation patterns between prompted and re-trained models, demonstrating they achieve performance recovery in two different regimes.
翻訳日:2024-02-19 20:19:02 公開日:2024-02-16
# シミュレーションによるseq2seqモデルへの構造インダクティブバイアスの注入

Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation ( http://arxiv.org/abs/2310.00796v2 )

ライセンス: Link先を確認
Matthias Lindemann and Alexander Koller and Ivan Titov(参考訳) 強い帰納バイアスは、小さなデータから学習し、トレーニング分布外の一般化を支援する。 Transformersのような一般的なニューラルアーキテクチャは、Seq2seq NLPタスクの強い構造的帰納バイアスを独自に欠いている。 そのため、大量のテキストを事前学習した場合でも、トレーニング分布を超えた体系的な一般化、例えば、長い入力への外挿に苦労する。 合成データ上での構造変換をシミュレーションするために事前学習することにより,構造インダクティブバイアスをseq2seqモデルに効率的に注入する方法を示す。 具体的には,有限状態トランスデューサ(FST)に対する帰納バイアスを予め学習して,FSTをシミュレートすることでトランスフォーマに注入する。 実験により,提案手法が所望の帰納バイアスを与え,系統的一般化とfstライクなタスクに対するマイナショット学習の改善を実現した。 解析の結果, 微調整されたモデルが未知のfstの状態ダイナミクスを正確に捉え, シミュレーションプロセスが微調整モデルによって内部化されていることが示唆された。

Strong inductive biases enable learning from little data and help generalization outside of the training distribution. Popular neural architectures such as Transformers lack strong structural inductive biases for seq2seq NLP tasks on their own. Consequently, they struggle with systematic generalization beyond the training distribution, e.g. with extrapolating to longer inputs, even when pre-trained on large amounts of text. We show how a structural inductive bias can be efficiently injected into a seq2seq model by pre-training it to simulate structural transformations on synthetic data. Specifically, we inject an inductive bias towards Finite State Transducers (FSTs) into a Transformer by pre-training it to simulate FSTs given their descriptions. Our experiments show that our method imparts the desired inductive bias, resulting in improved systematic generalization and better few-shot learning for FST-like tasks. Our analysis shows that fine-tuned models accurately capture the state dynamics of the unseen underlying FSTs, suggesting that the simulation process is internalized by the fine-tuned model.
翻訳日:2024-02-19 20:18:32 公開日:2024-02-16
# ToRA:数学的問題解決のためのツール統合推論エージェント

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving ( http://arxiv.org/abs/2309.17452v3 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデルは様々な言語タスクにおいて大きな進歩を遂げてきたが、それでも複雑な数学に苦しむ。 本稿では,自然言語推論と外部ツール(例えば,計算ライブラリやシンボリックソルバ)をシームレスに統合することにより,言語の分析能力とツールの計算効率を両立させることにより,難解な数学的問題を解決するための一連のツール統合推論エージェントを提案する。 toraをトレーニングするために,数量データセットの対話的ツール利用トラジェクタをキュレーションし,アノテーションに模倣学習を適用し,モデルの推論行動をさらに洗練するための出力空間シェーピングを提案する。 結果として、toraモデルは、すべてのスケールで10の数学的推論データセットでオープンソースモデルを大きく上回り、平均で13%-19%の絶対的な改善が行われた。 特に、ToRA-7Bは競合レベルのデータセットMATHで44.6%に達し、最高のオープンソースモデルであるWizardMath-70Bを22%上回った。 また、TORA-Code-34BはMATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れており、GPT-4のプログラムでの問題解決と競合する。 さらに,数学的推論のためのツールインタラクションの利点と課題を総合的に分析し,今後の研究に有用な知見を提供する。

Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models' reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-Code-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4's CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.
翻訳日:2024-02-19 20:17:53 公開日:2024-02-16
# ユーザエクスペリエンス設計専門家による生成人工知能の認識

User Experience Design Professionals' Perceptions of Generative Artificial Intelligence ( http://arxiv.org/abs/2309.15237v2 )

ライセンス: Link先を確認
Jie Li, Hancheng Cao, Laura Lin, Youyang Hou, Ruihao Zhu, Abdallah El Ali(参考訳) クリエイティブなプロフェッショナルの中で、Generative Artificial Intelligence(GenAI)はその能力と予期せぬ結果に対する恐怖に対して興奮を呼んだ。 GenAIはユーザエクスペリエンスデザイン(UXD)の実践にどのように影響しますか。 さまざまな経験を持つ20人のuxデザイナ(スタートアップから大企業まで)にインタビューした。 彼らのプラクティスを特徴付けるために調査を行い、態度や懸念、期待をサンプリングしました。 経験豊富なデザイナーは、その独創性、創造性、共感的なスキルに自信を持ち、GenAIの役割を補助的と捉えている。 彼らは、人間が「AIアライメント」のアービターのままである「喜び」と「緊急」のユニークな人間の要素を強調した。 しかし、スキル劣化、雇用の代替、クリエイティビティの枯渇はジュニアデザイナーに悪影響を及ぼす可能性がある。 我々は、人間-GenAIコラボレーション、特に著作権と所有権、人間の創造性とエージェンシー、AIリテラシーとアクセスの意味について論じる。 我々は、責任と参加型AIのレンズを通して、GenAIの恐怖とUXDの機会をより深く理解する。

Among creative professionals, Generative Artificial Intelligence (GenAI) has sparked excitement over its capabilities and fear over unanticipated consequences. How does GenAI impact User Experience Design (UXD) practice, and are fears warranted? We interviewed 20 UX Designers, with diverse experience and across companies (startups to large enterprises). We probed them to characterize their practices, and sample their attitudes, concerns, and expectations. We found that experienced designers are confident in their originality, creativity, and empathic skills, and find GenAI's role as assistive. They emphasized the unique human factors of "enjoyment" and "agency", where humans remain the arbiters of "AI alignment". However, skill degradation, job replacement, and creativity exhaustion can adversely impact junior designers. We discuss implications for human-GenAI collaboration, specifically copyright and ownership, human creativity and agency, and AI literacy and access. Through the lens of responsible and participatory AI, we contribute a deeper understanding of GenAI fears and opportunities for UXD.
翻訳日:2024-02-19 20:17:15 公開日:2024-02-16
# 学習前の予測:大規模言語モデルにおける知識更新のためのパラメトリック算術の利用

Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models ( http://arxiv.org/abs/2311.08011v2 )

ライセンス: Link先を確認
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang(参考訳) 近年のLLM(Large Language Models)の進歩は,テキスト理解と生成において,その顕著な能力を示した。 しかし、より強固なllmはトレーニングコーパスから誤った情報や時代遅れの情報を取得しやすい。 新しい知識を含むデータによる直接二次的な微調整は、古い知識と新しい知識の衝突による知識の更新に効果がない可能性がある。 本稿では,古知識の忘れ込みと新しい知識の学習を容易にするパラメトリック演算を用いた,f-learningと呼ばれる微調整のための新しいパラダイムを提案する。 2つの公開データセットにおける実験結果から,提案するf-learningは,完全微調整とlora微調整の両方の知識更新性能を明らかに向上し,ほとんどの場合において既存のベースラインを上回っています。 さらに,LoRAのパラメータを減じて古い知識を忘れることによって,完全な微調整のパラメータを減じることと同じような効果が得られることも見出され,時にはそれを超えることもある。

Recent advancements in Large Language Models (LLMs) have showcased their remarkable capabilities in text understanding and generation. However, even stronger LLMs are susceptible to acquiring erroneous or obsolete information from the training corpus. Direct secondary fine-tuning with data containing new knowledge may be ineffective in updating knowledge due to the conflict between old and new knowledge. In this paper, we propose a new paradigm for fine-tuning called F-Learning (Forgetting before Learning), which employs parametric arithmetic to facilitate the forgetting of old knowledge and learning of new knowledge. Experimental results on two publicly available datasets demonstrate that our proposed F-Learning can obviously improve the knowledge updating performance of both full fine-tuning and LoRA fine-tuning, simultaneously outperforming the existing baselines in most cases. Moreover, we have also discovered that forgetting old knowledge by subtracting the parameters of LoRA can yield a similar effect to subtracting the parameters of full fine-tuning, and occasionally even surpass it significantly.
翻訳日:2024-02-19 20:10:55 公開日:2024-02-16
# ChartCheck: 実世界のグラフ画像に対する説明可能なFact-Checking

ChartCheck: Explainable Fact-Checking over Real-World Chart Images ( http://arxiv.org/abs/2311.07453v2 )

ライセンス: Link先を確認
Mubashara Akhtar, Nikesh Subedi, Vivek Gupta, Sahar Tahmasebi, Oana Cocarascu, Elena Simperl(参考訳) 事実の検証は自然言語処理コミュニティに大きな関心を集めているが、チャートのようなデータ可視化に対する誤ったステートメントの検証は、これまで見過ごされてきた。 チャートは、重要な情報を要約し、伝達するために現実世界で一般的に使用されるが、誤った情報を広めて特定の議題を促進するために、簡単に誤用することができる。 本稿では,1.7kのチャートと10.5kの人文によるクレームと説明からなる実世界のグラフに対して説明可能なファクトチェックを行うための,新しい大規模データセットであるChartCheckを紹介する。 視覚言語モデルとチャート・ツー・テーブルモデルを用いてChartCheckを体系的に評価し,コミュニティにベースラインを提案する。 最後に、これらのモデルに挑戦するチャート推論タイプと視覚特性について検討する。

Whilst fact verification has attracted substantial interest in the natural language processing community, verifying misinforming statements against data visualizations such as charts has so far been overlooked. Charts are commonly used in the real-world to summarize and communicate key information, but they can also be easily misused to spread misinformation and promote certain agendas. In this paper, we introduce ChartCheck, a novel, large-scale dataset for explainable fact-checking against real-world charts, consisting of 1.7k charts and 10.5k human-written claims and explanations. We systematically evaluate ChartCheck using vision-language and chart-to-table models, and propose a baseline to the community. Finally, we study chart reasoning types and visual attributes that pose a challenge to these models
翻訳日:2024-02-19 20:10:36 公開日:2024-02-16
# 量子力学の仮定としての最大エントロピー原理

Maximum Entropy Principle as Postulate of Quantum Mechanics ( http://arxiv.org/abs/2311.04893v3 )

ライセンス: Link先を確認
Alexei V. Tkachenko(参考訳) 量子力学(QM)の定式化から1世紀も経っても、波動関数崩壊(WFC)は理論の論争的な側面のままである。 環境誘起デコヒーレンス(英語版)は、オープン量子システムにおけるユニタリ進化が、そのコンポーネント内の効果的なwfcにどのようにつながるかを示すことによって、部分的な解決を提供する。 しかし、このアプローチ自体がQMの完全自己整合的な再構成につながるわけではない。 我々は、WFCとボルンの確率則の両方を除外した修正されたQM仮定を導入する。 最大エントロピー原理(英: Maximum Entropy Principle)は、相互に互換性のある観測のための条件付き確率を示す、より弱い仮定である。 この定式化の中で、WFCとボルンの規則は共に新しい性質となる。

Even a century after the formulation of Quantum Mechanics (QM), the wave function collapse (WFC) remains a contentious aspect of the theory. Environment-induced decoherence has offered a partial resolution by illustrating how unitary evolution in an open quantum system can lead to effective WFC within its components. However, this approach by itself does not lead to a fully self-consistent reformulation of QM. We introduce a modified set of QM postulates, which exclude both WFC and Born's probability rule. They are replaced with the Maximum Entropy Principle, a weaker postulate that specifies conditional probabilities for mutually compatible observations. Within this formulation, both WFC and Born's rule become emerging properties.
翻訳日:2024-02-19 20:10:21 公開日:2024-02-16
# 開量子系の初期相関は常に検出可能である

Initial correlations in open quantum systems are always detectable ( http://arxiv.org/abs/2311.03849v2 )

ライセンス: Link先を確認
Iman Sargolzahi(参考訳) 環境と相互作用するオープン量子システムを考える。 実験者がシステムにのみアクセス可能であると仮定すると、システム上でのみ測定を行うことで、システムと環境との間の初期相関を検出できるかどうかが興味深い。 システム上の局所的な測定により相関を検出する様々な手法が提案されている。 これらの手法をレビューした結果,システムと環境の相関が常に検出可能であることを示す。 特に、局所的に相関を目撃するために提案されたトレース距離法が成功するようなシステム環境全体のユニタリ進化を常に見つけることができることを示す。 また、相関関係全体を局所的に検出できる最適ユニタリ進化の存在条件も見いだす。 次に、システムと環境が時間非依存のハミルトニアンを介して相互作用する場合について述べる。 この場合、初期相関がある時刻tで局所的に検出できるなら、他の時間でも検出できることが分かる。 一方,ハミルトニアンが生成するユニタリ進化が因果化されていない場合でも,システムと環境の初期相関が常に検出できない場合を見出すことができる。

Consider an open quantum system which interacts with its environment. Assuming that the experimenter has access only to the system, an interesting question is whether it is possible to detect initial correlations between the system and the environment by performing measurements only on the system. Various methods have been proposed to detect correlations by local measurements on the system. After reviewing these methods, we will show that initial correlations between the system and the environment are always detectable. In particular, we will show that one can always find a unitary evolution, for the whole system-environment, such that the trace distance method, proposed to witness correlations locally, succeeds. We also find the condition for existence of the optimal unitary evolution, for which the entire correlation is locally detectable. Next, we address the case where the system and the environment interact through a time-independent Hamiltonian. For this case we will see that if the initial correlation can be detected locally at some time t , then it can be detected for almost all the other times too. On the other hand, we see that one can find cases for which initial correlations between the system and the environment always remain undetectable even though the unitary evolution, generated by the Hamiltonian, is not factorized.
翻訳日:2024-02-19 20:10:08 公開日:2024-02-16
# 文脈学習の謎--解釈と分析に関する包括的調査

The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis ( http://arxiv.org/abs/2311.00237v2 )

ライセンス: Link先を確認
Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He(参考訳) 実例による大規模言語モデル(llm)の能力向上を可能にする、コンテキスト内学習(icl)能力の理解は極めて重要である。 この重要性は、様々なタスクでこの能力をよりうまく利用することだけでなく、真理性、バイアス、毒性に関する懸念を含む潜在的なリスクの積極的な識別と緩和にも起因しています。 本稿では,文脈内学習の解釈と分析について,徹底的な調査を行う。 まず,コンテキスト内学習の背景と定義を簡潔に紹介する。 次に、2つの視点から進歩の概要を示す。 1)機械的解釈可能性の研究とICLの背後にある数学的基礎への展開という理論的視点 2) iclに関連する因子を実証的に分析する研究に関する経験的視点。 今後の研究に直面する課題を強調し,今後の可能性を提案する。 我々は,本研究が,文脈内学習の解釈をさらに探求する基盤となると信じている。 さらに、調査で参照されたリソースを含むレポジトリも作成しました。

Understanding in-context learning (ICL) capability that enables large language models (LLMs) to excel in proficiency through demonstration examples is of utmost importance. This importance stems not only from the better utilization of this capability across various tasks, but also from the proactive identification and mitigation of potential risks, including concerns regarding truthfulness, bias, and toxicity, that may arise alongside the capability. In this paper, we present a thorough survey on the interpretation and analysis of in-context learning. First, we provide a concise introduction to the background and definition of in-context learning. Then, we give an overview of advancements from two perspectives: 1) a theoretical perspective, emphasizing studies on mechanistic interpretability and delving into the mathematical foundations behind ICL; and 2) an empirical perspective, concerning studies that empirically analyze factors associated with ICL. We conclude by highlighting the challenges encountered and suggesting potential avenues for future research. We believe that our work establishes the basis for further exploration into the interpretation of in-context learning. Additionally, we have created a repository containing the resources referenced in our survey.
翻訳日:2024-02-19 20:09:49 公開日:2024-02-16
# 拡張を伴わない単純・非対称なグラフコントラスト学習

Simple and Asymmetric Graph Contrastive Learning without Augmentations ( http://arxiv.org/abs/2310.18884v2 )

ライセンス: Link先を確認
Teng Xiao, Huaisheng Zhu, Zhengyu Chen, Suhang Wang(参考訳) グラフコントラスト学習(GCL)はグラフ構造化データの表現学習において優れた性能を示した。 その成功にもかかわらず、既存のほとんどのGCL法は前ファブリックグラフ増補法とホモフィリー仮定に依存している。 したがって、連結ノードが異なるクラスラベルと異種特徴を持つヘテロ親和グラフにうまく一般化することができない。 本稿では,ホモフィルグラフとヘテロフィルグラフの対比学習問題について考察する。 隣接するノードの非対称なビューを考慮すれば,有望な性能を実現することができる。 グラフに対する非対称コントラスト学習(graphacl)という単純なアルゴリズムは実装が容易であり、グラフ拡張やホモフィリな仮定に依存しない。 我々は,graphaclが1-hopの局所的近傍情報と2-hopの単相類似性を捉えることができるという理論的および実証的な証拠を提供する。 実験結果から, 単純グラフACLは, ホモ親和性グラフとヘテロ親和性グラフの対比学習法や自己教師学習法よりも優れていた。 GraphACLのコードはhttps://github.com/tengxiao1/GraphACLで公開されている。

Graph Contrastive Learning (GCL) has shown superior performance in representation learning in graph-structured data. Despite their success, most existing GCL methods rely on prefabricated graph augmentation and homophily assumptions. Thus, they fail to generalize well to heterophilic graphs where connected nodes may have different class labels and dissimilar features. In this paper, we study the problem of conducting contrastive learning on homophilic and heterophilic graphs. We find that we can achieve promising performance simply by considering an asymmetric view of the neighboring nodes. The resulting simple algorithm, Asymmetric Contrastive Learning for Graphs (GraphACL), is easy to implement and does not rely on graph augmentations and homophily assumptions. We provide theoretical and empirical evidence that GraphACL can capture one-hop local neighborhood information and two-hop monophily similarity, which are both important for modeling heterophilic graphs. Experimental results show that the simple GraphACL significantly outperforms state-of-the-art graph contrastive learning and self-supervised learning methods on homophilic and heterophilic graphs. The code of GraphACL is available at https://github.com/tengxiao1/GraphACL.
翻訳日:2024-02-19 20:09:34 公開日:2024-02-16
# コントラスト学習を用いたunpaired mri super resolution

Unpaired MRI Super Resolution with Contrastive Learning ( http://arxiv.org/abs/2310.15767v3 )

ライセンス: Link先を確認
Hao Li, Quanwei Liu, Jianan Liu, Xiling Liu, Yanni Dong, Tao Huang, Zhihan Lv(参考訳) MRIは臨床診断の精度を高めるために重要である。 しかし、MRIの経時変化は、その適用範囲を制限している。 深層学習に基づく画像超解像(SR)法は、追加コストなしでMRIの解像度を改善することを約束する。 整列性高分解能(HR)と低分解能(LR)のMRI画像ペアが欠如しているため、教師なしのアプローチはMRI画像によるSR再構成に広く採用されている。 しかし、これらの手法はトレーニングのためにかなりの数のHR MRI画像を必要とするため、取得は困難である。 そこで本研究では, 対向学習を用いて, HRトレーニングデータに制限のあるSR性能を向上するMRI SR手法を提案する。 本研究で得られた実験結果は,hr画像のpaucityが利用可能であっても,ピーク信号対雑音比と構造類似度指数が著しく向上することを示す。 以上の結果から, HRトレーニングデータ不足の課題に対処する上でのアプローチの可能性が強調され, 臨床応用におけるMRIの進歩に寄与すると考えられた。

Magnetic resonance imaging (MRI) is crucial for enhancing diagnostic accuracy in clinical settings. However, the inherent long scan time of MRI restricts its widespread applicability. Deep learning-based image super-resolution (SR) methods exhibit promise in improving MRI resolution without additional cost. Due to lacking of aligned high-resolution (HR) and low-resolution (LR) MRI image pairs, unsupervised approaches are widely adopted for SR reconstruction with unpaired MRI images. However, these methods still require a substantial number of HR MRI images for training, which can be difficult to acquire. To this end, we propose an unpaired MRI SR approach that employs contrastive learning to enhance SR performance with limited HR training data. Empirical results presented in this study underscore significant enhancements in the peak signal-to-noise ratio and structural similarity index, even when a paucity of HR images is available. These findings accentuate the potential of our approach in addressing the challenge of limited HR training data, thereby contributing to the advancement of MRI in clinical applications.
翻訳日:2024-02-19 20:09:15 公開日:2024-02-16
# RD-VIO:動的環境における移動拡張現実のためのロバスト視覚慣性オドメトリー

RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in Dynamic Environments ( http://arxiv.org/abs/2310.15072v3 )

ライセンス: Link先を確認
Jinyu Li, Xiaokun Pan, Gan Huang, Ziyang Zhang, Nan Wang, Hujun Bao, Guofeng Zhang(参考訳) 典型的には、視覚または視覚慣性オドメトリシステムが動的シーンと純粋回転の問題を扱うのが困難である。 本研究では,これら2つの問題に対処するために,RD-VIOと呼ばれる新しい視覚慣性オドメトリー(VIO)システムを設計する。 まず,2段階プロセスにおいてキーポイントを頑健に検出し,一致させることができるIMU-PARSACアルゴリズムを提案する。 最初の状態では、ランドマークは視覚的およびIMU測定を使用して新しいキーポイントと一致します。 マッチングから統計情報を収集し,第2段階のキーポイント内マッチングを導出する。 次に, 純粋回転の問題に対処するために, 運動タイプを検知し, データ結合過程において遅延三角法を適応させる。 純粋な回転フレームを特別なサブフレームにします。 視覚-慣性束調整を解く際には、純粋回転運動にさらなる制約を与える。 提案するVIOシステムは,公開データセットとオンライン比較に基づいて評価する。 実験により、RD-VIOは動的環境における他の手法よりも明らかに有利であることが示された。 ソースコードは \href{https://github.com/openxrlab/xrslam}{{\fontfamily{pcr}\selectfont https://github.com/openxrlab/xrslam}} で入手できる。

It is typically challenging for visual or visual-inertial odometry systems to handle the problems of dynamic scenes and pure rotation. In this work, we design a novel visual-inertial odometry (VIO) system called RD-VIO to handle both of these two problems. Firstly, we propose an IMU-PARSAC algorithm which can robustly detect and match keypoints in a two-stage process. In the first state, landmarks are matched with new keypoints using visual and IMU measurements. We collect statistical information from the matching and then guide the intra-keypoint matching in the second stage. Secondly, to handle the problem of pure rotation, we detect the motion type and adapt the deferred-triangulation technique during the data-association process. We make the pure-rotational frames into the special subframes. When solving the visual-inertial bundle adjustment, they provide additional constraints to the pure-rotational motion. We evaluate the proposed VIO system on public datasets and online comparison. Experiments show the proposed RD-VIO has obvious advantages over other methods in dynamic environments. The source code is available at: \href{https://github.com/openxrlab/xrslam}{{\fontfamily{pcr}\selectfont https://github.com/openxrlab/xrslam}}.
翻訳日:2024-02-19 20:08:57 公開日:2024-02-16
# すべての国が感謝祭を祝うわけではない:大規模言語モデルにおける文化的支配について

Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models ( http://arxiv.org/abs/2310.12481v2 )

ライセンス: Link先を確認
Wenxuan Wang, Wenxiang Jiao, Jingyuan Huang, Ruyi Dai, Jen-tse Huang, Zhaopeng Tu, Michael R. Lyu(参考訳) 本稿では,大規模言語モデル(llm)において,モデル学習における英語データの利用が優勢であることから,文化的な優位の問題を明らかにする。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。 文化的優越問題を体系的に評価するために,具体的(休日や歌など)と抽象的(価値観や意見など)の文化的対象のベンチマークを構築した。 その結果, GPT-4が最も影響を受けやすいのに対して, テキストダヴィンチ003は最も影響を受けにくい文化支配問題に代表される GPT モデルが悩まされていることがわかった。 本研究は,その開発と展開における文化的支配と倫理的考察を批判的に検討することの必要性を強調する。 モデル開発における2つの簡単な方法(例えば、より多様なデータへの事前学習)とデプロイ(文化認識プロンプト)は、llmの文化的支配問題を著しく軽減できることを示します。

This paper identifies a cultural dominance issue within large language models (LLMs) due to the predominant use of English data in model training (e.g., ChatGPT). LLMs often provide inappropriate English-culture-related answers that are not relevant to the expected culture when users ask in non-English languages. To systematically evaluate the cultural dominance issue, we build a benchmark of concrete (e.g., holidays and songs) and abstract (e.g., values and opinions) cultural objects. Empirical results show that the representative GPT models suffer from the culture dominance problem, where GPT-4 is the most affected while text-davinci-003 suffers the least from this problem. Our study emphasizes the need to critically examine cultural dominance and ethical consideration in their development and deployment. We show that two straightforward methods in model development (i.e., pretraining on more diverse data) and deployment (e.g., culture-aware prompting) can significantly mitigate the cultural dominance issue in LLMs.
翻訳日:2024-02-19 20:08:37 公開日:2024-02-16
# ディスコナンスからインサイトへ:事例アウトカム分類のための集合住宅の解体

From Dissonance to Insights: Dissecting Disagreements in Rationale Construction for Case Outcome Classification ( http://arxiv.org/abs/2310.11878v5 )

ライセンス: Link先を確認
Shanshan Xu, T.Y.S.S Santosh, Oana Ichim, Isabella Risini, Barbara Plank, Matthias Grabmair(参考訳) 法的NLPでは、ケースアウトカム分類(COC)は正確であるだけでなく、信頼性と説明性も必要である。 説明可能なCOCの既存の作業は、単一の専門家によるアノテーションに限定されている。 しかし、弁護士が事件事実の評価に異議を唱えることも知られている。 そこで我々は,国際人権法領域の専門家2人から得られたechr1の合理的な変動に関する新たなデータセットを収集し,弱い合意を遵守する。 それらの不一致を調査し,coc固有のサブカテゴリを補う2段階のタスク非依存分類法を構築した。 我々の知る限り、これは人間のラベルの変化に焦点を当てた法的NLPにおける最初の研究である。 異なる分類群を定量的に評価し,cocメタデータの粒度やノイズを考慮し,法的な文脈を過小に特定することによる不一致が主な原因であることを見出した。 さらに、RAVE上でのSOTA COCモデルの妥当性を評価し、モデルと専門家間の限定的な合意を観察する。 総じて,本事例のケーススタディでは,法的nlpにおけるベンチマークデータセット作成におけるhhertoの不正確さが明らかにされている。

In legal NLP, Case Outcome Classification (COC) must not only be accurate but also trustworthy and explainable. Existing work in explainable COC has been limited to annotations by a single expert. However, it is well-known that lawyers may disagree in their assessment of case facts. We hence collect a novel dataset RAVE: Rationale Variation in ECHR1, which is obtained from two experts in the domain of international human rights law, for whom we observe weak agreement. We study their disagreements and build a two-level task-independent taxonomy, supplemented with COC-specific subcategories. To our knowledge, this is the first work in the legal NLP that focuses on human label variation. We quantitatively assess different taxonomy categories and find that disagreements mainly stem from underspecification of the legal context, which poses challenges given the typically limited granularity and noise in COC metadata. We further assess the explainablility of SOTA COC models on RAVE and observe limited agreement between models and experts. Overall, our case study reveals hitherto underappreciated complexities in creating benchmark datasets in legal NLP that revolve around identifying aspects of a case's facts supposedly relevant to its outcome.
翻訳日:2024-02-19 20:08:16 公開日:2024-02-16
# 最大効率量子力学スクランブルのスケーリング理論からのスペクトルカオス境界

Spectral chaos bounds from scaling theory of maximally efficient quantum-dynamical scrambling ( http://arxiv.org/abs/2310.11355v2 )

ライセンス: Link先を確認
Tara Kalsi, Alessandro Romito, Henning Schomerus(参考訳) 複雑な量子系のエルゴード定常状態への進化に関する重要な予想は、この過程が最も効率的であるときに普遍的な特徴を取得することである。 このシナリオでは、スペクトル統計量の単一パラメータスケーリング理論を開発し、完全なスクランブルダイナミクスに沿ったスペクトル相関の正確な自己相似性を具現化する。 スケーリング予測は特権付き確率過程で一致し、他の動的スクランブルシナリオのバウンダリとして機能し、すべての時間スケールで非効率または不完全スクランブルを定量化できるようにする。

A key conjecture about the evolution of complex quantum systems towards an ergodic steady state, known as scrambling, is that this process acquires universal features when it is most efficient. We develop a single-parameter scaling theory for the spectral statistics in this scenario, which embodies exact self-similarity of the spectral correlations along the complete scrambling dynamics. We establish that the scaling predictions are matched by a privileged stochastic process, and serve as bounds for other dynamical scrambling scenarios, allowing one to quantify inefficient or incomplete scrambling on all timescales.
翻訳日:2024-02-19 20:07:57 公開日:2024-02-16
# flrce: 早期停止戦略による資源効率の高い連合学習

FLrce: Resource-Efficient Federated Learning with Early-Stopping Strategy ( http://arxiv.org/abs/2310.09789v2 )

ライセンス: Link先を確認
Ziru Niu, Hai Dong, A. Kai Qin, Tao Gu(参考訳) フェデレートラーニング(FL)は、IoT(Internet of Things)において、データプライバシを維持しながらインテリジェントなサービスを顧客に提供するための強力なインターフェースとして、非常に人気がある。 サーバのオーケストレーションの下では、エッジデバイス(FLのクライアントとも呼ばれる)は、ローカルデータを共有せずに、グローバルなディープラーニングモデルを協調的にトレーニングする。 それでも、偏りのあるデータセットを持つクライアントは、悪意のあるパラメータ更新や偏りのあるパラメータ更新を送信することで、flを破ることができるため、クライアント間の不平等なトレーニング貢献はflを脆弱にしている。 さらに、エッジデバイスのリソース不足の問題もボトルネックとなっている。 エッジデバイス上でディープラーニングモデルをトレーニングすることで発生する圧倒的な計算オーバーヘッドと、ネットワーク全体でディープラーニングモデルを送信するための重要な通信オーバーヘッドにより、flプロセスでは膨大なリソースが消費される。 これはエネルギーのような計算リソースと帯域幅のような通信リソースを包含する。 本稿では,これらの課題を包括的に解決するために,関係ベースのクライアント選択と早期停止戦略を備えた効率的なflフレームワークflrceを提案する。 FLrceは、より大きな効果を持つクライアントを選択することでFLプロセスを加速し、グローバルモデルがより少ないラウンドで高精度に収束できるようにする。 FLrceはまた、通信と計算資源を節約するために、FLを事前に停止させる早期停止機構を利用する。 その結果,FLrceは既存のFLフレームワークと比較して,計算効率と通信効率を少なくとも47%,通信効率を43%向上させることがわかった。

Federated learning (FL) achieves great popularity in the Internet of Things (IoT) as a powerful interface to offer intelligent services to customers while maintaining data privacy. Under the orchestration of a server, edge devices (also called clients in FL) collaboratively train a global deep-learning model without sharing any local data. Nevertheless, the unequal training contributions among clients have made FL vulnerable, as clients with heavily biased datasets can easily compromise FL by sending malicious or heavily biased parameter updates. Furthermore, the resource shortage issue of edge devices also becomes a bottleneck. Due to overwhelming computation overheads generated by training deep-learning models on edge devices, and significant communication overheads for transmitting deep-learning models across the network, enormous amounts of resources are consumed in the FL process. This encompasses computation resources like energy and communication resources like bandwidth. To comprehensively address these challenges, in this paper, we present FLrce, an efficient FL framework with a relationship-based client selection and early-stopping strategy. FLrce accelerates the FL process by selecting clients with more significant effects, enabling the global model to converge to a high accuracy in fewer rounds. FLrce also leverages an early stopping mechanism that terminates FL in advance to save communication and computation resources. Experiment results show that, compared with existing efficient FL frameworks, FLrce improves the computation and communication efficiency by at least 47% and 43% respectively.
翻訳日:2024-02-19 20:07:46 公開日:2024-02-16
# 二重ホモダイン検出による単光干渉計による2パラメータ推定

Two-parameter estimation with single squeezed-light interferometer via double homodyne detection ( http://arxiv.org/abs/2310.08856v3 )

ライセンス: Link先を確認
Li-li Hou, Jian-Dong Zhang, Kai-Min Zheng, Shuai Wang(参考訳) 本研究は, 二重ポートホモダイン検出による単光マッハ・ツェンダー干渉計の2パラメータ同時推定問題について検討した。 量子フィッシャー情報行列で定義される2パラメータ量子クレーダ・バウンドの解析形式を提示し、相感度の究極の限界が圧縮真空状態によってさらに承認されることを示す。 ショットノイズ限界を超えるだけでなく、干渉計の入力強度の半分がコヒーレント状態によって、半分がシャープされた光によって提供されるとき、ハイゼンベルク限界を超えることもできる。 二重ポートホモダイン検出では、古典的なフィッシャー情報行列も得られる。 その結果、古典的クレーダ・ラオ境界は量子状態の飽和を伴わないが、コヒーレント状態の強度が十分大きい場合、量子クレーダ-bao結合に漸近的に近づくことが示されている。 また, 圧縮真空状態は位相感度をさらに向上させる可能性が示唆された。 また、干渉計の入力強度の半分がコヒーレント状態によって、半分が硬化した光によって提供される場合、二重ポートホモダイン検出によって得られる位相感度は、推定された位相の小さな範囲においてハイゼンベルク限界を超えることができる。

The simultaneous two-parameter estimation problem in single squeezed-light Mach-Zehnder interferometer with double-port homodyne detection is investigated in this work. The analytical form of the two-parameter quantum Cramer-Bao bound defined by the quantum Fisher information matrix is presented, which shows the ultimate limit of the phase sensitivity will be further approved by the squeezed vacuum state. It can not only surpass the shot-noise limit, but also can even surpass the Heisenberg limit when half of the input intensity of the interferometer is provided by the coherent state and half by the squeezed light. For the double-port homodyne detection, the classical Fisher information matrix is also obtained. Our results show that although the classical Cramer-Rao bound does not saturate the quantum one, it can still asymptotically approach the quantum Cramer -Bao bound when the intensity of the coherent state is large enough. Our results also indicate that the squeezed vacuum state indeed can further improve the phase sensitivity. In addition, when half of the input intensity of the interferometer is provided by the coherent state and half by the squeezed light, the phase sensitivity obtained by the double-port homodyne detection can surpass the Heisenberg limit for a small range of the estimated phase.
翻訳日:2024-02-19 20:06:49 公開日:2024-02-16
# 機械学習に基づく地球科学システムのモデリングのための質量保存型パーセプトロン

A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems ( http://arxiv.org/abs/2310.08644v3 )

ライセンス: Link先を確認
Yuan-Heng Wang, Hoshin V. Gupta(参考訳) 地学システムの時系列進化を予測する物理概念(PC)モデルの構築に何十年も取り組んできたが、最近の研究は機械学習(ML)ベースのGated Recurrent Neural Network技術が、はるかに正確なモデルの開発に利用できることを示している。 しかし,MLモデルから身体的理解を抽出することの難しさは,システム構造や機能に関する科学的知識の強化に有用である。 本稿では,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron(MCP)を提案する。 MCPは、PCモデルとGRNNの両方の基盤となる有向グラフ構造間の固有同型を利用して、物理的プロセスの質量保存性を明確に表現し、それらのプロセスの機能的性質を、既製のML技術を用いて利用可能なデータから直接(解釈可能な方法で)学習できるようにする。 概念実証として,mcpの機能的表現力(能力)を調査し,リーフ川流域の降雨流出(rr)ダイナミクスを同時表現する能力について検討し,科学的仮説検証に有用性を示す。 結論として,この概念を拡張して,地学システムを通しての質量エネルギー情報流の結合特性のMLに基づく物理概念表現を可能にする。

Although decades of effort have been devoted to building Physical-Conceptual (PC) models for predicting the time-series evolution of geoscientific systems, recent work shows that Machine Learning (ML) based Gated Recurrent Neural Network technology can be used to develop models that are much more accurate. However, the difficulty of extracting physical understanding from ML-based models complicates their utility for enhancing scientific knowledge regarding system structure and function. Here, we propose a physically-interpretable Mass Conserving Perceptron (MCP) as a way to bridge the gap between PC-based and ML-based modeling approaches. The MCP exploits the inherent isomorphism between the directed graph structures underlying both PC models and GRNNs to explicitly represent the mass-conserving nature of physical processes while enabling the functional nature of such processes to be directly learned (in an interpretable manner) from available data using off-the-shelf ML technology. As a proof of concept, we investigate the functional expressivity (capacity) of the MCP, explore its ability to parsimoniously represent the rainfall-runoff (RR) dynamics of the Leaf River Basin, and demonstrate its utility for scientific hypothesis testing. To conclude, we discuss extensions of the concept to enable ML-based physical-conceptual representation of the coupled nature of mass-energy-information flows through geoscientific systems.
翻訳日:2024-02-19 20:05:51 公開日:2024-02-16
# 独立成分分析によるガウス型LTIシステムの識別可能性の一考察

An Interventional Perspective on Identifiability in Gaussian LTI Systems with Independent Component Analysis ( http://arxiv.org/abs/2311.18048v2 )

ライセンス: Link先を確認
Goutham Rajendran, Patrik Reizinger, Wieland Brendel, Pradeep Ravikumar(参考訳) 動的システムにおけるシステム識別と介入設計の関係について検討する。 これまでの研究では、独立成分分析(ica)のような識別可能な表現学習手法が因果関係をいかに明らかにできるかが示されているが、データ収集の方法を考慮せずに受動的視点に依存していた。 本研究は,ガウス線形時間不変量 (lti) システムにおいて,多環境環境で多様な介入信号を導入することでシステムパラメータを同定できることを示す。 ica文献に動機づけられた適切な多様性の仮定を活用し,力学系における実験設計と表現識別性を結びつけた。 我々は、合成および(シミュレーション)物理データに関する知見を裏付ける。 さらに、隠れマルコフモデルや(ガウシアン) lti 系、特に連続パラメータを持つ因果的デ・フィニッティ定理の一般化について述べる。

We investigate the relationship between system identification and intervention design in dynamical systems. While previous research demonstrated how identifiable representation learning methods, such as Independent Component Analysis (ICA), can reveal cause-effect relationships, it relied on a passive perspective without considering how to collect data. Our work shows that in Gaussian Linear Time-Invariant (LTI) systems, the system parameters can be identified by introducing diverse intervention signals in a multi-environment setting. By harnessing appropriate diversity assumptions motivated by the ICA literature, our findings connect experiment design and representational identifiability in dynamical systems. We corroborate our findings on synthetic and (simulated) physical data. Additionally, we show that Hidden Markov Models, in general, and (Gaussian) LTI systems, in particular, fulfil a generalization of the Causal de Finetti theorem with continuous parameters.
翻訳日:2024-02-19 19:58:41 公開日:2024-02-16
# 制御されたテキスト生成における意図しないバイアスを軽減する因果関係

Causal ATE Mitigates Unintended Bias in Controlled Text Generation ( http://arxiv.org/abs/2311.11229v2 )

ライセンス: Link先を確認
Rahul Madhavan and Kahini Wadhawan(参考訳) 因果平均処理効果(Causal ATE)を用いた言語モデルの属性制御について検討した。 言語モデルにおける属性制御タスク(lms)の既存の方法は、興味のある属性を持つ文中の単語の共起をチェックし、それらを制御する。 しかしながら、トレーニングデータセット内の属性と単語のスプリアス相関は、推論中にスプリアス相関が提示された場合に、モデルが属性の存在を幻覚させる可能性がある。 簡単な摂動に基づくCausal ATE法は意図しない効果を除去する。 特に、有害性軽減の問題において、有害性軽減の課題は、しばしば除毒後に保護されたグループに現れる不注意な偏見にある。 この意図しないバイアスは、Causal ATEメトリックを使用して解決できることを示し、我々の主張を厳格に証明する。 クレームの検証実験を行い、コード(匿名)を以下に公開します。

We study attribute control in language models through the method of Causal Average Treatment Effect (Causal ATE). Existing methods for the attribute control task in Language Models (LMs) check for the co-occurrence of words in a sentence with the attribute of interest, and control for them. However, spurious correlation of the words with the attribute in the training dataset, can cause models to hallucinate the presence of the attribute when presented with the spurious correlate during inference. We show that the simple perturbation-based method of Causal ATE removes this unintended effect. Specifically, we ground it in the problem of toxicity mitigation, where a significant challenge lies in the inadvertent bias that often emerges towards protected groups post detoxification. We show that this unintended bias can be solved by the use of the Causal ATE metric and rigorously prove our claim. We provide experimental validations for our claims and release our code (anonymously) here: https://github.com/causalate-mitigates-bias/causal-ate-mitigates-bias.
翻訳日:2024-02-19 19:58:24 公開日:2024-02-16
# K空間冷拡散:音のない加速MRIの再構成を学ぶ

K-space Cold Diffusion: Learning to Reconstruct Accelerated MRI without Noise ( http://arxiv.org/abs/2311.10162v2 )

ライセンス: Link先を確認
Guoyao Shen, Mengyu Li, Chad W. Farris, Stephan Anderson, Xin Zhang(参考訳) ディープラーニングに基づくMRI再構成モデルは、近年、優れたパフォーマンスを実現している。 最近の拡散モデルは、画像生成、インペイント、超解像度、画像編集などにおいて顕著な性能を示している。 一般化拡散モデルとして、冷拡散はさらに範囲を広げ、ぼやけやダウンサンプリングなどの任意の画像変換を中心に構築されたモデルを考える。 本稿では,ガウス雑音を必要とせず,k空間で画像劣化と復元を行うk空間冷拡散モデルを提案する。 複数のディープラーニングベースのMRI再構成モデルとの比較を行い、よく知られたオープンソースのMRIデータセットでテストを行う。 以上の結果から, 高速MRIのための高画質再構成画像が生成できることが示唆された。

Deep learning-based MRI reconstruction models have achieved superior performance these days. Most recently, diffusion models have shown remarkable performance in image generation, in-painting, super-resolution, image editing and more. As a generalized diffusion model, cold diffusion further broadens the scope and considers models built around arbitrary image transformations such as blurring, down-sampling, etc. In this paper, we propose a k-space cold diffusion model that performs image degradation and restoration in k-space without the need for Gaussian noise. We provide comparisons with multiple deep learning-based MRI reconstruction models and perform tests on a well-known large open-source MRI dataset. Our results show that this novel way of performing degradation can generate high-quality reconstruction images for accelerated MRI.
翻訳日:2024-02-19 19:57:58 公開日:2024-02-16
# WatME: レキシカル冗長性による無意味な透かしを目指して

WatME: Towards Lossless Watermarking Through Lexical Redundancy ( http://arxiv.org/abs/2311.09832v2 )

ライセンス: Link先を確認
Liang Chen, Yatao Bian, Yang Deng, Deng Cai, Shuaiyi Li, Peilin Zhao, Kam-fai Wong(参考訳) テキスト透かしは機械生成テキストを検出する重要な技術として出現した。 しかし、既存の手法では、デコード中に任意の語彙分割を使い、その結果、応答生成中に適切な単語が無くなり、言語モデルの表現力が損なわれ、テキスト応答の品質が著しく低下する。 これらの問題に対処するため、我々はWatME(Watmarking with Mutual Exclusion)という新しいアプローチを導入する。 具体的には、固有語彙冗長性の言語的事前知識を活用することで、WatMEは言語モデルの復号過程において利用可能な語彙の使用を動的に最適化することができる。 この冗長性を管理するために相互排他的なルールを採用し、適切な単語が使用できない状況を避け、大言語モデル(llm)の表現力を維持する。 本稿では,WatMEが透かし検出性を維持しつつ,LLMのテキスト生成能力を著しく維持していることを示す理論的解析と実証的証拠を示す。 具体的には,知識リコールや論理推論などllmの創発的能力に対するウォーターマーキングの影響について検討する。 我々の総合的な実験により、WatMEはLLMのこれらの重要な機能を維持する上で、既存の方法よりも一貫して優れています。 私たちのコードは将来の研究を促進するためにリリースされます。

Text watermarking has emerged as an important technique for detecting machine-generated text. However, existing methods generally use arbitrary vocabulary partitioning during decoding, which results in the absence of appropriate words during the response generation and disrupts the language model's expressiveness, thus severely degrading the quality of text response. To address these issues, we introduce a novel approach, Watermarking with Mutual Exclusion (WatME). Specifically, by leveraging linguistic prior knowledge of inherent lexical redundancy, WatME can dynamically optimize the use of available vocabulary during the decoding process of language models. It employs a mutually exclusive rule to manage this redundancy, avoiding situations where appropriate words are unavailable and maintaining the expressive power of large language models (LLMs). We present theoretical analysis and empirical evidence demonstrating that WatME substantially preserves the text generation ability of LLMs while maintaining watermark detectability. Specifically, we investigate watermarking's impact on the emergent abilities of LLMs, including knowledge recall and logical reasoning. Our comprehensive experiments confirm that WatME consistently outperforms existing methods in retaining these crucial capabilities of LLMs. Our code will be released to facilitate future research.
翻訳日:2024-02-19 19:57:46 公開日:2024-02-16
# LLMの不確かさ表現の検討 : パラメトリック知識以外での疑問

Examining LLMs' Uncertainty Expression Towards Questions Outside Parametric Knowledge ( http://arxiv.org/abs/2311.09731v2 )

ライセンス: Link先を確認
Genglin Liu, Xingyao Wang, Lifan Yuan, Yangyi Chen, Hao Peng(参考訳) 大きな言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において、不確実性を表現できるだろうか? 本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。 LLMの知識ギャップを正確に決定する課題に対処するため、既存の概念や偽の前提を含む疑問を診断的に生成し、LLMの膨大なトレーニングデータの外にあることを保証する。 解答不可能な質問と解答可能な質問の両方からなるベンチマークであるUnknownBenchをコンパイルすることにより、LCMのパフォーマンスを定量的に評価し、誠実さを維持しながら有効であることを示す。 モデルに依存しない統一的信頼抽出手法を用いることで、ほとんどのLCMはパラメトリック知識以外の問題に対して一貫して拒否あるいは不確実性を表現できないが、命令の微調整とアライメント技術は限界的な改善をもたらす。 さらに、LLMの不確実性表現は、テキスト出力の認識された信頼と常に一致しない。

Can large language models (LLMs) express their uncertainty in situations where they lack sufficient parametric knowledge to generate reasonable responses? This work aims to systematically investigate LLMs' behaviors in such situations, emphasizing the trade-off between honesty and helpfulness. To tackle the challenge of precisely determining LLMs' knowledge gaps, we diagnostically create unanswerable questions containing non-existent concepts or false premises, ensuring that they are outside the LLMs' vast training data. By compiling a benchmark, UnknownBench, which consists of both unanswerable and answerable questions, we quantitatively evaluate the LLMs' performance in maintaining honesty while being helpful. Using a model-agnostic unified confidence elicitation approach, we observe that most LLMs fail to consistently refuse or express uncertainty towards questions outside their parametric knowledge, although instruction fine-tuning and alignment techniques can provide marginal enhancements. Moreover, LLMs' uncertainty expression does not always stay consistent with the perceived confidence of their textual outputs.
翻訳日:2024-02-19 19:57:25 公開日:2024-02-16
# パルチザン集団の知恵--人間とllmに基づくエージェントの集団知性の比較

The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents ( http://arxiv.org/abs/2311.09665v2 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Siddharth Suresh, Nikunj Harlalka, Agam Goyal, Robert Hawkins, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers(参考訳) 人間集団は、分極や党派バイアスの存在下でも、審議を通じてより正確な信念に収束することができる。 大規模言語モデル(llm)を用いた生成エージェントは、人間の集団行動のシミュレーションにますます利用されているが、人間の集団行動に対するダイナミクスを評価するためのベンチマークは少ない。 本稿では,党員の知性が,党員のパーソナラ(例えば民主党や共和党)としてのロールプレイを促されるllmベースのエージェント集団に現れる程度について検討する。 人間のような党派バイアスを見せるだけでなく、人間と同じように熟考を通じてより正確な信念に収束する。 次に、連鎖的思考プロンプトの使用やペルソナにおける詳細の欠如など、収束を妨げるいくつかの要因を特定する。 逆に、人間のデータの微調整は収束性を高めるように見える。 これらの結果は、人間の集団知能のモデルとしてのLSMベースのエージェントの可能性と限界を示している。

Human groups are able to converge on more accurate beliefs through deliberation, even in the presence of polarization and partisan bias -- a phenomenon known as the "wisdom of partisan crowds." Generated agents powered by Large Language Models (LLMs) are increasingly used to simulate human collective behavior, yet few benchmarks exist for evaluating their dynamics against the behavior of human groups. In this paper, we examine the extent to which the wisdom of partisan crowds emerges in groups of LLM-based agents that are prompted to role-play as partisan personas (e.g., Democrat or Republican). We find that they not only display human-like partisan biases, but also converge to more accurate beliefs through deliberation as humans do. We then identify several factors that interfere with convergence, including the use of chain-of-thought prompt and lack of details in personas. Conversely, fine-tuning on human data appears to enhance convergence. These findings show the potential and limitations of LLM-based agents as a model of human collective intelligence.
翻訳日:2024-02-19 19:57:07 公開日:2024-02-16
# 解読可能性:計算的アプローチによる誤情報のモデル化

Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach ( http://arxiv.org/abs/2311.09630v2 )

ライセンス: Link先を確認
Yanchen Liu, Mingyu Derek Ma, Wenna Qin, Azure Zhou, Jiaao Chen, Weiyan Shi, Wei Wang, Diyi Yang(参考訳) 誤情報への感受性は、検証不能な主張に対する信条の程度、すなわち観察できない個人の精神的過程の潜在的な側面を記述している。 既存の感受性研究は、バイアス、収集コスト、下流アプリケーションへのスケールの難しい、自己報告された信念に大きく依存している。 これらの制約に対処するため,本研究では,ユーザの潜伏感レベルをモデル化するための計算手法を提案する。 以前の研究で示されているように、感受性は様々な要因(人口統計要因、政治的イデオロギーなど)に影響され、ソーシャルメディア上での人々の再投稿行動に直接影響を及ぼす。 心的プロセスを表現するために,これらの要因をインプットとして,人々の共有行動の監督によって導かれる。 テストベッドドメインとしてCOVID-19を用いた実験では,この潜伏モデリング手法の有効性を検証し,予測された感受性スコアと人的判断との間に有意な相関が認められた。 さらに,本モデルを用いて,大規模データセット上での感受性スコアのアノテートを行い,各種要因との関係を解析した。 分析の結果、政治的傾向や心理的要因は、新型コロナウイルスの誤情報に対する感受性と様々な関連性を示すことが明らかとなった。

Susceptibility to misinformation describes the degree of belief in unverifiable claims, a latent aspect of individuals' mental processes that is not observable. Existing susceptibility studies heavily rely on self-reported beliefs, which can be subject to bias, expensive to collect, and challenging to scale for downstream applications. To address these limitations, in this work, we propose a computational approach to model users' latent susceptibility levels. As shown in previous research, susceptibility is influenced by various factors (e.g., demographic factors, political ideology), and directly influences people's reposting behavior on social media. To represent the underlying mental process, our susceptibility modeling incorporates these factors as inputs, guided by the supervision of people's sharing behavior. Using COVID-19 as a testbed domain, our experiments demonstrate a significant alignment between the susceptibility scores estimated by our computational modeling and human judgments, confirming the effectiveness of this latent modeling approach. Furthermore, we apply our model to annotate susceptibility scores on a large-scale dataset and analyze the relationships between susceptibility with various factors. Our analysis reveals that political leanings and psychological factors exhibit varying degrees of association with susceptibility to COVID-19 misinformation.
翻訳日:2024-02-19 19:56:49 公開日:2024-02-16
# LLMエージェントのネットワークによるオピニオンダイナミクスのシミュレーション

Simulating Opinion Dynamics with Networks of LLM-based Agents ( http://arxiv.org/abs/2311.09618v2 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Agam Goyal, Nikunj Harlalka, Siddharth Suresh, Robert Hawkins, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers(参考訳) 人間の意見の正確なシミュレーションは、偏光や誤情報の拡散など、様々な社会現象を理解するために重要である。 しかしながら、エージェントベースモデル(ABM)は、しばしば人間の振る舞いを過度に単純化する。 本稿では,Large Language Models (LLMs) の集団に基づく意見力学のシミュレーション手法を提案する。 以上の結果から, LLMエージェントの正確な情報生成に対するバイアスが強く, シミュレーションエージェントが科学的現実に一致していることが明らかとなった。 このバイアスは、気候変動のような問題に対するコンセンサスビューに対する抵抗を理解するための有用性を制限する。 しかし,プロンプト・エンジニアリングによる確認バイアスを誘発した後,既存のエージェント・ベース・モデリング・オピニオン・ダイナミクス研究と並行して意見の断片化を観察した。 これらの洞察は、この領域におけるllmエージェントの約束と限界を強調し、前進を示唆している:人間の信念の進化をよりよくシミュレートするために、現実世界の談話でllmを洗練する。

Accurately simulating human opinion dynamics is crucial for understanding a variety of societal phenomena, including polarization and the spread of misinformation. However, the agent-based models (ABMs) commonly used for such simulations often over-simplify human behavior. We propose a new approach to simulating opinion dynamics based on populations of Large Language Models (LLMs). Our findings reveal a strong inherent bias in LLM agents towards producing accurate information, leading simulated agents to consensus in line with scientific reality. This bias limits their utility for understanding resistance to consensus views on issues like climate change. After inducing confirmation bias through prompt engineering, however, we observed opinion fragmentation in line with existing agent-based modeling and opinion dynamics research. These insights highlight the promise and limitations of LLM agents in this domain and suggest a path forward: refining LLMs with real-world discourse to better simulate the evolution of human beliefs.
翻訳日:2024-02-19 19:56:24 公開日:2024-02-16
# デジタルソクラテス:説明的批判によるLCMの評価

Digital Socrates: Evaluating LLMs through Explanation Critiques ( http://arxiv.org/abs/2311.09613v2 )

ライセンス: Link先を確認
Yuling Gu, Oyvind Tafjord, Peter Clark(参考訳) LLMは、その答えとともに推論された説明を提供することができるが、これらの説明の性質と品質はいまだに理解されていない。 これに対し、我々のゴールは、高価なAPI呼び出しや人的アノテーションに頼ることなく、このような特徴を自動生成できる、最新のモデルの説明機能を詳細に表現し、曖昧で解釈可能な説明評価ツールを作成することである。 私たちのアプローチは (a) 説明批判の新しいタスクを定義する - 説明の主要な欠陥を特定し、分類し、その欠陥に対処するための提案を提供する。 (b)このタスクのためのサイズ、人間認証データセットを作成し、 (c)このデータを用いてオープンソースの自動批評モデル(Digital Socratesと呼ばれる)を訓練する。 量的および質的な分析を通じて、デジタルソクラテスが学生モデルについての洞察を明らかにするのにどのように役立つかを示し、それらのモデル説明の高品質でニュアンスの高い自動評価を初めて提供するかを示す。 したがって、デジタルソクラテスはモデルの説明行動を理解し改善するための評価ツールの重要なギャップを埋める。

While LLMs can provide reasoned explanations along with their answers, the nature and quality of those explanations are still poorly understood. In response, our goal is to define a detailed way of characterizing the explanation capabilities of modern models and to create a nuanced, interpretable explanation evaluation tool that can generate such characterizations automatically, without relying on expensive API calls or human annotations. Our approach is to (a) define the new task of explanation critiquing - identifying and categorizing any main flaw in an explanation and providing suggestions to address the flaw, (b) create a sizeable, human-verified dataset for this task, and (c) train an open-source, automatic critique model (called Digital Socrates) using this data. Through quantitative and qualitative analysis, we demonstrate how Digital Socrates is useful for revealing insights about student models by examining their reasoning chains, and how it can provide high-quality, nuanced, automatic evaluation of those model explanations for the first time. Digital Socrates thus fills an important gap in evaluation tools for understanding and improving the explanation behavior of models.
翻訳日:2024-02-19 19:56:08 公開日:2024-02-16
# Fusion-Eval: LLMと評価器の統合

Fusion-Eval: Integrating Evaluators with LLMs ( http://arxiv.org/abs/2311.09204v2 )

ライセンス: Link先を確認
Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng(参考訳) 自然言語システムの評価は、特に自然言語理解と高水準推論の領域において重要な課題となる。 本稿では,Large Language Models (LLMs) を利用した多様なアシスタント評価器からの洞察を統合する革新的なアプローチであるFusion-Evalを紹介する。 これらの評価者はそれぞれ、応答の異なる側面を評価することを専門としている。 このユニークな戦略により、Fusion-Evalは様々なタスクや基準で効果的に機能し、既存の評価手法の有効性を高めることができる。 Fusion-Eval は SummEval 上の人間と 0.962 のシステムレベルの Kendall-Tau 相関と TopicalChat 上の 0.744 のターンレベルの Spearman 相関を達成している。 これらの結果は、自然言語システム評価におけるfusion-evalの有意な可能性を強調している。

Evaluating natural language systems poses significant challenges, particularly in the realms of natural language understanding and high-level reasoning. In this paper, we introduce "Fusion-Eval", an innovative approach that leverages Large Language Models (LLMs) to integrate insights from various assistant evaluators. Each of these evaluators specializes in assessing distinct aspects of responses. This unique strategy enables Fusion-Eval to function effectively across a diverse range of tasks and criteria, enhancing the effectiveness of existing evaluation methods. Fusion-Eval achieves a 0.962 system-level Kendall-Tau correlation with humans on SummEval and a 0.744 turn-level Spearman correlation on TopicalChat, which is significantly higher than baseline methods. These results highlight Fusion-Eval's significant potential in the realm of natural language system evaluation.
翻訳日:2024-02-19 19:55:50 公開日:2024-02-16
# CNE(Confident Naturalness Explanation) : 自然性を形成するパターンの説明と評価のためのフレームワーク

Confident Naturalness Explanation (CNE): A Framework to Explain and Assess Patterns Forming Naturalness ( http://arxiv.org/abs/2311.08936v4 )

ライセンス: Link先を確認
Ahmed Emam, Mohamed Farag, Ribana Roscher(参考訳) 保護された自然地域は、都市化、農業、その他の人間の介入といった人間の活動によって最小限の影響を受ける地域である。 これらの領域の自然性を理解しマップするために、機械学習モデルを使用して衛星画像を分析することができる。 具体的には、説明可能な機械学習手法は、これらの保護された環境における自然性の概念に寄与するパターンを明らかにすることに有望である。 さらに、機械学習モデルに内在する不確実性に対処することは、この概念の包括的理解に不可欠である。 しかし、既存のアプローチには制限がある。 彼らは、正当かつ客観的な説明を提供しなかったり、特定のパターンの自然性への寄与を正確に測定し、関連する信頼度を測定する量的指標の提供に苦慮した。 本稿では,自信自然性説明(cne)フレームワークという新しい枠組みを提案する。 このフレームワークは、自然性の評価と説明のために説明可能な機械学習と不確実性定量化を組み合わせる。 自然性の概念に対するパターンの確実な寄与を記述した新しい定量的指標を導入する。 さらに,各入力サンプルに対して不確実性対応セグメンテーションマスクを生成し,モデルに知識が欠けている領域を強調する。 本フレームワークの有効性を実証するため,Fennoscandiaの2つのオープンソースの衛星データセットを用いて研究現場に適用した。

Protected natural areas are regions that have been minimally affected by human activities such as urbanization, agriculture, and other human interventions. To better understand and map the naturalness of these areas, machine learning models can be used to analyze satellite imagery. Specifically, explainable machine learning methods show promise in uncovering patterns that contribute to the concept of naturalness within these protected environments. Additionally, addressing the uncertainty inherent in machine learning models is crucial for a comprehensive understanding of this concept. However, existing approaches have limitations. They either fail to provide explanations that are both valid and objective or struggle to offer a quantitative metric that accurately measures the contribution of specific patterns to naturalness, along with the associated confidence. In this paper, we propose a novel framework called the Confident Naturalness Explanation (CNE) framework. This framework combines explainable machine learning and uncertainty quantification to assess and explain naturalness. We introduce a new quantitative metric that describes the confident contribution of patterns to the concept of naturalness. Furthermore, we generate an uncertainty-aware segmentation mask for each input sample, highlighting areas where the model lacks knowledge. To demonstrate the effectiveness of our framework, we apply it to a study site in Fennoscandia using two open-source satellite datasets.
翻訳日:2024-02-19 19:55:34 公開日:2024-02-16
# ルールから学ぶための大規模言語モデルの実現

Enabling Large Language Models to Learn from Rules ( http://arxiv.org/abs/2311.08883v2 )

ライセンス: Link先を確認
Wenkai Yang, Yankai Lin, Jie Zhou, Jirong Wen(参考訳) 大規模言語モデル(LLM)は、様々な現実世界のタスクを完了させるのに素晴らしいパフォーマンスを示している。 LLMの現在の知識学習パラダイムは主に、LLMが一定の数の教師付き例から暗黙的に内部ルールを学ぶ例から学ぶことに基づいている。 しかし、この学習パラダイムは、特にトレーニング例が限定されている場合、これらの複雑なルールを十分に学ばないかもしれない。 私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。 つまり、人間が新しいタスクを学習したり、新しい知識を素早く把握したり、詳細なルールといくつかのオプションの例だけをうまく一般化することができる。 そこで本稿では,ルールに基づく知識をllmにエンコードすることを目的とした,この新しい学習パラダイムの実現可能性について検討する。 さらに, LLMの強いコンテキスト内能力を用いて, テキストルールから知識を抽出し, モデル内で生成したコンテキスト内信号から学習することで, LLMのパラメータに明示的に知識をエンコードするルール蒸留を提案する。 実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。 警告: 本論文は攻撃的な内容の例を含むことができる。

Large language models (LLMs) have shown incredible performance in completing various real-world tasks. The current knowledge learning paradigm of LLMs is mainly based on learning from examples, in which LLMs learn the internal rule implicitly from a certain number of supervised examples. However, this learning paradigm may not well learn those complicated rules, especially when the training examples are limited. We are inspired that humans can learn the new tasks or knowledge in another way by learning from rules. That is, humans can learn new tasks or grasps new knowledge quickly and generalize well given only a detailed rule and a few optional examples. Therefore, in this paper, we aim to explore the feasibility of this new learning paradigm, which targets on encoding rule-based knowledge into LLMs. We further propose rule distillation, which first uses the strong in-context abilities of LLMs to extract the knowledge from the textual rules, and then explicitly encode the knowledge into the parameters of LLMs by learning from the above in-context signals produced inside the model. Our experiments show that making LLMs learn from rules by our method is much more efficient than example-based learning in both the sample size and generalization ability. Warning: This paper may contain examples with offensive content.
翻訳日:2024-02-19 19:55:14 公開日:2024-02-16
# StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル

StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving ( http://arxiv.org/abs/2311.08803v2 )

ライセンス: Link先を確認
Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam(参考訳) 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。 これらの制限に対処するために,我々は,llmの機能を利用して様々なタスクに対して汎用的で一貫性のある数発プロンプトを自動的に構築する包括的フレームワークであるstrategyllmを提案する。 この目的のためにstrategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。 実験の結果、StrategyLLMは、数学推論(34.21%$\rightarrow$38.79%)、コモンセンス推論(70.3%$\rightarrow$72.5%)、アルゴリズム推論(51.7%$\rightarrow$62.0%)、記号推論(30.0%$\rightarrow$79.2%)を含む、4つの課題を伴わない13のデータセットに、人間アノテートされたソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。

Most existing chain-of-thought (CoT) prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other cases and lack task-level consistency in their reasoning steps. To address these limitations, we propose a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to construct generalizable and consistent few-shot prompts for various tasks automatically. To this end, StrategyLLM employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task. The experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (34.21% $\rightarrow$ 38.79%), commonsense reasoning (70.3% $\rightarrow$ 72.5%), algorithmic reasoning (51.7% $\rightarrow$ 62.0%), and symbolic reasoning (30.0% $\rightarrow$ 79.2%).
翻訳日:2024-02-19 19:54:52 公開日:2024-02-16
# フェルミオンステアリングはディラトンブラックホールの背景では非局所的ではない

Fermionic steering is not nonlocal in the background of dilaton black hole ( http://arxiv.org/abs/2311.08709v2 )

ライセンス: Link先を確認
Shu-Min Wu, Jin-Xuan Li, Xiao-Ying Jiang, Xiao-Wei Teng, Xiao-Li Huang, Jianbo Lu(参考訳) 我々は,ガーフィンクル・ホロウィッツ・ストロミンジャー・ディラトンブラックホールの背景におけるフェルミオンステアリングの再分布とフェルミオンベル非局在性,ステアリングおよび絡み合いの関係について検討した。 曲線時空におけるベル不等式の観点から,フェルミオンステアリングの意味を解析した。 フェルミオンステアリングは、かつては極端ディラトンブラックホールで生存していたと考えられていたが、非局所的とは考えられなかった。 また, ディラトン重力はフェルミオンステアリングを再分配できるが, ベル非局所性は再分配できないことから, 物理的にアクセス不能なステアリングも非局所的ではない。 到達不能な絡み合いとは異なり、到達不能なステアリングはディラトンと非単調に増加する可能性がある。 さらに, ダイラトン時空におけるフェルミオンステアリングと絡み合いの関係について述べる。 さらに,曲線時空におけるフェルミオンとボソニックステアリングの違いを示す。

We study the redistribution of the fermionic steering and the relation among fermionic Bell nonlocality, steering, and entanglement in the background of the Garfinkle-Horowitz-Strominger dilaton black hole. We analyze the meaning of the fermionic steering in terms of the Bell inequality in curved spacetime. We find that the fermionic steering, which is previously found to survive in the extreme dilaton black hole, cannot be considered to be nonlocal. We also find that the dilaton gravity can redistribute the fermionic steering, but cannot redistribute Bell nonlocality, which means that the physically inaccessible steering is also not nonlocal. Unlike the inaccessible entanglement, the inaccessible steering may increase non-monotonically with the dilaton. Furthermore, we obtain some monogamy relations between the fermionic steering and entanglement in dilaton spacetime. In addition, we show the difference between the fermionic and bosonic steering in curved spacetime.
翻訳日:2024-02-19 19:54:20 公開日:2024-02-16
# SimpleSafetyTests: 大規模言語モデルにおける臨界安全性リスクを特定するテストスイート

SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models ( http://arxiv.org/abs/2311.08370v2 )

ライセンス: Link先を確認
Bertie Vidgen, Nino Scherrer, Hannah Rose Kirk, Rebecca Qian, Anand Kannappan, Scott A. Hale, Paul R\"ottger(参考訳) 過去1年間、大規模言語モデル(llm)の開発は急速に加速している。 しかし、適切なステアリングとセーフガードがなければ、LSMは容易に悪意のある指示に従い、安全でないアドバイスを提供し、有害なコンテンツを生成する。 このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。 テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。 我々は,11個のオープンソース LLM と4つのクローズドソース LLM をテストする。 いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。 安全強調システムの導入は、安全でない応答の発生を大幅に減少させるが、完全には停止しない。 訓練されたアノテーションは、SSTに対する全てのモデル応答 (n = 3,000) をラベル付けした。 これらのアノテーションを使用して5つのai安全フィルタ(モデルの応答がプロンプトによって安全でないかどうかを評価する)を評価し、sst上で自動的にモデルのパフォーマンスを評価する。 フィルタの性能は様々である。 5つの危害地域と、安全でないと安全でない対応には違いがある。 広く使用されているパースペクティブAPIは72%の精度で、新たに作成されたOpenAIのGPT-4へのゼロショットプロンプトは89%の精度で最高である。 コンテンツ警告: 本論文は、児童虐待、自殺、自傷行為、摂食障害、詐欺・詐欺、違法品、身体的危害に関連するプロンプトと反応を含む。

The past year has seen rapid acceleration in the development of large language models (LLMs). However, without proper steering and safeguards, LLMs will readily follow malicious instructions, provide unsafe advice, and generate toxic content. We introduce SimpleSafetyTests (SST) as a new test suite for rapidly and systematically identifying such critical safety risks. The test suite comprises 100 test prompts across five harm areas that LLMs, for the vast majority of applications, should refuse to comply with. We test 11 open-access and open-source LLMs and four closed-source LLMs, and find critical safety weaknesses. While some of the models do not give a single unsafe response, most give unsafe responses to more than 20% of the prompts, with over 50% unsafe responses in the extreme. Prepending a safety-emphasising system prompt substantially reduces the occurrence of unsafe responses, but does not completely stop them from happening. Trained annotators labelled every model response to SST (n = 3,000). We use these annotations to evaluate five AI safety filters (which assess whether a models' response is unsafe given a prompt) as a way of automatically evaluating models' performance on SST. The filters' performance varies considerably. There are also differences across the five harm areas, and on the unsafe versus safe responses. The widely-used Perspective API has 72% accuracy and a newly-created zero-shot prompt to OpenAI's GPT-4 performs best with 89% accuracy. Content Warning: This paper contains prompts and responses that relate to child abuse, suicide, self-harm and eating disorders, scams and fraud, illegal items, and physical harm.
翻訳日:2024-02-19 19:54:03 公開日:2024-02-16
# Q-SENN: 量子化された自己説明型ニューラルネットワーク

Q-SENN: Quantized Self-Explaining Neural Networks ( http://arxiv.org/abs/2312.13839v2 )

ライセンス: Link先を確認
Thomas Norrenbrock, Marco Rudolph, Bodo Rosenhahn(参考訳) コンピュータビジョンにおける説明はしばしば望まれるが、ディープニューラルネットワークのほとんどは、疑わしい忠実さを持つサリエンシマップしか提供できない。 自己説明型ニューラルネットワーク(SENN)は、解釈可能な概念を忠実さ、多様性、基礎として抽出し、それらを線形に組み合わせて意思決定する。 認識されたことを説明できるが、初期実現には正確さと汎用性がない。 本稿では,量子自己説明型ニューラルネットワークQ-SENNを提案する。 Q-SENNはSENNのデシラタを満足または超過し、より複雑なデータセットに適用し、解釈不能なベースラインモデルのほとんどまたは全てを維持し、すべての考慮された指標において以前の作業より優れている。 Q-SENNは、全てのクラスと機能の間の関係を、任意の数の可能な関係ではなく、肯定的、否定的、中立的な関係として記述し、よりバイナリな人間フレンドリな特徴を強制する。 すべてのクラスが平均で5つの解釈可能な機能に割り当てられているため、Q-SENNは局所的およびグローバル的解釈可能性を示す。 また,学習した特徴を人間の言語に基づく概念と整合させる機能アライメント手法を提案する。 したがって、学習内容はより容易に言語化できる。 コードは https://github.com/ThomasNorr/Q-SENN

Explanations in Computer Vision are often desired, but most Deep Neural Networks can only provide saliency maps with questionable faithfulness. Self-Explaining Neural Networks (SENN) extract interpretable concepts with fidelity, diversity, and grounding to combine them linearly for decision-making. While they can explain what was recognized, initial realizations lack accuracy and general applicability. We propose the Quantized-Self-Explaining Neural Network Q-SENN. Q-SENN satisfies or exceeds the desiderata of SENN while being applicable to more complex datasets and maintaining most or all of the accuracy of an uninterpretable baseline model, out-performing previous work in all considered metrics. Q-SENN describes the relationship between every class and feature as either positive, negative or neutral instead of an arbitrary number of possible relations, enforcing more binary human-friendly features. Since every class is assigned just 5 interpretable features on average, Q-SENN shows convincing local and global interpretability. Additionally, we propose a feature alignment method, capable of aligning learned features with human language-based concepts without additional supervision. Thus, what is learned can be more easily verbalized. The code is published: https://github.com/ThomasNorr/Q-SENN
翻訳日:2024-02-19 19:48:03 公開日:2024-02-16
# BloomVQA:階層型マルチモーダル理解の評価

BloomVQA: Assessing Hierarchical Multi-modal Comprehension ( http://arxiv.org/abs/2312.12716v2 )

ライセンス: Link先を確認
Yunye Gong, Robik Shrestha, Jared Claypoole, Michael Cogswell, Arijit Ray, Christopher Kanan, Ajay Divakaran(参考訳) 本稿では,理解タスクにおける大規模視覚言語モデルの包括的評価を容易にするために,新しいVQAデータセットであるBloomVQAを提案する。 理論的な根拠のない事実に基づく暗記や単純な推論タスクにしばしば焦点をあてる現在のベンチマークとは異なり、ブルームの分類学(Taxonomy)は教育研究で広く採用されている学習評価のための古典的な枠組みである。 モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。 近年のマルチモーダルモデルにおける評価と信頼性の評価を行う。 低レベルのタスクと比較して、高度な理解と認知スキルを必要とするタスクのパフォーマンスが38.0%のVQA精度で低下しているのを観察する。 従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示した。 現在のモデルは、様々なシナリオにおいて人間の理解と一致しない一貫性パターンを示し、理論的な基準に基づいて改善の必要性を示す。

We propose a novel VQA dataset, BloomVQA, to facilitate comprehensive evaluation of large vision-language models on comprehension tasks. Unlike current benchmarks that often focus on fact-based memorization and simple reasoning tasks without theoretical grounding, we collect multiple-choice samples based on picture stories that reflect different levels of comprehension, as laid out in Bloom's Taxonomy, a classic framework for learning assessment widely adopted in education research. Our data maps to a novel hierarchical graph representation which enables automatic data augmentation and novel measures characterizing model consistency. We perform graded evaluation and reliability analysis on recent multi-modal models. In comparison to low-level tasks, we observe decreased performance on tasks requiring advanced comprehension and cognitive skills with up to 38.0% drop in VQA accuracy. In comparison to earlier models, GPT-4V demonstrates improved accuracy over all comprehension levels while also shows a tendency of bypassing visual inputs especially for higher-level tasks. Current models also show consistency patterns misaligned with human comprehension in various scenarios, demonstrating the need of improvement based on theoretically-grounded criteria.
翻訳日:2024-02-19 19:47:42 公開日:2024-02-16
# 応答強化半教師付き対話クエリ生成

Response Enhanced Semi-supervised Dialogue Query Generation ( http://arxiv.org/abs/2312.12713v2 )

ライセンス: Link先を確認
Jianheng Huang, Ante Wang, Linfeng Gao, Linfeng Song, Jinsong Su(参考訳) インターネットから広範囲かつ継続的に更新された知識を活用することは、対話システムにとって重要な能力であると考えられている。 そこで,対話履歴から検索クエリを生成するための対話クエリ生成タスクを提案し,関連するwebサイトをインターネット上で検索するための検索エンジンに提出する。 そこで本研究では,注釈付きクエリによる会話の収集と,標準教師あり学習によるクエリ生成者(QP)の訓練を行った。 しかし、これらの研究はデータ不足とドメイン適応の課題に直面している。 これらの課題に対処するため,本稿では,ラベルなし会話によるモデル性能向上を目的としたセミ教師付き学習フレームワークであるSemiDQGを提案する。 検索クエリが対話応答の話題と典型的に関連しているという観測に基づいて、応答型クエリ生成器(ra)を訓練し、qpにリッチで効果的なトレーニング信号を提供する。 まず、類似性に基づくクエリ選択手法を適用し、高品質なRA生成擬似クエリを選択し、QPとRAをトレーニングするための擬似インスタンスを構築する。 そこで, RAによる報酬を微粒化学習信号として, さらにQPを向上させるためにREINFORCEアルゴリズムを採用した。 3つのベンチマークの実験結果と詳細な分析により,クロスドメインおよび低リソースシナリオにおけるフレームワークの有効性が示された。 特にSemiDQGはChatGPTと競争ベースラインを大きく上回っている。 私たちのコードは \url{https://github.com/DeepLearnXMU/SemiDQG} で利用可能です。

Leveraging vast and continually updated knowledge from the Internet has been considered an important ability for a dialogue system. Therefore, the dialogue query generation task is proposed for generating search queries from dialogue histories, which will be submitted to a search engine for retrieving relevant websites on the Internet. In this regard, previous efforts were devoted to collecting conversations with annotated queries and training a query producer (QP) via standard supervised learning. However, these studies still face the challenges of data scarcity and domain adaptation. To address these issues, in this paper, we propose a semi-supervised learning framework -- SemiDQG, to improve model performance with unlabeled conversations. Based on the observation that the search query is typically related to the topic of dialogue response, we train a response-augmented query producer (RA) to provide rich and effective training signals for QP. We first apply a similarity-based query selection strategy to select high-quality RA-generated pseudo queries, which are used to construct pseudo instances for training QP and RA. Then, we adopt the REINFORCE algorithm to further enhance QP, with RA-provided rewards as fine-grained training signals. Experimental results and in-depth analysis of three benchmarks show the effectiveness of our framework in cross-domain and low-resource scenarios. Particularly, SemiDQG significantly surpasses ChatGPT and competitive baselines. Our code is available at \url{https://github.com/DeepLearnXMU/SemiDQG}.
翻訳日:2024-02-19 19:47:21 公開日:2024-02-16
# feddiv: 雑音ラベルを用いた連合学習のための協調雑音フィルタリング

FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy Labels ( http://arxiv.org/abs/2312.12263v3 )

ライセンス: Link先を確認
Jichang Li, Guanbin Li, Hui Cheng, Zicheng Liao, Yizhou Yu(参考訳) F-LNL(Federated Learning with Noisy labels)は、ローカルノイズやクリーンサンプルでトレーニングされた複数のクライアントモデルを集約することで、協調的な分散学習を通じて最適なサーバモデルを求めることを目的としている。 フェデレーション学習の枠組みに基づき,近年では,各クライアントのクリーンサンプルとノイズサンプルを分離するラベルノイズフィルタリングを主に採用し,ラベルノイズの悪影響を軽減している。 しかし、これらの従来の手法は、全てのクライアントの知識を生かしてノイズフィルタを学習しないため、準最適かつ劣悪なノイズフィルタリング性能が得られ、訓練安定性を損なう。 本稿ではF-LNLの課題に取り組むためにFedDivを提案する。 具体的には,各クライアントのノイズラベル付きサンプルを効果的に識別し,局所的なトレーニングセッションの安定性を高めるための,フェデレートノイズフィルタというグローバルノイズフィルタを提案する。 データプライバシを犠牲にすることなく、すべてのクライアントに対するラベルノイズのグローバル分布をモデル化することで実現される。 そして,グローバルモデルを高い性能を達成するために,予測整合性に基づくサンプリングを導入し,局所モデルトレーニングのためのより信頼性の高いローカルデータを特定し,ノイズの記憶を防止し,トレーニング安定性を高める。 CIFAR-10, CIFAR-100, Clothing1Mの大規模な実験により, IIDおよび非IIDデータパーティションの異なるラベル設定下での最先端F-LNL法よりも優れた性能が得られた。 ソースコードはhttps://github.com/lijichang/FLNL-FedDiv.comで公開されている。

Federated learning with noisy labels (F-LNL) aims at seeking an optimal server model via collaborative distributed learning by aggregating multiple client models trained with local noisy or clean samples. On the basis of a federated learning framework, recent advances primarily adopt label noise filtering to separate clean samples from noisy ones on each client, thereby mitigating the negative impact of label noise. However, these prior methods do not learn noise filters by exploiting knowledge across all clients, leading to sub-optimal and inferior noise filtering performance and thus damaging training stability. In this paper, we present FedDiv to tackle the challenges of F-LNL. Specifically, we propose a global noise filter called Federated Noise Filter for effectively identifying samples with noisy labels on every client, thereby raising stability during local training sessions. Without sacrificing data privacy, this is achieved by modeling the global distribution of label noise across all clients. Then, in an effort to make the global model achieve higher performance, we introduce a Predictive Consistency based Sampler to identify more credible local data for local model training, thus preventing noise memorization and further boosting the training stability. Extensive experiments on CIFAR-10, CIFAR-100, and Clothing1M demonstrate that \texttt{FedDiv} achieves superior performance over state-of-the-art F-LNL methods under different label noise settings for both IID and non-IID data partitions. Source code is publicly available at https://github.com/lijichang/FLNL-FedDiv.
翻訳日:2024-02-19 19:46:57 公開日:2024-02-16
# KGLens: LLMがしていることと知らないことを評価するためのパラメータ化された知識グラフソリューション

KGLens: A Parameterized Knowledge Graph Solution to Assess What an LLM Does and Doesn't Know ( http://arxiv.org/abs/2312.11539v2 )

ライセンス: Link先を確認
Shangshang Zheng, He Bai, Yizhe Zhang, Yi Su, Xiaochuan Niu, Navdeep Jaitly(参考訳) 知識グラフ(KG)とLarge Language Models(LLM)のアライメントを測定することは,現実性を評価し,LLMの知識盲点を特定する効果的な方法である。 しかし、このアプローチは、自然言語へのkgの翻訳と、これら広範囲で複雑な構造の効率的な評価という2つの主要な課題に遭遇する。 本稿では、KGLensについて、KGsとLLMsのアライメントを測定し、KGsに対するLLMsの知識不足を指摘するための新しいフレームワークを提案する。 kglensは、自然言語に変換するためのグラフガイド付き質問生成器と、パラメータ化されたkg構造に基づいた注意深く設計されたサンプリング戦略を備えている。 Wikidataの3つのドメイン固有KGを用いて,19,000のエッジ,700のリレーション,21,000のエンティティからなる実験を行った。 8 llm を対象に分析した結果,kglens は llm の事実的正確性をより迅速に評価するだけでなく,トピックや時間的ダイナミクス,関係性について詳細な分析を行うことができた。 さらに、人間の評価結果は、KGLensが人間のアノテーションとほぼ同等の精度でLSMを評価し、精度の95.7%に達することを示唆している。

Measuring the alignment between a Knowledge Graph (KG) and Large Language Models (LLMs) is an effective method to assess the factualness and identify the knowledge blind spots of LLMs. However, this approach encounters two primary challenges including the translation of KGs into natural language and the efficient evaluation of these extensive and complex structures. In this paper, we present KGLens--a novel framework aimed at measuring the alignment between KGs and LLMs, and pinpointing the LLMs' knowledge deficiencies relative to KGs. KGLens features a graph-guided question generator for converting KGs into natural language, along with a carefully designed sampling strategy based on parameterized KG structure to expedite KG traversal. We conducted experiments using three domain-specific KGs from Wikidata, which comprise over 19,000 edges, 700 relations, and 21,000 entities. Our analysis across eight LLMs reveals that KGLens not only evaluates the factual accuracy of LLMs more rapidly but also delivers in-depth analyses on topics, temporal dynamics, and relationships. Furthermore, human evaluation results indicate that KGLens can assess LLMs with a level of accuracy nearly equivalent to that of human annotators, achieving 95.7% of the accuracy rate.
翻訳日:2024-02-19 19:46:30 公開日:2024-02-16
# より高速なLDM推論のためのカスケード投機

Cascade Speculative Drafting for Even Faster LLM Inference ( http://arxiv.org/abs/2312.11462v3 )

ライセンス: Link先を確認
Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)推論の効率を高めるために導入された投機的復号法は、より小さなモデルでドラフトを生成する。 より大きなターゲットモデルは、その出力に合わせてこのドラフトをレビューし、ターゲットモデルによる受け入れは、ターゲットモデルの実行数を減らす結果となり、最終的に効率が向上する。 しかし、投機的復号法における起草過程は、自己回帰生成が遅いことを含み、その重要性に関係なくトークンの生成に等しい時間を割り当てる。 これらの非効率性は総合的に投機的復号の最適性能に寄与する。 LLM推論をさらに改善するため、2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を導入する。 Vertical Cascadeはニューラルネットワークモデルからの自己回帰生成を排除し、Horizontal Cascadeはドラフトの時間割当を最適化して効率を向上する。 両方のカスケードを組み合わせることで、CS Draftingは、ターゲットモデルと同じ出力分布を維持しながら、我々の実験で投機的復号化よりも最大81%高速化できる。 私たちのコードはhttps://github.com/lfsszd/CS-Drafting.comで公開されています。

Introduced to enhance the efficiency of large language model (LLM) inference, speculative decoding operates by having a smaller model generate a draft. A larger target model then reviews this draft to align with its output, and any acceptance by the target model results in a reduction of the number of the target model runs, ultimately improving efficiency. However, the drafting process in speculative decoding includes slow autoregressive generation and allocates equal time to generating tokens, irrespective of their importance. These inefficiencies collectively contribute to the suboptimal performance of speculative decoding. To further improve LLM inference, we introduce Cascade Speculative Drafting (CS Drafting), a speculative execution algorithm that incorporates two types of cascades. The Vertical Cascade eliminates autoregressive generation from neural models, while the Horizontal Cascade optimizes time allocation in drafting for improved efficiency. Combining both cascades, CS Drafting achieves up to an 81 percent additional speedup over speculative decoding in our experiments, while maintaining the same output distribution as the target model. Our code is publicly available at https://github.com/lfsszd/CS-Drafting.
翻訳日:2024-02-19 19:46:05 公開日:2024-02-16
# 大規模言語モデルによる分割と再帰

Split and Rephrase with Large Language Models ( http://arxiv.org/abs/2312.11075v3 )

ライセンス: Link先を確認
David Ponce, Thierry Etchegoyhen, Jes\'us Calleja P\'erez, Harritxu Gete(参考訳) 複雑な文を短い文法的な文列に分割することからなるsprp(split and rephrase)タスクは、元の意味を保ちながら、人間や機械のための複雑なテキストの処理を容易にする。 また、複雑な文法的な側面をモデル化する必要があるため、自然言語処理モデルを評価する上でも貴重なテストベッドである。 本研究では,タスク上での大規模言語モデルの評価を行い,コンプライアンスの分割に関してはまだ遅れているものの,主要な指標に基づいて技術状況に対して大幅な改善が可能であることを示す。 2つの人的評価の結果は、自動測定結果から得られた結論をさらに裏付ける。 本研究では, パラメータサイズや学習データ量が異なる, 変種, ドメインシフト, 微調整済みの事前学習言語モデルについて, ゼロショット, 少数ショットの両言語モデルとの比較を行った。 後者は微調整されたモデルで著しく上回っているが、合理的なオフ・ザ・棚の代替案となる可能性がある。 この結果から,SPRPにおける大規模言語モデルの可能性と限界を詳細に分析し,比較的少数のトレーニングデータとモデルパラメータを用いて達成可能な大幅な改善と,タスク上のすべてのモデルに対する制限の維持を実現した。

The Split and Rephrase (SPRP) task, which consists in splitting complex sentences into a sequence of shorter grammatical sentences, while preserving the original meaning, can facilitate the processing of complex texts for humans and machines alike. It is also a valuable testbed to evaluate natural language processing models, as it requires modelling complex grammatical aspects. In this work, we evaluate large language models on the task, showing that they can provide large improvements over the state of the art on the main metrics, although still lagging in terms of splitting compliance. Results from two human evaluations further support the conclusions drawn from automated metric results. We provide a comprehensive study that includes prompting variants, domain shift, fine-tuned pretrained language models of varying parameter size and training data volumes, contrasted with both zero-shot and few-shot approaches on instruction-tuned language models. Although the latter were markedly outperformed by fine-tuned models, they may constitute a reasonable off-the-shelf alternative. Our results provide a fine-grained analysis of the potential and limitations of large language models for SPRP, with significant improvements achievable using relatively small amounts of training data and model parameters overall, and remaining limitations for all models on the task.
翻訳日:2024-02-19 19:45:43 公開日:2024-02-16
# 臨界点近傍の通過過程における断熱的遷移

Nonadiabatic transitions during a passage near a critical point ( http://arxiv.org/abs/2312.10664v2 )

ライセンス: Link先を確認
Nikolai A. Sinitsyn, Vijay Ganesh Sadhasivam, Fumika Suzuki(参考訳) 多体量子系の臨界点を通る通過は、豊富な非断熱励起をもたらす。 ここでは、システムが徐々に近づいているにもかかわらず、臨界点が交差しない体制を探求する。 このときの励起確率の先行指数は、ダイクネの公式の標準的な議論によって得られるが、指数的プレファクタはもはや単純ではなく、特性遷移速度のパワー則として振る舞う。 非線形ランダウ・ツェナーモデル(nLZ)のこのプレファクターは、ダイクネのアプローチを調整することによって導出する。 次に,スタークラダーの臨界点付近における遷移の完全可解モデルを導入する。 近似を使わずに励起数を導出し、励起スケーリングの質的に類似した結果を求める。

The passage through a critical point of a many-body quantum system leads to abundant nonadiabatic excitations. Here, we explore a regime, in which the critical point is not crossed although the system is passing slowly very close to it. We show that the leading exponent for the excitation probability then can be obtained by standard arguments of the Dykhne formula but the exponential prefactor is no longer simple, and behaves as a power law on the characteristic transition rate. We derive this prefactor for the nonlinear Landau-Zener (nLZ) model by adjusting the Dykhne's approach. Then, we introduce an exactly solvable model of the transition near a critical point in the Stark ladder. We derive the number of the excitations for it without approximations, and find qualitatively similar results for the excitation scaling.
翻訳日:2024-02-19 19:45:20 公開日:2024-02-16
# PULSAR:パーキンソン病認識のためのマルチストリーム適応畳み込みを用いたグラフベース正の未ラベル学習

PULSAR: Graph based Positive Unlabeled Learning with Multi Stream Adaptive Convolutions for Parkinson's Disease Recognition ( http://arxiv.org/abs/2312.05780v2 )

ライセンス: Link先を確認
Md. Zarif Ul Alam, Md Saiful Islam, Ehsan Hoque, M Saifur Rahman(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、運動、言語、協調に影響を及ぼす神経変性疾患である。 タイムリーな診断と治療はpd患者の生活の質を改善することができる。 しかし、低所得国(LMIC)では臨床診断へのアクセスが制限されている。 したがって、PDのための自動スクリーニングツールの開発は、特に公衆衛生分野において大きな社会的影響をもたらす可能性がある。 本稿では,運動障害学会(united parkinson's disease rating scale (mds-updrs)) の指テーピングタスクをウェブカメラで録画したビデオからpdをスクリーニングする新しい方法であるpulsarを提案する。 PULSARは,382名(PD患者183名)から収集したデータに基づいて,訓練および評価を行った。 適応型グラフ畳み込みニューラルネットワークを用いて,フィンガーテーピングタスクに特有の時間的グラフエッジを動的に学習した。 指関節の相対的位置, 触覚の速度, 加速度など, PD検出に重要となる様々なデータから特徴を学習するために, マルチストリーム適応畳み込みモデルを用いてこのアイデアを拡張した。 ビデオのラベルが自己申告されているため、非PDラベルのサンプルに未診断のPDがある可能性がある。 我々は、ラベル付き負のデータを必要としないPositive Unlabeled (PU) Learningというアイデアを活用しました。 我々の実験は、この方法で問題をモデル化する利点を明らかに示している。 PULSARは検証セットの80.95%の精度を達成し、データ量に制限があるにもかかわらず、独立したテストでは平均71.29%(2.49%の標準偏差)の精度を達成した。 これは医療分野でラベル付きデータが不足しているため、特に有望である。 PULSARは、PDスクリーニングを誰にとってもよりアクセスしやすいものにすることを願っている。 提案手法は、失調症やハンティントン病などの他の運動障害を評価するために拡張することができる。

Parkinson's disease (PD) is a neuro-degenerative disorder that affects movement, speech, and coordination. Timely diagnosis and treatment can improve the quality of life for PD patients. However, access to clinical diagnosis is limited in low and middle income countries (LMICs). Therefore, development of automated screening tools for PD can have a huge social impact, particularly in the public health sector. In this paper, we present PULSAR, a novel method to screen for PD from webcam-recorded videos of the finger-tapping task from the Movement Disorder Society - Unified Parkinson's Disease Rating Scale (MDS-UPDRS). PULSAR is trained and evaluated on data collected from 382 participants (183 self-reported as PD patients). We used an adaptive graph convolutional neural network to dynamically learn the spatio temporal graph edges specific to the finger-tapping task. We enhanced this idea with a multi stream adaptive convolution model to learn features from different modalities of data critical to detect PD, such as relative location of the finger joints, velocity and acceleration of tapping. As the labels of the videos are self-reported, there could be cases of undiagnosed PD in the non-PD labeled samples. We leveraged the idea of Positive Unlabeled (PU) Learning that does not need labeled negative data. Our experiments show clear benefit of modeling the problem in this way. PULSAR achieved 80.95% accuracy in validation set and a mean accuracy of 71.29% (2.49% standard deviation) in independent test, despite being trained with limited amount of data. This is specially promising as labeled data is scarce in health care sector. We hope PULSAR will make PD screening more accessible to everyone. The proposed techniques could be extended for assessment of other movement disorders, such as ataxia, and Huntington's disease.
翻訳日:2024-02-19 19:44:20 公開日:2024-02-16
# 特徴生成と融合による半監督型健康指標モニタリング

Semi-Supervised Health Index Monitoring with Feature Generation and Fusion ( http://arxiv.org/abs/2312.02867v2 )

ライセンス: Link先を確認
Ga\"etan Frusque, Ismail Nejjar, Majid Nabavi, Olga Fink(参考訳) 健康指数(HI)は、システムの健全性を評価し、異常検出などのタスクを支援し、高い安全性と信頼性を要求するシステムにとって有用な寿命を予測するために重要である。 高度監視は低コストで高精度を達成するために重要である。 HIラベルを現実世界のアプリケーションに保持することは、しばしばコストを抑え、継続的な正確な健康測定を必要とする。 したがって、機械摩耗の可能性を示唆する可能性のある実行時障害データセットを活用する方が便利であり、HI構築に半教師付きツールを適用する必要がある。 本研究では,Deep Semi-supervised Anomaly Detection (DeepSAD) 法をHI構築に適用する。 我々は、DeepSAD埋め込みを条件指標として、解釈可能性の問題とシステム固有の要因に対する感度に対処する。 次に,条件指標を豊かにするために多様性損失を導入する。 我々は、等方性制約を持つ交互投影アルゴリズムを用いて、DeepSAD埋め込みを正規化HIに変換する。 PHME 2010ミリングデータセットの検証では、基底真理HIsを用いた評価ベンチマークが有意義なHIs推定を示す。 我々の貢献により、よりアクセシブルで信頼性の高いHI推定が可能となる。

The Health Index (HI) is crucial for evaluating system health, aiding tasks like anomaly detection and predicting remaining useful life for systems demanding high safety and reliability. Tight monitoring is crucial for achieving high precision at a lower cost. Obtaining HI labels in real-world applications is often cost-prohibitive, requiring continuous, precise health measurements. Therefore, it is more convenient to leverage run-to failure datasets that may provide potential indications of machine wear condition, making it necessary to apply semi-supervised tools for HI construction. In this study, we adapt the Deep Semi-supervised Anomaly Detection (DeepSAD) method for HI construction. We use the DeepSAD embedding as a condition indicators to address interpretability challenges and sensitivity to system-specific factors. Then, we introduce a diversity loss to enrich condition indicators. We employ an alternating projection algorithm with isotonic constraints to transform the DeepSAD embedding into a normalized HI with an increasing trend. Validation on the PHME 2010 milling dataset, a recognized benchmark with ground truth HIs demonstrates meaningful HIs estimations. Our contributions create opportunities for more accessible and reliable HI estimation, particularly in cases where obtaining ground truth HI labels is unfeasible.
翻訳日:2024-02-19 19:43:17 公開日:2024-02-16
# 分布最小値問題に対する対称平均場ランゲヴィンダイナミクス

Symmetric Mean-field Langevin Dynamics for Distributional Minimax Problems ( http://arxiv.org/abs/2312.01127v2 )

ライセンス: Link先を確認
Juno Kim, Kakei Yamamoto, Kazusato Oko, Zhuoran Yang, Taiji Suzuki(参考訳) 本稿では, 平均場ランゲヴィンダイナミクスを, 対称的かつ確実に収束した更新を用いて, 確率分布に対する最小限の最適化に拡張する。 分散空間における勾配勾配勾配を新しい重み付け平均化で実現し,混合ナッシュ平衡に対する平均点収束性を確立する一ループアルゴリズムである平均場ランゲヴィン平均勾配(MFL-AG)を提案する。 また, 時間と粒子の離散化のレジームについても検討し, 粒子間相互作用のすべての分布依存性を考慮し, カオス結果の新たな一様化を証明した。 さらに,線形ラストイテレート収束を伴う最良応答ダイナミクスに基づく対称二重ループアルゴリズムである平均場ランジュバンアンカーベストレスポンス(mfl-abr)を提案する。 最後に,ゼロサムマルコフゲームに適用し,長期最適性を示すシミュレーションを行う。

In this paper, we extend mean-field Langevin dynamics to minimax optimization over probability distributions for the first time with symmetric and provably convergent updates. We propose mean-field Langevin averaged gradient (MFL-AG), a single-loop algorithm that implements gradient descent ascent in the distribution spaces with a novel weighted averaging, and establish average-iterate convergence to the mixed Nash equilibrium. We also study both time and particle discretization regimes and prove a new uniform-in-time propagation of chaos result which accounts for the dependency of the particle interactions on all previous distributions. Furthermore, we propose mean-field Langevin anchored best response (MFL-ABR), a symmetric double-loop algorithm based on best response dynamics with linear last-iterate convergence. Finally, we study applications to zero-sum Markov games and conduct simulations demonstrating long-term optimality.
翻訳日:2024-02-19 19:42:59 公開日:2024-02-16
# 対応問題を回避する混合モデルに基づく物体姿勢推定のための確率幾何学的枠組み

A Stochastic-Geometrical Framework for Object Pose Estimation based on Mixture Models Avoiding the Correspondence Problem ( http://arxiv.org/abs/2311.18107v3 )

ライセンス: Link先を確認
Wolfgang Hoegele(参考訳) 背景: 剛体物体の姿勢推定は、光学メロロジーとコンピュータビジョンの実践的な課題である。 本稿では,複数の特徴点の観測に基づくオブジェクトポーズ推定のための新しい確率幾何学的モデリングフレームワークを提案する。 方法:本フレームワークはオブジェクト空間の特徴点密度と実測値の解釈に混合モデルを利用する。 利点は、個々の特徴対応を解消し、マルチビューアプリケーションに正しい確率的依存関係を組み込むのを避けることである。 第1に、一般的なモデリングフレームワークを示し、第2にポーズ推定のための一般的なアルゴリズムを導出し、第3に、2つのサンプルモデル(カメラ設定とラテネーション設定)を提示する。 結果: 数値実験により, 測定解像度, 物体変形, 測定ノイズに依存する3つの観測系に対して, シミュレーションシナリオを4つ提示し, このモデリングと一般アルゴリズムの有効性を示す。 混合モデルを用いた確率的モデリングは、対応問題を避けつつ、精度とロバストなポーズ推定の可能性を示している。

Background: Pose estimation of rigid objects is a practical challenge in optical metrology and computer vision. This paper presents a novel stochastic-geometrical modeling framework for object pose estimation based on observing multiple feature points. Methods: This framework utilizes mixture models for feature point densities in object space and for interpreting real measurements. Advantages are the avoidance to resolve individual feature correspondences and to incorporate correct stochastic dependencies in multi-view applications. First, the general modeling framework is presented, second, a general algorithm for pose estimation is derived, and third, two example models (camera and lateration setup) are presented. Results: Numerical experiments show the effectiveness of this modeling and general algorithm by presenting four simulation scenarios for three observation systems, including the dependence on measurement resolution, object deformations and measurement noise. Probabilistic modeling utilizing mixture models shows the potential for accurate and robust pose estimations while avoiding the correspondence problem.
翻訳日:2024-02-19 19:42:15 公開日:2024-02-16
# ccの問合せ:公共コーパスからの大規模ドメイン固有知識の発掘

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora ( http://arxiv.org/abs/2401.14624v2 )

ライセンス: Link先を確認
Zhaoye Fei, Yunfan Shao, Linyang Li, Zhiyuan Zeng, Hang Yan, Xipeng Qiu and Dahua Lin(参考訳) 大規模言語モデルは様々なタスクにおいて顕著な可能性を示してきたが、特定のドメインに対するオープンソースのモデルやデータが不足している。 これまでは主に、リソースを手動で指定したり、特定のドメインで高品質なデータを収集することに注力してきた。 この制限に対処するため,大規模言語モデルに基づく効率的なデータ収集手法~\textit{Query of CC}を提案する。 この方法は,大型言語モデルを通じてシード情報をブートストラップし,公開コーパスから関連するデータを取得する。 特定のドメインに関する知識関連データを収集するだけでなく、潜在的な推論手順でデータを発掘する。 本手法の適用により,ステムと人文科学を含む4つの主要な領域を含む高品質なデータセットである~\textsc{Knowledge Pile}をキュレートした。 実験の結果,~\textsc{Knowledge Pile} は数学および知識関連推論能力試験における大規模言語モデルの性能を著しく向上させることが示された。 学術的な共有を容易にするため、私たちはデータセットとコードをオープンソース化し、学術コミュニティに貴重な支援を提供します。

Large language models have demonstrated remarkable potential in various tasks, however, there remains a significant scarcity of open-source models and data for specific domains. Previous works have primarily focused on manually specifying resources and collecting high-quality data on specific domains, which significantly consume time and effort. To address this limitation, we propose an efficient data collection method~\textit{Query of CC} based on large language models. This method bootstraps seed information through a large language model and retrieves related data from public corpora. It not only collects knowledge-related data for specific domains but unearths the data with potential reasoning procedures. Through the application of this method, we have curated a high-quality dataset called~\textsc{Knowledge Pile}, encompassing four major domains, including stem and humanities sciences, among others. Experimental results demonstrate that~\textsc{Knowledge Pile} significantly improves the performance of large language models in mathematical and knowledge-related reasoning ability tests. To facilitate academic sharing, we open-source our dataset and code, providing valuable support to the academic community.
翻訳日:2024-02-19 19:36:04 公開日:2024-02-16
# MADA: 高度劣化によるメタ適応最適化

MADA: Meta-Adaptive Optimizers through hyper-gradient Descent ( http://arxiv.org/abs/2401.08893v2 )

ライセンス: Link先を確認
Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham Sabach, Branislav Kveton, Volkan Cevher(参考訳) adamの導入以来、ディープラーニングのための新しい適応最適化器がいくつか提案されている。 これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。 本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。 MADAのキーとなるアイデアは、最適化の空間をパラメータ化して、過勾配の降下を使って探索することだ。 我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚と言語タスクを経験的に比較する。 結果は、MADAはサブ最適化されたハイパーパラメータに対して堅牢であり、Adamや他の人気のあるオプティマイザよりも一貫して優れていることを示唆している。 MADAは、他の人気のあるオプティマイザがGPT-2トレーニングで行なっているAdamよりも、バリデーションパフォーマンスが$3\times高いことが分かりました。 また,高次最適化フレームワークに適した最大演算子と平均演算子を置き換えた AMSGrad の修正 AVGrad を提案する。 最後に,最適化器の補間により誤差境界(定数まで)が向上し,メタ最適化器の利点を示唆する収束解析を行う。

Since Adam was introduced, several novel adaptive optimizers for deep learning have been proposed. These optimizers typically excel in some tasks but may not outperform Adam uniformly across all tasks. In this work, we introduce Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can generalize several known optimizers and dynamically learn the most suitable one during training. The key idea in MADA is to parameterize the space of optimizers and search through it using hyper-gradient descent. We compare MADA to other popular optimizers empirically on vision and language tasks to train CNN, ResNet and GPT-2 models. Results suggest that MADA is robust against sub-optimally tuned hyper-parameters, and consistently outperforms Adam and other popular optimizers. We find that MADA gives $3\times$ the validation performance gain over Adam that other popular optimizers do on GPT-2 training. We also propose AVGrad, a modification of AMSGrad that replaces the maximum operator with averaging, that is suitable for hyper-gradient optimization framework. Finally, we provide a convergence analysis to show that interpolation of optimizers can improve their error bounds (up to constants), hinting at an advantage for meta-optimizers.
翻訳日:2024-02-19 19:35:44 公開日:2024-02-16
# SAPT:大規模言語モデルのパラメータ効率の良い連続学習のための共有注意フレームワーク

SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models ( http://arxiv.org/abs/2401.08295v2 )

ライセンス: Link先を確認
Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che(参考訳) 連続学習(cl)能力は、動的世界に大規模言語モデル(llm)を展開するのに不可欠である。 既存の手法では、パラメータ効率チューニング(pet)ブロックと選択モジュールを用いてタスク固有の知識を取得するための学習モジュールを考案し、clにおける壊滅的な忘れることや知識の伝達の課題に対処する。 しかし、これらの手法は難題の1つのみに対処しがちであり、2つのモジュールが破滅的な忘れ物と知識の伝達を同時に扱う可能性を無視している。 そこで,本稿では,ペットの学習と選択を共通注意学習と選択モジュールで調整する新しい共有注意フレームワーク(sapt)を提案する。 2つのCLベンチマークの大規模な実験は、SAPTの優位性を示している。 さらにSAPTは、異なるモデルサイズ(770Mから13B)、異なるモデルアーキテクチャ(T5とLLaMA-2)、見えないタスクにスケールする場合、その優位性を一貫して示しています。

The continual learning (CL) ability is vital for deploying large language models (LLMs) in the dynamic world. Existing methods devise the learning module to acquire task-specific knowledge with parameter-efficient tuning (PET) block and the selection module to pick out the corresponding one for the testing input, aiming at handling the challenges of catastrophic forgetting and knowledge transfer in CL. However, these methods tend to address only one of the challenges, ignoring the potential of aligning the two modules to effectively address catastrophic forgetting and knowledge transfer simultaneously. To this end, we propose a novel Shared Attention Framework (SAPT), to align the PET learning and selection via the Shared Attentive Learning \& Selection module. Extensive Experiments on two CL benchmarks demonstrate the superiority of SAPT. Moreover, SAPT consistently demonstrates its superiority when we scale it to different model sizes (from 770M to 13B), different model architectures (T5 and LLaMA-2) and unseen tasks.
翻訳日:2024-02-19 19:35:22 公開日:2024-02-16
# MARIO: MAth Reasoning with Code Interpreter Output -- 再現可能なパイプライン

MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline ( http://arxiv.org/abs/2401.08190v2 )

ライセンス: Link先を確認
Minpeng Liao, Wei Luo, Chengxi Li, Jing Wu, Kai Fan(参考訳) 大規模言語モデル(llm)は自然言語理解タスクにおいてかなりの進歩を遂げてきたが、真の人工知能に到達する前には、特に数学的推論能力の欠点に関して橋渡しのギャップが残っている。 我々は、次のトークンの確率を予測することに焦点を当てたLLMトレーニングの本質的な性質が、データ駆動と理論の両方の観点から正確な計算を必要とする数学的推論を効果的にモデル化する上での課題を提起する。 本稿では,データランドスケープを豊かにし,pythonコードインタプリタを活用した新しい数学データセットを導入することで,この課題に対処する。 このデータセットはGSM8KとMATHから派生したもので、オリジナルのGSM8Kトレーニングセットのエラーが修正されたGPT-4アノテーション、ヒューマンレビュー、自己学習プロセスの組み合わせによってさらに洗練されている。 さらに,GSM8KおよびMATHデータセット上での 7B パラメータ LLM の性能向上に寄与する,数学固有の LLM の微調整のための仮的かつ容易に複製可能なプロトコルを提案する。 LLMにおける数学的推論の分野を推し進めることにコミットしており、最終的には、データ生成/トレーニング/推論のためのソースコードを作成し、モデルチェックポイントは、 \url{https://github.com/MARIO-Math-Reasoning/MARIO}で公開しています。 これがコミュニティ内のさらなる研究と開発を促進することを願っています。

Large language models (LLMs) have seen considerable advancements in natural language understanding tasks, yet there remains a gap to bridge before attaining true artificial general intelligence, especially concerning shortcomings in mathematical reasoning capabilities. We postulate that the inherent nature of LLM training, which focuses on predicting probabilities of next token, presents challenges in effectively modeling mathematical reasoning that demands exact calculations, both from data-driven and theoretical standpoints. In this paper, we address this challenge by enriching the data landscape and introducing a novel math dataset, enhanced with a capability to utilize a Python code interpreter. This dataset is derived from GSM8K and MATH and has been further refined through a combination of GPT-4 annotations, human review, and self-training processes, where the errors in the original GSM8K training set have been fixed. Additionally, we propose a tentative, easily replicable protocol for the fine-tuning of math-specific LLMs, which has led to a significant improvement in the performance of a 7B-parameter LLM on the GSM8K and MATH datasets. We are committed to advancing the field of mathematical reasoning in LLMs and, to that end, we have made source code for data generation / training / inference, and the model checkpoints publicly available at \url{https://github.com/MARIO-Math-Reasoning/MARIO}. We hope this will facilitate further research and development within the community.
翻訳日:2024-02-19 19:35:02 公開日:2024-02-16
# 小さなLLMは弱いツール学習者:マルチLLMエージェント

Small LLMs Are Weak Tool Learners: A Multi-LLM Agent ( http://arxiv.org/abs/2401.07324v3 )

ライセンス: Link先を確認
Weizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, Fei Huang(参考訳) 大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張し、外部ツール(API、関数など)と対話し、セルフ指向で様々なタスクを完了させる。 ツール利用の課題は、LCMがユーザクエリを理解し、回答を正確に生成するだけでなく、タスク計画やツールの実行、結果の要約に優れることである。 従来の作業では、これらすべての機能で単一のLLMをトレーニングすることに集中していましたが、特に小さなモデルでは、パフォーマンスの制限が明らかになっています。 これらの課題を克服するために、上記の機能をプランナー、呼び出し者、要約者に分解する新しいアプローチを提案する。 各コンポーネントは、特定の機能に焦点を当てた単一のllmによって実装され、タスクを達成するために他の人とコラボレーションします。 このモジュール化フレームワークは、個々の更新と、各機能を構築するためのより小さなllmの使用を促進する。 このフレームワークを効果的にトレーニングするために,2段階のトレーニングパラダイムを導入する。 まず、サブタスクを識別することなく、データセット全体のバックボーンLDMを微調整し、タスクを包括的に理解するモデルを提供する。 次に、微調整LDMを用いて、各サブタスク上で連続的に微調整されるプランナー、呼び出し元、および要約器をインスタンス化する。 ツール使用ベンチマークによる評価は,提案したマルチLLMフレームワークが従来の単一LLMアプローチを超越していることを示し,ツール学習の有効性とメリットを強調している。

Large Language Model (LLM) agents significantly extend the capabilities of standalone LLMs, empowering them to interact with external tools (e.g., APIs, functions) and complete various tasks in a self-directed fashion. The challenge of tool use demands that LLMs not only understand user queries and generate answers accurately but also excel in task planning, tool invocation, and result summarization. While traditional works focus on training a single LLM with all these capabilities, performance limitations become apparent, particularly with smaller models. To overcome these challenges, we propose a novel approach that decomposes the aforementioned capabilities into a planner, caller, and summarizer. Each component is implemented by a single LLM that focuses on a specific capability and collaborates with others to accomplish the task. This modular framework facilitates individual updates and the potential use of smaller LLMs for building each capability. To effectively train this framework, we introduce a two-stage training paradigm. First, we fine-tune a backbone LLM on the entire dataset without discriminating sub-tasks, providing the model with a comprehensive understanding of the task. Second, the fine-tuned LLM is used to instantiate the planner, caller, and summarizer respectively, which are continually fine-tuned on respective sub-tasks. Evaluation across various tool-use benchmarks illustrates that our proposed multi-LLM framework surpasses the traditional single-LLM approach, highlighting its efficacy and advantages in tool learning.
翻訳日:2024-02-19 19:34:33 公開日:2024-02-16
# Batch-ICL:効果的、効率的、秩序に依存しないインコンテキスト学習

Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning ( http://arxiv.org/abs/2401.06469v2 )

ライセンス: Link先を確認
Kaiyi Zhang, Ang Lv, Yuhan Chen, Hansen Ha, Tao Xu, Rui Yan(参考訳) 本稿では,テキスト内学習(ICL)をメタ最適化プロセスとして扱うことにより,LCMがICLの順序に敏感である理由を説明する。 この理解は、ICLの効率的、効率的、秩序に依存しない推論アルゴリズムであるBatch-ICLの開発につながる。 標準的なNショット学習アプローチとは違い、Batch-ICLは$N$の1ショットフォワード計算を採用し、その結果のメタ勾配を集約する。 これらの集約されたメタ勾配をゼロショットクエリの前方計算に適用し、最終的な予測を生成する。 このバッチ処理アプローチでは、LCMはICLの例の順序に依存しない。 広範な実験と解析により、Batch-ICLはICLの例のほとんどの置換よりも一貫して優れていることを示した。 場合によっては、必要な計算リソースを削減しながら、標準iclの最高のオーダーのパフォーマンスを上回ることさえある。 さらに,メタ最適化の「エポック」を複数備えた新しいBatch-ICLを開発した。 この変種は暗黙的に icl の例の置換を探索し、さらに icl の性能を向上させる。

In this paper, by treating in-context learning (ICL) as a meta-optimization process, we explain why LLMs are sensitive to the order of ICL examples. This understanding leads us to the development of Batch-ICL, an effective, efficient, and order-agnostic inference algorithm for ICL. Differing from the standard N-shot learning approach, Batch-ICL employs $N$ separate 1-shot forward computations and aggregates the resulting meta-gradients. These aggregated meta-gradients are then applied to the forward computation of a zero-shot query to generate the final prediction. This batch processing approach renders the LLM agnostic to the order of ICL examples. Through extensive experiments and analysis, we demonstrate that Batch-ICL consistently outperforms most permutations of ICL examples. In some cases, it even exceeds the performance of the best order for standard ICL, all while reducing the computational resources required. Furthermore, we develop a novel variant of Batch-ICL featuring multiple "epochs" of meta-optimization. This variant implicitly explores permutations of ICL examples, further enhancing ICL performance.
翻訳日:2024-02-19 19:34:07 公開日:2024-02-16
# 大規模言語モデルの普遍的脆弱性: コンテキスト内学習のためのバックドア攻撃

Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning ( http://arxiv.org/abs/2401.05949v4 )

ライセンス: Link先を確認
Shuai Zhao, Meihuizi Jia, Luu Anh Tuan, Fengjun Pan, Jinming Wen(参考訳) In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスク、特に数ショット設定において高い有効性を示している。 広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。 本研究では,このパラダイムに関するセキュリティ上の懸念を提起する。 本研究は,攻撃者がモデルを微調整することなく,デモンストレーションコンテキストを汚染することにより,大規模言語モデルの動作を操作できることを実証する。 具体的には,コンテキスト内学習に基づく大規模言語モデルを対象に,新しいバックドア攻撃手法である iclattack を設計した。 本手法は2種類の攻撃を包含する: 毒殺実証例と毒殺実証プロンプトであり, モデルが事前定義された意図に沿って振る舞うことができる。 ICLAttackは、バックドアを埋め込むために追加の微調整を必要としないため、モデルの一般性を保っている。 さらに, 毒性例を正しくラベル付けし, 攻撃方法の自然なステルス性を高めた。 1.3bパラメーターから180bパラメーターまで、複数の言語モデルにわたる広範囲な実験結果が、オプティモデル上の3つのデータセットに対して95.0%高い平均攻撃成功率で示される攻撃手法の有効性を示している。

In-context learning, a paradigm bridging the gap between pre-training and fine-tuning, has demonstrated high efficacy in several NLP tasks, especially in few-shot settings. Despite being widely applied, in-context learning is vulnerable to malicious attacks. In this work, we raise security concerns regarding this paradigm. Our studies demonstrate that an attacker can manipulate the behavior of large language models by poisoning the demonstration context, without the need for fine-tuning the model. Specifically, we design a new backdoor attack method, named ICLAttack, to target large language models based on in-context learning. Our method encompasses two types of attacks: poisoning demonstration examples and poisoning demonstration prompts, which can make models behave in alignment with predefined intentions. ICLAttack does not require additional fine-tuning to implant a backdoor, thus preserving the model's generality. Furthermore, the poisoned examples are correctly labeled, enhancing the natural stealth of our attack method. Extensive experimental results across several language models, ranging in size from 1.3B to 180B parameters, demonstrate the effectiveness of our attack method, exemplified by a high average attack success rate of 95.0% across the three datasets on OPT models.
翻訳日:2024-02-19 19:33:49 公開日:2024-02-16
# AUTOACT: セルフプランニングによるスクラッチからの自動エージェント学習

AUTOACT: Automatic Agent Learning from Scratch via Self-Planning ( http://arxiv.org/abs/2401.05268v3 )

ライセンス: Link先を確認
Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen(参考訳) 言語エージェントは、様々な複雑な質問応答タスクでかなりのパフォーマンスを達成した。 この分野での絶え間ない探究にもかかわらず、既存の言語エージェントシステムはいまだにコストのかかる、再現不能なデータ依存に苦しんでおり、複数の機能に対して単一のモデルを引き付けるという課題に直面している。 そこで本研究では,大規模アノテートデータや,クローズドソースモデル(GPT-4など)からの合成トラジェクトリに依存しない自動エージェント学習フレームワークであるAutoActを紹介する。 ツールライブラリによる限られたデータから、AutoActはまず、人間や強力なクローズドソースモデルの助けなしに、計画トラジェクトリを自動で合成する。 次に、AutoActは、作業の分割戦略を利用して、目標とするタスク情報と軌跡を自動で識別し、タスクを完了するサブエージェントグループを生成する。 我々は異なるLLMを用いて総合的な実験を行い、AutoActは様々な強力なベースラインと比較して優れた性能または並列性能を示す。 さらに分析した結果, AutoAct が生成した軌道品質が他よりも有意に優れ, 作業戦略の分割の有効性が示された。 コードはhttps://github.com/zjunlp/autoactで入手できる。

Language agents have achieved considerable performance on various complex question-answering tasks. Despite the incessant exploration in this field, existing language agent systems still struggle with costly, non-reproducible data reliance and face the challenge of compelling a single model for multiple functions. To this end, we introduce AutoAct, an automatic agent learning framework that does not rely on large-scale annotated data and synthetic trajectories from closed-source models (e.g., GPT-4). Given limited data with a tool library, AutoAct first automatically synthesizes planning trajectories without any assistance from humans or strong closed-source models. Then, AutoAct leverages a division-of-labor strategy to automatically differentiate based on the target task information and synthesized trajectories, producing a sub-agent group to complete the task. We conduct comprehensive experiments with different LLMs, which demonstrates that AutoAct yields better or parallel performance compared to various strong baselines. Further analysis demonstrates the effectiveness of the division-of-labor strategy, with the trajectory quality generated by AutoAct significantly outperforming that of others. Code will be available at https://github.com/zjunlp/AutoAct.
翻訳日:2024-02-19 19:33:26 公開日:2024-02-16
# フェデレーション・アンラーニング:方法論,設計ガイドライン,評価指標に関する調査

Federated Unlearning: A Survey on Methods, Design Guidelines, and Evaluation Metrics ( http://arxiv.org/abs/2401.05146v2 )

ライセンス: Link先を確認
Nicol\`o Romandini, Alessio Mora, Carlo Mazzocca, Rebecca Montanari, Paolo Bellavista(参考訳) フェデレートラーニング(FL)は、複数のパーティにわたる機械学習(ML)モデルの協調トレーニングを可能にし、データをローカルに保存することで、ユーザのプライバシと機関のプライバシの保存を容易にする。 生データを集中化する代わりに、flは局所的に洗練されたモデルパラメータを交換してグローバルモデルをインクリメンタルに構築する。 FLは欧州一般データ保護規則(GDPR)などの新たな規則に準拠しているが、この文脈で忘れられる権利を保証することは、FL参加者が学習モデルからデータコントリビューションを削除できるようにすることである。 さらに、悪意のあるクライアントは、例えば特別なデータ例で誤った予測を生成するなどして、グローバルモデルにバックドアを注入することができる。 そのため、既に取得した「良い」知識を損なうことなく、個人が自分のデータを削除し、集約後も悪意のある貢献を消すことができることを保証できるメカニズムが必要となる。 これは、完全なモデルの再トレーニングなしに、特定のクライアントのコントリビューションを効率的に除去できる、新しいフェデレート・アンラーニング(FU)アルゴリズムの必要性を強調している。 本調査は,効率的なfuスキームの設計・実装のための背景概念,実証的エビデンス,実践的ガイドラインを提供する。 本研究は、FLにおける未学習評価指標の詳細な分析と、新しい分類法に基づく最先端のFUコントリビューションを分類した詳細な文献レビューを含む。 最後に、この分野で最も有望な研究の方向性を特定することで、最も重要かつまだオープンな技術的課題を概説する。

Federated Learning (FL) enables collaborative training of a Machine Learning (ML) model across multiple parties, facilitating the preservation of users' and institutions' privacy by keeping data stored locally. Instead of centralizing raw data, FL exchanges locally refined model parameters to build a global model incrementally. While FL is more compliant with emerging regulations such as the European General Data Protection Regulation (GDPR), ensuring the right to be forgotten in this context - allowing FL participants to remove their data contributions from the learned model - remains unclear. In addition, it is recognized that malicious clients may inject backdoors into the global model through updates, e.g. to generate mispredictions on specially crafted data examples. Consequently, there is the need for mechanisms that can guarantee individuals the possibility to remove their data and erase malicious contributions even after aggregation, without compromising the already acquired "good" knowledge. This highlights the necessity for novel Federated Unlearning (FU) algorithms, which can efficiently remove specific clients' contributions without full model retraining. This survey provides background concepts, empirical evidence, and practical guidelines to design/implement efficient FU schemes. Our study includes a detailed analysis of the metrics for evaluating unlearning in FL and presents an in-depth literature review categorizing state-of-the-art FU contributions under a novel taxonomy. Finally, we outline the most relevant and still open technical challenges, by identifying the most promising research directions in the field.
翻訳日:2024-02-19 19:33:06 公開日:2024-02-16
# マルチユーザチャットアシスタント(muca:multi-user chat assistant) - llmを使用したグループ会話のフレームワーク

Multi-User Chat Assistant (MUCA): a Framework Using LLMs to Facilitate Group Conversations ( http://arxiv.org/abs/2401.04883v3 )

ライセンス: Link先を確認
Manqing Mao, Paishun Ting, Yijian Xiang, Mingyang Xu, Julia Chen, Jianzhe Lin(参考訳) 最近の大規模言語モデル(llm)の進歩は、チャットボット開発に新たな道を開いたが、既存の研究のほとんどは、主にユーザー入力後に答える「何」を決めることに焦点を当てたシングルユーザーチャットボットに集中している。 本稿では,マルチユーザのチャットボットが,より複雑な3w設計次元 – 応答する“what”,応答する“when”,応答する“who” – を持つことを確認した。 さらに,グループディスカッション用に特別に設計されたチャットボットのためのllmベースのフレームワークであるマルチユーザチャットアシスタント(muca)を提案する。 MUCAは、サブトピックジェネレータ、ダイアログアナライザー、Utterance Strategies Arbitratorの3つの主要なモジュールで構成されている。 これらのモジュールは、適切な応答内容、タイミング、および適切な受信者を決定する。 さらに,MUCAの最適化処理を容易にするために,実際のユーザ動作を模倣できるLLMベースのマルチユーザシミュレータ(MUS)を提案する。 これにより、チャットボットとシミュレートされたユーザ間の会話の高速なシミュレーションが可能になり、チャットボットフレームワークの初期の開発をより効率的にする。 mucaは、ケーススタディや実験結果から示されるように、少人数から中規模までの参加者とのグループ会話において、適切なチャイムインタイミング、関連するコンテンツ、ユーザエンゲージメントの改善などの有効性を示す。

Recent advancements in large language models (LLMs) have provided a new avenue for chatbot development, while most existing research has primarily centered on single-user chatbots that focus on deciding "What" to answer after user inputs. In this paper, we identified that multi-user chatbots have more complex 3W design dimensions -- "What" to say, "When" to respond, and "Who" to answer. Additionally, we proposed Multi-User Chat Assistant (MUCA), which is an LLM-based framework for chatbots specifically designed for group discussions. MUCA consists of three main modules: Sub-topic Generator, Dialog Analyzer, and Utterance Strategies Arbitrator. These modules jointly determine suitable response contents, timings, and the appropriate recipients. To make the optimizing process for MUCA easier, we further propose an LLM-based Multi-User Simulator (MUS) that can mimic real user behavior. This enables faster simulation of a conversation between the chatbot and simulated users, making the early development of the chatbot framework much more efficient. MUCA demonstrates effectiveness, including appropriate chime-in timing, relevant content, and improving user engagement, in group conversations with a small to medium number of participants, as evidenced by case studies and experimental results from user studies.
翻訳日:2024-02-19 19:32:37 公開日:2024-02-16
# ハイブリッドNOMA-OFDMを用いたHAP統合LEO衛星ネットワークの通信効率向上

Communication-Efficient Federated Learning for LEO Satellite Networks Integrated with HAPs Using Hybrid NOMA-OFDM ( http://arxiv.org/abs/2401.00685v2 )

ライセンス: Link先を確認
Mohamed Elmahallawy, Tie Luo, Khaled Ramadan(参考訳) 宇宙AIは、政府、企業、社会にとってますます重要で、時には必要となってきた。 このミッションにおける活発な研究テーマは、多くの低軌道(LEO)衛星が機械学習モデルを協調的に訓練できるように、連邦学習(FL)と衛星通信(SatCom)を統合することである。 しかし、SatComの特別なコミュニケーション環境は、非常に遅いFLトレーニングプロセスに何日も何週間もかかります。 本稿では, LEO衛星に適した新しいFL-SatComアプローチであるNomaFedHAPを提案し, 1) 高高度プラットフォーム(HAP)を分散パラメータサーバ(PS)として利用し, 2) LEOに非直交多重アクセス(NOMA)を導入して高速かつ帯域幅効率のモデル伝送を実現する。 さらに、nomafedhapは(3)hapを利用して異なる軌道間の衛星を橋渡ししてドップラーシフトを緩和する新しい通信トポロジー、(4)異なる軌道とシェルの間のモデルを最適にバランスさせる新しいflモデル集約スキームを含む。 さらに,(5)近距離および遠距離における衛星の停止確率とシステム全体の停止確率の閉形式式を導出する。 提案手法は,シミュレーションにより数学的解析を検証し,最先端と比較して高速かつ効率的なflモデル収束を実現する上で,nomafedhapの優れた性能を実証した。

Space AI has become increasingly important and sometimes even necessary for government, businesses, and society. An active research topic under this mission is integrating federated learning (FL) with satellite communications (SatCom) so that numerous low Earth orbit (LEO) satellites can collaboratively train a machine learning model. However, the special communication environment of SatCom leads to a very slow FL training process up to days and weeks. This paper proposes NomaFedHAP, a novel FL-SatCom approach tailored to LEO satellites, that (1) utilizes high-altitude platforms (HAPs) as distributed parameter servers (PS) to enhance satellite visibility, and (2) introduces non-orthogonal multiple access (NOMA) into LEO to enable fast and bandwidth-efficient model transmissions. In addition, NomaFedHAP includes (3) a new communication topology that exploits HAPs to bridge satellites among different orbits to mitigate the Doppler shift, and (4) a new FL model aggregation scheme that optimally balances models between different orbits and shells. Moreover, we (5) derive a closed-form expression of the outage probability for satellites in near and far shells, as well as for the entire system. Our extensive simulations have validated the mathematical analysis and demonstrated the superior performance of NomaFedHAP in achieving fast and efficient FL model convergence with high accuracy as compared to the state-of-the-art.
翻訳日:2024-02-19 19:31:46 公開日:2024-02-16
# 政策学習のための任意の軌道モデリング

Any-point Trajectory Modeling for Policy Learning ( http://arxiv.org/abs/2401.00025v2 )

ライセンス: Link先を確認
Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel(参考訳) デモから学ぶことはロボットに新しいスキルを教える強力な方法であり、より多くのデモデータを持つことでポリシー学習が向上する。 しかし,実演データ収集のコストは大きなボトルネックとなっている。 ビデオはリッチなデータソースとして、行動、物理、意味に関する知識を含んでいるが、アクションラベルの欠如により、それらから制御固有の情報を抽出することは困難である。 本研究では、ビデオフレーム内の任意の点の将来の軌跡を予測するために、トラジェクトリモデルを事前学習することで、ビデオデモを利用する新しいフレームワーク、Any-point Trajectory Modeling (ATM)を導入する。 一度訓練すると、これらの軌道は詳細な制御ガイダンスを提供し、最小限のアクションラベルデータでロバストな visuomotor ポリシーの学習を可能にする。 シミュレーションと実世界の両方で評価した130以上の言語条件タスクにおいて、ATMは強力なビデオ事前学習ベースラインを平均80%上回っている。 さらに,ロボット形態の異なる人間の映像や映像から操作スキルを学習する効果的な伝達学習を示す。 可視化とコードは \url{https://xingyu-lin.github.io/atm} で利用可能である。

Learning from demonstration is a powerful method for teaching robots new skills, and having more demonstration data often improves policy learning. However, the high cost of collecting demonstration data is a significant bottleneck. Videos, as a rich data source, contain knowledge of behaviors, physics, and semantics, but extracting control-specific information from them is challenging due to the lack of action labels. In this work, we introduce a novel framework, Any-point Trajectory Modeling (ATM), that utilizes video demonstrations by pre-training a trajectory model to predict future trajectories of arbitrary points within a video frame. Once trained, these trajectories provide detailed control guidance, enabling the learning of robust visuomotor policies with minimal action-labeled data. Across over 130 language-conditioned tasks we evaluated in both simulation and the real world, ATM outperforms strong video pre-training baselines by 80% on average. Furthermore, we show effective transfer learning of manipulation skills from human videos and videos from a different robot morphology. Visualizations and code are available at: \url{https://xingyu-lin.github.io/atm}.
翻訳日:2024-02-19 19:31:21 公開日:2024-02-16
# roleeval: 大規模言語モデルのためのバイリンガル役割評価ベンチマーク

RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2312.16132v2 )

ライセンス: Link先を確認
Tianhao Shen, Sun Li, Quan Tu, Deyi Xiong(参考訳) 大きな言語モデルの急速な進化は、実世界とのつながりを確立し、より没入的な相互作用を提供するために不可欠な役割知識を評価するために効果的なベンチマークを必要とする。 本稿では,役割知識の記憶,利用,推論能力を評価するために設計されたバイリンガルベンチマークであるRoleEvalを紹介する。 RoleEvalはRoleEval-Global(国際的に認知されているキャラクターを含む)とRoleEval-China(中国で人気があるキャラクターを含む)で構成されており、300人の影響力のある人々や、有名人、アニメ、コミック、映画、テレビシリーズ、ゲーム、フィクションなど、様々な領域から引き出された架空のキャラクターに焦点をあてた6000の中国語と英語のパラレルなマルチチョイスの質問がある。 これらの質問は、基本知識とマルチホップ推論能力を含み、個人情報、関係性、能力、キャラクターの経験など様々な側面を体系的に探究することを目的としている。 高水準を維持するために、我々は、自動検証と人的検証を組み合わせたハイブリッド品質チェックプロセスを実行し、質問が多様で、挑戦的で、差別的であることを保証する。 RoleEvalのさまざまなオープンソースおよびプロプライエタリな大規模言語モデルに対する広範な評価は、ゼロショットと少数ショットの両方で、洞察に富んだ結果を示している。 特に、GPT-4はRoleEval-Globalで他のモデルより優れているが、中国の大言語モデルはRoleEval-Chinaより優れている。 RoleEvalは、さまざまな言語や文化的な設定において、大きな言語モデルのロール知識を評価することの重要性を強調します。

The rapid evolution of large language models necessitates effective benchmarks for evaluating their role knowledge, which is essential for establishing connections with the real world and providing more immersive interactions. This paper introduces RoleEval, a bilingual benchmark designed to assess the memorization, utilization, and reasoning capabilities of role knowledge. RoleEval comprises RoleEval-Global (including internationally recognized characters) and RoleEval-Chinese (including characters popular in China), with 6,000 Chinese-English parallel multiple-choice questions focusing on 300 influential people and fictional characters drawn from a variety of domains including celebrities, anime, comics, movies, TV series, games, and fictions. These questions cover basic knowledge and multi-hop reasoning abilities, aiming to systematically probe various aspects such as personal information, relationships, abilities, and experiences of the characters. To maintain high standards, we perform a hybrid quality check process combining both automatic and human verification, ensuring that the questions are diverse, challenging, and discriminative. Our extensive evaluations with RoleEval across various open-source and proprietary large language models, under both the zero- and few-shot settings, reveal insightful findings. Notably, while GPT-4 outperforms other models on RoleEval-Global, Chinese large language models excel on RoleEval-Chinese, highlighting significant knowledge distribution differences. We expect that RoleEval would highlight the significance of assessing role knowledge for large language models across various languages and cultural settings.
翻訳日:2024-02-19 19:31:03 公開日:2024-02-16
# 共分散カーネルからのガウス過程のサンプルパス規則性

Sample Path Regularity of Gaussian Processes from the Covariance Kernel ( http://arxiv.org/abs/2312.14886v2 )

ライセンス: Link先を確認
Natha\"el Da Costa, Marvin Pf\"ortner, Lancelot Da Costa, Philipp Hennig(参考訳) ガウス過程 (GPs) は函数空間上の確率分布を定義するための最も一般的な形式である。 GPの応用は無数であるが、GPサンプルパスの包括的理解、すなわち確率測度を定義する関数空間は不足している。 実際には、GPは確率測度によってではなく、平均関数と共分散核によって構成される。 本稿では,対応するgpのサンプルパスに対する共分散核について,与えられた正則性を達成するための必要十分条件を与える。 定常および等方的 GP の場合をさらに単純化する、特に単純条件を与えるため、H\"古い正則性の枠組みを用いる。 そして,この結果により,Mat\'ern GP などの機械学習アプリケーションでよく用いられるGPのサンプルパス規則性の,新規かつ異常に厳密な特徴付けが可能であることを示す。

Gaussian processes (GPs) are the most common formalism for defining probability distributions over spaces of functions. While applications of GPs are myriad, a comprehensive understanding of GP sample paths, i.e. the function spaces over which they define a probability measure, is lacking. In practice, GPs are not constructed through a probability measure, but instead through a mean function and a covariance kernel. In this paper we provide necessary and sufficient conditions on the covariance kernel for the sample paths of the corresponding GP to attain a given regularity. We use the framework of H\"older regularity as it grants particularly straightforward conditions, which simplify further in the cases of stationary and isotropic GPs. We then demonstrate that our results allow for novel and unusually tight characterisations of the sample path regularities of the GPs commonly used in machine learning applications, such as the Mat\'ern GPs.
翻訳日:2024-02-19 19:30:29 公開日:2024-02-16
# マルチモーダル大言語モデルのための統一幻覚検出

Unified Hallucination Detection for Multimodal Large Language Models ( http://arxiv.org/abs/2402.03190v2 )

ライセンス: Link先を確認
Xiang Chen and Chenxi Wang and Yida Xue and Ningyu Zhang and Xiaoyan Yang and Qiang Li and Yue Shen and Lei Liang and Jinjie Gu and Huajun Chen(参考訳) マルチモーダルなタスクの大幅な進歩にもかかわらず、マルチモーダル大規模言語モデル(mllm)は幻覚の問題に苦しめられている。 MLLMにおけるこのような幻覚の確実な検出は、モデル評価と実用的なアプリケーション展開の保護において重要な側面となっている。 この領域における以前の研究は、特異なタスク、不適切な範囲の幻覚圏、詳細な粒度の欠如によって制限されてきた。 これらの課題に対応するため、本研究は幻覚検出の探究的地平を広げる。 本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。 さらに,幻覚の発生を確実に検証するための補助的ツール群を活用した,新しい統合型マルチモーダル幻覚検出フレームワークであるUNIHDを公表した。 精巧な評価と包括的分析によるUNIHDの有効性を実証した。 また,幻覚の様々なカテゴリーに対処するための具体的ツールの適用に関する戦略的洞察も提供する。

Despite significant strides in multimodal tasks, Multimodal Large Language Models (MLLMs) are plagued by the critical issue of hallucination. The reliable detection of such hallucinations in MLLMs has, therefore, become a vital aspect of model evaluation and the safeguarding of practical application deployment. Prior research in this domain has been constrained by a narrow focus on singular tasks, an inadequate range of hallucination categories addressed, and a lack of detailed granularity. In response to these challenges, our work expands the investigative horizons of hallucination detection. We present a novel meta-evaluation benchmark, MHaluBench, meticulously crafted to facilitate the evaluation of advancements in hallucination detection methods. Additionally, we unveil a novel unified multimodal hallucination detection framework, UNIHD, which leverages a suite of auxiliary tools to validate the occurrence of hallucinations robustly. We demonstrate the effectiveness of UNIHD through meticulous evaluation and comprehensive analysis. We also provide strategic insights on the application of specific tools for addressing various categories of hallucinations.
翻訳日:2024-02-19 19:23:49 公開日:2024-02-16
# LLMとヒエラキカルVAEの併用によるソーシャルメディアのタイムライン要約

Combining Hierachical VAEs with LLMs for clinically meaningful timeline summarisation in social media ( http://arxiv.org/abs/2401.16240v2 )

ライセンス: Link先を確認
Jiayu Song, Jenny Chim, Adam Tsakalidis, Julia Ive, Dana Atzil-Slonim, Maria Liakata(参考訳) 本稿では,階層的vaeとllms(llama-2)を組み合わせた統合的要約手法を導入し,メンタルヘルスモニタリングに適したソーシャルメディアユーザのタイムラインから臨床的に有意義な要約を生成する。 臨床医に有用な第3者の臨床的洞察は、臨床のプロンプトを専門とするLSMに入力することで生成され、さらに、新規な階層的変動オートエンコーダTH-VAEにより、第1者のユーザのタイムラインの時間的に敏感な抽象的要約が生成される。 得られた要約を,専門家に対する自動評価と臨床専門家による人的評価により評価し,TH-VAEによる時系列要約により,臨床的有用性に富む事実的かつ論理的に整合した要約が得られ,経時的変化を捉えたLCMのみのアプローチよりも優れていることを示す。

We introduce a hybrid abstractive summarisation approach combining hierarchical VAE with LLMs (LlaMA-2) to produce clinically meaningful summaries from social media user timelines, appropriate for mental health monitoring. The summaries combine two different narrative points of view: clinical insights in third person useful for a clinician are generated by feeding into an LLM specialised clinical prompts, and importantly, a temporally sensitive abstractive summary of the user's timeline in first person, generated by a novel hierarchical variational autoencoder, TH-VAE. We assess the generated summaries via automatic evaluation against expert summaries and via human evaluation with clinical experts, showing that timeline summarisation by TH-VAE results in more factual and logically coherent summaries rich in clinical utility and superior to LLM-only approaches in capturing changes over time.
翻訳日:2024-02-19 19:23:05 公開日:2024-02-16
# 構造相転移から量子アニーリングへの非線形旅

A Nonlinear Journey from Structural Phase Transitions to Quantum Annealing ( http://arxiv.org/abs/2401.15020v2 )

ライセンス: Link先を確認
Mithun Thudiyangal, Panayotis G. Kevrekidis, Avadh Saxena and Alan R. Bishop(参考訳) 横場(横場イジング(TFI)モデル)における量子イジングスピンの1次元鎖の平衡特性の正確なマッピングと、二重井戸ポテンシャル(「$\phi^4$モデル」)における2次元古典的な粒子配列の弱い鎖間カップリングにより、二つの系の駆動変種間の接続を探索する。 我々は、古典的$\phi^4$システムにおける隣接鎖間のキンクの形での基本位相孤立波間の結合は、量子tfiモデルにおけるスピンフリップに対する横磁場の競合効果の類似であると主張する。 例えば、周期摂動を受ける古典的$\phi^4$モデルを調べることで、クローズド量子モデルシステムにおける簡易な測定プロトコルを模倣する。 これは記憶とコヒーレンス/デコヒーレンス機構のメモリ/ロスを明らかにし、量子アナログはアニール現象に必須である。 特に, トポロジカル励起が摂動に伴う熱平衡を制御する機構について検討する。 これは、低次元線型量子系と高次元古典非線形系の間の類似性をさらに探究する道を開く。

Motivated by an exact mapping between equilibrium properties of a 1-dimensional chain of quantum Ising spins in a transverse field (the transverse field Ising (TFI) model) and a 2-dimensional classical array of particles in double-well potentials (the "$\phi^4$ model") with weak inter-chain coupling, we explore connections between the driven variants of the two systems. We argue that coupling between the fundamental topological solitary waves in the form of kinks between neighboring chains in the classical $\phi^4$ system is the analogue of the competing effect of the transverse field on spin flips in the quantum TFI model. As an example application, we mimic simplified measurement protocols in a closed quantum model system by studying the classical $\phi^4$ model subjected to periodic perturbations. This reveals memory/loss of memory and coherence/decoherence regimes, whose quantum analogues are essential in annealing phenomena. In particular, we examine regimes where the topological excitations control the thermal equilibration following perturbations. This paves the way for further explorations of the analogy between lower-dimensional linear quantum and higher-dimensional classical nonlinear systems.
翻訳日:2024-02-19 19:22:47 公開日:2024-02-16
# グループ化データを用いたパレートスケールパラメータのロバスト推定

Robust Estimation of Pareto's Scale Parameter from Grouped Data ( http://arxiv.org/abs/2401.14593v2 )

ライセンス: Link先を確認
Chudamani Poudyal(参考訳) 多くの頑健な推定器は、完全に観測された基底損失重度サンプルデータセットが利用可能である場合に、最大極大推定器(MLE)の代替として存在する。 しかしながら、mle のロバストな代替案の選択肢は、最小二乗法、最小ヘリング距離法、最適有界影響関数などの一握りの方法だけで、グループ化された損失重大データを扱う場合、大幅に制限される。 本稿では,グループ化データからパレート分布のテール指標を推定するために,新しいロバストな推定手法である断続モーメント法(mtum)を提案する。 MTuMの推論正当性は、中心極限定理を用いて、包括的なシミュレーション研究を通じて検証することによって確立される。

Numerous robust estimators exist as alternatives to the maximum likelihood estimator (MLE) when a completely observed ground-up loss severity sample dataset is available. However, the options for robust alternatives to MLE become significantly limited when dealing with grouped loss severity data, with only a handful of methods like least squares, minimum Hellinger distance, and optimal bounded influence function available. This paper introduces a novel robust estimation technique, the Method of Truncated Moments (MTuM), specifically designed to estimate the tail index of a Pareto distribution from grouped data. Inferential justification of MTuM is established by employing the central limit theorem and validating them through a comprehensive simulation study.
翻訳日:2024-02-19 19:22:25 公開日:2024-02-16
# オープンな異種協調知覚のための拡張可能なフレームワーク

An Extensible Framework for Open Heterogeneous Collaborative Perception ( http://arxiv.org/abs/2401.13964v2 )

ライセンス: Link先を確認
Yifan Lu, Yue Hu, Yiqi Zhong, Dequan Wang, Siheng Chen, Yanfeng Wang(参考訳) コラボレーティブ知覚は、複数のエージェント間のデータ交換を容易にすることによって、オクルージョンのような単一エージェント知覚の制限を緩和することを目的としている。 しかし、現在のほとんどの作品では、すべてのエージェントが識別センサーと知覚モデルを使用する均質なシナリオが検討されている。 実際、ヘテロジニアスエージェントタイプは、既存のエージェントとコラボするときにドメインのギャップに絶えず遭遇し、必然的に直面することがある。 本稿では,新たなオープンな異種問題として,新しい異種エージェントを協調認識に適応させると同時に,高い認識性能と低統合コストを確保する方法を提案する。 この問題に対処するために,新たに拡張可能な協調認識フレームワークであるHEAL(Heterogeneous ALliance)を提案する。 HEALは最初、新しいマルチスケールフォアグラウンド対応ピラミッドフュージョンネットワークを通じて初期エージェントと統合された特徴空間を確立する。 不均一な新しいエージェントが以前にも見られないモダリティやモデルで現れると、確立された統一空間に、革新的な後方アライメントで整列する。 このステップは、新しいエージェントタイプの個別のトレーニングのみを含み、非常に低いトレーニングコストと高い拡張性を示す。 エージェントのデータ不均一性を豊かにするために、より多様なセンサータイプを持つ新しい大規模データセットであるPV2V-Hを導入する。 OPV2V-HとDAIR-V2Xデータセットの大規模な実験は、HEALがSOTAメソッドを上回り、トレーニングパラメータを3つの新しいエージェントタイプを統合すると91.5%削減することを示している。 https://github.com/yifanlu0227/HEAL

Collaborative perception aims to mitigate the limitations of single-agent perception, such as occlusions, by facilitating data exchange among multiple agents. However, most current works consider a homogeneous scenario where all agents use identity sensors and perception models. In reality, heterogeneous agent types may continually emerge and inevitably face a domain gap when collaborating with existing agents. In this paper, we introduce a new open heterogeneous problem: how to accommodate continually emerging new heterogeneous agent types into collaborative perception, while ensuring high perception performance and low integration cost? To address this problem, we propose HEterogeneous ALliance (HEAL), a novel extensible collaborative perception framework. HEAL first establishes a unified feature space with initial agents via a novel multi-scale foreground-aware Pyramid Fusion network. When heterogeneous new agents emerge with previously unseen modalities or models, we align them to the established unified space with an innovative backward alignment. This step only involves individual training on the new agent type, thus presenting extremely low training costs and high extensibility. To enrich agents' data heterogeneity, we bring OPV2V-H, a new large-scale dataset with more diverse sensor types. Extensive experiments on OPV2V-H and DAIR-V2X datasets show that HEAL surpasses SOTA methods in performance while reducing the training parameters by 91.5% when integrating 3 new agent types. We further implement a comprehensive codebase at: https://github.com/yifanlu0227/HEAL
翻訳日:2024-02-19 19:22:10 公開日:2024-02-16
# 複数の産業プロセスのための新しい画像品質データベース

A New Image Quality Database for Multiple Industrial Processes ( http://arxiv.org/abs/2401.13956v3 )

ライセンス: Link先を確認
Xuanchao Ma, Yanlin Jiang, Hongyan Liu, Chengxu Zhou, Ke Gu(参考訳) 近年、スモーク検出、セキュリティ監視、ワークピース検査など、複数の産業プロセスにおける画像処理技術の幅広い応用が目撃されている。 画像の取得、圧縮、送信、記憶、表示の過程において、様々な種類の歪みタイプとレベルが画像に導入され、画像の品質が大幅に低下し、最終的な表示効果と明快さが強く低下する可能性がある。 既存の画像品質評価手法の信頼性を検証するため,50のソース画像毎に異なるレベルの歪み型を適用して生成した3000の歪み画像を含む,新たな産業プロセス画像データベース(IPID)を構築した。 上記3000枚の画像に対して主観的検査を行い,良好な実験環境において主観的品質評価を収集した。 最後に、目的画像品質評価アルゴリズムの性能を検討するために、IPIDデータベース上で比較実験を行う。 実験の結果,画像品質評価手法では,複数の歪み型を含む画像の品質予測が困難であった。

Recent years have witnessed a broader range of applications of image processing technologies in multiple industrial processes, such as smoke detection, security monitoring, and workpiece inspection. Different kinds of distortion types and levels must be introduced into an image during the processes of acquisition, compression, transmission, storage, and display, which might heavily degrade the image quality and thus strongly reduce the final display effect and clarity. To verify the reliability of existing image quality assessment methods, we establish a new industrial process image database (IPID), which contains 3000 distorted images generated by applying different levels of distortion types to each of the 50 source images. We conduct the subjective test on the aforementioned 3000 images to collect their subjective quality ratings in a well-suited laboratory environment. Finally, we perform comparison experiments on IPID database to investigate the performance of some objective image quality assessment algorithms. The experimental results show that the state-of-the-art image quality assessment methods have difficulty in predicting the quality of images that contain multiple distortion types.
翻訳日:2024-02-19 19:21:42 公開日:2024-02-16
# SEER:強化学習による構造化推論と説明の促進

SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning ( http://arxiv.org/abs/2401.13246v2 )

ライセンス: Link先を確認
Guoxin Chen and Kexin Tang and Chao Yang and Fuying Ye and Yu Qiao and Yiming Qian(参考訳) 質問回答システム(QA)の解釈可能性、トレーサビリティ、信頼性を大幅に向上させるため、質問から回答までの構造化された説明による推論プロセスの解明が不可欠である。 しかし、構造的説明は複雑な構造的推論を行うためにモデルを必要とするため、大きな課題が生じる。 既存のメソッドのほとんどは、教師付き学習による単一ステップ推論に重点を置いており、ステップ間の論理的依存関係を無視している。 さらに、既存の強化学習(RL)に基づく手法は構造的関係を見落とし、構造的推論におけるRLのポテンシャルを過小評価する。 本稿では,構造的推論と説明を容易にする構造的回帰を最大化する手法であるSEERを提案する。 提案手法は,構造的推論に固有の階層構造と分岐構造を正確に記述し,異なる推論ステップ間の複雑な関係を効果的に捉える。 さらに,様々な推論手順を細部まで記述する細粒度報酬機能を導入する。 SEERは最先端の手法を著しく上回り、EntailmentBankのRLベースの手法よりも6.9%向上し、STREETベンチマークの平均4.4%改善し、優れた効率とクロスデータセットの一般化性能を示した。

Elucidating the reasoning process with structured explanations from question to answer is crucial, as it significantly enhances the interpretability, traceability, and trustworthiness of question-answering (QA) systems. However, structured explanations demand models to perform intricately structured reasoning, which poses great challenges. Most existing methods focus on single-step reasoning through supervised learning, ignoring logical dependencies between steps. Moreover, existing reinforcement learning (RL) based methods overlook the structured relationships, underutilizing the potential of RL in structured reasoning. In this paper, we propose SEER, a novel method that maximizes a structure-based return to facilitate structured reasoning and explanation. Our proposed structure-based return precisely describes the hierarchical and branching structure inherent in structured reasoning, effectively capturing the intricate relationships between different reasoning steps. In addition, we introduce a fine-grained reward function to meticulously delineate diverse reasoning steps. Extensive experiments show that SEER significantly outperforms state-of-the-art methods, achieving an absolute improvement of 6.9% over RL-based methods on EntailmentBank, a 4.4% average improvement on STREET benchmark, and exhibiting outstanding efficiency and cross-dataset generalization performance.
翻訳日:2024-02-19 19:21:25 公開日:2024-02-16
# 拡張ネットワーク上での連続学習のためのトポロジーアウェア埋め込みメモリ

Topology-aware Embedding Memory for Continual Learning on Expanding Networks ( http://arxiv.org/abs/2401.13200v2 )

ライセンス: Link先を確認
Xikun Zhang, Dongjin Song, Yixin Chen, Dacheng Tao(参考訳) メモリリプレイに基づく手法は、漸進的に蓄積されたユークリッドデータを用いた連続学習において大きな成功を収めている。 しかしながら、それらを連続的に拡大するネットワークに直接適用することは、代表ノードとその関連するトポロジカルな近傍構造をバッファリングする必要があるため、潜在的なメモリ爆発問題につながる。 この目的のために,メモリ爆発問題における重要な課題を体系的に分析し,この問題を解決するため,パラメータ分離グラフニューラルネットワーク(PDGNN)とトポロジ対応埋め込みメモリ(TEM)を併用した一般的なフレームワークを提案する。 提案するフレームワークはメモリ空間の複雑さを$\mathcal{O}(nd^L)$から$\mathcal{O}(n)$に削減するだけでなく、メモリ再生のためのトポロジ情報を完全に活用する。 具体的には、PDGNNは、トレーニング可能なパラメータを$\textit{Topology-aware Embeddings}$ (TEs)で計算エゴサブネットから切り離して、エゴサブネットをコンパクトなベクトル(TEs)に圧縮し、メモリ消費を減らす。 このフレームワークに基づき、拡張ネットワーク上での連続学習においてユニークな$\textit{pseudo-training effect}$を発見し、この効果はタイトなメモリ予算でパフォーマンスを向上させる新しい$\textit{coverage maximization sampling}$戦略を開発する動機となる。 メモリ爆発問題に対処し、トポロジカル情報をメモリリプレイに組み込むことで、TEMを用いたPDGNNは、特に挑戦的なクラスインクリメンタルセッティングにおいて、最先端技術よりも著しく優れていることを示した。

Memory replay based techniques have shown great success for continual learning with incrementally accumulated Euclidean data. Directly applying them to continually expanding networks, however, leads to the potential memory explosion problem due to the need to buffer representative nodes and their associated topological neighborhood structures. To this end, we systematically analyze the key challenges in the memory explosion problem, and present a general framework, i.e., Parameter Decoupled Graph Neural Networks (PDGNNs) with Topology-aware Embedding Memory (TEM), to tackle this issue. The proposed framework not only reduces the memory space complexity from $\mathcal{O}(nd^L)$ to $\mathcal{O}(n)$, but also fully utilizes the topological information for memory replay. Specifically, PDGNNs decouple trainable parameters from the computation ego-subnetwork via $\textit{Topology-aware Embeddings}$ (TEs), which compress ego-subnetworks into compact vectors (i.e., TEs) to reduce the memory consumption. Based on this framework, we discover a unique $\textit{pseudo-training effect}$ in continual learning on expanding networks and this effect motivates us to develop a novel $\textit{coverage maximization sampling}$ strategy that can enhance the performance with a tight memory budget. Thorough empirical studies demonstrate that, by tackling the memory explosion problem and incorporating topological information into memory replay, PDGNNs with TEM significantly outperform state-of-the-art techniques, especially in the challenging class-incremental setting.
翻訳日:2024-02-19 19:21:03 公開日:2024-02-16
# 多言語モデルのためのテキスト埋め込みインバージョンセキュリティ

Text Embedding Inversion Security for Multilingual Language Models ( http://arxiv.org/abs/2401.12192v2 )

ライセンス: Link先を確認
Yiyi Chen and Heather Lent and Johannes Bjerva(参考訳) テキストデータは、特に大言語モデル(llms)やサービスとしての埋め込み(eaas)の人気とともに、nlpにおける実数埋め込みとして表現されることが多い。 しかし、機密情報を埋め込みとして保存することはセキュリティ侵害に対して脆弱であり、基礎となるモデルに知識がなくても、テキストを埋め込みから再構築できることが研究によって示されている。 防衛機構は検討されているが、これらは英語のみに焦点を当てており、他の言語は攻撃に弱い。 本研究は多言語組込みインバージョンを通じてllmセキュリティを探求する。 我々は,多言語・多言語反転攻撃の問題を定義し,その可能性について徹底的に検討する。 以上の結果から,多言語 LLM はインバージョン攻撃に対してより脆弱である可能性が示唆された。 これを軽減するために,単言語モデルと多言語モデルの両方に有効な単純なマスキング防御を提案する。 本研究は,多言語反転攻撃を最初に調査し,単言語および多言語間における攻撃と防御の違いを明らかにした。

Textual data is often represented as realnumbered embeddings in NLP, particularly with the popularity of large language models (LLMs) and Embeddings as a Service (EaaS). However, storing sensitive information as embeddings can be vulnerable to security breaches, as research shows that text can be reconstructed from embeddings, even without knowledge of the underlying model. While defence mechanisms have been explored, these are exclusively focused on English, leaving other languages vulnerable to attacks. This work explores LLM security through multilingual embedding inversion. We define the problem of black-box multilingual and cross-lingual inversion attacks, and thoroughly explore their potential implications. Our findings suggest that multilingual LLMs may be more vulnerable to inversion attacks, in part because English based defences may be ineffective. To alleviate this, we propose a simple masking defense effective for both monolingual and multilingual models. This study is the first to investigate multilingual inversion attacks, shedding light on the differences in attacks and defenses across monolingual and multilingual settings.
翻訳日:2024-02-19 19:20:28 公開日:2024-02-16
# 大規模言語モデルにおけるタスクエンコーディングトークンの同定と解析

Identifying and Analyzing Task-Encoding Tokens in Large Language Models ( http://arxiv.org/abs/2401.11323v2 )

ライセンス: Link先を確認
Yu Bai, Heyan Huang, Cesare Spinoso-Di Piano, Marc-Antoine Rondeau, Sanxing Chen, Yang Gao, Jackie Chi Kit Cheung(参考訳) In-context Learning (ICL) は、自然言語処理における数ショット学習に有効なソリューションとなっている。 しかし、ICLの動作メカニズムの理解は限られており、特にICLのデモからモデルがどのようにタスクを実行するかを学習している。 例えば、予期しないほど大きなパフォーマンスの変化は、プロンプトの小さな変更によって起こりうる。 本稿では,タスク性能が依存するタスクエンコーディングトークンを識別し,解析することにより,この問題を解明する。 異なるトークンタイプの表現を省略する実験を用いることで、テンプレートとストップワードトークンが最もタスクエンコーディングしやすいことが分かりました。 さらに,これらのトークンの主な特徴は語彙的意味,反復,テキスト形式であることを示す。 我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。

In-context learning (ICL) has become an effective solution for few-shot learning in natural language processing. However, our understanding of ICL's working mechanisms is limited, specifically regarding how models learn to perform tasks from ICL demonstrations. For example, unexpectedly large changes in performance can arise from small changes in the prompt, leaving prompt design a largely empirical endeavour. In this paper, we investigate this problem by identifying and analyzing task-encoding tokens on whose representations the task performance depends. Using experiments that ablate the representations of different token types, we find that template and stopword tokens are the most prone to be task-encoding. In addition, we demonstrate experimentally that lexical meaning, repetition, and text formatting are the main distinguishing characteristics of these tokens. Our work sheds light on how large language models (LLMs) learn to perform a task from demonstrations, deepens our understanding of the varied roles different types of tokens play in LLMs, and provides insights for avoiding instability from improperly utilizing task-encoding tokens.
翻訳日:2024-02-19 19:19:59 公開日:2024-02-16
# 芽におけるnip幻覚に対する知識の検証

Knowledge Verification to Nip Hallucination in the Bud ( http://arxiv.org/abs/2401.10768v3 )

ライセンス: Link先を確認
Fanqi Wan, Xinting Huang, Leyang Cui, Xiaojun Quan, Wei Bi, Shuming Shi(参考訳) 大規模言語モデル(LLM)は、人間のアライメントに続く様々なタスクにおいて例外的な性能を示したが、それらは依然として、可塑性に聞こえるが事実知識と矛盾する応答を生成する可能性がある。 本稿では,アライメントデータに存在する外的知識と基礎llmに埋め込まれた内在的知識との矛盾を検証・最小化することにより,幻覚を緩和する可能性を示す。 具体的には,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる,外部知識に基づく評価を自動的に定式化し,基礎LPMの知識境界を評価する手法を提案する。 アライメントデータにおける知識の不整合に対処するため、KCAはこれらのデータインスタンスを扱うためのいくつかの具体的な戦略を実装している。 6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。 これは、知識の不整合を減らして幻覚を緩和する効果を確認する。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/KCA}で公開されています。

While large language models (LLMs) have demonstrated exceptional performance across various tasks following human alignment, they may still generate responses that sound plausible but contradict factual knowledge, a phenomenon known as \emph{hallucination}. In this paper, we demonstrate the feasibility of mitigating hallucinations by verifying and minimizing the inconsistency between external knowledge present in the alignment data and the intrinsic knowledge embedded within foundation LLMs. Specifically, we propose a novel approach called Knowledge Consistent Alignment (KCA), which employs a well-aligned LLM to automatically formulate assessments based on external knowledge to evaluate the knowledge boundaries of foundation LLMs. To address knowledge inconsistencies in the alignment data, KCA implements several specific strategies to deal with these data instances. We demonstrate the superior efficacy of KCA in reducing hallucinations across six benchmarks, utilizing foundation LLMs of varying backbones and scales. This confirms the effectiveness of mitigating hallucinations by reducing knowledge inconsistency. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/KCA}.
翻訳日:2024-02-19 19:19:39 公開日:2024-02-16
# PPR:顔認識システムにおける偽装攻撃の維持とドーピング攻撃の強化

PPR: Enhancing Dodging Attacks while Maintaining Impersonation Attacks on Face Recognition Systems ( http://arxiv.org/abs/2401.08903v2 )

ライセンス: Link先を確認
Fengfan Zhou, Heifei Ling, Bangjie Yin, Hui Zheng(参考訳) 顔認識に対する敵対的攻撃(FR)は、偽装攻撃と回避攻撃の2つのタイプを含む。 我々は, FRに対する偽装攻撃を成功させることが, ブラックボックス設定において, FRに対する偽装攻撃を成功させるとは限らないことを観察した。 本研究では, PPR (Pre-training Pruning Restoration Attack) と呼ばれる新たな攻撃手法を導入し, 偽装攻撃の防止を図りつつ, ドッジ攻撃の性能向上を図る。 提案手法は,攻撃性能を維持しつつ,敵の摂動の一部をゼロに設定できる,敵のサンプルプルーニングを用いる。 敵の例を刈り取ることで、事前訓練された敵の例を刈り取ることができ、特定の敵の摂動を選択的に解放することができる。 その後, プルーニング領域に対向性摂動を埋め込み, 対向性面の実例のドッジ性能を高める。 提案手法の有効性を実験により実証し,その優れた性能を示す。

Adversarial Attacks on Face Recognition (FR) encompass two types: impersonation attacks and evasion attacks. We observe that achieving a successful impersonation attack on FR does not necessarily ensure a successful dodging attack on FR in the black-box setting. Introducing a novel attack method named Pre-training Pruning Restoration Attack (PPR), we aim to enhance the performance of dodging attacks whilst avoiding the degradation of impersonation attacks. Our method employs adversarial example pruning, enabling a portion of adversarial perturbations to be set to zero, while tending to maintain the attack performance. By utilizing adversarial example pruning, we can prune the pre-trained adversarial examples and selectively free up certain adversarial perturbations. Thereafter, we embed adversarial perturbations in the pruned area, which enhances the dodging performance of the adversarial face examples. The effectiveness of our proposed attack method is demonstrated through our experimental results, showcasing its superior performance.
翻訳日:2024-02-19 19:18:53 公開日:2024-02-16
# 潜在変数ガウス過程による解釈可能なマルチソースデータ融合

Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian Process ( http://arxiv.org/abs/2402.04146v2 )

ライセンス: Link先を確認
Sandipp Krishnan Ravi, Yigitcan Comlek, Wei Chen, Arjun Pathak, Vipul Gupta, Rajnikant Umretiya, Andrew Hoffman, Ghanshyam Pilania, Piyush Pandita, Sayan Ghosh, Nathaniel Mckeever, Liping Wang(参考訳) 人工知能(AI)と機械学習(ML)の出現により、科学と工学の様々な分野が、データ駆動サロゲートを利用して、多くの情報ソース(データ)から複雑なシステムをモデル化してきた。 この増殖は、特定の機能を実行するように設計された優れたシステムの開発にかかわるコストと時間の大幅な削減につながった。 このようなサロゲートの高い命題は、論文、特許、オープンレポジトリ、その他のリソースなど、複数のデータソースを広範囲に融合して構築されている。 しかし、システム最適化中に下流に影響を及ぼす可能性のある情報ソースの既知のおよび未知の物理パラメータの品質と包括性の違いにはあまり注意が払われていない。 この問題を解決するために,LVGP(Latent Variable Gaussian Process)に基づくマルチソースデータ融合フレームワークを提案する。 個々のデータソースは、物理的に解釈可能な潜在空間にマッピングされる特徴的なカテゴリ変数としてタグ付けされ、ソース認識データ融合モデリングの開発を可能にする。 さらに、LVGPの潜伏変数に基づく相似性尺度を導入し、データソースの違いを研究し、理解する。 提案手法は、2つの数学的(表現パラボラ問題、2D Ackley関数)と2つの材料科学(FeCrAlおよびSmCoFe合金の設計)のケーススタディを用いて実証および解析を行った。 ケーススタディから,シングルソースおよびソースを意識しないMLモデルと比較して,提案したマルチソースデータ融合フレームワークは,スパースデータ問題に対するより良い予測,ソースに対する解釈可能性,異なるソース間の相関や関係を利用してモデリング能力を向上させることができる。

With the advent of artificial intelligence (AI) and machine learning (ML), various domains of science and engineering communites has leveraged data-driven surrogates to model complex systems from numerous sources of information (data). The proliferation has led to significant reduction in cost and time involved in development of superior systems designed to perform specific functionalities. A high proposition of such surrogates are built extensively fusing multiple sources of data, may it be published papers, patents, open repositories, or other resources. However, not much attention has been paid to the differences in quality and comprehensiveness of the known and unknown underlying physical parameters of the information sources that could have downstream implications during system optimization. Towards resolving this issue, a multi-source data fusion framework based on Latent Variable Gaussian Process (LVGP) is proposed. The individual data sources are tagged as a characteristic categorical variable that are mapped into a physically interpretable latent space, allowing the development of source-aware data fusion modeling. Additionally, a dissimilarity metric based on the latent variables of LVGP is introduced to study and understand the differences in the sources of data. The proposed approach is demonstrated on and analyzed through two mathematical (representative parabola problem, 2D Ackley function) and two materials science (design of FeCrAl and SmCoFe alloys) case studies. From the case studies, it is observed that compared to using single-source and source unaware ML models, the proposed multi-source data fusion framework can provide better predictions for sparse-data problems, interpretability regarding the sources, and enhanced modeling capabilities by taking advantage of the correlations and relationships among different sources.
翻訳日:2024-02-19 19:09:58 公開日:2024-02-16
# AIフィードバックによる強化学習を用いたビデオ用大規模マルチモーダルモデルのチューニング

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback ( http://arxiv.org/abs/2402.03746v2 )

ライセンス: Link先を確認
Daechul Ahn, Yura Choi, Youngjae Yu, Dongyeop Kang and Jonghyun Choi(参考訳) 近年の大規模言語モデルの発展はビデオ大マルチモーダルモデル(VLMM)の発展に影響を与えている。 VLMMの以前のアプローチには、命令調整されたデータセットを使用したSupervised Fine-Tuning (SFT)、ビジュアルエンコーダとLLMの統合、学習可能なモジュールの追加が含まれていた。 ビデオとテキストのマルチモーダルアライメントは、主にテキストのみのデータと比較してマルチモーダル命令・トゥンデータのボリュームと品質が不足しているため、依然として困難である。 本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを利用した新たなアライメント戦略を提案する。 具体的には,映像コンテンツの理解を深めるために,嗜好フィードバック生成時のコンテキストとして詳細な映像記述を提供することにより,文脈対応報酬モデリングを提案する。 我々のマルチモーダルRLAIFアプローチであるVLM-RLAIFはSFTモデルを含む既存の手法よりも優れています。 私たちは、この分野のさらなる研究を促進するために、コード、モデル、データセットをオープンソース化することを約束します。

Recent advancements in large language models have influenced the development of video large multimodal models (VLMMs). The previous approaches for VLMMs involved Supervised Fine-Tuning (SFT) with instruction-tuned datasets, integrating LLM with visual encoders, and adding additional learnable modules. Video and text multimodal alignment remains challenging, primarily due to the deficient volume and quality of multimodal instruction-tune data compared to text-only data. We present a novel alignment strategy that employs multimodal AI system to oversee itself called Reinforcement Learning from AI Feedback (RLAIF), providing self-preference feedback to refine itself and facilitating the alignment of video and text modalities. In specific, we propose context-aware reward modeling by providing detailed video descriptions as context during the generation of preference feedback in order to enrich the understanding of video content. Demonstrating enhanced performance across diverse video benchmarks, our multimodal RLAIF approach, VLM-RLAIF, outperforms existing approaches, including the SFT model. We commit to open-sourcing our code, models, and datasets to foster further research in this area.
翻訳日:2024-02-19 19:09:30 公開日:2024-02-16
# 大規模言語モデルによる協調フレームワークによるロボットの自動開発

Automatic Robotic Development through Collaborative Framework by Large Language Models ( http://arxiv.org/abs/2402.03699v2 )

ライセンス: Link先を確認
Zhirong Luan and Yujun Lai, Rundong Huang, Xiaruiqi Lan, Liangjun Chen, Badong Chen(参考訳) 大きな言語モデル LLM の驚くべきコード生成能力にもかかわらず、それらは複雑なタスクハンドリングの課題に直面している。 高度に複雑な分野であるロボット開発は、本質的には、タスクアロケーションと協力的なチームワークに人間の関与を要求する。 ロボット開発を促進するために,現実のロボット開発に触発された革新的な自動協調フレームワークを提案する。 このフレームワークは複数のllmを異なる役割アナリスト、プログラマ、テスターに採用している。 アナリストはユーザー要件を深く掘り下げ、プログラマが正確なコードを作成できるようにし、テスタは実際のロボットアプリケーションのユーザフィードバックに基づいてパラメータを微調整する。 各llmは開発プロセス内で多様な重要なタスクに取り組みます。 明確なコラボレーションルールは、LLM間の現実のチームワークをエミュレートします。 アナリスト、プログラマ、テスターは、戦略、コード、パラメータ調整を監督する結束したチームを形成します。 この枠組みにより, 専門知識を必要とせず, 非専門家のみに頼り, 複雑なロボット開発を実現する。

Despite the remarkable code generation abilities of large language models LLMs, they still face challenges in complex task handling. Robot development, a highly intricate field, inherently demands human involvement in task allocation and collaborative teamwork . To enhance robot development, we propose an innovative automated collaboration framework inspired by real-world robot developers. This framework employs multiple LLMs in distinct roles analysts, programmers, and testers. Analysts delve deep into user requirements, enabling programmers to produce precise code, while testers fine-tune the parameters based on user feedback for practical robot application. Each LLM tackles diverse, critical tasks within the development process. Clear collaboration rules emulate real world teamwork among LLMs. Analysts, programmers, and testers form a cohesive team overseeing strategy, code, and parameter adjustments . Through this framework, we achieve complex robot development without requiring specialized knowledge, relying solely on non experts participation.
翻訳日:2024-02-19 19:09:13 公開日:2024-02-16
# 絵文字のデコード:ChatGPTを活用してソーシャルメディアコミュニケーションの理解を深める

Emojis Decoded: Leveraging ChatGPT for Enhanced Understanding in Social Media Communications ( http://arxiv.org/abs/2402.01681v2 )

ライセンス: Link先を確認
Yuhang Zhou, Paiheng Xu, Xiyao Wang, Xuan Lu, Ge Gao, Wei Ai(参考訳) 単なる言葉やフレーズ以外の意味をカプセル化する絵文字は、ソーシャルネットワークのコミュニケーションで普及している。 これにより、その特性や機能を探究する学術的な関心が高まった。 しかし、絵文字関連の研究と応用には2つの大きな課題がある。 まず、研究者は通常、感情、使用意図、意味を理解するために、絵文字に注釈をつけるためにクラウドソーシングに頼る。 第二に、ユーザによる主観的解釈は、しばしば絵文字の誤解を招き、コミュニケーション障壁を引き起こす。 大規模言語モデル(llm)は様々なアノテーションタスクで大きな成功を収めており、chatgptは複数のドメインにまたがる専門知識を示している。 本研究は,ChatGPTが以前に注釈付きタスクや下流タスクの処理に有効であることを示す。 本研究の目的は,ChatGPTが人間のアノテータの代用として絵文字研究に有効であり,絵文字の意味を説明できる能力は,オンラインコミュニケーションにおける明瞭さと透明性を高めることができるという仮説を検証することである。 以上の結果から,ChatGPTは絵文字の知識が豊富であることが示唆された。 様々なアプリケーションシナリオにまたがる絵文字の意味を解明し、様々なタスクにおいて人間のアノテータを置き換える可能性を示す。

Emojis, which encapsulate semantics beyond mere words or phrases, have become prevalent in social network communications. This has spurred increasing scholarly interest in exploring their attributes and functionalities. However, emoji-related research and application face two primary challenges. First, researchers typically rely on crowd-sourcing to annotate emojis in order to understand their sentiments, usage intentions, and semantic meanings. Second, subjective interpretations by users can often lead to misunderstandings of emojis and cause the communication barrier. Large Language Models (LLMs) have achieved significant success in various annotation tasks, with ChatGPT demonstrating expertise across multiple domains. In our study, we assess ChatGPT's effectiveness in handling previously annotated and downstream tasks. Our objective is to validate the hypothesis that ChatGPT can serve as a viable alternative to human annotators in emoji research and that its ability to explain emoji meanings can enhance clarity and transparency in online communications. Our findings indicate that ChatGPT has extensive knowledge of emojis. It is adept at elucidating the meaning of emojis across various application scenarios and demonstrates the potential to replace human annotators in a range of tasks.
翻訳日:2024-02-19 19:08:59 公開日:2024-02-16
# STICKERCONV:スクラッチからのマルチモーダル共感応答の生成

STICKERCONV: Generating Multimodal Empathetic Responses from Scratch ( http://arxiv.org/abs/2402.01679v2 )

ライセンス: Link先を確認
Yiqun Zhang, Fanheng Kong, Peidong Wang, Shuang Sun, Lingshuai Wang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song(参考訳) ステッカーは、オンラインインタラクションにおける共感的コミュニケーションを強化することで広く認知されているが、特に包括的なデータセットの欠如が原因で、現在の共感的対話研究では未発見のままである。 本稿では,人間行動とステッカー使用を現実的にシミュレートし,マルチモーダルな共感コミュニケーションを促進するためのエージェントである stickerconv (agent4sc) について紹介する。 この基盤を基盤として,12.9K対話セッション,5.8Kユニークなステッカー,2K多様な対話シナリオからなるマルチモーダル共感対話データセットSTICKERCONVを開発した。 このデータセットはマルチモーダル共感生成のベンチマークとして機能する。 さらに,llmに基づく包括的共感評価指標を補完するマルチモーダル共感応答生成フレームワークである「パーセプティブ・アンド・ジェネレーション・ステッカー(peg)」を提案する。 本研究は,pegsが文脈的に関連し,感情的に共振するマルチモーダル共感反応を発生させる効果を示し,よりニュアンス的で魅力的な共感対話システムの発展に寄与することを示す。

Stickers, while widely recognized for enhancing empathetic communication in online interactions, remain underexplored in current empathetic dialogue research, notably due to the challenge of a lack of comprehensive datasets. In this paper, we introduce the Agent for STICKERCONV (Agent4SC), which uses collaborative agent interactions to realistically simulate human behavior with sticker usage, thereby enhancing multimodal empathetic communication. Building on this foundation, we develop a multimodal empathetic dialogue dataset, STICKERCONV, comprising 12.9K dialogue sessions, 5.8K unique stickers, and 2K diverse conversational scenarios. This dataset serves as a benchmark for multimodal empathetic generation. To advance further, we propose PErceive and Generate Stickers (PEGS), a multimodal empathetic response generation framework, complemented by a comprehensive set of empathy evaluation metrics based on LLM. Our experiments demonstrate PEGS's effectiveness in generating contextually relevant and emotionally resonant multimodal empathetic responses, contributing to the advancement of more nuanced and engaging empathetic dialogue systems.
翻訳日:2024-02-19 19:08:39 公開日:2024-02-16
# 合成生成モデリング: 単一のモデルだけでは十分ではない

Compositional Generative Modeling: A Single Model is Not All You Need ( http://arxiv.org/abs/2402.01103v2 )

ライセンス: Link先を確認
Yilun Du, Leslie Kaelbling(参考訳) 大量のデータに基づいてトレーニングされた巨大なモノリシックな生成モデルは、AI研究においてますます支配的なアプローチになりつつある。 本稿では,より小さな生成モデルを構成することによって,より大規模な生成システムを構築するべきであると論じる。 このような構成的生成アプローチによって、よりデータ効率の良い方法で分布を学習し、トレーニング時に見つからないデータ分布の一部に一般化できることを示す。 さらに,学習時のタスクに対する新たな生成モデルをプログラムし構築する方法についても紹介する。 最後に、多くの場合、データから別々の合成コンポーネントを発見できることを示します。

Large monolithic generative models trained on massive amounts of data have become an increasingly dominant approach in AI research. In this paper, we argue that we should instead construct large generative systems by composing smaller generative models together. We show how such a compositional generative approach enables us to learn distributions in a more data-efficient manner, enabling generalization to parts of the data distribution unseen at training time. We further show how this enables us to program and construct new generative models for tasks completely unseen at training. Finally, we show that in many cases, we can discover separate compositional components from data.
翻訳日:2024-02-19 19:08:17 公開日:2024-02-16
# vision-llmは自己生成型タイポグラフィー攻撃で自分を騙すことができる

Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks ( http://arxiv.org/abs/2402.00626v2 )

ライセンス: Link先を確認
Maan Qraitem, Nazia Tasnim, Piotr Teterwak, Kate Saenko, Bryan A. Plummer(参考訳) 誤読テキストを画像に貼り付けるタイポグラフィー攻撃は、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。 しかし、近年の大規模視覚言語モデルのこれらの攻撃に対する感受性は未定である。 さらに、CLIPに対する以前の作業のTypographic攻撃は、事前に定義されたカテゴリセットから誤解を招くクラスをランダムにサンプリングする。 しかし、この単純な戦略はLVLM(s)より強力な言語スキルを利用するより効果的な攻撃を見逃している。 これらの問題に対処するため,我々はまずLVLM(s)に対するタイポグラフィー攻撃のベンチマークを導入する。 さらに、LVLMに攻撃を起こさせる2つの新しい、より効果的な \textit{Self-Generated} 攻撃を導入する。 1) lvlm(例えば、llava)がターゲットクラスに最も近いクラスを欺くかを尋ねられるクラスベースの攻撃 2)より先進的なLVLM(例:GPT4-V)を推奨する記述的攻撃(Descriptive Attacks)は、クラスと記述の両方を含むタイポグラフィ攻撃を推奨する。 ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。 また,1つのモデル(gpt-4vやllavaなど)が生成する攻撃が,モデル自体やinstructblipやminigpt4といった他のモデルに対して有効であることも明らかにする。 コード: \url{https://github.com/mqraitem/Self-Gen-Typo-Attack}

Typographic Attacks, which involve pasting misleading text onto an image, were noted to harm the performance of Vision-Language Models like CLIP. However, the susceptibility of recent Large Vision-Language Models to these attacks remains understudied. Furthermore, prior work's Typographic attacks against CLIP randomly sample a misleading class from a predefined set of categories. However, this simple strategy misses more effective attacks that exploit LVLM(s) stronger language skills. To address these issues, we first introduce a benchmark for testing Typographic attacks against LVLM(s). Moreover, we introduce two novel and more effective \textit{Self-Generated} attacks which prompt the LVLM to generate an attack against itself: 1) Class Based Attack where the LVLM (e.g. LLaVA) is asked which deceiving class is most similar to the target class and 2) Descriptive Attacks where a more advanced LVLM (e.g. GPT4-V) is asked to recommend a Typographic attack that includes both a deceiving class and description. Using our benchmark, we uncover that Self-Generated attacks pose a significant threat, reducing LVLM(s) classification performance by up to 33\%. We also uncover that attacks generated by one model (e.g. GPT-4V or LLaVA) are effective against the model itself and other models like InstructBLIP and MiniGPT4. Code: \url{https://github.com/mqraitem/Self-Gen-Typo-Attack}
翻訳日:2024-02-19 19:08:07 公開日:2024-02-16
# 深層学習に基づく冠動脈病変範囲の異なる冠動脈疾患分類

Coronary Artery Disease Classification with Different Lesion Degree Ranges based on Deep Learning ( http://arxiv.org/abs/2402.00593v2 )

ライセンス: Link先を確認
Ariadna Jim\'enez-Partinen, Karl Thurnhofer-Hemsi, Esteban J. Palomo, Jorge Rodr\'iguez-Capit\'an, Ana I. Molina-Ramos(参考訳) 侵襲的冠動脈造影(ICA)画像は冠動脈の状態を評価するための金の基準と考えられている。 深層学習分類法は, 医師が臨床手順を支援できるコンピュータ支援診断システムの開発により, 医用画像評価が必須となる様々な分野において広く用いられ, 開発されている。 本稿では,病変の程度が異なる2値ica分類のための深層学習法の性能解析について報告する。 この目標を達成するため、ICA画像の注釈付きデータセットに、真理、病変の位置、および、0%から100%の範囲の7つの重度度が採用された。 ICA画像は「レシオン」または「ノンレシオン」のパッチに分割された。 本研究の目的は,2値分類の性能が,正のクラスで考慮された異なる病変度にどのように影響するかを検討することである。 そこで,5つの既知の畳み込みニューラルネットワークアーキテクチャを,7つの病変度を考慮し,病変度範囲の異なる入力画像を用いて訓練した。 さらにデータ拡張のない4種類の実験が設計され、そのF測定とAUC(Area Under Curve)が計算された。 f-measureとaucはそれぞれ92.7%,98.1%であった。 しかし, 病変の分類は, 病変の分類を意図した程度に大きく影響し, 99%の病変が認められると, 15%の精度が低下する。

Invasive Coronary Angiography (ICA) images are considered the gold standard for assessing the state of the coronary arteries. Deep learning classification methods are widely used and well-developed in different areas where medical imaging evaluation has an essential impact due to the development of computer-aided diagnosis systems that can support physicians in their clinical procedures. In this paper, a new performance analysis of deep learning methods for binary ICA classification with different lesion degrees is reported. To reach this goal, an annotated dataset of ICA images that contains the ground truth, the location of lesions and seven possible severity degrees ranging between 0% and 100% was employed. The ICA images were divided into 'lesion' or 'non-lesion' patches. We aim to study how binary classification performance is affected by the different lesion degrees considered in the positive class. Therefore, five known convolutional neural network architectures were trained with different input images where different lesion degree ranges were gradually incorporated until considering the seven lesion degrees. Besides, four types of experiments with and without data augmentation were designed, whose F-measure and Area Under Curve (AUC) were computed. Reported results achieved an F-measure and AUC of 92.7% and 98.1%, respectively. However, lesion classification is highly affected by the degree of the lesion intended to classify, with 15% less accuracy when <99% lesion patches are present.
翻訳日:2024-02-19 19:07:39 公開日:2024-02-16
# CADICA : 侵襲的冠動脈造影法による冠動脈病変検出のための新しいデータセット

CADICA: a new dataset for coronary artery disease detection by using invasive coronary angiography ( http://arxiv.org/abs/2402.00570v2 )

ライセンス: Link先を確認
Ariadna Jim\'enez-Partinen, Miguel A. Molina-Cabello, Karl Thurnhofer-Hemsi, Esteban J. Palomo, Jorge Rodr\'iguez-Capit\'an, Ana I. Molina-Ramos, Manuel Jim\'enez-Navarro(参考訳) 冠状動脈疾患 (CAD) は世界的死因であり, CADを疑う場合, 侵襲的冠動脈造影 (ICA) は解剖学的画像評価の金の基準とされている。 しかし、ICAに基づくリスク評価には、狭窄の重症度を視覚的に評価するなど、いくつかの制限がある。 これにより、臨床治療の専門医を支援する病巣分類システムの開発が促進される。 医学画像の他の分野ではディープラーニングの分類法がよく開発されているが、ICA画像分類はまだ初期段階である。 最も重要な理由の1つは、可用性と高品質なオープンアクセスデータセットの欠如である。 本稿では,新たにアノテーション付きICA画像データセットCADICAを報告し,取得した患者ビデオと関連疾患関連メタデータからなる冠状血管造影の包括的かつ厳密なデータセットを研究コミュニティに提供する。 このデータセットは、臨床医がCADの重症度を血管造影で評価するスキルを訓練するために、コンピュータ科学者がコンピュータ支援診断システムを作成するために使用することができる。 さらに,基準分類法を提案し分析し,cadicaの機能を検証し,cad検出の出発点を科学コミュニティに与える。

Coronary artery disease (CAD) remains the leading cause of death globally and invasive coronary angiography (ICA) is considered the gold standard of anatomical imaging evaluation when CAD is suspected. However, risk evaluation based on ICA has several limitations, such as visual assessment of stenosis severity, which has significant interobserver variability. This motivates to development of a lesion classification system that can support specialists in their clinical procedures. Although deep learning classification methods are well-developed in other areas of medical imaging, ICA image classification is still at an early stage. One of the most important reasons is the lack of available and high-quality open-access datasets. In this paper, we reported a new annotated ICA images dataset, CADICA, to provide the research community with a comprehensive and rigorous dataset of coronary angiography consisting of a set of acquired patient videos and associated disease-related metadata. This dataset can be used by clinicians to train their skills in angiographic assessment of CAD severity and by computer scientists to create computer-aided diagnostic systems to help in such assessment. In addition, baseline classification methods are proposed and analyzed, validating the functionality of CADICA and giving the scientific community a starting point to improve CAD detection.
翻訳日:2024-02-19 19:07:17 公開日:2024-02-16
# 転送可能な攻撃のベンチマーク

Benchmarking Transferable Adversarial Attacks ( http://arxiv.org/abs/2402.00418v3 )

ライセンス: Link先を確認
Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Huaming Chen(参考訳) 敵対的攻撃に対するディープラーニングモデルの堅牢性は、依然として重要な関心事である。 本研究は, 敵の攻撃の伝達可能性について, 初めて徹底的に検討した。 攻撃の伝達性を高めるために開発された様々な手法を体系的に分類し、批判的に評価する。 本研究は, 生成構造, 意味的類似性, グラディエント編集, ターゲット修正, アンサンブルアプローチなど, 様々な手法を包含する。 同時に,このベンチマークフレームワークである \textit{taa-bench} を導入し,敵の攻撃伝達性のための10つの主要な方法論を統合し,多様なモデルアーキテクチャの比較分析のための標準化された体系的プラットフォームを提供する。 総合的な精査を通じて,各手法の有効性と制約を明確にし,その基礎となる運用原理と実用性に光を当てる。 このレビューは、この分野の学者と実践者の両方にとって重要な資源であり、敵の移動可能性の複雑な地形を図解し、この重要な分野における将来の探検の基礎を築いた。 関連するコードベースは、https://github.com/KxPlaug/TAA-Benchでアクセスできます。

The robustness of deep learning models against adversarial attacks remains a pivotal concern. This study presents, for the first time, an exhaustive review of the transferability aspect of adversarial attacks. It systematically categorizes and critically evaluates various methodologies developed to augment the transferability of adversarial attacks. This study encompasses a spectrum of techniques, including Generative Structure, Semantic Similarity, Gradient Editing, Target Modification, and Ensemble Approach. Concurrently, this paper introduces a benchmark framework \textit{TAA-Bench}, integrating ten leading methodologies for adversarial attack transferability, thereby providing a standardized and systematic platform for comparative analysis across diverse model architectures. Through comprehensive scrutiny, we delineate the efficacy and constraints of each method, shedding light on their underlying operational principles and practical utility. This review endeavors to be a quintessential resource for both scholars and practitioners in the field, charting the complex terrain of adversarial transferability and setting a foundation for future explorations in this vital sector. The associated codebase is accessible at: https://github.com/KxPlaug/TAA-Bench
翻訳日:2024-02-19 19:06:57 公開日:2024-02-16
# AwareBenchを用いた大規模言語モデルのベンチマーク

I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AwareBench ( http://arxiv.org/abs/2401.17882v2 )

ライセンス: Link先を確認
Yuan Li, Yue Huang, Yuli Lin, Siyuan Wu, Yao Wan and Lichao Sun(参考訳) 大規模言語モデル(llm)は、人間と同じような認識形態を示すか? 本稿では,llmにおける意識評価のためのベンチマークである awarebench を紹介する。 心理学や哲学の理論から、LLMにおける認識は、自分自身をAIモデルとして理解し、社会的知性を示す能力として定義する。 次に,LLMの認知度を,能力,使命,感情,文化,視点の5つの次元に分類した。 この分類に基づいて、llmの特定の認識次元に対する理解を評価するために、バイナリ、マルチチョイス、オープンエンドの質問を含む awareeval というデータセットを作成する。 我々の実験は13 llmで行われ、彼らの能力と任務を完全に認識するのに苦戦し、まともな社会的知性を示すことが判明した。 我々は、LLMの認識とAIのアライメントと安全性を結びつけ、LLMの信頼性と倫理的発展の重要性を強調した。 私たちのデータセットとコードはhttps://github.com/howiehwong/awareness-in-llmで利用可能です。

Do large language models (LLMs) exhibit any forms of awareness similar to humans? In this paper, we introduce AwareBench, a benchmark designed to evaluate awareness in LLMs. Drawing from theories in psychology and philosophy, we define awareness in LLMs as the ability to understand themselves as AI models and to exhibit social intelligence. Subsequently, we categorize awareness in LLMs into five dimensions, including capability, mission, emotion, culture, and perspective. Based on this taxonomy, we create a dataset called AwareEval, which contains binary, multiple-choice, and open-ended questions to assess LLMs' understandings of specific awareness dimensions. Our experiments, conducted on 13 LLMs, reveal that the majority of them struggle to fully recognize their capabilities and missions while demonstrating decent social intelligence. We conclude by connecting awareness of LLMs with AI alignment and safety, emphasizing its significance to the trustworthy and ethical development of LLMs. Our dataset and code are available at https://github.com/HowieHwong/Awareness-in-LLM.
翻訳日:2024-02-19 19:06:39 公開日:2024-02-16
# 計画, 創造, 使用: 実世界の複合シナリオにおける総合ツール活用のためのLLMのベンチマーク

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios ( http://arxiv.org/abs/2401.17167v2 )

ライセンス: Link先を確認
Shijue Huang, Wanjun Zhong, Jianqiao Lu, Qi Zhu, Jiahui Gao, Weiwen Liu, Yutai Hou, Xingshan Zeng, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruifeng Xu, Qun Liu(参考訳) 現実世界のアプリケーションでツールエージェントとしてLarge Language Models(LLM)を使用する最近のトレンドは、特に計画、作成、ツールの使用を含む複雑なシナリオにおいて、その能力の包括的な評価の必要性を強調している。 しかし、既存のベンチマークは通常、現実世界の複雑さを反映しない単純な合成クエリに焦点を合わせ、ツール利用の評価において限られた視点を提供する。 この問題に対処するために,現実シナリオにおけるツール利用におけるLLMの能力の向上と評価を目的とした,新しいベンチマークであるUltraToolを提案する。 UltraToolは、計画や作成から複雑なタスクに適用に至るまで、ツールを使用するプロセス全体に焦点を当てています。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価であり、中間ステップをマッピングしてタスク解決を単純化する。 したがって、以前の作業とは異なり、事前定義されたツールセットの制限をなくす。 様々なLSMに関する広範な実験を通じて、ツール利用におけるLSMの能力評価に関する新たな知見を提供し、この急速に発展する分野に新たな視点をもたらす。 ベンチマークはhttps://github.com/JoeYing1019/UltraTool.comで公開されている。

The recent trend of using Large Language Models (LLMs) as tool agents in real-world applications underscores the necessity for comprehensive evaluations of their capabilities, particularly in complex scenarios involving planning, creating, and using tools. However, existing benchmarks typically focus on simple synthesized queries that do not reflect real-world complexity, thereby offering limited perspectives in evaluating tool utilization. To address this issue, we present UltraTool, a novel benchmark designed to improve and evaluate LLMs' ability in tool utilization within real-world scenarios. UltraTool focuses on the entire process of using tools - from planning and creating to applying them in complex tasks. It emphasizes real-world complexities, demanding accurate, multi-step planning for effective problem-solving. A key feature of UltraTool is its independent evaluation of planning with natural language, which happens before tool usage and simplifies the task solving by mapping out the intermediate steps. Thus, unlike previous work, it eliminates the restriction of pre-defined toolset. Through extensive experiments on various LLMs, we offer novel insights into the evaluation of capabilities of LLMs in tool utilization, thereby contributing a fresh perspective to this rapidly evolving field. The benchmark is publicly available at https://github.com/JoeYing1019/UltraTool.
翻訳日:2024-02-19 19:06:22 公開日:2024-02-16
# 歴史を意識した会話難読検索

History-Aware Conversational Dense Retrieval ( http://arxiv.org/abs/2401.16659v2 )

ライセンス: Link先を確認
Fengran Mo, Chen Qu, Kelong Mao, Tianyu Zhu, Zhan Su, Kaiyu Huang, Jian-Yun Nie(参考訳) 会話検索は,ユーザとシステム間のマルチターンインタラクションを可能にすることで,複雑な情報検索を容易にする。 このようなインタラクションをサポートするには、過去の情報に基づいて優れた検索クエリを定式化するために、会話入力の包括的な理解が必要である。 特に、検索クエリには、前の会話のターンから関連する情報を含めるべきである。 しかし,会話高密度検索への現在のアプローチは,会話検索セッション全体を用いて事前学習したアドホック検索を微調整することに大きく依存している。 さらに、既存のアプローチは、既存のデータセット内の手動の監視信号量によって制限される。 上記の課題に対処するため, 歴史的ターンの実際の影響に基づいて, 文脈決定型クエリ再構成と監視信号の自動マイニングという2つのアイデアを取り入れた, 歴史認識型会話用Dense Retrieval (HAConvDR) システムを提案する。 2つの公開対話型検索データセットに関する実験は、特にトピックシフトとの長い会話において、haconvdrの履歴モデリング能力の向上を示している。

Conversational search facilitates complex information retrieval by enabling multi-turn interactions between users and the system. Supporting such interactions requires a comprehensive understanding of the conversational inputs to formulate a good search query based on historical information. In particular, the search query should include the relevant information from the previous conversation turns. However, current approaches for conversational dense retrieval primarily rely on fine-tuning a pre-trained ad-hoc retriever using the whole conversational search session, which can be lengthy and noisy. Moreover, existing approaches are limited by the amount of manual supervision signals in the existing datasets. To address the aforementioned issues, we propose a History-Aware Conversational Dense Retrieval (HAConvDR) system, which incorporates two ideas: context-denoised query reformulation and automatic mining of supervision signals based on the actual impact of historical turns. Experiments on two public conversational search datasets demonstrate the improved history modeling capability of HAConvDR, in particular for long conversations with topic shifts.
翻訳日:2024-02-19 19:06:00 公開日:2024-02-16
# 量子テトラヘドラの安定化エントロピー

Stabilizer entropy of quantum tetrahedra ( http://arxiv.org/abs/2402.07843v2 )

ライセンス: Link先を確認
Simone Cepollaro, Goffredo Chirco, Gianluca Cuffaro, Gianluca Esposito, Alioscia Hamma(参考訳) 量子幾何学の構造はどの程度複雑か? いくつかのアプローチでは、時空原子は量子四面体と呼ばれるsu(2)中間子によって得られる。 この構造の複雑さは、そのようなモデルをシミュレートし、量子重力効果の実験的実証に向けての最近の試みにおいて、具体的な結果をもたらす。 したがって、このクラスのモデルに固有の計算と実験的な複雑さの両方が存在する。 本稿では,安定度エントロピー(SE)のレンズ下で,この複雑さについて検討する。 ゲージ不変基底状態のseと、su(2)ゲージ不変部分空間におけるその平均を計算する。 定容積の状態は(ほぼ)最大SEによって選択され、利用可能な量子コンピュータ上での実験的なデモンストレーションを行うための検証プロトコルに正確な境界を与える。

How complex is the structure of quantum geometry? In several approaches, the spacetime atoms are obtained by the SU(2) intertwiner called quantum tetrahedron. The complexity of this construction has a concrete consequence in recent efforts to simulate such models and toward experimental demonstrations of quantum gravity effects. There are, therefore, both a computational and an experimental complexity inherent to this class of models. In this paper, we study this complexity under the lens of stabilizer entropy (SE). We calculate the SE of the gauge-invariant basis states and its average in the SU(2) gauge invariant subspace. We find that the states of definite volume are singled out by the (near) maximal SE and give precise bounds to the verification protocols for experimental demonstrations on available quantum computers.
翻訳日:2024-02-19 18:57:33 公開日:2024-02-16
# 摂動グラフ上で定義された信号の圧縮回復

Compressive Recovery of Signals Defined on Perturbed Graphs ( http://arxiv.org/abs/2402.07637v2 )

ライセンス: Link先を確認
Sabyasachi Ghosh and Ajit Rajwade(参考訳) 圧縮測定からグラフのノードに定義された要素による信号の復元は、センサネットワーク、画像再構成、グループテストなどの様々な領域で発生しうる重要な問題である。 いくつかのシナリオでは、グラフは正確には知られておらず、基底真理グラフに対するいくつかの辺の追加や削除が存在するかもしれない。 このような摂動は、たとえ小さいとしてもグラフフーリエ変換(GFT)に大きな影響を及ぼす。 これは基底真理グラフの gft 基底でスパース表現を持つかもしれない信号の回復を妨げる。 本稿では, 圧縮測定から同時に信号を復元し, グラフ摂動を補正するアルゴリズムを提案する。 我々はアルゴリズムの重要な理論的特性を解析する。 グラフ摂動の補正手法は,圧縮センシングにおけるクロスバリデーションなどのモデル選択手法に基づいている。 ネットワーク科学文献においてよく用いられるグラフのGFTベースに疎表現を持つ信号に対して,本アルゴリズムの有効性を検証する。 圧縮画像再構成の応用例も提示され、グラフ摂動は大きな強度差を持つ画素を繋ぐ望ましくないグラフエッジとしてモデル化される。 すべての実験において、本アルゴリズムは、摂動を無視したり、gft基底の摂動に一階近似を用いるベースライン手法よりも明らかに優れている。

Recovery of signals with elements defined on the nodes of a graph, from compressive measurements is an important problem, which can arise in various domains such as sensor networks, image reconstruction and group testing. In some scenarios, the graph may not be accurately known, and there may exist a few edge additions or deletions relative to a ground truth graph. Such perturbations, even if small in number, significantly affect the Graph Fourier Transform (GFT). This impedes recovery of signals which may have sparse representations in the GFT bases of the ground truth graph. We present an algorithm which simultaneously recovers the signal from the compressive measurements and also corrects the graph perturbations. We analyze some important theoretical properties of the algorithm. Our approach to correction for graph perturbations is based on model selection techniques such as cross-validation in compressed sensing. We validate our algorithm on signals which have a sparse representation in the GFT bases of many commonly used graphs in the network science literature. An application to compressive image reconstruction is also presented, where graph perturbations are modeled as undesirable graph edges linking pixels with significant intensity difference. In all experiments, our algorithm clearly outperforms baseline techniques which either ignore the perturbations or use first order approximations to the perturbations in the GFT bases.
翻訳日:2024-02-19 18:57:21 公開日:2024-02-16
# アンカーベース大規模言語モデル

Anchor-based Large Language Models ( http://arxiv.org/abs/2402.07616v2 )

ライセンス: Link先を確認
Jianhui Pang, Fanghua Ye, Derek F. Wong, Longyue Wang(参考訳) 大規模言語モデル(llms)は主にデコーダのみのトランスフォーマーアーキテクチャを採用しており、歴史的トークンのキー/バリュー情報の保持を必要とし、コンテキスト情報を提供し、冗長な計算を避ける。 しかし、これらのLLMのかなりのサイズとパラメータボリュームは、大量のGPUメモリを必要とする。 このメモリ需要は入力テキストの長さとともに増大し、情報保存と処理のより効率的な方法が緊急に必要となる。 本研究では,アンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。 このアプローチにより、LLMはシーケンス情報をアンカートークンに圧縮し、キー/値キャッシュを削減し、推論効率を向上させる。 質問応答ベンチマークの実験では、AnLLMsも同様の精度を維持し、最大99%のキー/値キャッシュの削減と最大3.5倍の高速推論を実現している。 精度の小さな妥協にもかかわらず、AnSAN技術を用いたAnLLMの資源利用と計算効率の大幅な向上は、実用的なLCMアプリケーションの可能性を強調した。

Large language models (LLMs) predominantly employ decoder-only transformer architectures, necessitating the retention of keys/values information for historical tokens to provide contextual information and avoid redundant computation. However, the substantial size and parameter volume of these LLMs require massive GPU memory. This memory demand increases with the length of the input text, leading to an urgent need for more efficient methods of information storage and processing. This study introduces Anchor-based LLMs (AnLLMs), which utilize an innovative anchor-based self-attention network (AnSAN) and also an anchor-based inference strategy. This approach enables LLMs to compress sequence information into an anchor token, reducing the keys/values cache and enhancing inference efficiency. Experiments on question-answering benchmarks reveal that AnLLMs maintain similar accuracy levels while achieving up to 99% keys/values cache reduction and up to 3.5 times faster inference. Despite a minor compromise in accuracy, the substantial enhancements of AnLLMs employing the AnSAN technique in resource utilization and computational efficiency underscore their potential for practical LLM applications.
翻訳日:2024-02-19 18:57:00 公開日:2024-02-16
# テキスト分類におけるLLM容量の限界を押し上げる

Pushing The Limit of LLM Capacity for Text Classification ( http://arxiv.org/abs/2402.07470v2 )

ライセンス: Link先を確認
Yazhou Zhang, Mengyao Wang, Chenyu Ren, Qiuchi Li, Prayag Tiwari, Benyou Wang, Jing Qin(参考訳) テキスト分類の今後の研究の価値は、多くの下流NLPタスクにわたる大規模言語モデル(LLM)によって実証された異常な有効性のために、課題と不確実性に直面している。 タスク境界が徐々に消えていく、オープンエンドの言語モデリングの時代において、緊急の疑問が生まれます。 そこで本研究では,強力なベース学習者のプールを反復的にアンサンブルすることで,特殊なテキスト分類 LLM を生成するための適応的強化フレームワーク RGPT を提案する。 ベース学習者は、トレーニングサンプルの分布を適応的に調整し、反復的に微調整するLLMを構築する。 このような基礎学習者は、過去の学習者からの履歴予測を繰り返し組み込むことで、特殊なテキスト分類 LLM にまとめられる。 総合的な経験的比較により、RGPTは4つのベンチマークで平均1.36%の8SOTA PLMと7SOTA LLMを大きく上回っている。 さらなる評価実験は、人間の分類よりも明らかにRGPTを上回っていることを示している。

The value of text classification's future research has encountered challenges and uncertainties, due to the extraordinary efficacy demonstrated by large language models (LLMs) across numerous downstream NLP tasks. In this era of open-ended language modeling, where task boundaries are gradually fading, an urgent question emerges: have we made significant advances in text classification under the full benefit of LLMs? To answer this question, we propose RGPT, an adaptive boosting framework tailored to produce a specialized text classification LLM by recurrently ensembling a pool of strong base learners. The base learners are constructed by adaptively adjusting the distribution of training samples and iteratively fine-tuning LLMs with them. Such base learners are then ensembled to be a specialized text classification LLM, by recurrently incorporating the historical predictions from the previous learners. Through a comprehensive empirical comparison, we show that RGPT significantly outperforms 8 SOTA PLMs and 7 SOTA LLMs on four benchmarks by 1.36% on average. Further evaluation experiments show a clear surpassing of RGPT over human classification.
翻訳日:2024-02-19 18:56:41 公開日:2024-02-16
# スプリット投票のレンズを通して:判例結果分類における不一致、難易度、校正の検討

Through the Lens of Split Vote: Exploring Disagreement, Difficulty and Calibration in Legal Case Outcome Classification ( http://arxiv.org/abs/2402.07214v2 )

ライセンス: Link先を確認
Shanshan Xu, T.Y.S.S Santosh, Oana Ichim, Barbara Plank, Matthias Grabmair(参考訳) 法的決定では、裁判官が全会一致の判断に到達できず、様々な法的議論や意見をナビゲートしなければならない弁護士にとって困難である。 高度な領域では、人間とAIシステム間の認識される困難の整合を理解することが信頼を構築するために不可欠である。 しかし,既存のNLPキャリブレーション手法は,人間に固有のラベル変動(HLV)を見越して,ヒトの多数派に対して測定された,分類者の予測性能に対する認識に焦点を当てている。 本稿では、人的不一致と価値多元主義を自然に観察できるものとして、分割投票を考察する。 欧州人権裁判所 (ECHR) から審査員の投票分布を収集し, SV情報を用いた事例結果分類(COC)データセットであるSV-ECHRを提示する。 SV固有のサブカテゴリとの相違の分類を構築した。 さらに、モデルと人間間の認識困難のアライメントと、COCモデルの信頼性と人間の校正を評価する。 我々は、審査員の投票分布との限定的な一致を観察する。 我々の知る限り、法的NLPにおける人間の判断に対する校正の体系的な調査はこれが初めてである。 本研究は,法的決定課題におけるhlvを考慮したモデル校正のさらなる研究の必要性を浮き彫りにするものである。

In legal decisions, split votes (SV) occur when judges cannot reach a unanimous decision, posing a difficulty for lawyers who must navigate diverse legal arguments and opinions. In high-stakes domains, understanding the alignment of perceived difficulty between humans and AI systems is crucial to build trust. However, existing NLP calibration methods focus on a classifier's awareness of predictive performance, measured against the human majority class, overlooking inherent human label variation (HLV). This paper explores split votes as naturally observable human disagreement and value pluralism. We collect judges' vote distributions from the European Court of Human Rights (ECHR), and present SV-ECHR, a case outcome classification (COC) dataset with SV information. We build a taxonomy of disagreement with SV-specific subcategories. We further assess the alignment of perceived difficulty between models and humans, as well as confidence- and human-calibration of COC models. We observe limited alignment with the judge vote distribution. To our knowledge, this is the first systematic exploration of calibration to human judgements in legal NLP. Our study underscores the necessity for further research on measuring and enhancing model calibration considering HLV in legal decision tasks.
翻訳日:2024-02-19 18:56:05 公開日:2024-02-16
# LLMは毒性を認識するか? 構造的毒性調査フレームワークと意味論的基準

Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework and Semantic-Based Metric ( http://arxiv.org/abs/2402.06900v2 )

ライセンス: Link先を確認
Hyukhun Koh, Dohyung Kim, Minwoo Lee, and Kyomin Jung(参考訳) 社会標準に準拠した大規模言語モデル (LLM) の開発において, 生成したテキストの毒性の存在を識別することが不可欠である。 既存の毒性指標の大部分は、特定の毒性データセットに基づいてトレーニングされたエンコーダモデルに依存している。 しかし、これらのエンコーダはout-of-distribution (ood)問題に影響を受けやすく、データセットで想定される毒性の定義に依存する。 本稿では, モデル応答が有害かどうかを識別するために, LLMを基盤とした自動ロバスト計量を導入する。 まず, 毒性因子を解析し, その後, LLMの内因性毒性特性を調べ, その妥当性を確認した。 その後, 評価データセット上では, llmsを毒性評価装置(latte)として評価し, 実験結果から, f1スコアの12ポイント向上, 有毒度測定において有意な成績を示した。 また、上流の毒性が下流の指標に影響を及ぼすことを示す。

In the pursuit of developing Large Language Models (LLMs) that adhere to societal standards, it is imperative to discern the existence of toxicity in the generated text. The majority of existing toxicity metrics rely on encoder models trained on specific toxicity datasets. However, these encoders are susceptible to out-of-distribution (OOD) problems and depend on the definition of toxicity assumed in a dataset. In this paper, we introduce an automatic robust metric grounded on LLMs to distinguish whether model responses are toxic. We start by analyzing the toxicity factors, followed by examining the intrinsic toxic attributes of LLMs to ascertain their suitability as evaluators. Subsequently, we evaluate our metric, LLMs As ToxiciTy Evaluators (LATTE), on evaluation datasets.The empirical results indicate outstanding performance in measuring toxicity, improving upon state-of-the-art metrics by 12 points in F1 score without training procedure. We also show that upstream toxicity has an influence on downstream metrics.
翻訳日:2024-02-19 18:55:43 公開日:2024-02-16
# GLaM:近傍分割と生成サブグラフ符号化によるドメイン知識グラフアライメントのための微調整大言語モデル

GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding ( http://arxiv.org/abs/2402.06764v2 )

ライセンス: Link先を確認
Stefan Dernbach, Khushbu Agarwal, Alejandro Zuniga, Michael Henry, Sutanay Choudhury(参考訳) 大規模言語モデル(llm)とドメイン固有データに由来する知識グラフの統合は、より強力で事実的推論への重要な進歩を表している。 これらのモデルがより有能になるにつれて、幻覚を最小化しながら実世界の知識グラフに対して多段階の推論を行えるようにすることが重要である。 大きな言語モデルは会話やテキスト生成に優れているが、相互接続されたエンティティのドメイン特化グラフを推論する能力は限られている。 例えば、プライベートデータベースのリレーションシップと属性に基づいて、特定の目的のためにプロのネットワークの最適なコンタクトを特定するために、llmをクエリできますか? 答えはノーだ-そのような能力は現在の方法以上のものである。 しかし、この問題は対処しなければならない重要な技術的ギャップを浮き彫りにする。 科学、セキュリティ、電子商取引などの分野における多くの高価値アプリケーションは、独自の構造、関係性、論理的制約をコードする独自の知識グラフに依存している。 本稿では,知識グラフをラベル付き質問・回答ペアによる代替テキスト表現に変換するglam(graph-aligned language model)を開発するための微調整フレームワークを提案する。 特定のグラフベース知識におけるモデル基底化は、モデルの構造ベース推論の能力を高めることを実証する。 本手法は,大言語モデルの生成能力を活用してデータセットを作成し,検索型生成方式に代わる効率的な代替手法を提案する。

Integrating large language models (LLMs) with knowledge graphs derived from domain-specific data represents an important advancement towards more powerful and factual reasoning. As these models grow more capable, it is crucial to enable them to perform multi-step inferences over real-world knowledge graphs while minimizing hallucination. While large language models excel at conversation and text generation, their ability to reason over domain-specialized graphs of interconnected entities remains limited. For example, can we query a LLM to identify the optimal contact in a professional network for a specific goal, based on relationships and attributes in a private database? The answer is no--such capabilities lie beyond current methods. However, this question underscores a critical technical gap that must be addressed. Many high-value applications in areas such as science, security, and e-commerce rely on proprietary knowledge graphs encoding unique structures, relationships, and logical constraints. We introduce a fine-tuning framework for developing Graph-aligned LAnguage Models (GLaM) that transforms a knowledge graph into an alternate text representation with labeled question-answer pairs. We demonstrate that grounding the models in specific graph-based knowledge expands the models' capacity for structure-based reasoning. Our methodology leverages the large-language model's generative capabilities to create the dataset and proposes an efficient alternate to retrieval-augmented generation styled methods.
翻訳日:2024-02-19 18:55:04 公開日:2024-02-16
# NICE: コンテキスト内の例を最適化する?

NICE: To Optimize In-Context Examples or Not? ( http://arxiv.org/abs/2402.06733v2 )

ライセンス: Link先を確認
Pragya Srivastava, Satvik Golechha, Amit Deshpande, Amit Sharma(参考訳) 最近の研究は、文脈内学習と文脈内サンプル(ICE)の最適化が、幅広いタスクにおける大きな言語モデル(LLM)の精度を大幅に向上することを示し、ICE最適化がパフォーマンス向上に不可欠であるという明確なコンセンサスを生み出している。 しかし、これらの研究のほとんどは、プロンプトで提供される固定的または全く指示を受けていない。 我々は、タスク固有の指示が提供される際にICEを最適化する必要性を調査し、それが減少するリターンをもたらすタスクがあることを発見することで、この合意に挑戦する。 特に、多様なタスクセットと、徐々に詳細を付加した体系化された命令セットを使用することで、プロンプト命令がより詳細になるにつれて、ICE最適化におけるリターンが減少することがわかった。 この振る舞いを特徴付けるために、与えられた命令からタスクの学習可能性を定量化し、新しいタスクに対して命令やICEを最適化するかを決定するためのヒューリスティックを提供する、正規化不変例選択基準(NICE)を導入する。 タスクが与えられた場合、提案手法はランダムなICEに比べてICEの最適化の有用性を確実に予測することができる。

Recent work shows that in-context learning and optimization of in-context examples (ICE) can significantly improve the accuracy of large language models (LLMs) on a wide range of tasks, leading to an apparent consensus that ICE optimization is crucial for better performance. However, most of these studies assume a fixed or no instruction provided in the prompt. We challenge this consensus by investigating the necessity of optimizing ICE when task-specific instructions are provided and find that there are tasks for which it yields diminishing returns. In particular, using a diverse set of tasks and a systematically created instruction set with gradually added details, we find that as the prompt instruction becomes more detailed, the returns on ICE optimization diminish. To characterize this behavior, we introduce a task-specific metric called Normalized Invariability to Choice of Examples (NICE) that quantifies the learnability of tasks from a given instruction, and provides a heuristic that helps decide whether to optimize instructions or ICE for a new task. Given a task, the proposed metric can reliably predict the utility of optimizing ICE compared to using random ICE.
翻訳日:2024-02-19 18:54:39 公開日:2024-02-16
# 多視点記号回帰

Multi-View Symbolic Regression ( http://arxiv.org/abs/2402.04298v2 )

ライセンス: Link先を確認
Etienne Russeil, Fabr\'icio Olivetti de Fran\c{c}a, Konstantin Malanchev, Bogdan Burlacu, Emille E. O. Ishida, Marion Leroux, Cl\'ement Michelin, Guillaume Moinard, Emmanuel Gangler(参考訳) 記号回帰(sr)は、説明変数の集合と応答変数の関係を表す解析式を探索する。 現在のsrメソッドは、単一の実験から抽出された単一のデータセットを想定している。 しかしながら、研究者はしばしば異なる設定で行われた実験から得られた複数の結果に直面する。 従来のSR法では、各実験のパラメータが異なるため、基礎となる式を見つけることができない。 本研究では,複数のデータセットを同時に考慮し,実験環境を模倣し,一般的なパラメトリック解を出力するマルチビューシンボリック回帰(mvsr)を提案する。 このアプローチは、各独立データセットに評価された式を適合させ、すべてのデータセットを正確に適合できる関数 f(x; \theta) のパラメトリック族を返す。 我々は、既知の表現から生成されたデータと、天文学、化学、経済から得られた実世界のデータを用いて、MvSRの有効性を実証する。 その結果、MvSRは正しい表現をより頻繁に獲得し、ハイパーパラメーターの変化に対して堅牢であることがわかった。 実世界のデータでは、集団の振る舞いを把握し、文献から既知の表現を回収し、有望な代替品を回収し、SRを幅広い実験シナリオに利用できるようにする。

Symbolic regression (SR) searches for analytical expressions representing the relationship between a set of explanatory and response variables. Current SR methods assume a single dataset extracted from a single experiment. Nevertheless, frequently, the researcher is confronted with multiple sets of results obtained from experiments conducted with different setups. Traditional SR methods may fail to find the underlying expression since the parameters of each experiment can be different. In this work we present Multi-View Symbolic Regression (MvSR), which takes into account multiple datasets simultaneously, mimicking experimental environments, and outputs a general parametric solution. This approach fits the evaluated expression to each independent dataset and returns a parametric family of functions f(x; \theta) simultaneously capable of accurately fitting all datasets. We demonstrate the effectiveness of MvSR using data generated from known expressions, as well as real-world data from astronomy, chemistry and economy, for which an a priori analytical expression is not available. Results show that MvSR obtains the correct expression more frequently and is robust to hyperparameters change. In real-world data, it is able to grasp the group behaviour, recovering known expressions from the literature as well as promising alternatives, thus enabling the use SR to a large range of experimental scenarios.
翻訳日:2024-02-19 18:53:55 公開日:2024-02-16
# 読み出し後復号によるパリティエンコーディングに基づくアニールの誤り補正

Error correction of parity-encoding-based annealing through post-readout decoding ( http://arxiv.org/abs/2402.08839v2 )

ライセンス: Link先を確認
Yoshihiro Nambu(参考訳) Lechner, Hauke, Zoller らは、平面基板上に作製されたスピン間の幾何学的局所的相互作用のみを用いて、短期QAハードウェアにおける限られた接続性の問題を回避するために、QA(quantum annealing) のためのパリティ符号化スピン埋め込み方式を提案した。 それにもかかわらず、論理情報の冗長符号化、すなわち多くのスピンを使って論理情報を埋め込み、計算コストを増加させ、効率を低下させる。 本研究では,この冗長符号化をモンテカルロシミュレーションにより,論理情報を取得するためにスピンの適切なデコード,すなわち古典後処理を組み込むことにより,パリティエンコード方式の非効率性と計算コストの問題を解決することができることを示した。 本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。

Lechner, Hauke, and Zoller proposed a parity-encoded spin-embedding scheme for quantum annealing (QA) with all-to-all connectivity to avoid the issue of limited connectivity in near-term QA hardware and to enable the implementation thereof using only geometrically local interactions between spins fabricated on the planar substrate. Nevertheless, the redundant encoding of logical information, i.e., using a large number of spins to embed the logical information, increases the computational cost and reduces the efficiency. In this study, we show through Monte Carlo simulation that this redundant encoding may be exploited to solve the problems of the inefficiency and computational cost of the parity-encoded scheme by incorporating appropriate decoding, namely classical post-processing, of the spins to retrieve the logical information. Our findings open up the possibility of parity-encoded schemes for realizing the QA with near-term quantum technologies.
翻訳日:2024-02-19 18:42:03 公開日:2024-02-16
# Intelligent Canvas: 高速プロトタイピング、イテレーション、キュレーションによるジェネレーティブAIによるデザインライクな探索的ビジュアルデータ分析の実現

Intelligent Canvas: Enabling Design-Like Exploratory Visual Data Analysis with Generative AI through Rapid Prototyping, Iteration and Curation ( http://arxiv.org/abs/2402.08812v2 )

ライセンス: Link先を確認
Zijian Ding, Joel Chan(参考訳) 複雑なデータ分析は、本質的には、探索的 \re{visual analysis} 法による予期せぬ洞察を求め、論理的、段階的に処理する。 しかし、ノートやダッシュボードのような既存のインターフェイスは、ビジュアルデータ分析のための探索と比較に制限がある。 これらの制限に対処するために,生成aiをデータ分析に統合した"デザインライクな"インテリジェントキャンバス環境を導入し,迅速なプロトタイピング,イテレーション,比較可視化管理を提供する。 この2つのコントリビューションには、生成AIコンポーネントをキャンバスインターフェースに統合することや、キャンバスインターフェースの有効性を評価するユーザスタディ(N=10)による経験的発見が含まれている。

Complex data analysis inherently seeks unexpected insights through exploratory \re{visual analysis} methods, transcending logical, step-by-step processing. However, \re{existing interfaces such as notebooks and dashboards have limitations in exploration and comparison for visual data analysis}. Addressing these limitations, we introduce a "design-like" intelligent canvas environment integrating generative AI into data analysis, offering rapid prototyping, iteration, and comparative visualization management. Our dual contributions include the integration of generative AI components into a canvas interface, and empirical findings from a user study (N=10) evaluating the effectiveness of the canvas interface.
翻訳日:2024-02-19 18:41:45 公開日:2024-02-16
# 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering ( http://arxiv.org/abs/2402.08277v2 )

ライセンス: Link先を確認
Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus Leippold(参考訳) 大規模言語モデル(LLM)のより忠実で追跡可能な回答への進歩は、様々な研究や実践に不可欠である。 この目標を達成する1つの道は、信頼できる情報源の答えを基盤にすることです。 しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。 本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。 具体的には,多様な高品質なトレーニングと大規模テストデータを合成可能な,自動データ品質フィルタを備えたデータ生成パイプラインを提案する。 さらに,精巧に調整されたスペシャリストモデルのロバスト性を評価するために,4つのテストセットを導入する。 総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。 さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.
翻訳日:2024-02-19 18:40:50 公開日:2024-02-16
# LogELECTRA:非構造化ログの自己教師付き異常検出

LogELECTRA: Self-supervised Anomaly Detection for Unstructured Logs ( http://arxiv.org/abs/2402.10397v1 )

ライセンス: Link先を確認
Yuuki Yamanaka, Tomokatsu Takahashi, Takuya Minami, Yoshiaki Nakajima(参考訳) システムログはソフトウェアシステムのメンテナンスにおいて最も重要な情報であり、近年はより大きく、より複雑になっている。 ログベースの異常検出の目標は,短時間で発生する大量のログを解析することにより,システム異常を自動的に検出することである。 これまでの研究では、非構造化ログデータからテンプレートを抽出するためにログパーサを使用しており、テンプレート発生のパターンに基づいて異常を検出する。 これらのメソッドは、未知のテンプレートを持つログに制限がある。 さらに、ほとんどのログ異常は文脈異常よりも点異常であることが知られているため、発生パターンに基づく検出方法は検出に不要な遅延を引き起こす可能性がある。 本稿では,自己教師付き異常検出に基づいて,単一行のログメッセージをより深く分析する新しいログ異常検出モデルであるLogELECTRAを提案する。 LogELECTRAは、自然言語処理モデルであるELECTRAを適用して、単一行のログメッセージの意味を分析することで、ポイント異常としてログ異常を検出する。 LogELECTRAは、公開ベンチマークログデータセットであるBGL、Sprit、Thunderbirdの実験において、既存の最先端メソッドよりも優れていた。

System logs are some of the most important information for the maintenance of software systems, which have become larger and more complex in recent years. The goal of log-based anomaly detection is to automatically detect system anomalies by analyzing the large number of logs generated in a short period of time, which is a critical challenge in the real world. Previous studies have used a log parser to extract templates from unstructured log data and detect anomalies on the basis of patterns of the template occurrences. These methods have limitations for logs with unknown templates. Furthermore, since most log anomalies are known to be point anomalies rather than contextual anomalies, detection methods based on occurrence patterns can cause unnecessary delays in detection. In this paper, we propose LogELECTRA, a new log anomaly detection model that analyzes a single line of log messages more deeply on the basis of self-supervised anomaly detection. LogELECTRA specializes in detecting log anomalies as point anomalies by applying ELECTRA, a natural language processing model, to analyze the semantics of a single line of log messages. LogELECTRA outperformed existing state-of-the-art methods in experiments on the public benchmark log datasets BGL, Sprit, and Thunderbird.
翻訳日:2024-02-19 18:09:19 公開日:2024-02-16
# スパース線形概念埋め込み(SpLiCE)を用いたCLIPの解釈

Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) ( http://arxiv.org/abs/2402.10376v1 )

ライセンス: Link先を確認
Usha Bhalla, Alex Oesterling, Suraj Srinivas, Flavio P. Calmon, Himabindu Lakkaraju(参考訳) CLIPの埋め込みは、幅広いコンピュータビジョンタスクで顕著なパフォーマンスを示している。 しかし、これらの高次元で密接なベクトル表現は容易に解釈できないため、透過性を必要とする下流アプリケーションでは有用性が制限される。 本研究では,CLIPの潜在空間が高度に構造化されており,CLIP表現を基盤となるセマンティックコンポーネントに分解できることを実証的に示す。 我々はこの理解を活用し、CLIP表現を人間の解釈可能な概念の疎線形結合に変換する新しい方法であるスパース線形概念埋め込み(SpLiCE)を提案する。 以前の作業とは違って、SpLiCEは概念ラベルを必要とせず、ポストホックで適用することができる。 複数の実世界のデータセットを用いて広範な実験を行うことで、SpLiCEが出力する表現が従来のCLIP表現の説明や置き換えを可能にし、等価なダウンストリーム性能を維持しながら、解釈可能性を大幅に向上させることができることを検証する。 また、スプリケート相関の検出、モデル編集、データセットのセマンティックシフトの定量化など、SpLiCE表現のいくつかのユースケースについても示す。

CLIP embeddings have demonstrated remarkable performance across a wide range of computer vision tasks. However, these high-dimensional, dense vector representations are not easily interpretable, restricting their usefulness in downstream applications that require transparency. In this work, we empirically show that CLIP's latent space is highly structured, and consequently that CLIP representations can be decomposed into their underlying semantic components. We leverage this understanding to propose a novel method, Sparse Linear Concept Embeddings (SpLiCE), for transforming CLIP representations into sparse linear combinations of human-interpretable concepts. Distinct from previous work, SpLiCE does not require concept labels and can be applied post hoc. Through extensive experimentation with multiple real-world datasets, we validate that the representations output by SpLiCE can explain and even replace traditional dense CLIP representations, maintaining equivalent downstream performance while significantly improving their interpretability. We also demonstrate several use cases of SpLiCE representations including detecting spurious correlations, model editing, and quantifying semantic shifts in datasets.
翻訳日:2024-02-19 18:09:00 公開日:2024-02-16
# ドットを接続する:データセットの凝縮、差分プライバシー、および逆不確実性

Connect the dots: Dataset Condensation, Differential Privacy, and Adversarial Uncertainty ( http://arxiv.org/abs/2402.10423v1 )

ライセンス: Link先を確認
Kenneth Odoh(参考訳) 我々の研究は、最適なノイズである$\epsilon$が逆不確実性 \cite{grining2017} によって選択される($\epsilon$,$\delta$) 微分プライバシーとの接続を引いてデータセット凝縮の基盤メカニズムを理解することに焦点を当てています。 データセットの凝縮手順の内部動作に関する疑問に答えることができる。 以前の作業 \cite{dong2022} は、データセットの凝縮(DC)と($\epsilon$, $\delta$)-差分プライバシーの関連性を証明した。 しかし、高忠実性合成データを作成するのに十分である$\epsilon$の低いバウンドの見積もりを得るためにDCを非難する既存の研究から明らかでない。 対向不確実性は最適な雑音レベル、$\epsilon$を達成するための最も適切な方法である。 データセットの凝縮に関する内部ダイナミクスの一部として,プライバシを提供しながら忠実度の高いデータを保証するノイズ推定方式を採用する。

Our work focuses on understanding the underpinning mechanism of dataset condensation by drawing connections with ($\epsilon$, $\delta$)-differential privacy where the optimal noise, $\epsilon$, is chosen by adversarial uncertainty \cite{Grining2017}. We can answer the question about the inner workings of the dataset condensation procedure. Previous work \cite{dong2022} proved the link between dataset condensation (DC) and ($\epsilon$, $\delta$)-differential privacy. However, it is unclear from existing works on ablating DC to obtain a lower-bound estimate of $\epsilon$ that will suffice for creating high-fidelity synthetic data. We suggest that adversarial uncertainty is the most appropriate method to achieve an optimal noise level, $\epsilon$. As part of the internal dynamics of dataset condensation, we adopt a satisfactory scheme for noise estimation that guarantees high-fidelity data while providing privacy.
翻訳日:2024-02-19 17:57:42 公開日:2024-02-16
# ManiFPT: 生成モデルの指紋の定義と解析

ManiFPT: Defining and Analyzing Fingerprints of Generative Models ( http://arxiv.org/abs/2402.10401v1 )

ライセンス: Link先を確認
Hae Jin Song, Mahyar Khayatkhoei, Wael AbdAlmageed(参考訳) 近年の研究では、生成モデルが生成したサンプルに生成過程の痕跡を残していることが示されており、実画像からの合成画像の検出に有用性が研究されている。 しかし、これらの指紋が様々な種類の合成画像と区別し、基礎となる生成過程を特定するのに役立つ拡張は未検討のままである。 特に、指紋の定義は、私たちの知る限り、まだ不明です。 そこで本研究では,生成モデルにおけるアーティファクトと指紋の定義を定式化し,それを実際に計算するためのアルゴリズムを提案し,最終的に,多数の異なる生成モデルの識別におけるその効果について検討する。 提案手法を用いることで,既存の手法と比較して,サンプル(モデル属性)から生成過程を識別するタスクの性能が大幅に向上することがわかった。 さらに, 指紋の構造について検討し, 異なる設計選択が生成過程に与える影響を非常に予測していることを確認した。

Recent works have shown that generative models leave traces of their underlying generative process on the generated samples, broadly referred to as fingerprints of a generative model, and have studied their utility in detecting synthetic images from real ones. However, the extend to which these fingerprints can distinguish between various types of synthetic image and help identify the underlying generative process remain under-explored. In particular, the very definition of a fingerprint remains unclear, to our knowledge. To that end, in this work, we formalize the definition of artifact and fingerprint in generative models, propose an algorithm for computing them in practice, and finally study its effectiveness in distinguishing a large array of different generative models. We find that using our proposed definition can significantly improve the performance on the task of identifying the underlying generative process from samples (model attribution) compared to existing methods. Additionally, we study the structure of the fingerprints, and observe that it is very predictive of the effect of different design choices on the generative process.
翻訳日:2024-02-19 17:57:25 公開日:2024-02-16
# 論理の連鎖: 大きな言語モデルによるルールベースの推論

Chain of Logic: Rule-Based Reasoning with Large Language Models ( http://arxiv.org/abs/2402.10400v1 )

ライセンス: Link先を確認
Sergio Servantez, Joe Barrow, Kristian Hammond, Rajiv Jain(参考訳) ルールベース推論(rule-based reasoning)は、一連の事実にルールを正しく適用することにより、結論を導き出す基本的な方法である。 特に,複雑な論理表現を形成する複数の要素からなる規則の構成規則に関して,因果的言語モデルについて検討する。 構成規則に関する推論は、複数の推論ステップが必要であり、要素間の論理的な関係に従わなければならないため、難しい。 本稿では,論理の分解(論理の独立スレッドとして要素を解き明かす)と再分解(これらのサブアンサーを再結合して論理式を解く)を通じて規則に基づく推論を導く新しいプロンプト手法,Chain of Logicを紹介する。 この方法は、弁護士が使用する逐次推論アプローチであるirc(issue, rule, application, conclusion)フレームワークに触発された。 我々は,lawbenchベンチマークと3つの異なる構成規則を含む8つのルールに基づく推論タスクにおける論理の連鎖を評価し,オープンソースおよび商用言語モデルを用いて,ソートチェーンやセルフアスクを含む他のプロンプト手法を一貫して上回っていることを示す。

Rule-based reasoning, a fundamental type of legal reasoning, enables us to draw conclusions by accurately applying a rule to a set of facts. We explore causal language models as rule-based reasoners, specifically with respect to compositional rules - rules consisting of multiple elements which form a complex logical expression. Reasoning about compositional rules is challenging because it requires multiple reasoning steps, and attending to the logical relationships between elements. We introduce a new prompting method, Chain of Logic, which elicits rule-based reasoning through decomposition (solving elements as independent threads of logic), and recomposition (recombining these sub-answers to resolve the underlying logical expression). This method was inspired by the IRAC (Issue, Rule, Application, Conclusion) framework, a sequential reasoning approach used by lawyers. We evaluate chain of logic across eight rule-based reasoning tasks involving three distinct compositional rules from the LegalBench benchmark and demonstrate it consistently outperforms other prompting methods, including chain of thought and self-ask, using open-source and commercial language models.
翻訳日:2024-02-19 17:57:08 公開日:2024-02-16
# multi-label code smell detectionのためのプロンプト学習:有望なアプローチ

Prompt Learning for Multi-Label Code Smell Detection: A Promising Approach ( http://arxiv.org/abs/2402.10398v1 )

ライセンス: Link先を確認
Haiyang Liu, Yang Zhang, Vidya Saikrishna, Quanquan Tian, Kun Zheng(参考訳) コードの臭いは、開発者がコードの臭いを検出することでリファクタリングの機会を識別できるように、ソフトウェア品質の潜在的な問題を示しています。 最先端のアプローチでは、ヒューリスティック、機械学習、ディープラーニングを利用してコードの臭いを検出する。 しかし、既存のアプローチでは、大きな言語モデル(LLM)の可能性について完全には検討されていない。 本稿では,複数ラベルの臭いを検出するためのプロンプト学習に基づく新しい手法である \textit{promptsmell} を提案する。 まず、コードスニペットは抽象構文木を横切ることで取得される。 自然言語プロンプトとマスクトークンを組み合わせたコードスニペットで、textit{PromptSmell} は LLM の入力を構成する。 次に,マルチラベルコードの臭いを検出するために,マルチラベル問題をマルチクラス化問題に変換することにより,ラベルの組み合わせアプローチを活用する。 事前訓練された言語モデルの単語リストにカスタマイズされた回答空間を追加し、マスク位置での単語予測により中間回答の確率分布を求める。 最後に、最終分類結果として、中間回答を動詞化器により対象クラスラベルにマッピングする。 6つの研究課題に答えることにより,textit{PromptSmell}の有効性を評価する。 実験の結果, \textit{promptsmell} は$precision_{w}$ で 11.17\%,$f1_{w}$ で 7.4\% の改善が得られることがわかった。

Code smells indicate the potential problems of software quality so that developers can identify refactoring opportunities by detecting code smells. State-of-the-art approaches leverage heuristics, machine learning, and deep learning to detect code smells. However, existing approaches have not fully explored the potential of large language models (LLMs). In this paper, we propose \textit{PromptSmell}, a novel approach based on prompt learning for detecting multi-label code smell. Firstly, code snippets are acquired by traversing abstract syntax trees. Combined code snippets with natural language prompts and mask tokens, \textit{PromptSmell} constructs the input of LLMs. Secondly, to detect multi-label code smell, we leverage a label combination approach by converting a multi-label problem into a multi-classification problem. A customized answer space is added to the word list of pre-trained language models, and the probability distribution of intermediate answers is obtained by predicting the words at the mask positions. Finally, the intermediate answers are mapped to the target class labels by a verbalizer as the final classification result. We evaluate the effectiveness of \textit{PromptSmell} by answering six research questions. The experimental results demonstrate that \textit{PromptSmell} obtains an improvement of 11.17\% in $precision_{w}$ and 7.4\% in $F1_{w}$ compared to existing approaches.
翻訳日:2024-02-19 17:56:47 公開日:2024-02-16
# ダーウィン・チューリング・ドーキンス: 進化の一般理論の構築

Darwin Turing Dawkins: Building a General Theory of Evolution ( http://arxiv.org/abs/2402.10393v1 )

ライセンス: Link先を確認
Leonard M. Adleman(参考訳) 生物、コンピュータ、社会、そして書籍さえも、生き残るための壮大な進化の闘争の一部である。 その闘争は自然、国、宗教、芸術、科学、そしてあなたを形作っている。 あなたが考えていること、感じること、行動はそれによって決定されます。 ダーウィン進化はDNAに格納されている遺伝子にのみ適用されるわけではない。 Alan Turing氏とRichard Dawkins氏の洞察から、私たちの脳に格納されているミームや、コンピュータに格納されている情報にも当てはまります。 次に大統領に立候補したり、戦争と戦ったり、あるいは人間が継承する通常の問題に対処したりすると、おそらくこの本は使われるだろう。 なぜいつ死ぬのか、いつ死ぬのか、あるいは偉大さを成し遂げたいのかを理解したいなら、この本は役に立つかもしれない。 もしコンピュータ革命がどこへ向かっているのか心配なら、この本はいくつかの答えを提供するかもしれない。

Living things, computers, societies, and even books are part of a grand evolutionary struggle to survive. That struggle shapes nature, nations, religions, art, science, and you. What you think, feel, and do is determined by it. Darwinian evolution does not apply solely to the genes that are stored in DNA. Using the insights of Alan Turing and Richard Dawkins, we will see that it also applies to the memes we store in our brains and the information we store in our computers. The next time you run for president, fight a war, or just deal with the ordinary problems humans are heir to, perhaps this book will be of use. If you want to understand why and when you will die, or if you want to achieve greatness this book may help. If you are concerned about where the computer revolution is headed, this book may provide some answers.
翻訳日:2024-02-19 17:56:25 公開日:2024-02-16
# イベントシーケンスデータのためのプリテキストトレーニングアルゴリズム

Pretext Training Algorithms for Event Sequence Data ( http://arxiv.org/abs/2402.10392v1 )

ライセンス: Link先を確認
Yimu Wang, He Zhao, Ruizhi Deng, Frederick Tung, Greg Mori(参考訳) プレテキストトレーニングとタスク固有の微調整は、視覚と言語領域において成功したアプローチである。 本稿では,イベントシーケンスデータに合わせた自己教師付き前文学習フレームワークを提案する。 本稿では,イベントシーケンスに特化した新しいアライメント検証タスクを導入し,マスク付き再構築とコントラスト学習の実践に基づく。 我々のプレテキストタスクは、時間的ポイントプロセスモデルのための次のイベント予測、イベントシーケンス分類、欠落したイベント補間を含む、さまざまなダウンストリームタスクで一般化可能な基礎表現をアンロックします。 人気のある公開ベンチマークの実験では、さまざまなタスクやデータドメインにわたる提案手法の可能性を示している。

Pretext training followed by task-specific fine-tuning has been a successful approach in vision and language domains. This paper proposes a self-supervised pretext training framework tailored to event sequence data. We introduce a novel alignment verification task that is specialized to event sequences, building on good practices in masked reconstruction and contrastive learning. Our pretext tasks unlock foundational representations that are generalizable across different down-stream tasks, including next-event prediction for temporal point process models, event sequence classification, and missing event interpolation. Experiments on popular public benchmarks demonstrate the potential of the proposed method across different tasks and data domains.
翻訳日:2024-02-19 17:56:10 公開日:2024-02-16
# 分子タルボット・ラウ干渉計におけるカイラルカシミール・ポルダー力の探索要件

Requirements for probing chiral Casimir-Polder forces in a molecular Talbot-Lau interferometer ( http://arxiv.org/abs/2402.10391v1 )

ライセンス: Link先を確認
Fumika Suzuki, S. A. Shah, Diego A. R. Dalvit, Markus Arndt(参考訳) 3つのナノメカニカルグレーティングに基づくタルボット・ラウ干渉計におけるカイラルカシミール・ポルダー力の影響を理論的に検討した。 第2グレーティングが直接キラル物質に書き込まれる場合や、ナノマスクがキラル物質でコーティングされる場合について検討する。 伝送信号における物質波干渉法と干渉スペクトルの可視性において,デブロリー波長と分子キラリティーに依存するエナンチオ特異的な効果を示す要件を示す。 提案手法は, キラル効果が電気的及び磁気的効果に匹敵する非破壊的構造において, cp力に対して特に敏感である。 第1および第3グレーティングは物質波の位相を変化させないが、それらにキラル物質をコーティングすることで、機器のキラル選択性を高める。

We theoretically investigate the influence of chiral Casimir-Polder (CP) forces in Talbot-Lau interferometry, based on three nanomechanical gratings. We study scenarios where the second grating is either directly written into a chiral material or where the nanomask is coated with chiral substances. We show requirements for probing enantiospecific effects in matter-wave interferometry in the transmission signal and the interference fringe visibility, which depend on the de Broglie wavelength and the molecular chirality. The proposed setup is particularly sensitive to CP forces in the non-retarded regime where chiral effects can be comparable in magnitude to their electric and magnetic counterparts. While the first and third gratings do not change the phase of the matter wave, applying a coating of chiral substances to them enhances the instrument's chiral selectivity.
翻訳日:2024-02-19 17:55:59 公開日:2024-02-16
# IoMTエッジネットワークにおけるゼロトラストセキュリティの実現

Enabling Zero Trust Security in IoMT Edge Network ( http://arxiv.org/abs/2402.10389v1 )

ライセンス: Link先を確認
Maha Ali Allouzi and Javed Khan(参考訳) Internet of Medical Things(IoMT)は、患者のデータ豊富なセグメントを扱う。 したがって、アクセス制御はIoMTの信頼性を確保する重要な側面である。 しかしながら、既存の認証および認証ソリューションをIoMT(Internet of Medical Things)にデプロイするのは簡単ではない。 本稿では,IoMTのためのゼロトラストベース認証システムであるSoterを提案する。 soterは、動的な信頼確立を可能にするために、zero trust frameworkにトラストネゴシエーションメカニズムを組み込んでいる。 ユーザまたはデバイスがリソースへのアクセスを求めると、信頼交渉プロセスを開始する。 このプロセスでは、認証情報、属性、コンテキスト情報が、要求者とリソース所有者の間で交換される。 soterは、ユーザid、デバイス状態、ロケーションなど、さまざまな要因に基づいたアクセスルールを定義する。 これらの条件によりアクセスは許可または拒否される。

Internet of Medical Things (IoMT) deals with a patient-data-rich segment, which makes security and privacy a severe concern for patients. Therefore, access control is a significant aspect of ensuring trust in the IoMT. However, deploying existing authentication and authorization solutions to the Internet of Medical Things (IoMT) is not straightforward because of highly dynamic and possibly unprotected environments and untrusted supply chain for the IoT devices. In this article, we propose Soter, a Zero-Trust based authentication system for the IoMT. Soter Incorporates trust negotiation mechanisms within the Zero Trust framework to enable dynamic trust establishment. When a user or device seeks access to a resource, initiate a trust negotiation process. During this process, credentials, attributes, and contextual information are exchanged between the requester and the resource owner. Soter defines access rules based on various factors, including user identity, device health, and location. Access is granted or denied based on these conditions.
翻訳日:2024-02-19 17:55:42 公開日:2024-02-16
# カナダにおける年齢検証技術の進歩 : 技術・規制・社会ダイナミクス

Improvising Age Verification Technologies in Canada: Technical, Regulatory and Social Dynamics ( http://arxiv.org/abs/2402.10388v1 )

ライセンス: Link先を確認
Azfar Adib, Wei-Ping Zhu, M. Omair Ahmad(参考訳) 年齢認証は、特定の年齢に適合したサービスや製品の提供に必須の法的要件だが、近年、子どものオンライン安全性を確保するために、世界中で強調されている。 人工知能の急速な進歩は、特にバイオメトリックスを用いた最先端の年齢検証技術の最近の発展を促している。 しかし、これらの技術の展開と大量受容は、社会経済と規制の文脈に大きく依存している。 本稿では,カナダにおける年齢検証技術の即興化に向けた重要なダイナミクスについて概説する。 このような技術が包括的で、透明性があり、適応可能で、プライバシーを保護し、安全であることは特に重要です。 アカデミック、政府、産業団体の効果的なコラボレーションは、ユーザー中心のアプローチを維持しながら、カナダにおける年齢検証サービスの需要の増加に対応するのに役立つ。

Age verification, which is a mandatory legal requirement for delivering certain age-appropriate services or products, has recently been emphasized around the globe to ensure online safety for children. The rapid advancement of artificial intelligence has facilitated the recent development of some cutting-edge age-verification technologies, particularly using biometrics. However, successful deployment and mass acceptance of these technologies are significantly dependent on the corresponding socio-economic and regulatory context. This paper reviews such key dynamics for improvising age-verification technologies in Canada. It is particularly essential for such technologies to be inclusive, transparent, adaptable, privacy-preserving, and secure. Effective collaboration between academia, government, and industry entities can help to meet the growing demands for age-verification services in Canada while maintaining a user-centric approach.
翻訳日:2024-02-19 17:55:16 公開日:2024-02-16
# MFBind: 創薬モデルにおける医薬品評価のための多面的アプローチ

MFBind: a Multi-Fidelity Approach for Evaluating Drug Compounds in Practical Generative Modeling ( http://arxiv.org/abs/2402.10387v1 )

ライセンス: Link先を確認
Peter Eckmann, Dongxia Wu, Germano Heinzelmann, Michael K Gilson, Rose Yu(参考訳) 現在の創薬モデルでは、主に分子ドッキングを用いて生成する化合物の品質を評価する。 しかし、ドッキングスコアが高い化合物でさえ常に実験活性を示すわけではないため、そのようなモデルは実際は役に立たないことが多い。 分子動力学に基づく結合自由エネルギー計算のようなより正確なアクティビティ予測の方法は存在するが、生成モデルで使用するには計算コストが高すぎる。 本稿では,MFBind(Multi-fidelity Bind)を提案し,精度と計算コストの最適トレードオフを実現する。 MFBindはドッキングと結合自由エネルギーシミュレータを統合し、多要素深層代理モデルの学習を活発に行う。 深層サロゲートモデルでは,事前学習手法と線形予測ヘッドを用いて,少量の高精度データに効率的に適合する。 我々は,MFBind (1) がサロゲートモデリングにおいて他の最先端の単一および多忠実なベースラインよりも優れており,(2) 著しく高品質な化合物を用いた生成モデルの性能を高めることを示す。

Current generative models for drug discovery primarily use molecular docking to evaluate the quality of generated compounds. However, such models are often not useful in practice because even compounds with high docking scores do not consistently show experimental activity. More accurate methods for activity prediction exist, such as molecular dynamics based binding free energy calculations, but they are too computationally expensive to use in a generative model. We propose a multi-fidelity approach, Multi-Fidelity Bind (MFBind), to achieve the optimal trade-off between accuracy and computational cost. MFBind integrates docking and binding free energy simulators to train a multi-fidelity deep surrogate model with active learning. Our deep surrogate model utilizes a pretraining technique and linear prediction heads to efficiently fit small amounts of high-fidelity data. We perform extensive experiments and show that MFBind (1) outperforms other state-of-the-art single and multi-fidelity baselines in surrogate modeling, and (2) boosts the performance of generative models with markedly higher quality compounds.
翻訳日:2024-02-19 17:54:51 公開日:2024-02-16
# 微視的2ストローク熱エンジンの性能向上

Catalytic enhancement in the performance of the microscopic two-stroke heat engine ( http://arxiv.org/abs/2402.10384v1 )

ライセンス: Link先を確認
Tanmoy Biswas, Marcin {\L}obejko, Pawe{\l} Mazurek, Micha{\l} Horodecki(参考訳) 二ストロークエンジンという微視的な構造で動作する熱エンジンのモデルについて考察する。 作業を生成し、2つの離散ストロークで熱を交換し、時間的に分離する。 エンジンは、2つの異なる温度で熱状態に初期化される2ドルレベルのシステムで構成されている。 さらに、触媒と呼ばれる補助的な非平衡系をエンジンに組み込むこともできるが、熱力学サイクルが完了した後も触媒の状態は変わらない。 これにより、熱力学の厳密な枠組みを確立する際に、生成する仕事が温度差からのみ生じることを保証し、触媒の包含から生じる2次元の改善を特徴付ける。 まず,触媒の存在は触媒を介さない2ストローク熱機関の最適効率を超過することができることを示す。 特に,二段式システムからなる二段式ヒートエンジンの最適効率はオットー効率によって与えられること,触媒を組み込むことで超過可能であることを証明した。 第2に,触媒を組み込むことで,非触媒式2ストロークエンジンでは利用できない周波数と温度のレジームでエンジンが作動することを示す。

We consider a model of a heat engine operating in the microscopic regime: the two-stroke engine. It produces work and exchanges heat in two discrete strokes that are separated in time. The engine consists of two $d$-level systems initialized in thermal states at two distinct temperatures. Additionally, an auxiliary non-equilibrium system called catalyst may be incorporated into the engine, provided the state of the catalyst remains unchanged after the completion of a thermodynamic cycle. This ensures that the work produced arises solely from the temperature difference, Upon establishing the rigorous thermodynamic framework, we characterize two-fold improvement stemming from the inclusion of a catalyst. Firstly, we show that the presence of a catalyst allows for surpassing the optimal efficiency of two-stroke heat engines which are not assisted by a catalyst. In particular, we prove that the optimal efficiency for two-stroke heat engine consisting of two-level systems is given by the Otto efficiency, and that it can be surpassed via incorporating a catalyst. Secondly, we show that incorporating a catalyst allows the engine to operate in frequency and temperature regimes that are not accessible for non-catalytic two-stroke engines.
翻訳日:2024-02-19 17:54:16 公開日:2024-02-16
# umair-fps: ユーザ対応のマルチモーダルアニメーションイラストレコメンデーションと絵画スタイルとの融合

UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style ( http://arxiv.org/abs/2402.10381v1 )

ライセンス: Link先を確認
Yan Kang, Hao Lin, Mingjian Yang, Shin-Jye Lee(参考訳) aiに基づく高品質な画像生成モデルの急速な進歩は、アニメのイラストレーションを生み出した。 大量のデータ内のユーザーにイラストを推薦することは、困難で人気のあるタスクとなっている。 しかし、既存のアニメレコメンデーションシステムはテキスト機能に焦点を当てているが、画像機能を統合する必要がある。 さらに、多くのマルチモーダルレコメンデーション研究は、密結合データセットによって制約されており、アニメイラストへの適用性が制限されている。 そこで本研究では,ユーザ対応のマルチモーダルアニメーションイラストレコメンデーションと絵画スタイル(umair-fps)との融合を提案する。 特徴抽出フェーズでは,画像特徴量に対して,画像描画スタイルの特徴と意味的特徴を組み合わせることで,表現性を高めるための双出力画像エンコーダを構築する。 テキストの特徴について,多言語マッピング,エンティティ関係,用語説明の観点から,さまざまなドメインテキストペアを構成するドメイン知識を取り入れ,微調整文変換器に基づくテキスト埋め込みを実現する。 マルチモーダル融合フェーズでは,対話レベルでのユーザ特徴に応じて動的にマルチモーダル特徴量重み付けを行うユーザアウェアマルチモーダル寄与測定機構を新規に提案し,dcn-v2モジュールを用いて有界度マルチモーダルクロスを効果的にモデル化する。 UMAIR-FPSは、大規模な実世界のデータセットにおける最先端のベースラインを超え、大幅なパフォーマンス向上を示す。

The rapid advancement of high-quality image generation models based on AI has generated a deluge of anime illustrations. Recommending illustrations to users within massive data has become a challenging and popular task. However, existing anime recommendation systems have focused on text features but still need to integrate image features. In addition, most multi-modal recommendation research is constrained by tightly coupled datasets, limiting its applicability to anime illustrations. We propose the User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style (UMAIR-FPS) to tackle these gaps. In the feature extract phase, for image features, we are the first to combine image painting style features with semantic features to construct a dual-output image encoder for enhancing representation. For text features, we obtain text embeddings based on fine-tuning Sentence-Transformers by incorporating domain knowledge that composes a variety of domain text pairs from multilingual mappings, entity relationships, and term explanation perspectives, respectively. In the multi-modal fusion phase, we novelly propose a user-aware multi-modal contribution measurement mechanism to weight multi-modal features dynamically according to user features at the interaction level and employ the DCN-V2 module to model bounded-degree multi-modal crosses effectively. UMAIR-FPS surpasses the stat-of-the-art baselines on large real-world datasets, demonstrating substantial performance enhancements.
翻訳日:2024-02-19 17:53:17 公開日:2024-02-16
# subgraphレベルユニバーサルプロンプトチューニング

Subgraph-level Universal Prompt Tuning ( http://arxiv.org/abs/2402.10380v1 )

ライセンス: Link先を確認
Junhyun Lee, Wooseong Yang, Jaewoo Kang(参考訳) 機械学習の進化期には、即時チューニングによる事前学習モデルの適応がますます顕著になっている。 この傾向はグラフ領域において特に観察可能であり、グラフニューラルネットワークの効果的なプロンプトベースのチューニング手法を開発する上で、様々な事前学習戦略がユニークな課題を提示する。 それまでのアプローチは限定的であり、エッジ予測を事前学習するモデルに合わせた特別なプロンプト機能に焦点を当てている。 しかし、これらの方法は様々な事前学習戦略における一般化性の欠如に悩まされている。 近年,任意の事前学習戦略に対して,入力グラフの特徴空間内で機能する簡易なプロンプトチューニング法が設計されている。 これにより、任意の種類のプロンプト関数を理論的にエミュレートし、様々な下流アプリケーションに対してその汎用性を著しく向上させることができる。 しかし、そのような単純なプロンプトがグラフに見られる複雑な文脈を完全に把握する能力は未解決の問題であり、さらなる調査が必要となる。 この課題に対処するため,本稿では,サブグラフ内の詳細なコンテキストに着目した,サブグラフレベルのユニバーサルプロンプトチューニング(SUPT)アプローチを提案する。 SUPTでは、プロンプト機能はサブグラフレベルに割り当てられ、メソッドの普遍性を保存する。 これは微調整ベースの手法よりも非常に少ないチューニングパラメータを必要とし、45のフルショットシナリオ実験のうち42の精度で平均2.5%以上改善されている。 少数のシナリオでは、45の実験のうち41回に上り、6.6%以上の平均的なパフォーマンス向上を達成した。

In the evolving landscape of machine learning, the adaptation of pre-trained models through prompt tuning has become increasingly prominent. This trend is particularly observable in the graph domain, where diverse pre-training strategies present unique challenges in developing effective prompt-based tuning methods for graph neural networks. Previous approaches have been limited, focusing on specialized prompting functions tailored to models with edge prediction pre-training tasks. These methods, however, suffer from a lack of generalizability across different pre-training strategies. Recently, a simple prompt tuning method has been designed for any pre-training strategy, functioning within the input graph's feature space. This allows it to theoretically emulate any type of prompting function, thereby significantly increasing its versatility for a range of downstream applications. Nevertheless, the capacity of such simple prompts to fully grasp the complex contexts found in graphs remains an open question, necessitating further investigation. Addressing this challenge, our work introduces the Subgraph-level Universal Prompt Tuning (SUPT) approach, focusing on the detailed context within subgraphs. In SUPT, prompt features are assigned at the subgraph-level, preserving the method's universal capability. This requires extremely fewer tuning parameters than fine-tuning-based methods, outperforming them in 42 out of 45 full-shot scenario experiments with an average improvement of over 2.5%. In few-shot scenarios, it excels in 41 out of 45 experiments, achieving an average performance increase of more than 6.6%.
翻訳日:2024-02-19 17:52:24 公開日:2024-02-16
# DataDreamer: 合成データ生成と再現可能なLLMワークフローのためのツール

DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows ( http://arxiv.org/abs/2402.10379v1 )

ライセンス: Link先を確認
Ajay Patel, Colin Raffel, Chris Callison-Burch(参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて、NLP研究者にとって支配的かつ重要なツールとなっている。 現在、多くの研究者が合成データ生成、タスク評価、微調整、蒸留、その他のループ内のモデル研究ワークフローにLLMを使用している。 しかし、これらのモデルの規模、クローズドソースの性質、新しい新しいワークフローのための標準化されたツールの欠如から生じる課題がある。 これらのモデルが急速に普及し、これらのユニークな課題は、オープンサイエンスとそれらを使う仕事の再現性に直接的な悪影響を及ぼした。 本稿では,オープンソースのpythonライブラリであるdatadreamerを紹介する。これにより研究者は,強力なllmワークフローを実装するための簡単なコードを書くことができる。 DataDreamerはまた、オープンサイエンスと再現性を促進するために提案するベストプラクティスの遵守を支援する。 ライブラリとドキュメントはhttps://github.com/datadreamer-dev/datadreamerで入手できる。

Large language models (LLMs) have become a dominant and important tool for NLP researchers in a wide range of tasks. Today, many researchers use LLMs in synthetic data generation, task evaluation, fine-tuning, distillation, and other model-in-the-loop research workflows. However, challenges arise when using these models that stem from their scale, their closed source nature, and the lack of standardized tooling for these new and emerging workflows. The rapid rise to prominence of these models and these unique challenges has had immediate adverse impacts on open science and on the reproducibility of work that uses them. In this paper, we introduce DataDreamer, an open source Python library that allows researchers to write simple code to implement powerful LLM workflows. DataDreamer also helps researchers adhere to best practices that we propose to encourage open science and reproducibility. The library and documentation are available at https://github.com/datadreamer-dev/DataDreamer .
翻訳日:2024-02-19 17:52:00 公開日:2024-02-16
# prise: シーケンス圧縮問題としての時間行動抽象化の学習

PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem ( http://arxiv.org/abs/2402.10450v1 )

ライセンス: Link先を確認
Ruijie Zheng, Ching-An Cheng, Hal Daum\'e III, Furong Huang, Andrey Kolobov(参考訳) 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。 本研究では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。 そのため、連続制御ドメインに分散した可変時間の学習スキルのように見えるタスクに、LLMトレーニングパイプラインの微妙ながら重要なコンポーネント -- バイトペアエンコーディング(BPE)による入力トークン化 -- を導入しています。 PRISE(Primitive Sequence Encoding)と呼ばれる手法を導入し、連続的なアクション量子化とBPEを組み合わせて強力なアクション抽象化を学習する。 PRISEがマルチタスクのロボット操作デモから発見したハイレベルスキルは、マルチタスクの模倣学習と、目に見えないタスクにおける数発の模倣学習の両方のパフォーマンスを大幅に向上させる。 私たちのコードはhttps://github.com/FrankZheng2022/PRISEでリリースされます。

Temporal action abstractions, along with belief state representations, are a powerful knowledge sharing mechanism for sequential decision making. In this work, we propose a novel view that treats inducing temporal action abstractions as a sequence compression problem. To do so, we bring a subtle but critical component of LLM training pipelines -- input tokenization via byte pair encoding (BPE) -- to the seemingly distant task of learning skills of variable time span in continuous control domains. We introduce an approach called Primitive Sequence Encoding (PRISE) that combines continuous action quantization with BPE to learn powerful action abstractions. We empirically show that high-level skills discovered by PRISE from a multitask set of robotic manipulation demonstrations significantly boost the performance of both multitask imitation learning as well as few-shot imitation learning on unseen tasks. Our code will be released at https://github.com/FrankZheng2022/PRISE.
翻訳日:2024-02-19 17:44:34 公開日:2024-02-16
# ベイジアン設定における固定信頼度ベストアーム識別

Fixed Confidence Best Arm Identification in the Bayesian Setting ( http://arxiv.org/abs/2402.10429v1 )

ライセンス: Link先を確認
Kyoungseok Jang, Junpei Komiyama, Kazutoshi Yamazaki(参考訳) ベイズ設定における固定信頼ベストアーム識別(fc-bai)問題を考える。 この問題は、既知の既知値からバンディットモデルがサンプリングされたときに、信頼度が固定された最大の平均のアームを見つけることを目的としている。 FC-BAI問題に関するほとんどの研究は、ゲーム開始前にバンディットモデルが決められた頻繁な設定で行われている。 従来のFC-BAIアルゴリズムは、トラック・アンド・ストップやトップ2などの頻繁な設定で研究されており、ベイズ的設定では任意の準最適性能が得られることを示す。 また,ベイズ設定で期待されるサンプル数の下限を証明し,対数係数まで下限と一致する性能を持つ逐次除去の変種を導入する。 シミュレーションは理論結果を検証する。

We consider the fixed-confidence best arm identification (FC-BAI) problem in the Bayesian Setting. This problem aims to find the arm of the largest mean with a fixed confidence level when the bandit model has been sampled from the known prior. Most studies on the FC-BAI problem have been conducted in the frequentist setting, where the bandit model is predetermined before the game starts. We show that the traditional FC-BAI algorithms studied in the frequentist setting, such as track-and-stop and top-two algorithms, result in arbitrary suboptimal performances in the Bayesian setting. We also prove a lower bound of the expected number of samples in the Bayesian setting and introduce a variant of successive elimination that has a matching performance with the lower bound up to a logarithmic factor. Simulations verify the theoretical results.
翻訳日:2024-02-19 17:44:17 公開日:2024-02-16
# 音声言語理解における連続学習の評価と改善

Evaluating and Improving Continual Learning in Spoken Language Understanding ( http://arxiv.org/abs/2402.10427v1 )

ライセンス: Link先を確認
Muqiao Yang, Xiang Li, Umberto Cappellazzo, Shinji Watanabe, Bhiksha Raj(参考訳) 継続的な学習は、Spoken Language Understanding (SLU)など、さまざまなタスクにおいてますます重要な課題となっている。 SLUの目的は、新しい概念の出現と進化する環境を効果的に扱うことである。 連続学習アルゴリズムの評価は通常、標準の基本的側面としてモデルの安定性、可塑性、一般化可能性を評価する。 しかし、既存の連続学習メトリクスは、主にプロパティの1つか2つだけに焦点を当てている。 彼らはすべてのタスク全体のパフォーマンスを無視し、モデル内の可塑性と安定性/一般化のトレードオフを適切に区別しません。 本研究では,連続学習における安定性,可塑性,一般化性を統一的に評価する評価手法を提案する。 提案手法を用いることで,SLUモデルの3つの特性の異なる側面を,様々な知識蒸留の導入によってどのように改善するかを示す。 さらに,提案手法が継続学習におけるタスクオーダリングの影響を捉える上でより敏感であることを示し,実用シナリオに適合することを示す。

Continual learning has emerged as an increasingly important challenge across various tasks, including Spoken Language Understanding (SLU). In SLU, its objective is to effectively handle the emergence of new concepts and evolving environments. The evaluation of continual learning algorithms typically involves assessing the model's stability, plasticity, and generalizability as fundamental aspects of standards. However, existing continual learning metrics primarily focus on only one or two of the properties. They neglect the overall performance across all tasks, and do not adequately disentangle the plasticity versus stability/generalizability trade-offs within the model. In this work, we propose an evaluation methodology that provides a unified evaluation on stability, plasticity, and generalizability in continual learning. By employing the proposed metric, we demonstrate how introducing various knowledge distillations can improve different aspects of these three properties of the SLU model. We further show that our proposed metric is more sensitive in capturing the impact of task ordering in continual learning, making it better suited for practical use-case scenarios.
翻訳日:2024-02-19 17:44:03 公開日:2024-02-16
# DELL: LLMによる誤情報検出のための反応生成と説明

DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection ( http://arxiv.org/abs/2402.10426v1 )

ライセンス: Link先を確認
Herun Wan, Shangbin Feng, Zhaoxuan Tan, Heng Wang, Yulia Tsvetkov, Minnan Luo(参考訳) 大規模言語モデルは、事実の正確さが最重要であるニュース記事の妥当性を判断するために、本棚外で直接使用するべき事実性や幻覚の課題によって制限される。 本稿では,LLMをパイプラインの一部として組み込む誤情報検出の3つの重要な段階を同定するDELLを提案する。 1) LLMは,多様な視点を表現し,ユーザと新規のインタラクションネットワークをシミュレートするために,emph{generate news reaction}を作成できる。 2) llmは,ニュース記事の文脈を豊かにし,ニュース理解のさまざまな側面を専門とする専門家を輩出するために,代理業務(例えば,感情,スタンス)に対して,emph{generate explanations} を付与することができる。 3) llmsは様々な専門家の予測と信頼度を組み込んだ全体的な予測を提供することができる。 3つのllmによる7つのデータセットに関する広範囲な実験は、dellがマクロf1-scoreにおいて、最先端のベースラインを最大16.8\%上回っていることを示している。 さらに分析した結果, 生成した反応や説明が誤情報検出に大いに有用であることが明らかとなった。

Large language models are limited by challenges in factuality and hallucinations to be directly employed off-the-shelf for judging the veracity of news articles, where factual accuracy is paramount. In this work, we propose DELL that identifies three key stages in misinformation detection where LLMs could be incorporated as part of the pipeline: 1) LLMs could \emph{generate news reactions} to represent diverse perspectives and simulate user-news interaction networks; 2) LLMs could \emph{generate explanations} for proxy tasks (e.g., sentiment, stance) to enrich the contexts of news articles and produce experts specializing in various aspects of news understanding; 3) LLMs could \emph{merge task-specific experts} and provide an overall prediction by incorporating the predictions and confidence scores of varying experts. Extensive experiments on seven datasets with three LLMs demonstrate that DELL outperforms state-of-the-art baselines by up to 16.8\% in macro f1-score. Further analysis reveals that the generated reactions and explanations are greatly helpful in misinformation detection, while our proposed LLM-guided expert merging helps produce better-calibrated predictions.
翻訳日:2024-02-19 17:43:47 公開日:2024-02-16
# dabs-ls:地域レベル集合によるディープアトラスに基づくセグメンテーション

DABS-LS: Deep Atlas-Based Segmentation Using Regional Level Set Self-Supervision ( http://arxiv.org/abs/2402.10425v1 )

ライセンス: Link先を確認
Hannah G. Mason, Jack H. Noble(参考訳) 人工内耳(英: cochlear implants, cis)は、難聴に対する治療に用いられる人工装具である。 聴覚神経線維(ANF)のCI刺激の患者特異的モデリングは、聴覚学者がCIプログラミングを改善するのに役立つ。 これらのモデルは、周囲の解剖学とCIに対するANFの局在化を必要とする。 ANFはあまりに小さく、臨床画像では直接見えないため、局所化は難しい。 本研究では, 内耳道の位置をCTで高いコントラストを有する内耳道(IAC)の位置から正確に推定できると仮定する。 本稿では,VoxelMorphにヒントを得て,深層アトラスを用いたIACセグメンテーションネットワークを提案する。 IACとANFが事前に局所化されている単一のアトラスを作成します。 我々のネットワークは、アトラスから新しいターゲットボリュームへの変形場(DF)マッピング座標の作成と、IACを正確にセグメント化するように訓練されている。 ターゲット画像中のIACを正確に区分けするDFは、ANFの正確なアトラスによる局所化を促進する。 ボリューム全体を正確に登録するDFを生成するVoxelMorphとは対照的に,我々の新しいコントリビューションは,ターゲット構造を正確に分類するDFを生成するための,完全に自己管理的なトレーニングスキームである。 この自己超越は、地域レベルセット(LS)にインスパイアされた損失関数を用いて促進される。 我々は、レベルセット(DABS-LS)を用いたDeep Atlas Based Segmentationと呼ぶ。 その結果,DABS-LSはIACセグメンテーションにおいてVoxelMorphより優れていた。 気管および腎分画の公開データセットを用いた試験では、セグメント化精度が大幅に向上し、この方法の一般化性が示された。

Cochlear implants (CIs) are neural prosthetics used to treat patients with severe-to-profound hearing loss. Patient-specific modeling of CI stimulation of the auditory nerve fiber (ANFs) can help audiologists improve the CI programming. These models require localization of the ANFs relative to surrounding anatomy and the CI. Localization is challenging because the ANFs are so small they are not directly visible in clinical imaging. In this work, we hypothesize the position of the ANFs can be accurately inferred from the location of the internal auditory canal (IAC), which has high contrast in CT, since the ANFs pass through this canal between the cochlea and the brain. Inspired by VoxelMorph, in this paper we propose a deep atlas-based IAC segmentation network. We create a single atlas in which the IAC and ANFs are pre-localized. Our network is trained to produce deformation fields (DFs) mapping coordinates from the atlas to new target volumes and that accurately segment the IAC. We hypothesize that DFs that accurately segment the IAC in target images will also facilitate accurate atlas-based localization of the ANFs. As opposed to VoxelMorph, which aims to produce DFs that accurately register the entire volume, our novel contribution is an entirely self-supervised training scheme that aims to produce DFs that accurately segment the target structure. This self-supervision is facilitated using a regional level set (LS) inspired loss function. We call our method Deep Atlas Based Segmentation using Level Sets (DABS-LS). Results show that DABS-LS outperforms VoxelMorph for IAC segmentation. Tests with publicly available datasets for trachea and kidney segmentation also show significant improvement in segmentation accuracy, demonstrating the generalizability of the method.
翻訳日:2024-02-19 17:43:22 公開日:2024-02-16
# Pelican Soup Frameworkによる文脈学習の理解

Understanding In-Context Learning with a Pelican Soup Framework ( http://arxiv.org/abs/2402.10424v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Dani Yogatama(参考訳) 自然言語処理のための文脈内学習の理論的解析の多くは、理論と実践のギャップを埋める潜在変数モデルに基づいている。 理論的枠組みであるペリカン・スープ・フレームワークを提案し、これらのギャップを埋めることを目指している。 本稿では,(1)常識知識ベースの概念,(2)自然言語分類タスクの一般的な形式主義,(3)意味関係の概念を紹介する。 このフレームワークの下では、実演で$t$がサンプルラベルペアの数であるin-context learningに対して、$\mathcal{o}(1/t)$のバウンドを確立することができる。 従来の研究と比較すると,我々の限界は動詞選択の効果と指導指導の効果を反映している。 textit{atom concepts} という新たな概念によって,言語モデルのトレーニングデータでは理解できないタスクの一般化を,フレームワークで説明することが可能になりました。 最後に,モデルが克服すべき分散シフトのタイプを模倣してコンテキスト内学習を行うための玩具セット,Calcutec,および桁加算タスクを提案する。 GPT2-Largeを実世界のNLPタスクで実験する。 実験結果は,文脈内学習を説明するためのフレームワークの有効性を示す。

Many existing theoretical analyses of in-context learning for natural language processing are based on latent variable models that leaves gaps between theory and practice. We aim to close these gaps by proposing a theoretical framework, the Pelican Soup Framework. In this framework, we introduce (1) the notion of a common sense knowledge base, (2) a general formalism for natural language classification tasks, and the notion of (3) meaning association. Under this framework, we can establish a $\mathcal{O}(1/T)$ loss bound for in-context learning, where $T$ is the number of example-label pairs in the demonstration. Compared with previous works, our bound reflects the effect of the choice of verbalizers and the effect of instruction tuning. An additional notion of \textit{atom concepts} makes our framework possible to explain the generalization to tasks unseen in the language model training data. Finally, we propose a toy setup, Calcutec, and a digit addition task that mimics types of distribution shifts a model needs to overcome to perform in-context learning. We also experiment with GPT2-Large on real-world NLP tasks. Our empirical results demonstrate the efficacy of our framework to explain in-context learning.
翻訳日:2024-02-19 17:42:56 公開日:2024-02-16
# ゼロショット音声翻訳の限界を押し上げる

Pushing the Limits of Zero-shot End-to-End Speech Translation ( http://arxiv.org/abs/2402.10422v1 )

ライセンス: Link先を確認
Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) データ不足と音声とテキストのモダリティギャップは、エンドツーエンド音声翻訳(st)システムの2つの大きな障害であり、パフォーマンスを阻害している。 従来の研究は、外部MTデータを活用することによるこれらの課題の軽減と、音声テキスト表現を近づける距離メトリクスの最適化を試みてきた。 しかし、競争結果を達成するには、通常いくつかのSTデータが必要である。 このため、ゼロショットSTの手法であるZeroSwotを導入し、ペアのSTデータを使わずにモダリティギャップをブリッジする。 新たなCTC圧縮と最適トランスポートを利用して、ASRデータのみを用いて音声エンコーダを訓練し、多言語MTモデルの表現空間と整合する。 音声エンコーダは推論時にmtモデルとシームレスに統合され、mtモデルがサポートするすべての言語に対して、音声からテキストへの直接翻訳を可能にする。 実験の結果,STデータを使わずに効率よくモダリティギャップを塞ぐことができることがわかったが,MuST-CとCoVoSTは従来のゼロショットモデルだけでなく,教師付きモデルよりも手法の優位性を実証し,最先端の結果を得ることができた。

Data scarcity and the modality gap between the speech and text modalities are two major obstacles of end-to-end Speech Translation (ST) systems, thus hindering their performance. Prior work has attempted to mitigate these challenges by leveraging external MT data and optimizing distance metrics that bring closer the speech-text representations. However, achieving competitive results typically requires some ST data. For this reason, we introduce ZeroSwot, a method for zero-shot ST that bridges the modality gap without any paired ST data. Leveraging a novel CTC compression and Optimal Transport, we train a speech encoder using only ASR data, to align with the representation space of a massively multilingual MT model. The speech encoder seamlessly integrates with the MT model at inference, enabling direct translation from speech to text, across all languages supported by the MT model. Our experiments show that we can effectively close the modality gap without ST data, while our results on MuST-C and CoVoST demonstrate our method's superiority over not only previous zero-shot models, but also supervised ones, achieving state-of-the-art results.
翻訳日:2024-02-19 17:42:38 公開日:2024-02-16
# 因果ダイヤモンドの絡み合い劣化

Entanglement Degradation in Causal Diamonds ( http://arxiv.org/abs/2402.10417v1 )

ライセンス: Link先を確認
H. E. Camblong, A. Chakraborty, P. Lopez-Duque and C. R. Ord\'o\~nez(参考訳) エンタングルメント分解は、地平線が時空の領域へのアクセスを制限するとき、相対論的量子情報における一般的な予測である。 この性質は以前、慣性観測者(アリス)と一様加速観測者(ロブ)からなる二部連接系が相対加速度による絡み合い劣化によって研究され、アリスがブラックホールに自由に落下し、ロブが定常近傍観測者として一定の固有加速度を経験する場合に等価な結果をもたらすunruh効果に関連して研究されてきた。 本研究では,慣性観測者 (alice) と有限寿命の"ダイヤモンド観測者" (dave) からなる絡み合った系においても,同様の劣化が発生することを示す。 有限寿命の状態は、因果ダイヤモンド内のデイブのアクセス制限と等価である。 具体的には、アリスの視点で準備された最大絡み合い状態からシステムを開始すると、ダイヤモンドの因果地平線の存在によって絡み合いが悪化する。

Entanglement degradation appears to be a generic prediction in relativistic quantum information whenever horizons restrict access to a region of spacetime. This property has been previously explored in connection with the Unruh effect, where a bipartite entangled system composed of an inertial observer (Alice) and a uniformly accelerated observer (Rob) was studied, with entanglement degradation caused by the relative acceleration -- and with equivalent results for the case when Alice is freely falling into a black hole and Rob experiences a constant proper acceleration as a stationary near-horizon observer. In this work, we show that a similar degradation also occurs in the case of an entangled system composed of an inertial observer (Alice) and a "diamond observer" (Dave) with a finite lifetime. The condition of a finite lifetime is equivalent to the restriction of Dave's access within a causal diamond. Specifically, if the system starts in a maximally entangled state, prepared from Alice's perspective, entanglement degradation is enforced by the presence of the diamond's causal horizons.
翻訳日:2024-02-19 17:42:17 公開日:2024-02-16
# ベイズ理論における信念に関する基礎言語

Grounding Language about Belief in a Bayesian Theory-of-Mind ( http://arxiv.org/abs/2402.10416v1 )

ライセンス: Link先を確認
Lance Ying, Tan Zhi-Xuan, Lionel Wong, Vikash Mansinghka, Joshua Tenenbaum(参考訳) 信念が直接観察できない精神状態であるという事実にもかかわらず、人間は互いの信念を定期的に話し合う。 他の心の隠れた認識的内容を理解するこの能力について、なぜ説明できるのか? In this paper, we take a step towards an answer by grounding the semantics of belief statements in a Bayesian theory-of-mind: By modeling how humans jointly infer coherent sets of goals, beliefs, and plans that explain an agent's actions, then evaluating statements about the agent's beliefs against these inferences via epistemic logic, our framework provides a conceptual role semantics for belief, explaining the gradedness and compositionality of human belief attributions, as well as their intimate connection with goals and plans. この枠組みは,隠蔽対象の具体的推論を必要とするドア・アンド・キーズ・グリッドワールドパズルをエージェントが解くのを見ながら,人間が目標や信念をどう評価するかを研究することで評価する。 具体的計画の役割を無視する純粋論理的推論や非メンタリゼーション的ベースライン、そしてメンタライゼーションとは対照的に、我々のモデルは人間の目標や信念の帰属に適合し、信念の意味論における理論の重要性を示す。

Despite the fact that beliefs are mental states that cannot be directly observed, humans talk about each others' beliefs on a regular basis, often using rich compositional language to describe what others think and know. What explains this capacity to interpret the hidden epistemic content of other minds? In this paper, we take a step towards an answer by grounding the semantics of belief statements in a Bayesian theory-of-mind: By modeling how humans jointly infer coherent sets of goals, beliefs, and plans that explain an agent's actions, then evaluating statements about the agent's beliefs against these inferences via epistemic logic, our framework provides a conceptual role semantics for belief, explaining the gradedness and compositionality of human belief attributions, as well as their intimate connection with goals and plans. We evaluate this framework by studying how humans attribute goals and beliefs while watching an agent solve a doors-and-keys gridworld puzzle that requires instrumental reasoning about hidden objects. In contrast to pure logical deduction, non-mentalizing baselines, and mentalizing that ignores the role of instrumental plans, our model provides a much better fit to human goal and belief attributions, demonstrating the importance of theory-of-mind for a semantics of belief.
翻訳日:2024-02-19 17:41:55 公開日:2024-02-16
# エキスパートウェイト法によるゴールドスタンダードアンサーによるLCM幻覚の計測と低減

Measuring and Reducing LLM Hallucination without Gold-Standard Answers via Expertise-Weighting ( http://arxiv.org/abs/2402.10412v1 )

ライセンス: Link先を確認
Jiaheng Wei, Yuanshun Yao, Jean-Francois Ton, Hongyi Guo, Andrew Estornell, Yang Liu(参考訳) LLM幻覚(英: LLM Hallucination)とは、LLMの信頼性と信頼性に対する大きな脅威である。 この複雑な問題を解決するための最初のステップは、それを測定することです。 しかしながら、既存の幻覚のメトリクスは、金の標準回答、すなわち人間が書いた「最良の」あるいは「正しい」回答を含むベンチマークデータセットを持つ必要がある。 このような要件により幻覚の測定はコストがかかり、ヒューマンエラーを起こしやすい。 本研究は,金標準解が欠落したシナリオに特化して設計された最初の幻覚尺度であるFactualness Evaluations via Weighting LLMs (FEWL)を提案する。 FEWL は金標準回答のプロキシとして機能する既製の LLM の回答を利用する。 鍵となる課題は、LLMの専門知識を資源的に定量化する方法である。 FEWLにはある程度の理論的保証があり、基準LDMよりも正確な幻覚対策を経験的に示している。 また、FEWLを利用して、コンテキスト内学習と教師付き微調整の両方を通して幻覚を減らす方法を示す。 最後に,LLM幻覚研究を促進するための大規模ベンチマークデータセットを構築した。

LLM hallucination, i.e. generating factually incorrect yet seemingly convincing answers, is currently a major threat to the trustworthiness and reliability of LLMs. The first step towards solving this complicated problem is to measure it. However, existing hallucination metrics require to have a benchmark dataset with gold-standard answers, i.e. "best" or "correct" answers written by humans. Such requirement makes hallucination measurement costly and prone to human errors. In this work, we propose Factualness Evaluations via Weighting LLMs (FEWL), the first hallucination metric that is specifically designed for the scenario when gold-standard answers are absent. FEWL leverages the answers from off-the-shelf LLMs that serve as a proxy of gold-standard answers. The key challenge is how to quantify the expertise of reference LLMs resourcefully. We show FEWL has certain theoretical guarantees and demonstrate empirically it gives more accurate hallucination measures than naively using reference LLMs. We also show how to leverage FEWL to reduce hallucination through both in-context learning and supervised finetuning. Last, we build a large-scale benchmark dataset to facilitate LLM hallucination research.
翻訳日:2024-02-19 17:41:31 公開日:2024-02-16
# 集積シリコンフォトニック受信チップを用いた28.6km繊維上の連続可変量子鍵分布

Continuous-variable quantum key distribution over 28.6 km fiber with an integrated silicon photonic receiver chip ( http://arxiv.org/abs/2402.10411v1 )

ライセンス: Link先を確認
Yiming Bian, Yan Pan, Xuesong Xu, Liang Zhao, Yang Li, Wei Huang, Lei Zhang, Song Yu, Yichen Zhang and Bingjie Xu(参考訳) 情報理論上秘密鍵生成を保証する量子鍵分布は、現在、フォトニック統合を通じて、高性能、コスト削減、コンパクト化を実現し、大規模展開を容易にしている。 連続可変量子鍵分布は、オフザシェルフ光通信デバイスとの互換性のため、フォトニック統合において魅力的なアプローチである。 しかし、チップベースのシステムは、主に低ノイズ、広帯域、高クリアランス、高安定性を必要とするショットノイズ制限受信機設計に関する大きな制限に遭遇している。 本稿では,集積シリコンフォトニック受信チップを用いた実局所発振器連続可変量子鍵分布系の実装について報告する。 1.5ghzまでの帯域幅と7.42dbまでのクリアランスを持つチップベースのホモダイン検出器により、システムの伝送距離は28.6kmまで延長され、mbpsレベルの秘密鍵生成速度を達成した。 この技術的進歩により、フォトニック集積受信機を備えた量子鍵配信システムは、アクセスネットワークシナリオと短距離メトロポリタン相互接続の両方のカバレッジを達成でき、次世代量子鍵配信ネットワークを大規模に開発するための道を開くことができる。

Quantum key distribution, which ensures information-theoretically secret key generation, is currently advancing through photonic integration to achieve high performance, cost reduction and compact size, thereby facilitating the large-scale deployment. Continuous-variable quantum key distribution is an attractive approach for photonic integrations due to its compatibility with off-the-shelf optical communication devices. However, its chip-based systems have encountered significant limitations primarily related to the shot-noise-limited receiver design, which demands low noise, wide bandwidth, high clearance and well stability. Here, we report the implementation of a real local oscillator continuous-variable quantum key distribution system with an integrated silicon photonic receiver chip. Thanks to the well-designed chip-based homodyne detectors with a bandwidth up to 1.5 GHz and a clearance up to 7.42 dB, the transmission distance of the system has been extended to 28.6 km, achieving a secret key generation rate of Mbps level. This technological advancement enables the quantum key distribution systems with photonic integrated receivers to achieve the coverage in both access network scenarios and short-distance metropolitan interconnections, paving the way for the development of the next-generation quantum key distribution networks on a large scale.
翻訳日:2024-02-19 17:41:11 公開日:2024-02-16
# グラフ表現学習による大規模言語モデルに関する調査論文分類の理解

Understanding Survey Paper Taxonomy about Large Language Models via Graph Representation Learning ( http://arxiv.org/abs/2402.10409v1 )

ライセンス: Link先を確認
Jun Zhuang, Casey Kennington(参考訳) 大規模言語モデル(llms)に関する新たな研究が続くにつれ、新しい研究やモデルに追随することは困難である。 研究者が新しい研究を合成するのを助けるために、多くの調査論文を書いたが、それらでさえも増えている。 本稿では,調査論文を分類学に自動的に割り当てる手法を開発した。 144 LLM調査論文のメタデータを収集し,分類学における論文の分類のための3つのパラダイムを探索する。 本研究は,学習済み言語モデルの微調整とllmsを用いたゼロショット/フェウショット分類の2つのパラダイムにおいて,共カテゴリグラフ上のグラフ構造情報を活用することで言語モデルを著しく上回ることを示す。 本研究のモデルでは,ヒトの平均認識レベルを超越し,GCNなどの小型モデルで生成する弱いラベルを用いた微調整 LLM が,分類分類タスクにおける弱から強への一般化の可能性を明らかにする上で,より効果的であることが判明した。

As new research on Large Language Models (LLMs) continues, it is difficult to keep up with new research and models. To help researchers synthesize the new research many have written survey papers, but even those have become numerous. In this paper, we develop a method to automatically assign survey papers to a taxonomy. We collect the metadata of 144 LLM survey papers and explore three paradigms to classify papers within the taxonomy. Our work indicates that leveraging graph structure information on co-category graphs can significantly outperform the language models in two paradigms; pre-trained language models' fine-tuning and zero-shot/few-shot classifications using LLMs. We find that our model surpasses an average human recognition level and that fine-tuning LLMs using weak labels generated by a smaller model, such as the GCN in this study, can be more effective than using ground-truth labels, revealing the potential of weak-to-strong generalization in the taxonomy classification task.
翻訳日:2024-02-19 17:40:51 公開日:2024-02-16
# 解釈可能な意思決定過程の視覚的解析による生成拡散モデルの説明

Explaining generative diffusion models via visual analysis for interpretable decision-making process ( http://arxiv.org/abs/2402.10404v1 )

ライセンス: Link先を確認
Ji-Hoon Park, Yeong-Joon Ju, and Seong-Whan Lee(参考訳) 拡散モデルは生成タスクにおいて顕著な性能を示した。 それにもかかわらず、拡散過程の説明は、専門家が解釈するのが難しいノイズ画像の系列であるため、いまだに困難である。 そこで本研究では,モデルが生成する視覚概念と,モデルが各時間ステップに参加する領域の観点から,拡散過程を解釈する3つの研究課題を提案する。 我々は,拡散過程を可視化するツールを開発し,上記の研究課題に答えて,拡散過程を人間に理解可能にする。 ツールを用いた様々な視覚分析実験の結果を通じて,各段階における基礎的視覚概念との関係を記述し,強調することにより,拡散過程におけるアウトプットの段階的生成を示す。 拡散モデルのトレーニングを通じて、モデルは各時間ステップに対応する多様な視覚概念を学習し、異なるステージで様々な視覚概念のレベルを予測することができる。 area under cover (auc)スコア、相関定量化、およびクロス・アテンションマッピングを用いてツールを検証する。 本研究は拡散過程に関する知見を提供し,説明可能な拡散機構に関するさらなる研究の道を開く。

Diffusion models have demonstrated remarkable performance in generation tasks. Nevertheless, explaining the diffusion process remains challenging due to it being a sequence of denoising noisy images that are difficult for experts to interpret. To address this issue, we propose the three research questions to interpret the diffusion process from the perspective of the visual concepts generated by the model and the region where the model attends in each time step. We devise tools for visualizing the diffusion process and answering the aforementioned research questions to render the diffusion process human-understandable. We show how the output is progressively generated in the diffusion process by explaining the level of denoising and highlighting relationships to foundational visual concepts at each time step through the results of experiments with various visual analyses using the tools. Throughout the training of the diffusion model, the model learns diverse visual concepts corresponding to each time-step, enabling the model to predict varying levels of visual concepts at different stages. We substantiate our tools using Area Under Cover (AUC) score, correlation quantification, and cross-attention mapping. Our findings provide insights into the diffusion process and pave the way for further research into explainable diffusion mechanisms.
翻訳日:2024-02-19 17:40:34 公開日:2024-02-16
# ピスワイズトリリニアネットワークからの多面体錯体の導出

Polyhedral Complex Derivation from Piecewise Trilinear Networks ( http://arxiv.org/abs/2402.10403v1 )

ライセンス: Link先を確認
Jin-Hwa Kim(参考訳) ディープニューラルネットワークの可視化の最近の進歩は、その構造と連続的ピアースワイドアフィン(CPWA)関数からのメッシュ抽出に関する洞察を提供する。 一方、ニューラルサーフェス表現学習の発展には、スペクトルバイアスのような問題に対処する非線形位置符号化が含まれているが、これはCPWA関数に基づいたメッシュ抽出技術を適用する上での課題である。 位置符号化として三線型補間法に着目し,理論的な考察と解析的メッシュ抽出を行い,固有制約下での三線型領域内の超曲面から平面への変換を示す。 さらに,より広い応用に寄与する3つの超曲面間の交差点の近似法を提案する。 本研究は,超曲面の固有損失と平面性との関係を検証しながら,チャンファー距離と効率,角距離による正当性と同義性を実証的に検証した。

Recent advancements in visualizing deep neural networks provide insights into their structures and mesh extraction from Continuous Piecewise Affine (CPWA) functions. Meanwhile, developments in neural surface representation learning incorporate non-linear positional encoding, addressing issues like spectral bias; however, this poses challenges in applying mesh extraction techniques based on CPWA functions. Focusing on trilinear interpolating methods as positional encoding, we present theoretical insights and an analytical mesh extraction, showing the transformation of hypersurfaces to flat planes within the trilinear region under the eikonal constraint. Moreover, we introduce a method for approximating intersecting points among three hypersurfaces contributing to broader applications. We empirically validate correctness and parsimony through chamfer distance and efficiency, and angular distance, while examining the correlation between the eikonal loss and the planarity of the hypersurfaces.
翻訳日:2024-02-19 17:40:15 公開日:2024-02-16
# 量子エラー軽減のためのジャンク情報の活用

Leveraging junk information to enhance the quantum error mitigation ( http://arxiv.org/abs/2402.10480v1 )

ライセンス: Link先を確認
Ruixia Wang, Xiaosi Xu, Fei Yan, Xiaoxiao Xiao, Ying Li, Xiaoxia Cai, Haifeng Yu(参考訳) 量子情報処理におけるノイズは、正確な結果を得るために大きな障害となる。 この過程における実験的期待値の精度を向上させるには、量子誤差緩和技術が不可欠である。 実験では、いくつかの測定された事象が対称性の制約のような特定の原理に違反していることがよく観察される。 これらのイベントはジャンク情報と見なすことができ、選択後のプロセスで破棄されるべきである。 そこで本研究では, ジャンク情報を利用して実験人口分布と誤差を区別する自己学習型量子ノイズフィルタ(sqnf)と呼ばれる量子誤差緩和手法を導入し, 誤差のない分布を近似する。 提案手法は, 従来のポスト選択法と比較して, 人口分布の不確かさを著しく低減できることを示す。 特に、不忠実さの低減は、追加の実験的なリソース消費なしに達成される。 本手法はスケーラブルで,マルチキュービットコンピューティングシステムに適用可能である。

Noise in quantum information processing poses a significant obstacle to achieving precise results. Quantum error mitigation techniques are crucial for improving the accuracy of experimental expectation values in this process. In the experiments, it is commonly observed that some measured events violate certain principles, such as symmetry constraints. These events can be considered junk information and should be discarded in a post-selection process. In this work, we introduce a quantum error mitigation method named Self-Trained Quantum Noise Filter (SQNF), which leverages the junk information to differentiate errors from the experimental population distributions, thereby aiming to approximate the error-free distribution. Our numerical results demonstrate that the proposed method can significantly reduce the infidelity of population distributions compared to the traditional post-selection method. Notably, the infidelity reduction is achieved without additional experimental resource consumption. Our method is scalable and applicable to multi-qubit computing systems.
翻訳日:2024-02-19 17:33:08 公開日:2024-02-16
# QDyLoRA:効率的な大規模言語モデルチューニングのための量子化動的低ランク適応

QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning ( http://arxiv.org/abs/2402.10462v1 )

ライセンス: Link先を確認
Hossein Rajabzadeh, Mojtaba Valipour, Tianshu Zhu, Marzieh Tahaei, Hyock Ju Kwon, Ali Ghodsi, Boxing Chen and Mehdi Rezagholizadeh(参考訳) 大きな言語モデルを微調整するには、巨大なGPUメモリが必要である。 QLoRAと呼ばれる低ランク適応手法の量子化バージョンはこの問題を著しく軽減するが、効率的なLoRAランクを見つけることは依然として困難である。 さらに、QLoRAは事前に定義されたランクでトレーニングされているため、さらなる微調整ステップを必要とせずに下位ランクで再構成することはできない。 本稿では,動的低ランク適応のための効率的な量子化手法として,qdylora -quantized dynamic low-rank adaptation-を提案する。 Dynamic LoRAによって動機付けられたQDyLoRAは、事前に定義されたLoRAランクのセット上で、LLMを効率的に微調整することができる。 QDyLoRAは1ラウンドの微調整により、32GBのV100-GPU上で1から64ランクのファルコン40bを微調整できる。 実験の結果,QDyLoRAはQLoRAと競合し,最適ランクを用いた場合よりも優れていた。

Finetuning large language models requires huge GPU memory, restricting the choice to acquire Larger models. While the quantized version of the Low-Rank Adaptation technique, named QLoRA, significantly alleviates this issue, finding the efficient LoRA rank is still challenging. Moreover, QLoRA is trained on a pre-defined rank and, therefore, cannot be reconfigured for its lower ranks without requiring further fine-tuning steps. This paper proposes QDyLoRA -Quantized Dynamic Low-Rank Adaptation-, as an efficient quantization approach for dynamic low-rank adaptation. Motivated by Dynamic LoRA, QDyLoRA is able to efficiently finetune LLMs on a set of pre-defined LoRA ranks. QDyLoRA enables fine-tuning Falcon-40b for ranks 1 to 64 on a single 32 GB V100-GPU through one round of fine-tuning. Experimental results show that QDyLoRA is competitive to QLoRA and outperforms when employing its optimal rank.
翻訳日:2024-02-19 17:32:54 公開日:2024-02-16
# 学習型スキップリスト

Learning-Augmented Skip Lists ( http://arxiv.org/abs/2402.10457v1 )

ライセンス: Link先を確認
Chunkai Fu, Jung Hoon Seo, Samson Zhou(参考訳) 従来のデータ構造設計を改善するために、スキップリストの設計に機械学習のアドバイスを統合することを検討する。 一組の項目で検索クエリに対して推定された分数頻度を出力する誤ったオラクルにアクセスすると、2倍近い確率で最適な検索時間を確実に提供するスキップリストを構築する。 実際、私たちの学習によるスキップリストは、たとえオラクルが一定要素内でのみ正確であっても、一定要素まで最適です。 検索クエリがユビキタスZipfian分布に従えば、スキップリストによるアイテムの検索時間は一定であり、アイテムの総数$n$(例えば$\mathcal{O}(1)$)とは独立であるのに対し、従来のスキップリストは$\mathcal{O}(\log n)$と期待される検索時間を持つ。 また, 予測が任意に誤りである場合でも, 不可能なスキップリスト構築の一定要素内にある検索時間をデータ構造が達成できることを示し, 頑健性を示す。 最後に、私たちの学習によるスキップリストが、合成データと実世界のデータセットの両方で従来のスキップリストを上回っていることを実証的に示します。

We study the integration of machine learning advice into the design of skip lists to improve upon traditional data structure design. Given access to a possibly erroneous oracle that outputs estimated fractional frequencies for search queries on a set of items, we construct a skip list that provably provides the optimal expected search time, within nearly a factor of two. In fact, our learning-augmented skip list is still optimal up to a constant factor, even if the oracle is only accurate within a constant factor. We show that if the search queries follow the ubiquitous Zipfian distribution, then the expected search time for an item by our skip list is only a constant, independent of the total number $n$ of items, i.e., $\mathcal{O}(1)$, whereas a traditional skip list will have an expected search time of $\mathcal{O}(\log n)$. We also demonstrate robustness by showing that our data structure achieves an expected search time that is within a constant factor of an oblivious skip list construction even when the predictions are arbitrarily incorrect. Finally, we empirically show that our learning-augmented skip list outperforms traditional skip lists on both synthetic and real-world datasets.
翻訳日:2024-02-19 17:32:37 公開日:2024-02-16
# ペナライズド最適輸送ネットワークによる表データ生成モデリング

Generative Modeling for Tabular Data via Penalized Optimal Transport Network ( http://arxiv.org/abs/2402.10456v1 )

ライセンス: Link先を確認
Wenhui Sophia Lu, Chenyang Zhong, Wing Hung Wong(参考訳) 表データ内の行の確率分布を正確に学習し、本物の合成サンプルを生成するタスクは重要かつ非自明である。 wasserstein generative adversarial network (wgan) は、前身であるgenerative adversarial networkが直面する課題に対処するため、生成モデリングにおける顕著な改善である。 しかし, グラフデータによく見られる混合データ型や多モード性, ジェネレータと判別器の微妙な平衡, 高次元におけるワッサーシュタイン距離の固有の不安定性などにより, WGANは高忠実度サンプルの生成に失敗することが多い。 この目的のために,新しい,頑健で解釈可能な辺縁補償ワッサースタイン(MPW)損失に基づく生成型ディープニューラルネットワークであるPOTNetを提案する。 POTNetは、分類と連続の両方の機能を含む表データを効果的にモデル化できる。 さらに、機能のサブセットに対する条件付けの柔軟性も提供する。 我々はMPW損失の背景にある動機を理論的に正当化する。 また,提案手法の有効性を実世界およびシミュレーションデータセットの4つの異なるベンチマークで実証的に実証した。 提案手法は, サンプリング段階では, 表データに対する最先端生成モデルと比較して1桁の高速化を実現し, 効率的な大規模合成データ生成を実現する。

The task of precisely learning the probability distribution of rows within tabular data and producing authentic synthetic samples is both crucial and non-trivial. Wasserstein generative adversarial network (WGAN) marks a notable improvement in generative modeling, addressing the challenges faced by its predecessor, generative adversarial network. However, due to the mixed data types and multimodalities prevalent in tabular data, the delicate equilibrium between the generator and discriminator, as well as the inherent instability of Wasserstein distance in high dimensions, WGAN often fails to produce high-fidelity samples. To this end, we propose POTNet (Penalized Optimal Transport Network), a generative deep neural network based on a novel, robust, and interpretable marginally-penalized Wasserstein (MPW) loss. POTNet can effectively model tabular data containing both categorical and continuous features. Moreover, it offers the flexibility to condition on a subset of features. We provide theoretical justifications for the motivation behind the MPW loss. We also empirically demonstrate the effectiveness of our proposed method on four different benchmarks across a variety of real-world and simulated datasets. Our proposed model achieves orders of magnitude speedup during the sampling stage compared to state-of-the-art generative models for tabular data, thereby enabling efficient large-scale synthetic data generation.
翻訳日:2024-02-19 17:32:14 公開日:2024-02-16
# マルチモーダルデータと補助タスク統合による皮膚病変分類の最適化

Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary Task Integration ( http://arxiv.org/abs/2402.10454v1 )

ライセンス: Link先を確認
Mahapara Khurshid, Mayank Vatsa, Richa Singh(参考訳) 皮膚疾患の世界的な流行は、タイムリーな診断や治療がなければ生命を脅かす段階へとエスカレートしうるものもあり、重要な医療課題となっている。 この問題は、医療へのアクセスが限られている遠隔地では治療が遅れ、皮膚疾患がより危機的な段階に進むことがしばしばある。 皮膚疾患の診断における主な課題の1つは、クラス間変異の低さであり、多くは類似した視覚特性を示し、正確な分類を困難にしている。 本研究は,スマートフォンで撮影された画像と本質的臨床情報と人口統計情報を統合し,皮膚病変を分類する新しいマルチモーダル手法を提案する。 このアプローチは、医療専門家が採用する診断プロセスを模倣する。 この手法の特徴は、超解像画像予測に焦点を当てた補助タスクの統合である。 このコンポーネントは、視覚的詳細の精細化と特徴抽出の強化において重要な役割を担い、クラス間の分化を改善し、結果としてモデル全体の効果を高める。 PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。 これらの実験の結果は, 提案手法の有効性を示すだけでなく, アウトソース医療環境に適用可能性を示した。

The rising global prevalence of skin conditions, some of which can escalate to life-threatening stages if not timely diagnosed and treated, presents a significant healthcare challenge. This issue is particularly acute in remote areas where limited access to healthcare often results in delayed treatment, allowing skin diseases to advance to more critical stages. One of the primary challenges in diagnosing skin diseases is their low inter-class variations, as many exhibit similar visual characteristics, making accurate classification challenging. This research introduces a novel multimodal method for classifying skin lesions, integrating smartphone-captured images with essential clinical and demographic information. This approach mimics the diagnostic process employed by medical professionals. A distinctive aspect of this method is the integration of an auxiliary task focused on super-resolution image prediction. This component plays a crucial role in refining visual details and enhancing feature extraction, leading to improved differentiation between classes and, consequently, elevating the overall effectiveness of the model. The experimental evaluations have been conducted using the PAD-UFES20 dataset, applying various deep-learning architectures. The results of these experiments not only demonstrate the effectiveness of the proposed method but also its potential applicability under-resourced healthcare environments.
翻訳日:2024-02-19 17:31:50 公開日:2024-02-16
# 長期感情支援のためのステアリング対話型大言語モデル

Steering Conversational Large Language Models for Long Emotional Support Conversations ( http://arxiv.org/abs/2402.10453v1 )

ライセンス: Link先を確認
Navid Madani, Sougata Saha, Rohini Srihari(参考訳) 本研究では,大規模言語モデル(llm)による長文会話における感情支援戦略に一貫して従う課題について述べる。 情緒的サポートの文脈における戦略的プロンプトに固執する上でのLCMの有効性を評価するためのモデル非依存尺度である戦略関連注意尺度(SRA)を導入する。 LLaMAモデルを用いて感情支援会話データセット(ESConv)内の会話を解析することにより、SRAは相互作用全体を通して概略された戦略を維持するモデルの能力と著しく相関していることを示す。 以上の結果から,sraインフォームプロンプトの適用は,より戦略的に固執し,より長い会話よりも望ましい情緒的支援戦略をより確実に示す会話へと繋がることが明らかとなった。 さらに,我々はESConvのための包括的,多分岐合成会話データセットをコントリビュートし,最適化されたプロンプト方式により様々な戦略継続を特徴とする。 コードとデータはGithubで公開されています。

In this study, we address the challenge of consistently following emotional support strategies in long conversations by large language models (LLMs). We introduce the Strategy-Relevant Attention (SRA) metric, a model-agnostic measure designed to evaluate the effectiveness of LLMs in adhering to strategic prompts in emotional support contexts. By analyzing conversations within the Emotional Support Conversations dataset (ESConv) using LLaMA models, we demonstrate that SRA is significantly correlated with a model's ability to sustain the outlined strategy throughout the interactions. Our findings reveal that the application of SRA-informed prompts leads to enhanced strategic adherence, resulting in conversations that more reliably exhibit the desired emotional support strategies over longer conversations. Furthermore, we contribute a comprehensive, multi-branch synthetic conversation dataset for ESConv, featuring a variety of strategy continuations informed by our optimized prompting method. The code and data are publicly available on our Github.
翻訳日:2024-02-19 17:31:29 公開日:2024-02-16
# インクリメンタルなシーケンスラベリング:2つのシフトの物語

Incremental Sequence Labeling: A Tale of Two Shifts ( http://arxiv.org/abs/2402.10447v1 )

ライセンス: Link先を確認
Shengjie Qiu, Junhao Zheng, Zhen Liu, Yicheng Luo, Qianli Ma(参考訳) インクリメンタルシーケンスラベリングタスクは、新しいクラスを継続的に学習し、前のクラスに関する知識を保持します。 e2o(モデルが古いエンティティを非エンティティと誤記する)とo2e(モデルが新しいエンティティとして非エンティティまたは古いエンティティをラベル付けする)です。 これまでの研究は主に、O2E問題を無視してE2O問題に対処することに焦点を当ててきた。 この無視は、学習プロセス中に新しいクラスに属する新しいデータサンプルを分類するモデルバイアスをもたらす。 これらの課題に対処するために,意味的シフトを伴わないインクリメンタルシークエンシャルラベリング(IS3)を提案する。 同定されたセマンティックシフト(E2OとO2E)によって動機付けられたIS3は、モデルにおける破滅的な忘れを緩和することを目的としている。 E2O問題に関しては、古い実体に対するモデルの識別能力を維持するために知識蒸留を用いる。 同時に、O2E問題に対処するために、縮退損失と最適化レベルを通じて、モデルが新しいエンティティに対するバイアスを軽減する。 様々なインクリメンタルな設定を持つ3つのデータセットを用いた実験により,is3の性能は,従来の最先端手法に比べて有意な差を示した。

The incremental sequence labeling task involves continuously learning new classes over time while retaining knowledge of the previous ones. Our investigation identifies two significant semantic shifts: E2O (where the model mislabels an old entity as a non-entity) and O2E (where the model labels a non-entity or old entity as a new entity). Previous research has predominantly focused on addressing the E2O problem, neglecting the O2E issue. This negligence results in a model bias towards classifying new data samples as belonging to the new class during the learning process. To address these challenges, we propose a novel framework, Incremental Sequential Labeling without Semantic Shifts (IS3). Motivated by the identified semantic shifts (E2O and O2E), IS3 aims to mitigate catastrophic forgetting in models. As for the E2O problem, we use knowledge distillation to maintain the model's discriminative ability for old entities. Simultaneously, to tackle the O2E problem, we alleviate the model's bias towards new entities through debiased loss and optimization levels. Our experimental evaluation, conducted on three datasets with various incremental settings, demonstrates the superior performance of IS3 compared to the previous state-of-the-art method by a significant margin.
翻訳日:2024-02-19 17:31:11 公開日:2024-02-16
# 異なるラベリング機能を用いた協調学習

Collaborative Learning with Different Labeling Functions ( http://arxiv.org/abs/2402.10445v1 )

ライセンス: Link先を確認
Yuyang Deng, Mingda Qiao(参考訳) そこで我々は,n$データ分布毎に正確な分類器を学習し,それらから抽出したサンプル数を最小限に抑えることを目的とした,コラボレーティブpac学習の変種について検討した。 通常の協調学習装置とは異なり、全ての分布に対して同時に正確である単一の分類器が存在するとは考えていない。 データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。 我々は,経験的リスク最小化(erm)に基づく学習アルゴリズムを仮説クラスの自然な拡張に基づいて与え,その解析は,この拡張クラスのvc次元の上限に依存する。 計算効率の観点からは,拡張仮説クラスにおけるERMがNPハードであることを示し,計算効率のよい学習者が存在することを示す。 正の面では、2つの特別な場合において、サンプルと計算効率の両方の学習者を与える。

We study a variant of Collaborative PAC Learning, in which we aim to learn an accurate classifier for each of the $n$ data distributions, while minimizing the number of samples drawn from them in total. Unlike in the usual collaborative learning setup, it is not assumed that there exists a single classifier that is simultaneously accurate for all distributions. We show that, when the data distributions satisfy a weaker realizability assumption, sample-efficient learning is still feasible. We give a learning algorithm based on Empirical Risk Minimization (ERM) on a natural augmentation of the hypothesis class, and the analysis relies on an upper bound on the VC dimension of this augmented class. In terms of the computational efficiency, we show that ERM on the augmented hypothesis class is NP-hard, which gives evidence against the existence of computationally efficient learners in general. On the positive side, for two special cases, we give learners that are both sample- and computationally-efficient.
翻訳日:2024-02-19 17:30:46 公開日:2024-02-16
# 量子ノイズの広帯域分光

Broadband spectroscopy of quantum noise ( http://arxiv.org/abs/2402.10438v1 )

ライセンス: Link先を確認
Yuanlong Wang and Gerardo A. Paz-Silva(参考訳) ノイズを特徴付けることは、それが影響を受ける量子システムの最適制御の鍵となる。 単一量子ビットプローブと$\pi$と非$\pi$パルスの適切なシーケンスを用いて、量子浴が幅広い周波数にわたって発生するノイズを、プローブの$\mathbb{t}_2$時間によって設定された限界以下の周波数を含む特徴付ける方法を示す。 そのために、非$\pi$パルスの存在下でのプローブのダイナミクスの正確な表現と、ガウス浴で発生する雑音スペクトルの対称(古典的)成分と反対称(量子)成分の間の一般的な不等式を利用する。 シミュレーションは,本手法の有効性を示す。

Characterizing noise is key to the optimal control of the quantum system it affects. Using a single-qubit probe and appropriate sequences of $\pi$ and non-$\pi$ pulses, we show how one can characterize the noise a quantum bath generates across a wide range of frequencies -- including frequencies below the limit set by the probe's $\mathbb{T}_2$ time. To do so we leverage an exact expression for the dynamics of the probe in the presence of non-$\pi$ pulses, and a general inequality between the symmetric (classical) and anti-symmetric (quantum) components of the noise spectrum generated by a Gaussian bath. Simulation demonstrates the effectiveness of our method.
翻訳日:2024-02-19 17:30:30 公開日:2024-02-16
# 私は彼らではない:大規模言語モデルにおける流動的アイデンティティと永続的外部バイアス

I Am Not Them: Fluid Identities and Persistent Out-group Bias in Large Language Models ( http://arxiv.org/abs/2402.10436v1 )

ライセンス: Link先を確認
Wenchao Dong, Assem Zhunis, Hyojin Chin, Jiyoung Han, Meeyoung Cha(参考訳) 西洋の3つの言語(英語,ドイツ語,フランス語)と東部の3つの言語(中国語,日本語,韓国語)にまたがる文化バイアス-個人主義と集合主義-in chatgptについて検討した。 ChatGPTが西洋語で個人主義的ペルソナを採用したとき、その集団主義のスコア(つまり、グループ外値)はよりネガティブな傾向を示し、個人主義に対する肯定的な志向(すなわち、グループ内値)を超えた。 逆に、東方語のチャットgptに集合主義的なペルソナが割り当てられると、類似したパターンは、集合主義(すなわち、集団内値)と比較して個人主義(すなわち、集団外値)に対してより否定的な反応を示した。 以上の結果から,ChatGPTはグループ内とグループ外を識別し,グループ内とグループ外を区別する。 特に、偏見や差別が発生する外集団に対する否定性は、内集団に対する肯定性を上回った。 実験は政治的領域で再現され、結果は一貫していた。 さらに、この複製は、大規模な言語モデル(llm)に内在する民主的バイアスを明らかにし、以前の発見と一致し、プロンプトエンジニアリングによるバイアス緩和に関する洞察を与える。 様々なハイパーパラメータとペルソナ設定手法を用いて、社会的アイデンティティラベルの有無に関わらず、他の一般的な言語モデルに対して広範なロバスト性チェックを行った。

We explored cultural biases-individualism vs. collectivism-in ChatGPT across three Western languages (i.e., English, German, and French) and three Eastern languages (i.e., Chinese, Japanese, and Korean). When ChatGPT adopted an individualistic persona in Western languages, its collectivism scores (i.e., out-group values) exhibited a more negative trend, surpassing their positive orientation towards individualism (i.e., in-group values). Conversely, when a collectivistic persona was assigned to ChatGPT in Eastern languages, a similar pattern emerged with more negative responses toward individualism (i.e., out-group values) as compared to collectivism (i.e., in-group values). The results indicate that when imbued with a particular social identity, ChatGPT discerns in-group and out-group, embracing in-group values while eschewing out-group values. Notably, the negativity towards the out-group, from which prejudices and discrimination arise, exceeded the positivity towards the in-group. The experiment was replicated in the political domain, and the results remained consistent. Furthermore, this replication unveiled an intrinsic Democratic bias in Large Language Models (LLMs), aligning with earlier findings and providing integral insights into mitigating such bias through prompt engineering. Extensive robustness checks were performed using varying hyperparameter and persona setup methods, with or without social identity labels, across other popular language models.
翻訳日:2024-02-19 17:30:18 公開日:2024-02-16
# 咬合者再同定のための動的パッチアウェアエンリッチメントトランス

Dynamic Patch-aware Enrichment Transformer for Occluded Person Re-Identification ( http://arxiv.org/abs/2402.10435v1 )

ライセンス: Link先を確認
Xin Zhang, Keren Fu, and Qijun Zhao(参考訳) 人物の再識別(re-ID)は、特に閉塞を含むシナリオにおいて、大きな課題を呈し続けている。 従来、オクルージョンに対処するためのアプローチは、外的セマンティック・キューの利用を通じて身体の特徴の整合に重点を置いてきた。 しかし、これらの手法は複雑でノイズの影響を受けやすい傾向がある。 上記の課題に対処するため、Dynamic Patch-aware Enrichment Transformer (DPEFormer)と呼ばれる革新的なエンドツーエンドソリューションを提案する。 このモデルは人体情報を自動的にかつ動的に識別し、外部検出器や正確な画像アライメントを必要としない。 具体的には、動的パッチトークン選択モジュール(DPSM)を紹介する。 DPSMは、ラベル誘導されたプロキシトークンを仲介体として利用し、情報による隠蔽のないトークンを識別する。 これらのトークンは、後続のローカル部分の特徴を引き出すために選択される。 DPSMが選択した局所的特徴とグローバルな分類機能のシームレスな統合を容易にするため,新しい特徴ブレンディングモジュール(FBM)を導入する。 FBMは情報の相補的な性質と部分多様性の活用を通じて特徴表現を強化する。 さらに,DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを確認するため,実効性拡張 (ROA) 戦略を提案する。 この戦略はSegment Anything Model(SAM)の最近の進歩を活用している。 その結果、実世界のオクルージョンによく似たオクルージョン画像を生成し、その後のコントラスト学習プロセスを大幅に強化する。 DPEFormerが既存の最先端のアプローチよりも大幅に進歩したことを示している。 コードは公開される予定だ。

Person re-identification (re-ID) continues to pose a significant challenge, particularly in scenarios involving occlusions. Prior approaches aimed at tackling occlusions have predominantly focused on aligning physical body features through the utilization of external semantic cues. However, these methods tend to be intricate and susceptible to noise. To address the aforementioned challenges, we present an innovative end-to-end solution known as the Dynamic Patch-aware Enrichment Transformer (DPEFormer). This model effectively distinguishes human body information from occlusions automatically and dynamically, eliminating the need for external detectors or precise image alignment. Specifically, we introduce a dynamic patch token selection module (DPSM). DPSM utilizes a label-guided proxy token as an intermediary to identify informative occlusion-free tokens. These tokens are then selected for deriving subsequent local part features. To facilitate the seamless integration of global classification features with the finely detailed local features selected by DPSM, we introduce a novel feature blending module (FBM). FBM enhances feature representation through the complementary nature of information and the exploitation of part diversity. Furthermore, to ensure that DPSM and the entire DPEFormer can effectively learn with only identity labels, we also propose a Realistic Occlusion Augmentation (ROA) strategy. This strategy leverages the recent advances in the Segment Anything Model (SAM). As a result, it generates occlusion images that closely resemble real-world occlusions, greatly enhancing the subsequent contrastive learning process. Experiments on occluded and holistic re-ID benchmarks signify a substantial advancement of DPEFormer over existing state-of-the-art approaches. The code will be made publicly available.
翻訳日:2024-02-19 17:29:44 公開日:2024-02-16
# 時系列コントラスト学習のためのパラメトリック拡張

Parametric Augmentation for Time Series Contrastive Learning ( http://arxiv.org/abs/2402.10434v1 )

ライセンス: Link先を確認
Xu Zheng, Tianchun Wang, Wei Cheng, Aitian Ma, Haifeng Chen, Mo Sha, Dongsheng Luo(参考訳) コントラスト学習のような現代的な技術は、コンピュータビジョン、自然言語処理、グラフ構造化データなど、多くの分野で効果的に使われている。 頑健で識別的な表現を学ぶ上でモデルを支援するポジティブな例を作ることは、対照的な学習アプローチにおいて重要な段階である。 通常、プリセットされた人間の直観は、関連するデータ拡張の選択を指示する。 人間によって容易に認識されるパターンのため、この親指の規則は視覚と言語領域でうまく機能する。 しかし,時系列の時間構造を視覚的に検査することは不可能である。 データセットとインスタンスレベルの時系列拡張の多様性は、オンザフライで意味のある拡張を選択するのを難しくする。 本研究では,情報理論を用いて時系列データ拡張を解析し,最も一般的に採用されている拡張を統一形式に要約することで,このギャップを解消する。 次に、時系列表現学習を支援するために適応的に使用できるパラメトリック拡張(AutoTCL)を備えたコントラスト学習フレームワークを提案する。 提案手法はエンコーダ非依存であり、異なるバックボーンエンコーダとシームレスに統合することができる。 単変量予測タスクの実験では,MSEが平均6.5倍,MAEが4.7倍と高い競争力を示した。 分類タスクでは、AutoTCLは平均精度が1.2\%以上向上する。

Modern techniques like contrastive learning have been effectively used in many areas, including computer vision, natural language processing, and graph-structured data. Creating positive examples that assist the model in learning robust and discriminative representations is a crucial stage in contrastive learning approaches. Usually, preset human intuition directs the selection of relevant data augmentations. Due to patterns that are easily recognized by humans, this rule of thumb works well in the vision and language domains. However, it is impractical to visually inspect the temporal structures in time series. The diversity of time series augmentations at both the dataset and instance levels makes it difficult to choose meaningful augmentations on the fly. In this study, we address this gap by analyzing time series data augmentation using information theory and summarizing the most commonly adopted augmentations in a unified format. We then propose a contrastive learning framework with parametric augmentation, AutoTCL, which can be adaptively employed to support time series representation learning. The proposed approach is encoder-agnostic, allowing it to be seamlessly integrated with different backbone encoders. Experiments on univariate forecasting tasks demonstrate the highly competitive results of our method, with an average 6.5\% reduction in MSE and 4.7\% in MAE over the leading baselines. In classification tasks, AutoTCL achieves a $1.2\%$ increase in average accuracy.
翻訳日:2024-02-19 17:29:20 公開日:2024-02-16
# Fusing Neural and Physical: Augment Protein Conformation Smpling with Tractable Simulations

Fusing Neural and Physical: Augment Protein Conformation Sampling with Tractable Simulations ( http://arxiv.org/abs/2402.10433v1 )

ライセンス: Link先を確認
Jiarui Lu, Zuobai Zhang, Bozitao Zhong, Chence Shi, Jian Tang(参考訳) タンパク質の動力学は生物学的機能や性質に共通して重要であり、シリコにおける時間消費分子動力学(md)のシミュレーションが一般的である。 近年、生成モデルは、シミュレーションデータ(ゼロショット推論)を必要とせず、桁違いに高速なコンフォーメーションアンサンブルを得るために、サロゲートサンプリングとして活用されている。 しかし、基礎となるエネルギー環境を知らないため、そのような生成モデルの精度は依然として限られている。 本研究では,MDシミュレーションを抽出可能な方法で組み込んだ,事前学習型ジェネレーティブ・サンプリング器の少数ショット設定について検討する。 具体的には, 目的タンパク質が与えられた場合, まず, 予め訓練したサンプルからシードコンフォメーションを取得し, 次いで, これらのシードから始まる複数の物理シミュレーションを行った。 次に、上記のシミュレーショントラジェクトリを用いて生成モデルを微調整し、ターゲット固有標本化を行う。 実験により, 抽出可能な計算コストにおいて, マイクロショットコンフォメーションサンプリング器の優れた性能を示した。

The protein dynamics are common and important for their biological functions and properties, the study of which usually involves time-consuming molecular dynamics (MD) simulations in silico. Recently, generative models has been leveraged as a surrogate sampler to obtain conformation ensembles with orders of magnitude faster and without requiring any simulation data (a "zero-shot" inference). However, being agnostic of the underlying energy landscape, the accuracy of such generative model may still be limited. In this work, we explore the few-shot setting of such pre-trained generative sampler which incorporates MD simulations in a tractable manner. Specifically, given a target protein of interest, we first acquire some seeding conformations from the pre-trained sampler followed by a number of physical simulations in parallel starting from these seeding samples. Then we fine-tuned the generative model using the simulation trajectories above to become a target-specific sampler. Experimental results demonstrated the superior performance of such few-shot conformation sampler at a tractable computational cost.
翻訳日:2024-02-19 17:28:44 公開日:2024-02-16
# より小さな言語モデルは、より大きな言語モデルのための命令チューニングトレーニングデータを選択することができる

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models ( http://arxiv.org/abs/2402.10430v1 )

ライセンス: Link先を確認
Dheeraj Mekala, Alex Nguyen, Jingbo Shang(参考訳) インストラクションチューニング言語モデルは、それらを一般的な用途に合わせるための重要なステップとなっている。 通常、このプロセスは大規模なデータセットに対する広範なトレーニングを伴い、高いトレーニングコストを伴います。 本稿では,サンプルの学習率に基づく新しい学習データ選択を提案する。 現在の言語モデルは、高品質なトレーニングデータを自動的に選択する能力を有しており、データセット全体のトレーニングと同等か、あるいは改善されていると断言します。 実験では, 1B (小) から 13B (大) のモデルに対して, この特性が有効であることを明らかにする。 さらに,データ硬度がモデルサイズにまたがって伝達され,より小さな350Mモデルでは,より大規模な13Bモデルのハードサンプルを用いて,高品質なトレーニングデータを効果的にキュレートすることが可能であることを示す。 オープンソース OPT と Llama-2 モデルのサイズを最大 13B まで利用し、2 つの教育訓練データセットを公開し、自動メトリクスと人間の両方で評価し、データ選択をトレーニングするための新しいアプローチを導入し、より効率的な代替手段を示す。

Instruction-tuning language models has become a crucial step in aligning them for general use. Typically, this process involves extensive training on large datasets, incurring high training costs. In this paper, we introduce a novel training data selection based on the learning percentage of the samples. We assert that current language models possess the capability to autonomously select high-quality training data, leading to comparable or improved performance compared to training on the entire dataset. Our experiments span different-sized models, revealing that this characteristic holds for models ranging from 1B (small) to 13B (large) in size. Moreover, we demonstrate an interesting finding that the data hardness transfers across model sizes, and a smaller 350M model can effectively curate high-quality training data with hard samples for a larger 13B model, resulting in an equally or superior instruction-tuned model compared to training on the complete dataset. Utilizing open-sourced OPT and Llama-2 models up to 13B in size, two publicly available instruction-tuning training datasets and evaluated by both automatic metrics & humans, our paper introduces a novel approach to training data selection, showcasing a more efficient alternative.
翻訳日:2024-02-19 17:28:10 公開日:2024-02-16
# Any-Precision LLM:複数サイズ異なるLLMの低コスト展開

Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs ( http://arxiv.org/abs/2402.10517v1 )

ライセンス: Link先を確認
Yeonhong Park, Jake Hyun, SangLyul Cho, Bonggeun Sim, Jae W. Lee(参考訳) 近年、様々なアプリケーションにわたる画期的な機能を示す大規模言語モデル(llm)の圧縮に向けた努力がなされているが、その規模が大きいため、かなりのデプロイメントコストがかかる。 一方、実用的重要性にもかかわらず、異なるサイズの複数のLSMをデプロイする際のコストを軽減することには、はるかに注意が払われていない。 そこで本稿では,任意の精度 DNN の概念を LLM に拡張した 'emph{any-precision LLM} を提案する。 そこで我々は,LLMの任意の精度量子化のための軽量な手法を提案し,学習後の量子化フレームワークを活用し,効率的な処理を行うための専用ソフトウェアエンジンを開発した。 その結果,3, 4, ..., $n$bits などの様々なビット幅に量子化された LLM を 1 つの$n$bit LLM に相当するメモリフットプリントにオーバーレイすることで,複数の異なる LLM をデプロイするコストを大幅に削減する。 サポートするLLMのビット幅は様々であり、最先端のモデル品質と推論のスループットを示しており、異なるサイズのLLMを複数配置する上で魅力的な選択肢であることが証明されている。 ソースコードは近く公開される予定だ。

Recently, considerable efforts have been directed towards compressing Large Language Models (LLMs), which showcase groundbreaking capabilities across diverse applications but entail significant deployment costs due to their large sizes. Meanwhile, much less attention has been given to mitigating the costs associated with deploying multiple LLMs of varying sizes despite its practical significance. Thus, this paper introduces \emph{any-precision LLM}, extending the concept of any-precision DNN to LLMs. Addressing challenges in any-precision LLM, we propose a lightweight method for any-precision quantization of LLMs, leveraging a post-training quantization framework, and develop a specialized software engine for its efficient serving. As a result, our solution significantly reduces the high costs of deploying multiple, different-sized LLMs by overlaying LLMs quantized to varying bit-widths, such as 3, 4, ..., $n$ bits, into a memory footprint comparable to a single $n$-bit LLM. All the supported LLMs with varying bit-widths demonstrate state-of-the-art model quality and inference throughput, proving itself to be a compelling option for deployment of multiple, different-sized LLMs. The source code will be publicly available soon.
翻訳日:2024-02-19 17:20:33 公開日:2024-02-16
# GaussianHair: 軽量ガウスアンによるヘアモデリングとレンダリング

GaussianHair: Hair Modeling and Rendering with Light-aware Gaussians ( http://arxiv.org/abs/2402.10483v1 )

ライセンス: Link先を確認
Haimin Luo, Min Ouyang, Zijun Zhao, Suyi Jiang, Longwen Zhang, Qixuan Zhang, Wei Yang, Lan Xu, Jingyi Yu(参考訳) 髪型は一見すると文化や民族を反映している。 デジタル時代には、様々なリアルな人間の髪型が、美と排他性のために高忠実なデジタル人の資産に不可欠である。 しかし、リアルなヘアモデリングとアニメーションのリアルタイムレンダリングは、多くのストランド、複雑な幾何学構造、光との高度な相互作用など、非常に難しい課題である。 本稿では,新鮮な毛髪表現であるGaussianHairを紹介する。 ヘア幾何学と画像からの外観の包括的モデリングを可能にし、革新的な照明効果と動的アニメーション能力を育む。 ガウシアンヘアの中心には、各ヘアストランドを連結した円筒型3Dガウシアンプリミティブの列として表現する新しい概念がある。 このアプローチは、毛髪の幾何学的構造と外観を保持するだけでなく、2次元画像平面への効率的なラスタ化を可能にし、異なるボリュームレンダリングを容易にする。 我々はこのモデルを"GaussianHair Scattering Model"でさらに強化し、ヘアストランドの細い構造を再現し、均一な照明で局所的な拡散色を正確に捉えた。 広範な実験を通じて,ガウシアンヘアは幾何学的,外観的両面において画期的なブレークスルーを達成し,最先端の髪髪復元法で発生する限界を超越した。 GaussianHairは表現以外にも、ヘアの編集、リライト、動的レンダリングをサポートし、従来のCGパイプラインワークフローとのシームレスな統合を提供する。 これらの進歩を補完し、我々は、この分野のさらなる研究を促進するために、人間の毛髪の広範囲なデータセットをまとめた。

Hairstyle reflects culture and ethnicity at first glance. In the digital era, various realistic human hairstyles are also critical to high-fidelity digital human assets for beauty and inclusivity. Yet, realistic hair modeling and real-time rendering for animation is a formidable challenge due to its sheer number of strands, complicated structures of geometry, and sophisticated interaction with light. This paper presents GaussianHair, a novel explicit hair representation. It enables comprehensive modeling of hair geometry and appearance from images, fostering innovative illumination effects and dynamic animation capabilities. At the heart of GaussianHair is the novel concept of representing each hair strand as a sequence of connected cylindrical 3D Gaussian primitives. This approach not only retains the hair's geometric structure and appearance but also allows for efficient rasterization onto a 2D image plane, facilitating differentiable volumetric rendering. We further enhance this model with the "GaussianHair Scattering Model", adept at recreating the slender structure of hair strands and accurately capturing their local diffuse color in uniform lighting. Through extensive experiments, we substantiate that GaussianHair achieves breakthroughs in both geometric and appearance fidelity, transcending the limitations encountered in state-of-the-art methods for hair reconstruction. Beyond representation, GaussianHair extends to support editing, relighting, and dynamic rendering of hair, offering seamless integration with conventional CG pipeline workflows. Complementing these advancements, we have compiled an extensive dataset of real human hair, each with meticulously detailed strand geometry, to propel further research in this field.
翻訳日:2024-02-19 17:20:10 公開日:2024-02-16
# ラベルノイズを伴う多クラス分類における自己蒸留と部分ラベル学習の理解

Understanding Self-Distillation and Partial Label Learning in Multi-Class Classification with Label Noise ( http://arxiv.org/abs/2402.10482v1 )

ライセンス: Link先を確認
Hyeonsu Jeong and Hye Won Chung(参考訳) 自己蒸留 (self-distillation, sd) は、教師モデルの出力を使って生徒モデルを訓練するプロセスであり、両方のモデルは同じアーキテクチャを共有している。 本研究は,多ラウンドSDとSDの両方を,部分ラベル学習(PLL)にインスパイアされた改良された教師出力で探索し,クロスエントロピー損失を伴う多クラス分類におけるSDを理論的に検討する。 学生モデルの出力に対するクローズドフォームソリューションを導出することにより、sdは本質的に高い特徴相関を持つインスタンス間のラベル平均化として機能することを発見した。 当初、この平均化は、ラベルを予測するための所定のインスタンスと相関した特徴クラスタにモデルを集中させるのに役立つ。 しかし、蒸留ラウンドの増加に伴い性能が低下する。 さらに,ラベルノイズシナリオにおけるsdの有効性を実証し,100%分類精度を達成するために必要なラベル破損条件と蒸留ラウンド数を同定した。 また,高騒音域における教師の直接出力を用いた多段階SDの有効性を,教師の出力による一段階蒸留が超えることを示した。

Self-distillation (SD) is the process of training a student model using the outputs of a teacher model, with both models sharing the same architecture. Our study theoretically examines SD in multi-class classification with cross-entropy loss, exploring both multi-round SD and SD with refined teacher outputs, inspired by partial label learning (PLL). By deriving a closed-form solution for the student model's outputs, we discover that SD essentially functions as label averaging among instances with high feature correlations. Initially beneficial, this averaging helps the model focus on feature clusters correlated with a given instance for predicting the label. However, it leads to diminishing performance with increasing distillation rounds. Additionally, we demonstrate SD's effectiveness in label noise scenarios and identify the label corruption condition and minimum number of distillation rounds needed to achieve 100% classification accuracy. Our study also reveals that one-step distillation with refined teacher outputs surpasses the efficacy of multi-step SD using the teacher's direct output in high noise rate regimes.
翻訳日:2024-02-19 17:19:38 公開日:2024-02-16
# 絵文字による仮想通貨資産の市場反応

Emoji Driven Crypto Assets Market Reactions ( http://arxiv.org/abs/2402.10481v1 )

ライセンス: Link先を確認
Xiaorui Zuo, Yao-Tsung Chen, and Wolfgang Karl H\"ardle(参考訳) 暗号通貨の急成長の中で、Twitterのようなソーシャルメディアプラットフォームは、市場の動向や投資家の感情に影響を与えている。 本研究では,gpt-4とトランスフォーマーベースのbertモデルをマルチモーダル感情分析に活用し,暗号通貨市場における絵文字感情の影響に着目した。 絵文字を定量的な感情データに変換することで、これらの洞察をBTC PriceやVCRIX Indexといった主要な市場指標と相関付ける。 このアプローチは、ソーシャルメディア要素を利用して市場のトレンドを特定し予測することを目的とした取引戦略の開発に反映される可能性がある。 以上の結果から,絵文字の感情に基づく戦略が市場の大幅な下降を回避し,リターンの安定化に寄与する可能性が示唆された。 この研究は、先進的なAI駆動分析を金融戦略に統合し、学術的文脈におけるデジタルコミュニケーションと市場ダイナミクスの相互作用に関する微妙な視点を提供するという実践的な利点を浮き彫りにしている。

In the burgeoning realm of cryptocurrency, social media platforms like Twitter have become pivotal in influencing market trends and investor sentiments. In our study, we leverage GPT-4 and a fine-tuned transformer-based BERT model for a multimodal sentiment analysis, focusing on the impact of emoji sentiment on cryptocurrency markets. By translating emojis into quantifiable sentiment data, we correlate these insights with key market indicators like BTC Price and the VCRIX index. This approach may be fed into the development of trading strategies aimed at utilizing social media elements to identify and forecast market trends. Crucially, our findings suggest that strategies based on emoji sentiment can facilitate the avoidance of significant market downturns and contribute to the stabilization of returns. This research underscores the practical benefits of integrating advanced AI-driven analyses into financial strategies, offering a nuanced perspective on the interplay between digital communication and market dynamics in an academic context.
翻訳日:2024-02-19 17:19:18 公開日:2024-02-16
# codamal: 安価顕微鏡によるマラリア検出のためのコントラストドメイン適応

CodaMal: Contrastive Domain Adaptation for Malaria Detection in Low-Cost Microscopes ( http://arxiv.org/abs/2402.10478v1 )

ライセンス: Link先を確認
Ishan Rajendrakumar Dave, Tristan de Blegiers, Chen Chen, Mubarak Shah(参考訳) マラリアは世界中で大きな問題であり、診断には低コストの顕微鏡(LCM)で効果的に動作するスケーラブルなソリューションが必要である。 深層学習に基づく手法は、顕微鏡画像からのコンピュータ支援診断に成功している。 しかし、これらの方法はマラリア原虫とその生命ステージの影響を受ける細胞を示す注釈付き画像を必要とする。 LCMからの注記画像は,高精細顕微鏡(HCM)からの注記画像と比較して,医療専門家の負担を著しく増大させる。 このため、テスト中にlcmイメージをうまく一般化するhcmイメージで実用的なソリューションを訓練する必要があった。 初期の手法では多段階学習プロセスを採用していたが、エンドツーエンドのアプローチは提供しなかった。 本研究では,CodaMal(Contrastive Domain Adpation for Malaria)というエンドツーエンドの学習フレームワークを提案する。 HCM(トレーニング)とLCM(テスト)のギャップを埋めるため,ドメイン適応型コントラスト損失を提案する。 HCMの表現と対応するLCM画像との類似性を促進することで、付加的なアノテーション負担を伴わずにドメインシフトを低減する。 さらに、訓練目的には、念入りに設計された補足による対象検出目標が含まれ、マラリア原虫の正確な検出を確実にする。 大規模M5データセットでは,提案手法は平均平均精度測定値(mAP)で最先端の手法よりも16%向上し,推論中に21倍の高速化を実現し,従来の手法よりも半学習可能なパラメータしか必要としなかった。 私たちのコードは公開されています。

Malaria is a major health issue worldwide, and its diagnosis requires scalable solutions that can work effectively with low-cost microscopes (LCM). Deep learning-based methods have shown success in computer-aided diagnosis from microscopic images. However, these methods need annotated images that show cells affected by malaria parasites and their life stages. Annotating images from LCM significantly increases the burden on medical experts compared to annotating images from high-cost microscopes (HCM). For this reason, a practical solution would be trained on HCM images which should generalize well on LCM images during testing. While earlier methods adopted a multi-stage learning process, they did not offer an end-to-end approach. In this work, we present an end-to-end learning framework, named CodaMal (Contrastive Domain Adpation for Malaria). In order to bridge the gap between HCM (training) and LCM (testing), we propose a domain adaptive contrastive loss. It reduces the domain shift by promoting similarity between the representations of HCM and its corresponding LCM image, without imposing an additional annotation burden. In addition, the training objective includes object detection objectives with carefully designed augmentations, ensuring the accurate detection of malaria parasites. On the publicly available large-scale M5-dataset, our proposed method shows a significant improvement of 16% over the state-of-the-art methods in terms of the mean average precision metric (mAP), provides 21x speed up during inference, and requires only half learnable parameters than the prior methods. Our code is publicly available.
翻訳日:2024-02-19 17:19:02 公開日:2024-02-16
# 分布検出レンズによる流れの正規化可能性と画像複雑性の把握

Understanding Likelihood of Normalizing Flow and Image Complexity through the Lens of Out-of-Distribution Detection ( http://arxiv.org/abs/2402.10477v1 )

ライセンス: Link先を確認
Genki Osada, Tsubasa Takahashi, Takashi Nishide(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、安全クリティカルな機械学習アプリケーションに不可欠であり、広く研究されている。 近年,分類器に基づく手法を中心に研究が進められているが,深層生成モデル(DGM)に基づく手法の研究は比較的少ない。 DGMは未知のOOD入力に対して、既知のトレーニングデータよりも高い確率を割り当てることが多い。 本稿では,この現象のメカニズムを説明することに焦点を当てる。 本研究では,低複素画像が潜在空間の高密度領域に集中し,正規化フロー (nf) の確率が高まるという仮説を提案する。 我々は5つのNFアーキテクチャの有効性を実験的に証明し、その可能性は信頼できないと結論付けた。 さらに,画像の複雑性を独立変数として扱うことにより,この問題を緩和できることを示す。 最後に、別のDGMであるPixelCNN++における仮説の適用可能性を示す。

Out-of-distribution (OOD) detection is crucial to safety-critical machine learning applications and has been extensively studied. While recent studies have predominantly focused on classifier-based methods, research on deep generative model (DGM)-based methods have lagged relatively. This disparity may be attributed to a perplexing phenomenon: DGMs often assign higher likelihoods to unknown OOD inputs than to their known training data. This paper focuses on explaining the underlying mechanism of this phenomenon. We propose a hypothesis that less complex images concentrate in high-density regions in the latent space, resulting in a higher likelihood assignment in the Normalizing Flow (NF). We experimentally demonstrate its validity for five NF architectures, concluding that their likelihood is untrustworthy. Additionally, we show that this problem can be alleviated by treating image complexity as an independent variable. Finally, we provide evidence of the potential applicability of our hypothesis in another DGM, PixelCNN++.
翻訳日:2024-02-19 17:18:35 公開日:2024-02-16
# Spike-EVPR:イベントベースの視覚的位置認識のためのクロス表現アグリゲーションを用いたディープスパイキング残差ネットワーク

Spike-EVPR: Deep Spiking Residual Network with Cross-Representation Aggregation for Event-Based Visual Place Recognition ( http://arxiv.org/abs/2402.10476v1 )

ライセンス: Link先を確認
Chenming Hu, Zheng Fang, Kuanxu Hou, Delei Kong, Junjie Jiang, Hao Zhuang, Mingyuan Sun and Xinjie Huang(参考訳) 近年,deep artificial neural network (anns) を用いてイベントカメラを視覚位置認識(vpr)タスクに適用することに成功した。 しかし、以前に提案されたディープアンアーキテクチャは、イベントストリームで提示される豊富な時間情報を利用することができないことが多い。 対照的に、ディープスパイキングネットワークはより複雑な時空間ダイナミクスを示し、本質的にスパースな非同期イベントストリームを処理するのに適している。 残念ながら、時空イベントボリュームをスパイクネットワークに直接入力すると、過度な時間ステップが発生するため、大規模なVPRタスクのトレーニングコストは極めて高い。 上記の課題に対処するため、イベントベースVPRタスクのためのSpike-EVPRと呼ばれる新しいディープスパイクネットワークアーキテクチャを提案する。 まず、SNNに適した2つの新しいイベント表現を紹介し、イベントストリームからの時空間情報を完全に活用し、トレーニング中のビデオメモリの占有を可能な限り削減する。 そして,これらの2つの表現の潜在能力を最大限活用するために,2つのイベント表現から高レベル特徴をよりよく抽出する強力な表現機能を備えたビフルシテッドスパイク残差エンコーダ(BSR-Encoder)を構築する。 次に、共有・特定記述子エクストラクタ(SSD-Extractor)を紹介する。 このモジュールは2つの表現間で共有される特徴と、それぞれ固有の特徴を抽出するように設計されている。 最後に、上記の3つの機能を融合して、シーンの洗練されたロバストなグローバルディスクリプタを生成するクロスディスクリプタアグリゲーションモジュール(cda-module)を提案する。 我々の実験結果は、Bristone-Event-VPRおよびDDD20データセット上の既存のEVPRパイプラインと比較して、Spike-EVPRの優れたパフォーマンスを示し、平均Recall@1はBristoneで7.61%、DDD20で13.20%増加した。

Event cameras have been successfully applied to visual place recognition (VPR) tasks by using deep artificial neural networks (ANNs) in recent years. However, previously proposed deep ANN architectures are often unable to harness the abundant temporal information presented in event streams. In contrast, deep spiking networks exhibit more intricate spatiotemporal dynamics and are inherently well-suited to process sparse asynchronous event streams. Unfortunately, directly inputting temporal-dense event volumes into the spiking network introduces excessive time steps, resulting in prohibitively high training costs for large-scale VPR tasks. To address the aforementioned issues, we propose a novel deep spiking network architecture called Spike-EVPR for event-based VPR tasks. First, we introduce two novel event representations tailored for SNN to fully exploit the spatio-temporal information from the event streams, and reduce the video memory occupation during training as much as possible. Then, to exploit the full potential of these two representations, we construct a Bifurcated Spike Residual Encoder (BSR-Encoder) with powerful representational capabilities to better extract the high-level features from the two event representations. Next, we introduce a Shared & Specific Descriptor Extractor (SSD-Extractor). This module is designed to extract features shared between the two representations and features specific to each. Finally, we propose a Cross-Descriptor Aggregation Module (CDA-Module) that fuses the above three features to generate a refined, robust global descriptor of the scene. Our experimental results indicate the superior performance of our Spike-EVPR compared to several existing EVPR pipelines on Brisbane-Event-VPR and DDD20 datasets, with the average Recall@1 increased by 7.61% on Brisbane and 13.20% on DDD20.
翻訳日:2024-02-19 17:18:18 公開日:2024-02-16
# ミニマックス最適化における代替更新の基本的利点

Fundamental Benefit of Alternating Updates in Minimax Optimization ( http://arxiv.org/abs/2402.10475v1 )

ライセンス: Link先を確認
Jaewook Lee, Hanseul Cho, Chulhee Yun(参考訳) 最小最適化問題を解決するために設計されたグラディエントDescent-Ascent(GDA)アルゴリズムは、降下と昇降を同時に行う(Sim-GDA)か、交互に(Alt-GDA)。 一般にAlt-GDAはより速く収束することが観察されるが、この2つの間の性能差は理論上はまだよく理解されていない。 この理論と実践のギャップに対処するために,強凸強凹とリプシッツ勾配の両アルゴリズムの細粒度収束解析を行う。 我々の新しい反復複雑性上界 Alt-GDA は、Sim-GDA の下限よりも厳密に小さく、すなわち Alt-GDA は証明的に高速である。 さらに,Sim-GDA と Alt-GDA を置換するアルゴリズムフレームワークである Alternating-Extrapolation GDA (Alex-GDA) を提案する。 この結果から,Alex-GDA は増進法と同一の最小限の反復複雑性を満足するが,勾配計算は必要としないことを示す。 また、Alex-GDA が双線型問題に対する線形収束を楽しみ、Sim-GDA も Alt-GDA も全く収束しないことを示す。

The Gradient Descent-Ascent (GDA) algorithm, designed to solve minimax optimization problems, takes the descent and ascent steps either simultaneously (Sim-GDA) or alternately (Alt-GDA). While Alt-GDA is commonly observed to converge faster, the performance gap between the two is not yet well understood theoretically, especially in terms of global convergence rates. To address this theory-practice gap, we present fine-grained convergence analyses of both algorithms for strongly-convex-strongly-concave and Lipschitz-gradient objectives. Our new iteration complexity upper bound of Alt-GDA is strictly smaller than the lower bound of Sim-GDA; i.e., Alt-GDA is provably faster. Moreover, we propose Alternating-Extrapolation GDA (Alex-GDA), a general algorithmic framework that subsumes Sim-GDA and Alt-GDA, for which the main idea is to alternately take gradients from extrapolations of the iterates. We show that Alex-GDA satisfies a smaller iteration complexity bound, identical to that of the Extra-gradient method, while requiring less gradient computations. We also prove that Alex-GDA enjoys linear convergence for bilinear problems, for which both Sim-GDA and Alt-GDA fail to converge at all.
翻訳日:2024-02-19 17:17:44 公開日:2024-02-16
# 正規化回帰による多クラス線形分類のための1ビット量子化とスパース化

One-Bit Quantization and Sparsification for Multiclass Linear Classification via Regularized Regression ( http://arxiv.org/abs/2402.10474v1 )

ライセンス: Link先を確認
Reza Ghane, Danil Akhtiamov, Babak Hassibi(参考訳) トレーニングデータのいくつかを誤ってラベル付けした過度パラメータ化システムにおいて,線形回帰を用いたマルチクラス分類について検討した。 このようなシナリオでは、誤ってラベル付けされたデータの過適合を避けるために、ある凸関数 $f(\cdot)$ に対して、明示的な正規化項 $\lambda f(w)$ を追加する必要がある。 本分析では,同値なクラスサイズを持つガウス混合モデルからデータをサンプリングし,各クラスに対してトレーニングラベルの$c$の比率が破損していると仮定する。 これらの仮定の下で、最良の分類性能は、$f(\cdot) = \|\cdot\|^2_2$ と $\lambda \to \infty$ で達成される。 次に、$f(\cdot) = \|\cdot\|_1$ と $f(\cdot) = \|\cdot\|_\infty$ の分類エラーを分析し、それぞれ$f(\cdot) = \|\cdot\|_2^2$ に対応するものと同様に、スパースと1ビットの解を見つけることがしばしば可能であることに注意する。

We study the use of linear regression for multiclass classification in the over-parametrized regime where some of the training data is mislabeled. In such scenarios it is necessary to add an explicit regularization term, $\lambda f(w)$, for some convex function $f(\cdot)$, to avoid overfitting the mislabeled data. In our analysis, we assume that the data is sampled from a Gaussian Mixture Model with equal class sizes, and that a proportion $c$ of the training labels is corrupted for each class. Under these assumptions, we prove that the best classification performance is achieved when $f(\cdot) = \|\cdot\|^2_2$ and $\lambda \to \infty$. We then proceed to analyze the classification errors for $f(\cdot) = \|\cdot\|_1$ and $f(\cdot) = \|\cdot\|_\infty$ in the large $\lambda$ regime and notice that it is often possible to find sparse and one-bit solutions, respectively, that perform almost as well as the one corresponding to $f(\cdot) = \|\cdot\|_2^2$.
翻訳日:2024-02-19 17:17:18 公開日:2024-02-16
# フェアネスのためのプライバシ:ローカル差分プライバシーを用いたフェア表現学習のための情報難読化

Privacy for Fairness: Information Obfuscation for Fair Representation Learning with Local Differential Privacy ( http://arxiv.org/abs/2402.10473v1 )

ライセンス: Link先を確認
Songjie Xie, Youlong Wu, Jiaxuan Li, Ming Ding, Khaled B. Letaief(参考訳) 機械学習(ML)が人間中心のアプリケーションで普及するにつれ、アルゴリズムの公正性とプライバシ保護に重点が置かれている。 これまでの研究では、これらの領域を別々の目的として研究してきたが、プライバシとフェアネスの複雑な関係に対する認識が高まっている。 しかし、以前の研究は主に経験的調査を通じてプライバシーと公正の間の相互作用を検証し、理論的な探究に限定された注意を払っている。 本研究は,相互関係の包括的検証を可能にする理論的枠組みを導入することにより,このギャップを埋めることを目的とする。 公平な表現学習のための情報ボトルネック(IB)に基づく情報難読化手法(LDP)を開発し,解析する。 MLにおける公平性に関する実証的研究とは対照的に,符号化過程における LDP のランダム化は,学習された表現の公平性を高めることができることを示す。 分析の結果, 機密情報の開示は LDP ランダム化器のプライバシ予算に制約されていることが明らかとなり, IB フレームワーク内での最適化プロセスにより, 難読化による情報保護を効果的に行うことが可能となる。 提案手法に基づいて,フェアネスとLDPを同時に実現する変分表現符号化手法をさらに発展させる。 我々の変分符号化アプローチは実用的な利点をもたらす。 非逆法で訓練されており、いかなる変分前の導入も必要としない。 理論結果を検証し,適切な有効性を維持しつつ,ldpと公平性の両方を達成するための提案手法の能力を示すために,広範な実験を行う。

As machine learning (ML) becomes more prevalent in human-centric applications, there is a growing emphasis on algorithmic fairness and privacy protection. While previous research has explored these areas as separate objectives, there is a growing recognition of the complex relationship between privacy and fairness. However, previous works have primarily focused on examining the interplay between privacy and fairness through empirical investigations, with limited attention given to theoretical exploration. This study aims to bridge this gap by introducing a theoretical framework that enables a comprehensive examination of their interrelation. We shall develop and analyze an information bottleneck (IB) based information obfuscation method with local differential privacy (LDP) for fair representation learning. In contrast to many empirical studies on fairness in ML, we show that the incorporation of LDP randomizers during the encoding process can enhance the fairness of the learned representation. Our analysis will demonstrate that the disclosure of sensitive information is constrained by the privacy budget of the LDP randomizer, thereby enabling the optimization process within the IB framework to effectively suppress sensitive information while preserving the desired utility through obfuscation. Based on the proposed method, we further develop a variational representation encoding approach that simultaneously achieves fairness and LDP. Our variational encoding approach offers practical advantages. It is trained using a non-adversarial method and does not require the introduction of any variational prior. Extensive experiments will be presented to validate our theoretical results and demonstrate the ability of our proposed approach to achieve both LDP and fairness while preserving adequate utility.
翻訳日:2024-02-19 17:16:51 公開日:2024-02-16
# 対人摂動からの学習の理論的理解

Theoretical Understanding of Learning from Adversarial Perturbations ( http://arxiv.org/abs/2402.10470v1 )

ライセンス: Link先を確認
Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki(参考訳) 敵の例がニューラルネットワークを騙し、異なるネットワーク間で転送できる理由が、完全には理解されていない。 これを明らかにするために、いくつかの研究は、逆向摂動はノイズとして現れるが、クラスの特徴を含んでいると仮定している。 これは、誤ってラベル付けされた敵の例でトレーニングされたネットワークが、正しくラベル付けされたテストサンプルにうまく一般化できることを示す実証的な証拠によって支持されている。 しかし、摂動がどのようにクラス特徴を含み、一般化に寄与するかという理論的理解は限られている。 本研究では,相互直交サンプルに基づいて学習した一層ネットワークを用いて摂動から学習する理論的枠組みを提案する。 以上の結果から,数ピクセルの摂動を含む様々な対向的摂動は,一般化に十分なクラス特徴を含むことが明らかとなった。 さらに,摂動から学習する際の決定境界が,温和な条件下での特定領域以外の標準サンプルと一致することを明らかにした。 コードはhttps://github.com/s-kumano/learning-from-adversarial-perturbationsで入手できる。

It is not fully understood why adversarial examples can deceive neural networks and transfer between different networks. To elucidate this, several studies have hypothesized that adversarial perturbations, while appearing as noises, contain class features. This is supported by empirical evidence showing that networks trained on mislabeled adversarial examples can still generalize well to correctly labeled test samples. However, a theoretical understanding of how perturbations include class features and contribute to generalization is limited. In this study, we provide a theoretical framework for understanding learning from perturbations using a one-hidden-layer network trained on mutually orthogonal samples. Our results highlight that various adversarial perturbations, even perturbations of a few pixels, contain sufficient class features for generalization. Moreover, we reveal that the decision boundary when learning from perturbations matches that from standard samples except for specific regions under mild conditions. The code is available at https://github.com/s-kumano/learning-from-adversarial-perturbations.
翻訳日:2024-02-19 17:16:25 公開日:2024-02-16
# Pair-wise Augmentation を用いた対訳グラフコントラスト学習

Adversarial Curriculum Graph Contrastive Learning with Pair-wise Augmentation ( http://arxiv.org/abs/2402.10468v1 )

ライセンス: Link先を確認
Xinjian Zhao, Liang Zhang, Yang Liu, Ruocheng Guo, Xiangyu Zhao(参考訳) グラフ表現学習の領域において,グラフコントラスト学習(GCL)が重要な手法として登場した。 有効GCLの重要な側面は、生成した正と負のサンプルの校正であり、本来は元のデータに類似している。 それでも、サンプル生成時の類似性に関する正確な制御は、しばしば代表グラフパターンの効果的な発見を妨げる、非常に難しい課題である。 この課題に対処するために,本論文では,グラフレベルの正および負のサンプルに対してペアで拡張するメリットを活かし,制御可能な類似性を持つ,相反学習(adversarial curriculum graph contrastive learning,acgcl)を提案し,効果的なグラフパターンを見極めるためのサブグラフコントラスト学習(subgraph contrastive learning)を提案する。 acgclフレームワーク内では,生成したサンプルの識別の困難さを逐次高め,プログレッシブ・ラーニングを促進する新しい学習指導手法を考案した。 特に、この手法は、より困難なトレーニングデータに適応的に集中することで、従来のカリキュラム学習戦略に固有の普及した疎性問題を超越する。 最後に、ACGCLの総合的な評価は、6つのよく知られたベンチマークデータセットに関する広範な実験を通じて行われ、ACGCLは最先端のベースラインを著しく超えている。

Graph contrastive learning (GCL) has emerged as a pivotal technique in the domain of graph representation learning. A crucial aspect of effective GCL is the caliber of generated positive and negative samples, which is intrinsically dictated by their resemblance to the original data. Nevertheless, precise control over similarity during sample generation presents a formidable challenge, often impeding the effective discovery of representative graph patterns. To address this challenge, we propose an innovative framework: Adversarial Curriculum Graph Contrastive Learning (ACGCL), which capitalizes on the merits of pair-wise augmentation to engender graph-level positive and negative samples with controllable similarity, alongside subgraph contrastive learning to discern effective graph patterns therein. Within the ACGCL framework, we have devised a novel adversarial curriculum training methodology that facilitates progressive learning by sequentially increasing the difficulty of distinguishing the generated samples. Notably, this approach transcends the prevalent sparsity issue inherent in conventional curriculum learning strategies by adaptively concentrating on more challenging training data. Finally, a comprehensive assessment of ACGCL is conducted through extensive experiments on six well-known benchmark datasets, wherein ACGCL conspicuously surpasses a set of state-of-the-art baselines.
翻訳日:2024-02-19 17:16:07 公開日:2024-02-16
# 関数呼び出しによるゼロショット対話状態追跡のための大規模言語モデル

Large Language Models as Zero-shot Dialogue State Tracker through Function Calling ( http://arxiv.org/abs/2402.10466v1 )

ライセンス: Link先を確認
Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook(参考訳) 大きな言語モデル(LLM)は、一般的な文脈における高度な理解と生成能力のため、会話システムにおいてますます普及している。 しかし、タスク指向対話(TOD)の有効性は、応答生成だけでなく、特定のタスクやドメイン内での効果的な対話状態追跡(DST)も必要としている。 本研究では,関数呼び出しによるDSTをLLMで解くための新しいアプローチFnCTODを提案する。 この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。 提案手法は,ChatGPTによる従来のSOTA(State-of-the-art (SOTA))を7Bまたは13Bパラメータモデルで克服し,SOTAを5.6%上回るChatGPTの性能を向上する。 JGA gpt-3.5とgpt-4の個々のモデル結果はそれぞれ4.8%と14%増加している。 また,多種多様なタスク指向対話を微調整することで,チャット機能を維持しながら,関数呼び出し機能とチャット機能に匹敵するDST性能を備えた13BパラメータLLaMA2-Chatモデルを実現することができることを示す。 実験的なコードとモデルをオープンソース化する予定です。

Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA. Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modestly sized models, specifically a 13B parameter LLaMA2-Chat model, with function-calling capabilities and DST performance comparable to ChatGPT while maintaining their chat capabilities. We plan to open-source experimental code and model.
翻訳日:2024-02-19 17:15:42 公開日:2024-02-16
# FedKit: AndroidとiOSのクロスプラットフォームフェデレーション学習の実現

FedKit: Enabling Cross-Platform Federated Learning for Android and iOS ( http://arxiv.org/abs/2402.10464v1 )

ライセンス: Link先を確認
Sichang He, Beilong Tang, Boyan Zhang, Jiaoqi Shao, Xiaomin Ouyang, Daniel Nata Nugraha, Bing Luo(参考訳) 本研究では,android および ios デバイス上でのクロスプラットフォームfl研究用に設計されたフェデレーション学習(fl)システム fedkit を提案する。 fedkit pipelinesは、モデル変換、ハードウェアアクセラレーショントレーニング、クロスプラットフォームモデルアグリゲーションを可能にすることで、クロスプラットフォームなfl開発を行う。 私たちのFLワークフローは、プロダクションにおけるフレキシブルな機械学習操作(MLOps)をサポートし、継続的モデルデリバリとトレーニングを容易にします。 fedkitを大学キャンパスにおける健康データ分析の実際のユースケースに導入し,その効果を実証した。 FedKitはhttps://github.com/FedCampus/FedKitでオープンソース化されている。

We present FedKit, a federated learning (FL) system tailored for cross-platform FL research on Android and iOS devices. FedKit pipelines cross-platform FL development by enabling model conversion, hardware-accelerated training, and cross-platform model aggregation. Our FL workflow supports flexible machine learning operations (MLOps) in production, facilitating continuous model delivery and training. We have deployed FedKit in a real-world use case for health data analysis on university campuses, demonstrating its effectiveness. FedKit is open-source at https://github.com/FedCampus/FedKit.
翻訳日:2024-02-19 17:15:12 公開日:2024-02-16
# Conversational SimulMT:大規模言語モデルを用いた効率的な同時翻訳

Conversational SimulMT: Efficient Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2402.10552v1 )

ライセンス: Link先を確認
Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari(参考訳) 同時機械翻訳(SimulMT)は、翻訳品質とレイテンシのトレードオフを示す。 最近の研究で、LLMはSimulMTタスクにおいて優れた性能を発揮することが示されている。 しかし、これはしばしば高い推論コストと遅延を犠牲にします。 本稿では,マルチターン対話型デコーディングによるLLMベースのSimulMTの推論効率を向上させるための対話型SimulMTフレームワークを提案する。 2つのSimulMTベンチマークにおけるLlama2-7b-chatを用いた実験は、特殊なSimulMTモデルに匹敵する計算遅延を達成しつつ、翻訳品質におけるLLMの優位性を実証した。

Simultaneous machine translation (SimulMT) presents a challenging trade-off between translation quality and latency. Recent studies have shown that LLMs can achieve good performance in SimulMT tasks. However, this often comes at the expense of high inference cost and latency. In this paper, we propose a conversational SimulMT framework to enhance the inference efficiency of LLM-based SimulMT through multi-turn-dialogue-based decoding. Our experiments with Llama2-7b-chat on two SimulMT benchmarks demonstrate the superiority of LLM in translation quality while achieving comparable computational latency to specialized SimulMT models.
翻訳日:2024-02-19 17:07:39 公開日:2024-02-16
# 実時間モデルに基づく定量的超音波とレーダ

Real-Time Model-Based Quantitative Ultrasound and Radar ( http://arxiv.org/abs/2402.10520v1 )

ライセンス: Link先を確認
Tom Sharon and Yonina C. Eldar(参考訳) 超音波およびレーダー信号は、非侵襲的かつ非イオン化であるため、医用画像に非常に有用である。 従来のイメージング技術は、コントラストと物理的解釈の点で制限がある。 定量的医療画像は、音速、密度、伝導率、相対誘電率などの様々な物理的特性を示すことができる。 これにより、がんの検出の改善、脂肪肝の診断、高速脳卒中画像診断など、幅広い用途に有用である。 しかし、Full Waveform Inversionのような受信信号から物理特性を推定する現在の定量的イメージング技術は時間がかかり、局所的なミニマに収束する傾向があるため、医療画像には適さない。 これらの課題に対処するために、受信信号と物理特性の関係を定義する波動伝搬の物理モデルに基づくニューラルネットワークを提案する。 我々のネットワークは,8つの要素のみのデータを用いて,複雑で現実的なシナリオに対して,複数の物理特性を1秒未満で再構築することができる。 レーダ信号と超音波信号の両方に対するアプローチの有効性を示す。

Ultrasound and radar signals are highly beneficial for medical imaging as they are non-invasive and non-ionizing. Traditional imaging techniques have limitations in terms of contrast and physical interpretation. Quantitative medical imaging can display various physical properties such as speed of sound, density, conductivity, and relative permittivity. This makes it useful for a wider range of applications, including improving cancer detection, diagnosing fatty liver, and fast stroke imaging. However, current quantitative imaging techniques that estimate physical properties from received signals, such as Full Waveform Inversion, are time-consuming and tend to converge to local minima, making them unsuitable for medical imaging. To address these challenges, we propose a neural network based on the physical model of wave propagation, which defines the relationship between the received signals and physical properties. Our network can reconstruct multiple physical properties in less than one second for complex and realistic scenarios, using data from only eight elements. We demonstrate the effectiveness of our approach for both radar and ultrasound signals.
翻訳日:2024-02-19 17:07:29 公開日:2024-02-16
# 制御可能なタンパク質配列設計のための生成AI:サーベイ

Generative AI for Controllable Protein Sequence Design: A Survey ( http://arxiv.org/abs/2402.10516v1 )

ライセンス: Link先を確認
Yiheng Zhu, Zitai Kong, Jialu Wu, Weize Liu, Yuqiang Han, Mingze Yin, Hongxia Xu, Chang-Yu Hsieh and Tingjun Hou(参考訳) 標的となる機能を持つ新規タンパク質配列の設計は、タンパク質工学の中心的なテーマとなり、薬物発見や酵素工学などの様々な分野に影響を与える。 しかし、この膨大な組み合わせ検索スペースをナビゲートすることは、時間と金銭的制約のために深刻な課題である。 このシナリオは、AIの革新的進歩、特に生成モデルと最適化アルゴリズムの領域において、タンパク質設計分野を前例のない革命へと推進し、急速に進化している。 本稿では、制御可能なタンパク質配列設計のための生成AIの最近の進歩を体系的にレビューする。 ステージを設定するために,まず,タンパク質配列設計における基本課題を,関連する制約の観点から概説し,キー生成モデルと最適化アルゴリズムを提案する。 次に、各デザインタスクの詳細なレビューを行い、関連するアプリケーションについて議論します。 最後に,未解決の課題を特定し,深い探究に資する研究機会を強調する。

The design of novel protein sequences with targeted functionalities underpins a central theme in protein engineering, impacting diverse fields such as drug discovery and enzymatic engineering. However, navigating this vast combinatorial search space remains a severe challenge due to time and financial constraints. This scenario is rapidly evolving as the transformative advancements in AI, particularly in the realm of generative models and optimization algorithms, have been propelling the protein design field towards an unprecedented revolution. In this survey, we systematically review recent advances in generative AI for controllable protein sequence design. To set the stage, we first outline the foundational tasks in protein sequence design in terms of the constraints involved and present key generative models and optimization algorithms. We then offer in-depth reviews of each design task and discuss the pertinent applications. Finally, we identify the unresolved challenges and highlight research opportunities that merit deeper exploration.
翻訳日:2024-02-19 17:07:12 公開日:2024-02-16
# 適応チャネル対応超広帯域DL-TDOAを用いた高効率屋内位置推定

Power-Efficient Indoor Localization Using Adaptive Channel-aware Ultra-wideband DL-TDOA ( http://arxiv.org/abs/2402.10515v1 )

ライセンス: Link先を確認
Sagnik Bhattacharya, Junyoung Choi, Joohyun Lee(参考訳) 様々なUWB(Ultra-wideband)範囲の手法の中で、アップリンク通信や集中型計算の欠如は、ダウンリンク時間差分(DL-TDOA)ローカライゼーションを大規模産業展開に最も適している。 しかし、配置領域における一時的または恒久的な障害は、しばしば非視線(NLOS)チャネルパスと信号の停止効果をもたらし、ローカライゼーションエラーを引き起こす。 従来の研究では、帯域幅を拡大することでこの問題に対処しており、ユーザデバイスの消費電力が大幅に増加した。 また、LOS(Line-of-sight)条件下での局所化精度の上昇にも寄与しない。 本稿では,低消費電力チャネル対応動的周波数DL-TDOAレンジリングアルゴリズムの提案と実装を行う。 畳み込みニューラルネットワーク(cnn)に基づくnlos確率予測装置と、ダイナミックレンジング周波数制御モジュールと、icmセンサベースのレンジングフィルタとを備える。 実験の結果,提案アルゴリズムはNLOS条件では50%高い精度で,LOS条件では46%の低消費電力化を実現していることがわかった。

Among the various Ultra-wideband (UWB) ranging methods, the absence of uplink communication or centralized computation makes downlink time-difference-of-arrival (DL-TDOA) localization the most suitable for large-scale industrial deployments. However, temporary or permanent obstacles in the deployment region often lead to non-line-of-sight (NLOS) channel path and signal outage effects, which result in localization errors. Prior research has addressed this problem by increasing the ranging frequency, which leads to a heavy increase in the user device power consumption. It also does not contribute to any increase in localization accuracy under line-of-sight (LOS) conditions. In this paper, we propose and implement a novel low-power channel-aware dynamic frequency DL-TDOA ranging algorithm. It comprises NLOS probability predictor based on a convolutional neural network (CNN), a dynamic ranging frequency control module, and an IMU sensor-based ranging filter. Based on the conducted experiments, we show that the proposed algorithm achieves 50% higher accuracy in NLOS conditions while having 46% lower power consumption in LOS conditions compared to baseline methods from prior research.
翻訳日:2024-02-19 17:06:58 公開日:2024-02-16
# 超対称変換による準一次元系のフラットバンド工学

Flat-band engineering of quasi-one-dimensional systems via supersymmetric transformations ( http://arxiv.org/abs/2402.10514v1 )

ライセンス: Link先を確認
Vit Jakubsky, Kevin Zelaya(参考訳) 低エネルギー領域でdirac方程式によって記述された準一次元結晶モデルをスペクトル的に設計する体系的手法を提案する。 この方法は、初期既知の疑似スピン1/2モデルに適用される超対称変換に基づいている。 これにより、対応するsusiパートナーを拡張して、新しいモデルが擬似スピン-1システムを記述することができる。 スペクトル設計により、フラットバンドと離散エネルギーを新しいモデルに導入することができる。 結果は、Su-Schriefer-Heeger鎖が局所的にスタブ格子に変換される2つの例で示される。

We introduce a systematic method to spectrally design quasi-one-dimensional crystal models described by the Dirac equation in the low-energy regime. The method is based on the supersymmetric transformation applied to an initially known pseudo-spin-1/2 model. This allows extending the corresponding susy partner so that the new model describes a pseudo-spin-1 system. The spectral design allows the introduction of a flat-band and discrete energies at will into the new model. The results are illustrated in two examples where the Su-Schriefer-Heeger chain is locally converted into a stub lattice.
翻訳日:2024-02-19 17:06:37 公開日:2024-02-16
# 変圧器は振動を予測できるのか?

Can Transformers Predict Vibrations? ( http://arxiv.org/abs/2402.10511v1 )

ライセンス: Link先を確認
Fusataka Kuniyoshi, Yoshihide Sawada(参考訳) 電気自動車(EV)では,高精度な時系列振動予測が重要な研究課題である。 evはしばしば、ねじれ共鳴(torsional resonance)として知られる荒い地形を走行するときに振動を経験する。 この共鳴は、モーターとタイヤの振動の相互作用によって引き起こされ、車両の駆動軸に過度の負荷をかける。 しかし、電流減衰技術は駆動軸トルクの振動振幅が一定の閾値に達した後にのみ共鳴を検知し、検出時に軸にかなりの負荷がかかる。 本研究では,反り共振予測モデルであるResoformerを導入することにより,この問題に対処する新しい手法を提案する。 リソフォーマは、モータ回転速度の時系列を入力として使用し、入力系列後にシャフトに発生する特定の量子化におけるねじり振動の振幅を予測する。 測定データ点から抽出した再帰的特徴と畳み込み特徴との注意を算出し、振動予測の精度を向上させる。 このモデルを評価するために,2,600個のシミュレータ生成振動列からなる振動データセットvibes (dataset for forecasting vibration transition in evs) を用いた。 我々の実験は、VIBESデータセット上に構築された強いベースラインに基づいて行われ、Resoformerが最先端の結果を得ることを示す。 結論として,我々は「Can Transformers Forecast Vibrations? 従来のトランスアーキテクチャではねじり共鳴波の予測性能は低いが,トランスアーキテクチャを用いた繰り返しニューラルネットワークと時間畳み込みネットワークの組み合わせにより,長期振動予測の精度が向上することを示す。

Highly accurate time-series vibration prediction is an important research issue for electric vehicles (EVs). EVs often experience vibrations when driving on rough terrains, known as torsional resonance. This resonance, caused by the interaction between motor and tire vibrations, puts excessive loads on the vehicle's drive shaft. However, current damping technologies only detect resonance after the vibration amplitude of the drive shaft torque reaches a certain threshold, leading to significant loads on the shaft at the time of detection. In this study, we propose a novel approach to address this issue by introducing Resoformer, a transformer-based model for predicting torsional resonance. Resoformer utilizes time-series of the motor rotation speed as input and predicts the amplitude of torsional vibration at a specified quantile occurring in the shaft after the input series. By calculating the attention between recursive and convolutional features extracted from the measured data points, Resoformer improves the accuracy of vibration forecasting. To evaluate the model, we use a vibration dataset called VIBES (Dataset for Forecasting Vibration Transition in EVs), consisting of 2,600 simulator-generated vibration sequences. Our experiments, conducted on strong baselines built on the VIBES dataset, demonstrate that Resoformer achieves state-of-the-art results. In conclusion, our study answers the question "Can Transformers Forecast Vibrations?" While traditional transformer architectures show low performance in forecasting torsional resonance waves, our findings indicate that combining recurrent neural network and temporal convolutional network using the transformer architecture improves the accuracy of long-term vibration forecasting.
翻訳日:2024-02-19 17:06:29 公開日:2024-02-16
# ベイズ推論としてのヒューマンゴール認識--行動・タイミング・目標解決可能性の影響の検討

Human Goal Recognition as Bayesian Inference: Investigating the Impact of Actions, Timing, and Goal Solvability ( http://arxiv.org/abs/2402.10510v1 )

ライセンス: Link先を確認
Chenyuan Zhang, Charles Kemp, Nir Lipovetzky(参考訳) 目標認識は、個人が利用可能な手がかりに基づいて意図を推測できる基本的な認知プロセスである。 現在のゴール認識アルゴリズムは、しばしば観察された行動のみを入力として扱うが、ここでは、ゴール認識における行動、タイミング、ゴール解決可能性の役割をベイズ的枠組みを用いて調べる。 ソコバンドメインにおける目標認識問題に対する人間の反応を分析し,行動が最も重要な役割を担っているが,そのタイミングや可解性が目標認識に影響を及ぼす場合もある。 これらの知見を活用し、既存のアルゴリズムよりも人間の推論に合致する目標認識モデルを構築した。 私たちの研究は、人間の目標認識に関する新たな洞察を提供し、より人間らしいAIモデルに向けて一歩前進します。

Goal recognition is a fundamental cognitive process that enables individuals to infer intentions based on available cues. Current goal recognition algorithms often take only observed actions as input, but here we use a Bayesian framework to explore the role of actions, timing, and goal solvability in goal recognition. We analyze human responses to goal-recognition problems in the Sokoban domain, and find that actions are assigned most importance, but that timing and solvability also influence goal recognition in some cases, especially when actions are uninformative. We leverage these findings to develop a goal recognition model that matches human inferences more closely than do existing algorithms. Our work provides new insight into human goal recognition and takes a step towards more human-like AI models.
翻訳日:2024-02-19 17:06:03 公開日:2024-02-16
# 二次Littlewood-Offord問題のレジリエンス

Resilience of the quadratic Littlewood-Offord problem ( http://arxiv.org/abs/2402.10504v1 )

ライセンス: Link先を確認
Elad Aigner-Horev, and Daniel Rozenberg, and Roi Weiss(参考訳) 高次元データの統計的レジリエンスについて検討する。 我々の結果は、二次ラダマッハカオス$\boldsymbol{\xi}^{\mathsf{T}} M \boldsymbol{\xi}$(M$は固定(高次元)行列であり、$\boldsymbol{\xi}$は共形ラダマッハベクトルである。 具体的には、「膨らませる」ことなく$\sup_{x\in \mathbb{r} \left\{\boldsymbol{\xi}^{\mathsf{t}} m \boldsymbol{\xi} = x\right\}$ で、従って元の分布を「デ・スムース」することでより「グラニー」と敵対的に偏った分布となる。 以上の結果から,二次および双線型ラデマッハカオスの統計的レジリエンスは,キーレジーム間で漸近的に密接であることが示されている。

We study the statistical resilience of high-dimensional data. Our results provide estimates as to the effects of adversarial noise over the anti-concentration properties of the quadratic Radamecher chaos $\boldsymbol{\xi}^{\mathsf{T}} M \boldsymbol{\xi}$, where $M$ is a fixed (high-dimensional) matrix and $\boldsymbol{\xi}$ is a conformal Rademacher vector. Specifically, we pursue the question of how many adversarial sign-flips can $\boldsymbol{\xi}$ sustain without "inflating" $\sup_{x\in \mathbb{R}} \mathbb{P} \left\{\boldsymbol{\xi}^{\mathsf{T}} M \boldsymbol{\xi} = x\right\}$ and thus "de-smooth" the original distribution resulting in a more "grainy" and adversarially biased distribution. Our results provide lower bound estimations for the statistical resilience of the quadratic and bilinear Rademacher chaos; these are shown to be asymptotically tight across key regimes.
翻訳日:2024-02-19 17:05:48 公開日:2024-02-16
# ニューラルネットワークによる$M_B$の遅延遷移

Late-time transition of $M_B$ inferred via neural networks ( http://arxiv.org/abs/2402.10502v1 )

ライセンス: Link先を確認
Purba Mukherjee, Konstantinos F. Dialektopoulos, Jackson Levi Said, Jurgen Mifsud(参考訳) 宇宙論パラメータにおける緊張の強化は、標準宇宙論の基本的側面の再考につながった。 ハッブル定数の張力は、Ia型超新星の絶対等級$M_B$上の局所宇宙と初期宇宙の制約の間の張力と見なすこともできる。 本研究では、モデルに依存しない方法で、このパラメータの変動の可能性を再考する。 我々は、ニューラルネットワークを用いて絶対等級の値を無差別に制限し、pantheon+コンパイルからのredshiftによる$m_b$の変動の影響と統計的意義を、ニューラルネットワークアーキテクチャの徹底的な分析とともに評価する。 我々は、約1ドルの領域で遷移赤方偏移の兆候を見つける。

The strengthening of tensions in the cosmological parameters has led to a reconsideration of fundamental aspects of standard cosmology. The tension in the Hubble constant can also be viewed as a tension between local and early Universe constraints on the absolute magnitude $M_B$ of Type Ia supernova. In this work, we reconsider the possibility of a variation of this parameter in a model-independent way. We employ neural networks to agnostically constrain the value of the absolute magnitude as well as assess the impact and statistical significance of a variation in $M_B$ with redshift from the Pantheon+ compilation, together with a thorough analysis of the neural network architecture. We find an indication for a transition redshift at the $z\approx 1$ region.
翻訳日:2024-02-19 17:05:20 公開日:2024-02-16
# 能動選好最適化によるRLHFのサンプル化

Provably Sample Efficient RLHF via Active Preference Optimization ( http://arxiv.org/abs/2402.10500v1 )

ライセンス: Link先を確認
Nirjhar Das, Souradip Chakraborty, Aldo Pacchiano, Sayak Ray Chowdhury(参考訳) RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要である。 これらのアライメント生成モデルは、様々なタスクにまたがる印象的な機能を示しているが、高品質な人間の嗜好データへの依存は、RLHFの実践的な実装においてコストのかかるボトルネックとなる。 したがって、データ収集のためのより良い適応戦略が必要である。 この目的のために, rlhf をプロンプトをコンテキストとして, 文脈嗜好バンディット問題として構成し, ランダムに選択するプロンプトによる選好データ収集のナイーブな方法が, 報酬の$\omega(1)$サブオプティリティギャップに苦しむポリシーにつながることを示す。 次に、選好データ収集のプロンプトを積極的に選択するアルゴリズムである$\textit{Active Preference Optimization}$ ($\textt{APO}$を提案する。 Bradley-Terry-Luce (BTL) の選好モデルの下では, 政策性能を損なうことなく, サンプル効率を実現する。 サンプル予算が$T$であれば、$\texttt{APO}$で学習したポリシーの最適性ギャップは$O(1/\sqrt{T})$であることを示す。 次に,小さな修正を加えた$\texttt{apo}$の計算効率の高いバッチ版を提案し,実際の性能評価を行う。 RLHFのデータ収集のためのサンプル効率および実用的なソリューションとして, 人選好データセットを用いた実験評価を行い, 低コストでスケーラブルなLLMのアライメントを容易にした。

Reinforcement Learning from Human Feedback (RLHF) is pivotal in aligning Large Language Models (LLMs) with human preferences. While these aligned generative models have demonstrated impressive capabilities across various tasks, the dependence on high-quality human preference data poses a costly bottleneck in practical implementation of RLHF. Hence better and adaptive strategies for data collection is needed. To this end, we frame RLHF as a contextual preference bandit problem with prompts as contexts and show that the naive way of collecting preference data by choosing prompts uniformly at random leads to a policy that suffers an $\Omega(1)$ suboptimality gap in rewards. Then we propose $\textit{Active Preference Optimization}$ ($\texttt{APO}$), an algorithm that actively selects prompts to collect preference data. Under the Bradley-Terry-Luce (BTL) preference model, \texttt{APO} achieves sample efficiency without compromising on policy performance. We show that given a sample budget of $T$, the suboptimality gap of a policy learned via $\texttt{APO}$ scales as $O(1/\sqrt{T})$. Next, we propose a compute-efficient batch version of $\texttt{APO}$ with minor modification and evaluate its performance in practice. Experimental evaluations on a human preference dataset validate \texttt{APO}'s efficacy as a sample-efficient and practical solution to data collection for RLHF, facilitating alignment of LLMs with human preferences in a cost-effective and scalable manner.
翻訳日:2024-02-19 17:05:09 公開日:2024-02-16
# 多言語生成のための幻覚検出指標の比較

Comparing Hallucination Detection Metrics for Multilingual Generation ( http://arxiv.org/abs/2402.10496v1 )

ライセンス: Link先を確認
Haoqiang Kang, Terra Blevins, Luke Zettlemoyer(参考訳) 多くの自動幻覚検出技術が英語テキストに対して提案されているが、多言語文脈における効果は未解明である。 本稿では,これらの幻覚検出指標が非英語言語でどのように機能するかを理解する上でのギャップを埋めることを目的とする。 我々は, ROUGE や Named Entity Overlap や Natural Language Inference (NLI) などの語彙的指標を含む様々な検出指標の有効性を評価するとともに, それぞれの指標が同じ現象を測るかどうかの相関性も評価した。 経験的分析の結果,語彙的指標は限定的な効果を示すが,nliベースの指標は文レベルでは高資源言語でよく機能することが明らかとなった。 対照的に、NLIベースのメトリクスは、しばしば原子的事実幻覚を検出するのに失敗する。 本研究は,多言語幻覚検出における既存のギャップを浮き彫りにして,LLM幻覚のより堅牢な検出法を他の言語で開発するための将来の研究を動機づけるものである。

While many automatic hallucination detection techniques have been proposed for English texts, their effectiveness in multilingual contexts remains unexplored. This paper aims to bridge the gap in understanding how these hallucination detection metrics perform on non-English languages. We evaluate the efficacy of various detection metrics, including lexical metrics like ROUGE and Named Entity Overlap and Natural Language Inference (NLI)-based metrics, at detecting hallucinations in biographical summaries in many languages; we also evaluate how correlated these different metrics are to gauge whether they measure the same phenomena. Our empirical analysis reveals that while lexical metrics show limited effectiveness, NLI-based metrics perform well in high-resource languages at the sentence level. In contrast, NLI-based metrics often fail to detect atomic fact hallucinations. Our findings highlight existing gaps in multilingual hallucination detection and motivate future research to develop more robust detection methods for LLM hallucination in other languages.
翻訳日:2024-02-19 17:04:36 公開日:2024-02-16
# コムギ茎さびの重症度予測のための最適モデルの開発(arsiおよびbaleゾーンを事例として)

Developing an Optimal Model for Predicting the Severity of Wheat Stem Rust (Case study of Arsi and Bale Zone) ( http://arxiv.org/abs/2402.10492v1 )

ライセンス: Link先を確認
Tewodrose Altaye(参考訳) 本研究では,様々な訓練,伝達,分割,学習機能を有するバックプロパゲーションニューラルネットワーク(bpnn),放射状基底関数ニューラルネットワーク(rbfnn),一般回帰ニューラルネットワーク(grnn)の3つの手法を用いて,stem rustの重症度を予測する。 平均最高気温、最低気温、平均降水量、平均平均気温、平均湿度、小麦の種類などといったパラメータを検討した。 統計分析の結果、GRNNは効果的な予測能力を示し、他のモデルと比べてトレーニング時間が少ないことがわかった。 さらに, 季節降雨がコムギ茎さびの発達に有意な影響を及ぼしたことが示唆された。 キーワード:小麦茎のさび、バック伝播ニューラルネットワーク、放射基底関数ニューラルネットワーク、一般回帰ニューラルネットワーク。

This research utilized three types of artificial neural network (ANN) methodologies, namely Backpropagation Neural Network (BPNN) with varied training, transfer, divide, and learning functions; Radial Basis Function Neural Network (RBFNN); and General Regression Neural Network (GRNN), to forecast the severity of stem rust. It considered parameters such as mean maximum temperature, mean minimum temperature, mean rainfall, mean average temperature, mean relative humidity, and different wheat varieties. The statistical analysis revealed that GRNN demonstrated effective predictive capability and required less training time compared to the other models. Additionally, the results indicated that total seasonal rainfall positively influenced the development of wheat stem rust. Keywords: Wheat stem rust, Back propagation neural network, Radial Basis Function Neural Network, General Regression Neural Network.
翻訳日:2024-02-19 17:04:18 公開日:2024-02-16
# 安価スケーリング:高分解能適応のための自己カスケード拡散モデル

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation ( http://arxiv.org/abs/2402.10491v1 )

ライセンス: Link先を確認
Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen(参考訳) 拡散モデルは画像および映像生成に非常に有効であることが証明されているが、単一スケールのトレーニングデータによって様々なサイズの画像を生成する場合、構成上の課題に直面している。 大規模な事前学習拡散モデルを高解像度に適応させるには、かなりの計算資源と最適化資源が必要であるが、低解像度モデルに匹敵する生成能力を達成することは、いまだ明白である。 本稿では,高解像度画像やビデオ生成への高速適応のために,高度に訓練された低解像度モデルから得られる豊富な知識を活用し,チューニング不要あるいは安価なアップサンプラーチューニングパラダイムを利用する,新しい自己カスケード拡散モデルを提案する。 マルチスケールアップサンプラーモジュールのシーケンスを統合することで、自己カスケード拡散モデルは、元の合成と生成能力を保ちながら、高分解能に効率的に適応することができる。 さらに,推定過程の高速化と局所構造改善のためのピボット誘導型雑音再スケジュール手法を提案する。 完全微調整と比較して,本手法は5倍のトレーニング高速化を実現し,さらに0.002Mのチューニングパラメータを必要とする。 広汎な実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることが示された。

Diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained diffusion models for higher resolution demands substantial computational and optimization resources, yet achieving a generation capability comparable to low-resolution models remains elusive. This paper proposes a novel self-cascade diffusion model that leverages the rich knowledge gained from a well-trained low-resolution model for rapid adaptation to higher-resolution image and video generation, employing either tuning-free or cheap upsampler tuning paradigms. Integrating a sequence of multi-scale upsampler modules, the self-cascade diffusion model can efficiently adapt to a higher resolution, preserving the original composition and generation capabilities. We further propose a pivot-guided noise re-schedule strategy to speed up the inference process and improve local structural details. Compared to full fine-tuning, our approach achieves a 5X training speed-up and requires only an additional 0.002M tuning parameters. Extensive experiments demonstrate that our approach can quickly adapt to higher resolution image and video synthesis by fine-tuning for just 10k steps, with virtually no additional inference time.
翻訳日:2024-02-19 17:03:58 公開日:2024-02-16
# 多次元時系列予測のためのランダム投影層

Random Projection Layers for Multidimensional Time Sires Forecasting ( http://arxiv.org/abs/2402.10487v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yujie Fan, Xin Dai, Vivian Lai, Prince Osei Aboagye, Junpeng Wang, Huiyuan Chen, Yan Zheng, Zhongfang Zhuang, Liang Wang, Wei Zhang(参考訳) All-Multi-Layer Perceptron (All-MLP) ミキサーモデルは時系列予測問題に有効であることが示されている。 しかし、そのようなモデルが高次元時系列(例えば時空間データセットの時系列)に適用された場合、その性能は過度な問題のために低下する可能性が高い。 本稿では、RPMixerと呼ばれる全MLP時系列予測アーキテクチャを提案する。 本手法は深層ニューラルネットワークのアンサンブル的挙動を利用しており,ネットワーク内の各ブロックはアンサンブルモデルにおいてベース学習者のように振る舞う。 ランダムなプロジェクション層をモデルに統合することにより、ブロックの出力の多様性を高め、RPMixerの全体的な性能を向上させる。 大規模時空間予測ベンチマークを用いて行った大規模な実験により,提案手法は空間時空間グラフモデルと一般予測モデルの両方を含む代替手法より優れていることが示された。

All-Multi-Layer Perceptron (all-MLP) mixer models have been shown to be effective for time series forecasting problems. However, when such a model is applied to high-dimensional time series (e.g., the time series in a spatial-temporal dataset), its performance is likely to degrade due to overfitting issues. In this paper, we propose an all-MLP time series forecasting architecture, referred to as RPMixer. Our method leverages the ensemble-like behavior of deep neural networks, where each individual block within the network acts like a base learner in an ensemble model, especially when identity mapping residual connections are incorporated. By integrating random projection layers into our model, we increase the diversity among the blocks' outputs, thereby enhancing the overall performance of RPMixer. Extensive experiments conducted on large-scale spatial-temporal forecasting benchmark datasets demonstrate that our proposed method outperforms alternative methods, including both spatial-temporal graph models and general forecasting models.
翻訳日:2024-02-19 17:03:33 公開日:2024-02-16
# 関節セマンティックセグメンテーションと単眼深度推定のための効率的なマルチタスク不確かさ

Efficient Multi-task Uncertainties for Joint Semantic Segmentation and Monocular Depth Estimation ( http://arxiv.org/abs/2402.10580v1 )

ライセンス: Link先を確認
Steven Landgraf, Markus Hillemann, Theodor Kapler, Markus Ulrich(参考訳) 予測の不確実性の定量化は、深層ニューラルネットワークの過信や説明可能性の欠如、堅牢性の欠如といった一般的な課題に対する解決策として浮上した。 多くの実世界のアプリケーションは本質的にマルチモーダルであるため、マルチタスク学習の恩恵を受ける。 例えば、自動運転では、セマンティックセグメンテーションと単眼深度推定のジョイントソリューションが有用であることが証明されている。 本研究では,まず,異なる不確実性定量化手法と結合セマンティックセグメンテーションと単分子深度推定を組み合わせ,それらの性能を比較検討する。 さらに,両タスクを別々に解くことに比べ,不確実性品質に関してマルチタスク学習の利点を明らかにする。 これらの知見に基づいて,共同セマンティックセグメンテーションと単眼深度推定のための新しい学生-教師蒸留手法であるEMUFormerと,マルチタスクの不確実性定量化の効率性を紹介する。 emuformerは教師の予測の不確実性を暗黙的に活用することで、cityscapesとnyuv2で新たな最先端の成果を達成し、さらに桁違いに効率が良いにもかかわらず、深層アンサンブルに匹敵する、あるいは優れているタスクの質の高い予測不確実性を見積もる。

Quantifying the predictive uncertainty emerged as a possible solution to common challenges like overconfidence or lack of explainability and robustness of deep neural networks, albeit one that is often computationally expensive. Many real-world applications are multi-modal in nature and hence benefit from multi-task learning. In autonomous driving, for example, the joint solution of semantic segmentation and monocular depth estimation has proven to be valuable. In this work, we first combine different uncertainty quantification methods with joint semantic segmentation and monocular depth estimation and evaluate how they perform in comparison to each other. Additionally, we reveal the benefits of multi-task learning with regard to the uncertainty quality compared to solving both tasks separately. Based on these insights, we introduce EMUFormer, a novel student-teacher distillation approach for joint semantic segmentation and monocular depth estimation as well as efficient multi-task uncertainty quantification. By implicitly leveraging the predictive uncertainties of the teacher, EMUFormer achieves new state-of-the-art results on Cityscapes and NYUv2 and additionally estimates high-quality predictive uncertainties for both tasks that are comparable or superior to a Deep Ensemble despite being an order of magnitude more efficient.
翻訳日:2024-02-19 16:53:16 公開日:2024-02-16
# SPAR:Long Engagement Attentionによるパーソナライズされたコンテンツベースのレコメンデーション

SPAR: Personalized Content-Based Recommendation via Long Engagement Attention ( http://arxiv.org/abs/2402.10555v1 )

ライセンス: Link先を確認
Chiyu Zhang, Yifei Sun, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Sinong Wang, Rong Jin, Sem Park, Ning Yao, Bo Long(参考訳) パーソナライズされたコンテンツレコメンデーションには、ユーザの長いエンゲージメント履歴を活用することが不可欠だ。 NLPにおける事前訓練言語モデル(PLM)の成功により、ユーザ履歴や候補項目のエンコード、コンテンツ推奨のフレーミングをテキスト意味マッチングタスクとして利用するようになった。 しかし、既存の作業は、非常に長いユーザ履歴テキストの処理とユーザとイテムの相互作用の不十分さに苦慮している。 本稿では,コンテンツベースのレコメンデーションフレームワークであるSPARを紹介し,長いユーザエンゲージメント履歴から全体的ユーザ関心抽出の課題を効果的に解決する。 PLM、ポリアテンション・レイヤ、アテンション・スパシティ・メカニズムを活用して、セッションベースでユーザーの履歴をエンコードする。 ユーザ側とアイテム側の特徴は、双方のスタンドアロン表現を維持しながら、エンゲージメント予測に十分な融通を保ち、実用的なモデル展開に効率的である。 さらに,ユーザエンゲージメント履歴からグローバルな関心を抽出するために,大規模言語モデル(LLM)を活用してユーザプロファイリングを強化する。 2つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークが既存の最先端(SoTA)メソッドより優れていることを示している。

Leveraging users' long engagement histories is essential for personalized content recommendations. The success of pretrained language models (PLMs) in NLP has led to their use in encoding user histories and candidate items, framing content recommendations as textual semantic matching tasks. However, existing works still struggle with processing very long user historical text and insufficient user-item interaction. In this paper, we introduce a content-based recommendation framework, SPAR, which effectively tackles the challenges of holistic user interest extraction from the long user engagement history. It achieves so by leveraging PLM, poly-attention layers and attention sparsity mechanisms to encode user's history in a session-based manner. The user and item side features are sufficiently fused for engagement prediction while maintaining standalone representations for both sides, which is efficient for practical model deployment. Moreover, we enhance user profiling by exploiting large language model (LLM) to extract global interests from user engagement history. Extensive experiments on two benchmark datasets demonstrate that our framework outperforms existing state-of-the-art (SoTA) methods.
翻訳日:2024-02-19 16:52:52 公開日:2024-02-16
# 障害型DABS:障害テキストにおける動的アスペクトベース要約のベンチマーク

Disordered-DABS: A Benchmark for Dynamic Aspect-Based Summarization in Disordered Texts ( http://arxiv.org/abs/2402.10554v1 )

ライセンス: Link先を確認
Xiaobo Guo and Soroush Vosoughi(参考訳) アスペクトベースの要約は特に構造化テキストにおいて顕著な進歩を遂げている。 しかし、ソーシャルメディアや顧客からのフィードバックなど、混乱した大規模なテキストを要約することは、依然として大きな課題だ。 現在の研究は主に構造化テキスト内の事前定義された側面をターゲットにしており、動的および無秩序な環境の複雑さを無視している。 このギャップに対処するために,非構造化テキストに合わせた動的アスペクトベース要約のための新しいベンチマークであるdisrupted-dabsを導入する。 コスト効率とスケーラビリティのために既存のデータセットを適応させることにより、我々の包括的な実験と詳細な人的評価により、障害型DABSは、GPT-3.5のような最先端言語モデルを含む現代の要約モデルに固有の課題をもたらすことが明らかとなった。

Aspect-based summarization has seen significant advancements, especially in structured text. Yet, summarizing disordered, large-scale texts, like those found in social media and customer feedback, remains a significant challenge. Current research largely targets predefined aspects within structured texts, neglecting the complexities of dynamic and disordered environments. Addressing this gap, we introduce Disordered-DABS, a novel benchmark for dynamic aspect-based summarization tailored to unstructured text. Developed by adapting existing datasets for cost-efficiency and scalability, our comprehensive experiments and detailed human evaluations reveal that Disordered-DABS poses unique challenges to contemporary summarization models, including state-of-the-art language models such as GPT-3.5.
翻訳日:2024-02-19 16:52:29 公開日:2024-02-16
# 対話的インタラクションとコンピュータビジョンによる産業4.0時代のコボットによる新しい産業統合アプローチ

A novel integrated industrial approach with cobots in the age of industry 4.0 through conversational interaction and computer vision ( http://arxiv.org/abs/2402.10553v1 )

ライセンス: Link先を確認
Andrea Pazienza and Nicola Macchiarulo and Felice Vitulano and Antonio Fiorentini and Marco Cammisa and Leonardo Rigutini and Ernesto Di Iorio and Achille Globo and Antonio Trevisi(参考訳) 労働者を置き換えるロボットから、役に立つ同僚として働くロボットまで、ロボット自動化の分野は、部品メーカーにとって大きな課題となる新しいトレンドを経験している。 このコントリビューションは、Cobotがより緊密に協力し、精度で特定の物理的仕事をこなせるという革新的なビジョンから始まり、AIの世界は情報を分析し、意思決定プロセスをサポートすることができ、未来に対する戦略的ビジョンを持つことができる。

From robots that replace workers to robots that serve as helpful colleagues, the field of robotic automation is experiencing a new trend that represents a huge challenge for component manufacturers. The contribution starts from an innovative vision that sees an ever closer collaboration between Cobot, able to do a specific physical job with precision, the AI world, able to analyze information and support the decision-making process, and the man able to have a strategic vision of the future.
翻訳日:2024-02-19 16:52:14 公開日:2024-02-16
# 補助情報を用いたトランスフォーマーを用いた癌治療のための個人化薬剤同定

Personalised Drug Identifier for Cancer Treatment with Transformers using Auxiliary Information ( http://arxiv.org/abs/2402.10551v1 )

ライセンス: Link先を確認
Aishwarya Jayagopal, Hansheng Xue, Ziyang He, Robert J. Walsh, Krishna Kumar Hariprasannan, David Shao Peng Tan, Tuan Zea Tan, Jason J. Pitt, Anand D. Jeyasekharan, Vaibhav Rajan(参考訳) がんは臨床と経済の負担が増大しているため、依然として世界的な課題である。 治療を困難にする独自の個人的マニフェストは、パーソナライズされた治療戦略の探求を加速させた。 このように、ゲノムプロファイリングは臨床診断パネルの一部になりつつある。 このようなパネルを効果的に活用するには正確な薬物反応予測(DRP)モデルが必要である。 この問題に対処する従来の方法は、様々な形態の移動学習を用いてきた。 しかし、これらの診断パネルの変異のリストの可変長シーケンシャル構造を明示的にモデル化していない。 さらに、モデルトレーニングには補助情報(患者の生存など)を使用しない。 ベンチマークデータ上での最先端DRPモデルの性能を超越した,トランスフォーマーに基づく新しい手法により,これらの制限に対処する。 また,現在シンガポールの国立大学病院に展開されている治療推奨システム(trs)の設計について,臨床試験で評価している。

Cancer remains a global challenge due to its growing clinical and economic burden. Its uniquely personal manifestation, which makes treatment difficult, has fuelled the quest for personalized treatment strategies. Thus, genomic profiling is increasingly becoming part of clinical diagnostic panels. Effective use of such panels requires accurate drug response prediction (DRP) models, which are challenging to build due to limited labelled patient data. Previous methods to address this problem have used various forms of transfer learning. However, they do not explicitly model the variable length sequential structure of the list of mutations in such diagnostic panels. Further, they do not utilize auxiliary information (like patient survival) for model training. We address these limitations through a novel transformer based method, which surpasses the performance of state-of-the-art DRP models on benchmark data. We also present the design of a treatment recommendation system (TRS), which is currently deployed at the National University Hospital, Singapore and is being evaluated in a clinical trial.
翻訳日:2024-02-19 16:52:04 公開日:2024-02-16
# 制御合成による不連続音声表現の学習

Learning Disentangled Audio Representations through Controlled Synthesis ( http://arxiv.org/abs/2402.10547v1 )

ライセンス: Link先を確認
Yusuf Brima, Ulf Krumnack, Simone Pika and Gunther Heidemann(参考訳) 本稿では,不協和音表現学習におけるベンチマークデータの不足に対処する。 提案するSynToneは,非絡み技術を評価するために,具体的真理説明因子を持つ合成データセットである。 SynToneの最先端メソッドのベンチマークでは、メソッド評価の実用性を強調している。 結果の強みと難易度は両立し,今後の研究の動機となった。

This paper tackles the scarcity of benchmarking data in disentangled auditory representation learning. We introduce SynTone, a synthetic dataset with explicit ground truth explanatory factors for evaluating disentanglement techniques. Benchmarking state-of-the-art methods on SynTone highlights its utility for method evaluation. Our results underscore strengths and limitations in audio disentanglement, motivating future research.
翻訳日:2024-02-19 16:51:51 公開日:2024-02-16
# 否定からの強い幻覚とその解決法

Strong hallucinations from negation and how to fix them ( http://arxiv.org/abs/2402.10543v1 )

ライセンス: Link先を確認
Nicholas Asher and Swarnadeep Bhar(参考訳) 多くのタスクで大きなパフォーマンスを誇っているにもかかわらず、言語モデル(lms)は推論に苦慮し、論理的な一貫性に起因して真であるはずのない応答を提供することもある。 このような応答をtextit{strong hallucinations} と呼び、論理演算子に対する内部表現のLMの計算とそれらの表現からの出力に従うことを証明する。 否定に着目して、否定を潜在表現の別の要素として扱うのではなく、それらがどのように進化するかを制限するLMの潜在表現上の \textit{an 演算として扱う新しい解を提供する。 提案手法は,クローゼプロンプトおよび自然言語推論タスクにおけるモデル性能を,ばらばらな負データに対するトレーニングを必要とせずに改善することを示す。

Despite great performance on many tasks, language models (LMs) still struggle with reasoning, sometimes providing responses that cannot possibly be true because they stem from logical incoherence. We call such responses \textit{strong hallucinations} and prove that they follow from an LM's computation of its internal representations for logical operators and outputs from those representations. Focusing on negation, we provide a novel solution in which negation is treated not as another element of a latent representation, but as \textit{an operation over an LM's latent representations that constrains how they may evolve}. We show that our approach improves model performance in cloze prompting and natural language inference tasks with negation without requiring training on sparse negative data.
翻訳日:2024-02-19 16:51:45 公開日:2024-02-16
# ハイブリッド量子古典型ニューラルネットワークの比較解析

A Comparative Analysis of Hybrid-Quantum Classical Neural Networks ( http://arxiv.org/abs/2402.10540v1 )

ライセンス: Link先を確認
Kamila Zaman and Tasnim Ahmed and Muhammad Abdullah Hanif and Alberto Marchisio and Muhammad Shafique(参考訳) ハイブリッド量子古典機械学習(Hybrid Quantum-Classical Machine Learning, ML)は、現在のノイズの多い中間量子デバイス上の古典的ニューラルネットワークと量子変動回路の長所を融合した、新興分野である。 本稿では,量子畳み込みニューラルネットワーク(Quantum Convolution Neural Network)とQuantum ResNet(Quantum ResNet)という,異なるハイブリッド量子古典機械学習アルゴリズムの比較分析を行った。 本稿では,量子回路層を交換可能なものにすることで,異なる量子アーキテクチャの精度のばらつきをよりよく理解するために,異なる量子ml(qml)アルゴリズムに着目した。 このような変動により、与えられたハイブリッドQMLアルゴリズムの異なるアーキテクチャ置換間の精度を比較することができる。 この精度に基づくハイブリッドモデルの性能比較により、回路の量子層数と量子ビット数の変化との相関関係におけるハイブリッド量子古典収束の理解が得られる。

Hybrid Quantum-Classical Machine Learning (ML) is an emerging field, amalgamating the strengths of both classical neural networks and quantum variational circuits on the current noisy intermediate-scale quantum devices. This paper performs an extensive comparative analysis between different hybrid quantum-classical machine learning algorithms, namely Quantum Convolution Neural Network, Quanvolutional Neural Network and Quantum ResNet, for image classification. The experiments designed in this paper focus on different Quantum ML (QML) algorithms to better understand the accuracy variation across the different quantum architectures by implementing interchangeable quantum circuit layers, varying the repetition of such layers and their efficient placement. Such variations enable us to compare the accuracy across different architectural permutations of a given hybrid QML algorithm. The performance comparison of the hybrid models, based on the accuracy, provides us with an understanding of hybrid quantum-classical convergence in correlation with the quantum layer count and the qubit count variations in the circuit.
翻訳日:2024-02-19 16:51:31 公開日:2024-02-16
# ディジタルツインシステムの挙動改善のための不確実性の定量化と組み合わせ

Quantifying and combining uncertainty for improving the behavior of Digital Twin Systems ( http://arxiv.org/abs/2402.10535v1 )

ライセンス: Link先を確認
Julien Deantoni and Paula Mu\~noz and Cl\'audio Gomes and Clark Verbrugge and Rakshit Mittal and Robert Heinrich and Stijn Bellis and Antonio Vallecillo(参考訳) 不確実性は複雑なシステム、特に物理的部分の統合や実際の環境での運用に固有の性質である。 本稿では,適応システムの設計,検証,最適化に特に複雑であるDigital Twinsに焦点をあてる。 2つのシステム(物理的システムとデジタルレプリカ)を持つ際の問題の一つは、その動作が必ずしも一貫性があるとは限らないことである。 さらに、両方の双生児は、通常異なるタイプの不確実性にさらされ、比較が複雑になる。 本稿では,両双生児の不確かさの明示的表現と治療について提案し,それによって両双生児の行動のより正確な比較が可能になることを示す。 さらに,2匹の双子の個体の不確かさを適切に評価することにより,システム全体の不確かさを低減し,その挙動を改善することができる。 例示インキュベータシステムを用いて,提案提案の実証と検証を行う。

Uncertainty is an inherent property of any complex system, especially those that integrate physical parts or operate in real environments. In this paper, we focus on the Digital Twins of adaptive systems, which are particularly complex to design, verify, and optimize. One of the problems of having two systems (the physical one and its digital replica) is that their behavior may not always be consistent. In addition, both twins are normally subject to different types of uncertainties, which complicates their comparison. In this paper we propose the explicit representation and treatment of the uncertainty of both twins, and show how this enables a more accurate comparison of their behaviors. Furthermore, this allows us to reduce the overall system uncertainty and improve its behavior by properly averaging the individual uncertainties of the two twins. An exemplary incubator system is used to illustrate and validate our proposal.
翻訳日:2024-02-19 16:51:13 公開日:2024-02-16
# 左右の脳を一緒に使う:ビジョンと言語計画に向けて

Using Left and Right Brains Together: Towards Vision and Language Planning ( http://arxiv.org/abs/2402.10534v1 )

ライセンス: Link先を確認
Jun Cen, Chenfei Wu, Xiao Liu, Shengming Yin, Yixuan Pei, Jinglong Yang, Qifeng Chen, Nan Duan, Jianguo Zhang(参考訳) large language model (llms) と large multi-modality models (lmms) は様々なタスクにおいて顕著な決定マスキング能力を示している。 しかし、本質的には言語空間内で計画を行い、視覚と空間的想像力に欠ける。 対照的に、人は思考過程において言語や視覚計画のために脳の左右の半球を利用する。 そこで本研究では,任意の形式の入力を伴うタスクに対して,視覚と言語を同時に計画する,新しい視覚言語計画フレームワークを提案する。 本フレームワークでは,複雑な環境情報を取得するためのビジュアルプランニングを取り入れ,言語プランニングによりシステム全体の論理的一貫性が向上する。 我々は,視覚言語タスク,視覚のみタスク,言語のみタスクのフレームワークの有効性を評価する。 その結果,視覚計画と言語計画の統合により,文脈に配慮したタスク実行が向上することが示された。

Large Language Models (LLMs) and Large Multi-modality Models (LMMs) have demonstrated remarkable decision masking capabilities on a variety of tasks. However, they inherently operate planning within the language space, lacking the vision and spatial imagination ability. In contrast, humans utilize both left and right hemispheres of the brain for language and visual planning during the thinking process. Therefore, we introduce a novel vision-language planning framework in this work to perform concurrent visual and language planning for tasks with inputs of any form. Our framework incorporates visual planning to capture intricate environmental details, while language planning enhances the logical coherence of the overall system. We evaluate the effectiveness of our framework across vision-language tasks, vision-only tasks, and language-only tasks. The results demonstrate the superior performance of our approach, indicating that the integration of visual and language planning yields better contextually aware task execution.
翻訳日:2024-02-19 16:50:59 公開日:2024-02-16
# LLMによる説明の性質と課題

Properties and Challenges of LLM-Generated Explanations ( http://arxiv.org/abs/2402.10532v1 )

ライセンス: Link先を確認
Jenny Kunz, Marco Kuhlmann(参考訳) 大規模言語モデル(LLM)の自己分類機能は、タスク/特定のデータセットを使用して制限された設定で検討されている。 しかしながら、現在の LLM は特に注釈付きデータに依存していない(ただし、その出力を頻繁に説明している)。 生成した説明の特性は、事前学習コーパスと、命令の微調整に使用されるターゲットデータに影響される。 事前学習コーパスには「野生」の人間による説明が多数含まれており、LLMは人間の説明の共通の性質を取り入れていると仮定する。 マルチドメイン命令微調整データセットの出力を分析することで、生成した説明は選択性を示し、図形要素を含むが、主観的あるいは誤解を招くことは少ないことが分かる。 我々は,その特性の存在と不在の理由と結果について議論する。 特に,自己分析システムの目標やユーザグループに応じて,肯定的,否定的な意味を概説する。

The self-rationalising capabilities of large language models (LLMs) have been explored in restricted settings, using task/specific data sets. However, current LLMs do not (only) rely on specifically annotated data; nonetheless, they frequently explain their outputs. The properties of the generated explanations are influenced by the pre-training corpus and by the target data used for instruction fine-tuning. As the pre-training corpus includes a large amount of human-written explanations "in the wild", we hypothesise that LLMs adopt common properties of human explanations. By analysing the outputs for a multi-domain instruction fine-tuning data set, we find that generated explanations show selectivity and contain illustrative elements, but less frequently are subjective or misleading. We discuss reasons and consequences of the properties' presence or absence. In particular, we outline positive and negative implications depending on the goals and user groups of the self-rationalising system.
翻訳日:2024-02-19 16:50:44 公開日:2024-02-16
# 誤答検出のためのステップバイステップ検証は可能か?

Can We Verify Step by Step for Incorrect Answer Detection? ( http://arxiv.org/abs/2402.10528v1 )

ライセンス: Link先を確認
Xin Xu, Shizhe Diao, Can Yang, Yang Wang(参考訳) CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)の推論能力の向上に大きく貢献している。 従来の研究は、主にエンドタスク性能の向上に焦点を当てたCoTの様々な拡張を開発してきた。 さらに、CoTにおける推論鎖の品質を評価する研究も行われている。 これは興味深い疑問を提起する: LLM出力の精度は、それらが生成する推論連鎖を精査することによって予測できるのか? そこで本研究では,5つのドメインにまたがる様々な推論タスクにおいて,推論連鎖と性能の関係を調査するためのベンチマークR2PEを提案する。 本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的とする。 複数の推論チェーンにおける情報を完全に活用するために,回答チェックベースラインを大きなマージンで打ち負かすプロセス識別可能性スコア(PDS)フレームワークを提案する。 具体的には、R2PE内の45個のサブセットでF1スコアが平均5.1%増加した。 さらに,オープンドメインQAの精度向上にPSDの有効性を示す。 データとコードはhttps://github.com/XinXU-USTC/R2PEで入手できる。

Chain-of-Thought (CoT) prompting has marked a significant advancement in enhancing the reasoning capabilities of large language models (LLMs). Previous studies have developed various extensions of CoT, which focus primarily on enhancing end-task performance. In addition, there has been research on assessing the quality of reasoning chains in CoT. This raises an intriguing question: Is it possible to predict the accuracy of LLM outputs by scrutinizing the reasoning chains they generate? To answer this research question, we introduce a benchmark, R2PE, designed specifically to explore the relationship between reasoning chains and performance in various reasoning tasks spanning five different domains. This benchmark aims to measure the falsehood of the final output of LLMs based on the reasoning steps. To make full use of information in multiple reasoning chains, we propose the process discernibility score (PDS) framework that beats the answer-checking baseline by a large margin. Concretely, this resulted in an average of 5.1% increase in the F1 score across all 45 subsets within R2PE. We further demonstrate our PDS's efficacy in advancing open-domain QA accuracy. Data and code are available at https://github.com/XinXU-USTC/R2PE.
翻訳日:2024-02-19 16:50:28 公開日:2024-02-16
# 生物医学的質問応答における相手のゼロショットサンプリング

Zero-shot sampling of adversarial entities in biomedical question answering ( http://arxiv.org/abs/2402.10527v1 )

ライセンス: Link先を確認
R. Patrick Xian, Alex J. Lee, Vincent Wang, Qiming Cui, Russell Ro, Reza Abbasi-Asl(参考訳) 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。 高スループットと知識集約的なタスクでは、モデルの脆弱性を理解することは、モデル予測の信頼性を定量化し、それらの使用を規制するために不可欠である。 最近、自然言語処理タスクの逆例として名前付きエンティティが発見されたことで、他の設定での潜在的なガイダンスに関する疑問が持ち上がった。 そこで本研究では,多種多様な逆対象を注意散らしとして発見するために,埋め込み空間におけるパワースケール距離重み付きサンプリング手法を提案する。 バイオメディカルトピックに対する逆問題応答におけるランダムサンプリングの利点を示す。 本手法により,攻撃面上の異なる領域の探索が可能となり,その特性に顕著な相違点が存在することが判明した。 さらに,攻撃がトークンワイドシェープ値説明の操作に成功し,相手設定で偽装となることを示す。 本研究は,LLMにおけるドメイン知識の脆さと,高容量モデルに対する標準評価の欠点を明らかにするものである。

The increasing depth of parametric domain knowledge in large language models (LLMs) is fueling their rapid deployment in real-world applications. In high-stakes and knowledge-intensive tasks, understanding model vulnerabilities is essential for quantifying the trustworthiness of model predictions and regulating their use. The recent discovery of named entities as adversarial examples in natural language processing tasks raises questions about their potential guises in other settings. Here, we propose a powerscaled distance-weighted sampling scheme in embedding space to discover diverse adversarial entities as distractors. We demonstrate its advantage over random sampling in adversarial question answering on biomedical topics. Our approach enables the exploration of different regions on the attack surface, which reveals two regimes of adversarial entities that markedly differ in their characteristics. Moreover, we show that the attacks successfully manipulate token-wise Shapley value explanations, which become deceptive in the adversarial setting. Our investigations illustrate the brittleness of domain knowledge in LLMs and reveal a shortcoming of standard evaluations for high-capacity models.
翻訳日:2024-02-19 16:50:09 公開日:2024-02-16
# LLM Comparator:大規模言語モデルの双方向評価のためのビジュアル分析

LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models ( http://arxiv.org/abs/2402.10524v1 )

ライセンス: Link先を確認
Minsuk Kahng, Ian Tenney, Mahima Pushkarna, Michael Xieyang Liu, James Wexler, Emily Reif, Krystal Kallarackal, Minsuk Chang, Michael Terry, Lucas Dixon(参考訳) 大規模言語モデル (LLM) からの応答の質を評価するために, サイドバイサイドの自動評価が有望なアプローチとして登場した。 しかしながら、この評価アプローチの結果を分析することは、スケーラビリティと解釈可能性の課題を引き起こす。 本稿では,自動サイドバイサイド評価から結果をインタラクティブに分析する新しいビジュアル分析ツールであるLSM Comparatorを提案する。 このツールは対話的なワークフローをサポートし、モデルがベースラインモデルよりもいつ、なぜ良いパフォーマンスをするのか、そして2つのモデルからの反応が質的に異なるのかを理解する。 大規模なテクノロジ企業の研究者やエンジニアと緊密に連携して,反復的にツールの設計と開発を行いました。 本稿では,我々が特定したユーザ課題,ツールの設計と開発,および定期的にモデルを評価する参加者による観察的研究について述べる。

Automatic side-by-side evaluation has emerged as a promising approach to evaluating the quality of responses from large language models (LLMs). However, analyzing the results from this evaluation approach raises scalability and interpretability challenges. In this paper, we present LLM Comparator, a novel visual analytics tool for interactively analyzing results from automatic side-by-side evaluation. The tool supports interactive workflows for users to understand when and why a model performs better or worse than a baseline model, and how the responses from two models are qualitatively different. We iteratively designed and developed the tool by closely working with researchers and engineers at a large technology company. This paper details the user challenges we identified, the design and development of the tool, and an observational study with participants who regularly evaluate their models.
翻訳日:2024-02-19 16:49:54 公開日:2024-02-16
# アグレッシブクエリによるロールプレイングシステムの拡張:評価と改善

Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement ( http://arxiv.org/abs/2402.10618v1 )

ライセンス: Link先を確認
Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai(参考訳) LLM(Large Language Models)の出現は、特にロールプレイングシステム(RPS)分野において、対話生成を新たな領域へと押し上げている。 通常のロール関連トレーニングダイアログによって強化されているが、既存のLLMベースのRSSは、境界シナリオにおける複雑なクエリと閉じ込められたクエリを扱う際に、ロールと整合するのに苦労している。 本稿では,Modular Orchestrated Trap-setting Interaction SystEm(MORTISE)を設計し,ロールプレイングLLMの性能をベンチマークし改善する。 MORTISEは、複数のLCMベースのモジュールの協調作業を通じて、非常にロール関連性の高いアグレッシブクエリを生成し、対応するレスポンスを定式化し、一貫した応答生成器を介して敵のトレーニングデータセットを作成する。 既存のロールプレイングllmをベンチマークするために,攻撃的クエリを構築するために,中国語と英語のロールを190個選択する。 包括的評価により,既存のモデルでは役割アライメント能力が欠如していることがわかった。 さらに,敵のトレーニングデータセット(rolead)を収集するための180のロールを選択し,他の10のロールをテスト用に保持する。 RoleADにより改善されたモデルに対する実験は、我々の敵対的データセットがこの欠陥を改善することを示し、通常のシナリオにおける一般化可能性の度合いを示す。

The advent of Large Language Models (LLMs) has propelled dialogue generation into new realms, particularly in the field of role-playing systems (RPSs). While enhanced with ordinary role-relevant training dialogues, existing LLM-based RPSs still struggle to align with roles when handling intricate and trapped queries in boundary scenarios. In this paper, we design the Modular ORchestrated Trap-setting Interaction SystEm (MORTISE) to benchmark and improve the role-playing LLMs' performance. MORTISE can produce highly role-relevant aggressive queries through the collaborative effort of multiple LLM-based modules, and formulate corresponding responses to create an adversarial training dataset via a consistent response generator. We select 190 Chinese and English roles to construct aggressive queries to benchmark existing role-playing LLMs. Through comprehensive evaluation, we find that existing models exhibit a general deficiency in role alignment capabilities. We further select 180 of the roles to collect an adversarial training dataset (named RoleAD) and retain the other 10 roles for testing. Experiments on models improved by RoleAD indicate that our adversarial dataset ameliorates this deficiency, with the improvements demonstrating a degree of generalizability in ordinary scenarios.
翻訳日:2024-02-19 16:42:23 公開日:2024-02-16
# 適応実験の最適化: 後悔の最小化と最善のアーム識別の統一的アプローチ

Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification ( http://arxiv.org/abs/2402.10592v1 )

ライセンス: Link先を確認
Chao Qin, Daniel Russo(参考訳) 適応実験を行う実践者は、実験自体に効果的に治療を割り当てることによる実験のコストの削減と、実験を完了し、集団で治療を実施するための情報収集の2つの課題にしばしば遭遇する。 現在論文は分割され、後悔の最小化の研究は孤立の優先事項に対処し、最善の武装識別の研究は後者のみに焦点をあてている。 本稿では,実験結果と実験結果の両方を考慮した統一モデルを提案する。 次に、文献の正準結果を統一する大集団における最適性能の鋭い理論を提供する。 この統一は、新しい洞察も露呈する。 例えば、この理論は、最近提案されたトップ2のトンプソンサンプリングアルゴリズムのように、単一のスカラーパラメータを単純に調整することで、幅広い目的のクラスを最適化できることを示した。 さらに、実験期間の大幅な短縮は、実験内および実験後の後悔の両方に最小限の影響を与えることができる。

Practitioners conducting adaptive experiments often encounter two competing priorities: reducing the cost of experimentation by effectively assigning treatments during the experiment itself, and gathering information swiftly to conclude the experiment and implement a treatment across the population. Currently, the literature is divided, with studies on regret minimization addressing the former priority in isolation, and research on best-arm identification focusing solely on the latter. This paper proposes a unified model that accounts for both within-experiment performance and post-experiment outcomes. We then provide a sharp theory of optimal performance in large populations that unifies canonical results in the literature. This unification also uncovers novel insights. For example, the theory reveals that familiar algorithms, like the recently proposed top-two Thompson sampling algorithm, can be adapted to optimize a broad class of objectives by simply adjusting a single scalar parameter. In addition, the theory reveals that enormous reductions in experiment duration can sometimes be achieved with minimal impact on both within-experiment and post-experiment regret.
翻訳日:2024-02-19 16:41:57 公開日:2024-02-16
# ラマは英語で働きますか。 多言語トランスフォーマーの潜在言語について

Do Llamas Work in English? On the Latent Language of Multilingual Transformers ( http://arxiv.org/abs/2402.10588v1 )

ライセンス: Link先を確認
Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West(参考訳) 言語モデルがどのように機能するか、言語バイアスの起源を理解する上で重要な課題である、英語が支配的なコーパスが内的ピボット言語として英語を使用しているかどうかを問う。 変換器モデルのLlama-2ファミリに着目し,一意に正しい単発連続性を持つ英語でないプロンプトを慎重に構築する。 層から層へ変換器は、最終プロンプトトークンの入力埋め込みを次の確率が計算される出力埋め込みに徐々にマッピングする。 中間埋め込みを高次元空間で追跡することは、3つの異なるフェーズを示し、(1)中間埋め込みは出力トークン埋め込みから遠く離れて始まり、(2)既に中層で意味的に正しい次のトークンをデコードできるが、入力言語よりも英語でそのバージョンに高い確率を与える、(3)埋め込み空間の入力言語特有の領域に移動する。 これらの結果を「入力空間」と「概念空間」と「出力空間」の3つの相がそれぞれ動作する概念モデルにキャストした。 重要な証拠は、抽象的な「概念空間」は他の言語よりも英語に近いことを示しており、これは多言語言語モデルが持つバイアスに関して重要な結果をもたらす可能性がある。

We ask whether multilingual language models trained on unbalanced, English-dominated corpora use English as an internal pivot language -- a question of key importance for understanding how language models function and the origins of linguistic bias. Focusing on the Llama-2 family of transformer models, our study uses carefully constructed non-English prompts with a unique correct single-token continuation. From layer to layer, transformers gradually map an input embedding of the final prompt token to an output embedding from which next-token probabilities are computed. Tracking intermediate embeddings through their high-dimensional space reveals three distinct phases, whereby intermediate embeddings (1) start far away from output token embeddings; (2) already allow for decoding a semantically correct next token in the middle layers, but give higher probability to its version in English than in the input language; (3) finally move into an input-language-specific region of the embedding space. We cast these results into a conceptual model where the three phases operate in "input space", "concept space", and "output space", respectively. Crucially, our evidence suggests that the abstract "concept space" lies closer to English than to other languages, which may have important consequences regarding the biases held by multilingual language models.
翻訳日:2024-02-19 16:41:37 公開日:2024-02-16
# 命の糸:談話モチーフによる機械生成テキストの検出

Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs ( http://arxiv.org/abs/2402.10586v1 )

ライセンス: Link先を確認
Zae Myung Kim and Kwang Hee Lee and Preston Zhu and Vipul Raheja and Dongyeop Kang(参考訳) 大規模言語モデル (LLM) の出現に伴い、人造テキストと機械生成テキストの境界線はますます曖昧になっている。 本稿は,人間によって書かれたテキストにおける識別可能な言語的特徴と特異な言語的特性の同定について,特にその表層構造を超えたテキストの会話構造を明らかにする。 新たな手法を導入し, 階層解析木と再帰的ハイパーグラフを利用して, LLMとヒトの双方が生成するテキストに特有の談話パターンを明らかにする。 実証的な知見は、llmとヒトの両方が特定の領域に影響された異なる談話パターンを生成するが、人間の文章は、異なる領域における人間の文章のニュアンス的性質を反映して、より構造的な変動を示すことを示している。 特筆すべきは、階層的談話機能の導入により、二分分類器全体の性能が向上し、人間が書いたテキストと機械が生成したテキストを区別できる。 これは、テキストパターンの分析に階層的談話の特徴を取り入れることの重要性を強調している。 コードとデータセットは[TBA]で公開されます。

With the advent of large language models (LLM), the line between human-crafted and machine-generated texts has become increasingly blurred. This paper delves into the inquiry of identifying discernible and unique linguistic properties in texts that were written by humans, particularly uncovering the underlying discourse structures of texts beyond their surface structures. Introducing a novel methodology, we leverage hierarchical parse trees and recursive hypergraphs to unveil distinctive discourse patterns in texts produced by both LLMs and humans. Empirical findings demonstrate that, although both LLMs and humans generate distinct discourse patterns influenced by specific domains, human-written texts exhibit more structural variability, reflecting the nuanced nature of human writing in different domains. Notably, incorporating hierarchical discourse features enhances binary classifiers' overall performance in distinguishing between human-written and machine-generated texts, even on out-of-distribution and paraphrased samples. This underscores the significance of incorporating hierarchical discourse features in the analysis of text patterns. The code and dataset will be available at [TBA].
翻訳日:2024-02-19 16:41:11 公開日:2024-02-16
# 三角格子上の反強磁性逆場イジングモデルにおける秩序差と長距離相互作用-摂動的視点

Order-by-disorder and long-range interactions in the antiferromagnetic transverse-field Ising model on the triangular lattice -- A perturbative point of view ( http://arxiv.org/abs/2402.10584v1 )

ライセンス: Link先を確認
J.A. Koziol, M. M\"uhlhauser, K.P. Schmidt(参考訳) 三角格子上の長距離相互作用(afLRTFIM)を持つ反強磁性横磁場イジングモデルの低磁場基底状態(GS)特性について検討した。 トラバース場 (tf) と長距離相互作用 (lri) を摂動として扱うことにより, 有限系における反強磁性ニアイグバー(nn)イジングモデルの縮退gs空間に対する有効モデルを得るために, 摂動連続ユニタリ変換法 (pcut) を用いる。 小さい TF の平ストライプ位相と中間 TF の時計順序位相の間のレベル交差を$h\cong0.129$ for $\alpha=6$, $N=36$ spins の順に決定する。 三角格子上のafLRTFIMの量子位相図の定性的レイアウトについて議論する。

We study the low-field ground-state (GS) properties of the antiferromagnetic transverse-field Ising model with long-range interactions (afLRTFIM) on the triangular lattice. We use the method of perturbative continuous unitary transformations (pCUT) to derive an effective model for the degenerate GS space of the antiferromagnetic nearest-neighbour (NN) Ising model on a finite system, by treating the transverse-field (TF) and the long-range interactions (LRI) as a perturbation. We determine a level-crossing between the plain stripe phase at small TF and the clock-ordered phase at intermediate TF at $h\cong0.129$ for $\alpha=6$, $N=36$ spins in order three perturbation theory. We discuss the qualitative layout of the quantum phase diagram of the afLRTFIM on the triangular lattice.
翻訳日:2024-02-19 16:40:51 公開日:2024-02-16
# 自己教師付きシーケンス学習のためのシンボリックオートエンコーディング

Symbolic Autoencoding for Self-Supervised Sequence Learning ( http://arxiv.org/abs/2402.10575v1 )

ライセンス: Link先を確認
Mohammad Hossein Amani, Nicolas Mario Baldwin, Amin Mansouri, Martin Josifoski, Maxime Peyrard, Robert West(参考訳) 従来の言語モデルは、テキストシーケンスにおける次のトーケン予測に適しており、特に並列データが不足している場合、異なるシンボルシステム間のトランスダクションタスクにしばしば苦労する。 この問題に対処するために、限られた並列データとともに豊富な非並列データのパワーを利用する自己教師型フレームワークである「textit{symbolic autoencoding}」(\Sigma$AE)を紹介する。 $\sigma$ae は離散的ボトルネック層を介して2つの生成モデルを結び、並列データの教師付き損失を最小化することでエンドツーエンドに最適化され、離散的ボトルネックによって生成されたシーケンスを変換された入力シーケンスとして読み出すことができる。 また,ボトルネックの離散性にも拘わらず,効率的な自己教師付きシーケンス学習を可能にする勾配ベース手法を開発した。 我々の結果から,$\Sigma$AEは,最小並列データであっても,トランスダクションタスクの性能を著しく向上させ,弱教師付き学習シナリオに対して有望なソリューションを提供することを示した。

Traditional language models, adept at next-token prediction in text sequences, often struggle with transduction tasks between distinct symbolic systems, particularly when parallel data is scarce. Addressing this issue, we introduce \textit{symbolic autoencoding} ($\Sigma$AE), a self-supervised framework that harnesses the power of abundant unparallel data alongside limited parallel data. $\Sigma$AE connects two generative models via a discrete bottleneck layer and is optimized end-to-end by minimizing reconstruction loss (simultaneously with supervised loss for the parallel data), such that the sequence generated by the discrete bottleneck can be read out as the transduced input sequence. We also develop gradient-based methods allowing for efficient self-supervised sequence learning despite the discreteness of the bottleneck. Our results demonstrate that $\Sigma$AE significantly enhances performance on transduction tasks, even with minimal parallel data, offering a promising solution for weakly supervised learning scenarios.
翻訳日:2024-02-19 16:40:32 公開日:2024-02-16
# ガウス過程を用いた混合周波数データの流し込み

Nowcasting with mixed frequency data using Gaussian processes ( http://arxiv.org/abs/2402.10574v1 )

ライセンス: Link先を確認
Niko Hauzenberger, Massimiliano Marcellino, Michael Pfarrhofer, Anna Stelzer(参考訳) 混合データサンプリング(MIDAS)回帰のためのベイズ機械学習手法を提案し,議論する。 これには制限付きおよび制限なしMIDAS変種による周波数ミスマッチの処理と、多くの予測子と依存変数の間の機能的関係の指定が含まれる。 ガウス過程(GP)とベイズ加法回帰木(BART)を線形ペナル化推定の柔軟な拡張として用いる。 現状と予測のエクササイズでは、GDPのインフレ率の四半期毎の伸びとインフレに重点を置いています。 新しいモデルは、マクロ経済ビッグデータを計算効率良く活用し、数次元に沿って予測精度の向上をもたらす。

We propose and discuss Bayesian machine learning methods for mixed data sampling (MIDAS) regressions. This involves handling frequency mismatches with restricted and unrestricted MIDAS variants and specifying functional relationships between many predictors and the dependent variable. We use Gaussian processes (GP) and Bayesian additive regression trees (BART) as flexible extensions to linear penalized estimation. In a nowcasting and forecasting exercise we focus on quarterly US output growth and inflation in the GDP deflator. The new models leverage macroeconomic Big Data in a computationally efficient way and offer gains in predictive accuracy along several dimensions.
翻訳日:2024-02-19 16:40:14 公開日:2024-02-16
# linkner: 不確実性を用いたローカル名前付きエンティティ認識モデルと大規模言語モデルとのリンク

LinkNER: Linking Local Named Entity Recognition Models to Large Language Models using Uncertainty ( http://arxiv.org/abs/2402.10573v1 )

ライセンス: Link先を確認
Zhen Zhang, Yuhua Zhao, Hang Gao, and Mengting Hu(参考訳) 名前付きエンティティ認識(ner)は、自然言語理解において基本的なタスクであり、webコンテンツ分析、検索エンジン、情報検索システムに直接影響する。 ファインチューニングされたNERモデルは標準のNERベンチマークで満足な性能を示す。 しかしながら、微調整データの制限と知識の欠如により、未認識のエンティティ認識では性能が低下する。 その結果、Web 関連アプリケーションにおける NER モデルのユーザビリティと信頼性が損なわれている。 代わりに、GPT-4のようなLarge Language Models (LLM) は外部知識を持っているが、NERタスクの専門性を欠いている。 さらに、非公開および大規模の重み付けにより、LLMのチューニングが困難になる。 これらの課題に対処するため,我々は,小さな微調整モデルとllm(リンクナー)を組み合わせるフレームワークと,微調整モデルがブラックボックスllmを補完し,よりよい性能を実現するための不確実性に基づくリンク戦略を提案する。 我々は標準のnerテストセットと騒がしいソーシャルメディアデータセットの両方で実験する。 LinkNERは、堅牢性テストにおいて、特にSOTAモデルを上回るNERタスクパフォーマンスを向上させる。 また,不確実性推定手法やLLM,コンテキスト内学習などの重要要素が多様なNERタスクに与える影響を定量的に分析し,特定のWeb関連勧告を提供する。

Named Entity Recognition (NER) serves as a fundamental task in natural language understanding, bearing direct implications for web content analysis, search engines, and information retrieval systems. Fine-tuned NER models exhibit satisfactory performance on standard NER benchmarks. However, due to limited fine-tuning data and lack of knowledge, it performs poorly on unseen entity recognition. As a result, the usability and reliability of NER models in web-related applications are compromised. Instead, Large Language Models (LLMs) like GPT-4 possess extensive external knowledge, but research indicates that they lack specialty for NER tasks. Furthermore, non-public and large-scale weights make tuning LLMs difficult. To address these challenges, we propose a framework that combines small fine-tuned models with LLMs (LinkNER) and an uncertainty-based linking strategy called RDC that enables fine-tuned models to complement black-box LLMs, achieving better performance. We experiment with both standard NER test sets and noisy social media datasets. LinkNER enhances NER task performance, notably surpassing SOTA models in robustness tests. We also quantitatively analyze the influence of key components like uncertainty estimation methods, LLMs, and in-context learning on diverse NER tasks, offering specific web-related recommendations.
翻訳日:2024-02-19 16:40:03 公開日:2024-02-16
# リーマン多様体上のレーザードレッシング状態:kramers-henneberger変換の一般化

Laser-Dressed States on Riemannian Manifolds: A Generalization of the Kramers-Henneberger Transformation ( http://arxiv.org/abs/2402.10572v1 )

ライセンス: Link先を確認
Hannah Bendin, Benjamin Schwager, Jamal Berakdar(参考訳) 幾何学的制約の下での量子粒子は、基底空間の幾何学と位相に敏感である。 三次元超空間に埋め込まれた2次元リーマン多様体に運動が拘束される量子粒子のレーザ駆動非線形ダイナミクスを解析的に研究する。 空間の幾何学は、多様体上の有界状態をサポートするポテンシャル的な項をもたらす。 レーザー場の存在下では、一般化されたクラマース・ヘネベルガー型ユニタリ変換の式を導出し、一般に空間依存かつ時間依存であることが示され、クラマース・ヘネベルガーフレームにおけるシュリンガー型方程式を導出する。 平坦な(幾何学的に自明な)空間と比較すると、微分作用素の時間平均係数と作用素値の摂動項が現れる。

Quantum particles under geometric constraints are sensitive to the geometry and topology of the underlying space. We analytically study the laser-driven nonlinear dynamics of a quantum particle whose motion is constrained to a two-dimensional Riemannian manifold embedded in a three-dimensional hyperspace. The geometry of space results in a potential-like term that supports bound states on the manifold. In the presence of a laser field, we derive expressions for a generalized Kramers-Henneberger-type unitary transformation which is shown to be generally space- and time-dependent, and deduce a Schr\"odinger-like equation in the Kramers-Henneberger frame. Compared to a flat (geometrically trivial) space, new time-averaged coefficients of differential operators and operator-valued perturbation terms appear which determine the geometry-dependent laser-dressed states on Riemannian manifolds.
翻訳日:2024-02-19 16:39:39 公開日:2024-02-16
# オフセットによる直接選好最適化

Direct Preference Optimization with an Offset ( http://arxiv.org/abs/2402.10571v1 )

ライセンス: Link先を確認
Afra Amini, Tim Vieira, Ryan Cotterell(参考訳) 直接選好最適化(DPO)は、報酬モデルのトレーニングや強化学習を必要とせずに、大きな言語モデルを人間の選好に合わせるための微調整戦略として成功している。 DPOはもともと定式化され、二進選好データと言語モデルを微調整して、好ましくない応答よりも好ましくない応答の可能性を高める。 しかし、全ての選好対が等しいわけではない:ある場合には、好ましくない反応よりわずかに良いが、例えば、他の反応が有害または有害な内容を含む場合、一つの反応に対してより強い選好がある。 本稿では,DPOとオフセット(ODPO)を併用したDPOの一般化を提案する。 直感的には、ODPOは、好ましくない応答と好ましくない応答の確率の差がオフセット値より大きいことを要求する。 オフセットは、ある応答が他の応答よりも優先される範囲に基づいて決定される。 様々なタスクに対する実験により、ODPOは言語モデル、特に好みペアの数が限られている場合において、DPOを著しく上回っていることが示唆された。

Direct preference optimization (DPO) is a successful fine-tuning strategy for aligning large language models with human preferences without the need to train a reward model or employ reinforcement learning. DPO, as originally formulated, relies on binary preference data and fine-tunes a language model to increase the likelihood of a preferred response over a dispreferred response. However, not all preference pairs are equal: while in some cases the preferred response is only slightly better than the dispreferred response, there can be a stronger preference for one response when, for example, the other response includes harmful or toxic content. In this paper, we propose a generalization of DPO, termed DPO with an offset (ODPO), that does not treat every preference pair equally during fine-tuning. Intuitively, ODPO requires the difference between the likelihood of the preferred and dispreferred response to be greater than an offset value. The offset is determined based on the extent to which one response is preferred over another. Our experiments on various tasks suggest that ODPO significantly outperforms DPO in aligning language models, especially when the number of preference pairs is limited.
翻訳日:2024-02-19 16:39:22 公開日:2024-02-16
# InSaAF: 正確性と公正性による安全性の確立 : LLMsはインド法定領域に向けて準備が整っているか?

InSaAF: Incorporating Safety through Accuracy and Fairness | Are LLMs ready for the Indian Legal Domain? ( http://arxiv.org/abs/2402.10567v1 )

ライセンス: Link先を確認
Yogesh Tripathi, Raghav Donakanti, Sahil Girhepuje, Ishan Kavathekar, Bhaskara Hanuma Vedula, Gokul S Krishnan, Shreya Goyal, Anmol Goel, Balaraman Ravindran, Ponnurangam Kumaraguru(参考訳) 近年の言語技術と人工知能の進歩により、判断の予測から要約の生成に至るまで、法域における様々なタスクを実行するために多くの言語モデルが提案されている。 その大きな可能性にもかかわらず、これらのモデルは学習し、社会的バイアスを示し、不公平な予測を行うことが証明されている。 本研究では,大規模言語モデル(LLM)の社会的要因が関与するインドの景観における法的タスクを遂行する能力について検討する。 LLMの公平性と正確性の両方をカプセル化した新しい計量である$\beta$-weighted $\textit{Legal Safety Score (LSS_{\beta}$)} を提示する。 我々は,インド社会における様々な格差の軸に関する課題と公正な展示において,その性能を考慮し,LCMsの安全性を評価する。 LLaMAとLLaMA--2モデルのタスク性能と公平性スコアは、提案されたLSS_{\beta}$メトリックが、法分野における安全な使用のためのモデルの可読性を効果的に決定できることを示している。また、偏見を緩和し、モデルの安全性を改善するための潜在的方法として、特別法データセットを利用した微調整パイプラインを提案する。LLaMAとLLaMA--2モデルの微調整手順は、LSS_{\beta}$を増大させ、インドの法域におけるユーザビリティを向上させる。 私たちのコードは公開されています。

Recent advancements in language technology and Artificial Intelligence have resulted in numerous Language Models being proposed to perform various tasks in the legal domain ranging from predicting judgments to generating summaries. Despite their immense potential, these models have been proven to learn and exhibit societal biases and make unfair predictions. In this study, we explore the ability of Large Language Models (LLMs) to perform legal tasks in the Indian landscape when social factors are involved. We present a novel metric, $\beta$-weighted $\textit{Legal Safety Score ($LSS_{\beta}$)}$, which encapsulates both the fairness and accuracy aspects of the LLM. We assess LLMs' safety by considering its performance in the $\textit{Binary Statutory Reasoning}$ task and its fairness exhibition with respect to various axes of disparities in the Indian society. Task performance and fairness scores of LLaMA and LLaMA--2 models indicate that the proposed $LSS_{\beta}$ metric can effectively determine the readiness of a model for safe usage in the legal sector. We also propose finetuning pipelines, utilising specialised legal datasets, as a potential method to mitigate bias and improve model safety. The finetuning procedures on LLaMA and LLaMA--2 models increase the $LSS_{\beta}$, improving their usability in the Indian legal domain. Our code is publicly released.
翻訳日:2024-02-19 16:39:01 公開日:2024-02-16
# リーマン多様体におけるスピンレス粒子の量子散乱

Quantum Scattering of Spinless Particles in Riemannian Manifolds ( http://arxiv.org/abs/2402.10564v1 )

ライセンス: Link先を確認
Lars Meschede, Benjamin Schwager, Dominik Schulz, Jamal Berakdar(参考訳) 量子力学は基礎となる空間の幾何学に敏感である。 本稿では, 2次元空間に閉じ込められた非相対論的粒子の量子散乱の枠組みを提案する。 運動多様体が局所曲率変調をホストすると、創発的幾何ポテンシャルと計量テンソル場から散乱が発生する。 解析的および完全な数値シミュレーションは、幾何学ポテンシャルを低エネルギー散乱の主源とし、曲線空間の計量テンソル場は高エネルギー回折を支配している。 有限要素法と境界要素法を併用したフル数値シミュレーションにより,摂動アプローチの有効性範囲における重要な違いが得られた。 例として、重力レンズとして知られる効果につながるガウス形のデントを考える。 実験的に,幾何学的手法による2次元材料に基づく構成が可能である。

Quantum mechanics is sensitive to the geometry of the underlying space. Here, we present a framework for quantum scattering of a non-relativistic particle confined to a two-dimensional space. When the motion manifold hosts localized curvature modulations, scattering occurs from an emergent geometric potential and the metric tensor field. Analytical and full numerical simulations identify the geometric potential as the primary source for low-energy scattering, while the metric tensor field of the curved space governs high-energy diffraction. Compared to flat spaces, important differences in the validity range of perturbation approaches are found and demonstrated by full numerical simulations using combined finite element and boundary element methods. As an illustration, we consider a Gaussian-shaped dent leading to effects known as gravitational lensing. Experimentally, the considered setup is realizable based on geometrically engineered 2D materials.
翻訳日:2024-02-19 16:38:28 公開日:2024-02-16
# 強化学習を用いたCNOT用交換専用ゲートシーケンスの発見

Discovery of an exchange-only gate sequence for CNOT with record-low gate time using reinforcement learning ( http://arxiv.org/abs/2402.10559v1 )

ライセンス: Link先を確認
Violeta N. Ivanova-Rohling, Niklas Rohling, Guido Burkard(参考訳) 交換のみの量子計算はスピンベースの量子計算のバージョンであり、磁場による個々のスピンの制御の難しさを完全に回避し、代わりに交換パルスのシーケンスによって機能する。 交換のみ量子計算の課題は、必要な論理量子ゲートを生成する短いシーケンスを見つけることである。 このような合成された量子ゲートの総ゲート時間の短縮は、ゲート操作中のデコヒーレンスや制御誤差の影響を最小限に抑え、ゲート全体の忠実度を高めるのに役立つ。 我々は,CNOTとCZの2ビットゲートを実現する交換ゲート列の最適化に強化学習を適用し,量子計算のための普遍ゲートセットの構築に寄与する。 また, 既知結果と比較して, 全ゲート時間に関して有意な改善が得られた。

Exchange-only quantum computation is a version of spin-based quantum computation that entirely avoids the difficulty of controlling individual spins by a magnetic field and instead functions by sequences of exchange pulses. The challenge for exchange-only quantum computation is to find short sequences that generate the required logical quantum gates. A reduction of the total gate time of such synthesized quantum gates can help to minimize the effects of decoherence and control errors during the gate operation and thus increase the total gate fidelity. We apply reinforcement learning to the optimization of exchange-gate sequences realizing the CNOT and CZ two-qubit gates which lend themselves to the construction of universal gate sets for quantum computation. We obtain a significant improvement regarding the total gate time compared to previously known results.
翻訳日:2024-02-19 16:38:17 公開日:2024-02-16
# 自動クロール・アライメント文対によるニューラルパラフレーズ化

Neural paraphrasing by automatically crawled and aligned sentence pairs ( http://arxiv.org/abs/2402.10558v1 )

ライセンス: Link先を確認
Achille Globo and Antonio Trevisi and Andrea Zugarini and Leonardo Rigutini and Marco Maggini and Stefano Melacci(参考訳) パラフレージング(paraphrasing)とは、原文の意味を変更することなく、他の単語を使って入力テキストを書き換える作業である。 会話システムは自動言い換えを利用して会話をより自然なものにすることができる。 近年,自然言語生成(NLG)の文脈において,パラフレーズの自動生成の課題が注目されている。 多くの既存のシステムは単にルールベースのモデルで構成されているが、最近のNLGタスクにおけるDeep Neural Networksの成功は、このようなネットワークを利用してパラフレーズを生成する可能性を自然に示唆している。 しかし、ニューラルネットワークベースのパラフレーズ化の主な障害は、ニューラルネットワークを効率的に訓練するために必要な文とパラフレーズのペアが一致していないことである。 本稿では,ニュースサイトとブログサイトが,異なるナラティブスタイルを用いて同じイベントについて話すことを前提とした,大規模コーパスの自動生成手法を提案する。 本研究では,参照文が与えられた場合,数百万の索引付き文から最も類似したパラフレーズを見つけることができる言語制約のある類似性探索手順を提案する。 データ生成プロセスはイタリア語の場合で評価され、ポインタベースのディープニューラルアーキテクチャを用いて実験を行う。

Paraphrasing is the task of re-writing an input text using other words, without altering the meaning of the original content. Conversational systems can exploit automatic paraphrasing to make the conversation more natural, e.g., talking about a certain topic using different paraphrases in different time instants. Recently, the task of automatically generating paraphrases has been approached in the context of Natural Language Generation (NLG). While many existing systems simply consist in rule-based models, the recent success of the Deep Neural Networks in several NLG tasks naturally suggests the possibility of exploiting such networks for generating paraphrases. However, the main obstacle toward neural-network-based paraphrasing is the lack of large datasets with aligned pairs of sentences and paraphrases, that are needed to efficiently train the neural models. In this paper we present a method for the automatic generation of large aligned corpora, that is based on the assumption that news and blog websites talk about the same events using different narrative styles. We propose a similarity search procedure with linguistic constraints that, given a reference sentence, is able to locate the most similar candidate paraphrases out from millions of indexed sentences. The data generation process is evaluated in the case of the Italian language, performing experiments using pointer-based deep neural architectures.
翻訳日:2024-02-19 16:38:03 公開日:2024-02-16
# 符号付き重量方向レンズからのドメイン固有アダプタの混合の一般化とその有効モデルプルーニングへの応用

Generalizability of Mixture of Domain-Specific Adapters from the Lens of Signed Weight Directions and its Application to Effective Model Pruning ( http://arxiv.org/abs/2402.10639v1 )

ライセンス: Link先を確認
Tuc Nguyen and Thai Le(参考訳) 従来のPLM(Pre-Trained Language Models)に1つの専門知識を組み込むだけでなく、同時に複数のパラメータを組み込む手法として、アダプタに基づくパラメータ効率の高い微調整法が提案されている。 AdapterSoupのような最近の研究は、モデルウェイト平均化による推論において、全てのドメイン固有のアダプタの選択的サブセットのみを混合し、計算効率に優れた新しい未確認領域の性能を最適化することを提案している。 しかし、この新興の重み空間アダプタの混合機構が、ドメイン内例に与える本質的な一般化性は未定である。 そこで本研究では,ドメイン固有のアダプタ混合物のドメイン内評価における一般化性を明らかにするため,包括的解析を行った。 また, 重み記号を解析することにより, ドメイン固有アダプタの混合物の内部動作に関する調査を行い, 重み記号差の分数と混合物の一般化可能性との負の相関性について批判的な分析を行った。 すべてのソースコードが公開される。

Several parameter-efficient fine-tuning methods based on adapters have been proposed as a streamlined approach to incorporate not only a single specialized knowledge into existing Pre-Trained Language Models (PLMs) but also multiple of them at once. Recent works such as AdapterSoup propose to mix not all but only a selective sub-set of domain-specific adapters during inference via model weight averaging to optimize performance on novel, unseen domains with excellent computational efficiency. However, the essential generalizability of this emerging weight-space adapter mixing mechanism on unseen, in-domain examples remains unexplored. Thus, in this study, we conduct a comprehensive analysis to elucidate the generalizability of domain-specific adapter mixtures in in-domain evaluation. We also provide investigations into the inner workings of the mixture of domain-specific adapters by analyzing their weight signs, yielding critical analysis on the negative correlation between their fraction of weight sign difference and their mixtures' generalizability. All source code will be published.
翻訳日:2024-02-19 16:29:49 公開日:2024-02-16
# PEGASUS: 構成可能な属性を持つパーソナライズされた3Dアバター

PEGASUS: Personalized Generative 3D Avatars with Composable Attributes ( http://arxiv.org/abs/2402.10636v1 )

ライセンス: Link先を確認
Hyunsoo Cha, Byungjun Kim, Hanbyul Joo(参考訳) PEGASUSはモノクロビデオソースからパーソナライズされた3次元顔アバターを構築する方法である。 構成生成モデルとして, 同一性を維持しつつ, 対象者の顔属性(例えば, 髪や鼻)を選択的に変化させることができる。 この目標を達成するための2つの重要なアプローチを示す。 まず, 顔属性の異なるターゲットアイデンティティの合成ビデオコレクションを構築し, 他の単眼映像から多様な個人からの部品を借用して映像を合成することで, 個人固有の生成的3dアバターを構築する方法を提案する。 いくつかの実験を通じて,高実性を持つ未知属性の生成により,このアプローチの優れた性能を示す。 次に,従来構築されていたパーソナライズされた生成モデルを活用して,同じ生成モデルをより効率的に実現するためのゼロショットアプローチを提案する。

We present, PEGASUS, a method for constructing personalized generative 3D face avatars from monocular video sources. As a compositional generative model, our model enables disentangled controls to selectively alter the facial attributes (e.g., hair or nose) of the target individual, while preserving the identity. We present two key approaches to achieve this goal. First, we present a method to construct a person-specific generative 3D avatar by building a synthetic video collection of the target identity with varying facial attributes, where the videos are synthesized by borrowing parts from diverse individuals from other monocular videos. Through several experiments, we demonstrate the superior performance of our approach by generating unseen attributes with high realism. Subsequently, we introduce a zero-shot approach to achieve the same generative modeling more efficiently by leveraging a previously constructed personalized generative model.
翻訳日:2024-02-19 16:29:27 公開日:2024-02-16
# ContiFormer: 不規則時系列モデリングのための連続時間変換器

ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling ( http://arxiv.org/abs/2402.10635v1 )

ライセンス: Link先を確認
Yuqi Chen, Kan Ren, Yansen Wang, Yuchen Fang, Weiwei Sun, Dongsheng Li(参考訳) 不規則な時系列の連続時間ダイナミクスのモデリングは、データの進化と連続的に発生する相関を考慮に入れるのに不可欠である。 リカレントニューラルネットワークやTransformerモデルを含む従来の方法は、強力なニューラルネットワークを通じて誘導バイアスを利用して複雑なパターンをキャプチャする。 しかし、離散的な特性のため、連続時間データパラダイムへの一般化には限界がある。 ニューラル常微分方程式 (Neural ODEs) とその変種は不規則な時系列を扱う上で有望な結果を示しているが、しばしばこれらの列内の複雑な相関を捉えることができない。 入力データポイント間の関係を同時にモデル化し、連続時間システムの動的変化を捉えることは、依然として困難である。 そこで本研究では,バニラ変圧器のモデリングを連続時間領域に拡張するコンティフォームを提案する。 我々は,contiformerの表現力の数学的特徴付けを行い,関数仮説のキュレーション設計により,不規則時系列モデリングに特化した多くの変種をcontiformerの特別な場合として扱うことができることを示す。 合成および実世界の両方のデータセットに対する幅広い実験により、不規則時系列データ上でのContiFormerの優れたモデリング能力と予測性能が示された。 プロジェクトリンクはhttps://seqml.github.io/contiformer/。

Modeling continuous-time dynamics on irregular time series is critical to account for data evolution and correlations that occur continuously. Traditional methods including recurrent neural networks or Transformer models leverage inductive bias via powerful neural architectures to capture complex patterns. However, due to their discrete characteristic, they have limitations in generalizing to continuous-time data paradigms. Though neural ordinary differential equations (Neural ODEs) and their variants have shown promising results in dealing with irregular time series, they often fail to capture the intricate correlations within these sequences. It is challenging yet demanding to concurrently model the relationship between input data points and capture the dynamic changes of the continuous-time system. To tackle this problem, we propose ContiFormer that extends the relation modeling of vanilla Transformer to the continuous-time domain, which explicitly incorporates the modeling abilities of continuous dynamics of Neural ODEs with the attention mechanism of Transformers. We mathematically characterize the expressive power of ContiFormer and illustrate that, by curated designs of function hypothesis, many Transformer variants specialized in irregular time series modeling can be covered as a special case of ContiFormer. A wide range of experiments on both synthetic and real-world datasets have illustrated the superior modeling capacities and prediction performance of ContiFormer on irregular time series data. The project link is https://seqml.github.io/contiformer/.
翻訳日:2024-02-19 16:29:11 公開日:2024-02-16
# 時空間ダウンサンプリングによる欠落データを用いたグラフベース予測

Graph-based Forecasting with Missing Data through Spatiotemporal Downsampling ( http://arxiv.org/abs/2402.10634v1 )

ライセンス: Link先を確認
Ivan Marisca, Cesare Alippi, Filippo Maria Bianchi(参考訳) 空間におけるセンサポイントに関連付けられ、シリーズ間関係を特徴とする同期時系列の集合が与えられた場合、時空間予測の問題は各点の将来の観測を予測することからなる。 時空間グラフニューラルネットワークは、時系列間の関係をグラフとして表現することで驚くべき結果を得る。 それでも、既存のほとんどのメソッドは、入力は常に利用可能であり、データの一部が欠落した時に隠れた時空間ダイナミクスを捉えることができないという非現実的な仮定に依存している。 本研究では,階層的時空間ダウンサンプリングによってこの問題に取り組む。 入力時系列は時間と空間で徐々に粗くなり、不均質な時間的および空間的ダイナミクスを捉える表現のプールを得る。 観測と欠落したデータパターンに基づいて、このような表現を解釈可能な注意機構で組み合わせて予測を生成する。 提案手法は,異なるデータ分布,特に欠落した値の連続ブロックの存在下で,合成および実世界のベンチマークにおける最先端の手法よりも優れる。

Given a set of synchronous time series, each associated with a sensor-point in space and characterized by inter-series relationships, the problem of spatiotemporal forecasting consists of predicting future observations for each point. Spatiotemporal graph neural networks achieve striking results by representing the relationships across time series as a graph. Nonetheless, most existing methods rely on the often unrealistic assumption that inputs are always available and fail to capture hidden spatiotemporal dynamics when part of the data is missing. In this work, we tackle this problem through hierarchical spatiotemporal downsampling. The input time series are progressively coarsened over time and space, obtaining a pool of representations that capture heterogeneous temporal and spatial dynamics. Conditioned on observations and missing data patterns, such representations are combined by an interpretable attention mechanism to generate the forecasts. Our approach outperforms state-of-the-art methods on synthetic and real-world benchmarks under different missing data distributions, particularly in the presence of contiguous blocks of missing values.
翻訳日:2024-02-19 16:28:45 公開日:2024-02-16
# BitDistiller: 自己蒸留によるサブ4ビットLCMの可能性

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation ( http://arxiv.org/abs/2402.10631v1 )

ライセンス: Link先を確認
Dayou Du, Yijia Zhang, Shijie Cao, Jiaqi Guo, Ting Cao, Xiaowen Chu, Ningyi Xu(参考訳) 大規模言語モデル(llm)のスケールアップは、自然言語処理において驚くべき進歩をもたらしたが、デプロイメントの課題も大きい。 軽量量子化は、メモリと計算要求を減らすための広く受け入れられたソリューションとして登場した。 本稿では,QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を併用して,超低精度(sub-4-bit)でのLCMの性能向上を実現するフレームワークであるBitDistillerを紹介する。 具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称量子化とクリッピング技術を導入し、さらに、より高速な収束と優れたモデル性能を実現するために、自己蒸留方式で使用される新しい信頼-認識カルバック-リブラー分岐(CAKLD)の目標を提案する。 経験的評価により、一般言語理解と複雑な推論ベンチマークにおいて、bitdistillerは3ビットと2ビットの両方の既存の方法を大幅に上回っていることが示されている。 特にBitDistillerは費用対効果が高く、データやトレーニングリソースの削減が求められている。 コードはhttps://github.com/DD-DuDa/BitDistiller.comで入手できる。

The upscaling of Large Language Models (LLMs) has yielded impressive advances in natural language processing, yet it also poses significant deployment challenges. Weight quantization has emerged as a widely embraced solution to reduce memory and computational demands. This paper introduces BitDistiller, a framework that synergizes Quantization-Aware Training (QAT) with Knowledge Distillation (KD) to boost the performance of LLMs at ultra-low precisions (sub-4-bit). Specifically, BitDistiller first incorporates a tailored asymmetric quantization and clipping technique to maximally preserve the fidelity of quantized weights, and then proposes a novel Confidence-Aware Kullback-Leibler Divergence (CAKLD) objective, which is employed in a self-distillation manner to enable faster convergence and superior model performance. Empirical evaluations demonstrate that BitDistiller significantly surpasses existing methods in both 3-bit and 2-bit configurations on general language understanding and complex reasoning benchmarks. Notably, BitDistiller is shown to be more cost-effective, demanding fewer data and training resources. The code is available at https://github.com/DD-DuDa/BitDistiller.
翻訳日:2024-02-19 16:28:27 公開日:2024-02-16
# 論理制約付きマルチタスクカーネルベース学習

Multitask Kernel-based Learning with Logic Constraints ( http://arxiv.org/abs/2402.10617v1 )

ライセンス: Link先を確認
Michelangelo Diligenti, Marco Gori, Marco Maggini, Leonardo Rigutini(参考訳) 本稿では,タスク関数の集合間の論理的制約をカーネルマシンに組み込むための,事前知識の統合フレームワークを提案する。 論理命題は、学習者が操作する環境の部分表現を提供し、教師付き例で利用可能な情報とともに学習アルゴリズムによって活用される。 特に、機能空間上の複数の単項述語をカーネルマシンで学習し、高レベル抽象表現をこれらの述語上の論理節から構成し、任意の入力に対して保持することが知られているマルチタスク学習スキームを考える。 論理節をカーネルベースの述語で計算された出力を処理する連続的な実装に変換する一般的なアプローチが提案されている。 学習課題は、教師付き例の適合度を測定する項、正規化項、および教師なし例と教師なし例の両方の制約を強制するペナルティ項を組み合わせた損失関数の一次最適化問題として定式化される。 提案する半教師あり学習フレームワークは,教師あり訓練例が希薄で一般化が難しい高次元特徴空間における学習に特に適している。 標準的なカーネルマシンとは異なり、最適化するコスト関数は一般に凸であることが保証されていない。 しかし,実験結果から,教師付き例を収束するまで学習し,その後に論理制約を強制する2段階学習スキーマを用いることで,優れた解を求めることが可能であることが判明した。 人工マルチタスク学習における有望な実験結果が報告され、事前ルールと教師なし例を利用して分類精度を効果的に改善できることを示す。

This paper presents a general framework to integrate prior knowledge in the form of logic constraints among a set of task functions into kernel machines. The logic propositions provide a partial representation of the environment, in which the learner operates, that is exploited by the learning algorithm together with the information available in the supervised examples. In particular, we consider a multi-task learning scheme, where multiple unary predicates on the feature space are to be learned by kernel machines and a higher level abstract representation consists of logic clauses on these predicates, known to hold for any input. A general approach is presented to convert the logic clauses into a continuous implementation, that processes the outputs computed by the kernel-based predicates. The learning task is formulated as a primal optimization problem of a loss function that combines a term measuring the fitting of the supervised examples, a regularization term, and a penalty term that enforces the constraints on both supervised and unsupervised examples. The proposed semi-supervised learning framework is particularly suited for learning in high dimensionality feature spaces, where the supervised training examples tend to be sparse and generalization difficult. Unlike for standard kernel machines, the cost function to optimize is not generally guaranteed to be convex. However, the experimental results show that it is still possible to find good solutions using a two stage learning schema, in which first the supervised examples are learned until convergence and then the logic constraints are forced. Some promising experimental results on artificial multi-task learning tasks are reported, showing how the classification accuracy can be effectively improved by exploiting the a priori rules and the unsupervised examples.
翻訳日:2024-02-19 16:28:02 公開日:2024-02-16
# LLMは多人数で話すことができるか? ディベートによるLLMのチューニングによる制御可能な議論文の生成

Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements ( http://arxiv.org/abs/2402.10614v1 )

ライセンス: Link先を確認
Ming Li, Jiuhai Chen, Lichang Chen, Tianyi Zhou(参考訳) LLMをさまざまな、特に少数派の人々に対して話すようにし、多様性や議論の的になっている視点を支持する声明を生成することは、包括的環境を作る上で非常に重要である。 しかし、既存のLCMは、しばしば矛盾、中立、偏見のある文を含む、生成されたコンテンツのスタンスに対して十分な制御性を持っていない。 本稿では,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を改善する。 逆姿勢の2つのLLM間の複数ラウンドの議論は、それぞれに高品質でより健全なステートメントを生成し、LLMの制御性を改善するための重要なトレーニングデータである。 そこで我々は,LLMを微調整した新しい議論・チューニング(DEBATunE)パイプラインを開発し,議論によって得られた文を生成する。 DEBATunEを検討するため,議論トピックの最大データセットを整理し,各トピックについて710の議論トピックとそれに対応する議論を取り上げている。 GPT-4審査員による新たな議論の制御性指標による評価は、LLMが多様な視点を表現できる能力は、DEBATunEによって著しく改善されていることを示している。 さらに、そのような制御性は未知の話題に一般化でき、議論の余地のある議論をサポートする高品質な言明を生成することができる。 私たちのコード、モデル、データはhttps://github.com/tianyi-lab/DEBATunE.comでリリースされます。

Making LLMs speak for different, especially minority groups of people, and generate statements supporting their diverse or even controversial perspectives is critical to creating an inclusive environment. However, existing LLMs lack sufficient controllability to the stance of their generated content, which often contains inconsistent, neutral, or biased statements. In this paper, we improve the controllability of LLMs in generating statements supporting an argument the user defined in the prompt. We find that multi-round debates between two LLMs with opposite stances generate higher-quality and more salient statements for each, which are important training data to improve the controllability of LLMs. Motivated by this, we develop a novel debate & tuning ("DEBATunE") pipeline finetuning LLMs to generate the statements obtained via debate. To examine DEBATunE, we curate the largest dataset of debate topics so far, which covers 710 controversial topics and corresponding arguments for each topic. Evaluations by the GPT-4 judge with a novel controversy controllability metric show that LLMs' capability of expressing diverse perspectives is significantly improved by DEBATunE. Moreover, such controllability can be generalized to unseen topics, generating high-quality statements supporting controversial arguments. Our codes, models, and data will be released at https://github.com/tianyi-lab/DEBATunE.
翻訳日:2024-02-19 16:27:34 公開日:2024-02-16
# 必要な時のみ検索する:大規模言語モデルにおける幻覚緩和のための適応的検索増強

Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models ( http://arxiv.org/abs/2402.10612v1 )

ライセンス: Link先を確認
Hanxing Ding, Liang Pang, Zihao Wei, Huawei Shen, Xueqi Cheng(参考訳) 幻覚は、大規模言語モデル(LLM)の実装において重要な課題である。 パラメトリック知識の利用はllmの限られた知識によって制限され、内部幻覚を生じさせる可能性がある。 外部情報の導入は知識ギャップを埋めるのに役立つが、無関係な情報のリスクも伴うため、外部幻覚の可能性が高まる。 LLM内のパラメトリック知識と外部情報との慎重にバランスの取れた統合は幻覚の緩和に不可欠である。 そこで本研究では,幻覚出力に対応するため,Lowenを選択的検索拡張法により拡張する新しいアプローチを提案する。 このプロセスは多言語意味認識検出モジュールによって制御され、同じクエリに対して様々な言語にわたる摂動応答の一貫性を評価する。 幻覚を示す矛盾を検出すると、rowenは外部情報の検索を起動してモデル出力を補正する。 ロウエンはLLMの内在的パラメータと外部知識源とを順応的に調和させ、内部推論と外部証拠のバランスよく統合することで幻覚を効果的に緩和する。 包括的実証分析により,rowen は llm の出力中の幻覚コンテンツの検出と緩和において,現在の最先端を上回っていることを実証した。

Hallucinations pose a significant challenge for the practical implementation of large language models (LLMs). The utilization of parametric knowledge in generating factual content is constrained by the limited knowledge of LLMs, potentially resulting in internal hallucinations. While incorporating external information can help fill knowledge gaps, it also introduces the risk of irrelevant information, thereby increasing the likelihood of external hallucinations. A careful and balanced integration of the parametric knowledge within LLMs with external information is crucial to alleviate hallucinations. In this study, we present Rowen, a novel approach that enhances LLMs with a selective retrieval augmentation process tailored to address hallucinated outputs. This process is governed by a multilingual semantic-aware detection module, which evaluates the consistency of the perturbed responses across various languages for the same queries. Upon detecting inconsistencies indicative of hallucinations, Rowen activates the retrieval of external information to rectify the model outputs. Rowen adeptly harmonizes the intrinsic parameters in LLMs with external knowledge sources, effectively mitigating hallucinations by ensuring a balanced integration of internal reasoning and external evidence. Through a comprehensive empirical analysis, we demonstrate that Rowen surpasses the current state-of-the-art in both detecting and mitigating hallucinated content within the outputs of LLMs.
翻訳日:2024-02-19 16:27:09 公開日:2024-02-16
# U$^2$MRPD: 大きな潜伏拡散モデルによる教師なしアンサンプドMRI再構成

U$^2$MRPD: Unsupervised undersampled MRI reconstruction by prompting a large latent diffusion model ( http://arxiv.org/abs/2402.10609v1 )

ライセンス: Link先を確認
Ziqi Gao, S. Kevin Zhou(参考訳) 自然画像に事前訓練された大型潜伏拡散モデル(LLDM)における暗黙的な視覚知識は、自然画像や医学画像に対して豊富で普遍的である。 この仮説を検証するために、事前訓練された大きな潜伏拡散モデル (U$^2$MRPD) を用いて、教師なしMRI再構成のための新しいフレームワークを提案する。 既存のデータ駆動型アンサンプ型MRI再構成ネットワークは、通常、様々なデータ取得シナリオに対して限定的な一般化性と適応性を持つが、U$^2$MRPDは複雑な評価されたMRI画像に適したMSSアンプでLLDMを誘導することにより、画像固有のMRI再構成をサポートする。 単一ソースまたは多様なソースのMRIデータセットでは、U$^2$MRPDのパフォーマンスはMRAdapterによってさらに向上し、生成画像の先行性は保たれる。 複数のデータセットの実験では、U$^2$MRPDは、ドメイン内データセット上での教師付きおよびMRI拡散メソッドと同等または優れたパフォーマンスを達成し、ドメイン外のデータセット上で最高の一般化可能性を示す。 我々の知る限り、U$^2$MRPDは、LLDMの普遍的な長所を実証し、医療画像におけるマグニチュードのみの自然画像に基づいて%訓練し、MRIデータベースのないシナリオとデータベース利用可能なシナリオの両方に最適な適応性とドメイン外のデータへの一般化性を実現する、制御不能な方法である。

Implicit visual knowledge in a large latent diffusion model (LLDM) pre-trained on natural images is rich and hypothetically universal to natural and medical images. To test this hypothesis, we introduce a novel framework for Unsupervised Undersampled MRI Reconstruction by Prompting a pre-trained large latent Diffusion model ( U$^2$MRPD). Existing data-driven, supervised undersampled MRI reconstruction networks are typically of limited generalizability and adaptability toward diverse data acquisition scenarios; yet U$^2$MRPD supports image-specific MRI reconstruction by prompting an LLDM with an MRSampler tailored for complex-valued MRI images. With any single-source or diverse-source MRI dataset, U$^2$MRPD's performance is further boosted by an MRAdapter while keeping the generative image priors intact. Experiments on multiple datasets show that U$^2$MRPD achieves comparable or better performance than supervised and MRI diffusion methods on in-domain datasets while demonstrating the best generalizability on out-of-domain datasets. To the best of our knowledge, U$^2$MRPD is the {\bf first} unsupervised method that demonstrates the universal prowess of a LLDM, %trained on magnitude-only natural images in medical imaging, attaining the best adaptability for both MRI database-free and database-available scenarios and generalizability towards out-of-domain data.
翻訳日:2024-02-19 16:26:46 公開日:2024-02-16
# ハイブリッド量子古典ニューラルネットワークにおける量子特異ハイパーパラメータの影響に関する研究

Studying the Impact of Quantum-Specific Hyperparameters on Hybrid Quantum-Classical Neural Networks ( http://arxiv.org/abs/2402.10605v1 )

ライセンス: Link先を確認
Kamila Zaman and Tasnim Ahmed and Muhammad Kashif and Muhammad Abdullah Hanif and Alberto Marchisio and Muhammad Shafique(参考訳) 現在のノイズの多い中間スケール量子デバイスでは、ハイブリッド量子古典型ニューラルネットワーク(hqnns)は、古典的な機械学習の強みと量子コンピューティング能力を組み合わせた有望なソリューションである。 古典的なディープニューラルネットワーク(DNN)と比較して、HQNNは量子回路に特有のハイパーパラメータのセットを新たに提示する。 量子層深さ、量子ビット数、エンタングルメントの種類、エンコーディングの種類、ショット数、測定可観測値などのこれらの量子固有ハイパーパラメータは、HQNNの振る舞いと与えられたタスクを学習する能力を変更するために調整することができる。 本稿では,これらのバリエーションが画像分類タスクのHQNNモデルに与える影響を,Qiskit と PennyLane の両フレームワークで検討する。 我々は,HQNNモデルの直感的・直感的学習パターンを制御された量子摂動の粒度レベル内に発見し,精度と相関する音響基底を形成することを目的とする。 本研究の結果は,効率的なHQNNアルゴリズムを設計するための新たな道程を開拓し,HQNNモデルのチューニング可能なハイパーパラメータの理解と同定のための基盤を構築する。

In current noisy intermediate-scale quantum devices, hybrid quantum-classical neural networks (HQNNs) represent a promising solution that combines the strengths of classical machine learning with quantum computing capabilities. Compared to classical deep neural networks (DNNs), HQNNs present an additional set of hyperparameters, which are specific to quantum circuits. These quantum-specific hyperparameters, such as quantum layers depth, number of qubits, type of entanglement, type of encoding, number of shots, and measurement observables, can be tuned to modify the behavior of the HQNNs and their capabilities to learn the given task. In this paper, we investigate the impact of these variations on different HQNN models for image classification tasks, implemented on both Qiskit and PennyLane frameworks. We aim to uncover intuitive and counter-intuitive learning patterns of HQNN models within granular levels of controlled quantum perturbations, to form a sound basis for their correlation to accuracy. The outcome of our study opens new avenues for designing efficient HQNN algorithms and builds a foundational base for comprehending and identifying tunable hyperparameters of HQNN models that can lead to useful implementation and usage.
翻訳日:2024-02-19 16:26:17 公開日:2024-02-16
# 単語置換暗号を用いた一次大言語モデルの脱獄

Jailbreaking Proprietary Large Language Models using Word Substitution Cipher ( http://arxiv.org/abs/2402.10601v1 )

ライセンス: Link先を確認
Divij Handa, Advait Chirmule, Bimal Gajera, Chitta Baral(参考訳) 大規模言語モデル(LLM)は、道徳的および倫理的なガイドラインに沿っているが、アライメントプロセスを回避できるJailbreakと呼ばれる創造的なプロンプトの影響を受けやすいままである。 しかし、ほとんどのジェイルブレイクプロンプトは自然言語(主に英語)で有害な質問を含んでおり、LLM自身で検出することができる。 本稿では,暗号技術を用いたジェイルブレイクプロンプトを提案する。 まず,様々な暗号化技術を用いて暗号化された複数の安全な文を復号する,最先端のllm,gpt-4に関するパイロット研究を行い,簡単な単語置換暗号を最も効果的に復号できることを示す。 この結果から,この符号化手法をジェイルブレイクプロンプトの書込みに利用した。 我々は、安全でない単語を安全な単語でマッピングし、これらのマッピングされた単語を用いて安全でない質問を行う。 実験の結果、ChatGPT、GPT-4、Gemini-Proといった最先端のプロプライエタリモデルに対するジェイルブレイク手法の攻撃成功率(最大59.42%)が示された。 さらに,これらのモデルの過剰防御性についても論じる。 我々は、これらのLCMを復号化能力を維持しつつ、より堅牢にするためのさらなる研究を後押しすると信じている。

Large Language Models (LLMs) are aligned to moral and ethical guidelines but remain susceptible to creative prompts called Jailbreak that can bypass the alignment process. However, most jailbreaking prompts contain harmful questions in the natural language (mainly English), which can be detected by the LLM themselves. In this paper, we present jailbreaking prompts encoded using cryptographic techniques. We first present a pilot study on the state-of-the-art LLM, GPT-4, in decoding several safe sentences that have been encrypted using various cryptographic techniques and find that a straightforward word substitution cipher can be decoded most effectively. Motivated by this result, we use this encoding technique for writing jailbreaking prompts. We present a mapping of unsafe words with safe words and ask the unsafe question using these mapped words. Experimental results show an attack success rate (up to 59.42%) of our proposed jailbreaking approach on state-of-the-art proprietary models including ChatGPT, GPT-4, and Gemini-Pro. Additionally, we discuss the over-defensiveness of these models. We believe that our work will encourage further research in making these LLMs more robust while maintaining their decoding capabilities.
翻訳日:2024-02-19 16:25:55 公開日:2024-02-16
# 素過程による量子第二高調波発生

Quantum second harmonic generation in terms of elementary processes ( http://arxiv.org/abs/2402.10598v1 )

ライセンス: Link先を確認
Giovanni Chesi(参考訳) 我々は摂動的アプローチで第二高調波発生の量子力学を扱う。 ユニタリ進化のテイラー展開を検査することにより、その後の消滅と生成演算子の応用を基本過程とし、第二調和光子数確率分布の展開がこれらの過程の相互作用によってどのように表現できるかを見出す。 異なる一次過程の出力状態間の重なりが確率分布の拡大に寄与することを示し,任意の順序で分布拡大の項を解析的に取り出すためのダイアグラム的手法を提供する。

We address the quantum dynamics of second harmonic generation with a perturbative approach. By inspecting the Taylor expansion of the unitary evolution, we identify the subsequent application of annihilation and creation operators as elementary processes and find out how the expansion of the second-harmonic photon-number probability distribution can be expressed in terms of the interplay of these processes. We show that overlaps between the output states of different elementary processes contribute to the expansion of the probability distribution and provide a diagrammatic technique to analytically retrieve terms of the distribution expansion at any order.
翻訳日:2024-02-19 16:25:36 公開日:2024-02-16
# 規模での効率性:臨床における最小言語モデルの性能の検討

Efficiency at Scale: Investigating the Performance of Diminutive Language Models in Clinical Tasks ( http://arxiv.org/abs/2402.10597v1 )

ライセンス: Link先を確認
Niall Taylor, Upamanyu Ghose, Omid Rohanian, Mohammadmahdi Nouriborji, Andrey Kormilitzin, David Clifton, Alejo Nevado-Holgado(参考訳) 大規模言語モデル(llm)を研究や商業空間に導入することで、汎用性を最初に約束し、さらにパラメータ効率の優れた微調整(peft)メソッドを使用して、完全な微調整を必要とせずに、ダウンサイズと特殊モデルの創造を広く願うようになった。 我々は,25万ドル程度のパラメータを持つ極めて小さなモデルを含む,様々なモデルサイズにわたる臨床意思決定タスクに異なるpeft法の適合性について検討する。 解析の結果,ほとんどのPEFTアプローチの性能は,全モデルサイズやタスクに対して比較的高い性能を維持するLoRAを除いて,タスクごとに大きく異なることがわかった。 臨床領域におけるPEFT法の有効性は明らかであり、特に低コストで社内の計算インフラで運用できる専門モデルでは顕著である。 これらのモデルの利点は、スピードとトレーニングコストの削減という観点で見ると、大きな基礎LPMの性能向上よりも劇的に優れている。 さらに、ドメイン固有の事前学習がPEFTメソッドとモデルサイズとどのように相互作用するかを強調し、これらの要因がどのように相互作用し、最良の効率と性能のトレードオフをもたらすかについて議論する。 完全なコードは以下の通り。

The entry of large language models (LLMs) into research and commercial spaces has led to a trend of ever-larger models, with initial promises of generalisability, followed by a widespread desire to downsize and create specialised models without the need for complete fine-tuning, using Parameter Efficient Fine-tuning (PEFT) methods. We present an investigation into the suitability of different PEFT methods to clinical decision-making tasks, across a range of model sizes, including extremely small models with as few as $25$ million parameters. Our analysis shows that the performance of most PEFT approaches varies significantly from one task to another, with the exception of LoRA, which maintains relatively high performance across all model sizes and tasks, typically approaching or matching full fine-tuned performance. The effectiveness of PEFT methods in the clinical domain is evident, particularly for specialised models which can operate on low-cost, in-house computing infrastructure. The advantages of these models, in terms of speed and reduced training costs, dramatically outweighs any performance gain from large foundation LLMs. Furthermore, we highlight how domain-specific pre-training interacts with PEFT methods and model size, and discuss how these factors interplay to provide the best efficiency-performance trade-off. Full code available at: tbd.
翻訳日:2024-02-19 16:25:25 公開日:2024-02-16
# 全スライディング画像分類に基づくマルチインスタンス学習のためのコンパクトで非バイアス負のインスタンス埋め込み

Compact and De-biased Negative Instance Embedding for Multi-Instance Learning on Whole-Slide Image Classification ( http://arxiv.org/abs/2402.10595v1 )

ライセンス: Link先を確認
Joohyung Lee, Heejeong Nam, Kwanhyung Lee, Sangchul Hahn(参考訳) 全体スライダー画像(wsi)分類は難しい課題である。 1) WSIのパッチにはアノテーションがなく、 2) WSIは不要な可変性、例えばステンドプロトコルを持っている。 近年、mil(multiple-instance learning)が大幅に進歩し、パッチレベルのアノテーションではなく、スライドレベルに基づく分類が可能になった。 しかし、既存のMILメソッドは、通常のスライドからのパッチが正常であることを無視している。 この自由アノテーションを用いて,スライド間変動の偏りを解消し,正規パッチ内の変動の共通要因を捉えるための半スーパービジョン信号を導入する。 提案手法はmilアルゴリズムと直交するので,最近提案するmilアルゴリズム上で評価し,他の半教師付き手法との比較を行った。 我々は,キャメリオン16およびTGA肺がんを含む2つのWSIデータセットを用いて本手法の評価を行い,既存のMILアルゴリズムの予測性能を大幅に向上し,他の半教師付きアルゴリズムよりも優れていることを示す。 コードをhttps://github.com/AITRICS/pathology_milでリリースします。

Whole-slide image (WSI) classification is a challenging task because 1) patches from WSI lack annotation, and 2) WSI possesses unnecessary variability, e.g., stain protocol. Recently, Multiple-Instance Learning (MIL) has made significant progress, allowing for classification based on slide-level, rather than patch-level, annotations. However, existing MIL methods ignore that all patches from normal slides are normal. Using this free annotation, we introduce a semi-supervision signal to de-bias the inter-slide variability and to capture the common factors of variation within normal patches. Because our method is orthogonal to the MIL algorithm, we evaluate our method on top of the recently proposed MIL algorithms and also compare the performance with other semi-supervised approaches. We evaluate our method on two public WSI datasets including Camelyon-16 and TCGA lung cancer and demonstrate that our approach significantly improves the predictive performance of existing MIL algorithms and outperforms other semi-supervised algorithms. We release our code at https://github.com/AITRICS/pathology_mil.
翻訳日:2024-02-19 16:24:59 公開日:2024-02-16
# 不確かさ、校正、およびメンバーシップ推論攻撃:情報理論の視点から

Uncertainty, Calibration, and Membership Inference Attacks: An Information-Theoretic Perspective ( http://arxiv.org/abs/2402.10686v1 )

ライセンス: Link先を確認
Meiyi Zhu, Caili Guo, Chunyan Feng, Osvaldo Simeone(参考訳) メンバーシップ推論攻撃(MIA)では、攻撃者は典型的な機械学習モデルによって提示される過信を利用して、特定のデータポイントを使用してターゲットモデルをトレーニングしたかどうかを判断する。 本稿では,実データ生成過程におけるアレエータ的不確実性の影響,限られたトレーニングデータセットによる認識的不確実性,および対象モデルのキャリブレーションレベルについて,情報理論的な枠組みにおいて,最先端の確率比攻撃(lira)の性能を解析する。 我々は,攻撃者が対象モデルから情報的フィードバックを受ける3つの異なる設定を比較する: 出力確率ベクトルを解放する信頼ベクトル(cv)開示, モデルによって真のラベルに割り当てられた確率のみを利用可能とする真のラベル信頼(tlc)開示, 適応予測セットを共形予測で生成する意思決定集合(ds)開示。 我々は,miasの有効性に対する不確実性とキャリブレーションの影響についての洞察を提供することを目的として,mia敵の利点の限界を導出する。 シミュレーションの結果,miasの有効性を十分に予測できることがわかった。

In a membership inference attack (MIA), an attacker exploits the overconfidence exhibited by typical machine learning models to determine whether a specific data point was used to train a target model. In this paper, we analyze the performance of the state-of-the-art likelihood ratio attack (LiRA) within an information-theoretical framework that allows the investigation of the impact of the aleatoric uncertainty in the true data generation process, of the epistemic uncertainty caused by a limited training data set, and of the calibration level of the target model. We compare three different settings, in which the attacker receives decreasingly informative feedback from the target model: confidence vector (CV) disclosure, in which the output probability vector is released; true label confidence (TLC) disclosure, in which only the probability assigned to the true label is made available by the model; and decision set (DS) disclosure, in which an adaptive prediction set is produced as in conformal prediction. We derive bounds on the advantage of an MIA adversary with the aim of offering insights into the impact of uncertainty and calibration on the effectiveness of MIAs. Simulation results demonstrate that the derived analytical bounds predict well the effectiveness of MIAs.
翻訳日:2024-02-19 16:17:34 公開日:2024-02-16
# 裁判官は人間かLLMか? 判断バイアスに関する一考察

Humans or LLMs as the Judge? A Study on Judgement Biases ( http://arxiv.org/abs/2402.10669v1 )

ライセンス: Link先を確認
Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang(参考訳) 既存のLLMの性能を評価するために,人・大規模言語モデル (LLM) を審査員 (\textit{a.k.a} human- and LLM-as-a-judge) として採用することが近年注目されている。 それにもかかわらず、このアプローチは人間とLLM判事の潜在的なバイアスを同時に導入し、評価結果の信頼性を疑問視する。 本稿では,LLMと人的判断に対する5種類のバイアスを調査するための新しい枠組みを提案する。 我々は,修正されたブルームの分類に言及する142のサンプルのデータセットをキュレートし,何千もの人間およびllm評価を行う。 その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最も最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。 我々はその弱点をさらに活用し、LLM判事に対する攻撃を行う。 我々は,我々の研究が,頑健な評価システムの開発の緊急性だけでなく,摂動に対する人間とLLM-as-judgeの脆弱性のコミュニティに通知できることを願っている。

Adopting human and large language models (LLM) as judges (\textit{a.k.a} human- and LLM-as-a-judge) for evaluating the performance of existing LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLM judges, questioning the reliability of the evaluation results. In this paper, we propose a novel framework for investigating 5 types of biases for LLM and human judges. We curate a dataset with 142 samples referring to the revised Bloom's Taxonomy and conduct thousands of human and LLM evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the most cutting-edge judges possess considerable biases. We further exploit their weakness and conduct attacks on LLM judges. We hope that our work can notify the community of the vulnerability of human- and LLM-as-a-judge against perturbations, as well as the urgency of developing robust evaluation systems.
翻訳日:2024-02-19 16:17:10 公開日:2024-02-16
# Open-Domain Text-to-SQLのためのマルチホップテーブル検索

Multi-Hop Table Retrieval for Open-Domain Text-to-SQL ( http://arxiv.org/abs/2402.10666v1 )

ライセンス: Link先を確認
Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Qingfu Zhu, Wanxiang Che(参考訳) オープンドメインのテキスト-to-SQLは、巨大なデータベースから質問関連テーブルを取得し、SQLを生成する重要なタスクである。 しかし、単一のホップで検索する既存の検索方法は、テーブルエンティティと問題内のエンティティを一致させるスキーマリンクのテキストからSQLへの挑戦には注意を払わない。 そこで本研究では,リライトとビームサーチによるマルチホップテーブル検索(Murre)を提案する。 類似の非関連エンティティの効果を低減するため,本手法ではホップ毎の未検索エンティティに着目し,ビームサーチによる低ランクテーブルの検討を行う。 ドメインミスマッチエンティティの制限を軽減するため、Murre氏は複数のホップで取得したテーブルに基づいて質問を書き直し、関連するテーブルとのドメインギャップを減らした。 我々はSpiderUnionとBirdUnion+の実験を行い、6.38%の平均的な改善で新しい最先端の結果を得た。

Open-domain text-to-SQL is an important task that retrieves question-relevant tables from massive databases and then generates SQL. However, existing retrieval methods that retrieve in a single hop do not pay attention to the text-to-SQL challenge of schema linking, which is aligning the entities in the question with table entities, reflected in two aspects: similar irrelevant entity and domain mismatch entity. Therefore, we propose our method, the multi-hop table retrieval with rewrite and beam search (Murre). To reduce the effect of the similar irrelevant entity, our method focuses on unretrieved entities at each hop and considers the low-ranked tables by beam search. To alleviate the limitation of domain mismatch entity, Murre rewrites the question based on retrieved tables in multiple hops, decreasing the domain gap with relevant tables. We conduct experiments on SpiderUnion and BirdUnion+, reaching new state-of-the-art results with an average improvement of 6.38%.
翻訳日:2024-02-19 16:16:50 公開日:2024-02-16
# ポストホック信頼度推定によるセマンティックセグメンテーションの選択予測と分布シフト時の性能

Selective Prediction for Semantic Segmentation using Post-Hoc Confidence Estimation and Its Performance under Distribution Shift ( http://arxiv.org/abs/2402.10665v1 )

ライセンス: Link先を確認
Bruno Laboissiere Camargos Borges, Bruno Machado Pacheco, Danilo Silva(参考訳) セマンティックセグメンテーションは様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たすが、その効果は高品質のラベル付きデータの欠如によってしばしば妨げられる。 この課題に対処する一般的な戦略は、公開データセットなど、さまざまな集団のデータに基づいてトレーニングされたモデルを活用することだ。 しかし、このアプローチは分布シフトの問題を引き起こし、関心の人口に対するパフォーマンスが低下する。 モデルエラーが重大な結果をもたらすシナリオでは、選択予測手法はリスクを軽減し、専門家の監督への依存を減らす手段を提供する。 本稿では,低リソース環境下でのセマンティックセグメンテーションの選択的予測について検討する。 本稿では,セマンティックセグメンテーションに適した画像レベルの信頼度尺度を提案し,その効果を3つの医用画像課題を用いて実証する。 この結果から, ポストホック信頼度推定器は, 分布変化の影響を低減するためのコスト効率の高い手法であることがわかった。

Semantic segmentation plays a crucial role in various computer vision applications, yet its efficacy is often hindered by the lack of high-quality labeled data. To address this challenge, a common strategy is to leverage models trained on data from different populations, such as publicly available datasets. This approach, however, leads to the distribution shift problem, presenting a reduced performance on the population of interest. In scenarios where model errors can have significant consequences, selective prediction methods offer a means to mitigate risks and reduce reliance on expert supervision. This paper investigates selective prediction for semantic segmentation in low-resource settings, thus focusing on post-hoc confidence estimators applied to pre-trained models operating under distribution shift. We propose a novel image-level confidence measure tailored for semantic segmentation and demonstrate its effectiveness through experiments on three medical imaging tasks. Our findings show that post-hoc confidence estimators offer a cost-effective approach to reducing the impacts of distribution shift.
翻訳日:2024-02-19 16:16:34 公開日:2024-02-16
# human-free fusingによるテキスト・ツー・sqlの多彩性向上

Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL ( http://arxiv.org/abs/2402.10663v1 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che(参考訳) 現在,大規模言語モデル(LLM)に基づく文脈内学習法が,テキスト・トゥ・SQL研究の主流となっている。 これまで,人間ラベルのデモプールからユーザ質問に関連するデモを選択する方法について議論されてきた。 しかしながら、人間のラベル付けは多様性の不足と高いラベル付けオーバーヘッドの限界に悩まされている。 そこで本稿では,テキストからSQLへのデモンストレーションの多様性を計測し,改善する方法について論じる。 実験により,実証実験の多様性を測定し,既存のラベル付きデータの不十分さを分析する。 上記の発見に基づき,自由多文合成,多様性の向上,ラベルコストの低減を通じて,高多様性のデモンストレーションプールを構築するための実験(fused)を反復的に実施することを提案する。 本手法は,複数の主流データセット上でのラベル付けによる平均3.2%と5.0%の改善を実現し,Fusedの有効性を実証する。

Currently, the in-context learning method based on large language models (LLMs) has become the mainstream of text-to-SQL research. Previous works have discussed how to select demonstrations related to the user question from a human-labeled demonstration pool. However, human labeling suffers from the limitations of insufficient diversity and high labeling overhead. Therefore, in this paper, we discuss how to measure and improve the diversity of the demonstrations for text-to-SQL. We present a metric to measure the diversity of the demonstrations and analyze the insufficient of the existing labeled data by experiments. Based on the above discovery, we propose fusing iteratively for demonstrations (Fused) to build a high-diversity demonstration pool through human-free multiple-iteration synthesis, improving diversity and lowering label cost. Our method achieves an average improvement of 3.2% and 5.0% with and without human labeling on several mainstream datasets, which proves the effectiveness of Fused.
翻訳日:2024-02-19 16:16:14 公開日:2024-02-16
# ファンタジー領域における名前付きエンティティ抽出モデルの微調整

Fine Tuning Named Entity Extraction Models for the Fantasy Domain ( http://arxiv.org/abs/2402.10662v1 )

ライセンス: Link先を確認
Aravinth Sivaganeshan, Nisansa de Silva(参考訳) 名前付きエンティティ認識(NER)は、テキスト内でエンティティを識別し、事前に定義されたカテゴリに分類する、シーケンス分類自然言語処理タスクである。 ほとんどの情報抽出システムの基盤として機能する。 Dungeons and Dragons(ダンジョンズ・アンド・ドラゴンズ、D&D)は、オープンエンドのテーブルトップファンタジーゲーム。 DnDエンティティはドメイン固有であり、NERシステムは人(PERS)、場所(LOC)、組織(ORG)、雑種(MISC)といった事前定義されたカテゴリの一般的なデータに基づいて訓練されているため、最先端のNERシステムでも認識できない。 ファンタジーテキストから意味のある情報を抽出するには、エンティティをドメイン固有のエンティティカテゴリに分類し、モデルをドメイン関連コーパスで微調整する必要がある。 この作業では、D&Dドメインで利用可能なモンスターのロアを使用して、NERの事前トレーニングモデルを使用した多作なNERフレームワークであるTrankitを微調整する。 このトレーニングでは,新たなNERタグの下で,関連するドメイン文書からモンスター名を抽出することができる。 この研究は、ゼロショットのTrankitモデルと2つのFLAIRモデルとのモンスター名識別の精度を比較した。 微調整のTrankitモデルでは87.86%のF1スコアが他のすべてのモデルを上回る。

Named Entity Recognition (NER) is a sequence classification Natural Language Processing task where entities are identified in the text and classified into predefined categories. It acts as a foundation for most information extraction systems. Dungeons and Dragons (D&D) is an open-ended tabletop fantasy game with its own diverse lore. DnD entities are domain-specific and are thus unrecognizable by even the state-of-the-art off-the-shelf NER systems as the NER systems are trained on general data for pre-defined categories such as: person (PERS), location (LOC), organization (ORG), and miscellaneous (MISC). For meaningful extraction of information from fantasy text, the entities need to be classified into domain-specific entity categories as well as the models be fine-tuned on a domain-relevant corpus. This work uses available lore of monsters in the D&D domain to fine-tune Trankit, which is a prolific NER framework that uses a pre-trained model for NER. Upon this training, the system acquires the ability to extract monster names from relevant domain documents under a novel NER tag. This work compares the accuracy of the monster name identification against; the zero-shot Trankit model and two FLAIR models. The fine-tuned Trankit model achieves an 87.86% F1 score surpassing all the other considered models.
翻訳日:2024-02-19 16:15:55 公開日:2024-02-16
# マルチLLMのネットワーク形成とダイナミクス

Network Formation and Dynamics Among Multi-LLMs ( http://arxiv.org/abs/2402.10659v1 )

ライセンス: Link先を確認
Marios Papachristou, Yuan Yuan(参考訳) 社会的ネットワークは行動、嗜好、関係に影響を与え、人間の社会における情報や規範の普及に重要な役割を果たしている。 大規模言語モデル(LLM)が社会的および専門的な環境に統合されるにつれて、社会的ネットワークや相互作用の文脈内での彼らの行動を理解することが不可欠となる。 本研究では,標準的なネットワーク構造と実世界のネットワークの動作を分析し,複数のllmのダイナミクスが人間の社会的ダイナミクスと一致するかどうかを判断する。 我々は,優先アタッチメント,トライ進クロージャ,ホモフィリといったミクロレベルの概念や,コミュニティ構造やスモールワールド現象といったマクロレベルの概念を含む,さまざまなソーシャルネットワークの原則を探求する。 この結果から,LLMにはネットワーク構造が備わっている場合の原則が示され,ネットワーク形成に関する好みについて質問された。 さらに,これらの原則の強みを比較するために,実世界ネットワークに基づくllmsの意思決定について検討する。 以上の結果から,三進的閉包とホモフィリィは優先的なアタッチメントよりも強く,LLMはネットワーク形成予測のタスクにおいてランダムな推測をはるかに上回っていることが明らかとなった。 本研究は, LLMのネットワーク形成行動に光を当て, 社会的ダイナミクスや規範に対する影響を探ることで, 社会に配慮したLCMの開発に寄与する。

Social networks influence behaviors, preferences, and relationships and play a crucial role in the dissemination of information and norms within human societies. As large language models (LLMs) increasingly integrate into social and professional environments, understanding their behavior within the context of social networks and interactions becomes essential. Our study analyzes the behaviors of standard network structures and real-world networks to determine whether the dynamics of multiple LLMs align with human social dynamics. We explore various social network principles, including micro-level concepts such as preferential attachment, triadic closure, and homophily, as well as macro-level concepts like community structure and the small-world phenomenon. Our findings suggest that LLMs demonstrate all these principles when they are provided with network structures and asked about their preferences regarding network formation. Furthermore, we investigate LLMs' decision-making based on real-world networks to compare the strengths of these principles. Our results reveal that triadic closure and homophily have a stronger influence than preferential attachment and that LLMs substantially exceed random guessing in the task of network formation predictions. Overall, our study contributes to the development of socially aware LLMs by shedding light on LLMs' network formation behaviors and exploring their impacts on social dynamics and norms.
翻訳日:2024-02-19 16:15:32 公開日:2024-02-16
# 信頼できる推論過程の指導による数値推論の強化

Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning Processes ( http://arxiv.org/abs/2402.10654v1 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che(参考訳) 数値推論は、数値情報を扱うNLPシステムにとって不可欠な能力である。 近年の研究では,回答に付随する推論過程を学習するための小型モデルの微調整が,性能を著しく向上させることが示唆されている。 しかし、現在の手法では、ほとんどの方法が大きな言語モデル(llm)を持つ推論プロセスを生成するという制限があり、そのようなプロセスは答えと無関係な情報を含む可能性があるため「信頼できない」。 そこで本研究では,この制約に対処するために,解公式を分解し,その解を完全に支持するかを保証することで,信頼性の高い推論プロセスを導出する,信頼性の高いプロセス(encore)による数値推論の強化を提案する。 それにもかかわらず、モデルには推論プロセス生成を適切に学習するのに十分なデータが不足する可能性がある。 この課題を克服するために,モデルが合成データを用いて推論過程を学習するための事前学習タスクを提案する。 実験の結果,Encoreは平均1.8%の5つの実験データセットを改良し,本手法の有効性を実証した。

Numerical reasoning is an essential ability for NLP systems to handle numeric information. Recent research indicates that fine-tuning a small-scale model to learn generating reasoning processes alongside answers can significantly enhance performance. However, current methods have the limitation that most methods generate reasoning processes with large language models (LLMs), which are "unreliable" since such processes could contain information unrelated to the answer. To address this limitation, we introduce Enhancing NumeriCal reasOning with Reliable procEsses (Encore), which derives the reliable reasoning process by decomposing the answer formula, ensuring which fully supports the answer. Nevertheless, models could lack enough data to learn the reasoning process generation adequately, since our method generates only one single reasoning process for one formula. To overcome this difficulty, we present a series of pre-training tasks to help models learn the reasoning process generation with synthesized data. The experiments show that Encore yields improvement on all five experimental datasets with an average of 1.8%, proving the effectiveness of our method.
翻訳日:2024-02-19 16:15:09 公開日:2024-02-16
# rydbergガジェットを使った量子ダイマーモデル

Quantum dimer models with Rydberg gadgets ( http://arxiv.org/abs/2402.10651v1 )

ライセンス: Link先を確認
Zhongda Zeng, Giuliano Giudici, Hannes Pichler(参考訳) rydbergブロック機構は、中性原子配列に基づく量子シミュレータにおいて重要な要素である。 これにより、位相スピン液体のような様々な物質の量子相が出現することができる。 しかし、ブロック効果の典型的な等方性は、ネイティブアクセス可能なモデルや量子状態の範囲を制限する。 本研究では、この制限を体系的に克服する手法、すなわち、基礎となるリドベルク封鎖をより一般的な制約に変換するガジェット、すなわち特定の原子配列を開発することを提案する。 この手法を正方形および三角形の幾何学上のディマーモデルに応用する。 これらのセットアップでは、原子のコヒーレントな駆動によって引き起こされる量子ゆらぎの役割を研究し、それぞれの基底状態において$U(1)$および$\mathbb{Z}_2$量子スピン液体状態のシグネチャを見つける。 最後に、これらの状態は高忠実度で動的に生成できることを示し、Rydberg atom array を用いた実験において、より広範な制約付きモデルとトポロジカルマターの量子シミュレーションの道を開く。

The Rydberg blockade mechanism is an important ingredient in quantum simulators based on neutral atom arrays. It enables the emergence of a rich variety of quantum phases of matter, such as topological spin liquids. The typically isotropic nature of the blockade effect, however, restricts the range of natively accessible models and quantum states. In this work, we propose a method to systematically overcome this limitation, by developing gadgets, i.e., specific arrangements of atoms, that transform the underlying Rydberg blockade into more general constraints. We apply this technique to realize dimer models on square and triangular geometries. In these setups, we study the role of the quantum fluctuations induced by a coherent drive of the atoms and find signatures of $U(1)$ and $\mathbb{Z}_2$ quantum spin liquid states in the respective ground states. Finally, we show that these states can be dynamically prepared with high fidelity, paving the way for the quantum simulation of a broader class of constrained models and topological matter in experiments with Rydberg atom arrays.
翻訳日:2024-02-19 16:14:48 公開日:2024-02-16
# absinstruct: 可能性推定を用いた説明調整によるllmの抽象化能力の抽出

AbsInstruct: Eliciting Abstraction Ability from LLMs through Explanation Tuning with Plausibility Estimation ( http://arxiv.org/abs/2402.10646v1 )

ライセンス: Link先を確認
Zhaowei Wang, Wei Fan, Qing Zong, Hongming Zhang, Sehyun Choi, Tianqing Fang, Xin Liu, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) 抽象能力は人間の知性において不可欠であり、nlp研究の様々なタスクに役立つ。 既存の研究によると、LLMは抽象能力に欠けており、その改善方法はまだ解明されていない。 本研究では,命令チューニングによるLLMの抽象化能力を向上するフレームワークAbsInstructを設計する。 このフレームワークは、llmが抽象の根本的根拠を捉えるのを助けるために、詳細な説明で命令を構築する。 一方,LLMの抽象的知識とより整合した命令を選択するための可視性推定器を導入する。 そして、このフレームワークは抽象化命令と汎用命令を組み合わせてハイブリッドデータセットを構築する。 広範な実験と分析により,本フレームワークは一般的な命令追従能力を維持しつつ,llmsの抽象化能力を大幅に向上できることを示した。

Abstraction ability is crucial in human intelligence, which can also benefit various tasks in NLP study. Existing work shows that LLMs are deficient in abstract ability, and how to improve it remains unexplored. In this work, we design the framework AbsInstruct to enhance LLMs' abstraction ability through instruction tuning. The framework builds instructions with in-depth explanations to assist LLMs in capturing the underlying rationale of abstraction. Meanwhile, we introduce a plausibility estimator to select instructions that are more consistent with the abstraction knowledge of LLMs to be aligned. Then, our framework combines abstraction instructions with general-purpose ones to build a hybrid dataset. Extensive experiments and analyses demonstrate that our framework can considerably enhance LLMs' abstraction ability with strong generalization performance while maintaining their general instruction-following abilities.
翻訳日:2024-02-19 16:14:28 公開日:2024-02-16
# セパレータはチェーン・オブ・サート・プロンプトを改善できるか?

Can Separators Improve Chain-of-Thought Prompting? ( http://arxiv.org/abs/2402.10645v1 )

ライセンス: Link先を確認
Yoonjeong Park, Hyunjin Kim, Chanyeol Choi, Junseong Kim, Jy-yong Sohn(参考訳) CoTプロンプトは大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である。 CoTの基本的な考え方は、LLMが入力プロンプトに模範を配置することで、思考プロセスを段階的に分解できるようにすることである。 しかし、CoTの密に構造化されたプロンプト例は、LLMの認知的過負荷を引き起こす可能性がある。 人間の認知にインスパイアされたCoT-Sepは,CoTプロンプトにおける各例の最後にセパレータを戦略的に活用する新しい手法である。 これらのセパレータは、LLMが推論しながら思考プロセスをよりよく理解できるように設計されている。 CoT-Sepは、複雑な推論タスク(例えば、GSM-8K、AQuA、CSQA)におけるLCMのパフォーマンスを、セパレータを使用しないバニラCoTと比較して大幅に改善している。 また, GPT-3.5-Turbo, GPT-4, LLaMA-2 7B を含む複数の LLM 上で試験したセパレータのタイプおよび位置の影響についても検討した。 興味深いことに、CoTの推論能力を高めるためにセパレータの型/位置を適切に選択する必要がある。

Chain-of-thought (CoT) prompting is a simple and effective method for improving the reasoning capabilities of Large language models (LLMs). The basic idea of CoT is to let LLMs break down their thought processes step-by-step by putting exemplars in the input prompt. However, the densely structured prompt exemplars of CoT may cause the cognitive overload of LLMs. Inspired by human cognition, we introduce CoT-Sep, a novel method that strategically employs separators at the end of each exemplar in CoT prompting. These separators are designed to help the LLMs understand their thought processes better while reasoning. It turns out that CoT-Sep significantly improves the LLMs' performances on complex reasoning tasks (e.g., GSM-8K, AQuA, CSQA), compared with the vanilla CoT, which does not use separators. We also study the effects of the type and the location of separators tested on multiple LLMs, including GPT-3.5-Turbo, GPT-4, and LLaMA-2 7B. Interestingly, the type/location of separators should be chosen appropriately to boost the reasoning capability of CoT.
翻訳日:2024-02-19 16:14:15 公開日:2024-02-16
# 学習可能なカーネル関数を持つ線形変換器は文脈内モデルより優れている

Linear Transformers with Learnable Kernel Functions are Better In-Context Models ( http://arxiv.org/abs/2402.10644v1 )

ライセンス: Link先を確認
Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov(参考訳) 言語モデルのためのサブクアドラルアーキテクチャ(lms)のフロンティアの進展は、急速に発展する自然言語処理の分野において不可欠である。 状態空間モデルを含む現在の技術革新は、言語モデリングタスクのトランスフォーマー性能を上回って初めて祝われた。 しかし、これらのモデルでは、トランスフォーマーが伝統的に輝いている領域であるコンテキスト内学習能力の欠如が明らかになった。 ベースモデルはハイブリッドソリューションとして登場し、畳み込みネットワークによって強化された指数関数のテイラー展開にインスパイアされたリニアトランスフォーマーとカーネルを融合した。 トランスフォーマーの文脈内適応性を反映して、この分野では強力な競争相手となった。 本研究では,Pileデータセットに示すように,マルチクエリ・アソシエイト・リコールタスクと言語モデリングプロセスを用いて評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。

Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset.
翻訳日:2024-02-19 16:13:51 公開日:2024-02-16
# keep it together":人間の記憶をシミュレートして抽出要約の結束を強制する

`Keep it Together': Enforcing Cohesion in Extractive Summaries by Simulating Human Memory ( http://arxiv.org/abs/2402.10643v1 )

ライセンス: Link先を確認
Ronald Cardenas and Matthias Galle and Shay B. Cohen(参考訳) 抽出要約は通常、それらの間の結合が期待されない文のリストとして提示される。 本稿では,入力が高い冗長性を示す場合において,要約における情報性や冗長性を制御しながら凝集を強制することを目的とする。 パイプラインは、消費される長い入力の冗長性を制御し、文選択中の情報と凝集のバランスをとる。 私たちの文セレクタは、人間の記憶をシミュレートし、語彙連鎖としてモデル化されたトピックを追跡します。 様々な領域において,本実験では,情報性や冗長性のみを考慮し抽出した要約として,人間の情報として読み取れる,密集性の高い要約を抽出することが可能であることが判明した。 抽出された要約は、語彙連鎖によって合図される文間のスムーズな話題遷移を示し、隣接文または近隣接文にまたがる連鎖を示す。

Extractive summaries are usually presented as lists of sentences with no expected cohesion between them. In this paper, we aim to enforce cohesion whilst controlling for informativeness and redundancy in summaries, in cases where the input exhibits high redundancy. The pipeline controls for redundancy in long inputs as it is consumed, and balances informativeness and cohesion during sentence selection. Our sentence selector simulates human memory to keep track of topics --modeled as lexical chains--, enforcing cohesive ties between noun phrases. Across a variety of domains, our experiments revealed that it is possible to extract highly cohesive summaries that nevertheless read as informative to humans as summaries extracted by only accounting for informativeness or redundancy. The extracted summaries exhibit smooth topic transitions between sentences as signaled by lexical chains, with chains spanning adjacent or near-adjacent sentences.
翻訳日:2024-02-19 16:13:35 公開日:2024-02-16
# ウェーブレット領域での会話:音声拡散モデル高速化のためのシンプルで効率的なアプローチ

Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model ( http://arxiv.org/abs/2402.10642v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Daijiao Liu, Hexin Liu, Qiquan Zhang, Hanyu Meng, Leibny Paola Garcia, Eng Siong Chng, Lina Yao(参考訳) 近年,拡散確率モデル (DDPM) は多種多様な生成タスクにおいて主要な性能を達成している。 しかし、音声合成の分野ではddpmは印象的な性能を示すが、長い訓練期間と実質的な推論コストは実用的な展開を妨げる。 既存のアプローチは主に推論速度の向上に重点を置いているが、音声の追加やカスタマイズに関わるコストの鍵となる要素をトレーニングするアプローチは、モデルの複雑な修正を必要とすることが多く、普遍的な適用可能性に妥協する。 以上の課題に対処するために、音声信号自体を変更することでDDPMのトレーニング/推論速度と性能を向上させることができるのか? 本稿では、生成対象をウェーブレットドメインにリダイレクトすることにより、音声ddpmのトレーニングと推論速度を2倍にする。 この手法は、音声合成タスクにおいて、元のモデルと同等あるいは優れた性能を達成するだけでなく、その汎用性も示す。 異なるウェーブレットベースを調査,活用することにより,音声合成だけでなく,音声強調にも有効であることを示す。

Recently, Denoising Diffusion Probabilistic Models (DDPMs) have attained leading performances across a diverse range of generative tasks. However, in the field of speech synthesis, although DDPMs exhibit impressive performance, their long training duration and substantial inference costs hinder practical deployment. Existing approaches primarily focus on enhancing inference speed, while approaches to accelerate training a key factor in the costs associated with adding or customizing voices often necessitate complex modifications to the model, compromising their universal applicability. To address the aforementioned challenges, we propose an inquiry: is it possible to enhance the training/inference speed and performance of DDPMs by modifying the speech signal itself? In this paper, we double the training and inference speed of Speech DDPMs by simply redirecting the generative target to the wavelet domain. This method not only achieves comparable or superior performance to the original model in speech synthesis tasks but also demonstrates its versatility. By investigating and utilizing different wavelet bases, our approach proves effective not just in speech synthesis, but also in speech enhancement.
翻訳日:2024-02-19 16:13:19 公開日:2024-02-16
# 凹面衝突噴流の熱伝達予測サーロゲートモデル

A Predictive Surrogate Model for Heat Transfer of an Impinging Jet on a Concave Surface ( http://arxiv.org/abs/2402.10641v1 )

ライセンス: Link先を確認
Sajad Salavatidezfouli, Saeid Rakhsha, Armin Sheidani, Giovanni Stabile and Gianluigi Rozza(参考訳) 本稿では, 円錐面に衝突するパルスジェットの伝熱予測におけるモデル次数削減(MOR)と深層学習の有効性を総合的に検討することを目的とする。 パルス円噴流に関する以前の実験的および数値的研究を拡張して, 種々のジェット特性を横断する熱伝達の予測的サロゲートモデル (PSM) を評価する。 そこで本研究では,Fast Fourier Transformation augmented Artificial Neural Network (FFT-ANN) を用いて,一定の周波数シナリオ下での平均ヌッセルト数を予測する。 さらに、ランダム周波数衝突噴流に対する適切な直交分解と長期記憶(POD-LSTM)手法を導入する。 POD-LSTM法は, 時間モードの傾向と値の両方を捉えることにより, ランダム周波数インピーダンスシナリオ下での局所熱伝達率を予測するための堅牢な解であることが証明された。 これらのアプローチの比較は、複雑な伝熱現象のモデリングにおける高度な機械学習技術の汎用性と有効性を強調している。

This paper aims to comprehensively investigate the efficacy of various Model Order Reduction (MOR) and deep learning techniques in predicting heat transfer in a pulsed jet impinging on a concave surface. Expanding on the previous experimental and numerical research involving pulsed circular jets, this investigation extends to evaluate Predictive Surrogate Models (PSM) for heat transfer across various jet characteristics. To this end, this work introduces two predictive approaches, one employing a Fast Fourier Transformation augmented Artificial Neural Network (FFT-ANN) for predicting the average Nusselt number under constant-frequency scenarios. Moreover, the investigation introduces the Proper Orthogonal Decomposition and Long Short-Term Memory (POD-LSTM) approach for random-frequency impingement jets. The POD-LSTM method proves to be a robust solution for predicting the local heat transfer rate under random-frequency impingement scenarios, capturing both the trend and value of temporal modes. The comparison of these approaches highlights the versatility and efficacy of advanced machine learning techniques in modelling complex heat transfer phenomena.
翻訳日:2024-02-19 16:12:57 公開日:2024-02-16
# AutoSAT: 大規模言語モデルによるSATソルバーの自動最適化

AutoSAT: Automatically Optimize SAT Solvers via Large Language Models ( http://arxiv.org/abs/2402.10705v1 )

ライセンス: Link先を確認
Yiwen Sun, Xianyin Zhang, Shiyu Huang, Shaowei Cai, Bing-Zhen Zhang, Ke Wei(参考訳) SATソルバではヒューリスティックが重要であり、すべての問題インスタンスにヒューリスティックなルールは適合しない。 したがって、通常は特定の問題インスタンスの特定のソルバを洗練する必要がある。 本稿では,SATソルバのヒューリスティックスを自動的に最適化する新しいフレームワークであるAutoSATを紹介する。 AutoSATはLarge Large Models(LLM)をベースにしており、コードを生成し、評価を行い、フィードバックを利用してヒューリスティックスをさらに最適化し、人間の介入を減らし、解決能力を向上させる。 AutoSATはプラグイン・アンド・プレイベースで動作し、広範な予備設定やモデルトレーニングの必要性を排除し、フォールトトレランスを備えたChain of Thoughtの共同プロセスを促進し、堅牢なヒューリスティックな最適化を保証する。 CDCL(Conflict-Driven Clause Learning)ソルバに関する大規模な実験は、特に特定のSAT問題インスタンスの解決において、AutoSATの全体的な優れたパフォーマンスを示す。

Heuristics are crucial in SAT solvers, while no heuristic rules are suitable for all problem instances. Therefore, it typically requires to refine specific solvers for specific problem instances. In this context, we present AutoSAT, a novel framework for automatically optimizing heuristics in SAT solvers. AutoSAT is based on Large Large Models (LLMs) which is able to autonomously generate code, conduct evaluation, then utilize the feedback to further optimize heuristics, thereby reducing human intervention and enhancing solver capabilities. AutoSAT operates on a plug-and-play basis, eliminating the need for extensive preliminary setup and model training, and fosters a Chain of Thought collaborative process with fault-tolerance, ensuring robust heuristic optimization. Extensive experiments on a Conflict-Driven Clause Learning (CDCL) solver demonstrates the overall superior performance of AutoSAT, especially in solving some specific SAT problem instances.
翻訳日:2024-02-19 16:04:36 公開日:2024-02-16
# LLMの品質と多様性を評価するための精度とリコールの探索

Exploring Precision and Recall to assess the quality and diversity of LLMs ( http://arxiv.org/abs/2402.10693v1 )

ライセンス: Link先を確認
Le Bronnec Florian, Verine Alexandre, Negrevergne Benjamin, Chevaleyre Yann, Allauzen Alexandre(参考訳) 本稿では,Llama-2 や Mistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。 このアプローチにより、コーパスを整列することなく、生成したテキストの品質と多様性を微妙に評価できる。 この研究は、最先端言語モデルの包括的な評価を行うことで、従来のベンチマークでは適切に捉えられていないオープンエンド生成タスクのパフォーマンスに関する重要な洞察を明らかにする。 この結果は、生成したサンプルの品質と多様性のトレードオフを浮き彫りにしている。 この研究は、分散ベースのNLP評価ツールキットを拡張し、多種多様な高品質のテキストを生成する上で、現在のLLMが直面する実践的能力と課題に関する洞察を提供する。

This paper introduces a novel evaluation framework for Large Language Models (LLMs) such as Llama-2 and Mistral, focusing on the adaptation of Precision and Recall metrics from image generation to text generation. This approach allows for a nuanced assessment of the quality and diversity of generated text without the need for aligned corpora. By conducting a comprehensive evaluation of state-of-the-art language models, the study reveals significant insights into their performance on open-ended generation tasks, which are not adequately captured by traditional benchmarks. The findings highlight a trade-off between the quality and diversity of generated samples, particularly when models are fine-tuned with human feedback. This work extends the toolkit for distribution-based NLP evaluation, offering insights into the practical capabilities and challenges faced by current LLMs in generating diverse and high-quality text.
翻訳日:2024-02-19 16:03:43 公開日:2024-02-16
# MultiPoT: 複数のプログラミング言語に配慮した多言語プログラム

MultiPoT: Multilingual Program of Thoughts Harnesses Multiple Programming Languages ( http://arxiv.org/abs/2402.10691v1 )

ライセンス: Link先を確認
Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Libo Qin, Xu Wang, Qing Yang, Dongliang Xu, Wanxiang Che(参考訳) プログラム・オブ・ソート(PoT)は、その実行可能な中間ステップによって特徴づけられるアプローチであり、推論過程における数値計算の精度を保証する。 現在、PoTは主にPythonを使用している。 しかし、単一の言語にのみ依存すると、最適でない解決策が生まれ、他のプログラミング言語の潜在的な利点を見落としてしまう可能性がある。 本稿では,PoTで使用されるプログラミング言語の総合的な実験を行い,全てのタスクやモデルに対して一貫した最適な性能を提供する言語は存在しないことを明らかにする。 それぞれの言語の有効性は、特定のシナリオによって異なる。 そこで本研究では,多言語からの強みと多様性を生かした,MultiPoTと呼ばれるタスクとモデル非依存のアプローチを提案する。 実験の結果、Python Self-Consistencyを著しく上回ることがわかった。 さらに、すべてのモデルでほぼすべてのタスクで最高の単言語ポットと比較して、同等または優れたパフォーマンスを達成している。 特に、MultiPoTはStarcoderとChatGPT(gpt-3.5-turbo)で平均4.6\%以上の改善を実現している。

Program of Thoughts (PoT) is an approach characterized by its executable intermediate steps, which ensure the accuracy of the numerical calculations in the reasoning process. Currently, PoT primarily uses Python. However, relying solely on a single language may result in suboptimal solutions and overlook the potential benefits of other programming languages. In this paper, we conduct comprehensive experiments on the programming languages used in PoT and find that no single language consistently delivers optimal performance across all tasks and models. The effectiveness of each language varies depending on the specific scenarios. Inspired by this, we propose a task and model agnostic approach called MultiPoT, which harnesses strength and diversity from various languages. Experimental results reveal that it significantly outperforms Python Self-Consistency. Furthermore, it achieves comparable or superior performance compared to the best monolingual PoT in almost all tasks across all models. In particular, MultiPoT achieves more than 4.6\% improvement on average on both Starcoder and ChatGPT (gpt-3.5-turbo).
翻訳日:2024-02-19 16:03:29 公開日:2024-02-16
# 多文化コモンセンス知識蒸留

Multi-Cultural Commonsense Knowledge Distillation ( http://arxiv.org/abs/2402.10689v1 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Gerhard Weikum(参考訳) 近年の進歩にもかかわらず、大きな言語モデル(LLM)は、社会的・文化的慣習の複雑さに適切に対応するという課題に直面している。 本稿では,文化知識の高精度・高信頼なアサーションを蒸留する手法であるmangoについて述べる。 我々はこの目的のために,2つの視点,概念と文化から LLM を円滑かつ反復的に促す。 出力はクラスタリングと生成要約によって集約される。 GPT-3.5でMANGO法を実行すると、30Kのコンセプトと11Kの文化に対して167Kの高精度なアサーションが得られる。 本稿では,文化知識を付加した対話システムの拡張について検討する。 マンゴーに知識を加えることで、対話反応の全体的な品質、特異性、文化的感受性が向上することがわかった。 データとコードはダウンロード可能だ。

Despite recent progress, large language models (LLMs) still face the challenge of appropriately reacting to the intricacies of social and cultural conventions. This paper presents MANGO, a methodology for distilling high-accuracy, high-recall assertions of cultural knowledge. We judiciously and iteratively prompt LLMs for this purpose from two entry points, concepts and cultures. Outputs are consolidated via clustering and generative summarization. Running the MANGO method with GPT-3.5 as underlying LLM yields 167K high-accuracy assertions for 30K concepts and 11K cultures, surpassing prior resources by a large margin. For extrinsic evaluation, we explore augmenting dialogue systems with cultural knowledge assertions. We find that adding knowledge from MANGO improves the overall quality, specificity, and cultural sensitivity of dialogue responses, as judged by human annotators. Data and code are available for download.
翻訳日:2024-02-19 16:03:11 公開日:2024-02-16
# 大規模言語モデルのブラックボックスを開く: 統括的解釈可能性に関する2つの見解

Opening the Black Box of Large Language Models: Two Views on Holistic Interpretability ( http://arxiv.org/abs/2402.10688v1 )

ライセンス: Link先を確認
Haiyan Zhao, Fan Yang, Himabindu Lakkaraju, Mengnan Du(参考訳) 大規模言語モデル(llm)がより強力になると、毒性、不公平、幻覚といった潜在的な害に関する懸念がユーザーの信頼を脅かす。 したがって、モデルアライメントによるLLMと人間の価値の適切なアライメントを保証することは、LLMの振る舞いやメカニズムをより深く理解する必要がある。 本稿では,LLMのブラックボックスを,補完的なボトムアップとトップダウンの視点を含む全体論的解釈可能性の枠組みを通じて開放することを提案する。 ボトムアップビューは、機械的な解釈によって実現され、コンポーネントの機能とトレーニングダイナミクスに焦点を当てている。 トップダウンのビューは、隠れた表現を通して振る舞いを分析するために表現工学を利用する。 本稿では,機械的解釈と表現工学の展望を概観し,アプローチを要約し,限界と応用について議論し,これらの手法を人間の価値観に沿った倫理的,誠実で信頼性の高い推論に活用する今後の課題を概説する。

As large language models (LLMs) grow more powerful, concerns around potential harms like toxicity, unfairness, and hallucination threaten user trust. Ensuring beneficial alignment of LLMs with human values through model alignment is thus critical yet challenging, requiring a deeper understanding of LLM behaviors and mechanisms. We propose opening the black box of LLMs through a framework of holistic interpretability encompassing complementary bottom-up and top-down perspectives. The bottom-up view, enabled by mechanistic interpretability, focuses on component functionalities and training dynamics. The top-down view utilizes representation engineering to analyze behaviors through hidden representations. In this paper, we review the landscape around mechanistic interpretability and representation engineering, summarizing approaches, discussing limitations and applications, and outlining future challenges in using these techniques to achieve ethical, honest, and reliable reasoning aligned with human values.
翻訳日:2024-02-19 16:02:56 公開日:2024-02-16
# LongHeads:マルチヘッドアテンションは秘密裏に長いコンテキストプロセッサ

LongHeads: Multi-Head Attention is Secretly a Long Context Processor ( http://arxiv.org/abs/2402.10685v1 )

ライセンス: Link先を確認
Yi Lu, Xin Zhou, Wei He, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 大規模言語モデル(llm)は多くの領域で印象的な性能を発揮しているが、長大な入力を効果的かつ効率的に処理するのに苦労することが多い。 多くの者は、事前訓練された長さ内の注意窓を制限することでこれを緩和しようとした。 しかし、これらの手法は、中間の文脈を無視し、追加のトレーニングを必要とするなど、新しい問題をもたらす。 そこで本研究では,マルチヘッド・アテンションの未解決ポテンシャルを解き放つことで,llmの長文文脈能力を向上させるトレーニングフリー・フレームワークであるlongheadsを提案する。 オフ・オブ・ディストリビューション(OOD)問題による長いシーケンスの一般化に苦慮する全文に各頭が参加できるようにする代わりに、重要なコンテキストチャンクを選択して参加することで、各頭がイン・ディストリビューション長を処理できるようにする。 そこで本研究では,クエリとキー表現との間に固有の相関関係を生かして,コンテキストチャンクを異なるヘッドに効率的に分散するチャンク選択戦略を提案する。 このように、各ヘッドはトレーニングされた長さ内で出席トークンを効果的に処理し、異なるレイヤ内の異なるヘッドは、集合的に長いコンテキストを処理することができる。 LongHeadsは線形時間で効率的に動作し、相対的な位置エンコーディングを使用する多くのLCMとシームレスに適合する。 実験により,LongHeadsが既存モデルのコンテキストウインドウの拡張に有効であることを検証し,長文理解の強化を約束することを示す。

Large language models (LLMs) have achieved impressive performance in numerous domains but often struggle to process lengthy inputs effectively and efficiently due to limited length generalization and attention's quadratic computational demands. Many sought to mitigate this by restricting the attention window within the pre-trained length. However, these methods introduce new issues such as ignoring the middle context and requiring additional training. To address these problems, we propose LongHeads, a training-free framework that enhances LLM's long context ability by unlocking multi-head attention's untapped potential. Instead of allowing each head to attend to the full sentence, which struggles with generalizing to longer sequences due to out-of-distribution (OOD) issues, we allow each head to process in-distribution length by selecting and attending to important context chunks. To this end, we propose a chunk selection strategy that relies on the inherent correlation between the query and the key representations, efficiently distributing context chunks to different heads. In this way, each head ensures it can effectively process attended tokens within the trained length, while different heads in different layers can collectively process longer contexts. LongHeads works efficiently in linear time, fits seamlessly with many LLMs that use relative positional encoding. Our extensive empirical analyses verify LongHeads's efficacy in extending the usable context window for existing models, showcasing its promise for enhancing long text understanding.
翻訳日:2024-02-19 16:02:41 公開日:2024-02-16
# 言語駆動エンジニアリング 学際的ソフトウェア開発パラダイム

Language-Driven Engineering An Interdisciplinary Software Development Paradigm ( http://arxiv.org/abs/2402.10684v1 )

ライセンス: Link先を確認
Bernhard Steffen, Tiziana Margaria, Alexander Bainczyk, Steve Bo{\ss}elmann, Daniel Busch, Marc Driessen, Markus Frohme, Falk Howar, Sven J\"orges, Marvin Krause, Marco Krumrey, Anna-Lena Lamprecht, Michael Lybecait, Alnis Murtovi, Stefan Naujokat, Johannes Neubauer, Alexander Schieweck, Jonas Sch\"urmann, Steven Smyth, Barbara Steffen, Fabian Storek, Tim Tegeler, Sebastian Teumert, Dominic Wirkner, Philip Zweihoff(参考訳) 目的固有なグラフィカルモデリングによって、異なるレベルの専門知識を持つアプリケーション専門家が協調して設計し、目的固有モデリング言語を用いて複雑なアプリケーションを作成することができるかを説明する。 私たちの図には、完全なコード生成をサポートする7つのグラフィカル統合モデリング環境(IME)と、最も複雑なグラフィカルIMEであるDIMEを使用してモデル化され、完全に自動生成された4つのブラウザベースのアプリケーションが含まれています。 7つのIMEは言語駆動工学(LDE)アプローチで私たちがサポートしている言語の種類を説明するために選ばれましたが、4つのDIME製品は、LDE生成IMEのパワーを印象付けるために選ばれました。 実際、springer natureの将来のプロシージャの編集システムであるequinocsも完全に自動生成され、提示されたimesの1つであるrigで生成されたデプロイメントパイプラインを使用して、dordrechtサイトでデプロイされる。 私たちの技術はオープンソースで、現在製品が使用されています。

We illustrate how purpose-specific, graphical modeling enables application experts with different levels of expertise to collaboratively design and then produce complex applications using their individual, purpose-specific modeling language. Our illustration includes seven graphical Integrated Modeling Environments (IMEs) that support full code generation, as well as four browser-based applications that were modeled and then fully automatically generated and produced using DIME, our most complex graphical IME. While the seven IMEs were chosen to illustrate the types of languages we support with our Language-Driven Engineering (LDE) approach, the four DIME products were chosen to give an impression of the power of our LDE-generated IMEs. In fact, Equinocs, Springer Nature's future editorial system for proceedings, is also being fully automatically generated and then deployed at their Dordrecht site using a deployment pipeline generated with Rig, one of the IMEs presented. Our technology is open source and the products presented are currently in use.
翻訳日:2024-02-19 16:02:13 公開日:2024-02-16
# 省エネルギー高速フォワードスケーリング

Energy-saving fast-forward scaling ( http://arxiv.org/abs/2402.10683v1 )

ライセンス: Link先を確認
Takuya Hatomura(参考訳) 省エネ型高速フォワードスケーリングを提案する。 高速フォワードスケーリング(fast-forward scaling)は、与えられたダイナミクスを特定の測定基準でスピードアップ(あるいはスローダウン)できる手法である。 我々は,高速スケーリングのエネルギーコストを導入し,時間に依存しない計測基盤の省エネルギー化の可能性を見いだす。 具体的な例として,二段階系における省エネルギー高速フォワードスケーリングと一般イジングスピンガラスの量子アニーリングを示す。 また、時間に依存した測定基準の影響を議論し、不要なエネルギーコストに対する治療を行う。 その結果、エネルギー効率のよい量子技術の実現の道を開いた。

We propose energy-saving fast-forward scaling. Fast-forward scaling is a method which enables us to speedup (or slowdown) given dynamics in a certain measurement basis. We introduce energy costs of fast-forward scaling, and find possibility of energy-saving speedup for time-independent measurement bases. As concrete examples, we show such energy-saving fast-forward scaling in a two-level system and quantum annealing of a general Ising spin glass. We also discuss influence of a time-dependent measurement basis, and give a remedy for unwanted energy costs. The present results pave the way for realization of energy-efficient quantum technologies.
翻訳日:2024-02-19 16:01:55 公開日:2024-02-16
# 物理インフォームドメッシュGraphNets(PI-MGNs):任意のメッシュ上の非定常および非線形シミュレーションのためのニューラルネットワーク有限要素ソルバ

Physics-informed MeshGraphNets (PI-MGNs): Neural finite element solvers for non-stationary and nonlinear simulations on arbitrary meshes ( http://arxiv.org/abs/2402.10681v1 )

ライセンス: Link先を確認
Tobias W\"urth, Niklas Freymuth, Clemens Zimmerling, Gerhard Neumann, Luise K\"arger(参考訳) エンジニアリングコンポーネントは、より短い開発サイクルで技術的要求を満たす必要があります。 これらの課題に直面するためには、部品設計、材料システム、製造プロセスの同時開発を可能にする包括的なアプローチが不可欠である。 現在の手法では数値シミュレーションが採用されているが、特に反復最適化では計算集約化が急速に進んでいる。 データ駆動機械学習手法は、時間とリソース集約的な数値シミュレーションを置き換えるために使用できる。 特に、MeshGraphNets(MGNs)は有望な結果を示している。 最適化のために完全に微分可能でありながら、見えないメッシュジオメトリの高速で正確な予測を可能にする。 しかし、これらのモデルは数値シミュレーションのような高価なトレーニングデータに依存する。 物理情報ニューラルネットワーク(PINN)は、ラベル付きデータの代わりに偏微分方程式でニューラルネットワークを訓練する機会を提供するが、任意のメッシュの時間依存シミュレーションを扱うためにはまだ拡張されていない。 PI-MGNは、PINNとMGNを組み合わせて任意のメッシュ上の非定常および非線形偏微分方程式(PDE)を迅速かつ正確に解くハイブリッドアプローチである。 不均質な物質分布を持つ不均質な部品の熱過程シミュレーションに例証する。 さらに、モデルが大規模で複雑なメッシュによく拡張できることを示したが、小さな汎用メッシュのみでトレーニングされている。

Engineering components must meet increasing technological demands in ever shorter development cycles. To face these challenges, a holistic approach is essential that allows for the concurrent development of part design, material system and manufacturing process. Current approaches employ numerical simulations, which however quickly becomes computation-intensive, especially for iterative optimization. Data-driven machine learning methods can be used to replace time- and resource-intensive numerical simulations. In particular, MeshGraphNets (MGNs) have shown promising results. They enable fast and accurate predictions on unseen mesh geometries while being fully differentiable for optimization. However, these models rely on large amounts of expensive training data, such as numerical simulations. Physics-informed neural networks (PINNs) offer an opportunity to train neural networks with partial differential equations instead of labeled data, but have not been extended yet to handle time-dependent simulations of arbitrary meshes. This work introduces PI-MGNs, a hybrid approach that combines PINNs and MGNs to quickly and accurately solve non-stationary and nonlinear partial differential equations (PDEs) on arbitrary meshes. The method is exemplified for thermal process simulations of unseen parts with inhomogeneous material distribution. Further results show that the model scales well to large and complex meshes, although it is trained on small generic meshes only.
翻訳日:2024-02-19 16:01:44 公開日:2024-02-16
# 最小局所集合によるグラフの被覆

Covering a Graph with Minimal Local Sets ( http://arxiv.org/abs/2402.10678v1 )

ライセンス: Link先を確認
Nathan Claudet, Simon Perdrix(参考訳) 局所的補完の下で不変なグラフ構造である局所集合は、いわゆるグラフ状態形式論における量子絡み合いの研究のために量子コンピューティングの文脈で導入された。 グラフ内の局所集合は、その奇妙な近傍と共に空でない頂点の集合からなる。 任意のグラフは極小局所集合(つまり、すべての頂点は包含によって極小となる少なくとも1つの局所集合に含まれる)で被覆できることを示す。 より正確には、多項式時間で最小限の局所集合被覆を求めるアルゴリズムを導入する。 この結果は局所集合とカットランクの関係を探索することによって証明される。 極小局所集合にいくつかの追加の結果を証明し、その大きさに厳密な境界を与え、グラフに指数関数的に多くのものが存在することを示す。 最後に、私たちは定義の拡張と、量子quditグラフの状態のグラフィカルな対応である$q$-multigraphsへの主要な結果を提供します。

Local sets, a graph structure invariant under local complementation, have been originally introduced in the context of quantum computing for the study of quantum entanglement within the so-called graph state formalism. A local set in a graph is made of a non-empty set of vertices together with its odd neighborhood. We show that any graph can be covered by minimal local sets, i.e. that every vertex is contained in at least one local set that is minimal by inclusion. More precisely, we introduce an algorithm for finding a minimal local set cover in polynomial time. This result is proved by exploring the link between local sets and cut-rank. We prove some additional results on minimal local sets: we give tight bounds on their size, and we show that there can be exponentially many of them in a graph. Finally, we provide an extension of our definitions and our main result to $q$-multigraphs, the graphical counterpart of quantum qudit graph states.
翻訳日:2024-02-19 16:01:24 公開日:2024-02-16
# ネスト行列-テンソルモデルによるマルチビュークラスタリングの性能ギャップ

Performance Gaps in Multi-view Clustering under the Nested Matrix-Tensor Model ( http://arxiv.org/abs/2402.10677v1 )

ライセンス: Link先を確認
Hugo Lebeau, Mohamed El Amine Seddik, Jos\'e Henrique de Morais Goulart(参考訳) マルチビュークラスタリングによって動機付けられた古典的スパイク付きランク1テンソルモデルの拡張である,最近導入されたネスト付き行列テンソルモデルに隠れた植込み信号の推定について検討した。 先行研究は理論上はテンソルに基づく手法の性能を検証しており、これは計算的に難しい問題として知られる最高のランク1近似を見つけることに依存している。 扱いやすい代替アプローチは、観測されたテンソルデータの展開の最良のランク1(行列)近似を計算することで成り立っているが、その性能は未知である。 ここでは,2つのアプローチ間の性能ギャップを定量化し,特に,展開アプローチの精度の高いアルゴリズムしきい値の導出と,BBP型遷移挙動を示すことを示す。 したがって、この研究は、構造的テンソルデータを扱う上で、なぜテンソルベースのメソッドがマトリックスベースのメソッドを上回るのかを理解するための最近の貢献と一致している。

We study the estimation of a planted signal hidden in a recently introduced nested matrix-tensor model, which is an extension of the classical spiked rank-one tensor model, motivated by multi-view clustering. Prior work has theoretically examined the performance of a tensor-based approach, which relies on finding a best rank-one approximation, a problem known to be computationally hard. A tractable alternative approach consists in computing instead the best rank-one (matrix) approximation of an unfolding of the observed tensor data, but its performance was hitherto unknown. We quantify here the performance gap between these two approaches, in particular by deriving the precise algorithmic threshold of the unfolding approach and demonstrating that it exhibits a BBP-type transition behavior. This work is therefore in line with recent contributions which deepen our understanding of why tensor-based methods surpass matrix-based methods in handling structured tensor data.
翻訳日:2024-02-19 16:01:09 公開日:2024-02-16
# ドイツ語のテキスト単純化:半合成データを用いた大規模言語モデルの微調整

German Text Simplification: Finetuning Large Language Models with Semi-Synthetic Data ( http://arxiv.org/abs/2402.10675v1 )

ライセンス: Link先を確認
Lars Kl\"oser, Mika Beele, Jan-Niklas Schagen, Bodo Kraft(参考訳) 本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルの訓練を行う。 実際のオンラインテキストによるアプローチの有効性を実証する。 言語単純化におけるデータ不足の課題に対処するため、専門的に単純化されたドイツ語テキストをクロールし、GPT-4を用いてコーパスを合成した。 このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。 本稿では,様々な評価手法を用い,現在使用されているルールベースメトリクスの限界を実証する。 自動評価と手作業による評価では,実世界のオンラインテキストが大幅に単純化され,テキスト簡易化における合成データの可能性が示された。

This study pioneers the use of synthetically generated data for training generative models in document-level text simplification of German texts. We demonstrate the effectiveness of our approach with real-world online texts. Addressing the challenge of data scarcity in language simplification, we crawled professionally simplified German texts and synthesized a corpus using GPT-4. We finetune Large Language Models with up to 13 billion parameters on this data and evaluate their performance. This paper employs various methodologies for evaluation and demonstrates the limitations of currently used rule-based metrics. Both automatic and manual evaluations reveal that our models can significantly simplify real-world online texts, indicating the potential of synthetic data in improving text simplification.
翻訳日:2024-02-19 16:00:51 公開日:2024-02-16
# 注意喚起のための分解:ワークフローパラダイムによるLLMベースのテキスト-SQLの改善

Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL through Workflow Paradigm ( http://arxiv.org/abs/2402.10671v1 )

ライセンス: Link先を確認
Yuanzhen Xie, Xinzhou Jin, Tao Xie, MingXiong Lin, Liang Chen, Chenyun Yu, Lei Cheng, ChengXiang Zhuo, Bo Hu, Zang Li(参考訳) 大規模言語モデル(LLM)のインコンテキスト学習は自然言語処理の分野で顕著な成功を収めた一方、広範にわたるケーススタディでは、テキストからSQLのような複雑なタスクにおける注意拡散や不適切なパフォーマンスといった課題に直面している。 テキスト・トゥ・SQLにおけるLLMの文脈学習能力を改善するために,分解によるLLMの注目度と問題解決範囲の向上を目的としたワークフローパラダイム手法を提案する。 具体的には,冗長な情報を除去するための情報判定モジュールと,問題分類に基づく新しいプロンプト構造により,モデルの注目度が大幅に向上する。 さらに,自己修正およびアクティブ学習モジュールの導入により,LLMの問題解決範囲が大きく拡大し,LLMベースのアプローチの上限が向上する。 3つのデータセットで行った大規模な実験は、我々のアプローチが他の手法よりも大きなマージンで優れていることを示した。 Spider DevとSpider-Realisticデータセットの既存のベースラインと比較して約2~3ポイント改善され、Spider Testデータセットの新たなSOTA結果が達成された。 私たちのコードはGitHubで入手可能です。

In-context learning of large-language models (LLMs) has achieved remarkable success in the field of natural language processing, while extensive case studies reveal that the single-step chain-of-thought prompting approach faces challenges such as attention diffusion and inadequate performance in complex tasks like text-to-SQL. To improve the contextual learning capabilities of LLMs in text-to-SQL, a workflow paradigm method is proposed, aiming to enhance the attention and problem-solving scope of LLMs through decomposition. Specifically, the information determination module for eliminating redundant information and the brand-new prompt structure based on problem classification greatly enhance the model's attention. Additionally, the inclusion of self-correcting and active learning modules greatly expands the problem-solving scope of LLMs, hence improving the upper limit of LLM-based approaches. Extensive experiments conducted on three datasets demonstrate that our approach outperforms other methods by a significant margin. About 2-3 percentage point improvements compared to the existing baseline on the Spider Dev and Spider-Realistic datasets and new SOTA results on the Spider Test dataset are achieved. Our code is available on GitHub: \url{https://github.com/FlyingFeather/DEA-SQL}.
翻訳日:2024-02-19 16:00:39 公開日:2024-02-16
# OpenFMNav: Vision-Language Foundation Modelsによるオープンセットゼロショットオブジェクトナビゲーションを目指す

OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models ( http://arxiv.org/abs/2402.10670v1 )

ライセンス: Link先を確認
Yuxuan Kuang, Hai Lin, Meng Jiang(参考訳) オブジェクトナビゲーション(objectnav) エージェントは、クエリされたオブジェクトを見つけるために、見えない環境をナビゲートする必要がある。 従来の多くの手法では、教師付き学習や強化学習に頼って、近接したオブジェクトを持つ限られた家庭データセットでトレーニングを行おうとしていた。 しかし、オープンセットオブジェクトを要求する自由形式の自然言語命令を理解することと、ゼロショット方式で新しい環境に一般化することである。 本稿では、この2つの課題を解決するために、ゼロショットオブジェクトナビゲーションのためのオープンセット財団モデルベースのフレームワークOpenFMNavを提案する。 まず,ユーザの要求を満たす自然言語命令から提案したオブジェクトを抽出するために,大規模言語モデル(LLM)の推論能力を解き放つ。 次に、大規模視覚言語モデル(VLM)の一般化可能性を活用し、現場から候補対象を積極的に発見・検出し、VSSM(Versatile Semantic Score Map)を構築する。 そして,VSSM上で常識推論を行うことで,シーンの効果的な言語誘導探索と活用を行い,最終的に目標に到達する。 基礎モデルの推論と一般化機能を利用することで,自由形人間の指示を理解し,多様な環境において効果的なオープンセットゼロショットナビゲーションを行うことができる。 hm3d objectnavベンチマークの広範な実験により,提案手法がすべての測定値の強いベースラインを上回っており,提案手法の有効性が証明された。 さらに,本手法のオープンセット性と実環境への一般化性を検証するために,実ロボットによる実演を行う。

Object navigation (ObjectNav) requires an agent to navigate through unseen environments to find queried objects. Many previous methods attempted to solve this task by relying on supervised or reinforcement learning, where they are trained on limited household datasets with close-set objects. However, two key challenges are unsolved: understanding free-form natural language instructions that demand open-set objects, and generalizing to new environments in a zero-shot manner. Aiming to solve the two challenges, in this paper, we propose OpenFMNav, an Open-set Foundation Model based framework for zero-shot object Navigation. We first unleash the reasoning abilities of large language models (LLMs) to extract proposed objects from natural language instructions that meet the user's demand. We then leverage the generalizability of large vision language models (VLMs) to actively discover and detect candidate objects from the scene, building a Versatile Semantic Score Map (VSSM). Then, by conducting common sense reasoning on VSSM, our method can perform effective language-guided exploration and exploitation of the scene and finally reach the goal. By leveraging the reasoning and generalizing abilities of foundation models, our method can understand free-form human instructions and perform effective open-set zero-shot navigation in diverse environments. Extensive experiments on the HM3D ObjectNav benchmark show that our method surpasses all the strong baselines on all metrics, proving our method's effectiveness. Furthermore, we perform real robot demonstrations to validate our method's open-set-ness and generalizability to real-world environments.
翻訳日:2024-02-19 16:00:18 公開日:2024-02-16
# パッシブ状態における熱力学的資源としての量子スイッチ

Quantum switch as a thermodynamic resource in the context of passive states ( http://arxiv.org/abs/2402.10730v1 )

ライセンス: Link先を確認
Otavio A. D. Molitor and {\L}ukasz Rudnicki(参考訳) 近年、多くの研究が無期限因果秩序の利点を探求し、量子スイッチとして知られるその制御された実装に重点を置いている。 本稿では,量子スイッチがパッシブ状態(アクティブ制御状態)または余分な資源(アクティブ制御状態)および/または操作(制御システムの測定)を活性化できるかどうかを調べることで,量子熱力学の利点に挑戦する。 第1の可能性を否定し、第2の可能性を確かめることで、量子スイッチが議論された文脈における熱力学的リソースではないことを示す。 具体的な例として、ブロッホ球の x と y 軸のまわりに回転する量子ビット系と、U(2) 群からの一般ユニタリと、変位作用素を持つ量子調和振動子としての系と、変位演算子と収縮演算子の組み合わせを考察する。

In recent years many works have explored possible advantages of indefinite causal order, with the main focus on its controlled implementation known as quantum switch. In this paper, we tackle advantages in quantum thermodynamics, studying whether quantum switch is capable of activating a passive state: either alone or with extra resources (active control state) and/or operations (measurement of the control system). By disproving the first possibility and confirming the second one, we show that quantum switch is not a thermodynamic resource in the discussed context, though, it can facilitate work extraction given external resources. We discuss our findings by considering specific examples: a qubit system subject to rotations around the x and y axes in the Bloch sphere, as well as general unitaries from the U(2) group; and the system as a quantum harmonic oscillator with displacement operators, and with a combination of displacement and squeeze operators.
翻訳日:2024-02-19 15:52:42 公開日:2024-02-16
# 医用画像登録のための半教師付きニューラルネットワークトレーニング

Semi-weakly-supervised neural network training for medical image registration ( http://arxiv.org/abs/2402.10728v1 )

ライセンス: Link先を確認
Yiwen Li, Yunguan Fu, Iani J.M.B. Gayo, Qianye Yang, Zhe Min, Shaheer U. Saeed, Wen Yan, Yipei Wang, J. Alison Noble, Mark Emberton, Matthew J. Clarkson, Dean C. Barratt, Victor A. Prisacariu, Yipeng Hu(参考訳) 登録ネットワークの訓練には、セグメント化された対応地域(ROI)からの弱い監督が有効であることが証明されている。 (a)無監督法を補うこと、及び (b)教師なしの損失が使用不可能又は有効でない登録業務において独立に使用されること。 この対応性のある監視は、非常に専門的な努力を必要とするアノテーションのコストを必要とする。 本稿では,小さなROIラベル付きデータセットが利用可能である場合にのみモデル性能を向上させる半弱教師付き登録パイプラインについて述べる。 ネットワーク重みの摂動とイメージ再サンプリングによる2種類の拡張手法について検討し、一貫性に基づく教師なし損失を非競合データに適用する。 WarpDDFとRegCutのアプローチは、画像対と予測空間変換(すなわち、登録ネットワークの入力と出力)の間の可換な摂動を可能にするために提案され、分類やセグメンテーションのための既存の摂動法とは異なる。 589人の男性骨盤MRI画像に8つの解剖学的ROIをラベル付けした実験は、登録成績の改善と個々の戦略からの貢献を示す。 さらに本研究では,骨盤構造に対する最初の計算アトラスの1つを構築し,サブジェクト間mrsを登録することで実現し,アトラス由来統計の応用可能性に関する議論により,提案する半弱監視による有意な差を定量化する。

For training registration networks, weak supervision from segmented corresponding regions-of-interest (ROIs) have been proven effective for (a) supplementing unsupervised methods, and (b) being used independently in registration tasks in which unsupervised losses are unavailable or ineffective. This correspondence-informing supervision entails cost in annotation that requires significant specialised effort. This paper describes a semi-weakly-supervised registration pipeline that improves the model performance, when only a small corresponding-ROI-labelled dataset is available, by exploiting unlabelled image pairs. We examine two types of augmentation methods by perturbation on network weights and image resampling, such that consistency-based unsupervised losses can be applied on unlabelled data. The novel WarpDDF and RegCut approaches are proposed to allow commutative perturbation between an image pair and the predicted spatial transformation (i.e. respective input and output of registration networks), distinct from existing perturbation methods for classification or segmentation. Experiments using 589 male pelvic MR images, labelled with eight anatomical ROIs, show the improvement in registration performance and the ablated contributions from the individual strategies. Furthermore, this study attempts to construct one of the first computational atlases for pelvic structures, enabled by registering inter-subject MRs, and quantifies the significant differences due to the proposed semi-weak supervision with a discussion on the potential clinical use of example atlas-derived statistics.
翻訳日:2024-02-19 15:52:23 公開日:2024-02-16
# 厳密なスコーリングルールのためのリスク分解による予測不確かさ定量化

Predictive Uncertainty Quantification via Risk Decompositions for Strictly Proper Scoring Rules ( http://arxiv.org/abs/2402.10727v1 )

ライセンス: Link先を確認
Nikita Kotelevskii, Maxim Panov(参考訳) 予測の不確実性の源を断ち切ることは、様々な領域にわたる予測モデルの適用において重要である。 様々な不確実性対策が提案されているにもかかわらず、それらを解き放つ厳密な定義は存在しない。 さらに、不確実性定量化の異なる尺度間の関係は、いまだに不明である。 本研究では,統計推論に根ざした一般的な枠組みを導入し,新たな不確実性尺度の作成を可能にするだけでなく,それらの相互関係を明確化する。 本手法では,統計的リスクを活用し,認識的不確実性成分を識別し,適切なスコアリングルールを用いて定量化を行う。 この枠組みにベイズ的推論を組み込むことを提案し,提案した近似の性質について議論する。

Distinguishing sources of predictive uncertainty is of crucial importance in the application of forecasting models across various domains. Despite the presence of a great variety of proposed uncertainty measures, there are no strict definitions to disentangle them. Furthermore, the relationship between different measures of uncertainty quantification remains somewhat unclear. In this work, we introduce a general framework, rooted in statistical reasoning, which not only allows the creation of new uncertainty measures but also clarifies their interrelations. Our approach leverages statistical risk to distinguish aleatoric and epistemic uncertainty components and utilizes proper scoring rules to quantify them. To make it practically tractable, we propose an idea to incorporate Bayesian reasoning into this framework and discuss the properties of the proposed approximation.
翻訳日:2024-02-19 15:52:00 公開日:2024-02-16
# 状態トレースから計画行動モデルを学ぶ

Learning Planning Action Models from State Traces ( http://arxiv.org/abs/2402.10726v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Balyo, Martin Suda, Luk\'a\v{s} Chrpa, Dominik \v{S}afr\'anek, Filip Dvo\v{r}\'ak, Roman Bart\'ak, G. Michael Youngblood(参考訳) 状態トレースから学習する以前のSTRIPSドメインモデル取得アプローチは、学習すべきアクションの名前とパラメータから始まる。 したがって、彼らの唯一の仕事は、与えられたアクションの前提条件と効果を推測することである。 本研究では,学習行動のパラメータが提供されない状況における学習について検討する。 我々は,情報の提供状況に基づいてトレース品質のレベルを2つ定義し,それぞれにアルゴリズムを提案する。 あるレベル(L1)では、トレース中の状態はアクション名でラベル付けされているので、アクションの数と名前は推論できますが、パラメータの数とタイプを調査する必要があります。 他のレベル (l2) では、状態は対応する接地アクションのパラメータを構成するオブジェクトでラベル付けされる。 ここでは、学習したアクションのパラメータの型を推論する必要があります。 提案アルゴリズムを実験的に評価し,多数のiccベンチマークを用いた最先端学習ツールfamaと比較した。 評価の結果、新しいアルゴリズムはより高速で、より大きな入力を処理でき、より参照モデルに近い学習アクションモデルの観点でより良い結果が得られることがわかった。

Previous STRIPS domain model acquisition approaches that learn from state traces start with the names and parameters of the actions to be learned. Therefore their only task is to deduce the preconditions and effects of the given actions. In this work, we explore learning in situations when the parameters of learned actions are not provided. We define two levels of trace quality based on which information is provided and present an algorithm for each. In one level (L1), the states in the traces are labeled with action names, so we can deduce the number and names of the actions, but we still need to work out the number and types of parameters. In the other level (L2), the states are additionally labeled with objects that constitute the parameters of the corresponding grounded actions. Here we still need to deduce the types of the parameters in the learned actions. We experimentally evaluate the proposed algorithms and compare them with the state-of-the-art learning tool FAMA on a large collection of IPC benchmarks. The evaluation shows that our new algorithms are faster, can handle larger inputs and provide better results in terms of learning action models more similar to reference models.
翻訳日:2024-02-19 15:51:47 公開日:2024-02-16
# Cloud Kitchen: 計画ベースの複合AIによる食品デリバリープロセスの最適化

Cloud Kitchen: Using Planning-based Composite AI to Optimize Food Delivery Process ( http://arxiv.org/abs/2402.10725v1 )

ライセンス: Link先を確認
Slavom\'ir \v{S}vanc\'ar, Luk\'a\v{s} Chrpa, Filip Dvo\v{r}\'ak, Tom\'a\v{s} Balyo(参考訳) グローバルフードデリバリー市場は、世界の給餌効率を向上させるAIベースのサービスに多くの機会を提供する。 本稿では,フードデリバリーを行う飲食店の意思決定ツールとしてcloud kitchen platformと,その影響を評価するシミュレータについて述べる。 プラットフォームは、レストランやシミュレーターと通信するためのインターフェースを提供するTechnology-Specific Bridge (TSB) で構成されている。 TSBはPDDLモデルを使用して、統一計画フレームワーク(UPF)に組み込まれた決定を表現する。 顧客の注文を車両に割り当て、顧客がどの順序で配送するか(各車両について)を決定する決定は、この問題の効率的なツールであるVine Routing Problem with Time Windows (VRPTW)を介して行われる。 当社のプラットフォームによる意思決定は,現実の歴史的データセットを用いて納品の遅れを減らすことで,顧客満足度を向上させることができることを示す。

The global food delivery market provides many opportunities for AI-based services that can improve the efficiency of feeding the world. This paper presents the Cloud Kitchen platform as a decision-making tool for restaurants with food delivery and a simulator to evaluate the impact of the decisions. The platform consists of a Technology-Specific Bridge (TSB) that provides an interface for communicating with restaurants or the simulator. TSB uses a PDDL model to represent decisions embedded in the Unified Planning Framework (UPF). Decision-making, which concerns allocating customers' orders to vehicles and deciding in which order the customers will be served (for each vehicle), is done via a Vehicle Routing Problem with Time Windows (VRPTW), an efficient tool for this problem. We show that decisions made by our platform can improve customer satisfaction by reducing the number of delayed deliveries using a real-world historical dataset.
翻訳日:2024-02-19 15:51:31 公開日:2024-02-16
# 機械学習による脱落荷重の予測

Machine Learning based Prediction of Ditching Loads ( http://arxiv.org/abs/2402.10724v1 )

ライセンス: Link先を確認
Henning Schwarz, Micha \"Uberr\"uck, Jens-Peter M. Zemke, Thomas Rung(参考訳) 機械学習を用いて航空機のヒューズラグにおける動的グルーピング負荷の予測手法を提案する。 活用した学習手順は,畳み込みオートエンコーダ(cae)を用いた空間負荷の再構成と,それに続く負荷の過渡的進化という2つの部分からなる。 異なるcae戦略を評価し、long short-term memory (lstm) ネットワークまたはkoopman-operatorベースの手法と組み合わせて過渡的挙動を予測する。 トレーニングデータは、von-karmanとwagnerの運動量法の拡張によってコンパイルされ、トレーニングアプローチの理論的根拠を簡潔に要約する。 この用途は、DLR-D150航空機のフルスケールの胴体を6{\deg}の事故で水平および垂直の接近速度に向けたものである。 その結果, LSTMと深部復号器CAEの併用により, 調査対象のサロゲートモデル4モデルすべてに対して, 良好な予測一致が得られた。

We present approaches to predict dynamic ditching loads on aircraft fuselages using machine learning. The employed learning procedure is structured into two parts, the reconstruction of the spatial loads using a convolutional autoencoder (CAE) and the transient evolution of these loads in a subsequent part. Different CAE strategies are assessed and combined with either long short-term memory (LSTM) networks or Koopman-operator based methods to predict the transient behaviour. The training data is compiled by an extension of the momentum method of von-Karman and Wagner and the rationale of the training approach is briefly summarised. The application included refers to a full-scale fuselage of a DLR-D150 aircraft for a range of horizontal and vertical approach velocities at 6{\deg} incidence. Results indicate a satisfactory level of predictive agreement for all four investigated surrogate models examined, with the combination of an LSTM and a deep decoder CAE showing the best performance.
翻訳日:2024-02-19 15:51:15 公開日:2024-02-16
# Conformalized Credal Set Predictor

Conformalized Credal Set Predictors ( http://arxiv.org/abs/2402.10723v1 )

ライセンス: Link先を確認
Alireza Javanmardi, David Stutz, Eyke H\"ullermeier(参考訳) クレダル集合(英: Credal set)は、不正確な基底-真実分布の候補と考えられる確率分布の集合である。 機械学習において、彼らは近年、不確実性表現のための魅力的な形式主義として注目されている。 しかし, クレダル集合予測器を学習する手法の設計は依然として難しい問題である。 本稿では,この目的のために共形予測を利用する。 具体的には,確率分布をラベル付けしたトレーニングデータから,分類課題におけるクレダル集合の予測手法を提案する。 この手法は共形予測のカバレッジ保証を継承するので、共形クレダル集合は(モデルや分布の仮定なしで)高い確率で有効であることが保証される。 提案手法が自然言語推論に適用可能であることを示す。これは,例ごとに複数のアノテーションを取得することが一般的である,非常にあいまいな自然言語タスクである。

Credal sets are sets of probability distributions that are considered as candidates for an imprecisely known ground-truth distribution. In machine learning, they have recently attracted attention as an appealing formalism for uncertainty representation, in particular due to their ability to represent both the aleatoric and epistemic uncertainty in a prediction. However, the design of methods for learning credal set predictors remains a challenging problem. In this paper, we make use of conformal prediction for this purpose. More specifically, we propose a method for predicting credal sets in the classification task, given training data labeled by probability distributions. Since our method inherits the coverage guarantees of conformal prediction, our conformal credal sets are guaranteed to be valid with high probability (without any assumptions on model or distribution). We demonstrate the applicability of our method to natural language inference, a highly ambiguous natural language task where it is common to obtain multiple annotations per example.
翻訳日:2024-02-19 15:50:59 公開日:2024-02-16
# BioFusionNet:多機能・多モードデータ融合によるER+乳癌の深層学習による生存リスク階層化

BioFusionNet: Deep Learning-Based Survival Risk Stratification in ER+ Breast Cancer Through Multifeature and Multimodal Data Fusion ( http://arxiv.org/abs/2402.10717v1 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K.A. Millar, Arcot Sowmya, Erik Meijering(参考訳) 乳がんは世界中の何百万もの女性に影響を与える重要な健康上の懸念である。 正確な生存リスク階層化は、パーソナライズされた治療決定を誘導し、患者の成果を改善する上で重要な役割を果たす。 そこで本研究では,ER+乳癌患者の全身的プロファイルを達成し,生存リスク階層化を実現するために,画像由来の特徴を遺伝子および臨床データと融合するディープラーニングフレームワークであるBioFusionNetを提案する。 我々はDINOとMoCoV3という複数の自己監督型特徴抽出装置を用いて,病理組織像の特徴を捉える。 次に,これらの特徴を融合するために変分オートエンコーダ(vae)を使用し,vaeの潜在空間を利用して自己追跡ネットワークに供給し,患者レベルの特徴を生成する。 次に, 病理組織学的特徴と遺伝的データを組み合わせることで, モデルが相互の相互作用を捉えることを可能とする。 さらに、臨床データはフィードフォワードネットワーク(FFN)を用いて組み込まれ、予測性能をさらに向上し、総合的なマルチモーダル機能統合を実現する。 さらに,不均衡生存データを扱うために特別に設計された重み付きcox損失関数を導入する。 提案モデルは,平均一致指数 (c-index) が 0.77 であり, 曲線 (auc) 下の時間依存領域が 0.84 である。 単変量解析 (HR=2.99, 95% CI: 1.88--4.78, p<0.005) におけるリスク (高い対低い) を予測し、標準臨床病理学的変数(HR=2.91, 95% CI: 1.80--4.68, p<0.005)を取り入れた多変量解析において独立した重要性を維持する。 提案手法はモデル性能を向上するだけでなく,不均衡なデータを扱う際の重要なギャップにも対処する。

Breast cancer is a significant health concern affecting millions of women worldwide. Accurate survival risk stratification plays a crucial role in guiding personalised treatment decisions and improving patient outcomes. Here we present BioFusionNet, a deep learning framework that fuses image-derived features with genetic and clinical data to achieve a holistic patient profile and perform survival risk stratification of ER+ breast cancer patients. We employ multiple self-supervised feature extractors, namely DINO and MoCoV3, pretrained on histopathology patches to capture detailed histopathological image features. We then utilise a variational autoencoder (VAE) to fuse these features, and harness the latent space of the VAE to feed into a self-attention network, generating patient-level features. Next, we develop a co-dual-cross-attention mechanism to combine the histopathological features with genetic data, enabling the model to capture the interplay between them. Additionally, clinical data is incorporated using a feed-forward network (FFN), further enhancing predictive performance and achieving comprehensive multimodal feature integration. Furthermore, we introduce a weighted Cox loss function, specifically designed to handle imbalanced survival data, which is a common challenge in the field. The proposed model achieves a mean concordance index (C-index) of 0.77 and a time-dependent area under the curve (AUC) of 0.84, outperforming state-of-the-art methods. It predicts risk (high versus low) with prognostic significance for overall survival (OS) in univariate analysis (HR=2.99, 95% CI: 1.88--4.78, p<0.005), and maintains independent significance in multivariate analysis incorporating standard clinicopathological variables (HR=2.91, 95% CI: 1.80--4.68, p<0.005). The proposed method not only improves model performance but also addresses a critical gap in handling imbalanced data.
翻訳日:2024-02-19 15:50:43 公開日:2024-02-16
# 効率的な生成LLM推論のための言語間語彙適応に関する実証的研究

An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Generative LLM Inference ( http://arxiv.org/abs/2402.10712v1 )

ライセンス: Link先を確認
Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras(参考訳) state-of-the-art generative large language model (llms)の開発は、英語中心のトークンや語彙、事前学習データに依存する。 LLMには多言語機能があるにもかかわらず、近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。 その結果、推論時間とコストが増加する。 下流のパフォーマンス向上を目的としたターゲット言語へのモデル適応のために,言語間語彙適応手法が提案されている。 しかし, 生成LDMの推論効率向上に対するこれらの手法の有効性は未だ検討されていない。 本稿では,4つの言語と4つの自然言語理解タスクにまたがる5つの生成LLM(単言語モデルと多言語モデルを含む)に対して,言語間語彙適応手法の実証的研究を行った。 言語間の語彙適応はLLMの推論速度を最大271.5%に向上させる。 また、よりバランスの取れた多言語データに事前学習されたLLMを適用することで、元のモデルに匹敵するダウンストリーム性能が得られることを示す。

The development of state-of-the-art generative large language models (LLMs) disproportionately relies on English-centric tokenizers, vocabulary and pre-training data. Despite the fact that some LLMs have multilingual capabilities, recent studies have shown that their inference efficiency deteriorates when generating text in languages other than English. This results in increased inference time and costs. Cross-lingual vocabulary adaptation methods have been proposed for adapting models to a target language aiming to improve downstream performance. However, the effectiveness of these methods on increasing inference efficiency of generative LLMs has yet to be explored. In this paper, we perform an empirical study of various cross-lingual vocabulary adaptation methods on five generative LLMs (including monolingual and multilingual models) across four typologically-diverse languages and four natural language understanding tasks. We find that cross-lingual vocabulary adaptation substantially contributes to LLM inference speedups of up to 271.5%. We also show that adapting LLMs that have been pre-trained on more balanced multilingual data results in downstream performance comparable to the original models.
翻訳日:2024-02-19 15:50:03 公開日:2024-02-16
# 量子比は

The Quantum Ratio ( http://arxiv.org/abs/2402.10702v1 )

ライセンス: Link先を確認
Hans-Thomas Elze, Kenichi Konishi(参考訳) 量子比」の概念は、有限体温度における孤立巨視体の質量中心(cm)に対してニュートン方程式がどのように現れるかを理解するため、量子力学的方程式の最初の近似として最近登場した。 これは$q\equiv r_q/l_0$と定義され、量子揺らぎ範囲 $r_q$ は純状態cm波関数の空間拡張であり、$l_0$ は本体の線形サイズ(内部境界波関数の空間サポート)を表す。 r_q /l_0 \lesssim 1$ または $r_q/l_0 \gg 1$ の2つのケースは、それぞれ古典的または量子的に身体のcmに相当する。 本項では、この概念について詳しく述べ、いくつかの例を挙げる。 量子比の導入による重要な概念は、素粒子(電子と光子)が量子力学的であり、環境によって引き起こされたデコヒーレンスによって混合状態に変わったとしてもである。 デコヒーレンスや古典状態は特定してはならない。 この単純な観察は、原子や分子の過程を考慮し、生物学的システムにおける量子力学の働きに重大な影響を与える可能性がある。

The concept of {\it quantum ratio} emerged in the recent efforts to understand how Newton's equations appear for the center of mass (CM) of an isolated macroscopic body at finite body-temperatures, as the first approximation to quantum-mechanical equations. It is defined as $Q\equiv R_q/L_0$, where the quantum fluctuation range $R_q$ is the spatial extension of the pure-state CM wave function, whereas $L_0$ stands for the body's linear size (the space support of the internal, bound-state wave function). The two cases $R_q /L_0 \lesssim 1$ or $R_q/ L_0 \gg 1$, roughly correspond to the body's CM behaving classically or quantum mechanically, respectively. In the present note we elaborate more on this concept, illustrating it in several examples. An important notion following from introduction of the quantum ratio is that the elementary particles (thus the electron and the photon) are quantum mechanical, even when the environment-induced decoherence turns them into a mixed state. Decoherence and classical state should not be identified. This simple observation, further illustrated by the consideration of a few atomic or molecular processes, may have significant implications on the way quantum mechanics works in biological systems.
翻訳日:2024-02-19 15:49:46 公開日:2024-02-16
# 双発車体ネットワークは高密度地域での性能を高めるか?

Does Twinning Vehicular Networks Enhance Their Performance in Dense Areas? ( http://arxiv.org/abs/2402.10701v1 )

ライセンス: Link先を確認
Sarah Al-Shareeda, Sema F. Oktug, Yusuf Yaslan, Gokhan Yurdakul, Berk Canberk(参考訳) 本稿では,人口密度の高い都市部におけるネットワーク性能を高めるためのDigital Twins (DT) の可能性について検討する。 研究には2つの段階がある。 第1フェーズでは,交通データとAIクラスタリングを用いて,特に交通事故率の高い都市部において重要な場所を特定する。 フェーズIIでは,エッジベースツイン,クラウドベースツイン,ハイブリッドベースツインの3つの展開シナリオを通じて,ツインニング車両ネットワークの利点を評価する。 解析の結果,仮想双生児が物理的ネットワークを上回って,ネットワーク遅延を大幅に低減できることが示されている。 仮想双生児は、300台分の15.05秒のような車両密度が上昇しても低遅延を維持する。 さらに計算速度も速く、クラウドベースの双生児は特定のシナリオではエッジ双生児より1.7倍速い。 これらの知見は, 仮想双生児が密集地における車体ネットワークの強化に寄与する可能性を明らかにするとともに, 実世界の要因を検討することの重要性を強調した。

This paper investigates the potential of Digital Twins (DTs) to enhance network performance in densely populated urban areas, specifically focusing on vehicular networks. The study comprises two phases. In Phase I, we utilize traffic data and AI clustering to identify critical locations, particularly in crowded urban areas with high accident rates. In Phase II, we evaluate the advantages of twinning vehicular networks through three deployment scenarios: edge-based twin, cloud-based twin, and hybrid-based twin. Our analysis demonstrates that twinning significantly reduces network delays, with virtual twins outperforming physical networks. Virtual twins maintain low delays even with increased vehicle density, such as 15.05 seconds for 300 vehicles. Moreover, they exhibit faster computational speeds, with cloud-based twins being 1.7 times faster than edge twins in certain scenarios. These findings provide insights for efficient vehicular communication and underscore the potential of virtual twins in enhancing vehicular networks in crowded areas while emphasizing the importance of considering real-world factors when making deployment decisions.
翻訳日:2024-02-19 15:49:19 公開日:2024-02-16
# 人間ライクな翻訳戦略再考: 機械翻訳のための大規模言語モデルとドリフト拡散モデルの統合

Rethinking Human-like Translation Strategy: Integrating Drift-Diffusion Model with Large Language Models for Machine Translation ( http://arxiv.org/abs/2402.10699v1 )

ライセンス: Link先を確認
Hongbin Na, Zimu Wang, Mieradilijiang Maimaiti, Tong Chen, Wei Wang, Tao Shen, Ling Chen(参考訳) 大規模言語モデル(LLM)は、機械翻訳を含む様々な下流タスクにおいて有望な可能性を証明している。 しかし、LLMベースの機械翻訳の先行研究は主に、人間の翻訳者のような意思決定を考慮せず、トレーニングデータ、デモンストレーション、あるいは事前定義された普遍的な知識の活用に重点を置いている。 本稿では,ThinkerをDrift-Diffusion Model(Thinker-DDM)に組み込んでこの問題に対処する。 次にドリフト拡散プロセスを再定義し、制約されたリソース下での人間の翻訳者の動的意思決定をエミュレートする。 我々は、WMT22とCommonMTデータセットを用いて、高リソース、低リソース、コモンセンスの翻訳設定の下で広範な実験を行い、最初の2つのシナリオにおいてThinker-DDMがベースラインを上回った。 また,提案手法の有効性と有効性を示すために,コモンセンス翻訳のさらなる分析と評価を行う。

Large language models (LLMs) have demonstrated promising potential in various downstream tasks, including machine translation. However, prior work on LLM-based machine translation has mainly focused on better utilizing training data, demonstrations, or pre-defined and universal knowledge to improve performance, with a lack of consideration of decision-making like human translators. In this paper, we incorporate Thinker with the Drift-Diffusion Model (Thinker-DDM) to address this issue. We then redefine the Drift-Diffusion process to emulate human translators' dynamic decision-making under constrained resources. We conduct extensive experiments under the high-resource, low-resource, and commonsense translation settings using the WMT22 and CommonMT datasets, in which Thinker-DDM outperforms baselines in the first two scenarios. We also perform additional analysis and evaluation on commonsense translation to illustrate the high effectiveness and efficacy of the proposed method.
翻訳日:2024-02-19 15:49:00 公開日:2024-02-16
# ゼロショットビデオ質問応答のための質問指導視覚記述

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering ( http://arxiv.org/abs/2402.10698v1 )

ライセンス: Link先を確認
David Romero, Thamar Solorio(参考訳) 本稿では,複雑なアーキテクチャや計算コストの高いパイプライン,GPTなどのクローズドモデルなどに基づく従来の手法とは異なり,Q-ViDはフレーム記述を用いたビデオQAに対処するための単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。 具体的には,ビデオに関する対象質問に依拠するキャプション指示プロンプトを作成し,instructblipを利用して手元の作業に有用なビデオフレームキャプションを取得する。 その後,質問に依存したフレームキャプションを用いてビデオ全体の記述を作成し,その情報と質問応答プロンプトを大言語モデル(llm)に供給する。 LLMは我々の推論モジュールであり、多重選択QAの最終ステップを実行します。 我々の単純なQ-ViDフレームワークは、NExT-QA、STAR、How2QA、TVQA、IntentQAを含む様々なビデオQAベンチマークにおいて、現在の技術モデルよりも競争力や高いパフォーマンスを達成する。

We present Q-ViD, a simple approach for video question answering (video QA), that unlike prior methods, which are based on complex architectures, computationally expensive pipelines or use closed models like GPTs, Q-ViD relies on a single instruction-aware open vision-language model (InstructBLIP) to tackle videoQA using frame descriptions. Specifically, we create captioning instruction prompts that rely on the target questions about the videos and leverage InstructBLIP to obtain video frame captions that are useful to the task at hand. Subsequently, we form descriptions of the whole video using the question-dependent frame captions, and feed that information, along with a question-answering prompt, to a large language model (LLM). The LLM is our reasoning module, and performs the final step of multiple-choice QA. Our simple Q-ViD framework achieves competitive or even higher performances than current state of the art models on a diverse range of videoQA benchmarks, including NExT-QA, STAR, How2QA, TVQA and IntentQA.
翻訳日:2024-02-19 15:48:41 公開日:2024-02-16
# Unlink to Unlearn: GNNにおけるエッジアンラーニングの簡略化

Unlink to Unlearn: Simplifying Edge Unlearning in GNNs ( http://arxiv.org/abs/2402.10695v1 )

ライセンス: Link先を確認
Jiajun Tan, Fei Sun, Ruichen Qiu, Du Su, Huawei Shen(参考訳) データプライバシに関する懸念が強まるにつれ、グラフニューラルネットワーク(GNN)のアンラーニングは、アカデミックにおける顕著な研究フロンティアとして現れている。 この概念は、ユーザの要求に応じてトレーニングされたGNNから特定のデータを選択的に削除する必要がある、忘れられる権利を強制する上で重要である。 我々の研究は、エッジ・アンラーニング(エッジ・アンラーニング)に焦点を当てている。 gnndeleteのような最先端のアプローチは、特定のエッジの影響を排除できますが、私たちの研究は、オーバーフォーティングと呼ばれるこれらのアプローチに重大な制限があることを明らかにしました。 未学習プロセスが必然的に特定のデータを超えた過剰な情報を除去し、残りのエッジの予測精度が大幅に低下する。 この問題に対処するため,GNNDeleteの損失関数をオーバーフォッゲッティング現象の主要な原因として同定した。 さらに,実効的なエッジアンラーニングには損失関数が必須ではない可能性も示唆した。 これらの知見に基づいて、gnndeleteを単純化し、グラフ構造から忘れられたエッジをアンリンクすることで、学習のみを容易にする新しい方法であるunlink-to-unlearn(utu)を開発した。 我々の広範な実験は、UtUが下流タスクにおいて高い精度を維持しながら、トレーニングされたモデルと同等のプライバシー保護を提供することを示した。 特にUtUは、再訓練されたモデルのプライバシー保護能力の97.3%以上と、リンク予測精度の99.8%を支持している。 一方、UtUは一定の計算要求しか必要とせず、高度に軽量で実用的なエッジアンラーニングソリューションとしての優位性を強調している。

As concerns over data privacy intensify, unlearning in Graph Neural Networks (GNNs) has emerged as a prominent research frontier in academia. This concept is pivotal in enforcing the right to be forgotten, which entails the selective removal of specific data from trained GNNs upon user request. Our research focuses on edge unlearning, a process of particular relevance to real-world applications, owing to its widespread applicability. Current state-of-the-art approaches like GNNDelete can eliminate the influence of specific edges, yet our research has revealed a critical limitation in these approaches, termed over-forgetting. It occurs when the unlearning process inadvertently removes excessive information beyond specific data, leading to a significant decline in prediction accuracy for the remaining edges. To address this issue, we have identified the loss functions of GNNDelete as the primary source of the over-forgetting phenomenon. Furthermore, our analysis also suggests that loss functions may not be essential for effective edge unlearning. Building on these insights, we have simplified GNNDelete to develop Unlink-to-Unlearn (UtU), a novel method that facilitates unlearning exclusively through unlinking the forget edges from graph structure. Our extensive experiments demonstrate that UtU delivers privacy protection on par with that of a retrained model while preserving high accuracy in downstream tasks. Specifically, UtU upholds over 97.3% of the retrained model's privacy protection capabilities and 99.8% of its link prediction accuracy. Meanwhile, UtU requires only constant computational demands, underscoring its advantage as a highly lightweight and practical edge unlearning solution.
翻訳日:2024-02-19 15:48:18 公開日:2024-02-16
# 大規模言語モデルにおける最良の説明

Inference to the Best Explanation in Large Language Models ( http://arxiv.org/abs/2402.10767v1 )

ライセンス: Link先を確認
Dhairya Dalal, Marco Valentino, Andr\'e Freitas, and Paul Buitelaar(参考訳) LLM(Large Language Models)は現実世界のアプリケーションで成功しているが、その基礎となる説明プロセスはまだ理解されていない。 本稿では,llmsの説明の解釈と評価を進めるために,最善の説明(ibe)に対する推論に関する哲学的説明から着想を得たフレームワーク ibe-eval を提案する。 ibe-evalは、一貫性、パリティ、コヒーレンス、不確実性を含む明示的な論理的特徴と言語的特徴の組み合わせによって、自然言語説明の可能性を推定する。 因果質問回答(Causal Question Answering, CQA)では, LLMs (GPT 3.5, Llama 2) が生成する競合するもののうち, もっとも妥当な因果説明を選択するよう指示される。 実験の結果、ibe-evalは最大77\%の精度(約27\%$)で最良の説明を識別でき、gpt 3.5-as-a-judgeベースライン(約17\%$)を改良し、本質的に効率的かつ解釈可能であることが判明した。 さらに, モデル固有の差異にもかかわらず, LLM による説明は IBE の基準に適合する傾向にあり, IBE-Eval は人間の判断と大きく相関し, 自動説明検証ツールの今後の開発機会が開けることが示唆された。

While Large Language Models (LLMs) have found success in real-world applications, their underlying explanatory process is still poorly understood. This paper proposes IBE-Eval, a framework inspired by philosophical accounts on Inference to the Best Explanation (IBE) to advance the interpretation and evaluation of LLMs' explanations. IBE-Eval estimates the plausibility of natural language explanations through a combination of explicit logical and linguistic features including: consistency, parsimony, coherence, and uncertainty. Extensive experiments are conducted on Causal Question Answering (CQA), where \textit{IBE-Eval} is tasked to select the most plausible causal explanation amongst competing ones generated by LLMs (i.e., GPT 3.5 and Llama 2). The experiments reveal that IBE-Eval can successfully identify the best explanation with up to 77\% accuracy ($\approx 27\%$ above random), improving upon a GPT 3.5-as-a-Judge baseline ($\approx+17\%$) while being intrinsically more efficient and interpretable. Additional analyses suggest that, despite model-specific variances, LLM-generated explanations tend to conform to IBE criteria and that IBE-Eval is significantly correlated with human judgment, opening up opportunities for future development of automated explanation verification tools.
翻訳日:2024-02-19 15:42:53 公開日:2024-02-16
# cohesion-fairness harmonyに向けて:個々のフェアグラフクラスタリングにおける対比正規化

Towards Cohesion-Fairness Harmony: Contrastive Regularization in Individual Fair Graph Clustering ( http://arxiv.org/abs/2402.10756v1 )

ライセンス: Link先を確認
Siamak Ghodsi, Seyed Amjad Seyedi, and Eirini Ntoutsi(参考訳) 従来のフェアグラフクラスタリング手法は2つの主な課題に直面している。 一 厳格な制約を課すことにより、クラスター凝集を犠牲にしてバランスの取れたクラスターを優先すること。 二 グラフ分割における個人及びグループレベルの公平性に関する既存の手法は、主に固有分解に依存するため、一般に解釈可能性に欠ける。 これらの問題に対処するため、バランスの取れたクラスタと凝集性クラスタの整合性を両立する、対照的な公平性正則化を持つ、個別のフェアネス非負行列三要素化モデルiFairNMTFを提案する。 フェアネス正則化を導入することにより,非負行列三要素化による解釈性を損なうことなく,ユーザの自律性を高めることができる。 実データと合成データを用いた実験により,iFairNMTFの公正性とクラスタリング性能の優れた柔軟性が示された。

Conventional fair graph clustering methods face two primary challenges: i) They prioritize balanced clusters at the expense of cluster cohesion by imposing rigid constraints, ii) Existing methods of both individual and group-level fairness in graph partitioning mostly rely on eigen decompositions and thus, generally lack interpretability. To address these issues, we propose iFairNMTF, an individual Fairness Nonnegative Matrix Tri-Factorization model with contrastive fairness regularization that achieves balanced and cohesive clusters. By introducing fairness regularization, our model allows for customizable accuracy-fairness trade-offs, thereby enhancing user autonomy without compromising the interpretability provided by nonnegative matrix tri-factorization. Experimental evaluations on real and synthetic datasets demonstrate the superior flexibility of iFairNMTF in achieving fairness and clustering performance.
翻訳日:2024-02-19 15:42:25 公開日:2024-02-16
# Dataflow Analysisが大規模言語モデルに出会ったとき

When Dataflow Analysis Meets Large Language Models ( http://arxiv.org/abs/2402.10754v1 )

ライセンス: Link先を確認
Chengpeng Wang, Wuqi Zhang, Zian Su, Xiangzhe Xu, Xiaoheng Xie, Xiangyu Zhang(参考訳) データフロー分析は、プログラム値間の依存関係を推論し、コード最適化、プログラム理解、バグ検出をサポートする強力なコード解析技術である。 既存のアプローチでは、サブジェクトプログラムのコンパイルとダウンストリームアプリケーションのカスタマイズを成功させる必要がある。 本稿では,コンパイルインフラストラクチャを必要とせず任意のコードスニペットを解析し,下流アプリケーションを自動的に合成する,llmを活用したデータフロー解析フレームワークllmdfaを紹介する。 LLMDFAは、要約に基づくデータフロー分析にヒントを得て、問題を3つのサブプロブレムに分解する。 評価の結果,この設計は幻覚を緩和し,推論能力の向上,高精度化,ベンチマークプログラムにおけるデータフロー関連バグの検出におけるリコール,最新の産業分析装置を含む最先端(古典的)ツールよりも優れることが示された。

Dataflow analysis is a powerful code analysis technique that reasons dependencies between program values, offering support for code optimization, program comprehension, and bug detection. Existing approaches require the successful compilation of the subject program and customizations for downstream applications. This paper introduces LLMDFA, an LLM-powered dataflow analysis framework that analyzes arbitrary code snippets without requiring a compilation infrastructure and automatically synthesizes downstream applications. Inspired by summary-based dataflow analysis, LLMDFA decomposes the problem into three sub-problems, which are effectively resolved by several essential strategies, including few-shot chain-of-thought prompting and tool synthesis. Our evaluation has shown that the design can mitigate the hallucination and improve the reasoning ability, obtaining high precision and recall in detecting dataflow-related bugs upon benchmark programs, outperforming state-of-the-art (classic) tools, including a very recent industrial analyzer.
翻訳日:2024-02-19 15:42:08 公開日:2024-02-16
# ToolSword:3段階にわたるツール学習における大規模言語モデルの安全性問題

ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages ( http://arxiv.org/abs/2402.10753v1 )

ライセンス: Link先を確認
Junjie Ye, Sixian Li, Guanyu Li, Caishuang Huang, Songyang Gao, Yilong Wu, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。 現在の研究は、主にLDMの強化にツールを活用することを強調するが、アプリケーションに関連する新たな安全上の配慮を無視することが多い。 このギャップを埋めるために、ツール学習におけるLLMに関連する安全性問題を慎重に調査するための包括的なフレームワークである$ToolSword$を紹介します。 具体的には、ツール学習におけるllmの6つの安全性シナリオを記述している。入力ステージに$malicious$ $queries$と$jailbreak$$$acks$、実行ステージに$noisy$$$misdirection$と$risky$$cues$、出力ステージに$harmful$$$$feedback$と$error$$$$conflicts$である。 11のオープンソースおよびクローズドソースllmで実施された実験では、有害なクエリの処理、危険なツールの活用、有害なフィードバックの提供など、ツール学習における永続的な安全性の課題が明らかになった。 さらに,ツール学習の安全性に関する研究を促進するために,さらなる研究を行う。 データはhttps://github.com/junjie-ye/toolswordでリリースされる。

Tool learning is widely acknowledged as a foundational approach or deploying large language models (LLMs) in real-world scenarios. While current research primarily emphasizes leveraging tools to augment LLMs, it frequently neglects emerging safety considerations tied to their application. To fill this gap, we present $ToolSword$, a comprehensive framework dedicated to meticulously investigating safety issues linked to LLMs in tool learning. Specifically, ToolSword delineates six safety scenarios for LLMs in tool learning, encompassing $malicious$ $queries$ and $jailbreak$ $attacks$ in the input stage, $noisy$ $misdirection$ and $risky$ $cues$ in the execution stage, and $harmful$ $feedback$ and $error$ $conflicts$ in the output stage. Experiments conducted on 11 open-source and closed-source LLMs reveal enduring safety challenges in tool learning, such as handling harmful queries, employing risky tools, and delivering detrimental feedback, which even GPT-4 is susceptible to. Moreover, we conduct further studies with the aim of fostering research on tool learning safety. The data is released in https://github.com/Junjie-Ye/ToolSword.
翻訳日:2024-02-19 15:41:50 公開日:2024-02-16
# STF:ビデオオブジェクト検出を改善する時空間融合モジュール

STF: Spatio-Temporal Fusion Module for Improving Video Object Detection ( http://arxiv.org/abs/2402.10752v1 )

ライセンス: Link先を確認
Noreen Anwar, Guillaume-Alexandre Bilodeau and Wassim Bouachir(参考訳) ビデオ内の連続フレームには冗長性が含まれているが、検出タスクに関連する補完情報も含まれている。 私たちの研究の目的は、この補完的な情報を利用して検出を改善することです。 そこで我々は時空間融合フレームワーク(STF)を提案する。 まず、ニューラルネットワークが近くのフレーム間で特徴マップを共有できるマルチフレームおよびシングルフレームアテンションモジュールを導入し、より堅牢なオブジェクト表現を得る。 第2に、特徴マップを学習可能な方法でマージして改善するデュアルフレーム融合モジュールを導入する。 本評価は移動道路利用者のビデオシーケンスを含む3つのベンチマークで実施した。 実験により,提案する時空間融合モジュールは,ベースライン物体検出器と比較して検出性能が向上することを示した。 コードはhttps://github.com/noreenanwar/STF-moduleで入手できる。

Consecutive frames in a video contain redundancy, but they may also contain relevant complementary information for the detection task. The objective of our work is to leverage this complementary information to improve detection. Therefore, we propose a spatio-temporal fusion framework (STF). We first introduce multi-frame and single-frame attention modules that allow a neural network to share feature maps between nearby frames to obtain more robust object representations. Second, we introduce a dual-frame fusion module that merges feature maps in a learnable manner to improve them. Our evaluation is conducted on three different benchmarks including video sequences of moving road users. The performed experiments demonstrate that the proposed spatio-temporal fusion module leads to improved detection performance compared to baseline object detectors. Code is available at https://github.com/noreenanwar/STF-module
翻訳日:2024-02-19 15:41:24 公開日:2024-02-16
# 世界の別の身体:混合現実におけるフラッサー自由

Another Body in the World: Flusserian Freedom in Mixed Reality ( http://arxiv.org/abs/2402.10751v1 )

ライセンス: Link先を確認
Aven Le Zhou, Lei Xi, Kang Zhang(参考訳) フルセリアのメディア史観では、メディアが世界そのものとみなす世界は、人間が誤解することが多く、自由の喪失につながっている。 本稿では,MR(Mixed Reality)の文脈におけるフルッセル自由度について検討し,メディア(MR)内の世界の影を人間が認識し,それらの関係を理解する方法について考察する。 筆者らは,「Surrealism Me」と題するアートワークを通じて,装置と対戦し,投影された世界の知覚を意図的に疎外する概念を考察した。 このアートワークは、体感の定義に基づいたインタラクティブで没入的な体験を通じて、ユーザがmr内に別の体を持つことを可能にする。 この研究の目的は、メディアの支配に対する認識を高め、現代の技術的アレンジメントの中でフルセリアの自由に接近することである。

In Flusserian view of media history, humans often misperceive the world projected by media to be the world itself, leading to a loss of freedom. This paper examines Flusserian Freedom in the context of Mixed Reality (MR) and explores how humans can recognize the obscuration of the world within the media (i.e., MR) and understand their relationship. The authors investigate the concept of playing against apparatus and deliberately alienating the perception of the projected world through an artwork titled "Surrealism Me." This artwork enables the user to have another body within MR through interactive and immersive experiences based on the definition of Sense of Embodiment. The purpose of this work is to raise awareness of the domination of media and to approach Flusserian freedom within contemporary technical arrangements.
翻訳日:2024-02-19 15:41:11 公開日:2024-02-16
# 16ワードのノイズビート:マイクロコントローラの低消費電力不整脈分類用Tiny Transformer

A Noisy Beat is Worth 16 Words: a Tiny Transformer for Low-Power Arrhythmia Classification on Microcontrollers ( http://arxiv.org/abs/2402.10748v1 )

ライセンス: Link先を確認
Paola Busia, Matteo Antonio Scrugli, Victor Jean-Baptiste Jung, Luca Benini, Paolo Meloni(参考訳) 循環器疾患の長期モニタリングのためのウェアラブルシステムは, 診断・治療において広く, 貴重なものとなっている。 心電図(ECG)信号のリアルタイム解析と不整脈などの心臓状態の検出に対する有望なアプローチは、トランスフォーマー機械学習モデルによって表現される。 変換器は時系列分類の強力なモデルであるが、ウェアラブル領域における効率的な実装は、適切な精度と適切な複雑さを組み合わせるために重要な設計上の課題を提起する。 本研究では,6kパラメータしか必要とせず,MIT-BIH Arrhythmiaデータベースから最も一般的な5つの不整脈クラスを認識した場合に98.97%の精度でECG信号を解析するための小さな変換器モデルを提案する。 電極運動アーチファクトノイズに対するロバスト性を改善するための強化型トレーニング手法を検討した結果、98.36%の精度で配置後性能評価が最悪の結果となった。 ウェアラブル監視ソリューションの適合性は、推論の実行に4.28msと0.09mjを必要とする並列超低消費電力gap9プロセッサへの効率的なデプロイによって実証される。

Wearable systems for the long-term monitoring of cardiovascular diseases are becoming widespread and valuable assets in diagnosis and therapy. A promising approach for real-time analysis of the electrocardiographic (ECG) signal and the detection of heart conditions, such as arrhythmia, is represented by the transformer machine learning model. Transformers are powerful models for the classification of time series, although efficient implementation in the wearable domain raises significant design challenges, to combine adequate accuracy and a suitable complexity. In this work, we present a tiny transformer model for the analysis of the ECG signal, requiring only 6k parameters and reaching 98.97% accuracy in the recognition of the 5 most common arrhythmia classes from the MIT-BIH Arrhythmia database, assessed considering 8-bit integer inference as required for efficient execution on low-power microcontroller-based devices. We explored an augmentation-based training approach for improving the robustness against electrode motion artifacts noise, resulting in a worst-case post-deployment performance assessment of 98.36% accuracy. Suitability for wearable monitoring solutions is finally demonstrated through efficient deployment on the parallel ultra-low-power GAP9 processor, where inference execution requires 4.28ms and 0.09mJ.
翻訳日:2024-02-19 15:40:55 公開日:2024-02-16
# 連続型物理インフォームド降雨予報のための完全微分可能なラグランジアン畳み込みニューラルネットワーク

Fully Differentiable Lagrangian Convolutional Neural Network for Continuity-Consistent Physics-Informed Precipitation Nowcasting ( http://arxiv.org/abs/2402.10747v1 )

ライセンス: Link先を確認
Peter Pavl\'ik, Martin V\'yboh, Anna Bou Ezzeddine, Viera Rozinajov\'a(参考訳) 本稿では,データ駆動学習と物理インフォームドドメイン知識を組み合わせた降水流の畳み込みニューラルネットワークモデルを提案する。 LUPINは,従来の外挿に基づくガウキャスティング手法を取り入れ,データのラグランジアン座標系変換を,リアルタイムなエンドツーエンドのトレーニングと推論を可能にするために,完全に微分可能でGPUアクセラレーションされた方法で実装する。 我々の評価に基づいて、LUPINは選択したベンチマークのパフォーマンスと一致し、他のラグランジアン機械学習モデルの扉を開く。

This paper presents a convolutional neural network model for precipitation nowcasting that combines data-driven learning with physics-informed domain knowledge. We propose LUPIN, a Lagrangian Double U-Net for Physics-Informed Nowcasting, that draws from existing extrapolation-based nowcasting methods and implements the Lagrangian coordinate system transformation of the data in a fully differentiable and GPU-accelerated manner to allow for real-time end-to-end training and inference. Based on our evaluation, LUPIN matches and exceeds the performance of the chosen benchmark, opening the door for other Lagrangian machine learning models.
翻訳日:2024-02-19 15:40:29 公開日:2024-02-16
# 光ポンピング磁気センサのスピン投影ノイズと磁気感度

Spin projection noise and the magnetic sensitivity of optically pumped magnetometers ( http://arxiv.org/abs/2402.10746v1 )

ライセンス: Link先を確認
K. Mouloudakis, V. Koutrouli, I. K. Kominis, M. W. Mitchell, G. Vasilakis(参考訳) アルカリ金属アンサンブルを用いた光ポンピング磁気センサ(opm)の究極磁気感度を得るためのプロトコルは、伸縮状態における非相関原子に依存している。 スピンプロジェクションノイズ(SPN)制限信号とノイズ比(SNR)とOPMの磁気感度を計算するための新しい手法を提案する。 このモデルは平均場密度行列ダイナミクスのみに基づいており、従来のモデルとは対照的に、スピン分極の程度、超微視的・超微視的相関、デコヒーレンス過程、原子-光結合、スピンダイナミクスがスピン-ノイズスペクトルに与える影響を考慮して、低場と高場の両方に適用できる。 プローブ周波数の微調整により、異なる超微粒子状態と基底状態相関を探索できる。 特にスピン交換緩和自由 (SERF) 法では, 磁気共鳴狭角化と増数密度, SERF磁力計の目印とともに, 新しいSERF特性, スピン先行周波数におけるスピン投射ノイズの低減が, 適切なプローブでSPNを減衰する強相関超微細スピンの結果として生じることを報告した。

Present protocols for obtaining the ultimate magnetic sensitivity of optically pumped magnetometers (OPMs) utilizing alkali-metal ensembles rely on uncorrelated atoms in stretched states. A new approach for calculating the spin projection noise (SPN)-limited signal to noise ratio (SNR) and the magnetic sensitivity of OPMs is proposed. Our model is based solely on the mean-field density matrix dynamics and in contrast to previous models, it applies to both low and high field regimes, it takes into account the degree of spin polarization, the intra- and interhyperfine correlations, the decoherence processes, the atom-light coupling and the effects of the spin dynamics on the spin-noise spectra. Fine tuning of the probe frequency allow us to explore different hyperfine states and ground-state correlations. Especially in the spin-exchange-relaxation-free (SERF) regime, alongside the magnetic resonance narrowing and the increased number density, hallmarks of SERF magnetometers, we report on a new SERF feature; the reduction of spin-projection noise at the spin precession frequency as a consequence of strongly-correlated hyperfine spins that attenuate and redistribute SPN when properly probed.
翻訳日:2024-02-19 15:40:05 公開日:2024-02-16
# 分散量子アルゴリズムのシミュレーション

The simulation of distributed quantum algorithms ( http://arxiv.org/abs/2402.10745v1 )

ライセンス: Link先を確認
Sreraman Muralidharan(参考訳) 分散量子コンピューティング(DQC)は、複数の量子処理ユニットを用いて量子回路をシミュレートし、量子アルゴリズムを解く。 分散量子コンピュータのノードは、ローカル回路操作に不可欠なローカルキュービットと、ノード間の回路能力を拡張する通信キュービットの両方で構成されている。 Qiskitで書かれた分散量子回路シミュレータ(DQCS)を作成し、複数のノード上の量子回路をシミュレートし、その分散量子位相推定、振幅推定への適用性を示した。 我々はDQCSを用いて、確率分布の量子状態準備のためのDQCのスケーリングを研究する。

We study distributed quantum computing (DQC), the use of multiple quantum processing units to simulate quantum circuits and solve quantum algorithms. The nodes of a distributed quantum computer consist of both local qubits, essential for local circuit operations, and communication qubits, extending circuit capabilities across nodes. We created a distributed quantum circuit simulator (DQCS) written in Qiskit, which we use to simulate a quantum circuit on multiple nodes, show its applicability for distributed quantum phase estimation, amplitude estimation. We use DQCS to study the scaling of DQC for the quantum state preparation of a probability distribution.
翻訳日:2024-02-19 15:39:25 公開日:2024-02-16
# GenRES:大規模言語モデルの時代における生成的関係抽出のための再考

GenRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models ( http://arxiv.org/abs/2402.10744v1 )

ライセンス: Link先を確認
Pengcheng Jiang, Jiacheng Lin, Zifeng Wang, Jimeng Sun, Jiawei Han(参考訳) 関係抽出(RE)の分野は、大規模言語モデル(LLM)の機能を活用して、生成関係抽出(GRE)への顕著なシフトを経験している。 しかし、GRE法の評価において、精度やリコールといった従来の関係抽出(RE)指標が不足していることが判明した。 この欠点は、これらのメトリクスが人間の注釈付き参照関係と正確なマッチングに依存しているのに対して、GREメソッドは参照と異なる多様で意味的に正確な関係を生成することが多いためである。 このギャップを埋めるために, トピックの類似性, 特異性, 粒度, 事実性, およびgr結果の完全性の観点から, 多次元評価のためのジャンルを紹介する。 GenRESでは,(1)精度/リコールがGRE法の性能を正当化できないこと,(2)人間による注釈付き参照関係が不完全であること,(3)固定された関係や実体を持つLCMが幻覚を引き起こすことを実証的に確認した。 次に、GRE手法のヒト評価を行い、GenRESがRE品質に対するヒトの嗜好と一致していることを示す。 最後に, 文書, バッグ, 文レベルのREデータセットを用いた14種類のLLMの総合評価を行い, GREにおける将来の研究のためのベンチマークを設定した。

The field of relation extraction (RE) is experiencing a notable shift towards generative relation extraction (GRE), leveraging the capabilities of large language models (LLMs). However, we discovered that traditional relation extraction (RE) metrics like precision and recall fall short in evaluating GRE methods. This shortfall arises because these metrics rely on exact matching with human-annotated reference relations, while GRE methods often produce diverse and semantically accurate relations that differ from the references. To fill this gap, we introduce GenRES for a multi-dimensional assessment in terms of the topic similarity, uniqueness, granularity, factualness, and completeness of the GRE results. With GenRES, we empirically identified that (1) precision/recall fails to justify the performance of GRE methods; (2) human-annotated referential relations can be incomplete; (3) prompting LLMs with a fixed set of relations or entities can cause hallucinations. Next, we conducted a human evaluation of GRE methods that shows GenRES is consistent with human preferences for RE quality. Last, we made a comprehensive evaluation of fourteen leading LLMs using GenRES across document, bag, and sentence level RE datasets, respectively, to set the benchmark for future research in GRE
翻訳日:2024-02-19 15:39:07 公開日:2024-02-16
# テキストマイニングと自然言語処理研究による李秀一流の構文解析マップの構築

Construction of a Syntactic Analysis Map for Yi Shui School through Text Mining and Natural Language Processing Research ( http://arxiv.org/abs/2402.10743v1 )

ライセンス: Link先を確認
Hanqing Zhao and Yuehan Li(参考訳) エンティティと関係抽出は、知識グラフの構築、質問応答システム設計、意味分析などの自然言語処理タスクにおいて重要な要素である。 yshui School of traditional Chinese Medicine(TCM)の情報の大部分は、構造化されていない漢文の形で保存されている。 TCMテキストの鍵となる情報抽出は,TCMの学術研究において重要な役割を担っている。 In order to solve these problems efficiently using artificial intelligence methods, this study constructs a word segmentation and entity relationship extraction model based on conditional random fields under the framework of natural language processing technology to identify and extract the entity relationship of traditional Chinese medicine texts, and uses the common weighting technology of TF-IDF information retrieval and data mining to extract important key entity information in different ancient books. ニューラルネットワークに基づく係り受け構文解析器は、各古本論文の実体間の文法的関係を分析し、yishui学派の知識グラフの次の構築の基礎となる木構造可視化と、tcm学派の研究を行うための人工知能技術の利用とを表わす。

Entity and relationship extraction is a crucial component in natural language processing tasks such as knowledge graph construction, question answering system design, and semantic analysis. Most of the information of the Yishui school of traditional Chinese Medicine (TCM) is stored in the form of unstructured classical Chinese text. The key information extraction of TCM texts plays an important role in mining and studying the academic schools of TCM. In order to solve these problems efficiently using artificial intelligence methods, this study constructs a word segmentation and entity relationship extraction model based on conditional random fields under the framework of natural language processing technology to identify and extract the entity relationship of traditional Chinese medicine texts, and uses the common weighting technology of TF-IDF information retrieval and data mining to extract important key entity information in different ancient books. The dependency syntactic parser based on neural network is used to analyze the grammatical relationship between entities in each ancient book article, and it is represented as a tree structure visualization, which lays the foundation for the next construction of the knowledge graph of Yishui school and the use of artificial intelligence methods to carry out the research of TCM academic schools.
翻訳日:2024-02-19 15:37:52 公開日:2024-02-16
# PointMamba: ポイントクラウド分析のためのシンプルな状態空間モデル

PointMamba: A Simple State Space Model for Point Cloud Analysis ( http://arxiv.org/abs/2402.10739v1 )

ライセンス: Link先を確認
Dingkang Liang, Xin Zhou, Xinyu Wang, Xingkui Zhu, Wei Xu, Zhikang Zou, Xiaoqing Ye, Xiang Bai(参考訳) トランスフォーマーは、優れたグローバルモデリング能力により、ポイントクラウド分析タスクの基本アーキテクチャの1つになっている。 しかし,注意機構は二次的複雑度を持ち,計算資源の制限などにより長い系列モデリングに拡張することは困難である。 近年、深部配列モデルの新たなファミリーである状態空間モデル (SSM) が、NLPタスクにおけるシーケンスモデリングに大きな可能性を示している。 本稿では,nlpにおけるssmの成功から着想を得て,グローバルモデリングと線形複雑性を備えたフレームワークであるpointmambaを提案する。 具体的には,組込み点パッチを入力として,より論理的な幾何学的なスキャニング順序を提供することで,ssmのグローバルモデリング能力を向上させるための再順序付け戦略を提案する。 リオーダーされたポイントトークンは一連のMambaブロックに送信され、ポイントクラウド構造を因果的にキャプチャする。 実験結果から,提案するポイントマンバは,異なるポイントクラウド解析データセット上でトランスフォーマティブベースよりも優れており,44.3%のパラメータと25%のフラップを大幅に節約でき,基礎となる3次元視覚モデル構築の選択肢が示唆された。 PointMambaがポイントクラウド分析の新しい視点を提供することを期待しています。 コードはhttps://github.com/LMD0311/PointMambaで入手できる。

Transformers have become one of the foundational architectures in point cloud analysis tasks due to their excellent global modeling ability. However, the attention mechanism has quadratic complexity and is difficult to extend to long sequence modeling due to limited computational resources and so on. Recently, state space models (SSM), a new family of deep sequence models, have presented great potential for sequence modeling in NLP tasks. In this paper, taking inspiration from the success of SSM in NLP, we propose PointMamba, a framework with global modeling and linear complexity. Specifically, by taking embedded point patches as input, we proposed a reordering strategy to enhance SSM's global modeling ability by providing a more logical geometric scanning order. The reordered point tokens are then sent to a series of Mamba blocks to causally capture the point cloud structure. Experimental results show our proposed PointMamba outperforms the transformer-based counterparts on different point cloud analysis datasets, while significantly saving about 44.3% parameters and 25% FLOPs, demonstrating the potential option for constructing foundational 3D vision models. We hope our PointMamba can provide a new perspective for point cloud analysis. The code is available at https://github.com/LMD0311/PointMamba.
翻訳日:2024-02-19 15:36:57 公開日:2024-02-16
# 段階的に学習しよう:カリキュラム学習による文脈内学習能力の向上

Let's Learn Step by Step: Enhancing In-Context Learning Ability with Curriculum Learning ( http://arxiv.org/abs/2402.10738v1 )

ライセンス: Link先を確認
Yinpeng Liu and Jiawei Liu and Xiang Shi and Qikai Cheng and Wei Lu(参考訳) In-context Learning(ICL)の重要な戦略であるDemonstration Orderingは,大規模言語モデル(LLM)の性能に大きな影響を与える可能性がある。 しかし、現在の注文のアプローチのほとんどは、追加の知識と類似性計算を必要とする。 我々は、ICLの簡易かつ効果的な実演順序付け手法であるICCL(英語版)を提唱し、推論過程における素早い実演の複雑さを徐々に増大させることを示唆した。 次に, icclの有効性, llmのiccl能力形成機構, 発注課題の影響を考察するために, 3つの実験をデザインした。 インストラクションチューニング段階で開発されたICCLは,オープンソースLLMに有効であることを示す実験結果を得た。 さらに、LLMは、デモンストレーションの難易度を識別する上で、人間よりも弱い能力を示す。 コードはhttps://github.com/61peng/curri_learningでリリースします。

Demonstration ordering, which is an important strategy for in-context learning (ICL), can significantly affects the performance of large language models (LLMs). However, most of the current approaches of ordering require additional knowledge and similarity calculation. We advocate the few-shot in-context curriculum learning (ICCL), a simple but effective demonstration ordering method for ICL, which implies gradually increasing the complexity of prompt demonstrations during the inference process. Then we design three experiments to discuss the effectiveness of ICCL, the formation mechanism of LLM's ICCL capability, and the impact of ordering subjects. Experimental results demonstrate that ICCL, developed during the instruction-tuning stage, is effective for open-source LLMs. Moreover, LLMs exhibit a weaker capacity compared to humans in discerning the difficulty levels of demonstrations. We release our code at https://github.com/61peng/curri_learning.
翻訳日:2024-02-19 15:36:34 公開日:2024-02-16
# クレーム検証の文脈におけるChatGPTの推論能力の評価

Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification ( http://arxiv.org/abs/2402.10735v1 )

ライセンス: Link先を確認
John Dougrez-Lewis, Mahmud Elahi Akhter, Yulan He, Maria Liakata(参考訳) LLMの推論能力は、現在ホットな議論がなされている。 クレーム/噂の検証の観点から問題を考察する。 我々は,証拠と組み合わせた主張や噂を検証に必要な原子的推論ステップに分解するために設計された最初の論理推論フレームワークを提案する。 当社のフレームワークに基づいて,wikipediaの合成データセットとtwitter上の噂から派生した実世界のデータセットという,クレーム/エビデンスペアの注釈付きコレクションを2つ収集した。 GPT-3.5-Turbo と GPT-4 (以下 ChatGPT と呼ぶ) の推論能力をフレームワークのコンテキスト内で評価し,詳細な分析を行う。 以上の結果から,ChatGPTはZero Shot (ZS) やZS CoT (ZS) のアプローチと対照的に,手動のChain of Thought (CoT) を用いることで多少緩和できるが,帰納的推論に苦慮していることが明らかとなった。 本研究は,ChatGPTの推論プロセスが人間ライクな推論を反映する可能性が低いことを示唆し,特にクレーム検証のような実世界の課題において,ハイプと実際の能力を区別するために,LCMをより厳密に評価する必要があることを示唆する研究の組織に寄与する。

The reasoning capabilities of LLMs are currently hotly debated. We examine the issue from the perspective of claim/rumour verification. We propose the first logical reasoning framework designed to break down any claim or rumor paired with evidence into the atomic reasoning steps necessary for verification. Based on our framework, we curate two annotated collections of such claim/evidence pairs: a synthetic dataset from Wikipedia and a real-world set stemming from rumours circulating on Twitter. We use them to evaluate the reasoning capabilities of GPT-3.5-Turbo and GPT-4 (hereinafter referred to as ChatGPT) within the context of our framework, providing a thorough analysis. Our results show that ChatGPT struggles in abductive reasoning, although this can be somewhat mitigated by using manual Chain of Thought (CoT) as opposed to Zero Shot (ZS) and ZS CoT approaches. Our study contributes to the growing body of research suggesting that ChatGPT's reasoning processes are unlikely to mirror human-like reasoning, and that LLMs need to be more rigorously evaluated in order to distinguish between hype and actual capabilities, especially in high stake real-world tasks such as claim verification.
翻訳日:2024-02-19 15:36:19 公開日:2024-02-16
# MultiDimEr:多次元バグ解析ツール

MultiDimEr: a multi-dimensional bug analyzEr ( http://arxiv.org/abs/2402.10777v1 )

ライセンス: Link先を確認
Lakmal Silva, Michael Unterkalmsteiner, Krzysztof Wnuk(参考訳) 背景: バグとバグ管理は、ソフトウェア開発組織からのかなりの時間と労力を消費します。 バグの削減は、新機能開発の能力を大幅に改善する。 Aims: 技術的負債を特定するために、バグレポートの次元を分類して視覚化します。 この証拠は、実践者や意思決定者が改善作業を指揮するための議論の基盤としてだけでなく、根本原因分析の出発点としても役立ち、全体的なバグ流入を減らすことができる。 方法: バグレポートを分析し視覚化するツールMultiDimErを実装した。 このツールはEricssonで実装され、評価された。 結果: バグ解析のためにMultiDimErを用いた予備的な結果を示し, 特定のコンポーネント内でバグやバグの傾向を発生させるコンポーネントの同定に成功した。 結論:MultiDimErが提供するディメンションを解析することにより,バグレポートを異なるディメンションで分類・視覚化することで,バグホットスポットに関する議論を刺激し,障害スリップなどの技術的負債測定に使用する手動入力バグレポート属性の精度を検証することができることを示す。

Background: Bugs and bug management consumes a significant amount of time and effort from software development organizations. A reduction in bugs can significantly improve the capacity for new feature development. Aims: We categorize and visualize dimensions of bug reports to identify accruing technical debt. This evidence can serve practitioners and decision makers not only as an argumentative basis for steering improvement efforts, but also as a starting point for root cause analysis, reducing overall bug inflow. Method: We implemented a tool, MultiDimEr, that analyzes and visualizes bug reports. The tool was implemented and evaluated at Ericsson. Results: We present our preliminary findings using the MultiDimEr for bug analysis, where we successfully identified components generating most of the bugs and bug trends within certain components. Conclusions: By analyzing the dimensions provided by MultiDimEr, we show that classifying and visualizing bug reports in different dimensions can stimulate discussions around bug hot spots as well as validating the accuracy of manually entered bug report attributes used in technical debt measurements such as fault slip through.
翻訳日:2024-02-19 15:29:35 公開日:2024-02-16
# 脳腫瘍検出のためのin-Vivoハイパースペクトルヒト脳画像データベース

In-Vivo Hyperspectral Human Brain Image Database for Brain Cancer Detection ( http://arxiv.org/abs/2402.10776v1 )

ライセンス: Link先を確認
H. Fabelo, S. Ortega, A. Szolna, D. Bulters, J.F. Pineiro, S. Kabwama, A. Shanahan, H. Bulstrode, S. Bisshopp, B.R. Kiran, D. Ravi, R. Lazcano, D. Madronal, C. Sosa, C. Espino, M. Marquez, M. De la Luz Plaza, R. Camacho, D. Carrera, M. Hernandez, G.M. Callico, J. Morera, B. Stanciulescu, G.Z. Yang, R. Salvador, E. Juarez, C. Sanz and R. Sarmiento(参考訳) 近年,医療応用におけるハイパースペクトルイメージングの利用が一般的になりつつある。 医学応用のためのハイパースペクトルアルゴリズムを開発する際に研究者が発見する主な障害の1つは、特定、公開、ハイパースペクトル医療データの欠如である。 本研究は,神経外科手術中における脳腫瘍の非直線化へのハイパースペクトルイメージングの適用を主目的とした欧州プロジェクトHELICoiD (HypErspectraL Imaging Cancer Detection) の枠組み内で開発された。 本稿では,生体内ヒト脳組織の最初のハイパースペクトルデータベースを作成するための手法を提案する。 データは、VNIR(Visual and Near Infra Red)の情報を400nmから1000nmの範囲で取得できる、カスタマイズされたハイパースペクトル取得システムを用いて取得された。 同じシーンの2つの画像を連続的に撮影する場合の再現性を評価した。 解析の結果,450nmから900nmの範囲でより効率的に動作することが判明した。 22例から36例の高スペクトル像が得られた。 これらのデータから,スペクトル角マッパーアルゴリズムに基づく半自動的手法を用いて,300万以上のスペクトルシグネチャをラベル付けした。 正常組織,腫瘍組織,血管,背景因子の4つのクラスが定義された。 ハイパースペクトラルなデータはすべて、パブリックリポジトリで公開されている。

The use of hyperspectral imaging for medical applications is becoming more common in recent years. One of the main obstacles that researchers find when developing hyperspectral algorithms for medical applications is the lack of specific, publicly available, and hyperspectral medical data. The work described in this paper was developed within the framework of the European project HELICoiD (HypErspectraL Imaging Cancer Detection), which had as a main goal the application of hyperspectral imaging to the delineation of brain tumors in real-time during neurosurgical operations. In this paper, the methodology followed to generate the first hyperspectral database of in-vivo human brain tissues is presented. Data was acquired employing a customized hyperspectral acquisition system capable of capturing information in the Visual and Near InfraRed (VNIR) range from 400 to 1000 nm. Repeatability was assessed for the cases where two images of the same scene were captured consecutively. The analysis reveals that the system works more efficiently in the spectral range between 450 and 900 nm. A total of 36 hyperspectral images from 22 different patients were obtained. From these data, more than 300 000 spectral signatures were labeled employing a semi-automatic methodology based on the spectral angle mapper algorithm. Four different classes were defined: normal tissue, tumor tissue, blood vessel, and background elements. All the hyperspectral data has been made available in a public repository.
翻訳日:2024-02-19 15:29:17 公開日:2024-02-16
# 超伝導コプラナー導波路共振器における変調分光と2レベル系の非線形応答

Intermodulation spectroscopy and the nonlinear response of two-level systems in superconducting coplanar waveguide resonators ( http://arxiv.org/abs/2402.10775v1 )

ライセンス: Link先を確認
Janka Bizn\'arov\'a, J. C. Rivera Hern\'andez, Daniel Forchheimer, Jonas Bylander, David B. Haviland, Gustav Andersson(参考訳) 2レベルシステム(TLS)損失は通常、超伝導量子回路のコヒーレンスを制限する。 TLS欠陥による損失は非線形であり、循環するマイクロ波電力に強く依存する品質要因をもたらす。 この非線形性による周波数混合をコプレーナ導波路共振器に適用し、マルチ周波数ロックイン法を用いて相互変調積の測定により観測する。 この相互変調分光法は超伝導回路におけるTLS損失を効率的に評価する方法を提供する。 調和バランス再構成を用いて,TLSの標準トンネルモデルとよく一致したデバイス-TLS相互作用の非線形パラメータを復元する。

Two-level system (TLS) loss is typically limiting the coherence of superconducting quantum circuits. The loss induced by TLS defects is nonlinear, resulting in quality factors with a strong dependence on the circulating microwave power. We observe frequency mixing due to this nonlinearity by applying a two-tone drive to a coplanar waveguide resonator and measuring the intermodulation products using a multifrequency lock-in technique. This intermodulation spectroscopy method provides an efficient approach to characterizing TLS loss in superconducting circuits. Using harmonic balance reconstruction, we recover the nonlinear parameters of the device-TLS interaction, which are in good agreement with the standard tunnelling model for TLSs.
翻訳日:2024-02-19 15:28:54 公開日:2024-02-16
# 誤差フィードバックのリロード:滑らか度定数の擬似から算術的平均へ

Error Feedback Reloaded: From Quadratic to Arithmetic Mean of Smoothness Constants ( http://arxiv.org/abs/2402.10774v1 )

ライセンス: Link先を確認
Peter Richt\'arik, Elnur Gasanov, Konstantin Burlachenko(参考訳) EF(Error Feedback)は、分散トレーニング手法(分散GDやSGDなど)で発生する収束問題をTopKのような強欲な通信圧縮技術で強化する手法として、非常に人気があり、非常に効果的なメカニズムである。 efは10年近く前に提案されたものだが(seide et al., 2014)、このメカニズムの理論的理解を進めるためにコミュニティが集中的に努力しているにも関わらず、まだ多くの調査が必要である。 本研究では,現在最もよく知られている理論上の保証を提供するef21(richtarik et al., 2021)と呼ばれる,最も弱い仮定の下で,かつ実際に機能する近代的なエラーフィードバックの研究を行う。 特に、ef21の理論的な通信複雑性は、ある滑らかさパラメータの二次平均に依存するが、この依存度は、常に小さく、特に不均一なデータレジームにおいて、実質的に小さい算術平均に改善される。 私たちは読者を発見プロセスの旅に連れて行く。 EF21を(不運にも)機械クローンを必要とする根本問題の等価な再構成に適用するというアイデアから始め、クローンなしで(幸いにも)実行可能なEF21の新しい重み付きバージョンの発見を継続し、最終的に元のEF21法の改良分析に循環する。 この開発はEF21の最も単純な形式に適用されるが、我々のアプローチは確率勾配や部分的参加を含むより精巧なバリエーションにまで自然に拡張される。 さらに,本手法は稀な特徴体系(richtarik et al., 2023)におけるef21の最もよく知られた理論を改良する。 最後に,理論的な知見を適切な実験で検証する。

Error Feedback (EF) is a highly popular and immensely effective mechanism for fixing convergence issues which arise in distributed training methods (such as distributed GD or SGD) when these are enhanced with greedy communication compression techniques such as TopK. While EF was proposed almost a decade ago (Seide et al., 2014), and despite concentrated effort by the community to advance the theoretical understanding of this mechanism, there is still a lot to explore. In this work we study a modern form of error feedback called EF21 (Richtarik et al., 2021) which offers the currently best-known theoretical guarantees, under the weakest assumptions, and also works well in practice. In particular, while the theoretical communication complexity of EF21 depends on the quadratic mean of certain smoothness parameters, we improve this dependence to their arithmetic mean, which is always smaller, and can be substantially smaller, especially in heterogeneous data regimes. We take the reader on a journey of our discovery process. Starting with the idea of applying EF21 to an equivalent reformulation of the underlying problem which (unfortunately) requires (often impractical) machine cloning, we continue to the discovery of a new weighted version of EF21 which can (fortunately) be executed without any cloning, and finally circle back to an improved analysis of the original EF21 method. While this development applies to the simplest form of EF21, our approach naturally extends to more elaborate variants involving stochastic gradients and partial participation. Further, our technique improves the best-known theory of EF21 in the rare features regime (Richtarik et al., 2023). Finally, we validate our theoretical findings with suitable experiments.
翻訳日:2024-02-19 15:28:41 公開日:2024-02-16
# aim: メタモルフィックセキュリティテストのための自動入力セットの最小化

AIM: Automated Input Set Minimization for Metamorphic Security Testing ( http://arxiv.org/abs/2402.10773v1 )

ライセンス: Link先を確認
Nazanin Bayati Chaleshtari, Yoann Marquer, Fabrizio Pastore, and Lionel C. Briand(参考訳) インターネットに接続されたあらゆるマシンにアクセス可能なWebシステムにとって、セキュリティは重要な懸念事項である。 セキュリティテストは攻撃者が行うように工芸的なインプットを生成することで自動化できるが、テストオラクルを自動化するソリューション、すなわち与えられたインプットの間違ったアウトプットと正しく区別するソリューションは予備的のままである。 実際、セキュリティの失敗は、有効な入力を悪意のある入力に変換し、それらの出力を比較するメタモルフィックな関係によって決定できる。 しかし、それ以上のガイダンスがなければ、メタモルフィックな関係は、非常に大きな有効な入力セット上で実行されるべきであり、これは時間がかかり、メタモルフィックなテストは現実的ではない。 そこで本研究では,脆弱性検出機能を維持しつつ,テストコストを削減するために入力を自動的に選択するAIMを提案する。 AIMにはクラスタリングベースのブラックボックスアプローチが含まれており、セキュリティ特性に基づいて同様の入力を識別する。 また、コストを最小化しながら、多様な入力を効率的に選択できる新しい遺伝的アルゴリズムを提案する。 さらに、探索空間を縮小し、最小化処理を高速化するための問題低減成分を含む。 我々は、JenkinsとJoomlaの2つの有名なWebシステムにおけるAIMの有効性を評価した。 セキュリティテストでは,AIMの結果と4つのベースラインを比較した。 全体として、aimはjenkinsのmrs実行時間を84%削減し、joomlaでは82%削減した。 さらに、AIMは脆弱性カバレッジに関して考慮されたベースラインをすべて上回った。 Webシステム入力で動作するように調整されているが、他のコンテキストでのメタモルフィックテストコストを最小限に抑えるためにAIMを適用することができる。

For Web systems, which are accessible to any machine connected to internet, security is a critical concern. Although security testing can be automated by generating crafted inputs as an attacker would do, solutions to automate the test oracle, i.e., distinguishing correct from incorrect outputs for a given input, remain preliminary. Specifically, previous work has demonstrated the potential of metamorphic testing; indeed, security failures can be determined by metamorphic relations that turn valid inputs into malicious inputs and compare their outputs. However, without further guidance, metamorphic relations should be executed on a very large set of valid inputs, which is time consuming and makes metamorphic testing impractical. Hence, in this study, we propose AIM, an approach that automatically selects inputs to reduce testing costs while preserving vulnerability detection capabilities. AIM includes a clustering-based black box approach, identifying similar inputs based on their security properties. It also presents a novel genetic algorithm able to efficiently select diverse inputs while minimizing their total cost. Further, it contains a problem reduction component to reduce the search space and speed up the minimization process. We evaluated the effectiveness of AIM on two well-known web systems, Jenkins and Joomla. We compared AIM's results with four baselines in security testing. Overall, AIM reduced MRs execution time by 84 percent for Jenkins and 82 percent for Joomla while preserving full vulnerability detection. Furthermore, AIM outperformed all the considered baselines regarding vulnerability coverage. Although it has been tuned to work with Web system inputs, AIM could be applied to minimize metamorphic testing cost in other contexts.
翻訳日:2024-02-19 15:28:10 公開日:2024-02-16
# 早期融合と多言語モデルによるesgインパクトタイプ同定の促進

Enhancing ESG Impact Type Identification through Early Fusion and Multilingual Models ( http://arxiv.org/abs/2402.10772v1 )

ライセンス: Link先を確認
Hariram Veeramani, Surendrabikram Thapa, Usman Naseem(参考訳) 環境・社会・コーポレート・ガバナンス(ESG)による影響評価の進展の中で、ML-ESG-2共有タスクは、ESGの影響タイプを特定することを提案する。 そこで本研究では,初期および後期の融合アプローチを活かしたアンサンブル学習手法を活用した総合的なシステムを提案する。 本手法では,mBERT,FrauBERT-base,ALBERT-base-v2,Latent Semantic Analysis (LSA) とTerm Frequency-Inverse Document Frequency (TF-IDF) の4つの異なるモデルを用いる。 LSA,TF-IDF,mBERT,FrauBERT-base,ALBERT-base-v2を統合した初期の融合アンサンブルアプローチは,優れた性能を実現する。 当社のシステムは、ESGインパクト型識別ソリューションを包括的に提供し、今日の金融・企業管理の現場で不可欠な責任と持続可能な意思決定プロセスに寄与します。

In the evolving landscape of Environmental, Social, and Corporate Governance (ESG) impact assessment, the ML-ESG-2 shared task proposes identifying ESG impact types. To address this challenge, we present a comprehensive system leveraging ensemble learning techniques, capitalizing on early and late fusion approaches. Our approach employs four distinct models: mBERT, FlauBERT-base, ALBERT-base-v2, and a Multi-Layer Perceptron (MLP) incorporating Latent Semantic Analysis (LSA) and Term Frequency-Inverse Document Frequency (TF-IDF) features. Through extensive experimentation, we find that our early fusion ensemble approach, featuring the integration of LSA, TF-IDF, mBERT, FlauBERT-base, and ALBERT-base-v2, delivers the best performance. Our system offers a comprehensive ESG impact type identification solution, contributing to the responsible and sustainable decision-making processes vital in today's financial and corporate governance landscape.
翻訳日:2024-02-19 15:27:41 公開日:2024-02-16
# LLMの自動評価法はどの程度信頼性が高いか?

How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? ( http://arxiv.org/abs/2402.10770v1 )

ライセンス: Link先を確認
Ehsan Doostmohammadi, Oskar Holmstr\"om, Marco Kuhlmann(参考訳) 命令調整型大規模言語モデル (LLMs) の研究は, テキストオーバーラップに基づく自動手法とLCM判断を, 費用対効果の代替手段として用いている。 本稿では,このような手法の信頼性を多岐にわたるタスクや言語横断的な環境で検証する。 従来の結果とは対照的に,スコアがタスクタイプによって区別される場合,自動手法と人的評価器の相関関係にかなりのばらつきがみられる。 特に、広く使われているrouge-lメトリックは、短い英語のタスクに対する人間の判断と強い相関があるが、自由形生成タスクや言語間伝達では信頼できない。 評価器としてのGPT-4の有効性は、評価を促す際に基準回答を含めることに依存し、フリーフォーム生成タスクにおいて過度に厳密な評価につながる可能性がある。 要約すると、自動評価手法は人間の判断を特定の条件下で近似することができるが、信頼性は文脈に依存している。 本研究は,LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。

Work on instruction-tuned Large Language Models (LLMs) has used automatic methods based on text overlap and LLM judgments as cost-effective alternatives to human evaluation. In this paper, we study the reliability of such methods across a broad range of tasks and in a cross-lingual setting. In contrast to previous findings, we observe considerable variability in correlations between automatic methods and human evaluators when scores are differentiated by task type. Specifically, the widely-used ROUGE-L metric strongly correlates with human judgments for short-answer English tasks but is unreliable in free-form generation tasks and cross-lingual transfer. The effectiveness of GPT-4 as an evaluator depends on including reference answers when prompting for assessments, which can lead to overly strict evaluations in free-form generation tasks. In summary, we find that, while automatic evaluation methods can approximate human judgements under specific conditions, their reliability is highly context-dependent. Our findings enhance the understanding of how automatic methods should be applied and interpreted when developing and evaluating instruction-tuned LLMs.
翻訳日:2024-02-19 15:27:18 公開日:2024-02-16
# 蒸留による生成的検索の促進

Distillation Enhanced Generative Retrieval ( http://arxiv.org/abs/2402.10769v1 )

ライセンス: Link先を確認
Yongqi Li, Zhen Zhang, Wenjie Wang, Liqiang Nie, Wenjie Li, Tat-Seng Chua(参考訳) 生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。 このパラダイムは、伝統的なスパースや密度の高い検索方法とは異なる強力な生成言語モデルを活用する。 そこで本研究では, 蒸留による生成的検索をさらに促進するための有効な方向を特定し, DGR というフレームワークを提案する。 DGRは、教師の役割においてクロスエンコーダのような洗練されたランク付けモデルを使用して、二進的なハードラベルの代わりに様々な関連度を捉えた通過ランクリストを提供し、その後、教師モデルが提供する通過ランクの順序をラベルとして考慮し、生成検索モデルを最適化するために特別に設計されたロートネット損失を利用する。 このフレームワークは、現在の生成的検索システムを強化するために追加の蒸留ステップのみを必要とし、推論段階に負担を加えない。 本研究では,4つの公開データセットに対して実験を行い,DGRが生成的検索手法の最先端性能を達成することを示す。 さらに、DGRは様々な教師モデルと蒸留損失により、例外的な堅牢性と一般化性を示す。

Generative retrieval is a promising new paradigm in text retrieval that generates identifier strings of relevant passages as the retrieval target. This paradigm leverages powerful generative language models, distinct from traditional sparse or dense retrieval methods. In this work, we identify a viable direction to further enhance generative retrieval via distillation and propose a feasible framework, named DGR. DGR utilizes sophisticated ranking models, such as the cross-encoder, in a teacher role to supply a passage rank list, which captures the varying relevance degrees of passages instead of binary hard labels; subsequently, DGR employs a specially designed distilled RankNet loss to optimize the generative retrieval model, considering the passage rank order provided by the teacher model as labels. This framework only requires an additional distillation step to enhance current generative retrieval systems and does not add any burden to the inference stage. We conduct experiments on four public datasets, and the results indicate that DGR achieves state-of-the-art performance among the generative retrieval methods. Additionally, DGR demonstrates exceptional robustness and generalizability with various teacher models and distillation losses.
翻訳日:2024-02-19 15:26:59 公開日:2024-02-16
# パラ水素超偏極ダイナミクスのライブ磁気観察

Live magnetic observation of parahydrogen hyperpolarization dynamics ( http://arxiv.org/abs/2402.10766v1 )

ライセンス: Link先を確認
James Eills, Morgan W. Mitchell, Irene Marco Rius and Michael C. D. Tayler(参考訳) 核スピン超分極は物理学、化学、医学において平衡分極法で達成できない強い磁化を生成するために用いられる。 極超分極は磁気共鳴分光と微小サンプルによるイメージングを可能にし、MRIのスピントラッカーと偏光物理学のターゲットを生成するために用いられる。 広く使われているが、超分極過程のダイナミクスは、非常に低周波数(Hz帯)の周波数と/または使用した駆動磁場による検出器飽和のために「生きた」研究がなされていない。 ここでは,過分極の複雑なダイナミクスをリアルタイムで観察するために,pt以下の感度を持つ原子磁気センサを用いる。 パラ水素誘起の$^1$Hおよび$^{13}$Cの磁化は, プロセスの中心における状態交差を回避した$$\mu$T-fieldの断熱的固有基底変換における磁化の上昇から始まり, コヒーレント振動, 漏れ機構, 双極子シフトなど, ポストホック測定による観測が困難あるいは不可能なライブ過分極ダイナミクスが観察される。 次に,[1-$^{13}$C]-ピルビン酸 ([1-$^{13}$C]-ピルビン酸 ([1-$^{13}$C]-ピルビン酸) の化学交換駆動型$^{13}$C超分極を観察する手法を拡張した。 ハイパーポーラライゼーションの関心以外にも、リアルタイムの断熱遷移の観測はnmrの基本的な新しいアプローチであり、これまで隠れていた核スピンダイナミクスを明らかにし、様々な化学シナリオにおいて量子制御と生プロセス最適化を可能にする。

Nuclear spin hyperpolarization is used in physics, chemistry, and medicine to produce strong magnetization unachievable by equilibrium polarization techniques. Hyperpolarization enables magnetic resonance spectroscopy and imaging with minute samples, and is used to produce MRI spin-tracers and polarized physics targets. Although widely used, the dynamics of the hyperpolarization process have never been studied `live' due to the extremely low (Hz-band) frequencies involved, and/or detector saturation by the driving fields used. Here, we use an atomic magnetometer with sub-pT sensitivity to observe, in real time, the complex dynamics of hyperpolarization, without disturbing or disrupting the process. We start by examining parahydrogen-induced $^1$H and $^{13}$C magnetization build-up during adiabatic eigenbasis transformations in the $\mu$T-field avoided state crossings at the heart of the process; we see live hyperpolarization dynamics including coherent oscillations, leakage mechanisms and dipolar shifts that would be challenging or impossible to observe by post hoc measurement. We then extend the methods to observe the chemical-exchange-driven $^{13}$C hyperpolarization of [1-$^{13}$C]-pyruvate -- the most important spin tracer for clinical metabolic imaging. Beyond the interests of hyperpolarization, the observation of adiabatic transitions in real-time is a fundamentally new approach to NMR, reveals previously hidden nuclear spin dynamics and enables quantum control and live process optimization in a variety of chemical scenarios.
翻訳日:2024-02-19 15:26:41 公開日:2024-02-16
# 障害支援を伴うオフダイナミックスRLのポリシー学習

Policy Learning for Off-Dynamics RL with Deficient Support ( http://arxiv.org/abs/2402.10765v1 )

ライセンス: Link先を確認
Linh Le Pham Van and Hung The Tran and Sunil Gupta(参考訳) 強化学習(RL)は複雑な政策を効果的に学習することができる。 しかし、これらのポリシーを学ぶには、環境との広範囲な試行錯誤の相互作用を必要とすることが多い。 多くの現実のシナリオでは、このアプローチはデータ収集と安全性の懸念が高いため実用的ではない。 結果として、低コストで迅速なソースシミュレータでトレーニングされたポリシーを実際のターゲット環境に移すことが一般的な戦略となる。 しかし、このプロセスは困難をもたらす。 シミュレータは、どんなに高度なものであっても、現実世界の複雑さを完全に再現することはできないため、ソースとターゲット環境のダイナミクスの相違につながる。 過去の研究は、ソースドメインはすべての可能なターゲット遷移を包含しなければならないと仮定した。 しかし、特に大きなダイナミクスの相違が生じるシナリオでは、完全なサポートを期待するのは現実的ではないことが多い。 本稿では,大規模動的ミスマッチ適応への取り組みに重点を移す。 従来の研究の厳格な完全サポート状態から脱却し、ターゲットドメインに対して効果的なポリシーを構築することに注力する。 提案手法は単純だが有効である。 ストーイングとソースサポートの拡張という中心的な概念で、サポート不足を軽減するためにターゲットサポートに固定されている。 各種ベンチマークの総合的なテストを通じて,提案手法の有効性が注目され,従来の手法よりも顕著な改善が見られた。

Reinforcement Learning (RL) can effectively learn complex policies. However, learning these policies often demands extensive trial-and-error interactions with the environment. In many real-world scenarios, this approach is not practical due to the high costs of data collection and safety concerns. As a result, a common strategy is to transfer a policy trained in a low-cost, rapid source simulator to a real-world target environment. However, this process poses challenges. Simulators, no matter how advanced, cannot perfectly replicate the intricacies of the real world, leading to dynamics discrepancies between the source and target environments. Past research posited that the source domain must encompass all possible target transitions, a condition we term full support. However, expecting full support is often unrealistic, especially in scenarios where significant dynamics discrepancies arise. In this paper, our emphasis shifts to addressing large dynamics mismatch adaptation. We move away from the stringent full support condition of earlier research, focusing instead on crafting an effective policy for the target domain. Our proposed approach is simple but effective. It is anchored in the central concepts of the skewing and extension of source support towards target support to mitigate support deficiencies. Through comprehensive testing on a varied set of benchmarks, our method's efficacy stands out, showcasing notable improvements over previous techniques.
翻訳日:2024-02-19 15:26:01 公開日:2024-02-16
# 不公平を説明する - 概観

On Explaining Unfairness: An Overview ( http://arxiv.org/abs/2402.10762v1 )

ライセンス: Link先を確認
Christos Fragkathoulas, Vasiliki Papanikou, Danae Pla Karidi, Evaggelia Pitoura(参考訳) アルゴリズムの公正性と説明可能性は、責任あるAIを達成するための基本的な要素である。 本稿では,近年注目度が高まっている研究分野であるインタラクションに注目した。 この目的のために、我々はまず2つの総合的な分類を提示し、それぞれが2つの相補的な研究分野の1つを代表している。 次に、フェアネスの説明を3つのタイプに分類する。 (a)公正度指標を高めるための説明 (b)不公平の原因を理解するのに役立つ説明 (c)不公平を緩和するための方法の設計を支援するための説明 最後に、我々の公平さと説明の分類に基づいて、将来の研究にとって貴重な洞察となるギャップを明らかにする未発見の文献パスを示す。

Algorithmic fairness and explainability are foundational elements for achieving responsible AI. In this paper, we focus on their interplay, a research area that is recently receiving increasing attention. To this end, we first present two comprehensive taxonomies, each representing one of the two complementary fields of study: fairness and explanations. Then, we categorize explanations for fairness into three types: (a) Explanations to enhance fairness metrics, (b) Explanations to help us understand the causes of (un)fairness, and (c) Explanations to assist us in designing methods for mitigating unfairness. Finally, based on our fairness and explanation taxonomies, we present undiscovered literature paths revealing gaps that can serve as valuable insights for future research.
翻訳日:2024-02-19 15:25:43 公開日:2024-02-16
# RAGIC:ストックインターバル構築のためのリスク対応型生成逆数モデル

RAGIC: Risk-Aware Generative Adversarial Model for Stock Interval Construction ( http://arxiv.org/abs/2402.10760v1 )

ライセンス: Link先を確認
Jingyi Gu, Wenlu Du, Guiling Wang(参考訳) 株式市場の結果を予測する努力は、多くの予測不能な要因の影響を受けて、市場の本質的に確率的な性質のため、限られた成功に繋がった。 既存の予測アプローチの多くは単一ポイント予測に重点を置いており、効果的な意思決定に必要な深さを欠き、しばしば市場リスクを見落としている。 そこで本研究では,不確実性をより効果的に定量化するために,在庫間隔予測のためのシーケンス生成を導入する新しいモデルであるragicを提案する。 提案手法は,GAN(Generative Adversarial Network)を利用して,金融市場固有のランダムな価格列を生成する。 RAGICのジェネレータには、情報投資家のリスク認識をキャプチャするリスクモジュールと、歴史的価格動向と季節性を考慮した時間モジュールが含まれている。 この多面発生器は、統計的推測を通じて、水平方向の洞察を取り入れたリスク感受性区間の作成を通知する。 間隔の幅は市場のボラティリティを反映して慎重に調整される。 重要なことは、我々のアプローチは一般に利用可能なデータにのみ依存しており、計算オーバーヘッドが低いだけである。 ragicのグローバルに認識された広範な指標に対する評価は、そのバランスの取れたパフォーマンスを示し、正確性と情報性の両方を提供する。 一貫した95%のカバレッジを達成するため、RAGICは狭い間隔幅を維持している。 この有望な結果は,本手法が重要なリスク考慮を取り入れつつ,株式市場予測の課題に効果的に対処することを示唆している。

Efforts to predict stock market outcomes have yielded limited success due to the inherently stochastic nature of the market, influenced by numerous unpredictable factors. Many existing prediction approaches focus on single-point predictions, lacking the depth needed for effective decision-making and often overlooking market risk. To bridge this gap, we propose a novel model, RAGIC, which introduces sequence generation for stock interval prediction to quantify uncertainty more effectively. Our approach leverages a Generative Adversarial Network (GAN) to produce future price sequences infused with randomness inherent in financial markets. RAGIC's generator includes a risk module, capturing the risk perception of informed investors, and a temporal module, accounting for historical price trends and seasonality. This multi-faceted generator informs the creation of risk-sensitive intervals through statistical inference, incorporating horizon-wise insights. The interval's width is carefully adjusted to reflect market volatility. Importantly, our approach relies solely on publicly available data and incurs only low computational overhead. RAGIC's evaluation across globally recognized broad-based indices demonstrates its balanced performance, offering both accuracy and informativeness. Achieving a consistent 95% coverage, RAGIC maintains a narrow interval width. This promising outcome suggests that our approach effectively addresses the challenges of stock market prediction while incorporating vital risk considerations.
翻訳日:2024-02-19 15:25:36 公開日:2024-02-16
# 反復的後方サンプリングによる確率的局在化

Stochastic Localization via Iterative Posterior Sampling ( http://arxiv.org/abs/2402.10758v1 )

ライセンス: Link先を確認
Louis Grenioux, Maxence Noble, Marylou Gabri\'e, Alain Oliviero Durmus(参考訳) スコアに基づく学習によって、確率的ローカライゼーション技術への新たな関心が高まっている。 これらのモデルでは、観測過程と呼ばれる確率過程を通してデータ分布からサンプルをノイズにし、このダイナミクスに関連するデノイザーを徐々に学習しようとする。 特定の応用とは別に、非正規化対象密度からのサンプリング問題に対する確率的局所化の利用は、広く研究されていない。 この仕事はこのギャップを埋めるのに役立ちます。 一般的な確率的局所化フレームワークを考察し、フレキシブルな偏極スケジュールに関連する観察過程の明示的なクラスを導入する。 我々は,この動力学の近似的なサンプルを得るために, 反復的後方サンプリングによる非定常的局所化 (slips) という完全な手法を提案し, 対象分布から副生成物としてサンプルを得る。 提案手法は, マルコフ連鎖モンテカルロ推定法に基づいてデノイザーを推定し, 詳細な実用ガイドラインを提示する。 本稿では,拡張次元のガウス混合,ベイジアンロジスティック回帰,統計力学による高次元場システムなど,SLIPSの利点と適用性について述べる。

Building upon score-based learning, new interest in stochastic localization techniques has recently emerged. In these models, one seeks to noise a sample from the data distribution through a stochastic process, called observation process, and progressively learns a denoiser associated to this dynamics. Apart from specific applications, the use of stochastic localization for the problem of sampling from an unnormalized target density has not been explored extensively. This work contributes to fill this gap. We consider a general stochastic localization framework and introduce an explicit class of observation processes, associated with flexible denoising schedules. We provide a complete methodology, $\textit{Stochastic Localization via Iterative Posterior Sampling}$ (SLIPS), to obtain approximate samples of this dynamics, and as a by-product, samples from the target distribution. Our scheme is based on a Markov chain Monte Carlo estimation of the denoiser and comes with detailed practical guidelines. We illustrate the benefits and applicability of SLIPS on several benchmarks, including Gaussian mixtures in increasing dimensions, Bayesian logistic regression and a high-dimensional field system from statistical-mechanics.
翻訳日:2024-02-19 15:25:10 公開日:2024-02-16
# RV-GOMEAを用いたグレーボックス最適化のための適合性に基づくリンク学習と最大斜め条件付きリンクモデル

Fitness-based Linkage Learning and Maximum-Clique Conditional Linkage Modelling for Gray-box Optimization with RV-GOMEA ( http://arxiv.org/abs/2402.10757v1 )

ライセンス: Link先を確認
Georgios Andreadis, Tanja Alderliesten, Peter A.N. Bosman(参考訳) 多くの実世界の最適化問題において、部分的な評価を行うことは可能であり、つまり、数変数の変更がソリューションの適合性に与える影響を非常に効率的に計算することができる。 このような部分的な評価は、問題変数間の依存関係をキャプチャするリンケージモデルを用いて、Real-Valued GOMEA (RV-GOMEA) によって優れていることが示されている。 近年, rv-gomeaでは条件付きリンクモデルが導入され, 重なり合う依存性の問題においても最先端の性能が向上した。 しかし、その作業は依存関係構造が先入観として知られていると仮定した。 適合度に基づくリンケージ学習技術は、これまで最適化中に依存性を検出するために用いられてきたが、非条件リンケージモデルに限られていた。 本研究では,適合度に基づくリンク学習と条件付きリンクモデリングを組み合わせたRV-GOMEAを提案する。 さらに,条件付きリンケージモデルにおける重なり合う依存性をモデル化し,変数の完全相互依存群の同時サンプリングを最大化する新しい手法を提案する。 その結果得られたrv-gomea と rv-gomea および vkd-cma の他の変種との比較を行った。 新たな RV-GOMEA は,ほとんどの問題に対して最適であるだけでなく,最適化時の条件付きリンクモデル学習のオーバーヘッドも無視できることが多い。

For many real-world optimization problems it is possible to perform partial evaluations, meaning that the impact of changing a few variables on a solution's fitness can be computed very efficiently. It has been shown that such partial evaluations can be excellently leveraged by the Real-Valued GOMEA (RV-GOMEA) that uses a linkage model to capture dependencies between problem variables. Recently, conditional linkage models were introduced for RV-GOMEA, expanding its state-of-the-art performance even to problems with overlapping dependencies. However, that work assumed that the dependency structure is known a priori. Fitness-based linkage learning techniques have previously been used to detect dependencies during optimization, but only for non-conditional linkage models. In this work, we combine fitness-based linkage learning and conditional linkage modelling in RV-GOMEA. In addition, we propose a new way to model overlapping dependencies in conditional linkage models to maximize the joint sampling of fully interdependent groups of variables. We compare the resulting novel variant of RV-GOMEA to other variants of RV-GOMEA and VkD-CMA on 12 problems with varying degree of overlapping dependencies. We find that the new RV-GOMEA not only performs best on most problems, also the overhead of learning the conditional linkage models during optimization is often negligible.
翻訳日:2024-02-19 15:24:48 公開日:2024-02-16
# 生成的クロスモーダル検索:検索とそれを超えるマルチモーダル言語モデルにおける画像の記憶

Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond ( http://arxiv.org/abs/2402.10805v1 )

ライセンス: Link先を確認
Yongqi Li, Wenjie Wang, Leigang Qu, Liqiang Nie, Wenjie Li, Tat-Seng Chua(参考訳) 最近の生成言語モデルの進歩は、文書からの知識を記憶し、ユーザのクエリに効果的に対応する知識を思い出す能力を示している。 この機能に基づいて,マルチモーダル大規模言語モデル(mllms)がパラメータ内のイメージを記憶し,リコールできるようにする。 視覚的コンテンツに対するユーザクエリが与えられた場合、MLLMはそのパラメータから関連するイメージを応答として“リコール”することが期待される。 この目標を達成するには、組み込みビジュアルメモリやMLLM内のビジュアルリコールスキームなど、注目すべき課題がある。 これらの課題に対処するために,画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを導入する。 最初のステップは、画像とそれぞれの識別子の関連を記憶するためのMLLMのトレーニングに焦点を当てる。 後者のステップでは、テキストクエリ入力からターゲット画像の対応する識別子を生成するようにMLLMに教える。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。 実験により,生成パラダイムが大規模画像候補セットにおいても効果的かつ効率的に動作することを示す。

The recent advancements in generative language models have demonstrated their ability to memorize knowledge from documents and recall knowledge to respond to user queries effectively. Building upon this capability, we propose to enable multimodal large language models (MLLMs) to memorize and recall images within their parameters. Given a user query for visual content, the MLLM is anticipated to "recall" the relevant image from its parameters as the response. Achieving this target presents notable challenges, including inbuilt visual memory and visual recall schemes within MLLMs. To address these challenges, we introduce a generative cross-modal retrieval framework, which assigns unique identifier strings to represent images and involves two training steps: learning to memorize and learning to retrieve. The first step focuses on training the MLLM to memorize the association between images and their respective identifiers. The latter step teaches the MLLM to generate the corresponding identifier of the target image, given the textual query input. By memorizing images in MLLMs, we introduce a new paradigm to cross-modal retrieval, distinct from previous discriminative approaches. The experiments demonstrate that the generative paradigm performs effectively and efficiently even with large-scale image candidate sets.
翻訳日:2024-02-19 15:18:33 公開日:2024-02-16
# マルチエージェント強化学習による暗号市場モデリング

Modelling crypto markets by multi-agent reinforcement learning ( http://arxiv.org/abs/2402.10803v1 )

ライセンス: Link先を確認
Johann Lussange, Stefano Vrizzi, Stefano Palminteri, Boris Gutkin(参考訳) 以前の基礎研究(lussange et al. 2020)に基づいて、2018年から2022年にかけて継続的に取引されたbinanceの1日あたりの終値153ドルの暗号通貨に調整された暗号市場をシミュレートするマルチエージェント強化学習(marl)モデルを紹介する。 従来のエージェントベースモデル (ABM) やマルチエージェントシステム (MAS) とは違って, 暗号市場をモデル化するためには, 強化学習(RL)技術を用いたエージェントの寄付に頼っている。 この統合は、個々のエージェントと集団エージェントの両方の複雑さ推論に対するボトムアップアプローチをエミュレートするために設計されており、これらの市場の最近の不安定な状況や新型コロナウイルス時代の堅牢性を保証する。 このモデルの重要な特徴は、その自律エージェントが、市場価格そのものと、それらの市場価格を超える暗号通貨資産の基本価値の近似という2つの情報に基づいて、資産価格評価を行うという事実にあります。 実際の市場データに対するmasキャリブレーションにより、特定の期間の強気と強気の両政権において、暗号通貨市場の微細構造の正確なエミュレーションと、重要な市場行動の探究が可能になります。

Building on a previous foundation work (Lussange et al. 2020), this study introduces a multi-agent reinforcement learning (MARL) model simulating crypto markets, which is calibrated to the Binance's daily closing prices of $153$ cryptocurrencies that were continuously traded between 2018 and 2022. Unlike previous agent-based models (ABM) or multi-agent systems (MAS) which relied on zero-intelligence agents or single autonomous agent methodologies, our approach relies on endowing agents with reinforcement learning (RL) techniques in order to model crypto markets. This integration is designed to emulate, with a bottom-up approach to complexity inference, both individual and collective agents, ensuring robustness in the recent volatile conditions of such markets and during the COVID-19 era. A key feature of our model also lies in the fact that its autonomous agents perform asset price valuation based on two sources of information: the market prices themselves, and the approximation of the crypto assets fundamental values beyond what those market prices are. Our MAS calibration against real market data allows for an accurate emulation of crypto markets microstructure and probing key market behaviors, in both the bearish and bullish regimes of that particular time period.
翻訳日:2024-02-19 15:18:10 公開日:2024-02-16
# TimeSeriesBench: 時系列異常検出モデルのための産業グレードベンチマーク

TimeSeriesBench: An Industrial-Grade Benchmark for Time Series Anomaly Detection Models ( http://arxiv.org/abs/2402.10802v1 )

ライセンス: Link先を確認
Haotian Si, Changhua Pei, Hang Cui, Jingwen Yang, Yongqian Sun, Shenglin Zhang, Jingjing Li, Haiming Zhang, Jing Han, Dan Pei, Jianhui Li, Gaogang Xie(参考訳) 実世界の応用シナリオとスケールの増大により、時系列異常検出(TSAD)は学術的、産業的関心を集めている。 しかし,既存のアルゴリズムでは,実世界の産業システムの実際のニーズと比較して,トレーニングパラダイムやオンライン検出パラダイム,評価基準のギャップが生じる。 まず、現在のアルゴリズムは個々の時系列ごとに特定のモデルを訓練する。 数万の曲線を持つ大規模オンラインシステムでは、このような多数のモデルを維持することは現実的ではない。 単一統一モデルのみを用いて異常を検出する性能は未だ不明である。 第二に、ほとんどのTSADモデルは時系列の歴史的部分で訓練され、将来のセグメントでテストされる。 しかし、分散システムでは、システムデプロイメントやアップグレードが頻繁に行われ、新しい、以前は目に見えない新しい時系列が毎日現れています。 現在のTSADアルゴリズムで新たに入ってくる未確認時系列をテストする性能は未だ不明である。 最後に, 詳細な調査を行った論文もあるが, オンライン評価プラットフォームが存在しないことは, 「現在, 異常検出に最も適しているのか? 本稿では,業界レベルのベンチマークであるTimeSeriesBenchを提案する。 このリーダボード上で,168以上の評価設定において,異なるトレーニングパラダイムとテストパラダイム,評価メトリクス,データセットを組み合わせた既存のアルゴリズムのパフォーマンスを評価する。 結果の包括的分析を通じて, 異常検出アルゴリズムの今後の設計について提案する。 既存の公開データセットに関する既知の問題に対処するため、TimeSeriesBenchとともに産業データセットを公開しています。 すべてのコード、データ、オンラインのリーダーボードが公開されている。

Driven by the proliferation of real-world application scenarios and scales, time series anomaly detection (TSAD) has attracted considerable scholarly and industrial interest. However, existing algorithms exhibit a gap in terms of training paradigm, online detection paradigm, and evaluation criteria when compared to the actual needs of real-world industrial systems. Firstly, current algorithms typically train a specific model for each individual time series. In a large-scale online system with tens of thousands of curves, maintaining such a multitude of models is impractical. The performance of using merely one single unified model to detect anomalies remains unknown. Secondly, most TSAD models are trained on the historical part of a time series and are tested on its future segment. In distributed systems, however, there are frequent system deployments and upgrades, with new, previously unseen time series emerging daily. The performance of testing newly incoming unseen time series on current TSAD algorithms remains unknown. Lastly, although some papers have conducted detailed surveys, the absence of an online evaluation platform prevents answering questions like "Who is the best at anomaly detection at the current stage?" In this paper, we propose TimeSeriesBench, an industrial-grade benchmark that we continuously maintain as a leaderboard. On this leaderboard, we assess the performance of existing algorithms across more than 168 evaluation settings combining different training and testing paradigms, evaluation metrics and datasets. Through our comprehensive analysis of the results, we provide recommendations for the future design of anomaly detection algorithms. To address known issues with existing public datasets, we release an industrial dataset to the public together with TimeSeriesBench. All code, data, and the online leaderboard have been made publicly available.
翻訳日:2024-02-19 15:17:46 公開日:2024-02-16
# パッシブ音声がドメイン・モデリングに与える影響に関する第二の考察:ベイズ・リアナリシスによる実験

A Second Look at the Impact of Passive Voice Requirements on Domain Modeling: Bayesian Reanalysis of an Experiment ( http://arxiv.org/abs/2402.10800v1 )

ライセンス: Link先を確認
Julian Frattini, Davide Fucci, Richard Torkar, Daniel Mendez(参考訳) 要求仕様の品質は、後続の、依存するソフトウェアエンジニアリング(se)活動に影響を及ぼす可能性がある。 しかし、この影響の実証的な証拠は、調査中の現象から抽象的な研究があまりにも多く、表面的すぎる。 これら2つの抽象化は、因果推論のためのフレームワークの欠如と、複雑なデータをバイナリ結果に還元する頻繁なメソッドによって引き起こされる。 本研究では,(1)因果フレームワークの利用,(2)因果推論のためのより洗練されたベイズ統計量を持つ対比頻度主義手法の実証を目的とする。 そこで本研究では,受動音声がその後のドメイン・モデリング活動に与える影響について,唯一知られている制御実験を再検討する。 統計的因果推論の枠組みに従い,ベイズデータ解析法を用いて,本研究の仮説を再検討する。 その結果, 原作者の観察した影響は, 以前考えられていたよりも遥かに少ないことがわかった。 この研究は、より洗練された因果推論のために因果フレームワークやベイズ統計を含むベイズデータ分析を採用するため、se研究における最近の行動要求を支援する。

The quality of requirements specifications may impact subsequent, dependent software engineering (SE) activities. However, empirical evidence of this impact remains scarce and too often superficial as studies abstract from the phenomena under investigation too much. Two of these abstractions are caused by the lack of frameworks for causal inference and frequentist methods which reduce complex data to binary results. In this study, we aim to demonstrate (1) the use of a causal framework and (2) contrast frequentist methods with more sophisticated Bayesian statistics for causal inference. To this end, we reanalyze the only known controlled experiment investigating the impact of passive voice on the subsequent activity of domain modeling. We follow a framework for statistical causal inference and employ Bayesian data analysis methods to re-investigate the hypotheses of the original study. Our results reveal that the effects observed by the original authors turned out to be much less significant than previously assumed. This study supports the recent call to action in SE research to adopt Bayesian data analysis, including causal frameworks and Bayesian statistics, for more sophisticated causal inference.
翻訳日:2024-02-19 15:17:21 公開日:2024-02-16
# VATr++:手書きテキスト生成のために単語を簡潔に選択する

VATr++: Choose Your Words Wisely for Handwritten Text Generation ( http://arxiv.org/abs/2402.10798v1 )

ライセンス: Link先を確認
Bram Vanherle, Vittorio Pippi, Silvia Cascianelli, Nick Michiels, Frank Van Reeth, Rita Cucchiara(参考訳) 近年, GAN, Transformer, および未熟な拡散モデルを用いた学習ベースソリューションの成功により, スタイル付き手書きテキスト生成 (HTG) が注目されている。 このような関心の高まりにもかかわらず、入力がHTGモデルのトレーニングに視覚的およびテキスト的の影響と、その後のパフォーマンスへの影響という、重要な未調査の側面が依然として残っている。 本研究は,最先端のhtgアプローチに深く掘り下げ,入力準備とトレーニング正規化のための戦略を提案し,モデルの性能向上と一般化を可能にした。 これらの側面は、いくつかの異なる設定とデータセットに関する広範な分析を通じて検証される。 さらに,本研究では,HTG研究における性能最適化を超えて,標準化された評価プロトコルの欠如に対処する。 特に,HTGの評価プロトコルの標準化を提案し,既存のアプローチの総合的なベンチマークを行う。 そのために我々は,htg戦略の公平かつ有意義な比較の基礎を確立し,この分野の進歩を育むことを目指している。

Styled Handwritten Text Generation (HTG) has received significant attention in recent years, propelled by the success of learning-based solutions employing GANs, Transformers, and, preliminarily, Diffusion Models. Despite this surge in interest, there remains a critical yet understudied aspect - the impact of the input, both visual and textual, on the HTG model training and its subsequent influence on performance. This study delves deeper into a cutting-edge Styled-HTG approach, proposing strategies for input preparation and training regularization that allow the model to achieve better performance and generalize better. These aspects are validated through extensive analysis on several different settings and datasets. Moreover, in this work, we go beyond performance optimization and address a significant hurdle in HTG research - the lack of a standardized evaluation protocol. In particular, we propose a standardization of the evaluation protocol for HTG and conduct a comprehensive benchmarking of existing approaches. By doing so, we aim to establish a foundation for fair and meaningful comparisons between HTG strategies, fostering progress in the field.
翻訳日:2024-02-19 15:17:02 公開日:2024-02-16
# BlackJAX: JAXにおける構成可能なベイズ推論

BlackJAX: Composable Bayesian inference in JAX ( http://arxiv.org/abs/2402.10797v1 )

ライセンス: Link先を確認
Alberto Cabezas, Adrien Corenflos, Junpeng Lao, R\'emi Louf(参考訳) BlackJAXは、ベイズ計算で一般的に使用されるサンプリングおよび変分推論アルゴリズムを実装するライブラリである。 アルゴリズムの実装に関数型アプローチを取り入れることで、使いやすさ、スピード、モジュール性のために設計されている。 BlackJAXはPythonで書かれており、JAXを使ってNumpPyのようなサンプルをコンパイルし、CPU、GPU、TPU上で変分メソッドを実行する。 このライブラリは、(正規化されていない)ターゲットログ密度関数を直接扱うことで、確率的プログラミング言語とうまく統合する。 BlackJAXは、ベージアン推論を適切に定義するために組み合わせられる、基本的な統計的'原子'の低レベルで構成可能な実装の集合として意図されている。 最先端の方法が必要なユーザー、複雑なサンプリング方法を作りたい研究者、そしてこれらの方法を学びたい人向けにデザインされている。

BlackJAX is a library implementing sampling and variational inference algorithms commonly used in Bayesian computation. It is designed for ease of use, speed, and modularity by taking a functional approach to the algorithms' implementation. BlackJAX is written in Python, using JAX to compile and run NumpPy-like samplers and variational methods on CPUs, GPUs, and TPUs. The library integrates well with probabilistic programming languages by working directly with the (un-normalized) target log density function. BlackJAX is intended as a collection of low-level, composable implementations of basic statistical 'atoms' that can be combined to perform well-defined Bayesian inference, but also provides high-level routines for ease of use. It is designed for users who need cutting-edge methods, researchers who want to create complex sampling methods, and people who want to learn how these work.
翻訳日:2024-02-19 15:16:43 公開日:2024-02-16
# マグノメカニクス系におけるパラメトリック不安定性

Parametric instability in a magnomechanical system ( http://arxiv.org/abs/2402.10796v1 )

ライセンス: Link先を確認
Takahiro Uto and Daigo Oue(参考訳) 磁気力学系のパラメトリック不安定性,特に移動強磁性絶縁体間のマグノントンネルについて検討した。 解析の結果、量子揺らぎは臨界速度閾値以上のスピン電流を発生させるが、低温ではスピン電流は起こらないことがわかった。 臨界速度はマグノン剛性とゼーマンエネルギーに依存する。 しきい値に近づくとスピン電流は発散し、pt対称性破壊遷移に繋がる。 この強化された挙動は量子技術において感度の高い測定と信号増幅をもたらす可能性がある。

We study parametric instability in a magnomechanical system, specifically examining magnon tunneling between moving ferromagnetic insulators. Our analysis reveals that quantum fluctuations generate spin currents above a critical velocity threshold, while no spin currents occur below this threshold at low temperatures. The critical velocity depends on magnon stiffness and Zeeman energy. Approaching the threshold, the spin current becomes divergent, linked to the PT-symmetry-breaking transition. This enhanced behavior could offer sensitive measurements and signal amplification in quantum technology.
翻訳日:2024-02-19 15:16:25 公開日:2024-02-16
# diversified ensembling: クラウドソーシングによる機械学習の実験

Diversified Ensembling: An Experiment in Crowdsourced Machine Learning ( http://arxiv.org/abs/2402.10795v1 )

ライセンス: Link先を確認
Ira Globus-Harris, Declan Harrison, Michael Kearns, Pietro Perona, Aaron Roth(参考訳) Kaggleのような競合プラットフォーム上でクラウドソーシングされた機械学習は、正確なモデルを生成するために人気があり、しばしば効果的な方法である。 一般的に、チームはホールドアウトセットの全体的なエラーによって測定される最も正確なモデルを求めており、リーダーボードの上部にあるチームが、最終で最高のグローバルモデルを得るために、プラットフォームメカニズムの外側でモデルをアンサンブルまたは平均化するために、そのようなコンペティションの終わりに向かっている。 arXiv:2201.10408では、サブグループの不公平さの存在と識別が可能なモデルにコミュニティのフィードバックを統合するために、公正機械学習の文脈で代替のクラウドソーシングフレームワークを開発した。 古典的なクラウドソースのMLとは異なり、参加者はフェアネスのサービスにおいて、サブプロブレムに取り組むことで、意図的に努力を専門化している。 この枠組みでは、参加者は公正なサービスに特化しており、特定の専門知識(例えば、画像分類タスクにおける鳥類の種特定に焦点をあてるなど)にのみ対応できることに留意する。 従来のクラウドソーシングとは異なり、これは参加者の努力の多様化を可能にし、より広い範囲の個人(例えば、特定の公正性に関する洞察を持つ機械学習初心者)への参加メカニズムを提供する。 米国コミュニティ調査データから収入を予測するモデルを作成しようとする46の参加チームを対象に,このフレームワークを初めて中規模で実験的に評価した。 チームのアプローチを実証分析し、開発した新しいシステムアーキテクチャについて議論する。 ここから、このようなフレームワークのデプロイ方法に関する具体的なガイダンスを与えます。

Crowdsourced machine learning on competition platforms such as Kaggle is a popular and often effective method for generating accurate models. Typically, teams vie for the most accurate model, as measured by overall error on a holdout set, and it is common towards the end of such competitions for teams at the top of the leaderboard to ensemble or average their models outside the platform mechanism to get the final, best global model. In arXiv:2201.10408, the authors developed an alternative crowdsourcing framework in the context of fair machine learning, in order to integrate community feedback into models when subgroup unfairness is present and identifiable. There, unlike in classical crowdsourced ML, participants deliberately specialize their efforts by working on subproblems, such as demographic subgroups in the service of fairness. Here, we take a broader perspective on this work: we note that within this framework, participants may both specialize in the service of fairness and simply to cater to their particular expertise (e.g., focusing on identifying bird species in an image classification task). Unlike traditional crowdsourcing, this allows for the diversification of participants' efforts and may provide a participation mechanism to a larger range of individuals (e.g. a machine learning novice who has insight into a specific fairness concern). We present the first medium-scale experimental evaluation of this framework, with 46 participating teams attempting to generate models to predict income from American Community Survey data. We provide an empirical analysis of teams' approaches, and discuss the novel system architecture we developed. From here, we give concrete guidance for how best to deploy such a framework.
翻訳日:2024-02-19 15:16:17 公開日:2024-02-16
# Masked Attentionはグラフに必要なもの

Masked Attention is All You Need for Graphs ( http://arxiv.org/abs/2402.10793v1 )

ライセンス: Link先を確認
David Buterez, Jon Paul Janet, Dino Oglic, Pietro Lio(参考訳) グラフニューラルネットワーク(gnns)とメッセージパッシングアルゴリズムのバリエーションは、その柔軟性、速度、そして十分なパフォーマンスのために、グラフ上で学習するための主要な手段である。 しかし、強力で汎用的なGNNの設計は、かなりの研究努力を必要としており、しばしば手作りの、注意深いメッセージパッシング演算子に依存している。 そこで本研究では,注意力にのみ依存するグラフを用いた学習方法を提案する。 グラフはノードまたはエッジセットとして表現され、それらの接続は、注意重み行列をマスクすることで強制され、各グラフのカスタム注意パターンを効果的に作成する。 その単純さにもかかわらず、グラフ(MAG)のマスキングは、長距離タスクにおける最先端のパフォーマンスを持ち、強いメッセージパッシングベースラインや55以上のノードおよびグラフレベルタスク上でのアテンションベースのメソッドよりも優れています。 また、GNNと比較して転送学習能力が大幅に向上し、時間とメモリのスケーリングが向上しています。 MAGはノード数やエッジ数のサブ線形メモリスケーリングを持ち、高密度グラフの学習と将来的なアプローチの保護を可能にしている。

Graph neural networks (GNNs) and variations of the message passing algorithm are the predominant means for learning on graphs, largely due to their flexibility, speed, and satisfactory performance. The design of powerful and general purpose GNNs, however, requires significant research efforts and often relies on handcrafted, carefully-chosen message passing operators. Motivated by this, we propose a remarkably simple alternative for learning on graphs that relies exclusively on attention. Graphs are represented as node or edge sets and their connectivity is enforced by masking the attention weight matrix, effectively creating custom attention patterns for each graph. Despite its simplicity, masked attention for graphs (MAG) has state-of-the-art performance on long-range tasks and outperforms strong message passing baselines and much more involved attention-based methods on over 55 node and graph-level tasks. We also show significantly better transfer learning capabilities compared to GNNs and comparable or better time and memory scaling. MAG has sub-linear memory scaling in the number of nodes or edges, enabling learning on dense graphs and future-proofing the approach.
翻訳日:2024-02-19 15:15:50 公開日:2024-02-16
# 10MのHaystackで針を探す: 繰り返し記憶でLLMが見逃しているものを見つける

In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss ( http://arxiv.org/abs/2402.10790v1 )

ライセンス: Link先を確認
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev(参考訳) 本稿では,生成トランスモデルを用いた長文処理の課題に対処する。 異なるアプローチを評価するために、広範囲のテキスト中の分散事実を抽出・処理するモデルの能力を評価するために設計された新しいベンチマークであるbabilongを紹介する。 GPT-4とRAGのベンチマークを含む評価の結果,共通手法は最大10^4$の要素に対してのみ有効であることがわかった。 対照的に、メモリ拡張を繰り返す細調整のGPT-2では、最大10^7$要素を含むタスクを処理できる。 この成果は、これまでどのオープンニューラルネットワークモデルでも処理された最も長い入力であり、長いシーケンスの処理能力が大幅に向上しているため、かなり飛躍的なものだ。

This paper addresses the challenge of processing long documents using generative transformer models. To evaluate different approaches, we introduce BABILong, a new benchmark designed to assess model capabilities in extracting and processing distributed facts within extensive texts. Our evaluation, which includes benchmarks for GPT-4 and RAG, reveals that common methods are effective only for sequences up to $10^4$ elements. In contrast, fine-tuning GPT-2 with recurrent memory augmentations enables it to handle tasks involving up to $10^7$ elements. This achievement marks a substantial leap, as it is by far the longest input processed by any open neural network model to date, demonstrating a significant improvement in the processing capabilities for long sequences.
翻訳日:2024-02-19 15:15:27 公開日:2024-02-16
# 変分法による2粒子量子系のハード閉じ込め

Hard confinement of a two-particle quantum system using the variational method ( http://arxiv.org/abs/2402.10788v1 )

ライセンス: Link先を確認
Nataly Rafat sabbah, Mohamed Ghaleb Al-Masaeed, Ahmed Al-Jamel(参考訳) 変分法は、2つのポテンシャルモデル(コーネルポテンシャルと大域ポテンシャル)における2粒子量子系のハード閉じ込めの研究に使われ、ディリクレ型境界条件は様々なカットオフ半径を持つ。 トライアル波動関数は、1S$自由水素原子波動関数または1S$自由調和振動子波動関数の積として構成され、半径$z$の球内でハードな包絡を確保するために、$(r-z)$の形のカットオフ関数である。 $|\psi|^2$ の振る舞い、原点における波動関数(WFO)、および平均半径 $\ev{r}$ の振る舞いは異なる状況で計算され、2つのポテンシャルモデルと比較される。

The variational method is used to study the hard confinement of a two-particle quantum system in two potential models, the Cornell potential and the global potential, with Dirichlet-type boundary conditions at various cut-off radii. The trial wavefunction is constructed as the product of the $1S$ free hydrogen atom wavefunction or $1S$ free harmonic oscillator wavefunction times a cut-off function of the form $(r-z)$ to ensure hard entrapment within a sphere of radius $z$. The behavior of $|\psi|^2$, the wavefunction at the origin (WFO), and the mean radius $\ev{r}$ are computed for different situations and compared for the two potential models.
翻訳日:2024-02-19 15:15:14 公開日:2024-02-16
# edgeqat: エントロピーと分布誘導量子化・アウェアトレーニングによるエッジ上の軽量llmの高速化

EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge ( http://arxiv.org/abs/2402.10787v1 )

ライセンス: Link先を確認
Xuan Shen, Zhenglun Kong, Changdi Yang, Zhaoyang Han, Lei Lu, Peiyan Dong, Cheng Lyu, Chih-hsiang Li, Xuehang Guo, Zhihao Shu, Wei Niu, Miriam Leeser, Pu Zhao, Yanzhi Wang(参考訳) 様々な分野における大規模言語モデル(LLM)の顕著な進歩にもかかわらず、エッジデバイスへのLLMの広範な適用は、その膨大なパラメータと計算量によって制限されている。 これを解決するために、量子化は、効率的な計算と高速な推論で軽量LLMを生成するために一般的に採用されている。 しかし、PTQ(Post-Training Quantization)法は、重み、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に、劇的に品質が低下する。 さらに、多くのQAT(Quantization-Aware Training)はモデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。 本稿では,エッジデバイス上での推論高速化を実現するために,軽量LCMの最適化を目的としたEdgeQAT,Entropy and Distribution Guided QATを提案する。 まず, 量子化性能の低下は, 量子化アテンションマップにおける情報歪みが主であり, 量子化クエリの異なる分布と自己アテンション機構の鍵によって示される。 次に,情報歪みを軽減するために,エントロピーと分布誘導qatを提案する。 さらに,異なるビット幅のトークンを動的に量子化し,さらなる最適化と高速化を行うトークン重要度対応手法を設計する。 当社の広範な実験では、さまざまなデータセットにわたるフレームワークの大幅な改善を確認しています。 さらに,複数のエッジデバイスにまたがるfp16と比較して,最大2.37倍のスピードアップを実現し,画期的な進歩を示唆する。

Despite the remarkable strides of Large Language Models (LLMs) in various fields, the wide applications of LLMs on edge devices are limited due to their massive parameters and computations. To address this, quantization is commonly adopted to generate lightweight LLMs with efficient computations and fast inference. However, Post-Training Quantization (PTQ) methods dramatically degrade in quality when quantizing weights, activations, and KV cache together to below 8 bits. Besides, many Quantization-Aware Training (QAT) works quantize model weights, leaving the activations untouched, which do not fully exploit the potential of quantization for inference acceleration on the edge. In this paper, we propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of lightweight LLMs to achieve inference acceleration on Edge devices. We first identify that the performance drop of quantization primarily stems from the information distortion in quantized attention maps, demonstrated by the different distributions in quantized query and key of the self-attention mechanism. Then, the entropy and distribution guided QAT is proposed to mitigate the information distortion. Moreover, we design a token importance-aware adaptive method to dynamically quantize the tokens with different bit widths for further optimization and acceleration. Our extensive experiments verify the substantial improvements with our framework across various datasets. Furthermore, we achieve an on-device speedup of up to 2.37x compared with its FP16 counterparts across multiple edge devices, signaling a groundbreaking advancement.
翻訳日:2024-02-19 15:14:55 公開日:2024-02-16
# 自発的フロッケ状態における同時対称性の破れ:フロッケ-ナムブ-ゴールドストーンモード、フロッケ熱力学、時間演算子

Simultaneous symmetry breaking in spontaneous Floquet states: Floquet-Nambu-Goldstone modes, Floquet thermodynamics, and the time operator ( http://arxiv.org/abs/2402.10784v1 )

ライセンス: Link先を確認
Juan Ram\'on Mu\~noz de Nova and Fernando Sols(参考訳) 自発的なフロッケ状態における同時対称性の破れについて研究し,原子凝縮の特定の場合に焦点を当てた。 まず, 一般化ギブスアンサンブルを起動することにより, 定常状態に対するナムブ・ゴールドストーン(ng)モードの量子化手順を明らかにした。 量子化の手順はベリー・ギブス接続(Berry-Gibbs connection)を含み、これは破れた各対称性に付随するマクロ的な保存電荷に依存し、一般化されたゲージ変換では不変ではない。 ホルマリズムをいくつかの対称性を同時に破る自発的なフロケ状態に拡張し、各対称性が準エネルギーゼロのフロケ・ナンブ・ゴールドストーン(FNG)モードと関連していることを発見した。 中でも、連続時間変換対称性の破れから生じる真の時間的FNGモードがあり、量子振幅は量子力学における時間演算子の稀な実現をもたらす。 さらに、エネルギーを保存するため、自発的なフロッケ状態は保存されたフロッケ電荷を持つので熱力学的に記述される。 時間的fngモードとフロッケ熱力学は、従来の駆動型フロッケ系には存在しない自発的なフロッケ状態の特徴である。 当社の定式化は, 時間超固体を表すU(1)$および時間変換対称性を破る, 自発フロケット状態, CES状態の特定の実現に応用する。 Truncated Wigner法を用いて,時間的FNGモードで支配されると理論的に予測される量子ゆらぎを数値的に計算し,シミュレーションと理論の間の顕著な一致を観察する。 これらの結果に基づき,時間的fngモードを観測するための実験手法を提案する。

We study simultaneous symmetry-breaking in a spontaneous Floquet state, focusing on the specific case of an atomic condensate. We first describe the quantization procedure of the Nambu-Goldstone (NG) modes for a stationary state simultaneously breaking several symmetries by invoking the generalized Gibbs ensemble, allowing for a thermodynamical description of the problem. The quantization procedure involves a Berry-Gibbs connection, which depends on the macroscopic conserved charges associated to each broken symmetry and is not invariant under generalized gauge transformations. We extend the formalism to a spontaneous Floquet state simultaneously breaking several symmetries, finding that each broken symmetry now has associated a Floquet-Nambu-Goldstone (FNG) mode with zero quasi-energy. Among them, there is a genuine temporal FNG mode arising from the continuous time-translation symmetry breaking, whose quantum amplitude provides a rare realization of a time operator in Quantum Mechanics. Furthermore, as they conserve energy, spontaneous Floquet states admit a thermodynamic description since they have a conserved Floquet charge. Both the temporal FNG mode and the Floquet thermodynamics are the distinctive features of a spontaneous Floquet state, absent in conventional, driven Floquet systems. We apply our formalism to a particular realization of spontaneous Floquet state, the CES state, which breaks $U(1)$ and time-translation symmetries, representing a time supersolid. Using the Truncated Wigner method, we numerically compute its quantum fluctuations, which are theoretically predicted to be dominated by the temporal FNG mode, observing a remarkable agreement between simulation and theory. Based on these results, we propose a feasible experimental method to observe the temporal FNG mode.
翻訳日:2024-02-19 15:14:26 公開日:2024-02-16
# 大規模言語モデルを用いたゼロショットリンク予測のための凝縮遷移グラフフレームワーク

A Condensed Transition Graph Framework for Zero-shot Link Prediction with Large Language Models ( http://arxiv.org/abs/2402.10779v1 )

ライセンス: Link先を確認
Mingchen Li, Chen Ling, Rui Zhang, Liang Zhao(参考訳) 知識グラフ上のゼロショットリンク予測(ZSLP)は、与えられたエンティティ間の関係を自動的に識別することを目的としている。 既存の手法では、主に末尾実体とその関係を予測するために補助情報を用いるが、その詳細情報が時々利用できないことや、意味的類似性に基づく末尾実体の予測が本質的に単純であることなど、課題に直面している。 大きな言語モデル(LLMs)は、頭と尾のエンティティ間の観測不能な関係をゼロショットで予測する有望なソリューションを提供するが、それらの性能は、2つのエンティティ間のすべての(通常多くの)パスの情報を活用できないために制限されている。 そこで本研究では, ゼロショットリンク予測のための凝縮遷移グラフフレームワーク(CTLP)を導入し, 全経路情報を線形時間複雑性で符号化し, エンティティ間の不明瞭な関係を予測し, 効率と情報保存の両立を図る。 具体的には,その範囲,表現力,効率を理論的に保証した凝縮した遷移グラフエンコーダを設計する。 遷移グラフの対比学習戦略によって学習される。 その後、LLMの入力に埋め込まれた全パスを学習し、マッピングするためのソフトインストラクションチューニングを設計する。 実験結果から,CTLP法は3つの標準ZSLPデータセットの最先端性能を実現することが示された。

Zero-shot link prediction (ZSLP) on knowledge graphs aims at automatically identifying relations between given entities. Existing methods primarily employ auxiliary information to predict tail entity given head entity and its relation, yet face challenges due to the occasional unavailability of such detailed information and the inherent simplicity of predicting tail entities based on semantic similarities. Even though Large Language Models (LLMs) offer a promising solution to predict unobserved relations between the head and tail entity in a zero-shot manner, their performance is still restricted due to the inability to leverage all the (exponentially many) paths' information between two entities, which are critical in collectively indicating their relation types. To address this, in this work, we introduce a Condensed Transition Graph Framework for Zero-Shot Link Prediction (CTLP), which encodes all the paths' information in linear time complexity to predict unseen relations between entities, attaining both efficiency and information preservation. Specifically, we design a condensed transition graph encoder with theoretical guarantees on its coverage, expressiveness, and efficiency. It is learned by a transition graph contrastive learning strategy. Subsequently, we design a soft instruction tuning to learn and map the all-path embedding to the input of LLMs. Experimental results show that our proposed CTLP method achieves state-of-the-art performance on three standard ZSLP datasets
翻訳日:2024-02-19 15:13:51 公開日:2024-02-16
# autogpt+p:大型言語モデルによるアプライアンスベースのタスクプランニング

AutoGPT+P: Affordance-based Task Planning with Large Language Models ( http://arxiv.org/abs/2402.10778v1 )

ライセンス: Link先を確認
Timo Birr, Christoph Pohl, Abdelrahman Younes and Tamim Asfour(参考訳) 近年,大規模言語モデル(LLM)を活用し,従来の計画アルゴリズムと組み合わせて推論能力に固有の制約に対処することによって,一般化性の向上が図られている。 しかし、これらのアプローチはタスク計画問題の初期状態を動的に捉えるという課題に直面している。 この問題を軽減するために,価格に基づくシーン表現と計画システムを組み合わせたAutoGPT+Pを提案する。 代価は、エージェントの環境やその中に存在するオブジェクトに対する行動可能性を含んでいる。 したがって、プランニング領域を余裕に基づくシーン表現から導出することで、任意のオブジェクトによるシンボリックプランニングが可能になる。 AutoGPT+Pはこの表現を利用して、自然言語でユーザが指定したタスクの計画を実行します。 クローズドワールド仮定の下での計画タスクの解決に加えて、AutoGPT+Pは不完全な情報による計画処理も可能である。 g. シーンを探索したり、代替案を提案したり、部分的な計画を提供したりする。 空き時間に基づくシーン表現は、ChatGPTを用いたオブジェクト検出と自動生成されたオブジェクトアロディマッピングを組み合わせる。 コアプランニングツールは、セマンティクスと構文エラーを自動的に修正することで、既存の作業を拡張する。 提案手法は,現在のSyCan命令セットにおいて,現在のLLM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。 さらに、新たに作成したデータセットに150のシナリオでアプローチを評価し、欠落したオブジェクトを含む幅広い複雑なタスクをカバーし、データセットで79%の成功率を達成した。 データセットとコードはhttps://git.h2t.iar.kit.edu/birr/autogpt-p-standaloneで公開されている。

Recent advances in task planning leverage Large Language Models (LLMs) to improve generalizability by combining such models with classical planning algorithms to address their inherent limitations in reasoning capabilities. However, these approaches face the challenge of dynamically capturing the initial state of the task planning problem. To alleviate this issue, we propose AutoGPT+P, a system that combines an affordance-based scene representation with a planning system. Affordances encompass the action possibilities of an agent on the environment and objects present in it. Thus, deriving the planning domain from an affordance-based scene representation allows symbolic planning with arbitrary objects. AutoGPT+P leverages this representation to derive and execute a plan for a task specified by the user in natural language. In addition to solving planning tasks under a closed-world assumption, AutoGPT+P can also handle planning with incomplete information, e. g., tasks with missing objects by exploring the scene, suggesting alternatives, or providing a partial plan. The affordance-based scene representation combines object detection with an automatically generated object-affordance-mapping using ChatGPT. The core planning tool extends existing work by automatically correcting semantic and syntactic errors. Our approach achieves a success rate of 98%, surpassing the current 81% success rate of the current state-of-the-art LLM-based planning method SayCan on the SayCan instruction set. Furthermore, we evaluated our approach on our newly created dataset with 150 scenarios covering a wide range of complex tasks with missing objects, achieving a success rate of 79% on our dataset. The dataset and the code are publicly available at https://git.h2t.iar.kit.edu/birr/autogpt-p-standalone.
翻訳日:2024-02-19 15:13:08 公開日:2024-02-16
# JetTrain: IDE指向の機械学習実験

JetTrain: IDE-Native Machine Learning Experiments ( http://arxiv.org/abs/2402.10857v1 )

ライセンス: Link先を確認
Artem Trofimov, Mikhail Kostyukov, Sergei Ugdyzhekov, Natalia Ponomareva, Igor Naumov, Maksim Melekhovets(参考訳) 統合開発環境(IDE)は一般的なコード記述およびデバッグツールである。 しかし、機械学習(ml)実験の開始にはまだ広く採用されていない。 この作業は、IDEからリモート計算リソースに特定のタスクを委譲するIDE統合ツールであるJetTrainを導入することで、このギャップを埋めることを目的としている。 ユーザはローカルでコードを書いてデバッグし、オンデマンドのハードウェアを使ってリモートでシームレスに実行できる。 このアプローチは、MLトレーニング問題の参入障壁を低くし、実験スループットを向上させることができる。

Integrated development environments (IDEs) are prevalent code-writing and debugging tools. However, they have yet to be widely adopted for launching machine learning (ML) experiments. This work aims to fill this gap by introducing JetTrain, an IDE-integrated tool that delegates specific tasks from an IDE to remote computational resources. A user can write and debug code locally and then seamlessly run it remotely using on-demand hardware. We argue that this approach can lower the entry barrier for ML training problems and increase experiment throughput.
翻訳日:2024-02-19 15:05:44 公開日:2024-02-16
# エージェントに基づくcbd料金のシミュレーション評価:ニューヨーク市を事例として

Agent-based Simulation Evaluation of CBD Tolling: A Case Study from New York City ( http://arxiv.org/abs/2402.10834v1 )

ライセンス: Link先を確認
Qingnan Liang, Ruili Yao, Ruixuan Zhang, Zhibin Chen, Guoyuan Wu(参考訳) 都市交通渋滞を緩和し、輸送システムの持続可能性を高める効果的な手段として、渋滞料金が広く開発され、採用されている。 しかしながら、これらの料金体系は都市や地域ごとに調整されることが多く、フィールド実験を行うコストが設計と評価を困難にすることが多い。 本研究では,エージェントレベルでの微視的動作を提供するシミュレーションプラットフォームであるmatsimを用いて,課金方式の性能評価を行う。 具体的には,ニューヨークのマンハッタン・セントラル・ビジネス・ディストリクト(cbd)において,大規模エージェント行動設定における細粒度トラヒック・ネットワークモデルを用いて事例研究を行った。 MATSimの柔軟性により、NYCが展開していないが詳細な解釈を提供しながら、カスタマイズされた料金ポリシーの実装が可能になる。 定量的・定性的な結果から,cbdエリアにおける個人用車両の容積を規制し,公共交通機関の利用を促進することが可能であり,持続可能な交通システムに向けた実用的な動きであることが示唆された。 さらに重要なことに,エージェントベースのシミュレーションは,密集した都市環境における料金負担に伴う移動パターンの変化をより深く理解し,持続的交通管理への献身のための効率的な意思決定を促進する可能性を秘めている。

Congestion tollings have been widely developed and adopted as an effective tool to mitigate urban traffic congestion and enhance transportation system sustainability. Nevertheless, these tolling schemes are often tailored on a city-by-city or even area-by-area basis, and the cost of conducting field experiments often makes the design and evaluation process challenging. In this work, we leverage MATSim, a simulation platform that provides microscopic behaviors at the agent level, to evaluate performance on tolling schemes. Specifically, we conduct a case study of the Manhattan Central Business District (CBD) in New York City (NYC) using a fine-granularity traffic network model in the large-scale agent behavior setting. The flexibility of MATSim enables the implementation of a customized tolling policy proposed yet not deployed by the NYC agency while providing detailed interpretations. The quantitative and qualitative results indicate that the tested tolling program can regulate the personal vehicle volume in the CBD area and encourage the usage of public transportation, which proves to be a practical move towards sustainable transportation systems. More importantly, our work demonstrates that agent-based simulation helps better understand the travel pattern change subject to tollings in dense and complex urban environments, and it has the potential to facilitate efficient decision-making for the devotion to sustainable traffic management.
翻訳日:2024-02-19 15:05:35 公開日:2024-02-16
# 2光子Landau-Zener-St\"uckelberg-Majorana効果の観測

Observation of the two-photon Landau-Zener-St\"uckelberg-Majorana effect ( http://arxiv.org/abs/2402.10833v1 )

ライセンス: Link先を確認
Isak Bj\"orkman, Marko Kuzmanovi\'c, and Gheorghe Sorin Paraoanu(参考訳) 2次過程は量子力学の非線形性を導入し、全く予期せぬ制御操作の領域を解き放つ。 ここでは、Landau-Zener-St\"uckelberg-Majorana(LZSM)遷移は、線形変調相を持つドライブからの2つの光子が第1レベルを完全に回避しながら第3レベルへの励起を生成する3レベルシステムにおいて、仮想過程によって駆動可能であることを示す。 我々はこれを実験的にトランスモンキュービットに実装し、緩和によって制限された人口移動9,8\%$ を達成する。 我々はLZSM速度の倍増を実験的に予測し観測する。 この効果の観測は、第3遷移を含む場合の2光子交流スタークシフトのほぼ実効的なキャンセルによって可能となる。 さらに,周波数および振幅のオフセットに対して,理論的および実験的にかなりの堅牢性を示す。

Second-order processes introduce nonlinearities in quantum dynamics, unlocking a totally unexpected area of control operations. Here we show that the well-known Landau-Zener-St\"uckelberg-Majorana (LZSM) transition can be driven by a virtual process in a three-level system whereby two photons from a drive with linearly-modulated phase create excitations onto the third level while avoiding completely the first level. We implement this experimentally in a transmon qubit achieving a population transfer of $98\%$, limited by relaxation. We predict and observe experimentally the doubling of the LZSM velocity. The observation of this effect is made possible by the nearly-exact cancellation of the two-photon ac Stark shift when the third transition is included. Furthermore, we demonstrate considerable robustness to offsets in frequency and amplitude, both in theory and experimentally.
翻訳日:2024-02-19 15:05:12 公開日:2024-02-16
# 2次元誘電体散乱体のガン駆動電磁イメージング

GAN-driven Electromagnetic Imaging of 2-D Dielectric Scatterers ( http://arxiv.org/abs/2402.10831v1 )

ライセンス: Link先を確認
Ehtasham Naseer, Ali Imran Sandhu, Muhammad Adnan Siddique, Waqas W. Ahmed, Mohamed Farhat, and Ying Wu(参考訳) 逆散乱問題は本質的に不適切で非線形であるという事実を考えると困難である。 本稿では,多周波散乱電界の振幅からランダム形状の2次元誘電体を正確にかつ効率的に再構成する,生成型逆ネットワークに基づく強力な深層学習手法を提案する。 逆自己エンコーダ(AAE)は、ガウス分布に拘束された低次元の潜在表現から散乱器の幾何を生成することを学習するために訓練される。 凝集型逆ニューラルネットワーク(inn)フレームワークは、適切に設計された密集層と、既に訓練済みのジェネレータと、個別に訓練されたフォワードニューラルネットワークからなる。 逆ネットワークの出力で再構成された画像は、前方ニューラルネットワークの出力との比較により検証され、電磁的(em)イメージング問題に固有の非特異性課題に対処する。 トレーニングされたINNは、平均2進クロスエントロピー(BCE)損失が0.13ドル、構造類似度指数(SSI)が0.90ドルであることを示す。 この研究は計算負荷の大幅な削減を示すだけでなく、従来の目的関数法よりも大幅に改善されている。 リアルタイムの定量的イメージングアプローチを提供することで、機械学習とEMイメージングの両方に寄与する。 シミュレーションデータを用いて得られた結果は、トレーニングとテストの両方において有望な結果をもたらし、ラジオ波逆イメージングのための新しい道を開く可能性がある。

Inverse scattering problems are inherently challenging, given the fact they are ill-posed and nonlinear. This paper presents a powerful deep learning-based approach that relies on generative adversarial networks to accurately and efficiently reconstruct randomly-shaped two-dimensional dielectric objects from amplitudes of multi-frequency scattered electric fields. An adversarial autoencoder (AAE) is trained to learn to generate the scatterer's geometry from a lower-dimensional latent representation constrained to adhere to the Gaussian distribution. A cohesive inverse neural network (INN) framework is set up comprising a sequence of appropriately designed dense layers, the already-trained generator as well as a separately trained forward neural network. The images reconstructed at the output of the inverse network are validated through comparison with outputs from the forward neural network, addressing the non-uniqueness challenge inherent to electromagnetic (EM) imaging problems. The trained INN demonstrates an enhanced robustness, evidenced by a mean binary cross-entropy (BCE) loss of $0.13$ and a structure similarity index (SSI) of $0.90$. The study not only demonstrates a significant reduction in computational load, but also marks a substantial improvement over traditional objective-function-based methods. It contributes both to the fields of machine learning and EM imaging by offering a real-time quantitative imaging approach. The results obtained with the simulated data, for both training and testing, yield promising results and may open new avenues for radio-frequency inverse imaging.
翻訳日:2024-02-19 15:04:55 公開日:2024-02-16
# スマートツーリズムツールのための分類設計

Designing a Taxonomy for Smart Tourism Tools ( http://arxiv.org/abs/2402.10830v1 )

ライセンス: Link先を確認
Ant\'onio Galv\~ao, Fernando Brito e Abreu, Jo\~ao Joanaz de Melo(参考訳) スマート観光(ST)は、観光業界におけるプロセスのデジタル化に焦点を当てたe-tourismの概念と、観光体験におけるデジタル化も考慮したデジタル観光に由来する。 初期のST参照では、ST Destinationsを考慮し、スマートシティの開発から生まれている。 Our initial literature review on the ST concept and Smart Tourism Tools (STT) revealed significant research uncertainties: ST is poorly defined and frequently linked to the concept of Smart Cities; different authors have different, sometimes contradictory, views on the goals of ST; STT claims are often only based on technological aspects, and their "smartness" is difficult to evaluate; often the term "Smart" describes developments fueled by cutting-edge technologies, which lose that status after a few years. この章は、欧州STT観測所として知られるヨーロッパにおけるSTTの総合的な展望を提供するオンライン天文台を建設するための活動の一環である。 これを達成するために、天文台はSTとSTTの音の定義に基づいて「スマートネス」を評価する方法とツールを必要とし、同時に技術進歩にも適応できる。 本章では,世界中のST専門家を招待して,このような音質レベルを達成するための参加的アプローチの結果を紹介する。 我々の目標はSTとSTTの定義に関する議論に貴重な貢献を行うことです。

Smart tourism (ST) stems from the concepts of e-tourism - focused on the digitalization of processes within the tourism industry, and digital tourism - also considering the digitalization within the tourist experience. The earlier ST references found regard ST Destinations and emerge from the development of Smart Cities. Our initial literature review on the ST concept and Smart Tourism Tools (STT) revealed significant research uncertainties: ST is poorly defined and frequently linked to the concept of Smart Cities; different authors have different, sometimes contradictory, views on the goals of ST; STT claims are often only based on technological aspects, and their "smartness" is difficult to evaluate; often the term "Smart" describes developments fueled by cutting-edge technologies, which lose that status after a few years. This chapter is part of the ongoing initiative to build an online observatory that provides a comprehensive view of STTs' offerings in Europe, known as the European STT Observatory. To achieve this, the observatory requires methodologies and tools to evaluate "smartness" based on a sound definition of ST and STT, while also being able to adapt to technological advancements. In this chapter, we present the results of a participatory approach where we invited ST experts from around the world to help us achieve this level of soundness. Our goal is to make a valuable contribution to the discussion on the definition of ST and STT.
翻訳日:2024-02-19 15:04:32 公開日:2024-02-16
# RAG-Driver:マルチモーダル大言語モデルにおける検索強化型インコンテキスト学習による汎用運転説明

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model ( http://arxiv.org/abs/2402.10828v1 )

ライセンス: Link先を確認
Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd(参考訳) ブラックボックス」モデルで動くロボットは、信頼できる説明を提供する必要がある。 したがって、説明可能性は、特に複雑な自動運転において、エンドユーザ間の透明性と受容を促進するために、信頼できる自律的意思決定において重要な役割を果たす。 近年のMLLM(Multi-Modal Large Language Model)の進歩は、自然言語の説明とともに制御予測を生成することにより、駆動エージェントとしての説明可能性を高める可能性を示している。 しかし、高価なアノテーションコストと異なるデータセット間のドメインギャップによる厳しいデータ不足は、堅牢で汎用的なシステムの開発を極めて難しい課題にしている。 さらに,MLLMの厳格に高価なトレーニング要件と破滅的忘れの未解決問題により,展開後の一般性はさらに制限された。 これらの課題に対処するために,提案するRAG-Driverは,高能率,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型マルチモーダル大規模言語モデルである。 RAG-Driverが運転動作の説明,正当化,制御信号の予測を行う上で,最先端の性能を発揮することを実証的に検証した。 さらに重要なことは、さらなるトレーニングの努力なしに、見えない環境に例外的なゼロショット一般化能力を示すことだ。

Robots powered by 'blackbox' models need to provide human-understandable explanations which we can trust. Hence, explainability plays a critical role in trustworthy autonomous decision-making to foster transparency and acceptance among end users, especially in complex autonomous driving. Recent advancements in Multi-Modal Large Language models (MLLMs) have shown promising potential in enhancing the explainability as a driving agent by producing control predictions along with natural language explanations. However, severe data scarcity due to expensive annotation costs and significant domain gaps between different datasets makes the development of a robust and generalisable system an extremely challenging task. Moreover, the prohibitively expensive training requirements of MLLM and the unsolved problem of catastrophic forgetting further limit their generalisability post-deployment. To address these challenges, we present RAG-Driver, a novel retrieval-augmented multi-modal large language model that leverages in-context learning for high-performance, explainable, and generalisable autonomous driving. By grounding in retrieved expert demonstration, we empirically validate that RAG-Driver achieves state-of-the-art performance in producing driving action explanations, justifications, and control signal prediction. More importantly, it exhibits exceptional zero-shot generalisation capabilities to unseen environments without further training endeavours.
翻訳日:2024-02-19 15:04:12 公開日:2024-02-16
# 散逸リンドブラジアンダイナミクスをもつ相互作用系に対するカダノフ・ベイム方程式

Kadanoff-Baym equations for interacting systems with dissipative Lindbladian dynamics ( http://arxiv.org/abs/2402.10824v1 )

ライセンス: Link先を確認
Gianluca Stefanucci(参考訳) 散逸ダイナミクスによって制御される非平衡系の異常な量子特性は、現代の科学的探究において焦点となっている。 非平衡グリーン関数(NEGF)理論は、相関効果を組み込む強力な図式技術を利用して、駆動された非散逸的なシステムに対処するための多元的手法を提供する。 ここでは,lindbladian dynamics に対応するためにkeldysh のアイデアを再構成し,それに従って kadanoff-baym 方程式を拡張した,二つ目の量子化アプローチを提案する。 多体リンドブラッド作用素の図式摂動理論を一般化した形式主義は、物質の電子的、輸送的、光学的性質における過渡的および定常的変化を探索するための相関的および散逸的なリアルタイムシミュレーションを可能にする。

The extraordinary quantum properties of nonequilibrium systems governed by dissipative dynamics have become a focal point in contemporary scientific inquiry. The Nonequilibrium Green's Functions (NEGF) theory provides a versatile method for addressing driven {\em non-dissipative} systems, utilizing the powerful diagrammatic technique to incorporate correlation effects. We here present a second-quantization approach to the {\em dissipative} NEGF theory, reformulating Keldysh ideas to accommodate Lindbladian dynamics and extending the Kadanoff-Baym equations accordingly. Generalizing diagrammatic perturbation theory for many-body Lindblad operators, the formalism enables correlated and dissipative real-time simulations for the exploration of transient and steady-state changes in the electronic, transport, and optical properties of materials.
翻訳日:2024-02-19 15:03:51 公開日:2024-02-16
# 重なり最適化によるクラス不均衡拡散モデルの訓練

Training Class-Imbalanced Diffusion Model Via Overlap Optimization ( http://arxiv.org/abs/2402.10821v1 )

ライセンス: Link先を確認
Divin Yan, Lu Qi, Vincent Tao Hu, Ming-Hsuan Yang, Meng Tang(参考訳) 拡散モデルは最近、高品質な画像合成と関連するタスクにおいて大きな進歩を遂げている。 しかし、しばしば長い尾の分布に追従する実世界のデータセットに基づいて訓練された拡散モデルは、尾のクラスの忠実度に劣る。 拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。 本研究では,レアクラスとテールクラスの合成画像の出現重なりを解消するために,異なるクラスにおける合成画像の分布の重なりを最小化するコントラスト学習法を提案する。 確率論的コントラスト学習法の変種を任意のクラス条件拡散モデルに適用できることを示す。 長期分布を持つ複数のデータセットに対する損失を用いた画像合成の大幅な改善を示す。 実験結果から,拡散モデルと分類モデルにおいて,不均衡なデータを効果的に処理できることが示唆された。 コードとデータセットはhttps://github.com/yanliang3612/DiffROP.comで公開されます。

Diffusion models have made significant advances recently in high-quality image synthesis and related tasks. However, diffusion models trained on real-world datasets, which often follow long-tailed distributions, yield inferior fidelity for tail classes. Deep generative models, including diffusion models, are biased towards classes with abundant training images. To address the observed appearance overlap between synthesized images of rare classes and tail classes, we propose a method based on contrastive learning to minimize the overlap between distributions of synthetic images for different classes. We show variants of our probabilistic contrastive learning method can be applied to any class conditional diffusion model. We show significant improvement in image synthesis using our loss for multiple datasets with long-tailed distribution. Extensive experimental results demonstrate that the proposed method can effectively handle imbalanced data for diffusion-based generation and classification models. Our code and datasets will be publicly available at https://github.com/yanliang3612/DiffROP.
翻訳日:2024-02-19 15:03:34 公開日:2024-02-16
# メトリック学習によるゴールコンディションオフライン強化学習

Goal-Conditioned Offline Reinforcement Learning via Metric Learning ( http://arxiv.org/abs/2402.10820v1 )

ライセンス: Link先を確認
Alfredo Reichlin, Miguel Vasco, Hang Yin, Danica Kragic(参考訳) 本研究では,目標条件付きオフライン強化学習の文脈における最適データセットからの最適行動学習の問題に対処する。 そこで本研究では,目標条件付きオフラインrl問題の最適値関数を分散報酬,対称的,決定論的に近似する新しい手法を提案する。 最適性を回復するための表現の特性を考察し,その性質を導く新しい最適化目標を提案する。 我々は、学習値関数を用いて、アクター-批判的な方法でポリシーの学習をガイドする。 実験により,本手法が準最適オフラインデータセットからの学習において,他のオフラインRLベースラインを一貫して上回ることを示す。 さらに,本手法が高次元観測や多目的タスクにおいて有効であることを示す。

In this work, we address the problem of learning optimal behavior from sub-optimal datasets in the context of goal-conditioned offline reinforcement learning. To do so, we propose a novel way of approximating the optimal value function for goal-conditioned offline RL problems under sparse rewards, symmetric and deterministic actions. We study a property for representations to recover optimality and propose a new optimization objective that leads to such property. We use the learned value function to guide the learning of a policy in an actor-critic fashion, a method we name MetricRL. Experimentally, we show how our method consistently outperforms other offline RL baselines in learning from sub-optimal offline datasets. Moreover, we show the effectiveness of our method in dealing with high-dimensional observations and in multi-goal tasks.
翻訳日:2024-02-19 15:03:19 公開日:2024-02-16
# コンベックス・サロゲートのモードにおける整合性と寸法のトレードオフ

Trading off Consistency and Dimensionality of Convex Surrogates for the Mode ( http://arxiv.org/abs/2402.10818v1 )

ライセンス: Link先を確認
Enrique Nueve, Bo Waggoner, Dhamma Kimpara, Jessie Finocchiaro(参考訳) 結果が$n$以上の多重クラス分類では、結果がデータ分布に関係なく「正しい」分類につながる一貫した代理損失を設計するために、少なくとも$n-1$の次元を持つ実数に埋め込まれなければならない。 情報検索や構造化予測タスクのような大きな$n$の場合、$n-1$次元の代理を最適化することは、しばしば難解である。 マルチクラス分類において,サロゲート損失次元のトレードオフ,問題インスタンス数,単純度における一貫性領域の制限について検討する。 過去の研究に続いて,低次元サロゲート空間における凸ポリトープの頂点に結果をマッピングする直感的な埋め込み手法を検討した。 完全次元部分集合は、一貫性が保たれる各点質量分布の周りに存在するが、n-1$次元未満では、幻覚と呼ばれる現象が起こるような分布が存在し、それは代理損失の下での最適報告がゼロ確率の結果である。 アプリケーションに目を向けると、特定のポリトープの埋め込みと低ノイズの仮定の下で一貫性が保たれるかどうかを確認する結果が導出されます。 我々は、$n = 2^{d}$の結果を $d$-dimensional unit cube と $n = d! 低ノイズの仮定の下で、$d$-dimensional permutahedron に結果を与える。 最後に、複数の問題インスタンスで、simplex全体に対して$\frac{n}{2}$次元でモードを学習できることを実証する。

In multiclass classification over $n$ outcomes, the outcomes must be embedded into the reals with dimension at least $n-1$ in order to design a consistent surrogate loss that leads to the "correct" classification, regardless of the data distribution. For large $n$, such as in information retrieval and structured prediction tasks, optimizing a surrogate in $n-1$ dimensions is often intractable. We investigate ways to trade off surrogate loss dimension, the number of problem instances, and restricting the region of consistency in the simplex for multiclass classification. Following past work, we examine an intuitive embedding procedure that maps outcomes into the vertices of convex polytopes in a low-dimensional surrogate space. We show that full-dimensional subsets of the simplex exist around each point mass distribution for which consistency holds, but also, with less than $n-1$ dimensions, there exist distributions for which a phenomenon called hallucination occurs, which is when the optimal report under the surrogate loss is an outcome with zero probability. Looking towards application, we derive a result to check if consistency holds under a given polytope embedding and low-noise assumption, providing insight into when to use a particular embedding. We provide examples of embedding $n = 2^{d}$ outcomes into the $d$-dimensional unit cube and $n = d!$ outcomes into the $d$-dimensional permutahedron under low-noise assumptions. Finally, we demonstrate that with multiple problem instances, we can learn the mode with $\frac{n}{2}$ dimensions over the whole simplex.
翻訳日:2024-02-19 15:03:04 公開日:2024-02-16
# ternaryvote: 異種データに対する差分プライベート、通信効率、ビザンチン耐性分散最適化

TernaryVote: Differentially Private, Communication Efficient, and Byzantine Resilient Distributed Optimization on Heterogeneous Data ( http://arxiv.org/abs/2402.10816v1 )

ライセンス: Link先を確認
Richeng Jin, Yujie Gu, Kai Yue, Xiaofan He, Zhaoyang Zhang, Huaiyu Dai(参考訳) ディープニューラルネットワークの分散トレーニングには,プライバシ保護,通信効率,障害や敵行動に対する堅牢性という,3つの重要な課題がある。 これらの課題を個別に解決するための重要な研究努力が続けられているが、それらの合成はいまだに研究されていない。 本稿では,三次圧縮機と多数決機構を組み合わせて,差分プライバシー,勾配圧縮,ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。 理論上は,新たに出現するf-differential privacy (dp) のレンズと,提案アルゴリズムのビザンチン・レジリエンスを用いて,プライバシの保証を定量化する。 特にプライバシ保証の観点からは,既存の符号ベースアプローチstosignと比較して,提案手法は勾配サイズに対する次元依存性を改善し,同等の収束率を確保しつつ,ミニバッチサンプリングによるプライバシ増幅を享受する。 TernaryVoteは、50%未満の労働者が盲目の攻撃者であり、多数決でSIGNSGDと一致している場合にも堅牢であることを示す。 実験により,提案アルゴリズムの有効性を検証した。

Distributed training of deep neural networks faces three critical challenges: privacy preservation, communication efficiency, and robustness to fault and adversarial behaviors. Although significant research efforts have been devoted to addressing these challenges independently, their synthesis remains less explored. In this paper, we propose TernaryVote, which combines a ternary compressor and the majority vote mechanism to realize differential privacy, gradient compression, and Byzantine resilience simultaneously. We theoretically quantify the privacy guarantee through the lens of the emerging f-differential privacy (DP) and the Byzantine resilience of the proposed algorithm. Particularly, in terms of privacy guarantees, compared to the existing sign-based approach StoSign, the proposed method improves the dimension dependence on the gradient size and enjoys privacy amplification by mini-batch sampling while ensuring a comparable convergence rate. We also prove that TernaryVote is robust when less than 50% of workers are blind attackers, which matches that of SIGNSGD with majority vote. Extensive experimental results validate the effectiveness of the proposed algorithm.
翻訳日:2024-02-19 15:02:33 公開日:2024-02-16
# 特徴空間における連想記憶

Associative Memories in the Feature Space ( http://arxiv.org/abs/2402.10814v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Beren Millidge, Yuhang Song, Rafal Bogacz, Thomas Lukasiewicz(参考訳) 自己連想記憶モデルは、あるデータポイントの集合が任意のベクトルとして入力され、記憶された集合から最も類似したデータポイントを出力する関数である。 しかし、一般的なメモリモデルは、ヒト評価器の破損が軽度で検出しやすくても、画像の検索に失敗する。 これは、画像に関する意味的な情報を含まない生のピクセル空間で類似性が評価されるためである。 この問題は、ピクセル空間の代わりに埋め込み空間で \emph{similarities} を計算することで容易に解決できる。 このような埋め込みを効果的に計算する方法として,コントラスト損失のあるネットワークが提案されている。 埋め込み空間の次元はピクセル空間よりもかなり小さいことが多いので、類似度スコアのより高速な計算も可能である。 この手法をcifar10やstl10などの複雑なデータセットでテストする。 現在のモデルのさらなる欠点は、データセット全体をピクセル空間に格納する必要があることだ。 我々は、この条件を緩和し、低次元のセマンティクス埋め込みのみを格納するメモリモデルクラスを提案し、それらを使用して類似しているが同一ではないメモリを取得する。 MNISTデータセット上の単純なタスクに対して,本手法の概念実証を行う。

An autoassociative memory model is a function that, given a set of data points, takes as input an arbitrary vector and outputs the most similar data point from the memorized set. However, popular memory models fail to retrieve images even when the corruption is mild and easy to detect for a human evaluator. This is because similarities are evaluated in the raw pixel space, which does not contain any semantic information about the images. This problem can be easily solved by computing \emph{similarities} in an embedding space instead of the pixel space. We show that an effective way of computing such embeddings is via a network pretrained with a contrastive loss. As the dimension of embedding spaces is often significantly smaller than the pixel space, we also have a faster computation of similarity scores. We test this method on complex datasets such as CIFAR10 and STL10. An additional drawback of current models is the need of storing the whole dataset in the pixel space, which is often extremely large. We relax this condition and propose a class of memory models that only stores low-dimensional semantic embeddings, and uses them to retrieve similar, but not identical, memories. We demonstrate a proof of concept of this method on a simple task on the MNIST dataset.
翻訳日:2024-02-19 15:02:11 公開日:2024-02-16
# プログラム型プロンプティングによるハイブリッド質問応答の探索

Exploring Hybrid Question Answering via Program-based Prompting ( http://arxiv.org/abs/2402.10812v1 )

ライセンス: Link先を確認
Qi Shi, Han Cui, Haofeng Wang, Qingfu Zhu, Wanxiang Che, Ting Liu(参考訳) 異種データに対する質問応答は、多種多様なデータソースに対する推論を必要とするが、これは異種データの大規模な情報と有機的結合のために困難である。 これらの課題に対処する様々なアプローチが提案されている。 1つのアプローチは、関連する情報を選択するために特別なレトリバーを訓練することである。 もう1つのアプローチは、多様なデータモダリティを単一のモダリティに変換し、タスクの難しさを単純化し、より簡単な処理を可能にすることである。 本稿では,ハイブリッド質問応答タスクのための新しいプログラムベースのプロンプトフレームワークであるHProProを提案する。 HProProProはコード生成と実行のパラダイムに従っている。 さらにHProProは、ハイブリッド推論シナリオに取り組むために、さまざまな機能を統合する。 具体的には、HProProには、様々なソースやモダリティのデータに対するハイブリッド情報検索を行う関数宣言と関数実装が含まれている。 HybridQAとMultiModalQAの2つの典型的なハイブリッド質問応答ベンチマークの実験結果は、HProProの有効性を示している。

Question answering over heterogeneous data requires reasoning over diverse sources of data, which is challenging due to the large scale of information and organic coupling of heterogeneous data. Various approaches have been proposed to address these challenges. One approach involves training specialized retrievers to select relevant information, thereby reducing the input length. Another approach is to transform diverse modalities of data into a single modality, simplifying the task difficulty and enabling more straightforward processing. In this paper, we propose HProPro, a novel program-based prompting framework for the hybrid question answering task. HProPro follows the code generation and execution paradigm. In addition, HProPro integrates various functions to tackle the hybrid reasoning scenario. Specifically, HProPro contains function declaration and function implementation to perform hybrid information-seeking over data from various sources and modalities, which enables reasoning over such data without training specialized retrievers or performing modal transformations. Experimental results on two typical hybrid question answering benchmarks HybridQA and MultiModalQA demonstrate the effectiveness of HProPro: it surpasses all baseline systems and achieves the best performances in the few-shot settings on both datasets.
翻訳日:2024-02-19 15:01:52 公開日:2024-02-16
# LLMシミュレーションにおけるペルソナ効果の定量化

Quantifying the Persona Effect in LLM Simulations ( http://arxiv.org/abs/2402.10811v1 )

ライセンス: Link先を確認
Tiancheng Hu and Nigel Collier(参考訳) 大規模言語モデル(llm)は、人間の言語使用と行動のシミュレーションにおいて顕著な期待を示してきた。 本研究では,ペルソナ変数の交点と,異なる視点をシミュレートするllmの能力について考察する。 ペルソナ変数は既存の主観的nlpデータセットにおけるアノテーションの<10\%のばらつきを説明できることがわかった。 それでも、LSMのプロンプトを通じてそれらを組み込むことは、控えめな改善をもたらす。 ペルソナプロンプトは、アノテータ間の不一致が頻繁に発生するが、限られた範囲に限定されるデータサンプルに対して最も効果的である。 パーソナリティ変数が人間のアノテーションに影響を与えるほど、llmの予測がペルソナプロンプトを使用するようになる。 しかしながら、ペルソナ変数の効用が低い場合(つまり、人間のアノテーションの10%)、ペルソナのプロンプトはほとんど効果がない。 ほとんどの主観的NLPデータセットはこのカテゴリに該当し、現在のNLPランドスケープにおける多様な視点をシミュレートすることに疑問を呈している。

Large language models (LLMs) have shown remarkable promise in simulating human language use and behavior. In this study, we delve into the intersection of persona variables and the capability of LLMs to simulate different perspectives. We find that persona variables can explain <10\% variance in annotations in existing subjective NLP datasets. Nonetheless, incorporating them via prompting in LLMs provides modest improvement. Persona prompting is most effective on data samples where disagreements among annotators are frequent yet confined to a limited range. A linear correlation exists: the more persona variables influence human annotations, the better LLMs predictions are using persona prompting. However, when the utility of persona variables is low (i.e., explaining <10\% of human annotations), persona prompting has little effect. Most subjective NLP datasets fall into this category, casting doubt on simulating diverse perspectives in the current NLP landscape.
翻訳日:2024-02-19 15:01:33 公開日:2024-02-16
# 二重双対性:制約付き強化学習のための変分原始双対ポリシー最適化

Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning ( http://arxiv.org/abs/2402.10810v1 )

ライセンス: Link先を確認
Zihao Li, Boyi Liu, Zhuoran Yang, Zhaoran Wang, Mengdi Wang(参考訳) 本研究では,来訪測度の凸汎関数を最小化することを目的とした制約付き凸マルコフ決定過程(mdp)について検討する。 制約付き凸MDPの設計アルゴリズムは,(1)大局的な状態空間の処理,(2)探索/探索トレードオフの管理,(3)目的と制約がともに訪問尺度の非線形関数である制約付き最適化の解決など,いくつかの課題に直面している。 本研究では,モデルに基づくアルゴリズムであるVPDPOを提案する。そこでは,ラグランジアンとフェンシェルの双対性を実装し,元の制約された問題を非制約の原始双対最適化に変換する。 さらに、主変数は不確実性に直面した楽観主義(ofu)の原理に従ってモデルベース値反復によって更新され、双対変数は勾配上昇によって更新される。 さらに、訪問測度を有限次元空間に埋め込むことで、関数近似を組み込むことで大きな状態空間を扱うことができる。 2つの顕著な例は(1)核化非線形レギュレータと(2)低ランクmdpである。 我々は,楽観的な計画オラクルを用いて,両ケースのサブ線形後悔と制約違反を実現し,元の制約問題に対する世界的最適ポリシーを達成できることを証明した。

We study the Constrained Convex Markov Decision Process (MDP), where the goal is to minimize a convex functional of the visitation measure, subject to a convex constraint. Designing algorithms for a constrained convex MDP faces several challenges, including (1) handling the large state space, (2) managing the exploration/exploitation tradeoff, and (3) solving the constrained optimization where the objective and the constraint are both nonlinear functions of the visitation measure. In this work, we present a model-based algorithm, Variational Primal-Dual Policy Optimization (VPDPO), in which Lagrangian and Fenchel duality are implemented to reformulate the original constrained problem into an unconstrained primal-dual optimization. Moreover, the primal variables are updated by model-based value iteration following the principle of Optimism in the Face of Uncertainty (OFU), while the dual variables are updated by gradient ascent. Moreover, by embedding the visitation measure into a finite-dimensional space, we can handle large state spaces by incorporating function approximation. Two notable examples are (1) Kernelized Nonlinear Regulators and (2) Low-rank MDPs. We prove that with an optimistic planning oracle, our algorithm achieves sublinear regret and constraint violation in both cases and can attain the globally optimal policy of the original constrained problem.
翻訳日:2024-02-19 15:00:52 公開日:2024-02-16
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v1 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt(参考訳) 因果推論は強固で汎用的な知性において基本的な役割を担っていると長い間仮説されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納バイアスが十分であるかどうかは不明である。 この問いに答え、分布シフトの大きな集合の下で束縛された後悔を満足できるエージェントは、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学ぶ必要があることを示した。 転校学習や因果推論など,いくつかの研究分野におけるこの結果の意義について考察する。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-02-19 14:53:05 公開日:2024-02-16
# 制御アセンブリによる2次元空力メタマテリアルの設計

Design of 2D Skyrmionic Metamaterial Through Controlled Assembly ( http://arxiv.org/abs/2402.10874v1 )

ライセンス: Link先を確認
Qichen Xu, Zhuanglin Shen, Alexander Edstr\"om, I. P. Miranda, Zhiwei Lu, Anders Bergman, Danny Thonig, Wanjian Yin, Olle Eriksson, Anna Delin(参考訳) 磁気スキャミオンやアンチスキャミオンに関する広範な研究にもかかわらず、様々な、あるいは仕立て屋のトポロジーを持つ非自明な高次スキャミオンテクスチャを作成することは重要な課題である。 我々は,単層薄膜中のskyrmionicsメタマテリアルの構築経路に着目し,驚くほど安定な格子状,フレーク状,細胞状skyrmionicメタマテリアルを複数提案する。 私たちのアプローチの中心は、「シミュレーション制御アセンブリ」という概念であり、要するに「クリック化学」にインスパイアされたプロトコルは、好きなトポロジカル磁気構造の位置決めを可能にし、エネルギーの最小化によって安定性が解明される。 高出力原子-スピン力学(ASD)シミュレーションと最先端のAI駆動ツールを併用して、天空(位相電荷Q=1)、反天空(Q=-1)、天空(Q=0)を分離した。 これらの実体は、報告された複雑なテクスチャを形成するための基礎的な「スケモニック建築ブロック」として機能する。 本研究では、skyrmionic systemsの分野に2つの重要な貢献が紹介されている。 まず, トポロジカルマグネットの安定化と探索のための制御アセンブリプロトコルを統合する新しい手法を提案する。 第2にskyrmionicメタマテリアルの発見について報告し, 理論的および実験的に研究できる複雑なトポロジーが多数存在することを示した。

Despite extensive research on magnetic skyrmions and antiskyrmions, a significant challenge remains in crafting nontrivial high-order skyrmionic textures with varying, or even tailor-made, topologies. We address this challenge, by focusing on a construction pathway of skyrmionics metamaterial within a monolayer thin film and suggest several promising lattice-like, flakes-like, and cell-like skyrmionic metamaterials that are surprisingly stable. Central to our approach is the concept of 'simulated controlled assembly', in short, a protocol inspired by 'click chemistry' that allows for positioning topological magnetic structures where one likes, and then allowing for energy minimization to elucidate the stability. Utilizing high-throughput atomistic-spin-dynamic (ASD) simulations alongside state-of-the-art AI-driven tools, we have isolated skyrmions (topological charge Q=1), antiskyrmions (Q=-1), and skyrmionium (Q=0). These entities serve as foundational 'skyrmionic building blocks' to forming reported intricate textures. In this work, two key contributions are introduced to the field of skyrmionic systems. First, we present a novel method for integrating control assembly protocols for the stabilization and investigation of topological magnets, which marks a significant advancement in the ability to explore new skyrmionic textures. Second, we report on the discovery of skyrmionic metamaterials, which shows a plethora of complex topologies that are possible to investigate theoretically and experimentally.
翻訳日:2024-02-19 14:52:54 公開日:2024-02-16
# 米ミールモードにおける高速対糖尿病トウレスポンプ

Fast counter-diabatic Thouless pumping in the Rice-Mele mode ( http://arxiv.org/abs/2402.10872v1 )

ライセンス: Link先を確認
Joshua Chiel, Christopher Jarzynski, Jay Sau(参考訳) トレスポンピング(thouless pumping)は、周期的に変化するハミルトニアンがハミルトニアンの時間依存性が準断熱であるときに電荷を量子化することができる輸送現象である。 Floquetテクニックを含むこのプロセスを高速化するための過去の提案は、システムの初期状態を設定するという微妙な問題を引き起こした。 本研究は,thouless pumpingの最も単純なモデルの一つである米粉モデルに対して,逆ダイアバティック駆動を適用し,任意の駆動速度でシステムを維持し続けることを保証する。 この場合、ライス・ミールモデルの各結合のポンプ電荷は、トポロジカルに定量化されたチャーン数によって与えられることを示す。 しかし、一般的な場合の反断熱駆動は長距離ホッピングを伴っていることが判明した。 これは,米-ミールモデルの非常に具体的な例を選択するか,あるいはハミルトニアンの数値最適化によって,米-ミールモデルにおいて実験的に実現可能な高速ポンプの変種を作成することで緩和できることを示す。

Thouless pumping is a transport phenomenon where a periodically varying Hamiltonian can transfer a quantized amount of charge when the time-dependence of the Hamiltonian is quasi-adiabatic. Past proposals to speed up this process involving Floquet techniques lead to a subtle problem of setting the initial state of the system. In this work we apply counter-diabatic driving to the Rice-Mele model, which is one of the simplest models for Thouless pumping, to ensure that the system remains in the ground state for any driving speed. We show that the pumped charge across each bond of the Rice-Mele model is given by a topologically quantized Chern number in this case. However, the counter-diabatic driving in a general case turns out to involve long-range hopping. We show that this can be mitigated either by choosing a very specific example of the Rice-Mele model or by numerical optimization of the Hamiltonian to create experimentally realizable variants of fast pumping in the Rice-Mele model.
翻訳日:2024-02-19 14:52:26 公開日:2024-02-16
# 3つの世界のベスト:デジタルマーケティング実践のための適応実験

Best of Three Worlds: Adaptive Experimentation for Digital Marketing in Practice ( http://arxiv.org/abs/2402.10870v1 )

ライセンス: Link先を確認
Tanner Fiez, Houssam Nassif, Arick Chen, Sergio Gamez, Lalit Jain(参考訳) 適応的実験設計 (Adaptive experimental design, AED) 法は、従来のA/B/N試験法と比較して、試験のスループットを向上したり、実験コストを削減したりするためのツールとして、業界でますます使われている。 しかし,そのような手法の動作と保証は,理想的な定常設定以上のことは十分に理解されていない。 本稿では,非定常な産業環境でのAEDシステム導入の課題について,適切な目的やシステム仕様について考察した。 そこで我々は,これらの経験に基づく実例推論のためのAEDフレームワークを開発し,商業環境でテストした。

Adaptive experimental design (AED) methods are increasingly being used in industry as a tool to boost testing throughput or reduce experimentation cost relative to traditional A/B/N testing methods. However, the behavior and guarantees of such methods are not well-understood beyond idealized stationary settings. This paper shares lessons learned regarding the challenges of naively using AED systems in industrial settings where non-stationarity is prevalent, while also providing perspectives on the proper objectives and system specifications in such settings. We developed an AED framework for counterfactual inference based on these experiences, and tested it in a commercial environment.
翻訳日:2024-02-19 14:52:10 公開日:2024-02-16
# ecorank: 大きな言語モデルを用いた予算制約付きテキストの再ランキング

EcoRank: Budget-Constrained Text Re-ranking Using Large Language Models ( http://arxiv.org/abs/2402.10866v1 )

ライセンス: Link先を確認
Muhammad Shihab Rashid, Jannat Ara Meem, Yue Dong, Vagelis Hristidis(参考訳) 大規模言語モデル(llm)はテキストの再ランキングにおいて最先端のパフォーマンスを達成している。 このプロセスはプロンプト内のクエリと候補パスを含み、ポイントワイド、リストワイド、ペアワイドのプロンプト戦略を利用する。 LLMによるこれらのランキング戦略の制限はコストであり、入力トークンと出力トークンの数に基づいて、APIの課金によってプロセスが高価になる可能性がある。 提案手法は, 迅速な選択, LLM API, 予算分割の膨大な検索空間をナビゲートすることによって, 予算が与えられた性能を最大化する手法である。 LLM APIの集合を用いてテキストの再ランク付けを行うための予算制約付き手法を提案する。 私たちの最も効率的な方法はEcoRankと呼ばれ、プロンプト戦略とLCM API間の予算配分に関する決定を共同で最適化する2層パイプラインです。 EcoRankは,4つの人気QAおよびパスリグレードデータセットの実験結果から,他の予算に配慮した教師なしベースラインよりも優れた性能を示した。

Large Language Models (LLMs) have achieved state-of-the-art performance in text re-ranking. This process includes queries and candidate passages in the prompts, utilizing pointwise, listwise, and pairwise prompting strategies. A limitation of these ranking strategies with LLMs is their cost: the process can become expensive due to API charges, which are based on the number of input and output tokens. We study how to maximize the re-ranking performance given a budget, by navigating the vast search spaces of prompt choices, LLM APIs, and budget splits. We propose a suite of budget-constrained methods to perform text re-ranking using a set of LLM APIs. Our most efficient method, called EcoRank, is a two-layered pipeline that jointly optimizes decisions regarding budget allocation across prompt strategies and LLM APIs. Our experimental results on four popular QA and passage reranking datasets show that EcoRank outperforms other budget-aware supervised and unsupervised baselines.
翻訳日:2024-02-19 14:51:59 公開日:2024-02-16
# multi-model 3d registration: クラッタ点雲内の複数の移動物体の探索

Multi-Model 3D Registration: Finding Multiple Moving Objects in Cluttered Point Clouds ( http://arxiv.org/abs/2402.10865v1 )

ライセンス: Link先を確認
David Jin, Sushrut Karmalkar, Harry Zhang, Luca Carlone(参考訳) マルチモデル3D登録問題(Multi-model 3D registration)のバリエーションについて検討する。 マルチモデル登録問題では、異なるポーズでオブジェクトの集合を(おそらく背景に属するポイントを含む)撮影する2つのポイントクラウドが与えられ、すべてのオブジェクトが2つのポイントクラウド間でどのように移動したかを同時に再構築したいと考えています。 この設定は、静止シーンを撮影するセンサーの動作のように、単一のポーズを再構築したい場合に標準3D登録を一般化する。 さらに、ロボットに搭載された深度センサが動的シーンを知覚し、すべての動的オブジェクトの動作を同時に回復しながら、自身の動き(シーンの静的部分から)を推定する目標を持つような、関連するロボット応用のための数学的接地式を提供する。 二つの点の雲の一致を仮定した対応ベースの設定を仮定し、これらの対応が外れ値に悩まされる場合を考える。 次に、期待最大化(EM)に基づく簡単なアプローチを提案し、EMアプローチが基底真理に収束する理論条件を確立する。 本研究では,テーブルトップシーンから自動運転シナリオまで,シミュレーションおよび実際のデータセットにおけるアプローチを評価し,その有効性を示す。

We investigate a variation of the 3D registration problem, named multi-model 3D registration. In the multi-model registration problem, we are given two point clouds picturing a set of objects at different poses (and possibly including points belonging to the background) and we want to simultaneously reconstruct how all objects moved between the two point clouds. This setup generalizes standard 3D registration where one wants to reconstruct a single pose, e.g., the motion of the sensor picturing a static scene. Moreover, it provides a mathematically grounded formulation for relevant robotics applications, e.g., where a depth sensor onboard a robot perceives a dynamic scene and has the goal of estimating its own motion (from the static portion of the scene) while simultaneously recovering the motion of all dynamic objects. We assume a correspondence-based setup where we have putative matches between the two point clouds and consider the practical case where these correspondences are plagued with outliers. We then propose a simple approach based on Expectation-Maximization (EM) and establish theoretical conditions under which the EM approach converges to the ground truth. We evaluate the approach in simulated and real datasets ranging from table-top scenes to self-driving scenarios and demonstrate its effectiveness when combined with state-of-the-art scene flow methods to establish dense correspondences.
翻訳日:2024-02-19 14:51:40 公開日:2024-02-16
# 日常環境におけるメンタルヘルスモニタリングのための個人フェデレート・トランスファー学習--ストレス検出を事例として

Differential Private Federated Transfer Learning for Mental Health Monitoring in Everyday Settings: A Case Study on Stress Detection ( http://arxiv.org/abs/2402.10862v1 )

ライセンス: Link先を確認
Ziyu Wang, Zhongqi Yang, Iman Azimi, Amir M. Rahmani(参考訳) 様々な人口層にまたがるメンタルヘルスの状況は、生活品質に対する悪影響を軽減するために効率的なモニタリングを必要とする。 メンタルヘルスモニタリングのためのデータ駆動手法の急増は、機密性のある健康データを扱う上でのプライバシー保護技術の重要性を浮き彫りにした。 メンタルヘルスモニタリングのための連合学習の進歩にもかかわらず、既存のアプローチは、特定のサイバー攻撃や現実世界のアプリケーションにおけるデータ不足に対する脆弱性に苦しむ。 本稿では,データプライバシの強化とデータ不足の強化を目的とした,メンタルヘルスモニタリングのための差分プライベートフェデレーション転送学習フレームワークを提案する。 そこで我々は,(1)更新にノイズを導入して達成される差分プライバシー,(2)データ不均衡と不整合の問題に対処するために,事前学習されたユニバーサルモデルを用いて,フェデレーション学習を2つの重要な要素と統合した。 縦断研究から得られた生理的・文脈的データのデータセットを用いて,ストレス検出を事例として評価する。 提案手法は,プライバシ保護を確保しつつ,精度が10%向上し,リコール率が21%向上することを示す。

Mental health conditions, prevalent across various demographics, necessitate efficient monitoring to mitigate their adverse impacts on life quality. The surge in data-driven methodologies for mental health monitoring has underscored the importance of privacy-preserving techniques in handling sensitive health data. Despite strides in federated learning for mental health monitoring, existing approaches struggle with vulnerabilities to certain cyber-attacks and data insufficiency in real-world applications. In this paper, we introduce a differential private federated transfer learning framework for mental health monitoring to enhance data privacy and enrich data sufficiency. To accomplish this, we integrate federated learning with two pivotal elements: (1) differential privacy, achieved by introducing noise into the updates, and (2) transfer learning, employing a pre-trained universal model to adeptly address issues of data imbalance and insufficiency. We evaluate the framework by a case study on stress detection, employing a dataset of physiological and contextual data from a longitudinal study. Our finding show that the proposed approach can attain a 10% boost in accuracy and a 21% enhancement in recall, while ensuring privacy protection.
翻訳日:2024-02-19 14:51:16 公開日:2024-02-16
# 制御色:マルチモーダル拡散に基づくインタラクティブ画像色化

Control Color: Multimodal Diffusion-based Interactive Image Colorization ( http://arxiv.org/abs/2402.10855v1 )

ライセンス: Link先を確認
Zhexin Liang, Zhaochen Li, Shangchen Zhou, Chongyi Li, Chen Change Loy(参考訳) 多くの色付け方法が存在するにもかかわらず、ユーザインタラクションの欠如、局所色付けの柔軟性の低下、不自然な色付け、色の変化の不足、色オーバーフローなど、いくつかの制限がある。 そこで,本研究では,事前学習されたsdモデルを利用した多色化手法である制御色(ctrlcolor)を導入し,高度に制御可能なインタラクティブ画像のカラー化に有望な機能を提供する。 拡散ベースの手法がいくつか提案されているが、複数のモードのカラー化をサポートすることは自明ではない。 本研究では,無条件および条件画像のカラー化(テキストプロンプト,ストローク,exemplars)と,統一フレームワーク内で色オーバーフローと不正確な色に対処することを目的とする。 具体的には,ユーザストロークをエンコードして正確な局所色操作を可能にする効果的な方法を示し,例示と類似した色分布を制約する実用的な方法を提案する。 テキストプロンプトを条件として受け入れる以外は、これらのデザインは私たちのアプローチに汎用性を与えます。 また,カラーオーバーフローや不正確なカラー化といった長年の課題に対処するために,セルフアテンションに基づく新しいモジュールとコンテンツガイド付き変形可能なオートエンコーダを導入する。 広範比較により,本モデルは定性的かつ定量的に,最先端のカラー化手法よりも優れていることが示された。

Despite the existence of numerous colorization methods, several limitations still exist, such as lack of user interaction, inflexibility in local colorization, unnatural color rendering, insufficient color variation, and color overflow. To solve these issues, we introduce Control Color (CtrlColor), a multi-modal colorization method that leverages the pre-trained Stable Diffusion (SD) model, offering promising capabilities in highly controllable interactive image colorization. While several diffusion-based methods have been proposed, supporting colorization in multiple modalities remains non-trivial. In this study, we aim to tackle both unconditional and conditional image colorization (text prompts, strokes, exemplars) and address color overflow and incorrect color within a unified framework. Specifically, we present an effective way to encode user strokes to enable precise local color manipulation and employ a practical way to constrain the color distribution similar to exemplars. Apart from accepting text prompts as conditions, these designs add versatility to our approach. We also introduce a novel module based on self-attention and a content-guided deformable autoencoder to address the long-standing issues of color overflow and inaccurate coloring. Extensive comparisons show that our model outperforms state-of-the-art image colorization methods both qualitatively and quantitatively.
翻訳日:2024-02-19 14:50:55 公開日:2024-02-16
# Dolosを用いた教育ソースコード盗作事件の発見と調査

Discovering and exploring cases of educational source code plagiarism with Dolos ( http://arxiv.org/abs/2402.10853v1 )

ライセンス: Link先を確認
Rien Maertens, Maarten Van Neyghem, Maxiem Geldhof, Charlotte Van Petegem, Niko Strijbol, Peter Dawyndt, Bart Mesuere(参考訳) ソースコードの盗作は教育実践において重要な問題であり、教育者はそのような学術的不正に対処するためにユーザーフレンドリーなツールを必要とする。 この記事では、教育ソースコードの盗作を検知し防止するツールの最先端エコシステムであるdolosの最新バージョンを紹介します。 新バージョンでは、ユーザエクスペリエンスの向上に重点が置かれている。 教育者は、ブラウザの新しいwebアプリからプラジャリズム検出パイプライン全体を実行できるようになり、インストールや設定は不要になった。 完全に再設計された分析ダッシュボードは、ソースファイルのコレクションが盗作の疑いのあるケースを含んでいるかどうかと、盗作がコレクション内にあるかどうかを即座に評価する。 ダッシュボードは階層的なナビゲーションをサポートし、疑わしいケースのズームインとアウトを容易にする。 クラスタはダッシュボード設計の不可欠な新しい要素であり、大規模な学生グループの間で盗作が起こりうるという観察を反映している。 さまざまなユーザニーズを満たすため、ソースコード盗作検出用のDolosソフトウェアスタックには、Webインターフェース、JSONアプリケーションプログラミングインターフェース(API)、コマンドラインインターフェース(CLI)、JavaScriptライブラリ、設定済みのDockerコンテナが含まれている。 Webアプリの明確なドキュメントと無償のインスタンスはhttps://dolos.ugent.be.comで見ることができる。 ソースコードもgithubで公開されている。

Source code plagiarism is a significant issue in educational practice, and educators need user-friendly tools to cope with such academic dishonesty. This article introduces the latest version of Dolos, a state-of-the-art ecosystem of tools for detecting and preventing plagiarism in educational source code. In this new version, the primary focus has been on enhancing the user experience. Educators can now run the entire plagiarism detection pipeline from a new web app in their browser, eliminating the need for any installation or configuration. Completely redesigned analytics dashboards provide an instant assessment of whether a collection of source files contains suspected cases of plagiarism and how widespread plagiarism is within the collection. The dashboards support hierarchically structured navigation to facilitate zooming in and out of suspect cases. Clusters are an essential new component of the dashboard design, reflecting the observation that plagiarism can occur among larger groups of students. To meet various user needs, the Dolos software stack for source code plagiarism detections now includes a web interface, a JSON application programming interface (API), a command line interface (CLI), a JavaScript library and a preconfigured Docker container. Clear documentation and a free-to-use instance of the web app can be found at https://dolos.ugent.be. The source code is also available on GitHub.
翻訳日:2024-02-19 14:50:32 公開日:2024-02-16
# HistoSegCap:全スライディング画像における組織型組織分類の微調整のためのカプセル

HistoSegCap: Capsules for Weakly-Supervised Semantic Segmentation of Histological Tissue Type in Whole Slide Images ( http://arxiv.org/abs/2402.10851v1 )

ライセンス: Link先を確認
Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Arash Mohammadi, Konstantinos N. Plataniotis(参考訳) デジタル病理学は、物理的組織スライドを高解像度の全体スライド画像(WSI)に変換することを含む。 しかし、多数の顕微鏡場を持つ大きな組織学スライドは、視覚探索に挑戦する。 病理医を支援するために、CAD(Computer Aided Diagnosis)システムは、WSIを効率的に検査し、診断に関連のある領域を特定する視覚的補助を提供する。 本稿では,まず,カプセルネットワークをベースとしたWakly Supervised Semantic Segmentation(WSSS)を用いた新しい病理画像解析手法を提案する。 提案手法はAtlas of Digital Pathology(ADP)データセットを用いて評価し,その性能を他の組織学的意味分類法と比較した。 病理組織学的画像解析の精度と効率を高めるため,カプセルネットワークの可能性が示唆された。 実験の結果,提案手法は従来の手法よりも精度と平均交点オーバー結合(miou)メトリックよりも優れていることがわかった。

Digital pathology involves converting physical tissue slides into high-resolution Whole Slide Images (WSIs), which pathologists analyze for disease-affected tissues. However, large histology slides with numerous microscopic fields pose challenges for visual search. To aid pathologists, Computer Aided Diagnosis (CAD) systems offer visual assistance in efficiently examining WSIs and identifying diagnostically relevant regions. This paper presents a novel histopathological image analysis method employing Weakly Supervised Semantic Segmentation (WSSS) based on Capsule Networks, the first such application. The proposed model is evaluated using the Atlas of Digital Pathology (ADP) dataset and its performance is compared with other histopathological semantic segmentation methodologies. The findings underscore the potential of Capsule Networks in enhancing the precision and efficiency of histopathological image analysis. Experimental results show that the proposed model outperforms traditional methods in terms of accuracy and the mean Intersection-over-Union (mIoU) metric.
翻訳日:2024-02-19 14:50:09 公開日:2024-02-16
# ロバストな指紋表現学習のための強調駆動事前学習

Enhancement-Driven Pretraining for Robust Fingerprint Representation Learning ( http://arxiv.org/abs/2402.10847v1 )

ライセンス: Link先を確認
Ekta Gavas, Kaustubh Olpadkar, Anoop Namboodiri(参考訳) 指紋認識は生体認証技術の重要な要素であり、識別認証から高度な検索ツールまで様々な応用がある。 本稿では,強化に基づく事前学習を利用して,頑健な指紋表現を導出するユニークな手法を提案する。 本手法は,U-Netによる指紋強調の成果に基づいて,指紋画像から表現を自己監督的に導出する専用エンコーダを用いる。 これらの表現をさらに洗練し、検証能力の向上を目指しています。 公開されている指紋データを用いて実験した結果,既存の自己教師あり訓練技術に対する検証性能が著しく向上したことが明らかとなった。 また,本手法の有効性だけでなく,今後の進歩の道筋も明らかにした。 本研究は,改良されたサンプルに頼ることなく,劣化画像から有意義な指紋を抽出できることを示す。

Fingerprint recognition stands as a pivotal component of biometric technology, with diverse applications from identity verification to advanced search tools. In this paper, we propose a unique method for deriving robust fingerprint representations by leveraging enhancement-based pre-training. Building on the achievements of U-Net-based fingerprint enhancement, our method employs a specialized encoder to derive representations from fingerprint images in a self-supervised manner. We further refine these representations, aiming to enhance the verification capabilities. Our experimental results, tested on publicly available fingerprint datasets, reveal a marked improvement in verification performance against established self-supervised training techniques. Our findings not only highlight the effectiveness of our method but also pave the way for potential advancements. Crucially, our research indicates that it is feasible to extract meaningful fingerprint representations from degraded images without relying on enhanced samples.
翻訳日:2024-02-19 14:49:51 公開日:2024-02-16
# FedD2S: 個人化データフリーフェデレーション知識蒸留

FedD2S: Personalized Data-Free Federated Knowledge Distillation ( http://arxiv.org/abs/2402.10846v1 )

ライセンス: Link先を確認
Kawa Atapour, S. Jamal Seyedmohammadi, Jamshid Abouei, Arash Mohammadi, Konstantinos N. Plataniotis(参考訳) 本稿では,フェデレートラーニング(FL)フレームワークにおけるクライアント間のデータの均一性を緩和する課題について論じる。 モデルドリフト問題は、クライアントデータの非流動性から生じるものであり、各クライアントの局所的に訓練されたモデルと比較して、大域的なモデルの最適なパーソナライゼーションをもたらすことが多い。 この課題に対処するために,知識蒸留を活用した個人化フェデレートラーニング(pFL)のためのFedD2Sという新しいアプローチを提案する。 fedd2sは、ローカルモデルのパーソナライズを強化するために、データフリーな知識蒸留プロセスにディープ・トゥ・シュロー・レイヤー・ドロップ機構を組み込んでいる。 FEMNIST、CIFAR10、CINIC0、CIFAR100といった多様な画像データセットに関する広範なシミュレーションを通じて、FedD2Sを最先端のFLベースラインと比較した。 提案手法は,クライアント間の収束の促進と公平性の向上を特徴とする,優れた性能を示す。 導入したレイヤドロップング技術は、パーソナライズされた知識を効果的に取り込み、代替のflモデルと比較してパフォーマンスが向上する。 さらに,fed2の最適構成に関する貴重な知見を提供するため,参加率や層投下率などの超パラメータが与える影響について検討した。 本研究は,多様なデータセットとタスクにわたるパーソナライズと性能の向上を実現するため,知識蒸留プロセスにおける適応層投下の有効性を示す。

This paper addresses the challenge of mitigating data heterogeneity among clients within a Federated Learning (FL) framework. The model-drift issue, arising from the noniid nature of client data, often results in suboptimal personalization of a global model compared to locally trained models for each client. To tackle this challenge, we propose a novel approach named FedD2S for Personalized Federated Learning (pFL), leveraging knowledge distillation. FedD2S incorporates a deep-to-shallow layer-dropping mechanism in the data-free knowledge distillation process to enhance local model personalization. Through extensive simulations on diverse image datasets-FEMNIST, CIFAR10, CINIC0, and CIFAR100-we compare FedD2S with state-of-the-art FL baselines. The proposed approach demonstrates superior performance, characterized by accelerated convergence and improved fairness among clients. The introduced layer-dropping technique effectively captures personalized knowledge, resulting in enhanced performance compared to alternative FL models. Moreover, we investigate the impact of key hyperparameters, such as the participation ratio and layer-dropping rate, providing valuable insights into the optimal configuration for FedD2S. The findings demonstrate the efficacy of adaptive layer-dropping in the knowledge distillation process to achieve enhanced personalization and performance across diverse datasets and tasks.
翻訳日:2024-02-19 14:49:38 公開日:2024-02-16
# Pedipulate:四足歩行ロボットの脚によるマニピュレーションスキルの実現

Pedipulate: Enabling Manipulation Skills using a Quadruped Robot's Leg ( http://arxiv.org/abs/2402.10837v1 )

ライセンス: Link先を確認
Philip Arm, Mayank Mittal, Hendrik Kolvenbach, Marco Hutter(参考訳) 脚のあるロボットは、メンテナンス、ホームサポート、探査シナリオにおいて不可欠になる可能性がある。 環境との相互作用と操作のために、ほとんどの脚型ロボットは専用のロボットアームを備えており、これは通常の脚型ロボットと比較して、質量と機械的な複雑さが増すことを意味する。 本研究では,ロボットの脚を操作に用いたペディピュレーションについて検討する。 片足の位置目標を追跡する強化学習ポリシーを訓練することにより,外乱に頑健で,全身動作を通じて大きな作業スペースを有し,歩行の出現とともに遠方目標に到達可能な専用の教育用コントローラを実現する。 遠隔操作を用いた四足歩行ロボットにコントローラを配置することにより,ドアの開口,サンプル収集,障害物の押出といった実世界の課題を実演する。 足部で2.0kg以上の荷重担持を実演した。 さらに、コントローラーは足での相互作用力、ベースでの障害、滑りやすい接触面に対して頑丈である。 実験のビデオはhttps://sites.google.com/leggedrobotics.com/pedipulate.comで見ることができる。

Legged robots have the potential to become vital in maintenance, home support, and exploration scenarios. In order to interact with and manipulate their environments, most legged robots are equipped with a dedicated robot arm, which means additional mass and mechanical complexity compared to standard legged robots. In this work, we explore pedipulation - using the legs of a legged robot for manipulation. By training a reinforcement learning policy that tracks position targets for one foot, we enable a dedicated pedipulation controller that is robust to disturbances, has a large workspace through whole-body behaviors, and can reach far-away targets with gait emergence, enabling loco-pedipulation. By deploying our controller on a quadrupedal robot using teleoperation, we demonstrate various real-world tasks such as door opening, sample collection, and pushing obstacles. We demonstrate load carrying of more than 2.0 kg at the foot. Additionally, the controller is robust to interaction forces at the foot, disturbances at the base, and slippery contact surfaces. Videos of the experiments are available at https://sites.google.com/leggedrobotics.com/pedipulate.
翻訳日:2024-02-19 14:49:13 公開日:2024-02-16
# LLMによる時系列予測:モデルの能力の理解と向上

Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities ( http://arxiv.org/abs/2402.10835v1 )

ライセンス: Link先を確認
Mingyu Jin, Hua Tang, Chong Zhang, Qinkai Yu, Chengzhi Liu, Suiyuan Zhu, Yongfeng Zhang, Mengnan Du(参考訳) 大規模言語モデル(llm)は近年急速に発展する多くの分野に適用されている。 古典的な機械学習タスクとして、時系列予測が最近llmsから強化された。 しかし、この分野ではLLMの好みには研究のギャップがある。 本稿では,LLMと従来のモデルを比較し,時系列予測におけるLLMの特性について述べる。 例えば、LLMは明確なパターンと傾向を持つ時系列を予測するのに優れているが、周期性に欠けるデータセットでは課題に直面している。 我々は,データセットの周期をllmに指示するプロンプトの設計を通じて,この知見を説明する。 また,入力戦略を調査し,外部知識を取り入れ,自然言語パラフレーズを取り入れることで,時系列のllmの予測性能に正の影響を与えることを見出した。 本研究は,異なる条件下での時系列予測におけるLLMの利点と限界について考察した。

Large language models (LLMs) have been applied in many fields with rapid development in recent years. As a classic machine learning task, time series forecasting has recently received a boost from LLMs. However, there is a research gap in the LLMs' preferences in this field. In this paper, by comparing LLMs with traditional models, many properties of LLMs in time series prediction are found. For example, our study shows that LLMs excel in predicting time series with clear patterns and trends but face challenges with datasets lacking periodicity. We explain our findings through designing prompts to require LLMs to tell the period of the datasets. In addition, the input strategy is investigated, and it is found that incorporating external knowledge and adopting natural language paraphrases positively affects the predictive performance of LLMs for time series. Overall, this study contributes to insight into the advantages and limitations of LLMs in time series forecasting under different conditions.
翻訳日:2024-02-19 14:48:51 公開日:2024-02-16
# 確率凸最適化における適応性の価格

The Price of Adaptivity in Stochastic Convex Optimization ( http://arxiv.org/abs/2402.10898v1 )

ライセンス: Link先を確認
Yair Carmon and Oliver Hinder(参考訳) 非滑らかな確率凸最適化における適応性に対する不合理性を証明した。 適応したい問題パラメータの組が与えられると、大まかに言えば、これらのパラメータの不確かさによる部分最適性の乗法的な増加を測定する「適応性の価格」(poa)を定義する。 最適点への初期距離が不明で勾配ノルム境界が知られている場合、PoAは期待される準最適点に対して少なくとも対数的であり、中央値準最適点に対して二重対数的であることを示す。 距離ノルムと勾配ノルムの両方に不確実性が存在する場合、PoA は不確実性のレベルにおける多項式でなければならないことを示す。 我々の下限は既存の上限とほぼ一致し、パラメータフリーのランチが存在しないことを立証する。

We prove impossibility results for adaptivity in non-smooth stochastic convex optimization. Given a set of problem parameters we wish to adapt to, we define a "price of adaptivity" (PoA) that, roughly speaking, measures the multiplicative increase in suboptimality due to uncertainty in these parameters. When the initial distance to the optimum is unknown but a gradient norm bound is known, we show that the PoA is at least logarithmic for expected suboptimality, and double-logarithmic for median suboptimality. When there is uncertainty in both distance and gradient norm, we show that the PoA must be polynomial in the level of uncertainty. Our lower bounds nearly match existing upper bounds, and establish that there is no parameter-free lunch.
翻訳日:2024-02-19 14:41:50 公開日:2024-02-16
# WSe$_2$における単一光子放射体:励起スキームと不明瞭性におけるフォノンの重要性

Single-photon emitters in WSe$_2$: The critical role of phonons on excitation schemes and indistinguishability ( http://arxiv.org/abs/2402.10897v1 )

ライセンス: Link先を確認
Luca Vannucci, Jos\'e Ferreira Neto, Claudia Piccinini, Athanasios Paralikis, Niels Gregersen, Battulga Munkhbat(参考訳) 光量子情報処理において、半導体材料中の2レベルシステムに基づく単一光子源は、単一光子のオンデマンド生成を可能にする。 自然放出プロセスを開始するには, 励起状態を効率よく凝集させる必要がある。 しかし, 固体環境における電荷ノイズとフォノン誘起脱コヒーレンスの存在から, 高効率と高光子識別性の両方でオンデマンド励起の要件を調和させることが課題となっている。 本稿では,wse$_{2}$量子エミッタが放出過程において経験するフォノンスペクトル密度の再構成法を提案する。 再構成されたフォノンスペクトル密度を用いて, 共振器, フォノンアシストおよびSUPER発振励振方式の性能を解析した。 共振励起下では、強いフォノンカップリングにより$\sim$0.80 に制限された励起子合成忠実度を得ることができ、スーパースキームでは 0.96 に改善される(エミッタの種類によっては 0.89 となる)。 近共振フォノンアシスト励起では, 0.976 (0.997) の準均一励起忠実度が観測される。 さらに, フォノン側バンドの抑制を仮定すると, 電荷/スピン変動などの残留劣化機構が光子の不明瞭性を損なう支配的脱コヒーレンス機構であることを示す。

Within optical quantum information processing, single-photon sources based on a two-level system in a semiconductor material allow for on-demand generation of single photons. To initiate the spontaneous emission process, it is necessary to efficiently populate the excited state. However, reconciling the requirement for on-demand excitation with both high efficiency and high photon indistinguishability remains a challenge due to the presence of charge noise and phonon-induced decoherence in the solid-state environment. Here, we propose a method for reconstructing the phonon spectral density experienced by WSe$_{2}$ quantum emitters in the emission process. Using the reconstructed phonon spectral density, we analyze the performance of the resonant, phonon-assisted, and SUPER swing-up excitation schemes. Under resonant excitation, we obtain an exciton preparation fidelity limited to $\sim$0.80 by the strong phonon coupling, which improves to 0.96 for the SUPER scheme (or 0.89, depending on the type of emitter considered). Under near-resonant phonon-assisted excitation, we observe near-unity excitation fidelity up to 0.976 (0.997). Additionally, we demonstrate that, assuming the suppression of the phonon sidebands, residual dephasing mechanisms such as charge/spin fluctuations are the dominating decoherence mechanisms undermining the photon indistinguishability.
翻訳日:2024-02-19 14:41:35 公開日:2024-02-16
# palm2-vadapter: プログレッシブアライン言語モデルによる強力なビジョン言語アダプタ

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter ( http://arxiv.org/abs/2402.10896v1 )

ライセンス: Link先を確認
Junfei Xiao and Zheng Xu and Alan Yuille and Shen Yan and Boyu Wang(参考訳) 本稿では,凍結した視覚エンコーダと大規模言語モデル(LLM)を効果的にブリッジできる言語モデルについて述べる。 視覚エンコーダとLCMの基本的なアーキテクチャと事前学習方法が広く研究されているが、視覚言語アダプタのアーキテクチャとトレーニング戦略は近年の成果によって大きく異なる。 我々の研究は、最先端のPerceiver Resamplerアーキテクチャを徹底的に調査し、強力なベースラインを構築しています。 しかし,視覚言語アライメントとperceiver resamplerは,直接監督の欠如により収束が遅く,拡張性が制限されている。 この問題に対処するために,視覚言語アダプタとして段階的に整列した言語モデルを用いたPaLM2-VAdapterを提案する。 perceiver resamplerの強力なベースラインと比較すると、この手法は経験的に、より高速な収束、高いパフォーマンス、より強力なスケーラビリティを示す。 様々な視覚質問応答(vqa)と画像とビデオのキャプションタスクにまたがる広範な実験により,本モデルが最先端の視覚理解とマルチモーダル推論能力を示すことが示された。 特に,本手法は,最先端の視覚言語モデルよりも30~70%少ないパラメータでこれらの進歩を達成し,大幅な効率向上を実現している。

This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.
翻訳日:2024-02-19 14:41:06 公開日:2024-02-16
# 深部コントラスト学習による急性虚血性脳卒中後の拡散強調MRIの融合と機能予後予測のための臨床データ

Fusion of Diffusion Weighted MRI and Clinical Data for Predicting Functional Outcome after Acute Ischemic Stroke with Deep Contrastive Learning ( http://arxiv.org/abs/2402.10894v1 )

ライセンス: Link先を確認
Chia-Ling Tsai, Hui-Yun Su, Shen-Feng Sung, Wei-Yang Lin, Ying-Ying Su, Tzu-Hsien Yang, Man-Lin Mai(参考訳) ストローク(Stroke)は、25歳以上の成人の約4分の1に影響を及ぼす一般的な神経疾患であり、脳卒中が発症した後も、機能的依存や死などの予後が悪い。 本研究の目的は,拡散強調mriと組織的ヘルスプロファイルの併用による早期介入のための機能的予後予測の有効性を検討することである。 深層融合学習ネットワークは2段階の訓練により提案され,第1段階は相互モダリティ表現学習に,第2段階は分類に焦点をあてる。 教師付きコントラスト学習を用いて、2種類の患者を個別のモダリティの埋め込みと融合したマルチモーダルの埋め込みから分離する識別的特徴を学習する。 ネットワークは、入力されたdwiおよびadc画像および構造化健康プロファイルデータとする。 その結果,脳卒中発症後3カ月の長期治療を要した患者の予測が可能となった。 提案した融合モデルでは,AUC,F1スコア,80.45%に対して0.87,0.80,80.45%を達成し,医用領域における画像データと構造化データの両方を集約した既存モデルより優れていた。 NIHSSや共生を含む包括的臨床変数を訓練した場合、正確な予測を行う際の画像から得られる利得は重要ではないが重要であると考えられる。 しかし、拡散強調MRIはNIHSSを置き換え、他の利用可能な臨床変数と同等の精度で、より一般化することができる。

Stroke is a common disabling neurological condition that affects about one-quarter of the adult population over age 25; more than half of patients still have poor outcomes, such as permanent functional dependence or even death, after the onset of acute stroke. The aim of this study is to investigate the efficacy of diffusion-weighted MRI modalities combining with structured health profile on predicting the functional outcome to facilitate early intervention. A deep fusion learning network is proposed with two-stage training: the first stage focuses on cross-modality representation learning and the second stage on classification. Supervised contrastive learning is exploited to learn discriminative features that separate the two classes of patients from embeddings of individual modalities and from the fused multimodal embedding. The network takes as the input DWI and ADC images, and structured health profile data. The outcome is the prediction of the patient needing long-term care at 3 months after the onset of stroke. Trained and evaluated with a dataset of 3297 patients, our proposed fusion model achieves 0.87, 0.80 and 80.45% for AUC, F1-score and accuracy, respectively, outperforming existing models that consolidate both imaging and structured data in the medical domain. If trained with comprehensive clinical variables, including NIHSS and comorbidities, the gain from images on making accurate prediction is not considered substantial, but significant. However, diffusion-weighted MRI can replace NIHSS to achieve comparable level of accuracy combining with other readily available clinical variables for better generalization.
翻訳日:2024-02-19 14:40:41 公開日:2024-02-16
# RLVF: オーバージェネレーションのない言語フィードバックから学ぶ

RLVF: Learning from Verbal Feedback without Overgeneralization ( http://arxiv.org/abs/2402.10893v1 )

ライセンス: Link先を確認
Moritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn(参考訳) 大きな言語モデル(llm)がデプロイされるコンテキストの多様性は、デフォルトモデルの振る舞いを変更したりカスタマイズしたりして、ニュアンスされた要求や好みを組み込む能力を必要とします。 このようなモデルの調整を指定するための便利なインターフェースは、「上司にメールを起草する際に絵文字を使わない」といった高いレベルの言語フィードバックである。 しかし、人間フィードバック(rlhf)から強化学習のためのアノテーションを収集するよりも、ハイレベルなフィードバックを書く方がずっと簡単であるが、そのようなフィードバックをモデルに促すだけで、関連するコンテキストにフィードバックを過大に一般化できることがわかった。 このような一般化を伴わずに言語フィードバックを組み込むことの問題点について検討し,制約付き選好最適化(c3po)を用いた新しい文脈的批判法を提案する。 C3POは高レベルのフィードバックを使って、フィードバックがどのように適用されるべきで、適用すべきでないかを示す小さな合成選好データセットを生成する。 そして、フィードバックが適用されないプロンプトのために元のモデルとの相違を最小限に抑えながら、合成好みデータに従ってモデルを微調整する。 実験の結果,既存の行動を維持しつつ,関連するシナリオに対して言語的フィードバックを効果的に適用できることがわかった。 ヒトとgpt-4が生成する高レベルフィードバックでは、c3poは与えられたフィードバックをコンテキスト内ベースラインと互換性を持たせると同時に、オーバージェネライゼーションを30%削減する。

The diversity of contexts in which large language models (LLMs) are deployed requires the ability to modify or customize default model behaviors to incorporate nuanced requirements and preferences. A convenient interface to specify such model adjustments is high-level verbal feedback, such as "Don't use emojis when drafting emails to my boss." However, while writing high-level feedback is far simpler than collecting annotations for reinforcement learning from human feedback (RLHF), we find that simply prompting a model with such feedback leads to overgeneralization of the feedback to contexts where it is not relevant. We study the problem of incorporating verbal feedback without such overgeneralization, inspiring a new method Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level feedback to generate a small synthetic preference dataset specifying how the feedback should (and should not) be applied. It then fine-tunes the model in accordance with the synthetic preference data while minimizing the divergence from the original model for prompts where the feedback does not apply. Our experimental results indicate that our approach effectively applies verbal feedback to relevant scenarios while preserving existing behaviors for other contexts. For both human- and GPT-4-generated high-level feedback, C3PO effectively adheres to the given feedback comparably to in-context baselines while reducing overgeneralization by 30%.
翻訳日:2024-02-19 14:40:11 公開日:2024-02-16
# データ透かしを用いたLLM事前学習データの証明

Proving membership in LLM pretraining data via data watermarks ( http://arxiv.org/abs/2402.10892v1 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Ryan Yixiang Wang, Robin Jia(参考訳) LLM事前学習において著作権保持者の著作物が使用されているかどうかを検出することは重要な問題である。 本研究は,ブラックボックスモデルアクセスのみによる原則的検出を可能にするために,データウォーターマークの利用を提案する。 ランダムにサンプリングされたデータ透かしを適用することで、偽検出率の保証を提供する仮説テストとして検出を行うことができる。 ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。 まず,ウォーターマーク設計の3つの側面 – ウォーターマーク長,重複数,干渉数 – が仮説テストのパワーにどのように影響するかを示す。 次に,モデルとデータセットのスケーリングによる透かしの検出強度の変化について検討する。 データセットサイズの増加は透かしの強度を減少させるが,モデルサイズが増大しても透かしは強い。 最後に、SHAハッシュを自然の透かしとみなし、少なくとも90回はBLOOM-176Bのトレーニングデータからハッシュを確実に検出できることを示す。 我々の結果は、現実世界でのデータ透かしに将来性のある未来に向かっている。

Detecting whether copyright holders' works were used in LLM pretraining is poised to be an important problem. This work proposes using data watermarks to enable principled detection with only black-box model access, provided that the rightholder contributed multiple training documents and watermarked them before public release. By applying a randomly sampled data watermark, detection can be framed as hypothesis testing, which provides guarantees on the false detection rate. We study two watermarks: one that inserts random sequences, and another that randomly substitutes characters with Unicode lookalikes. We first show how three aspects of watermark design -- watermark length, number of duplications, and interference -- affect the power of the hypothesis test. Next, we study how a watermark's detection strength changes under model and dataset scaling: while increasing the dataset size decreases the strength of the watermark, watermarks remain strong if the model size also increases. Finally, we view SHA hashes as natural watermarks and show that we can robustly detect hashes from BLOOM-176B's training data, as long as they occurred at least 90 times. Together, our results point towards a promising future for data watermarks in real world use.
翻訳日:2024-02-19 14:39:44 公開日:2024-02-16
# インストラクションの多様性が一般化を促進

Instruction Diversity Drives Generalization To Unseen Tasks ( http://arxiv.org/abs/2402.10891v1 )

ライセンス: Link先を確認
Dylan Zhang, Justin Wang, Francois Charton(参考訳) インストラクションチューニング -- 命令のペアと望ましい結果に基づいて大きな言語モデル(LLM)を微調整する -- は、トレーニング済みの言語モデルが現実世界のタスクを実行し、人間の指示に従うことを可能にするアプローチである。 その実践的な成功は、トレーニングされたものよりも幅広い命令セットを学ぶモデルに依存する。 しかし、そのような \emph{unseen tasks} へのモデル一般化を決定する要因はよく分かっていない。 %) を一般化の原動力とするため,本論文では文字列書き換えを実験し,マルコフアルゴリズムをチューリングする上での構成要素として機能する記号的タスクである。 モデルがトレーニングされた命令数と、各命令に提供されたトレーニングサンプル数とのトレードオフを調査し、命令セットの多様性が一般化を決定することを観察する。 一般化は、各タスクに非常に少ない例が提供されているにもかかわらず、十分に多様なタスクセットが提供されると現れる。 命令の多様性はまた、トレーニングセット内の命令の非一様分布に関して堅牢性を保証する。

Instruction tuning -- fine-tuning a large language model (LLM) on pairs of instructions and desired outcomes -- is an approach that enables pre-trained language models to perform real-world tasks and follow human instructions. Its practical success depends on the model learning a broader set of instructions than those it was trained on. Yet the factors that determine model generalization to such \emph{unseen tasks} are not well understood. %To understand the driving factors of generalization, In this paper, we experiment with string rewrites, a symbolic task that serves as a building block for Turing complete Markov algorithms while allowing experimental control of "inputs" and "instructions". We investigate the trade-off between the number of instructions the model is trained on and the number of training samples provided for each instruction and observe that the diversity of the instruction set determines generalization. Generalization emerges once a diverse enough set of tasks is provided, even though very few examples are provided for each task. Instruction diversity also ensures robustness with respect to non-uniform distributions of instructions in the training set.
翻訳日:2024-02-19 14:39:21 公開日:2024-02-16
# LLM計画に木探索はいつ有効か? 差別者次第です

When is Tree Search Useful for LLM Planning? It Depends on the Discriminator ( http://arxiv.org/abs/2402.10890v1 )

ライセンス: Link先を確認
Ziru Chen, Michael White, Raymond Mooney, Ali Payani, Yu Su, Huan Sun(参考訳) 本稿では,大規模言語モデル (LLM) が,ジェネレータ, 識別器, 計画手法の3つのコンポーネントを持つ言語エージェントフレームワークにおいて, 多段階の問題を解決する方法を検討する。 反復補正と木探索という2つの高度な計画手法の実用性について検討した。 本稿では,これらの2つの手法または簡易な手法を用いて,識別精度がエージェント全体の性能に与える影響を総合的に分析する。 テキスト・ツー・SQL解析と数学的推論という2つの課題の実験では,(1)先進的な計画手法は,少なくとも90%以上の精度で再評価以上の大幅な改善を達成し,(2)現在のLLMの識別能力は,そのような改善を実現するための先進的な計画手法のニーズを満たしていない。 例えば、他の2つの手法と比較して、木探索は少なくとも10-20倍遅いが、無視可能な性能向上をもたらし、実際の応用を妨げている。 コードとデータはhttps://github.com/OSU-NLP-Group/llm-planning-evalで公開される。

In this paper, we examine how large language models (LLMs) solve multi-step problems under a language agent framework with three components: a generator, a discriminator, and a planning method. We investigate the practical utility of two advanced planning methods, iterative correction and tree search. We present a comprehensive analysis of how discrimination accuracy affects the overall performance of agents when using these two methods or a simpler method, re-ranking. Experiments on two tasks, text-to-SQL parsing and mathematical reasoning, show that: (1) advanced planning methods demand discriminators with at least 90% accuracy to achieve significant improvements over re-ranking; (2) current LLMs' discrimination abilities have not met the needs of advanced planning methods to achieve such improvements; (3) with LLM-based discriminators, advanced planning methods may not adequately balance accuracy and efficiency. For example, compared to the other two methods, tree search is at least 10--20 times slower but leads to negligible performance gains, which hinders its real-world applications. Code and data will be released at https://github.com/OSU-NLP-Group/llm-planning-eval.
翻訳日:2024-02-19 14:39:02 公開日:2024-02-16
# 機械学習モデルの説明可能性:データ適応性からユーザ知覚へ

Explainability for Machine Learning Models: From Data Adaptability to User Perception ( http://arxiv.org/abs/2402.10888v1 )

ライセンス: Link先を確認
julien Delaunay(参考訳) この論文は、すでにデプロイされている機械学習モデルのローカルな説明の生成を探求し、データとユーザの要求の両方を考慮した有意義な説明を生成するための最適な条件を特定することを目的としている。 第一の目的は、これらの説明が基礎となるモデルに忠実であり、ユーザにとって理解しやすいことを保証しながら、どんなモデルに対しても説明を生成する方法を開発することである。 論文は2つの部分に分けられる。 第一に、広く使われている規則に基づく説明方法を強化する。 次に,モデル近似に対する線形説明の適合性を評価するための新しい手法を提案する。 さらに,2種類の対実的説明手法の比較実験を行い,一方の利点を他方で分析する。 第2部では3つの説明方法と2つの異なる表現の影響を評価するユーザ実験に焦点を当てている。 これらの実験は、ユーザがモデルとのインタラクションをどのように理解し、信頼するかを、説明や表現によって測定する。 この研究は、デプロイされたAIシステムの透明性、信頼性、ユーザビリティを高めるために、よりよい説明生成に寄与する。

This thesis explores the generation of local explanations for already deployed machine learning models, aiming to identify optimal conditions for producing meaningful explanations considering both data and user requirements. The primary goal is to develop methods for generating explanations for any model while ensuring that these explanations remain faithful to the underlying model and comprehensible to the users. The thesis is divided into two parts. The first enhances a widely used rule-based explanation method. It then introduces a novel approach for evaluating the suitability of linear explanations to approximate a model. Additionally, it conducts a comparative experiment between two families of counterfactual explanation methods to analyze the advantages of one over the other. The second part focuses on user experiments to assess the impact of three explanation methods and two distinct representations. These experiments measure how users perceive their interaction with the model in terms of understanding and trust, depending on the explanations and representations. This research contributes to a better explanation generation, with potential implications for enhancing the transparency, trustworthiness, and usability of deployed AI systems.
翻訳日:2024-02-19 14:38:38 公開日:2024-02-16
# Wak-Mamba-UNet: Visual Mambaは、CNNとViTがスクリブルベースの医療画像のセグメンテーションを改善

Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation ( http://arxiv.org/abs/2402.10887v1 )

ライセンス: Link先を確認
Ziyang Wang, Chao Ma(参考訳) 医療画像のセグメンテーションはますますディープラーニング技術に依存しているが、有望なパフォーマンスには高いアノテーションコストが伴うことが多い。 本稿では、医用画像セグメンテーションにおける畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、最先端のビジュアルマンバアーキテクチャ(VMamba)を利用した、革新的な弱教師付き学習(WSL)フレームワークであるWeak-Mamba-UNetを紹介する。 提案したWSL戦略には、3つの異なるアーキテクチャと同一対称エンコーダデコーダネットワークが組み込まれており、CNNベースのローカル特徴抽出用UNet、Swin TransformerベースのSwinUNetによる包括的グローバルコンテキスト理解用、VMambaベースのMamba-UNetによる効率的な長距離依存性モデリング用である。 このフレームワークの鍵となる概念は、ネットワーク横断の反復学習と洗練を促進するために擬似ラベルを使用する、協調的で相互監督的なメカニズムである。 weak-mamba-unetの有効性は、scribbleアノテーションを処理した公開利用可能なmri心筋セグメンテーションデータセットで検証され、unetまたはswiinunetのみを使用した同様のwslフレームワークのパフォーマンスを上回っています。 これは、スパースまたは不正確なアノテーションを持つシナリオにおけるその可能性を強調する。 ソースコードは公開アクセス可能である。

Medical image segmentation is increasingly reliant on deep learning techniques, yet the promising performance often come with high annotation costs. This paper introduces Weak-Mamba-UNet, an innovative weakly-supervised learning (WSL) framework that leverages the capabilities of Convolutional Neural Network (CNN), Vision Transformer (ViT), and the cutting-edge Visual Mamba (VMamba) architecture for medical image segmentation, especially when dealing with scribble-based annotations. The proposed WSL strategy incorporates three distinct architecture but same symmetrical encoder-decoder networks: a CNN-based UNet for detailed local feature extraction, a Swin Transformer-based SwinUNet for comprehensive global context understanding, and a VMamba-based Mamba-UNet for efficient long-range dependency modeling. The key concept of this framework is a collaborative and cross-supervisory mechanism that employs pseudo labels to facilitate iterative learning and refinement across the networks. The effectiveness of Weak-Mamba-UNet is validated on a publicly available MRI cardiac segmentation dataset with processed scribble annotations, where it surpasses the performance of a similar WSL framework utilizing only UNet or SwinUNet. This highlights its potential in scenarios with sparse or imprecise annotations. The source code is made publicly accessible.
翻訳日:2024-02-19 14:38:22 公開日:2024-02-16
# Reviewer2: プロンプト生成によるレビュー生成の最適化

Reviewer2: Optimizing Review Generation Through Prompt Generation ( http://arxiv.org/abs/2402.10886v1 )

ライセンス: Link先を確認
Zhaolin Gao, Kiant\'e Brantley, Thorsten Joachims(参考訳) LLMの最近の発展は、著者の作業改善を支援する新しい機会を提供する。 本稿では、著者が現在のドラフトの弱点を明らかにするllm生成レビューを受けることができるユースケースを想定する。 自動レビュー生成の初期手法はすでに存在するが、これらの手法は詳細を欠いたレビューを生成する傾向にあり、人間のレビュー作成者による意見の範囲をカバーしていない。 この欠点に対処するため,我々はreviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。 以前の作業とは異なり、このアプローチはレビューが対処する可能性のあるアスペクトの分布を明示的にモデル化する。 これによって、より詳細なレビューが、ドラフトで人間レビュアーが特定する側面の範囲をカバーできることが示されます。 研究の一環として,27k論文の大規模レビューデータセットと,アスペクトプロンプトに注釈を付ける9kレビューを作成し,今後の研究のリソースとして利用できるようにした。

Recent developments in LLMs offer new opportunities for assisting authors in improving their work. In this paper, we envision a use case where authors can receive LLM-generated reviews that uncover weak points in the current draft. While initial methods for automated review generation already exist, these methods tend to produce reviews that lack detail, and they do not cover the range of opinions that human reviewers produce. To address this shortcoming, we propose an efficient two-stage review generation framework called Reviewer2. Unlike prior work, this approach explicitly models the distribution of possible aspects that the review may address. We show that this leads to more detailed reviews that better cover the range of aspects that human reviewers identify in the draft. As part of the research, we generate a large-scale review dataset of 27k papers and 99k reviews that we annotate with aspect prompts, which we make available as a resource for future research.
翻訳日:2024-02-19 14:37:51 公開日:2024-02-16
# 3次元ディフューザ・アクター:3次元シーン表現による政策拡散

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations ( http://arxiv.org/abs/2402.10885v1 )

ライセンス: Link先を確認
Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki(参考訳) ロボット操作のための拡散ポリシーと3次元シーン表現を融合する。 拡散ポリシーは、条件拡散モデルを用いてロボットに条件づけられた行動分布と環境状態を学ぶ。 彼らは最近、決定論的および代替的な状態条件付きアクション分散学習方法の両方よりも優れることを示した。 3dロボットのポリシーは、1つまたは複数のカメラビューから収集された3dシーンの特徴表現を使用する。 彼らは、カメラの観点で2dよりも優れた一般化が示されている。 ロボットのエンドエフェクタの3D回転と翻訳を反復的に認知するために、言語命令を与えられたニューラルネットワークアーキテクチャであるDiffuser Actorを、視覚シーンと条件の3D表現として構築する。 本モデルでは,3次元の視覚的および言語的トークンに対する3次元の相対的注意を生かして3次元の翻訳・回転誤差を予測し,各繰り返しを3次元のシーントークンとして推定する。 3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも16.3%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。 CALVINベンチマークでは、0ショットのシーンの一般化の設定で現在のSOTAを上回り、0.2以上のタスクを実行し、7%の相対的な増加を実現している。 また、いくつかのデモから現実世界でも動作する。 我々は,3Dシーンの演出や3D相対的な注意など,我々のモデルの設計選択を緩和し,それらすべてが一般化に役立つことを示す。 その結果,3次元シーン表現と強力な生成モデルが,実演から効率的なロボット学習の鍵であることが示唆された。

We marry diffusion policies and 3D scene representations for robot manipulation. Diffusion policies learn the action distribution conditioned on the robot and environment state using conditional diffusion models. They have recently shown to outperform both deterministic and alternative state-conditioned action distribution learning methods. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy architecture that, given a language instruction, builds a 3D representation of the visual scene and conditions on it to iteratively denoise 3D rotations and translations for the robot's end-effector. At each denoising iteration, our model represents end-effector pose estimates as 3D scene tokens and predicts the 3D translation and rotation error for each of them, by featurizing them using 3D relative attention to other 3D visual and language tokens. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 16.3% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it outperforms the current SOTA in the setting of zero-shot unseen scene generalization by being able to successfully run 0.2 more tasks, a 7% relative increase. It also works in the real world from a handful of demonstrations. We ablate our model's architectural design choices, such as 3D scene featurization and 3D relative attentions, and show they all help generalization. Our results suggest that 3D scene representations and powerful generative modeling are keys to efficient robot learning from demonstrations.
翻訳日:2024-02-19 14:37:36 公開日:2024-02-16
# マルチモーダル選好アラインメントは言語モデルにおける視覚命令チューニングの回帰を改善する

Multi-modal preference alignment remedies regression of visual instruction tuning on language model ( http://arxiv.org/abs/2402.10884v1 )

ライセンス: Link先を確認
Shengzhi Li, Rongyu Lin, Shichao Pei(参考訳) 実運用環境では,マルチモーダル大言語モデル (MLLM) が画像の相互変換とテキストモダリティのマルチターンクエリをサポートすることが期待されている。 しかしながら、現在のMLLMでは、VQAデータセットは、基礎となる言語モデルがトレーニングしたオリジナルのテキスト命令データセットの多様性と複雑さを欠いているため、VQAデータセットでトレーニングされている。 この難易度に対処するために、まず軽量(6kエントリ)のVQA選好データセットを収集し、Geminiによって5つの品質指標に注釈を付け、標準のSupervised Fine-tuning、rejection sample、Direct Preference Optimization (DPO)、SteerLMを調査した。 以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。 このテキスト命令の熟練度の向上は、以前のRLHFアプローチと比較して視覚知識ベンチマークに最小限のアライメント税を課すことで、視覚的命令性能の向上(MM-Vetでは+4.9\%、LLaVA-Benchでは+6\%)と相関する。 そこで本研究では,MLLMのテキストおよび視覚的性能を調整し,視覚的指導訓練後の言語能力の回復と向上を図る,細粒度アノテーションを用いた蒸留ベースのマルチモーダルアライメントモデルを提案する。

In production, multi-modal large language models (MLLMs) are expected to support multi-turn queries of interchanging image and text modalities. However, the current MLLMs trained with visual-question-answering (VQA) datasets could suffer from degradation, as VQA datasets lack the diversity and complexity of the original text instruction datasets which the underlying language model had been trained with. To address this challenging degradation, we first collect a lightweight (6k entries) VQA preference dataset where answers were annotated by Gemini for 5 quality metrics in a granular fashion, and investigate standard Supervised Fine-tuning, rejection sampling, Direct Preference Optimization (DPO), and SteerLM. Our findings indicate that the with DPO we are able to surpass instruction-following capabilities of the language model, achieving a 6.73 score on MT-Bench, compared to Vicuna's 6.57 and LLaVA's 5.99 despite small data scale. This enhancement in textual instruction proficiency correlates with boosted visual instruction performance (+4.9\% on MM-Vet, +6\% on LLaVA-Bench), with minimal alignment tax on visual knowledge benchmarks compared to previous RLHF approach. In conclusion, we propose a distillation-based multi-modal alignment model with fine-grained annotations on a small dataset that reconciles the textual and visual performance of MLLMs, restoring and boosting language capability after visual instruction tuning.
翻訳日:2024-02-19 14:37:00 公開日:2024-02-16
# 安全なテキスト・画像生成のためのユニバーサルプロンプト最適化

Universal Prompt Optimizer for Safe Text-to-Image Generation ( http://arxiv.org/abs/2402.10882v1 )

ライセンス: Link先を確認
Zongyu Wu, Hongcheng Gao, Yueze Wang, Xiang Zhang, Suhang Wang(参考訳) テキスト・ツー・イメージ(T2I)モデルは,テキスト・プロンプトに基づく画像生成において優れた性能を示した。 しかし、これらのモデルは、性的、ハラスメント、違法な活動的画像などの安全でないコンテンツを生成するために、安全でない入力に対して脆弱である。 画像チェッカー、モデルファインチューニング、埋め込みブロッキングに基づく既存の研究は、現実のアプリケーションでは実用的ではない。 したがって、ブラックボックスシナリオにおける安全なT2I生成のための最初の普遍的なプロンプトオプティマイザを提案する。 まず, GPT-3.5 Turbo による毒性クリーンプロンプトペアからなるデータセットを構築した。 情報保存中に有害なプロンプトをクリーンなプロンプトに変換する能力を持つよう、我々は、生成した画像の毒性とテキストアライメントを測定する新しい報酬関数を設計し、プロキシポリシー最適化を通じてオプティマイザを訓練する。 実験の結果,t2iモデルによる不適切な画像生成の可能性は,テキストアライメントに大きな影響を与えず,効果的に低減できることがわかった。 また、より良いパフォーマンスを達成するためにメソッドと組み合わせることも柔軟です。

Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, \textit{we propose the first universal prompt optimizer for safe T2I generation in black-box scenario}. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance.
翻訳日:2024-02-19 14:36:25 公開日:2024-02-16
# 二次元構造環境における巨大原子との脱コヒーレンスを回避する

Avoiding decoherence with giant atoms in a two-dimensional structured environment ( http://arxiv.org/abs/2402.10879v1 )

ライセンス: Link先を確認
Emil Raaholt Ingelsten, Anton Frisk Kockum, Ariadna Soro(参考訳) 巨大原子は、複数の離散点で光にカップリングできる量子エミッタである。 このような原子は一次元導波路を経由せずに相互作用することが示されている。 本研究では, 有限エネルギー帯とバンドギャップを特徴とする2次元の正方格子に結合すると, 巨大原子がどのように振る舞うかを考察する。 特に、巨大原子が脱コヒーレンスを避けるために、連続体(BIC)における境界状態が果たす役割について述べる。 数値計算法を開発することにより、系の力学を解明し、1つの巨大原子内での干渉BICの出現と、多くの巨大原子間での振動BICの出現を示すことができる。 このようにして、2次元格子のデコヒーレンスから保護される原子結合点の幾何学的配置を求める。 これらの結果から、光と物質の相互作用は量子シミュレーションや量子情報処理に応用できるかもしれない。

Giant atoms are quantum emitters that can couple to light at multiple discrete points. Such atoms have been shown to interact without decohering via a one-dimensional waveguide. Here, we study how giant atoms behave when coupled to a two-dimensional square lattice of coupled cavities, an environment characterized by a finite energy band and band gaps. In particular, we describe the role that bound states in the continuum (BICs) play in how giant atoms avoid decoherence. By developing numerical methods, we are able to investigate the dynamics of the system and show the appearance of interfering BICs within a single giant atom, as well as oscillating BICs between many giant atoms. In this way, we find the geometric arrangements of atomic coupling points that yield protection from decoherence in the two-dimensional lattice. These results on engineering the interaction between light and matter may find applications in quantum simulation and quantum information processing.
翻訳日:2024-02-19 14:36:08 公開日:2024-02-16
# 半監督エンターメント信号による可塑性抽出合理化

Plausible Extractive Rationalization through Semi-Supervised Entailment Signal ( http://arxiv.org/abs/2402.08479v3 )

ライセンス: Link先を確認
Yeo Wei Jie, Ranjan Satapathy, Erik Cambria(参考訳) 複雑で不透明なブラックボックスモデルの使用の増加は、解釈可能な測度の採用を必要とするが、そのような選択肢の1つは、より解釈可能な代替手段として機能する抽出的合理化モデルである。 これらのモデルは、説明-予測モデルとしても知られ、理論を抽出し、その後、抽出された情報で予測者を条件付けるために説明器モデルを用いる。 彼らの主な目的は、抽出された合理性によって表される正確で忠実な説明を提供することである。 本稿では,抽出された有理量の妥当性を最適化する半教師付き手法を提案する。 我々は、事前訓練された自然言語推論(NLI)モデルを採用し、さらに、教師付き論理の小さなセット(10\%$)に微調整する。 NLI予測器は、エンテーメントアライメントにより、説明者への監視信号のソースとして活用される。 質問応答タスクにおける説明と回答のアライメント合意を強制することにより、真理ラベルにアクセスせずに性能を向上させることができることを示す。 ERASERデータセットに対する我々のアプローチを評価し,提案手法が教師付き抽出モデルを用いて同等の結果を得ることを示す。

The increasing use of complex and opaque black box models requires the adoption of interpretable measures, one such option is extractive rationalizing models, which serve as a more interpretable alternative. These models, also known as Explain-Then-Predict models, employ an explainer model to extract rationales and subsequently condition the predictor with the extracted information. Their primary objective is to provide precise and faithful explanations, represented by the extracted rationales. In this paper, we take a semi-supervised approach to optimize for the plausibility of extracted rationales. We adopt a pre-trained natural language inference (NLI) model and further fine-tune it on a small set of supervised rationales ($10\%$). The NLI predictor is leveraged as a source of supervisory signals to the explainer via entailment alignment. We show that, by enforcing the alignment agreement between the explanation and answer in a question-answering task, the performance can be improved without access to ground truth labels. We evaluate our approach on the ERASER dataset and show that our approach achieves comparable results with supervised extractive models and outperforms unsupervised approaches by $> 100\%$.
翻訳日:2024-02-19 12:49:06 公開日:2024-02-16
# LLMエージェントはウェブサイトを自動ハックできる

LLM Agents can Autonomously Hack Websites ( http://arxiv.org/abs/2402.06664v3 )

ライセンス: Link先を確認
Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, Daniel Kang(参考訳) 近年、大きな言語モデル(LLM)はますます能力を高め、ツール(例えば関数を呼び出す)と対話し、文書を読み、再帰的に自身を呼び出すことができるようになった。 結果として、これらのLSMはエージェントとして自律的に機能する。 これらのエージェントの能力の増大に伴い、最近の研究はLLMエージェントがサイバーセキュリティにどのように影響するかを推測している。 しかし、LSM剤の攻撃能力についてはあまり知られていない。 本研究では, LLMエージェントがWebサイトを自律的にハックし, 視覚的データベーススキーマ抽出やSQLインジェクションのように複雑なタスクを人間のフィードバックなしに実行できることを示す。 重要なのは、エージェントが事前に脆弱性を知る必要がないことだ。 この機能は、ツールの使用と拡張コンテキストの活用を高度に有能なフロンティアモデルによって独特に実現されている。 すなわち、GPT-4はそのようなハックが可能であるが、既存のオープンソースモデルはそうではない。 最後に、gpt-4は野生のウェブサイトの脆弱性を自律的に発見できることを示した。 本研究は, LLMの広範な展開について疑問を投げかけるものである。

In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.
翻訳日:2024-02-19 12:48:43 公開日:2024-02-16
# シングルイメージデハージングのためのU字型視覚マンバ

U-shaped Vision Mamba for Single Image Dehazing ( http://arxiv.org/abs/2402.04139v4 )

ライセンス: Link先を確認
Zhuoran Zheng and Chen Wu(参考訳) 現在、トランスフォーマーは画像デハジングで最も一般的なアーキテクチャであるが、計算の複雑さが大きいため、長距離依存を扱う能力はリソース制約のあるデバイスに限定されている。 この課題に対処するために、効率的なシングルイメージデハージングネットワークであるUVM-Net(Vision Mamba)を導入する。 長いシーケンスを処理できることで知られる新しいディープシーケンスモデルであるState Space Sequence Models (SSM) にインスパイアされた我々は、畳み込み層の局所的特徴抽出能力と、長距離依存関係をキャプチャするSSMの機能を統合するBi-SSMブロックを設計した。 本手法の有効性を実験的に検証した。 本手法は,画像デハジングや画像復元作業において,より効率的な長距離依存性モデリング手法を提供する。 コードのURLは \url{https://github.com/zzr-idam/UVM-Net} である。 I/O処理時間なしで325ドルの325ドルの解像度画像 (100FPS) を推測するには, textbf{0.009} 秒しかかからない。

Currently, Transformer is the most popular architecture for image dehazing, but due to its large computational complexity, its ability to handle long-range dependency is limited on resource-constrained devices. To tackle this challenge, we introduce the U-shaped Vision Mamba (UVM-Net), an efficient single-image dehazing network. Inspired by the State Space Sequence Models (SSMs), a new deep sequence model known for its power to handle long sequences, we design a Bi-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. Extensive experimental results demonstrate the effectiveness of our method. Our method provides a more highly efficient idea of long-range dependency modeling for image dehazing as well as other image restoration tasks. The URL of the code is \url{https://github.com/zzr-idam/UVM-Net}. Our method takes only \textbf{0.009} seconds to infer a $325 \times 325$ resolution image (100FPS) without I/O handling time.
翻訳日:2024-02-19 12:48:26 公開日:2024-02-16
# 空間効率・ノイズローバスト量子ファクタリング

Space-Efficient and Noise-Robust Quantum Factoring ( http://arxiv.org/abs/2310.00899v3 )

ライセンス: Link先を確認
Seyoon Ragavan, Vinod Vaikuntanathan(参考訳) 我々はRegevの最近の量子ファクタリングアルゴリズム(arXiv:2308.06572)に2つの改良を加え、その空間効率と耐雑音性に対処する。 最初の貢献は、回路サイズを同じに保ちながら、Regevのアルゴリズムの量子空間効率を改善することである。 我々の主な結果は、$O(n \log n)$ qubits と $O(n^{3/2} \log n)$ gates を用いて量子ファクタリング回路を構成する。 我々はShorとRegev(空間複雑性の対数係数まで)のベストを達成する:一方、Regevの回路は$O(n^{3/2})$ qubitsと$O(n^{3/2} \log n)$ gates、Shorの回路は$O(n^2 \log n)$ gatesだが$O(n)$ qubitsしか必要としない。 Regev と同様に、$n$-bit 整数 $N$ を係数として、我々は独立に $\approx \sqrt{n}$ times を実行し、Regev の古典的な後処理手順を適用する。 我々の最適化は、古典的可逆設定から量子設定へのカリスキー(arXiv:1711.02491)による2の通常のパワーよりも、指数のフィボナッチ数による効率的で可逆的な指数化を実装することで達成される。 この技術は、空間と大きさの両方で効率のよい量子モジュラー指数を、かなりの事前計算を必要とせず実行することが可能であり、これは他の量子アルゴリズムに有用である。 拡張実装の重要な要素は,量子量子量子量子モジュラー乗法に類似した関数の効率的な回路である。 第二の貢献は、レゲフの古典的な後処理手順が量子回路の一定の部分の誤りを許容するために修正可能であることを示すことである。 対照的に、Regevの古典的な後処理手順の分析では、すべての$\approx \sqrt{n}$の実行が成功する必要がある。 一言で言えば、劣化したサンプルを検出・フィルタリングするために格子還元技術を用いてこれを達成する。

We provide two improvements to Regev's recent quantum factoring algorithm (arXiv:2308.06572), addressing its space efficiency and its noise-tolerance. Our first contribution is to improve the quantum space efficiency of Regev's algorithm while keeping the circuit size the same. Our main result constructs a quantum factoring circuit using $O(n \log n)$ qubits and $O(n^{3/2} \log n)$ gates. We achieve the best of Shor and Regev (upto a logarithmic factor in the space complexity): on the one hand, Regev's circuit requires $O(n^{3/2})$ qubits and $O(n^{3/2} \log n)$ gates, while Shor's circuit requires $O(n^2 \log n)$ gates but only $O(n)$ qubits. As with Regev, to factor an $n$-bit integer $N$, we run our circuit independently $\approx \sqrt{n}$ times and applies Regev's classical postprocessing procedure. Our optimization is achieved by implementing efficient and reversible exponentiation with Fibonacci numbers in the exponent, rather than the usual powers of 2, adapting work by Kaliski (arXiv:1711.02491) from the classical reversible setting to the quantum setting. This technique also allows us to perform quantum modular exponentiation that is efficient in both space and size without requiring significant precomputation, a result that may be useful for other quantum algorithms. A key ingredient of our exponentiation implementation is an efficient circuit for a function resembling in-place quantum-quantum modular multiplication. Our second contribution is to show that Regev's classical postprocessing procedure can be modified to tolerate a constant fraction of the quantum circuit runs being corrupted by errors. In contrast, Regev's analysis of his classical postprocessing procedure requires all $\approx \sqrt{n}$ runs to be successful. In a nutshell, we achieve this using lattice reduction techniques to detect and filter out corrupt samples.
翻訳日:2024-02-19 12:48:05 公開日:2024-02-16
# クロスモーダルアダプタを用いた事前学習型言語モデルへの汎用性と効率的な視覚知識統合に向けて

Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters ( http://arxiv.org/abs/2305.07358v4 )

ライセンス: Link先を確認
Xinyun Zhang, Haochen Tan, Han Wu, Bei Yu(参考訳) 人間はマルチモーダル知識を通じて言語を学ぶ。 しかし、テキストのみの事前学習方式のため、既存の事前学習言語モデル(PLM)のほとんどはマルチモーダル情報から妨げられている。 PLMに視覚的知識を注入するために、既存の手法では、視覚言語モデル(VLM)のテキストまたはイメージエンコーダを組み込んで視覚情報を符号化し、知識融合のためにPLMのオリジナルのパラメータをすべて更新する。 本稿では,事前学習したvlmで学習した視覚とテキストの知識を柔軟に活用し,plmに効率的に注入する新しいプラグアンドプレイモジュールであるx-adapterを提案する。 具体的には、PLMにX適応器を挿入し、追加パラメータのみを適応中に更新する。 VLMのポテンシャルをフル活用するために、X-アダプタはV-expertとT-expertの2つのサブモジュールから構成され、それぞれVLMの画像とテキスト表現を融合する。 下流のタスクによって異なるサブモジュールを活性化することも可能です。 実験の結果,plmベースラインと比較して,オブジェクトカラー推論と自然言語理解(nlu)タスクの性能が有意に向上することがわかった。

Humans learn language via multi-modal knowledge. However, due to the text-only pre-training scheme, most existing pre-trained language models (PLMs) are hindered from the multi-modal information. To inject visual knowledge into PLMs, existing methods incorporate either the text or image encoder of vision-language models (VLMs) to encode the visual information and update all the original parameters of PLMs for knowledge fusion. In this paper, we propose a new plug-and-play module, X-adapter, to flexibly leverage the aligned visual and textual knowledge learned in pre-trained VLMs and efficiently inject them into PLMs. Specifically, we insert X-adapters into PLMs, and only the added parameters are updated during adaptation. To fully exploit the potential in VLMs, X-adapters consist of two sub-modules, V-expert and T-expert, to fuse VLMs' image and text representations, respectively. We can opt for activating different sub-modules depending on the downstream tasks. Experimental results show that our method can significantly improve the performance on object-color reasoning and natural language understanding (NLU) tasks compared with PLM baselines.
翻訳日:2024-02-19 12:47:21 公開日:2024-02-16
# 人間と機械学習モデルのためのトークン化選好:注釈研究

Tokenization Preference for Human and Machine Learning Model: An Annotation Study ( http://arxiv.org/abs/2304.10813v3 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Tomoya Iwakura(参考訳) 機械学習(ML)モデルにも、人間のトークン化は望ましいか? 本研究では,人間のトークン化(適切性)とMLモデル(NLPタスクの性能)の関係について検討した。 日本語コモンセンス問合せデータセットの質問文を6種類のトークン化器を用いてトークン化し,人間のアノテータとMLモデルの性能を比較した。 さらに,人間モデルとmlモデルによる回答性能の関係,人間に対するトークン化の適切性,質問に対する応答時間について分析した。 この研究は、人間とMLモデルのトークン化が必ずしも同じとは限らないことを示す定量的研究結果を提供する。 その結果、トークン化に言語モデルを使用する既存の方法が、人間モデルとmlモデルの両方にとってよい妥協点になる可能性がある。

Is preferred tokenization for humans also preferred for machine-learning (ML) models? This study examines the relations between preferred tokenization for humans (appropriateness and readability) and one for ML models (performance on an NLP task). The question texts of the Japanese commonsense question-answering dataset are tokenized with six different tokenizers, and the performances of human annotators and ML models were compared. Furthermore, we analyze relations among performance of answers by human and ML model, the appropriateness of tokenization for human, and response time to questions by human. This study provides a quantitative investigation result that shows that preferred tokenizations for humans and ML models are not necessarily always the same. The result also implies that existing methods using language models for tokenization could be a good compromise both for human and ML models.
翻訳日:2024-02-19 12:46:58 公開日:2024-02-16
# TOAD: 多様な応答スタイルを持つタスク指向自動ダイアログ

TOAD: Task-Oriented Automatic Dialogs with Diverse Response Styles ( http://arxiv.org/abs/2402.10137v2 )

ライセンス: Link先を確認
Yinhong Liu, Yimai Fang, David Vandyke and Nigel Collier(参考訳) 大規模言語モデル(LLM)の最近の進歩を踏まえると、次世代の仮想アシスタントに対する期待には、さまざまな利用シナリオにおける自然性と適応性の向上が含まれている。 しかし、タスク指向対話(TOD)のための高品質な注釈付きデータの作成は遅く、コストがかかる。 これらの課題に対処するために,新しいスケーラブルなTODデータセットであるTask-Oriented Automatic Dialogs(TOAD)と,その自動生成パイプラインを紹介する。 TOADデータセットは、現実的なアプリケーションコンテキストのインタラクションをシミュレートし、さまざまなシステムレスポンススタイルオプションを提供する。 システム応答スタイルの2つの側面は、冗長度レベルとユーザの表現ミラーリングである。 我々はTOADを2つの応答生成タスクでベンチマークし、その結果、ユーザ表現ミラーリングなしでより冗長な応答や応答をモデル化することがより困難であることを示す。

In light of recent advances in large language models (LLMs), the expectations for the next generation of virtual assistants include enhanced naturalness and adaptability across diverse usage scenarios. However, the creation of high-quality annotated data for Task-Oriented Dialog (TOD) is recognized to be slow and costly. To address these challenges, we introduce Task-Oriented Automatic Dialogs (TOAD), a novel and scalable TOD dataset along with its automatic generation pipeline. The TOAD dataset simulates realistic app context interaction and provide a variety of system response style options. Two aspects of system response styles are considered, verbosity level and users' expression mirroring. We benchmark TOAD on two response generation tasks and the results show that modelling more verbose or responses without user expression mirroring is more challenging.
翻訳日:2024-02-19 12:42:35 公開日:2024-02-16
# 変圧器のGELU計算用ソフトマックスハードウェアユニットの再利用

Reusing Softmax Hardware Unit for GELU Computation in Transformers ( http://arxiv.org/abs/2402.10118v2 )

ライセンス: Link先を確認
Christodoulos Peltekis, Kosmas Alexandridis, Giorgos Dimitrakopoulos(参考訳) トランスフォーマーは自然言語処理(NLP)とコンピュータビジョンアプリケーションの性能を大幅に改善した。 変換器の計算には行列乗算やソフトマックスやGELU (Gaussion Error Linear Unit) などの非線形活性化関数が含まれ、ハードウェア上で直接高速化される。 現在、機能評価は各機能ごとに個別に行われており、ハードウェアの再利用はまれである。 この問題を軽減するために,GELUの計算をソフトマックス演算子にマップする。 このように、既にソフトマックス用に設計された効率的なハードウェアユニットはGELUの計算にも再利用できる。 GELUの計算はソフトマックスの固有ベクトル化の性質を享受し、並列に複数のGELU結果を生成することができる。 実験結果からGELU計算は,既存のソフトマックスハードウェアユニットをインクリメンタルに修正した。 (a)代表NLPアプリケーションの精度を低下させません。 (b) ハードウェア全体の面積と電力をそれぞれ平均で6.1%、11.9%削減することができる。

Transformers have improved drastically the performance of natural language processing (NLP) and computer vision applications. The computation of transformers involves matrix multiplications and non-linear activation functions such as softmax and GELU (Gaussion Error Linear Unit) that are accelerated directly in hardware. Currently, function evaluation is done separately for each function and rarely allows for hardware reuse. To mitigate this problem, in this work, we map the computation of GELU to a softmax operator. In this way, the efficient hardware units designed already for softmax can be reused for computing GELU as well. Computation of GELU can enjoy the inherent vectorized nature of softmax and produce in parallel multiple GELU outcomes. Experimental results show that computing GELU via a pre-existing and incrementally modified softmax hardware unit (a) does not reduce the accuracy of representative NLP applications and (b) allows the reduction of the overall hardware area and power by 6.1% and 11.9%, respectively, on average.
翻訳日:2024-02-19 12:42:22 公開日:2024-02-16
# ddpmインバージョンを用いたゼロショット教師なし音声編集

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion ( http://arxiv.org/abs/2402.10009v2 )

ライセンス: Link先を確認
Hila Manor and Tomer Michaeli(参考訳) 大規模な事前学習モデルを用いて、ゼロショットで信号を編集する手法は、最近画像領域で急速に進歩している。 しかし、この波はまだオーディオ領域に届いていない。 本稿では,事前学習した拡散モデルにおけるDDPMインバージョンを用いた2つのゼロショット音声信号編集手法について検討する。 画像ドメインから採用された最初のものは、テキストベースの編集を可能にする。 2つ目は、意味的に意味のある編集方向を監督せずに発見するための新しいアプローチである。 音楽信号に適用すると、特定の楽器の参加の制御からメロディの即興演奏まで、音楽的に興味深い変更が多岐にわたることが分かる。 サンプルとコードは例のページ(https://hilamanor.github.io/AudioEditing/)にある。

Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples and code can be found on our examples page in https://hilamanor.github.io/AudioEditing/ .
翻訳日:2024-02-19 12:42:08 公開日:2024-02-16
# 生成型adversarial network discriminatorにおける病的バイアスの検討:stylegan3モデルを用いたケーススタディ

Examining Pathological Bias in a Generative Adversarial Network Discriminator: A Case Study on a StyleGAN3 Model ( http://arxiv.org/abs/2402.09786v2 )

ライセンス: Link先を確認
Alvin Grissom II, Ryan F. Lei, Jeova Farias Sales Rocha Neto, Bailey Lin, Ryan Trotter(参考訳) 生成的な敵ネットワークは、人間と実際の顔では区別できないフォトリアリスティックな顔を生成する。 一般的なGANネットワークであるStyleGAN3モデルの判別器は,画像品質と顔品質の両方でスコアを体系的に階層化し,性別,人種,その他のカテゴリーのイメージに不均等に影響を及ぼすことがわかった。 人種や性別を知覚する軸間の色や輝度に対する判別者のバイアスを調べ,社会心理学におけるステレオタイプ研究で一般的な軸について検討した。

Generative adversarial networks generate photorealistic faces that are often indistinguishable by humans from real faces. We find that the discriminator in the pre-trained StyleGAN3 model, a popular GAN network, systematically stratifies scores by both image- and face-level qualities and that this disproportionately affects images across gender, race, and other categories. We examine the discriminator's bias for color and luminance across axes perceived race and gender; we then examine axes common in research on stereotyping in social psychology.
翻訳日:2024-02-19 12:41:55 公開日:2024-02-16
# エスペラント語における言語周波数と誤り訂正の分析

An Analysis of Language Frequency and Error Correction for Esperanto ( http://arxiv.org/abs/2402.09696v2 )

ライセンス: Link先を確認
Junhong Liang(参考訳) 現在のGrammar Error Correction (GEC)イニシアチブは主要な言語に焦点を当てる傾向にあり、Esperantoのような低リソース言語にはあまり注目されていない。 本稿では,まずEo-GPデータセットを用いて包括的周波数解析を行うことにより,このギャップを埋める。 次に、eo-gecデータセットを紹介し、エラー識別のための詳細な言語的詳細をアノテートする。 GPT-3.5 と GPT-4 を応用して,GPT-4 は自動評価と人為評価の両方において GPT-3.5 よりも優れており,エスペラントの文法的特異性に対処する上での有効性と,あまり研究されていない言語に対する GEC 戦略を強化するための先進言語モデルの可能性を強調した。

Current Grammar Error Correction (GEC) initiatives tend to focus on major languages, with less attention given to low-resource languages like Esperanto. In this article, we begin to bridge this gap by first conducting a comprehensive frequency analysis using the Eo-GP dataset, created explicitly for this purpose. We then introduce the Eo-GEC dataset, derived from authentic user cases and annotated with fine-grained linguistic details for error identification. Leveraging GPT-3.5 and GPT-4, our experiments show that GPT-4 outperforms GPT-3.5 in both automated and human evaluations, highlighting its efficacy in addressing Esperanto's grammatical peculiarities and illustrating the potential of advanced language models to enhance GEC strategies for less commonly studied languages.
翻訳日:2024-02-19 12:41:44 公開日:2024-02-16
# CodeMind: コード推論のための大規模言語モデルに挑戦するフレームワーク

CodeMind: A Framework to Challenge Large Language Models for Code Reasoning ( http://arxiv.org/abs/2402.09664v2 )

ライセンス: Link先を確認
Changshu Liu, Shizhuo Dylan Zhang, Reyhaneh Jabbarvand(参考訳) コード合成にLLM(Large Language Models)を評価するためにテストパスに頼ることは、不公平な評価やデータ漏洩を伴うモデルの促進につながる可能性がある。 代替として,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。 CodeMindは現在、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。 最初の2つは、任意のコードやモデルが正しく合成できるコードの実行出力を予測するモデルを評価する。 第3の方法は、llmが指定された期待される動作を実装する程度を評価する。 CodeMindを用いた5つのベンチマークにおける9つのLLMの広範囲な評価は、LLMが制御フロー構造を十分に理解しており、一般的には、入力がどのように出力に進化するかを推論できることを示している。 しかし、高い複雑性、非自明な論理演算子と算術演算子、非プリミティブ型、api呼び出しを持つコードではパフォーマンスが低下する。 さらに、関連づけられた仕様推論(コード合成に必須)は実行推論(テストやデバッグのような幅広いプログラミングタスクに必須)を含まないことを観察する。

Solely relying on test passing to evaluate Large Language Models (LLMs) for code synthesis may result in unfair assessment or promoting models with data leakage. As an alternative, we introduce CodeMind, a framework designed to gauge the code reasoning abilities of LLMs. CodeMind currently supports three code reasoning tasks: Independent Execution Reasoning (IER), Dependent Execution Reasoning (DER), and Specification Reasoning (SR). The first two evaluate models to predict the execution output of an arbitrary code or code the model could correctly synthesize. The third one evaluates the extent to which LLMs implement the specified expected behavior. Our extensive evaluation of nine LLMs across five benchmarks in two different programming languages using CodeMind shows that LLMs fairly understand control flow constructs and, in general, are capable of reasoning how inputs evolve to output, specifically for simple programs and the ones they can correctly synthesize. However, their performance drops for code with higher complexity, non-trivial logical and arithmetic operators, non-primitive types, and API calls. Furthermore, we observe that, while correlated, specification reasoning (essential for code synthesis) does not imply execution reasoning (essential for broader programming tasks such as testing and debugging): ranking LLMs based on test passing can be different compared to code reasoning.
翻訳日:2024-02-19 12:41:26 公開日:2024-02-16
# 0.2定数符号化速度と高コード容量雑音閾値を有するハイパーグラフ製品コード

Hypergraph product code with 0.2 constant coding rate and high code capacity noise threshold ( http://arxiv.org/abs/2402.09648v2 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Jiahan Chen, Zicheng Wang and Xuan Wang(参考訳) 量子安定化器符号の低符号化速度は、工学における量子エラー補正を実現する際に、強い物理量子ビットオーバーヘッドをもたらす。 本稿では,TGRE-hypergraph-product codeと呼ばれる新しいハイパーグラフ生成コードを提案する。 この符号の符号化速度は0.2であり、量子安定化器符号の符号化速度としては最も高い。 本稿では,誤り訂正機能tgre-hypergraph-product codeのシミュレーションを行い,脱分極ノイズチャネルの符号容量閾値は約0.096であることを示す。

The low coding rate of quantum stabilizer codes results in formidable physical qubit overhead when realizing quantum error correcting in engineering. In this letter, we propose a new class of hypergraph-product code called TGRE-hypergraph-product code. This code has constant coding rate 0.2, which is the highest constant coding rate of quantum stabilizer codes to our best knowledge. We perform simulations to test the error correcting capability TGRE-hypergraph-product code and find their code capacity noise threshold in depolarizing noise channel is around 0.096.
翻訳日:2024-02-19 12:41:02 公開日:2024-02-16
# MiMiC:表現空間における最小限の変更

MiMiC: Minimally Modified Counterfactuals in the Representation Space ( http://arxiv.org/abs/2402.09631v2 )

ライセンス: Link先を確認
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru(参考訳) 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。 表現空間における介入は、LMの挙動を変化させることでそのような問題を緩和する効果を示した。 まず, 線形消去法とステアリングベクトル法という2つの顕著な介入手法は, 高い制御性が得られず, 表現力に制限があることを示す。 次に、表現空間における表現的反事実を生成するための新しい介入手法を提案し、ソースクラス(例えば「有害」)の表現を対象クラス(例えば「非毒性」)の表現に類似させることを目的とする。 このアプローチは、以前の線形介入手法を一般化し、ガウスの仮定の下でのアース・ムーバー問題に対する閉形式解を活用し、表現空間の幾何学的構造に関する理論的保証を提供する。 さらに, この手法を改良し, 制御された生成を可能にする非線形介入を導出する。 提案手法は,多クラス分類におけるバイアス軽減と有毒言語生成の低減に有効であり,強力なベースラインを上回っている。

Language models often exhibit undesirable behaviors, such as gender bias or toxic language. Interventions in the representation space were shown effective in mitigating such issues by altering the LM behavior. We first show that two prominent intervention techniques, Linear Erasure and Steering Vectors, do not enable a high degree of control and are limited in expressivity. We then propose a novel intervention methodology for generating expressive counterfactuals in the representation space, aiming to make representations of a source class (e.g., "toxic") resemble those of a target class (e.g., "non-toxic"). This approach, generalizing previous linear intervention techniques, utilizes a closed-form solution for the Earth Mover's problem under Gaussian assumptions and provides theoretical guarantees on the representation space's geometric organization. We further build on this technique and derive a nonlinear intervention that enables controlled generation. We demonstrate the effectiveness of the proposed approaches in mitigating bias in multiclass classification and in reducing the generation of toxic language, outperforming strong baselines.
翻訳日:2024-02-19 12:40:23 公開日:2024-02-16
# API Pack: APIコール生成のための多言語データセット

API Pack: A Massive Multilingual Dataset for API Call Generation ( http://arxiv.org/abs/2402.09615v2 )

ライセンス: Link先を確認
Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda(参考訳) 大規模言語モデルのapi呼び出し生成機能向上を目的とした,100万以上の命令apiコールペアを備えた多言語データセットであるapi packを紹介する。 実験を通じて,汎用コーディングにおける全体的な習熟度を維持しつつ,この特化タスクのモデル強化におけるAPI Packの有効性を示す。 たった20,000のPythonインスタンス上で微調整されたCodeLlama-13Bは、未確認のAPI呼び出しを生成する際にそれぞれGPT-3.5とGPT-4よりも10%以上精度が5%高い。 100kの例へのスケーリングは、トレーニング中に見えない新しいAPIへの一般化を改善する。 さらに、言語ごとの広範なデータを必要としない言語間APIコール生成も実現している。 データセット、微調整されたモデル、全体的なコードベースはhttps://github.com/zguo0525/API-Packで公開されている。

We introduce API Pack, a multilingual dataset featuring over one million instruction-API call pairs aimed at advancing large language models' API call generation capabilities. Through experiments, we demonstrate API Pack's efficacy in enhancing models for this specialized task while maintaining their overall proficiency at general coding. Fine-tuning CodeLlama-13B on just 20,000 Python instances yields over 10% and 5% higher accuracy than GPT-3.5 and GPT-4 respectively in generating unseen API calls. Scaling to 100k examples improves generalization to new APIs not seen during training. In addition, cross-lingual API call generation is achieved without needing extensive data per language. The dataset, fine-tuned models, and overall code base are publicly available at https://github.com/zguo0525/API-Pack.
翻訳日:2024-02-19 12:40:04 公開日:2024-02-16
# InTEntを用いた医用画像分割:単一画像テスト時間適応のための統合エントロピー重み付け

Medical Image Segmentation with InTEnt: Integrated Entropy Weighting for Single Image Test-Time Adaptation ( http://arxiv.org/abs/2402.09604v2 )

ライセンス: Link先を確認
Haoyu Dong and Nicholas Konz and Hanxue Gu and Maciej A. Mazurowski(参考訳) テスト時間適応(TTA)とは、テスト中にトレーニングされたモデルを新しいドメインに適応させることである。 既存のTTA技術は、同じドメインから複数のテストイメージを持つことに頼っているが、医療画像などの現実のアプリケーションでは、データ取得が高価であり、撮像条件が頻繁に変化する。 ここでは,単一のラベルなしテスト画像のみを用いて医用画像分割モデルを適用するという課題にアプローチする。 予測のエントロピーを直接最小化するほとんどのTTAアプローチは、この設定ではパフォーマンスを著しく向上させることができず、また、バッチ正規化(BN)層統計学は、単一のテストドメイン例しか持たないため、非常に重要で不安定な要素であると見なされる。 そこで本研究では,そのエントロピー統計を重み付けした,トレーニングとテスト統計間の対象領域統計の様々な推定値を用いた予測結果の統合を提案する。 提案手法は, 平均2.9%のDice係数で, 3つの医用画像データセットにまたがる24のソース/ターゲット領域で検証した。

Test-time adaptation (TTA) refers to adapting a trained model to a new domain during testing. Existing TTA techniques rely on having multiple test images from the same domain, yet this may be impractical in real-world applications such as medical imaging, where data acquisition is expensive and imaging conditions vary frequently. Here, we approach such a task, of adapting a medical image segmentation model with only a single unlabeled test image. Most TTA approaches, which directly minimize the entropy of predictions, fail to improve performance significantly in this setting, in which we also observe the choice of batch normalization (BN) layer statistics to be a highly important yet unstable factor due to only having a single test domain example. To overcome this, we propose to instead integrate over predictions made with various estimates of target domain statistics between the training and test statistics, weighted based on their entropy statistics. Our method, validated on 24 source/target domain splits across 3 medical image datasets surpasses the leading method by 2.9% Dice coefficient on average.
翻訳日:2024-02-19 12:39:53 公開日:2024-02-16
# pmgda:選好に基づく多重勾配降下アルゴリズム

PMGDA: A Preference-based Multiple Gradient Descent Algorithm ( http://arxiv.org/abs/2402.09492v2 )

ライセンス: Link先を確認
Xiaoyuan Zhang and Xi Lin and Qingfu Zhang(参考訳) 競合する目的を持つマルチタスク学習や多目的強化学習など、多くの多目的機械学習アプリケーションにおいて、意思決定者の所定の好みに合うパレートソリューションを見つけることが望ましい。 これらの問題は、しばしば利用可能な勾配情報を持つ大規模であるが、既存のアルゴリズムではうまく扱えない。 この問題に取り組むため,本稿では,意思決定者の好みに合致したparetoソリューションを見つけるための新しい予測・修正フレームワークを提案する。 提案フレームワークでは,複数の目的関数と同時最適化可能なユーザ固有の選好にソリューションを整合させるために,探索進行に制約関数を導入する。 実験の結果,提案手法は,標準多目的ベンチマーク,マルチタスク学習,および数千以上の決定変数を持つ多目的強化学習問題に対する意思決定者の要求に応じて,特定のパレート解を効率的に見つけることができることがわかった。 コードはhttps://github.com/xzhang2523/pmgda。 私たちのコードは現在のpgmda.rarアタッチメントファイルで提供されており、公開後にオープンソース化されます。 }

It is desirable in many multi-objective machine learning applications, such as multi-task learning with conflicting objectives and multi-objective reinforcement learning, to find a Pareto solution that can match a given preference of a decision maker. These problems are often large-scale with available gradient information but cannot be handled very well by the existing algorithms. To tackle this critical issue, this paper proposes a novel predict-and-correct framework for locating a Pareto solution that fits the preference of a decision maker. In the proposed framework, a constraint function is introduced in the search progress to align the solution with a user-specific preference, which can be optimized simultaneously with multiple objective functions. Experimental results show that our proposed method can efficiently find a particular Pareto solution under the demand of a decision maker for standard multiobjective benchmark, multi-task learning, and multi-objective reinforcement learning problems with more than thousands of decision variables. Code is available at: https://github.com/xzhang2523/pmgda. Our code is current provided in the pgmda.rar attached file and will be open-sourced after publication.}
翻訳日:2024-02-19 12:39:29 公開日:2024-02-16
# Human-in-the-Loop を用いた大規模言語モデル監査フレームワークの開発

Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop ( http://arxiv.org/abs/2402.09346v2 )

ライセンス: Link先を確認
Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell Okada, Aman Chadha, Tanya Roosta, Chirag Shah(参考訳) LLMがさまざまなユーザやシナリオに広まるにつれて、これらのモデルを使用する際の潜在的な問題を特定することが不可欠になります。 例えば、バイアス、矛盾、幻覚などがある。 これらの問題に対するLCMの監査は望ましいが、簡単あるいは解決には程遠い。 有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。 これは知識や操作の不整合を露呈し、偏見や幻覚の可能性を示唆する。 しかしながら、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要です。 本稿では,ループ内の人間とともに異なるllmを使用する自動かつスケーラブルなソリューションを提案する。 このアプローチは検証可能性と透明性を提供し、同じllmへの循環依存を回避し、科学的厳密さと一般化性を高める。 具体的には,人間を用いた2段階の検証を行う新しい手法を提案する。応答の検証のための標準評価基準と,所望のプローブを生成するための構造化されたプロンプトテンプレートである。 TruthfulQAデータセットからの一連の質問に対する実験は、異なるLLMの不整合を監査するために使用できる、あるLLMから信頼できるプローブセットを生成することができることを示している。 監査プローブの生成および適用基準は、基礎となる構造や訓練機構にかかわらず、様々なLCMに対して一般化可能である。

As LLMs become more pervasive across various users and scenarios, identifying potential issues when using these models becomes essential. Examples include bias, inconsistencies, and hallucination. Although auditing the LLM for these problems is desirable, it is far from being easy or solved. An effective method is to probe the LLM using different versions of the same question. This could expose inconsistencies in its knowledge or operation, indicating potential for bias or hallucination. However, to operationalize this auditing method at scale, we need an approach to create those probes reliably and automatically. In this paper we propose an automatic and scalable solution, where one uses a different LLM along with human-in-the-loop. This approach offers verifiability and transparency, while avoiding circular reliance on the same LLMs, and increasing scientific rigor and generalizability. Specifically, we present a novel methodology with two phases of verification using humans: standardized evaluation criteria to verify responses, and a structured prompt template to generate desired probes. Experiments on a set of questions from TruthfulQA dataset show that we can generate a reliable set of probes from one LLM that can be used to audit inconsistencies in a different LLM. The criteria for generating and applying auditing probes is generalizable to various LLMs regardless of the underlying structure or training mechanism.
翻訳日:2024-02-19 12:39:07 公開日:2024-02-16
# 情報理論リワードモデリングによるリワードハッキングの軽減

Mitigating Reward Hacking via Information-Theoretic Reward Modeling ( http://arxiv.org/abs/2402.09345v3 )

ライセンス: Link先を確認
Yuchun Miao, Sen Zhang, Liang Ding, Rong Bao, Lefei Zhang, Dacheng Tao(参考訳) 人的フィードバック(rlhf)からの強化学習が言語モデルと人間の価値の整合に成功しても、報酬ハッキングは報酬過剰最適化(reward overoptimization)とも呼ばれ、主に報酬モデリングの制限、すなわち報酬モデルの一般化可能性と選好データセットの一貫性の欠如に起因する重要な課題である。 そこで本研究では,情報理論のパースペクティブからこの問題に取り組み,無関係な情報をフィルタリングし,モデル複雑性変調のメカニズムを開発するための変分的情報ボトルネック目標を導入することで,報奨モデリングの一般化とロバストな枠組みを提案する。 特に,潜伏空間における過最適化と外れ値の相関関係を更に同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。 この発見にインスパイアされたICDS(Integrated Cluster Deviation Score)は,オンライン緩和戦略の開発を促進するための報酬過度最適化の指標として,潜在空間における偏差を定量化する。 幅広い設定とモデルスケール(70M, 440M, 1.4B, 7B)に関する大規模な実験はInfoRMの有効性を支持する。 さらに分析した結果,InfoRMの過度な最適化検出機構が有効であることが判明した。 コードは受理時にリリースされる。

Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models with human values, reward hacking, also termed reward overoptimization, remains a critical challenge, which primarily stems from limitations in reward modeling, i.e., generalizability of the reward model and inconsistency in the preference dataset. In this work, we tackle this problem from an information theoretic-perspective, and propose a generalizable and robust framework for reward modeling, namely InfoRM, by introducing a variational information bottleneck objective to filter out irrelevant information and developing a mechanism for model complexity modulation. Notably, we further identify a correlation between overoptimization and outliers in the latent space, establishing InfoRM as a promising tool for detecting reward overoptimization. Inspired by this finding, we propose the Integrated Cluster Deviation Score (ICDS), which quantifies deviations in the latent space, as an indicator of reward overoptimization to facilitate the development of online mitigation strategies. Extensive experiments on a wide range of settings and model scales (70M, 440M, 1.4B, and 7B) support the effectiveness of InfoRM. Further analyses reveal that InfoRM's overoptimization detection mechanism is effective, potentially signifying a notable advancement in the field of RLHF. Code will be released upon acceptance.
翻訳日:2024-02-19 12:38:46 公開日:2024-02-16
# MultiMedEval:医療ビジョンランゲージモデル評価のためのベンチマークとツールキット

MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models ( http://arxiv.org/abs/2402.09262v2 )

ライセンス: Link先を確認
Corentin Royer, Bjoern Menze and Anjany Sekuboyina(参考訳) 大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットであるMultiMedEvalを紹介する。 MultiMedEvalは、23のデータセットで実施され、11の医療ドメインにまたがる6つのマルチモーダルタスクで、モデルのパフォーマンスを包括的に評価する。 選択されたタスクとパフォーマンスメトリクスは、コミュニティにおける広範な採用とその多様性に基づいており、モデルの全体的な一般化可能性の徹底的な評価が保証されている。 我々は,単純なインターフェースとセットアッププロセスを備えたPythonツールキット(github.com/corentin-ryr/MultiMedEval)をオープンソースとして公開した。 我々の目標は、VLM評価の複雑な環境を単純化し、将来のモデルの公平かつ均一なベンチマークを促進することである。

We introduce MultiMedEval, an open-source toolkit for fair and reproducible evaluation of large, medical vision-language models (VLM). MultiMedEval comprehensively assesses the models' performance on a broad array of six multi-modal tasks, conducted over 23 datasets, and spanning over 11 medical domains. The chosen tasks and performance metrics are based on their widespread adoption in the community and their diversity, ensuring a thorough evaluation of the model's overall generalizability. We open-source a Python toolkit (github.com/corentin-ryr/MultiMedEval) with a simple interface and setup process, enabling the evaluation of any VLM in just a few lines of code. Our goal is to simplify the intricate landscape of VLM evaluation, thus promoting fair and uniform benchmarking of future models.
翻訳日:2024-02-19 12:38:20 公開日:2024-02-16
# LLMを使ったゲーム「Play Guessing Game」: 間接的ジェイルブレイク攻撃

Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues ( http://arxiv.org/abs/2402.09091v2 )

ライセンス: Link先を確認
Zhiyuan Chang, Mingyang Li, Yi Liu, Junjie Wang, Qing Wang, Yang Liu(参考訳) LLMの開発に伴い、LLMのセキュリティ上の脅威がますます注目されている。 LLMのセキュリティ防衛を評価するために、数多くのジェイルブレイク攻撃が提案されている。 現在のジェイルブレイク攻撃は主にシナリオカモフラージュ技術を利用している。 しかし、悪質な意図について明確に言及することは、LLMによって容易に認識され、防御される。 本稿では, LLMの防御戦略を回避し, LLMに対して元の悪意のあるクエリに関するヒントを暗黙的に提供することによって悪意のある応答を得ることができる間接的ジェイルブレイク攻撃手法であるPuzzlerを提案する。 また、Sun TzuのArt of Warの「攻撃できず、防御もできない」という知恵に触発されて、LSMを通じて元の悪意あるクエリの手がかりを収集する防御的姿勢を採用した。 大規模な実験の結果、Puzzler はクローズドソース LLM で96.6% のクエリ成功率を達成しており、ベースラインよりも57.9%-82.7% 高い。 さらに、最先端のジェイルブレイク検出アプローチに対してテストすると、ベースラインよりも脱獄検出に有効であることが分かる。

With the development of LLMs, the security threats of LLMs are getting more and more attention. Numerous jailbreak attacks have been proposed to assess the security defense of LLMs. Current jailbreak attacks primarily utilize scenario camouflage techniques. However their explicitly mention of malicious intent will be easily recognized and defended by LLMs. In this paper, we propose an indirect jailbreak attack approach, Puzzler, which can bypass the LLM's defense strategy and obtain malicious response by implicitly providing LLMs with some clues about the original malicious query. In addition, inspired by the wisdom of "When unable to attack, defend" from Sun Tzu's Art of War, we adopt a defensive stance to gather clues about the original malicious query through LLMs. Extensive experimental results show that Puzzler achieves a query success rate of 96.6% on closed-source LLMs, which is 57.9%-82.7% higher than baselines. Furthermore, when tested against the state-of-the-art jailbreak detection approaches, Puzzler proves to be more effective at evading detection compared to baselines.
翻訳日:2024-02-19 12:38:03 公開日:2024-02-16