このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240426となっている論文です。

PDF登録状況(公開日: 20240426)

TitleAuthorsAbstract論文公表日・翻訳日
# LM-IGTD:畳み込みニューラルネットワークの可能性を利用する低次元および混合型表層データのための2次元画像生成装置

LM-IGTD: a 2D image generator for low-dimensional and mixed-type tabular data to leverage the potential of convolutional neural networks ( http://arxiv.org/abs/2406.14566v1 )

ライセンス: Link先を確認
Vanesa Gómez-Martínez, Francisco J. Lara-Abelenda, Pablo Peiro-Corbacho, David Chushig-Muzo, Conceicao Granja, Cristina Soguero-Ruiz, (参考訳) タブラルデータは様々な知識領域で広く使われている。 畳み込みニューラルネットワーク(CNN)は多くのアプリケーションで、データに関する重要な情報が特徴(イメージ)の順番に埋め込まれ、従来のモデルの予測結果よりも優れています。 近年,CNNの可能性を生かし,分類や回帰といった予測タスクにおいて高い結果を得るために,表型データを画像に変換する手法が提案されている。 本稿では,低次元および混合型データセットに係わる固有の制約に対処し,表層データを画像に変換する新しい,効果的な手法を提案する。 提案手法は,階層データのための低混合画像生成装置 (LM-IGTD) で,確率的特徴生成プロセスとIGTDの修正版を統合する。 自動で解釈可能なエンドツーエンドパイプラインを導入し、表データから画像を生成する。 元の特徴と生成された画像とのマッピングが確立され、これらの画像の重要な領域を特定するためにポストホック解釈可能性法が採用され、予測タスクの解釈可能性を高める。 12種類の低次元および混合型データセットに対して提案した表-画像生成手法の広範な評価を行った。 特に,LM-IGTDとCNNで生成された画像を用いた場合,12データセット中5データセットにおいて,従来のMLモデルよりも優れていた。 残りのデータセットでは、LM-IGTDイメージとCNNは4つの伝統的なMLモデルのうち3つを一貫して上回り、第4のモデルと同様の結果を得た。

Tabular data have been extensively used in different knowledge domains. Convolutional neural networks (CNNs) have been successfully used in many applications where important information about data is embedded in the order of features (images), outperforming predictive results of traditional models. Recently, several researchers have proposed transforming tabular data into images to leverage the potential of CNNs and obtain high results in predictive tasks such as classification and regression. In this paper, we present a novel and effective approach for transforming tabular data into images, addressing the inherent limitations associated with low-dimensional and mixed-type datasets. Our method, named Low Mixed-Image Generator for Tabular Data (LM-IGTD), integrates a stochastic feature generation process and a modified version of the IGTD. We introduce an automatic and interpretable end-to-end pipeline, enabling the creation of images from tabular data. A mapping between original features and the generated images is established, and post hoc interpretability methods are employed to identify crucial areas of these images, enhancing interpretability for predictive tasks. An extensive evaluation of the tabular-to-image generation approach proposed on 12 low-dimensional and mixed-type datasets, including binary and multi-class classification scenarios. In particular, our method outperformed all traditional ML models trained on tabular data in five out of twelve datasets when using images generated with LM-IGTD and CNN. In the remaining datasets, LM-IGTD images and CNN consistently surpassed three out of four traditional ML models, achieving similar results to the fourth model.
翻訳日:2024-07-01 07:30:49 公開日:2024-04-26
# デジタル資産の法的地位を財産として見る--法学的アプローチの比較分析

Examining the Legal Status of Digital Assets as Property: A Comparative Analysis of Jurisdictional Approaches ( http://arxiv.org/abs/2406.15391v1 )

ライセンス: Link先を確認
Luke Lee, (参考訳) 本稿では, デジタル資産を取り巻く複雑な法的景観を考察し, 資産の定義・規制の仕方について検討する。 暗号通貨や非偽造トークン(NFT)などのデジタル資産がグローバル経済と統合されるにつれて、その無形性は伝統的財産法の概念に固有の課題をもたらし、法的定義と所有権の枠組みの再評価を必要とする。 本研究は、異なる法律体系が資産法の中でデジタル資産を分類・管理する方法について比較分析を行い、規制アプローチのバリエーションと所有権、譲渡、相続権への影響を強調した。 本研究は,米国,欧州連合,シンガポールを含む主要司法管轄区域における初歩的な事例と規制の進展を調べることによって,デジタル資産のグローバルな取扱いに影響を与える可能性のある,新たな動向と法的発展の可能性を探るものである。 この研究は、デジタル資産規制に対する調和したアプローチを提案し、イノベーションと法的確実性と消費者保護とのバランスを図り、学術的談話に貢献することを目的としている。

This paper examines the complex legal landscape surrounding digital assets, analysing how they are defined and regulated as property across various jurisdictions. As digital assets such as cryptocurrencies and non-fungible tokens (NFTs) increasingly integrate with global economies, their intangible nature presents unique challenges to traditional property law concepts, necessitating a re-evaluation of legal definitions and ownership frameworks. This research presents a comparative analysis, reviewing how different legal systems classify and manage digital assets within property law, highlighting the variations in regulatory approaches and their implications on ownership, transfer, and inheritance rights. By examining seminal cases and regulatory developments in major jurisdictions, including the United States, the European Union, and Singapore, this paper explores the emerging trends and potential legal evolutions that could influence the global handling of digital assets. The study aims to contribute to the scholarly discourse by proposing a harmonized approach to digital asset regulation, seeking to balance innovation with legal certainty and consumer protection.
翻訳日:2024-07-01 07:11:08 公開日:2024-04-26
# 治験承認評価のための言語相互作用ネットワーク

Language Interaction Network for Clinical Trial Approval Estimation ( http://arxiv.org/abs/2405.06662v1 )

ライセンス: Link先を確認
Chufan Gao, Tianfan Fu, Jimeng Sun, (参考訳) 臨床試験結果の予測は、臨床試験がその目的のエンドポイントに到達する確率を見積もる。 このプロセスは主に、臨床試験の記述、薬物分子の特徴、標的とする特定の疾患状態など、さまざまなデータソースを利用する機械学習モデルの開発を含む。 試験結果の正確な予測は、試験計画の最適化と薬物ポートフォリオへの投資の優先順位付けに不可欠である。 これまでの研究は、主に小分子の薬物に焦点を合わせてきたが、従来の薬物に関連する分子的特性を欠く治療薬の急速に普及するカテゴリーである生物学に焦点を絞る必要性が高まっている。 さらに、グラフニューラルネットワークのような従来の手法を生物学的データに適用することは、その複雑な性質のために困難であることが証明されている。 これらの課題に対処するために,実験の自由テキスト記述のみを用いて実験結果を予測する新しいアプローチであるLINT(Language Interaction Network)を導入する。 臨床治験の3段階にわたるLINTの有効性を精力的に検証し, 生物学的介入を含む臨床試験に関して, それぞれ0.770, 0.740, 0.748のROC-AUCスコアを得た。

Clinical trial outcome prediction seeks to estimate the likelihood that a clinical trial will successfully reach its intended endpoint. This process predominantly involves the development of machine learning models that utilize a variety of data sources such as descriptions of the clinical trials, characteristics of the drug molecules, and specific disease conditions being targeted. Accurate predictions of trial outcomes are crucial for optimizing trial planning and prioritizing investments in a drug portfolio. While previous research has largely concentrated on small-molecule drugs, there is a growing need to focus on biologics-a rapidly expanding category of therapeutic agents that often lack the well-defined molecular properties associated with traditional drugs. Additionally, applying conventional methods like graph neural networks to biologics data proves challenging due to their complex nature. To address these challenges, we introduce the Language Interaction Network (LINT), a novel approach that predicts trial outcomes using only the free-text descriptions of the trials. We have rigorously tested the effectiveness of LINT across three phases of clinical trials, where it achieved ROC-AUC scores of 0.770, 0.740, and 0.748 for phases I, II, and III, respectively, specifically concerning trials involving biologic interventions.
翻訳日:2024-05-27 03:27:39 公開日:2024-04-26
# アルゴリズムフェアネス:寛容な視点

Algorithmic Fairness: A Tolerance Perspective ( http://arxiv.org/abs/2405.09543v1 )

ライセンス: Link先を確認
Renqiang Luo, Tao Tang, Feng Xia, Jiaying Liu, Chengpei Xu, Leo Yu Zhang, Wei Xiang, Chengqi Zhang, (参考訳) 機械学習とディープラーニングの最近の進歩は、アルゴリズムの公正性を鋭い焦点にし、特定の個人やグループに悪影響を及ぼす差別的決定に対する懸念を浮き彫りにした。 これらの懸念は、知的システムに対する信頼の侵食を含む法的、倫理的、社会的課題に現れてきた。 これに対し、この調査はアルゴリズムの公正性に関する既存の文献を掘り下げ、特にその多面的な社会的影響を強調した。 我々は,「寛容」に基づく新しい分類法を導入する。これは,公正性の結果の変動が許容される度合いとして定義し,アルゴリズム決定における公正性の微妙さを理解するための構造化されたアプローチを提供する。 我々の体系的なレビューは多様な産業をカバーし、アルゴリズムによる意思決定と社会的株式のバランスに関する重要な洞察を明らかにしている。 これらの知見を合成することにより、我々は、より公平なアルゴリズムシステムに向けて分野を前進させることを目的として、一連の課題の概要を述べ、今後の研究と政策立案のための戦略的な方向性を提案する。

Recent advancements in machine learning and deep learning have brought algorithmic fairness into sharp focus, illuminating concerns over discriminatory decision making that negatively impacts certain individuals or groups. These concerns have manifested in legal, ethical, and societal challenges, including the erosion of trust in intelligent systems. In response, this survey delves into the existing literature on algorithmic fairness, specifically highlighting its multifaceted social consequences. We introduce a novel taxonomy based on 'tolerance', a term we define as the degree to which variations in fairness outcomes are acceptable, providing a structured approach to understanding the subtleties of fairness within algorithmic decisions. Our systematic review covers diverse industries, revealing critical insights into the balance between algorithmic decision making and social equity. By synthesizing these insights, we outline a series of emerging challenges and propose strategic directions for future research and policy making, with the goal of advancing the field towards more equitable algorithmic systems.
翻訳日:2024-05-27 03:17:55 公開日:2024-04-26
# HateTinyLLM : Tiny Large Language Modelを用いたヘイトスピーチ検出

HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models ( http://arxiv.org/abs/2405.01577v1 )

ライセンス: Link先を確認
Tanmay Sen, Ansuman Das, Mrinmay Sen, (参考訳) ヘイトスピーチ(英: Hate speech)は、個人やグループに対する軽蔑的または差別的な言語を標的とする、言語的、書面的、行動的なコミュニケーションを包含する。 ヘイトスピーチの自動検出は、特にソーシャルメディアプラットフォーム間での伝播を抑制する上で重要な役割を担っている。 近年のディープラーニングの進歩を含む様々な手法がこの課題に対処するために考案されている。 本研究では,HateTinyLLMを提案する。HateTinyLLMは,高効率なヘイトスピーチ検出のための,微調整デコーダのみの小型大言語モデル(tinyLLM)に基づく新しいフレームワークである。 実験結果から,HateTinyLLMは事前訓練したミキストラル7bモデルよりも有意差が認められた。 我々は、PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2、facebook/opt-1.3bなど、様々な小さなLCMを探索し、LoRAとアダプタ手法を用いて微調整した。 以上の結果から,LoRAをベースとした微調整モデルの精度は80%を超えることがわかった。

Hate speech encompasses verbal, written, or behavioral communication that targets derogatory or discriminatory language against individuals or groups based on sensitive characteristics. Automated hate speech detection plays a crucial role in curbing its propagation, especially across social media platforms. Various methods, including recent advancements in deep learning, have been devised to address this challenge. In this study, we introduce HateTinyLLM, a novel framework based on fine-tuned decoder-only tiny large language models (tinyLLMs) for efficient hate speech detection. Our experimental findings demonstrate that the fine-tuned HateTinyLLM outperforms the pretrained mixtral-7b model by a significant margin. We explored various tiny LLMs, including PY007/TinyLlama-1.1B-step-50K-105b, Microsoft/phi-2, and facebook/opt-1.3b, and fine-tuned them using LoRA and adapter methods. Our observations indicate that all LoRA-based fine-tuned models achieved over 80\% accuracy.
翻訳日:2024-05-12 16:10:01 公開日:2024-04-26
# 低消費電力エッジデバイスのフレキシブルでエネルギー効率の良いリモート管理によるIoTアプリケーション強化

Empowering IoT Applications with Flexible, Energy-Efficient Remote Management of Low-Power Edge Devices ( http://arxiv.org/abs/2405.01578v1 )

ライセンス: Link先を確認
Shadi Attarha, Anna Förster, (参考訳) IoT(Internet of Things)の文脈では、IoTアプリケーションの信頼性とエネルギー効率の確保が重要になっている。 IoTシステムに、IoTエッジデバイスの監視と管理のフレキシブルで、高性能で、自動化された方法を可能にするツールを提供することは、必須の前提条件である。 現在のIoTシステムでは、低消費電力のエッジアプライアンスは、タイムリーな方法で制御や再構成ができない方法で利用されています。 したがって、管理可能性、パフォーマンス、設計要件の間のトレードオフソリューションの実行が要求される。 本稿では,低消費電力エッジデバイスにおける個々のマイクロサービスのきめ細かい監視と管理を行うための新しいアプローチを提案する。 提案手法は,モジュール化技術を活用することにより,IoTエッジデバイスの運用上の柔軟性を実現する。 リモートマネージドIoTサービスの既存のソリューションのレビューに続いて、提案されたアプローチの詳細が紹介されている。 また、このアプローチで考慮しなくてはならない重要な設計原則を探求するために、提案されたアーキテクチャの詳細を詳述する。 最後に, 提案手法による破壊対策の利点を, 概念ベース実験の実証で実証した。

In the context of the Internet of Things (IoT), reliable and energy-efficient provision of IoT applications has become critical. Equipping IoT systems with tools that enable a flexible, well-performing, and automated way of monitoring and managing IoT edge devices is an essential prerequisite. In current IoT systems, low-power edge appliances have been utilized in a way that can not be controlled and re-configured in a timely manner. Hence, conducting a trade-off solution between manageability, performance and design requirements are demanded. This paper introduces a novel approach for fine-grained monitoring and managing individual micro-services within low-power edge devices, which improves system reliability and energy efficiency. The proposed method enables operational flexibility for IoT edge devices by leveraging a modularization technique. Following a review of existing solutions for remote-managed IoT services, a detailed description of the suggested approach is presented. Also, to explore the essential design principles that must be considered in this approach, the suggested architecture is elaborated in detail. Finally, the advantages of the proposed solution to deal with disruptions are demonstrated in the proof of concept-based experiments.
翻訳日:2024-05-12 16:10:01 公開日:2024-04-26
# プログラミング演習における学生ソリューションのコードレビューを自動化する構文木におけるマイニングパターン

Mining patterns in syntax trees to automate code reviews of student solutions for programming exercises ( http://arxiv.org/abs/2405.01579v1 )

ライセンス: Link先を確認
Charlotte Van Petegem, Kasper Demeyere, Rien Maertens, Niko Strijbol, Bram De Wever, Bart Mesuere, Peter Dawyndt, (参考訳) プログラミング教育では、手動によるフィードバックは不可欠だが労働集約的であり、一貫性とタイムラインの課題を提起する。 本稿では,抽象構文木におけるパターンの分析により,教育コードレビューにおけるフィードバックの再利用を自動化する機械学習手法ECHOを紹介する。 本研究は,人間レビュアーによるアノテーション(RQ1)に基づいて,学生コードの特定の行に対するフィードバックアノテーションを予測できるかどうか,および,そのトレーニングと予測速度が,人間レビュアーによるライブコードレビュー中のリアルタイムフィードバックにECHOを使用するのに適しているか(RQ2),の2点について検討する。 本結果は,自動採点ツールとヒューマンレビュアーの両方のアノテーションに基づいて,ECHOが適切なフィードバックアノテーションを正確にかつ迅速に予測可能であることを示す。 その処理効率とフィードバックパターンへの適応の柔軟性は、教育現場での手動フィードバック提供に必要な時間と労力を大幅に削減することができる。

In programming education, providing manual feedback is essential but labour-intensive, posing challenges in consistency and timeliness. We introduce ECHO, a machine learning method to automate the reuse of feedback in educational code reviews by analysing patterns in abstract syntax trees. This study investigates two primary questions: whether ECHO can predict feedback annotations to specific lines of student code based on previously added annotations by human reviewers (RQ1), and whether its training and prediction speeds are suitable for using ECHO for real-time feedback during live code reviews by human reviewers (RQ2). Our results, based on annotations from both automated linting tools and human reviewers, show that ECHO can accurately and quickly predict appropriate feedback annotations. Its efficiency in processing and its flexibility in adapting to feedback patterns can significantly reduce the time and effort required for manual feedback provisioning in educational settings.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-26
# コード生成のための機能的正確性測定のための埋め込み方式の限界について

On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation ( http://arxiv.org/abs/2405.01580v1 )

ライセンス: Link先を確認
Atharva Naik, (参考訳) 自然言語(NL2Code)からコードを生成するタスクは、特にLLM(Large Language Models)の出現によって、非常に人気が高まっている。 しかし、この進歩を定量化し追跡する努力は、機能的正確性のための信頼性の高い指標が欠如しているために苦しめられている。 HumanEvalのような人気のあるベンチマークには、正確性を評価するためのテストケースがあるが、時間がかかり、テストケースの収集に人的努力が必要となる。 代替の基準ベースの評価指標として、CodeBERTScoreのような埋め込みベースのメトリクスは、人間の好みと機能的正しさに高い相関があると評価されている。 私たちの研究では、CodeBERTScoreのような埋め込みベースのメトリクスを分析して、機能的正確性や、一般的な2つのコード生成ベンチマーク上で10モデルのアウトプットを分析することで、編集作業などの有用な構造を分析しました。 その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。

The task of code generation from natural language (NL2Code) has become extremely popular, especially with the advent of Large Language Models (LLMs). However, efforts to quantify and track this progress have suffered due to a lack of reliable metrics for functional correctness. While popular benchmarks like HumanEval have test cases to enable reliable evaluation of correctness, it is time-consuming and requires human effort to collect test cases. As an alternative several reference-based evaluation metrics have been proposed, with embedding-based metrics like CodeBERTScore being touted as having a high correlation with human preferences and functional correctness. In our work, we analyze the ability of embedding-based metrics like CodeBERTScore to measure functional correctness and other helpful constructs like editing effort by analyzing outputs of ten models over two popular code generation benchmarks. Our results show that while they have a weak correlation with functional correctness (0.16), they are strongly correlated (0.72) with editing effort.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-26
# 大規模言語モデルのMercurial Top-Level Ontology

The Mercurial Top-Level Ontology of Large Language Models ( http://arxiv.org/abs/2405.01581v1 )

ライセンス: Link先を確認
Nele Köhler, Fabian Neuhaus, (参考訳) 本研究は,大規模言語モデル(LLM)が生成する応答における暗黙的存在論的コミットメントを体系化し,分析し,ChatGPT 3.5に着目した事例研究である。 明示的なオントロジーを持たないにもかかわらず,LLMが生成するテキストに反映される暗黙的な存在論的分類を示すかを検討する。 オントロジーを,あるテキストのオントロジー的コミットメントの体系的な説明を提供する理論として定義することにより,LCMのオントロジー的コミットメントを理解するためのアプローチを提案する。 本稿では,ChatGPTのオントロジ的仮定を考察し,GPTのトップレベルオントロジという体系化された説明を提示する。 これにはOWLファイルとして利用できる分類法や、オントロジ的な仮定(例えば、そのメレオロジーや存在論)に関する議論が含まれる。 いくつかの点において、GPTの上位オントロジーは既存の上位オントロジーと非常によく似ている。 しかし、LLM生成テキストの柔軟性に起因する大きな課題は、オントロジ的過負荷、曖昧さ、矛盾などである。

In our work, we systematize and analyze implicit ontological commitments in the responses generated by large language models (LLMs), focusing on ChatGPT 3.5 as a case study. We investigate how LLMs, despite having no explicit ontology, exhibit implicit ontological categorizations that are reflected in the texts they generate. The paper proposes an approach to understanding the ontological commitments of LLMs by defining ontology as a theory that provides a systematic account of the ontological commitments of some text. We investigate the ontological assumptions of ChatGPT and present a systematized account, i.e., GPT's top-level ontology. This includes a taxonomy, which is available as an OWL file, as well as a discussion about ontological assumptions (e.g., about its mereology or presentism). We show that in some aspects GPT's top-level ontology is quite similar to existing top-level ontologies. However, there are significant challenges arising from the flexible nature of LLM-generated texts, including ontological overload, ambiguity, and inconsistency.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-26
# ベイズ最適化とテキスト・ツー・イメージモデルを用いた画像分類器故障の効率的な探索

Efficient Exploration of Image Classifier Failures with Bayesian Optimization and Text-to-Image Models ( http://arxiv.org/abs/2405.02332v1 )

ライセンス: Link先を確認
Adrien Le Coz, Houssem Ouertatani, Stéphane Herbin, Faouzi Adjed, (参考訳) 画像分類器は、現実世界で慎重に使用するべきである。 検証セットで評価されたパフォーマンスは、実世界でのパフォーマンスを反映しないかもしれない。 特に、分類器は訓練中に頻繁に遭遇するが、他の稀な条件ではうまく機能しない。 本研究では,画像分類器などのコンピュータビジョンモデルのベンチマークにおいて,テキスト・ツー・イメージ生成モデルの最近の進歩が有用である,という仮説を立てる。 しかし、それらの生成コストは、多数の合成画像を生成する必要がある場合に問題となり、これは多くの異なる属性の組み合わせをテストする必要がある場合である。 本稿では,画像生成,分類器評価,属性選択を交互に行う反復的手法として,画像分類器ベンチマーク手法を提案する。 この方法は、最終的に振る舞いの検出が不十分になる特性を効率的に探索する。

Image classifiers should be used with caution in the real world. Performance evaluated on a validation set may not reflect performance in the real world. In particular, classifiers may perform well for conditions that are frequently encountered during training, but poorly for other infrequent conditions. In this study, we hypothesize that recent advances in text-to-image generative models make them valuable for benchmarking computer vision models such as image classifiers: they can generate images conditioned by textual prompts that cause classifier failures, allowing failure conditions to be described with textual attributes. However, their generation cost becomes an issue when a large number of synthetic images need to be generated, which is the case when many different attribute combinations need to be tested. We propose an image classifier benchmarking method as an iterative process that alternates image generation, classifier evaluation, and attribute selection. This method efficiently explores the attributes that ultimately lead to poor behavior detection.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-26
# 口腔史研究のための音声技術サービス

Speech Technology Services for Oral History Research ( http://arxiv.org/abs/2405.02333v1 )

ライセンス: Link先を確認
Christoph Draxler, Henk van den Heuvel, Arjan van Hessen, Pavel Ircing, Jan Lehečka, (参考訳) 口頭の歴史は、歴史的出来事に関する証人や解説者の口頭資料である。 この貢献は、BASにおける音声処理に関連する転写ポータルとWebサービス、LINDATで開発された音声ソリューション、Whisperでの自分自身の処理方法、残る課題、今後の発展に対処するものである。

Oral history is about oral sources of witnesses and commentors on historical events. Speech technology is an important instrument to process such recordings in order to obtain transcription and further enhancements to structure the oral account In this contribution we address the transcription portal and the webservices associated with speech processing at BAS, speech solutions developed at LINDAT, how to do it yourself with Whisper, remaining challenges, and future developments.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-26
# Rad4XCNN : 放射線学的手法によるCNN由来の特徴のポストホックな世界的説明法

Rad4XCNN: a new agnostic method for post-hoc global explanation of CNN-derived features by means of radiomics ( http://arxiv.org/abs/2405.02334v1 )

ライセンス: Link先を確認
Francesco Prinzi, Carmelo Militello, Calogero Zarcaro, Tommaso Vincenzo Bartolotta, Salvatore Gaglio, Salvatore Vitabile, (参考訳) 近年,臨床意思決定支援システム(CDSS)における人工知能(AI)は,機械学習とディープラーニングアーキテクチャを活用する上で重要な役割を果たしている。 その有望な能力にもかかわらず、AIモデルの透明性の欠如と説明可能性の欠如は、特に信頼性が必須の側面である医療状況において、重大な課題を提起する。 予測精度を損なうことなく透明性を達成することは、依然として重要な課題である。 本稿では,放射線学的特徴に固有の解釈可能性を持つCNN特徴の予測能力を高めるために,Rad4XCNNという新しい手法を提案する。 Rad4XCNNは、放射能を用いてCNNから派生した特徴に理解不能な意味を関連付け、可視化マップ以外の説明方法に関する新たな視点を提供することにより、従来の方法から分岐する。 乳がん分類タスクをケーススタディとして,オンラインデータセットと内部および外部バリデーションのための2つの社内データセットを含む超音波画像データセットのRad4XCNNを評価した。 主な成果は次のとおりである。 i) CNN由来の特徴は、ViT由来の特徴及び放射線学的特徴と比較して、より堅牢な精度を保証する。 二 説明のための従来の可視化地図方法にいくつかの落とし穴があること。 三Rad4XCNNは、その説明責任のためにモデルの精度を犠牲にしない。 iv)Rad4XCNNは、医師がモデルアウトプットと所見を分析できるようにするグローバルな説明洞察を提供する。 さらに、臨床実践における信頼と採用を高めるために、AIモデルに解釈可能性を統合することの重要性を強調し、私たちの方法が説明可能なAIメソッドに関連する懸念を緩和する方法について強調する。

In the last years, artificial intelligence (AI) in clinical decision support systems (CDSS) played a key role in harnessing machine learning and deep learning architectures. Despite their promising capabilities, the lack of transparency and explainability of AI models poses significant challenges, particularly in medical contexts where reliability is a mandatory aspect. Achieving transparency without compromising predictive accuracy remains a key challenge. This paper presents a novel method, namely Rad4XCNN, to enhance the predictive power of CNN-derived features with the interpretability inherent in radiomic features. Rad4XCNN diverges from conventional methods based on saliency map, by associating intelligible meaning to CNN-derived features by means of Radiomics, offering new perspectives on explanation methods beyond visualization maps. Using a breast cancer classification task as a case study, we evaluated Rad4XCNN on ultrasound imaging datasets, including an online dataset and two in-house datasets for internal and external validation. Some key results are: i) CNN-derived features guarantee more robust accuracy when compared against ViT-derived and radiomic features; ii) conventional visualization map methods for explanation present several pitfalls; iii) Rad4XCNN does not sacrifice model accuracy for their explainability; iv) Rad4XCNN provides global explanation insights enabling the physician to analyze the model outputs and findings. In addition, we highlight the importance of integrating interpretability into AI models for enhanced trust and adoption in clinical practice, emphasizing how our method can mitigate some concerns related to explainable AI methods.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-26
# 意味コミュニケーションのための意味的デジタルアナログ変換器sDAC

sDAC -- Semantic Digital Analog Converter for Semantic Communications ( http://arxiv.org/abs/2405.02335v1 )

ライセンス: Link先を確認
Zhicheng Bao, Chen Dong, Xiaodong Xu, (参考訳) 本稿では,セマンティック・コミュニケーションとデジタル・コミュニケーションの整合性を実現するためのセマンティック・アナログ・コンバータ(sDAC)を提案する。 現在の意味コミュニケーションシステムの多くはアナログ変調に基づいており、実際には一般的であるデジタル通信システムとの結合を無視している。 実際、従来のコミュニケーションシステムにおける量子化手法は、シンボル内の意味情報を考慮しないため、意味コミュニケーションの時代において使用には適していない。 この場合、チャネルノイズによって引き起こされる任意のビットフリップは、大きなパフォーマンス低下につながる可能性がある。 この課題に対処するため、sDACを提案する。 デジタルおよびアナログの双方向変換を実現するための、単純で効率的かつ生成的なモジュールである。 送信側では、エンコーダからの連続値はバイナリビットに変換され、既存のメソッドによって変調される。 ノイズのあるチャネルを通して送信すると、これらのビットはペアのメソッドによって復号化され、さらなるセマンティックデコーディングのために連続値に変換される。 全体的な進捗は、特定のセマンティックモデル、変調方法、チャネル条件に依存しない。 実験セクションでは、sDACの性能を異なる意味モデル、セマンティックタスク、変調方法、チャネル条件、量子化順序で検証する。 実験結果から,提案したsDACは優れた生成特性とチャネルの堅牢性を有することが明らかとなった。

In this paper, we propose a novel semantic digital analog converter (sDAC) for the compatibility of semantic communications and digital communications. Most of the current semantic communication systems are based on the analog modulations, ignoring their incorporation with digital communication systems, which are more common in practice. In fact, quantization methods in traditional communication systems are not appropriate for use in the era of semantic communication as these methods do not consider the semantic information inside symbols. In this case, any bit flip caused by channel noise can lead to a great performance drop. To address this challenge, sDAC is proposed. It is a simple yet efficient and generative module used to realize digital and analog bi-directional conversion. On the transmitter side, continuous values from the encoder are converted to binary bits and then can be modulated by any existing methods. After transmitting through the noisy channel, these bits get demodulated by paired methods and converted back to continuous values for further semantic decoding. The whole progress does not depend on any specific semantic model, modulation methods, or channel conditions. In the experiment section, the performance of sDAC is tested across different semantic models, semantic tasks, modulation methods, channel conditions and quantization orders. Test results show that the proposed sDAC has great generative properties and channel robustness.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-26
# 生成前の量子化システムにおけるチャネル推定の強化

Enhancing Channel Estimation in Quantized Systems with a Generative Prior ( http://arxiv.org/abs/2405.03542v1 )

ライセンス: Link先を確認
Benedikt Fesl, Aziz Banna, Wolfgang Utschick, (参考訳) 量子化システムにおけるチャネル推定は、特に低解像度システムでは困難である。 本研究では,1ビット量子化のための期待最大化(EM)アルゴリズムに基づく古典的推定手法を改良するため,ガウス混合モデル(GMM)を前駆体として,伝搬環境のチャネル分布を捉えることを提案する。 これにより、量子化された受信信号に対して、最も責任のある混合成分の最大後部推定(MAP)を推定し、その後、EMアルゴリズムでサイド情報として利用する。 数値計算により, 単純ガウス事前推定と最先端チャネル推定の双方に対して, 提案手法の大幅な性能向上が示された。 さらに,提案手法は,高分解能システムへの適応性を示す。

Channel estimation in quantized systems is challenging, particularly in low-resolution systems. In this work, we propose to leverage a Gaussian mixture model (GMM) as generative prior, capturing the channel distribution of the propagation environment, to enhance a classical estimation technique based on the expectation-maximization (EM) algorithm for one-bit quantization. Thereby, a maximum a posteriori (MAP) estimate of the most responsible mixture component is inferred for a quantized received signal, which is subsequently utilized in the EM algorithm as side information. Numerical results demonstrate the significant performance improvement of our proposed approach over both a simplistic Gaussian prior and current state-of-the-art channel estimators. Furthermore, the proposed estimation framework exhibits adaptability to higher resolution systems and alternative generative priors.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-26
# 脳-コンピュータインタフェース性能の最適化:正規化CSPとSPEA II多目的最適化による脳波信号のチャネル選択の改善

Optimizing Brain-Computer Interface Performance: Advancing EEG Signals Channel Selection through Regularized CSP and SPEA II Multi-Objective Optimization ( http://arxiv.org/abs/2405.00721v1 )

ライセンス: Link先を確認
M. Moein Esfahani, Hossein Sadati, Vince D Calhoun, (参考訳) 脳-コンピュータインタフェースシステムと脳活動の記録は、様々な応用において大きな注目を集めている。 脳波信号は、神経電気活動を記録するためのモダリティとして登場した。 脳波データから特徴抽出するために設計された手法のうち、RCSPの手法は特にMIタスクの文脈においてアプローチであることが証明されている。 RCSPは脳波信号の識別と分類に有効である。 本手法の性能を最適化する上で,本研究は従来のCSP手法との比較分析や,類似アプリケーション用に設計された最適化手法にまで拡張する。 特に,メタヒューリスティックな多目的パレート進化アルゴリズム(SPEA-II)を研究パラダイムの重要な構成要素として用いている。 これは、MIタスクを持つマルチチャネル脳波信号からチャネルのサブセットを選択するための最先端のアプローチである。 我々の主な目的は、多次元脳波(EEG)信号から最も関連するチャネルのサブセットを特定するための最適なチャネル選択戦略を定式化することである。 脳波信号解析におけるチャネル選択に固有の主な目的の1つは、ゲルベースのEEG電極を利用する際のユーザの快適性を高めるアプローチであるチャネルカウントの減少である。 さらに,本研究では,意思決定の構成要素として,アンサンブル学習モデルの利点を生かした。 このテクニックは、特に、潜在的に冗長なEEGチャネルとデータノイズの広範囲に直面している場合に、オーバーフィッティングに関連する課題を軽減するのに役立つ。 本研究は,MIベースのBCIシステムにおけるRCSPの性能を裏付けるだけでなく,脳波信号分類の最適化におけるチャネル選択戦略とアンサンブル学習技術の重要性を裏付けるものである。

Brain-computer interface systems and the recording of brain activity has garnered significant attention across a diverse spectrum of applications. EEG signals have emerged as a modality for recording neural electrical activity. Among the methodologies designed for feature extraction from EEG data, the method of RCSP has proven to be an approach, particularly in the context of MI tasks. RCSP exhibits efficacy in the discrimination and classification of EEG signals. In optimizing the performance of this method, our research extends to a comparative analysis with conventional CSP techniques, as well as optimized methodologies designed for similar applications. Notably, we employ the meta-heuristic multi-objective Strength Pareto Evolutionary Algorithm II (SPEA-II) as a pivotal component of our research paradigm. This is a state-of-the-art approach in the selection of an subset of channels from a multichannel EEG signal with MI tasks. Our main objective is to formulate an optimum channel selection strategy aimed at identifying the most pertinent subset of channels from the multi-dimensional electroencephalogram (EEG) signals. One of the primary objectives inherent to channel selection in the EEG signal analysis pertains to the reduction of the channel count, an approach that enhances user comfort when utilizing gel-based EEG electrodes. Additionally, within this research, we took benefit of ensemble learning models as a component of our decision-making. This technique serves to mitigate the challenges associated with overfitting, especially when confronted with an extensive array of potentially redundant EEG channels and data noise. Our findings not only affirm the performance of RCSP in MI-based BCI systems, but also underscore the significance of channel selection strategies and ensemble learning techniques in optimizing the performance of EEG signal classification.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# 対物生成・評価のためのLCM--総合的研究

LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study ( http://arxiv.org/abs/2405.00722v1 )

ライセンス: Link先を確認
Van Bach Nguyen, Paul Youssef, Jörg Schlötterer, Christin Seifert, (参考訳) NLPモデルはより複雑になるにつれて、その決定を理解することがより重要になる。 インプットへの最小限の変更がモデルの予測を反転させる対物(CF)は、これらのモデルを説明する方法を提供する。 LLM(Large Language Models)はNLPタスクにおいて顕著な性能を示したが、高品質なCFの生成における有効性はまだ不明である。 この研究は、LLMが2つのNLUタスクに対していかにCFを生成するかを調べることで、このギャップを埋める。 我々は、複数の共通LCMの総合的な比較を行い、それらのCFを評価し、本質的なメトリクスとこれらのCFがデータ拡張に与える影響を評価する。 さらに,人間とLLMの生成するCFの差異を分析し,今後の研究の方向性について考察する。 その結果, LLMは流動性CFを生成するが, 誘導される変化を最小限に抑えるのに苦慮していることがわかった。 感性分析のためのCFの生成は、LLMが元のラベルを反転させるCFの生成の弱点を示すNLIよりも困難ではない。 これは、人間とLLMのCF間の大きなギャップを観察するデータ拡張性能にも反映している。 さらに,LLMのCF評価能力を評価するとともに,ラベルに適合する傾向が強いことを示す。 GPT4は、このバイアスに対してより堅牢であり、スコアは自動メトリクスとよく相関する。 我々の発見は、いくつかの限界と将来的な仕事の方向性を示す。

As NLP models become more complex, understanding their decisions becomes more crucial. Counterfactuals (CFs), where minimal changes to inputs flip a model's prediction, offer a way to explain these models. While Large Language Models (LLMs) have shown remarkable performance in NLP tasks, their efficacy in generating high-quality CFs remains uncertain. This work fills this gap by investigating how well LLMs generate CFs for two NLU tasks. We conduct a comprehensive comparison of several common LLMs, and evaluate their CFs, assessing both intrinsic metrics, and the impact of these CFs on data augmentation. Moreover, we analyze differences between human and LLM-generated CFs, providing insights for future research directions. Our results show that LLMs generate fluent CFs, but struggle to keep the induced changes minimal. Generating CFs for Sentiment Analysis (SA) is less challenging than NLI where LLMs show weaknesses in generating CFs that flip the original label. This also reflects on the data augmentation performance, where we observe a large gap between augmenting with human and LLMs CFs. Furthermore, we evaluate LLMs' ability to assess CFs in a mislabelled data setting, and show that they have a strong bias towards agreeing with the provided labels. GPT4 is more robust against this bias and its scores correlate well with automatic metrics. Our findings reveal several limitations and point to potential future work directions.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# EEG_RL-Net:強化学習最適化グラフニューラルネットワークによるEEG MI分類の強化

EEG_RL-Net: Enhancing EEG MI Classification through Reinforcement Learning-Optimised Graph Neural Networks ( http://arxiv.org/abs/2405.00723v1 )

ライセンス: Link先を確認
Htoo Wai Aung, Jiao Jiao Li, Yang An, Steven W. Su, (参考訳) Brain-Computer Interfaces (BCIs) は、脳波(EEG)運動画像(MI)信号を正確に復号してデバイス制御を行う。 この点において、グラフニューラルネットワーク(GNN)は、隣接行列を介してEEG電極間の空間的関係を活用することにより、畳み込みニューラルネットワーク(CNN)より優れている。 EEG_GLT-Netフレームワークは最先端のEEG_GLT隣接行列法を特徴とし、20人の被験者の平均精度83.95%で証明されたEEG MI信号分類を顕著に強化している。 これはピアソン相関係数(PCC)法で達成した76.10%の精度をはるかに上回る。 本研究では、脳波MI信号の分類に強化学習(Reinforcement Learning, RL)アプローチを適用することにより、分野を前進させる。 脳波MIデータポイントを精度良く分類できるだけでなく、より区別の少ない脳波MIデータポイントを効果的に識別できる。 本稿では、EEG_GLT-NetからトレーニングされたEEG GCNブロックをRL中心のDQNブロックと共に13.39%の隣接行列密度で組み込んだEEG_GLT-Netフレームワークの強化であるEEG_RL-Netを提案する。 EEG_RL-Netモデルは例外的な分類性能を示し、25ミリ秒以内の20人の被験者の平均精度は96.40%である。 このモデルは、EEG MI時間点分類におけるRLの変換効果を示す。

Brain-Computer Interfaces (BCIs) rely on accurately decoding electroencephalography (EEG) motor imagery (MI) signals for effective device control. Graph Neural Networks (GNNs) outperform Convolutional Neural Networks (CNNs) in this regard, by leveraging the spatial relationships between EEG electrodes through adjacency matrices. The EEG_GLT-Net framework, featuring the state-of-the-art EEG_GLT adjacency matrix method, has notably enhanced EEG MI signal classification, evidenced by an average accuracy of 83.95% across 20 subjects on the PhysioNet dataset. This significantly exceeds the 76.10% accuracy rate achieved using the Pearson Correlation Coefficient (PCC) method within the same framework. In this research, we advance the field by applying a Reinforcement Learning (RL) approach to the classification of EEG MI signals. Our innovative method empowers the RL agent, enabling not only the classification of EEG MI data points with higher accuracy, but effective identification of EEG MI data points that are less distinct. We present the EEG_RL-Net, an enhancement of the EEG_GLT-Net framework, which incorporates the trained EEG GCN Block from EEG_GLT-Net at an adjacency matrix density of 13.39% alongside the RL-centric Dueling Deep Q Network (Dueling DQN) block. The EEG_RL-Net model showcases exceptional classification performance, achieving an unprecedented average accuracy of 96.40% across 20 subjects within 25 milliseconds. This model illustrates the transformative effect of the RL in EEG MI time point classification.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# ディープラーニングを用いたECG分類のためのベースラインドリフト耐性信号符号化

Baseline Drift Tolerant Signal Encoding for ECG Classification with Deep Learning ( http://arxiv.org/abs/2405.00724v1 )

ライセンス: Link先を確認
Robert O Shea, Prabodh Katti, Bipin Rajendran, (参考訳) ベースラインドリフト、再スケーリング、ノイズなどの一般的な成果物は、機械学習ベースの自動ECG分析と解釈のパフォーマンスを著しく制限する。 本研究は,信号1次および2次時間微分のゼロ交叉に対応する符号付きスパイクを生成する非パラメトリック法である導出ピーク符号化(DP)を提案する。 特に、DPエンコーディングは、アーチファクトのシフトやスケーリングには不変であり、その実装は、ユーザ定義パラメータの欠如によりさらに単純化されている。 DPエンコーディングは、TB-XLデータセット(n=18,869人)から12個の心電図データを符号化し、心筋梗塞、伝導障害、ST-segment異常を識別するために訓練された1D-ResNet-18モデルに供給された。 符号化前に正弦波ベースラインドリフト,シフト,再スケーリング,ノイズで心電図データを劣化させることにより,人工物へのロバストさを評価した。 これらのアーティファクトを追加することで、先行技術から他の7つの方法の精度が大幅に低下し、DPエンコーディングはドリフト、シフト、再スケーリングの下で0.88のベースラインAUCを維持した。 DPはシフト(AUCは1mVシフト0.91対0.62)と再スケーリングアーティファクト(AUC 0.91対0.79)の存在下での未符号化インプットよりも優れた性能を達成した。 したがって、DP符号化は、一般的なECGアーチファクトに対するロバスト性を、自動ECG分析と解釈のために改善する簡単な方法である。

Common artefacts such as baseline drift, rescaling, and noise critically limit the performance of machine learningbased automated ECG analysis and interpretation. This study proposes Derived Peak (DP) encoding, a non-parametric method that generates signed spikes corresponding to zero crossings of the signals first and second-order time derivatives. Notably, DP encoding is invariant to shift and scaling artefacts, and its implementation is further simplified by the absence of userdefined parameters. DP encoding was used to encode the 12-lead ECG data from the PTB-XL dataset (n=18,869 participants) and was fed to 1D-ResNet-18 models trained to identify myocardial infarction, conductive deficits and ST-segment abnormalities. Robustness to artefacts was assessed by corrupting ECG data with sinusoidal baseline drift, shift, rescaling and noise, before encoding. The addition of these artefacts resulted in a significant drop in accuracy for seven other methods from prior art, while DP encoding maintained a baseline AUC of 0.88 under drift, shift and rescaling. DP achieved superior performance to unencoded inputs in the presence of shift (AUC under 1mV shift: 0.91 vs 0.62), and rescaling artefacts (AUC 0.91 vs 0.79). Thus, DP encoding is a simple method by which robustness to common ECG artefacts may be improved for automated ECG analysis and interpretation.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# マルチホスピタル人口規模心電図データのフェデレーション学習と差分プライバシー技術

Federated Learning and Differential Privacy Techniques on Multi-hospital Population-scale Electrocardiogram Data ( http://arxiv.org/abs/2405.00725v1 )

ライセンス: Link先を確認
Vikhyat Agrawal, Sunil Vasu Kalmady, Venkataseetharam Manoj Malipeddi, Manisimha Varma Manthena, Weijie Sun, Saiful Islam, Abram Hindle, Padma Kaul, Russell Greiner, (参考訳) 本研究では,集団規模の心電図(ECG)データにフェデレートラーニング(FL)と差分プライバシ(DP)技術を適用する方法について検討する。 本研究は,カナダアルバータ州の7つの病院の1,565,849のECGトレースに基づいて,FLとDPを用いた多ラベルECG分類モデルを学習した。 FLアプローチは、様々な心臓状態の診断のための堅牢な心電図分類モデルを構築しながら、病院間で生データを共有せずに協調的なモデルトレーニングを可能にした。 これらの正確な心電図分類モデルは、FLおよびDP技術を用いて患者の機密性を保ちながら診断を容易にすることができる。 以上の結果から, FLアプローチの実施によって達成された性能は, 全病院の集積データに基づいてモデルがトレーニングされるプールアプローチに匹敵することがわかった。 さらに,訓練用ECGが限られている病院は,単座トレーニングと比較してFLモデルを採用することのメリットが示唆された。 さらに,本研究では,モデルトレーニング中にDPを用いて,モデル性能とデータプライバシのトレードオフを示す。 私たちのコードはhttps://github.com/vikhyatt/Hospital-FL-DPで利用可能です。

This research paper explores ways to apply Federated Learning (FL) and Differential Privacy (DP) techniques to population-scale Electrocardiogram (ECG) data. The study learns a multi-label ECG classification model using FL and DP based on 1,565,849 ECG tracings from 7 hospitals in Alberta, Canada. The FL approach allowed collaborative model training without sharing raw data between hospitals while building robust ECG classification models for diagnosing various cardiac conditions. These accurate ECG classification models can facilitate the diagnoses while preserving patient confidentiality using FL and DP techniques. Our results show that the performance achieved using our implementation of the FL approach is comparable to that of the pooled approach, where the model is trained over the aggregating data from all hospitals. Furthermore, our findings suggest that hospitals with limited ECGs for training can benefit from adopting the FL model compared to single-site training. In addition, this study showcases the trade-off between model performance and data privacy by employing DP during model training. Our code is available at https://github.com/vikhyatt/Hospital-FL-DP.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# 脳波信号のテキストへのデコーディングの進歩

Unveiling Thoughts: A Review of Advancements in EEG Brain Signal Decoding into Text ( http://arxiv.org/abs/2405.00726v1 )

ライセンス: Link先を確認
Saydul Akbar Murad, Nick Rahimi, (参考訳) 脳波 (EEG) を用いた脳活動のテキストへの変換は近年, 顕著な進歩を遂げている。 多くの研究者が、脳波信号をテキスト形式にデコードする新しいモデルの開発に取り組んでいる。 この領域は有望な発展を見せているが、さらなる改善を必要とする多くの課題に直面している。 この地域の最近の発展と今後の研究の方向性を概説することが重要である。 本稿では,脳波からテキストへの変換の進展について概説する。 まず、EEG-to-text技術がどのように成長し、どのような問題に直面しているかについて話します。 第2に、この分野で使われている既存の技術について論じる。 これには、脳波データの収集方法、これらの信号を処理するためのステップ、これらの信号をコヒーレントテキストに変換するシステムの開発が含まれる。 今後の研究の方向性として、精度の向上の必要性を強調し、システムの制約を減らし、様々な分野にまたがる新しい応用を探求する。 これらの側面に対処することで、このレビューはよりアクセスしやすく効果的なBrain-Computer Interface(BCI)技術の開発に貢献することを目的としている。

The conversion of brain activity into text using electroencephalography (EEG) has gained significant traction in recent years. Many researchers are working to develop new models to decode EEG signals into text form. Although this area has shown promising developments, it still faces numerous challenges that necessitate further improvement. It's important to outline this area's recent developments and future research directions. In this review article, we thoroughly summarize the progress in EEG-to-text conversion. Firstly, we talk about how EEG-to-text technology has grown and what problems we still face. Secondly, we discuss existing techniques used in this field. This includes methods for collecting EEG data, the steps to process these signals, and the development of systems capable of translating these signals into coherent text. We conclude with potential future research directions, emphasizing the need for enhanced accuracy, reduced system constraints, and the exploration of novel applications across varied sectors. By addressing these aspects, this review aims to contribute to developing more accessible and effective Brain-Computer Interface (BCI) technology for a broader user base.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# 一般化エンベロープスペクトルに基づく信号対雑音目標:時間変化速度条件下でのギヤ故障検出のための定式化、最適化および応用

Generalised envelope spectrum-based signal-to-noise objectives: Formulation, optimisation and application for gear fault detection under time-varying speed conditions ( http://arxiv.org/abs/2405.00727v1 )

ライセンス: Link先を確認
Stephan Schmidt, Daniel N. Wilke, Konstantinos C. Gryllias, (参考訳) 振動に基づく条件モニタリングにおいて、最適フィルタ設計は、振動信号内の弱い故障信号を強化することにより、故障検出を改善する。 このプロセスは、定義された目的物から導出された目的関数を最適化する。 目的はしばしば、フィルタのパラメータを決定するためのプロキシヘルス指標に基づいています。 しかし、これらの指標は、無関係な外部信号成分と変動する運用条件によって妥協され、フィルタの有効性に影響を及ぼす。 断層検出は主に、正方形エンベロープスペクトルにおける断層成分の卓越度を用いており、正方形エンベロープスペクトルに基づく信号-雑音比によって定量化されている。 新しい最適フィルタ目的関数は,可変速度条件下で動作する機械に対して提案した一般化エンベロープスペクトルに基づく信号対雑音目的関数から導出される。 プロキシの健康指標を最適化する代わりに、定式化の最適フィルタ係数は、標準勾配に基づくオプティマイザを用いて、ターゲット周波数帯の2乗エンベロープスペクトルに基づく信号-雑音比を直接最大化する。 提案した目的から導出された4つの目的関数は、3つの実験データセットで5つの重要な手法を効果的に上回った。

In vibration-based condition monitoring, optimal filter design improves fault detection by enhancing weak fault signatures within vibration signals. This process involves optimising a derived objective function from a defined objective. The objectives are often based on proxy health indicators to determine the filter's parameters. However, these indicators can be compromised by irrelevant extraneous signal components and fluctuating operational conditions, affecting the filter's efficacy. Fault detection primarily uses the fault component's prominence in the squared envelope spectrum, quantified by a squared envelope spectrum-based signal-to-noise ratio. New optimal filter objective functions are derived from the proposed generalised envelope spectrum-based signal-to-noise objective for machines operating under variable speed conditions. Instead of optimising proxy health indicators, the optimal filter coefficients of the formulation directly maximise the squared envelope spectrum-based signal-to-noise ratio over targeted frequency bands using standard gradient-based optimisers. Four derived objective functions from the proposed objective effectively outperform five prominent methods in tests on three experimental datasets.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-26
# 条件付きコーシーシュワルツ分法と時系列データとシーケンス決定への応用

The Conditional Cauchy-Schwarz Divergence with Applications to Time-Series Data and Sequential Decision Making ( http://arxiv.org/abs/2301.08970v2 )

ライセンス: Link先を確認
Shujian Yu, Hongming Li, Sigurd Løkse, Robert Jenssen, José C. Príncipe, (参考訳) コーシー=シュワルツ(CS)の発散は2000年にPr\'{i}ncipe et alによって開発された。 本稿では、2つの条件分布間の近接性を定量化するために古典的CS偏差を拡張し、与えられたサンプルからカーネル密度推定器によって開発条件CS偏差を簡易に推定できることを示す。 我々は、条件付きCS分散の利点(例えば、厳密な忠実性保証、より低い計算複雑性、より高い統計パワー、より幅広い応用における柔軟性)を、条件付きKL偏差や条件付き最大平均偏差といった従来の提案よりも説明する。 また、時系列データとシーケンシャル推論に関連する2つの機械学習タスク、すなわち時系列クラスタリングとシーケンシャル意思決定のための不確実性誘導探索において、条件付きCSの分岐が魅力的な性能を示す。

The Cauchy-Schwarz (CS) divergence was developed by Pr\'{i}ncipe et al. in 2000. In this paper, we extend the classic CS divergence to quantify the closeness between two conditional distributions and show that the developed conditional CS divergence can be simply estimated by a kernel density estimator from given samples. We illustrate the advantages (e.g., rigorous faithfulness guarantee, lower computational complexity, higher statistical power, and much more flexibility in a wide range of applications) of our conditional CS divergence over previous proposals, such as the conditional KL divergence and the conditional maximum mean discrepancy. We also demonstrate the compelling performance of conditional CS divergence in two machine learning tasks related to time series data and sequential inference, namely time series clustering and uncertainty-guided exploration for sequential decision making.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-26
# 西アフリカにおける科学教育のためのAI教材「Kwame for Science」の実世界展開と評価

Real-World Deployment and Evaluation of Kwame for Science, An AI Teaching Assistant for Science Education in West Africa ( http://arxiv.org/abs/2302.10786v3 )

ライセンス: Link先を確認
George Boateng, Samuel John, Samuel Boateng, Philemon Badu, Patrick Agyeman-Budu, Victor Kumbol, (参考訳) アフリカは生徒と教師の比率が高く、教育的質問応答のような学習支援のための教師へのアクセスを制限している。 この作業では、コーディング教育のためのバイリンガルAI教育アシスタントであるKwameを拡張し、科学教育に適応させ、Webアプリとしてデプロイしました。 クウェーム・フォー・サイエンス(Kwame for Science)は、西アフリカ上級中等試験(WASSCE)の総合科学科(Integrated Science subject)に基づく学生からの質問に対する回答として、精巧な知識ソースと関連する過去の国家試験に関する質問からのパスを提供する。 さらに,これまでに開発したトピック検出モデル(平均91%の非重み付きリコール)によって自動的に分類された,過去の全国試験の質問や回答や回答のフィルタリング,質問タイプ,トピックを見ることができる。 私たちは8ヶ月にわたってKwame for Scienceを現実世界に展開し、32カ国(アフリカ15か国)で750人のユーザを獲得しました。 評価の結果,87.2%の正解率(n=109質問)が得られた。 モデルが疑問に正しく答えていない理由を分類し、今後の改善に対する洞察を提供した。 我々はまた、他の研究者が同様のツールをデプロイできるように、そのようなツールの開発、デプロイ、人間とコンピュータのインタラクションコンポーネントに課題と教訓を共有します。 Kwame for Scienceは、アフリカ大陸の何百万人もの人々に、スケーラブルで費用対効果が高くて高品質な遠隔教育を届ける可能性を秘めている。

Africa has a high student-to-teacher ratio which limits students' access to teachers for learning support such as educational question answering. In this work, we extended Kwame, a bilingual AI teaching assistant for coding education, adapted it for science education, and deployed it as a web app. Kwame for Science provides passages from well-curated knowledge sources and related past national exam questions as answers to questions from students based on the Integrated Science subject of the West African Senior Secondary Certificate Examination (WASSCE). Furthermore, students can view past national exam questions along with their answers and filter by year, question type, and topics that were automatically categorized by a topic detection model which we developed (91% unweighted average recall). We deployed Kwame for Science in the real world over 8 months and had 750 users across 32 countries (15 in Africa) and 1.5K questions asked. Our evaluation showed an 87.2% top 3 accuracy (n=109 questions) implying that Kwame for Science has a high chance of giving at least one useful answer among the 3 displayed. We categorized the reasons the model incorrectly answered questions to provide insights for future improvements. We also share challenges and lessons with the development, deployment, and human-computer interaction component of such a tool to enable other researchers to deploy similar tools. With a first-of-its-kind tool within the African context, Kwame for Science has the potential to enable the delivery of scalable, cost-effective, and quality remote education to millions of people across Africa.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-26
# 顔が顔の知覚に変化したか? : 写真編集と拡張現実が顔の知覚に及ぼす影響について

Has the Virtualization of the Face Changed Facial Perception? A Study of the Impact of Photo Editing and Augmented Reality on Facial Perception ( http://arxiv.org/abs/2303.00612v3 )

ライセンス: Link先を確認
Louisa Conwill, Sam English Anthony, Walter J. Scheirer, (参考訳) 拡張現実(Augmented Reality)や他の写真編集フィルターは、オンラインで顔を修正するのによく使われる方法である。 コミュニケーションにおける顔知覚の重要な役割を考えると、この変化した顔の数はどのように認識されるのか? 本稿では,異なるスタイルの顔フィルターに対する親しみ度,異なるフィルタで編集された顔の奇妙な感じ,画像がフィルタリングされているかどうかを識別する6つの調査結果について述べる。 その結果、従来の顔フィルターで修正された顔は、修正されていない顔と同様の知覚を受けており、拡張現実フィルターでフィルタされた顔は修正されていない顔とは異なる知覚を受けることが示された。 本稿では、従来の写真編集技術に対する社会的な調整や、異なる種類のフィルタに固有の違いなど、これらの結果に対する説明の可能性について論じる。 結果に基づいてオンライン空間を構築する方法についての議論をまとめて締めくくった。

Augmented reality and other photo editing filters are popular methods used to modify faces online. Considering the important role of facial perception in communication, how do we perceive this increasing number of modified faces? In this paper we present the results of six surveys that measure familiarity with different styles of facial filters, perceived strangeness of faces edited with different filters, and ability to discern whether images are filtered. Our results demonstrate that faces modified with more traditional face filters are perceived similarly to unmodified faces, and faces filtered with augmented reality filters are perceived differently from unmodified faces. We discuss possible explanations for these results, including a societal adjustment to traditional photo editing techniques or the inherent differences in the different types of filters. We conclude with a discussion of how to build online spaces more responsibly based on our results.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-26
# 時間旅行パラドックスと絡み合ったタイムライン

Time Travel Paradoxes and Entangled Timelines ( http://arxiv.org/abs/2303.07635v3 )

ライセンス: Link先を確認
Barak Shoshany, Zipora Stober, (参考訳) 時間旅行が既知の物理法則と一致するためには、結果として生じるパラドックスを解決しなければならない。 平行な時間軸(つまり複数の履歴)が解決をもたらす可能性があることが示唆されている。 しかし、これまでのところ、並列タイムラインを作成できる具体的なメカニズムは、十分に定式化されていない。 本稿では,未修正量子力学の枠組み内でのそのような機構をエベレットあるいは「マニーワールド」解釈として提案する。 私たちのモデルのタイムラインはエヴァレット解釈の「世界」のように創発的であり、タイムマシンと環境の間の量子的絡み合いによって生成される。 したがって、これらを「絡み合ったタイムライン」あるいは「E-CTC」と呼ぶ。 絡み合いが徐々に追加のシステムに広がっていくにつれて、時間軸も広がり、文学でしばしば提示される「分岐する時間軸」に対する局所的かつ明確に定義された代替手段となる。 E-CTCモデルは、Deutschの慣れ親しんだD-CTCモデルと似ているが、主に絡み合いを明確にすることで、結果として生じる並列タイムラインのより実用的な定義を作成することができる。

For time travel to be consistent with the known laws of physics, the resulting paradoxes must be resolved. It has been suggested that parallel timelines (a.k.a. multiple histories) may provide a resolution. However, so far, a concrete mechanism by which parallel timelines can be created has never been satisfactorily formulated. In this paper we propose such a mechanism within the framework of unmodified quantum mechanics, also known as the Everett or "many-worlds" interpretation. The timelines in our model are emergent, like the "worlds" of the Everett interpretation; they are created by quantum entanglement between the time machine and the environment. Therefore, we call them "entangled timelines" or E-CTCs. As the entanglement gradually spreads out to additional systems, the timelines spread out as well, providing a local and well-defined alternative to the naive "branching timelines" picture often presented in the literature. The E-CTC model is similar to Deutsch's familiar D-CTC model, but differs from it mainly by making the entanglement explicit, which allows us to create a clearer practical definition of the resulting parallel timelines.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-26
# CSSL-MHTR: スケーラブルなマルチスクリプト手書き文字認識のための継続的自己教師付き学習

CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition ( http://arxiv.org/abs/2303.09347v2 )

ライセンス: Link先を確認
Marwa Dhiaf, Mohamed Ali Souibgui, Kai Wang, Yuyang Liu, Yousri Kessentini, Alicia Fornés, Ahmed Cheikh Rouhou, (参考訳) 自己教師型学習がドキュメント分析の強力な代替手段として最近登場した。 これらの手法は、高品質な画像表現を学習し、大量のラベル付きデータを必要とする教師付き手法の限界を克服することができる。 しかし、これらの手法は段階的な方法で新しい知識を捉えることができず、そこではデータが連続的にモデルに提示され、現実的なシナリオに近い。 本稿では,手書き文字認識における破滅的忘れ問題を軽減するために,連続的な自己教師型学習の可能性について検討する。 提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。 提案するフレームワークは計算量とメモリの複雑さの両方において効率的である。 本手法の有効性を示すために,学習したモデルをラテン文字や非ラテン文字を含む多様なテキスト認識下流タスクに転送することで,本手法の評価を行った。 私たちが知る限り、これは手書き文字認識における連続的な自己教師付き学習の最初の応用である。 私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。 コードとトレーニングされたモデルは一般公開される予定だ。

Self-supervised learning has recently emerged as a strong alternative in document analysis. These approaches are now capable of learning high-quality image representations and overcoming the limitations of supervised methods, which require a large amount of labeled data. However, these methods are unable to capture new knowledge in an incremental fashion, where data is presented to the model sequentially, which is closer to the realistic scenario. In this paper, we explore the potential of continual self-supervised learning to alleviate the catastrophic forgetting problem in handwritten text recognition, as an example of sequence recognition. Our method consists in adding intermediate layers called adapters for each task, and efficiently distilling knowledge from the previous model while learning the current task. Our proposed framework is efficient in both computation and memory complexity. To demonstrate its effectiveness, we evaluate our method by transferring the learned model to diverse text recognition downstream tasks, including Latin and non-Latin scripts. As far as we know, this is the first application of continual self-supervised learning for handwritten text recognition. We attain state-of-the-art performance on English, Italian and Russian scripts, whilst adding only a few parameters per task. The code and trained models will be publicly available.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-26
# MediTab: データ統合、強化、リファインメントによる医療用タブラルデータ予測器のスケーリング

MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement ( http://arxiv.org/abs/2305.12081v3 )

ライセンス: Link先を確認
Zifeng Wang, Chufan Gao, Cao Xiao, Jimeng Sun, (参考訳) 患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。 しかし、既存の手法は通常、データエンジニアリングの重要性を見越しながら、アルゴリズム設計を中心に展開する。 医用表状データセットは、異なるソース間で大きな異質性を示すことが多く、ソースごとにサンプルサイズが制限されている。 このように、従来の予測子は、推論中にさまざまな表のデータセットを一般化するのに苦労する、手動でキュレートされた小さなデータセットでトレーニングされることが多い。 本稿では,医療用表型データ予測器(MediTab)を様々な特徴を持つ様々な表型入力に拡張することを提案する。 この方法は、大きな言語モデル(LLM)を活用するデータエンジンを使用して、表のサンプルを統合して、異なるスキーマを持つテーブル間の障壁を克服する。 パイプラインを使用して、ドメイン外のデータをターゲットタスクにアライメントする。 拡張されたトレーニングデータにより、トレーニング済みのMediTabは、微調整なしで、ドメイン内の任意の表型入力を推測することが可能となり、それぞれ7つの患者結果予測データセットの平均ランク1.57と1.00、トライアル結果予測データセット3という、教師付きベースラインよりも大幅に改善される。 教師付きXGBoostモデルでは2つの予測タスクで平均8.9%と17.2%を上回っている。

Tabular data prediction has been employed in medical applications such as patient health risk prediction. However, existing methods usually revolve around the algorithm design while overlooking the significance of data engineering. Medical tabular datasets frequently exhibit significant heterogeneity across different sources, with limited sample sizes per source. As such, previous predictors are often trained on manually curated small datasets that struggle to generalize across different tabular datasets during inference. This paper proposes to scale medical tabular data predictors (MediTab) to various tabular inputs with varying features. The method uses a data engine that leverages large language models (LLMs) to consolidate tabular samples to overcome the barrier across tables with distinct schema. It also aligns out-domain data with the target task using a "learn, annotate, and refinement" pipeline. The expanded training data then enables the pre-trained MediTab to infer for arbitrary tabular input in the domain without fine-tuning, resulting in significant improvements over supervised baselines: it reaches an average ranking of 1.57 and 1.00 on 7 patient outcome prediction datasets and 3 trial outcome prediction datasets, respectively. In addition, MediTab exhibits impressive zero-shot performances: it outperforms supervised XGBoost models by 8.9% and 17.2% on average in two prediction tasks, respectively.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-26
# 確率勾配ランゲヴィン拡散におけるサブサンプリング誤差

Subsampling Error in Stochastic Gradient Langevin Diffusions ( http://arxiv.org/abs/2305.13882v2 )

ライセンス: Link先を確認
Kexin Jin, Chenguang Liu, Jonas Latz, (参考訳) Stochastic Gradient Langevin Dynamics (SGLD) は、統計的学習過程におけるベイズ的後部分布を大規模データで近似するために広く用いられている。 通常のマルコフ連鎖モンテカルロ(MCMC)アルゴリズムとは対照的に、SGLDは後続分布に関して定常的ではなく、2つのエラー源が現れる: 最初のエラーは、ランゲヴィン拡散過程のオイラー・マルヤマ離散化によって導入され、第二のエラーは、大規模なデータ設定での使用を可能にするデータサブサンプリングに由来する。 本研究では,SGLDの最適バージョンを,拡散法に基づくMCMC法における最良ケース誤差とみなす純粋サブサンプリング誤差を解析するために検討する。 実際、SGLDiff(Stochastic Gradient Langevin Diffusion)は、データサブセットに対応するランゲヴィン拡散を追従し、指数的待ち時間後にデータサブセットを切り替える連続的マルコフ過程である。 そこで、SLGDiffの指数的エルゴディディティを示し、SGLDiffの後方と制限分布の間のワッサーシュタイン距離が平均待ち時間の分断パワーによって上界していることを示す。 我々は、SGLDの他の分析とコンテキストに結果をもたらす。

The Stochastic Gradient Langevin Dynamics (SGLD) are popularly used to approximate Bayesian posterior distributions in statistical learning procedures with large-scale data. As opposed to many usual Markov chain Monte Carlo (MCMC) algorithms, SGLD is not stationary with respect to the posterior distribution; two sources of error appear: The first error is introduced by an Euler--Maruyama discretisation of a Langevin diffusion process, the second error comes from the data subsampling that enables its use in large-scale data settings. In this work, we consider an idealised version of SGLD to analyse the method's pure subsampling error that we then see as a best-case error for diffusion-based subsampling MCMC methods. Indeed, we introduce and study the Stochastic Gradient Langevin Diffusion (SGLDiff), a continuous-time Markov process that follows the Langevin diffusion corresponding to a data subset and switches this data subset after exponential waiting times. There, we show the exponential ergodicity of SLGDiff and that the Wasserstein distance between the posterior and the limiting distribution of SGLDiff is bounded above by a fractional power of the mean waiting time. We bring our results into context with other analyses of SGLD.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-26
# 2次元骨格列の調整と多モード融合による学習

Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion ( http://arxiv.org/abs/2305.19480v5 )

ライセンス: Link先を確認
Quoc-Huy Tran, Muhammad Ahmed, Murad Popattia, M. Hassan Ahmed, Andrey Konin, M. Zeeshan Zia, (参考訳) 本稿では,人的活動理解の微粒化に有用な自己監督型時間的ビデオアライメントフレームワークを提案する。 CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。 時間領域のみに自己アテンションを行うCASAとは異なり、時間領域と時間領域の両方で自己アテンションを行うビデオトランスフォーマーに2次元スケルトンヒートマップを供給し、効果的な時空間的特徴と文脈的特徴を抽出する。 さらに,本研究では,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。 3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。 さらに、Penn Action、IKEA ASM、H2Oの3つの公開データセットに対する広範囲な評価により、我々のアプローチは、異なるきめ細かな人間の活動理解タスクにおいて、従来の手法よりも優れていることを示した。 最後に、RGBビデオと2Dスケルトンヒートマップを融合すると、すべてのメトリクスとデータセットが最先端になる。 我々の知る限り、我々の研究は初めて2Dスケルトン熱マップ入力を利用し、時間的ビデオアライメントのための多モード融合を初めて探求した。

This paper presents a self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Unlike CASA which performs self-attention in the temporal domain only, we feed 2D skeleton heatmaps to a video transformer which performs self-attention both in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Furthermore, extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks. Finally, fusing 2D skeleton heatmaps with RGB videos yields the state-of-the-art on all metrics and datasets. To our best knowledge, our work is the first to utilize 2D skeleton heatmap inputs and the first to explore multi-modality fusion for temporal video alignment.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-26
# 基本セグメンテーションモデルにおけるロバストネス解析

Robustness Analysis on Foundational Segmentation Models ( http://arxiv.org/abs/2306.09278v2 )

ライセンス: Link先を確認
Madeline Chantry Schiappa, Shehreen Azad, Sachidanand VS, Yunhao Ge, Ondrej Miksik, Yogesh S. Rawat, Vibhav Vineet, (参考訳) 計算資源の増加とデータのアクセシビリティのため、自己教師型あるいは半教師型学習を用いた多モードデータに対処するために訓練された大規模なディープラーニングモデルの増加がみられた。 これらの `foundation'' モデルは、しばしば、分類、オブジェクト検出、セグメンテーションのような様々な下流タスクに適応する。 本研究では,Visual Foundation Models(VFM)のセグメンテーションタスクに対するロバストネス解析を行い,実世界の分散シフトにインスパイアされた摂動に対するロバストネスに着目した。 我々は、MS COCO-PとADE20K-Pの2つの異なる摂動データセットを用いて、7つの最先端セグメンテーションアーキテクチャをベンチマークした。 以上の結果から,(1)VFMは圧縮誘起汚損の脆弱性を示し,(2)強靭性では不定形モデルがすべて上回らないにもかかわらず,マルチモーダルモデルはゼロショットシナリオにおいて競争力を示し,(3)VFMは特定の対象カテゴリに対して強靭性を示す。 これらの結果から,我々のロバスト性評価フレームワークが基礎モデルの新たな要件を設定し,適応性と性能を高めるためのさらなる進歩を促すことが示唆された。 コードとデータセットは: \url{https://tinyurl.com/fm-robust}.comで公開されている。

Due to the increase in computational resources and accessibility of data, an increase in large, deep learning models trained on copious amounts of multi-modal data using self-supervised or semi-supervised learning have emerged. These ``foundation'' models are often adapted to a variety of downstream tasks like classification, object detection, and segmentation with little-to-no training on the target dataset. In this work, we perform a robustness analysis of Visual Foundation Models (VFMs) for segmentation tasks and focus on robustness against real-world distribution shift inspired perturbations. We benchmark seven state-of-the-art segmentation architectures using 2 different perturbed datasets, MS COCO-P and ADE20K-P, with 17 different perturbations with 5 severity levels each. Our findings reveal several key insights: (1) VFMs exhibit vulnerabilities to compression-induced corruptions, (2) despite not outpacing all of unimodal models in robustness, multimodal models show competitive resilience in zero-shot scenarios, and (3) VFMs demonstrate enhanced robustness for certain object categories. These observations suggest that our robustness evaluation framework sets new requirements for foundational models, encouraging further advancements to bolster their adaptability and performance. The code and dataset is available at: \url{https://tinyurl.com/fm-robust}.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-26
# エッジの平滑化: Hadamard overparametrization を用いたスパース正規化の平滑化最適化

Smoothing the Edges: Smooth Optimization for Sparse Regularization using Hadamard Overparametrization ( http://arxiv.org/abs/2307.03571v3 )

ライセンス: Link先を確認
Chris Kolb, Christian L. Müller, Bernd Bischl, David Rügamer, (参考訳) 本稿では、(構造化された)空間性に対して、明示的に正規化された目的を円滑に最適化するためのフレームワークを提案する。 これらの非滑らかでおそらくは非凸問題は通常、特定のモデルや正規化器に合わせた解法に依存する。 対照的に、本手法は、完全に微分可能かつ近似不要な最適化を可能にし、ディープラーニングにおけるユビキタス勾配降下パラダイムと互換性がある。 提案手法は,選択パラメータの過度パラメータ化とペナルティの変化を含む。 過度パラメータ化問題では、滑らかなサロゲート正則化は基底パラメトリゼーションにおける非滑らかなスパース正則化を誘導する。 代理目的が同じ大域ミニマを持つだけでなく、一致した局所ミニマを持つという意味で等価であることを証明する。 さらに、我々の理論は、任意の、潜在的に正規化されていない目的に対する局所最小値のマッチングに関する独立した関心の結果を確立する。 我々は、我々の一般理論によってカバーされる様々な分野の空間的パラメトリゼーションを包括的にレビューし、その範囲を広げ、いくつかの面で改善を提案する。 数値実験により、高次元回帰からスパースニューラルネットワークトレーニングまで、いくつかのスパース学習問題に対する我々のアプローチの正しさと有効性をさらに実証した。

We present a framework for smooth optimization of explicitly regularized objectives for (structured) sparsity. These non-smooth and possibly non-convex problems typically rely on solvers tailored to specific models and regularizers. In contrast, our method enables fully differentiable and approximation-free optimization and is thus compatible with the ubiquitous gradient descent paradigm in deep learning. The proposed optimization transfer comprises an overparameterization of selected parameters and a change of penalties. In the overparametrized problem, smooth surrogate regularization induces non-smooth, sparse regularization in the base parametrization. We prove that the surrogate objective is equivalent in the sense that it not only has identical global minima but also matching local minima, thereby avoiding the introduction of spurious solutions. Additionally, our theory establishes results of independent interest regarding matching local minima for arbitrary, potentially unregularized, objectives. We comprehensively review sparsity-inducing parametrizations across different fields that are covered by our general theory, extend their scope, and propose improvements in several aspects. Numerical experiments further demonstrate the correctness and effectiveness of our approach on several sparse learning problems ranging from high-dimensional regression to sparse neural network training.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-26
# スピンの空間波動関数

Spatial Wavefunctions of Spin ( http://arxiv.org/abs/2307.13591v4 )

ライセンス: Link先を確認
T. Peter Rakitzis, (参考訳) 我々は、オイラー角$\phi, \theta, \chi$に依存する空間波動関数に基づく量子力学的角運動量の別の定式化を提案する。 波動関数はウィグナー D-函数、$D_{n m}^j (\phi, \theta, \chi)$ で、体固定射影量子数 $n$ は異常値 $n=|j|=\sqrt{j(j+1)}$ または $n=0$ を持つ。 D_{\sqrt{j(j+1)},m}^j (\phi, \theta, \chi)$ 波動関数は正規化できないが、期待値の計算を可能にする再正規化手順を示す: 例えば、状態 $D_{\sqrt{S(S+1)} M}^S (\phi, \theta, \chi)$ スピンを持つ素粒子の値 $S$ は、g=2$ のジャイロ磁性比を$S>0$ に対して与える。 したがって、$D_{n m}^j (\phi, \theta, \chi)$ が角運動量に対する空間波動関数として有用であるとする。 基本粒子に対する量子数$n$のいくつかの意味は、ニュートリノのディラックフェルミオンの性質やダークマター候補の提案などである。

We present an alternative formulation of quantum mechanical angular momentum, based on spatial wavefunctions that depend on the Euler angles $\phi, \theta, \chi$. The wavefunctions are Wigner D-functions, $D_{n m}^j (\phi, \theta, \chi)$, for which the body-fixed projection quantum number $n$ has the unusual value $n=|j|=\sqrt{j(j+1)}$, or $n=0$. The $D_{\sqrt{j(j+1)},m}^j (\phi, \theta, \chi)$ wavefunctions are unnormalizable, however we demonstrate a renormalization procedure that allows the calculation of expectation values: for example, the states $D_{\sqrt{S(S+1)} M}^S (\phi, \theta, \chi)$ of elementary particles with spin $S$ give a gyromagnetic ratio of $g=2$ for $S>0$, and we identify these as the spatial angular-momentum wavefunctions of known fundamental charged particles with spin. Therefore, we make the case that the $D_{n m}^j (\phi, \theta, \chi)$ are useful as spatial wavefunctions for angular momentum. Some implications of the quantum number $n$ for fundamental particles are discussed, such as the proposed Dirac-fermion nature of the neutrino, and some proposed dark-matter candidates.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-26
# ニュースソースをプロファイリングするための対話型フレームワーク

An Interactive Framework for Profiling News Media Sources ( http://arxiv.org/abs/2309.07384v2 )

ライセンス: Link先を確認
Nikhil Mehta, Dan Goldwasser, (参考訳) 近年のソーシャルメディアの台頭は、大量の偽ニュースや偏見のあるニュースの拡散につながっている。 このニュースを広める情報源の検出とプロファイリングは、健全な社会を維持する上で重要であるが、自動化システムでは困難である。 本稿では,ニュースメディアのプロファイリングのためのインタラクティブなフレームワークを提案する。 それは、グラフベースのニュースメディアプロファイリングモデル、事前訓練された大規模言語モデル、そしてソーシャルメディア上の社会的コンテキストを特徴づける人間の洞察の強みを組み合わせたものだ。 実験結果から,テストデータが見えない新興ニュースイベントの最も困難な状況においても,人間のインタラクションを5つに抑えることで,偽ニュースや偏見のあるニュースメディアを迅速に検出できることがわかった。

The recent rise of social media has led to the spread of large amounts of fake and biased news, content published with the intent to sway beliefs. While detecting and profiling the sources that spread this news is important to maintain a healthy society, it is challenging for automated systems. In this paper, we propose an interactive framework for news media profiling. It combines the strengths of graph based news media profiling models, Pre-trained Large Language Models, and human insight to characterize the social context on social media. Experimental results show that with as little as 5 human interactions, our framework can rapidly detect fake and biased news media, even in the most challenging settings of emerging news events, where test data is unseen.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-26
# V2CE: ビデオから連続イベントシミュレータ

V2CE: Video to Continuous Events Simulator ( http://arxiv.org/abs/2309.08891v2 )

ライセンス: Link先を確認
Zhongyang Zhang, Shuyang Cui, Kaidong Chai, Haowen Yu, Subhasis Dasgupta, Upal Mahbub, Tauhidur Rahman, (参考訳) Dynamic Vision Sensor (DVS)ベースのソリューションは、最近、様々なコンピュータビジョンタスクにおいて大きな関心を集め、ダイナミックレンジ、時間分解能、推論速度の点で顕著な利点を提供している。 しかし、RGBカメラのようなActive Pixel Sensor(APS)デバイスと比較して、比較的初期段階の視覚センサーとして、DVSは十分なラベル付きデータセットの不足に悩まされている。 APSデータをイベントに変換する以前の取り組みは、実際のイベントからかなりのドメインシフト、定量化バリデーションの欠如、時間軸内の階層化問題といった問題に悩まされることが多かった。 本稿では,DVSの特性を考慮した複数視点からのストリーム変換手法を提案する。 慎重に設計された一連の損失は、生成されたイベントボクセルの品質を大幅に向上させるのに役立つ。 また,イベントボクセルからイベントのタイムスタンプを連続的に復元し,時間的階層化問題を解消する,局所的動的対応型タイムスタンプ推論手法を提案する。 パイプラインのすべての段階における定量化メトリクスによる厳密な検証の結果は、現在のSOTA(State-of-the-art)として必然的に我々の方法を確立します。

Dynamic Vision Sensor (DVS)-based solutions have recently garnered significant interest across various computer vision tasks, offering notable benefits in terms of dynamic range, temporal resolution, and inference speed. However, as a relatively nascent vision sensor compared to Active Pixel Sensor (APS) devices such as RGB cameras, DVS suffers from a dearth of ample labeled datasets. Prior efforts to convert APS data into events often grapple with issues such as a considerable domain shift from real events, the absence of quantified validation, and layering problems within the time axis. In this paper, we present a novel method for video-to-events stream conversion from multiple perspectives, considering the specific characteristics of DVS. A series of carefully designed losses helps enhance the quality of generated event voxels significantly. We also propose a novel local dynamic-aware timestamp inference strategy to accurately recover event timestamps from event voxels in a continuous fashion and eliminate the temporal layering problem. Results from rigorous validation through quantified metrics at all stages of the pipeline establish our method unquestionably as the current state-of-the-art (SOTA).
翻訳日:2024-05-01 00:54:37 公開日:2024-04-26
# 位相確率ブリッジを用いた生成モデリング

Generative Modeling with Phase Stochastic Bridges ( http://arxiv.org/abs/2310.07805v3 )

ライセンス: Link先を確認
Tianrong Chen, Jiatao Gu, Laurent Dinh, Evangelos A. Theodorou, Joshua Susskind, Shuangfei Zhai, (参考訳) 拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。 DMは入力空間(e, position space)に確率微分方程式(SDE)を構築し、ニューラルネットワークを用いてそれを反転させる。 本稿では, 位相空間を位置と速度を包含する拡張空間として定義する, textbf{phase space dynamics} に基づく新しい生成モデリングフレームワークを提案する。 } 確率的最適制御からの洞察を活用して,効率的なサンプリングを可能にする位相空間における経路測度を構築する。 DMとは対照的に,我々のフレームワークは動的伝播の初期段階において,現実的なデータポイントを生成する能力を示している。 } この早期予測は、軌道に沿った追加の速度情報を活用することにより、効率的なデータ生成のステージを設定する。 標準画像生成ベンチマークでは, 少数の機能評価(NFE)において, ベースラインよりも良好な性能が得られた。 さらに,本手法は,効率的なサンプリング技術を備えた拡散モデルの性能に匹敵するものであり,新しいツール生成モデルとしての可能性を示している。

Diffusion models (DMs) represent state-of-the-art generative models for continuous inputs. DMs work by constructing a Stochastic Differential Equation (SDE) in the input space (ie, position space), and using a neural network to reverse it. In this work, we introduce a novel generative modeling framework grounded in \textbf{phase space dynamics}, where a phase space is defined as {an augmented space encompassing both position and velocity.} Leveraging insights from Stochastic Optimal Control, we construct a path measure in the phase space that enables efficient sampling. {In contrast to DMs, our framework demonstrates the capability to generate realistic data points at an early stage of dynamics propagation.} This early prediction sets the stage for efficient data generation by leveraging additional velocity information along the trajectory. On standard image generation benchmarks, our model yields favorable performance over baselines in the regime of small Number of Function Evaluations (NFEs). Furthermore, our approach rivals the performance of diffusion models equipped with efficient sampling techniques, underscoring its potential as a new tool generative modeling.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-26
# テトラエドロン : 材料情報抽出の課題

Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction ( http://arxiv.org/abs/2310.08383v3 )

ライセンス: Link先を確認
Kausik Hira, Mohd Zaki, Dhruvil Sheth, Mausam, N M Anoop Krishnan, (参考訳) 新しい素材の発見は、何世紀にもわたって人類の進歩を推進してきた歴史が記録されている。 材料の挙動は、その組成、構造、特性の関数であり、さらにその処理や試験条件に依存する。 近年のディープラーニングと自然言語処理の進歩は、ピアレビューされた出版物、書籍、特許などの出版物から大規模に情報抽出を可能にしている。 しかし、この情報はテーブル、テキスト、画像などの複数のフォーマットに分散しており、レポートスタイルの統一性はほとんど、あるいは全くないため、いくつかの機械学習課題が発生する。 本稿では,材料科学文献から大規模材料科学知識基盤の創出までの自動情報抽出(IE)におけるこれらの課題について論じ,定量化し,文書化する。 具体的には、テキストとテーブルからIEに焦点を当て、いくつかの課題を例で概説する。 本研究は,IEが材料知識基盤を開発する上で,その課題に一貫した形で対処する上で,研究者に刺激を与えるものであることを願っている。

The discovery of new materials has a documented history of propelling human progress for centuries and more. The behaviour of a material is a function of its composition, structure, and properties, which further depend on its processing and testing conditions. Recent developments in deep learning and natural language processing have enabled information extraction at scale from published literature such as peer-reviewed publications, books, and patents. However, this information is spread in multiple formats, such as tables, text, and images, and with little or no uniformity in reporting style giving rise to several machine learning challenges. Here, we discuss, quantify, and document these challenges in automated information extraction (IE) from materials science literature towards the creation of a large materials science knowledge base. Specifically, we focus on IE from text and tables and outline several challenges with examples. We hope the present work inspires researchers to address the challenges in a coherent fashion, providing a fillip to IE towards developing a materials knowledge base.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-26
# 最適化されたスペクトルクラスタリングと遺伝的アルゴリズムを用いた在宅介護者配置決定支援フレームワーク

Decision Support Framework for Home Health Caregiver Allocation Using Optimally Tuned Spectral Clustering and Genetic Algorithm ( http://arxiv.org/abs/2311.00696v2 )

ライセンス: Link先を確認
Seyed Mohammad Ebrahim Sharifnia, Faezeh Bagheri, Rupy Sawhney, John E. Kobza, Enrique Macias De Anda, Mostafa Hajiaghaei-Keshteli, Michael Mirrielees, (参考訳) 人口高齢化は世界的な課題であり、高齢者の医療やソーシャルサービスへの需要が高まっている。 ホームヘルスケア(HHC)は、人口のこの部分を満たすための重要なソリューションである。 HHCの需要が増大する中、介護者の配分を効率的に調整・調整することが不可欠である。 これは予算最適化計画と高品質なケアの提供の両立に不可欠である。 この研究は、在宅医療機関(HHA)の基本的な問題に対処する:「介護者のアロケーションを最適化するには、特に介護者が訪問シーケンスの柔軟性を優先する場合はどうすればよいか?」。 従来,厳格な訪問シーケンスを提唱してきたが,訪問シーケンスの柔軟性を考慮し,旅行距離の削減,計画期間ごとの訪問数の増加,ケアの継続性の維持,患者満足度にとって重要な指標である,ハイブリッド手法によって介護者を割り当てる決定支援フレームワークを導入する。 米国テネシー州のHHAのデータを利用して、当社のアプローチは、介護者に制限を加えることなく、平均走行距離(規律によっては最大42%)を大幅に削減しました。 さらに,介護者のサプライ分析に利用して,介護者資源管理に関する貴重な知見を提供する。

Population aging is a global challenge, leading to increased demand for health care and social services for the elderly. Home Health Care (HHC) is a vital solution to serve this segment of the population. Given the increasing demand for HHC, it is essential to coordinate and regulate caregiver allocation efficiently. This is crucial for both budget-optimized planning and ensuring the delivery of high-quality care. This research addresses a fundamental question in home health agencies (HHAs): "How can caregiver allocation be optimized, especially when caregivers prefer flexibility in their visit sequences?". While earlier studies proposed rigid visiting sequences, our study introduces a decision support framework that allocates caregivers through a hybrid method that considers the flexibility in visiting sequences and aims to reduce travel mileage, increase the number of visits per planning period, and maintain the continuity of care; a critical metric for patient satisfaction. Utilizing data from an HHA in Tennessee, United States, our approach led to an impressive reduction in average travel mileage (up to 42%, depending on discipline) without imposing restrictions on caregivers. Furthermore, the proposed framework is used for caregivers' supply analysis to provide valuable insights into caregiver resource management.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-26
# 制約付き変分量子固有解法(VQEC):VQEによる制約付き最適化問題の解法

Variational Quantum Eigensolver with Constraints (VQEC): Solving Constrained Optimization Problems via VQE ( http://arxiv.org/abs/2311.08502v3 )

ライセンス: Link先を確認
Thinh Viet Le, Vassilis Kekatos, (参考訳) 変分量子アプローチは、計算的に困難なタスクに対する準最適解を見つけることに大きな期待を示している。 それでも、規律的な方法で制約を強制することは、ほとんど探索されていない。 このギャップに対処するため、この研究はVQECと呼ばれるハイブリッド量子古典的アルゴリズムパラダイムを提案し、有名なVQEを拡張して制約による最適化を扱う。 標準VQEと同様に、最適化変数のベクトルは変分量子回路(VQC)の状態によって取得される。 制約に対処するため、VQECは古典的にVQCパラメータと制約に関連する双対変数の両方に対してラグランジアン関数を最適化する。 量子設定に従うため、パラメータシフトルールを利用する摂動原始双対法により変数を更新する。 応用範囲が広い中で、VQEC が2次制約付きバイナリ最適化 (QCBO) 問題を大まかに解き、平均および確率の2次制約を満たす確率的バイナリポリシーを見つけ、確率的単純性に対して大規模線形プログラム (LP) を解く方法を示す。 任意の確率質量関数 (PMF) を近似するVQCの誤差を仮定すると、VQCが達成した最適性ギャップに境界を与える。 量子シミュレータの数値実験は、VQECが高品質な解を生成できるような様々なパラメータの効果と相関性を調べる。

Variational quantum approaches have shown great promise in finding near-optimal solutions to computationally challenging tasks. Nonetheless, enforcing constraints in a disciplined fashion has been largely unexplored. To address this gap, this work proposes a hybrid quantum-classical algorithmic paradigm termed VQEC that extends the celebrated VQE to handle optimization with constraints. As with the standard VQE, the vector of optimization variables is captured by the state of a variational quantum circuit (VQC). To deal with constraints, VQEC optimizes a Lagrangian function classically over both the VQC parameters as well as the dual variables associated with constraints. To comply with the quantum setup, variables are updated via a perturbed primal-dual method leveraging the parameter shift rule. Among a wide gamut of potential applications, we showcase how VQEC can approximately solve quadratically-constrained binary optimization (QCBO) problems, find stochastic binary policies satisfying quadratic constraints on the average and in probability, and solve large-scale linear programs (LP) over the probability simplex. Under an assumption on the error for the VQC to approximate an arbitrary probability mass function (PMF), we provide bounds on the optimality gap attained by a VQC. Numerical tests on a quantum simulator investigate the effect of various parameters and corroborate that VQEC can generate high-quality solutions.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-26
# MetaCloak: メタラーニングによる非許可の主題駆動型テキスト-画像拡散型合成の防止

MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning ( http://arxiv.org/abs/2311.13127v5 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, Lichao Sun, (参考訳) テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。 しかし、これらのツールは間違った手で、個人を危険にさらす、誤解を招く、有害なコンテンツを作ることができる。 この問題に対処するため、既存の毒素ベースのアプローチは、悪意のある使用からユーザイメージを“学習不能”にするために、知覚不能な方法でユーザイメージにアプローチする。 これらの防御アプローチの2つの限界を特定します。 一 難易度最適化の解決のための手作りのヒューリスティックによる準最適 二 ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。 これらの課題を解決するためにMetaCloakを提案する。MetaCloakは、トランスフォーメーションサンプリングプロセスを追加し、トランスフォーメーション可能で堅牢な摂動を実現するメタラーニングフレームワークを用いて、バイレベル中毒の問題を解決する。 具体的には、代理拡散モデルのプールを用いて、伝達性およびモデルに依存しない摂動を創出する。 さらに、新たな変換プロセスを導入することで、パーソナライズされた世代において、変換ロバストなセマンティックな歪みと劣化を引き起こすのに十分な、単純なデノジングエラー最大化損失を設計する。 VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。 特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。 私たちのコードはhttps://github.com/liuyixin-louis/MetaCloak.comから入手可能です。

Text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing poisoning-based approaches perturb user images in an imperceptible way to render them "unlearnable" from malicious uses. We identify two limitations of these defending approaches: i) sub-optimal due to the hand-crafted heuristics for solving the intractable bilevel optimization and ii) lack of robustness against simple data transformations like Gaussian filtering. To solve these challenges, we propose MetaCloak, which solves the bi-level poisoning problem with a meta-learning framework with an additional transformation sampling process to craft transferable and robust perturbation. Specifically, we employ a pool of surrogate diffusion models to craft transferable and model-agnostic perturbation. Furthermore, by incorporating an additional transformation process, we design a simple denoising-error maximization loss that is sufficient for causing transformation-robust semantic distortion and degradation in a personalized generation. Extensive experiments on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing approaches. Notably, MetaCloak can successfully fool online training services like Replicate, in a black-box manner, demonstrating the effectiveness of MetaCloak in real-world scenarios. Our code is available at https://github.com/liuyixin-louis/MetaCloak.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-26
# 自然言語を用いた画像集合の差分記述

Describing Differences in Image Sets with Natural Language ( http://arxiv.org/abs/2312.02974v2 )

ライセンス: Link先を確認
Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy, (参考訳) 2つの画像はどのように異なるのか? モデル行動を理解し、データセットを解析するためには、セットレベルの差分を識別することが重要ですが、何千ものイメージを手動で精査するのは現実的ではありません。 この発見プロセスを支援するために,2つの$\textbf{sets}$イメージの差分を自動的に記述するタスクについて検討する。 このタスクはイメージセット $D_A$ と $D_B$ を取り込み、$D_A$ よりも $D_B$ の方がしばしば真である記述を出力する。 まずイメージセットから候補差分記述を提案する2段階のアプローチを概説し、その2つのセットをどの程度よく区別できるかを確認して候補を再度ランク付けする。 VisDiffはまずイメージをキャプションし、言語モデルに候補記述を提案し、次にこれらの記述をCLIPを使って再ランク付けする。 VisDiffBenchは、187組のイメージセットと地上の真理差を記述したデータセットである。 データセットの比較(例: ImageNet vs. ImageNetV2)、分類モデルの比較(例:zero-shot CLIP vs. supervised ResNet)、モデル故障モードの要約(例:StableDiffusionV1, V2)、画像の記憶に残るものの検出など、さまざまな領域にVisDiffを適用する。 VisDiffを使用することで、データセットやモデルにこれまで知られていなかった、興味深い違いを見つけ出すことができました。

How do two sets of images differ? Discerning set-level differences is crucial for understanding model behaviors and analyzing datasets, yet manually sifting through thousands of images is impractical. To aid in this discovery process, we explore the task of automatically describing the differences between two $\textbf{sets}$ of images, which we term Set Difference Captioning. This task takes in image sets $D_A$ and $D_B$, and outputs a description that is more often true on $D_A$ than $D_B$. We outline a two-stage approach that first proposes candidate difference descriptions from image sets and then re-ranks the candidates by checking how well they can differentiate the two sets. We introduce VisDiff, which first captions the images and prompts a language model to propose candidate descriptions, then re-ranks these descriptions using CLIP. To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image sets with ground truth difference descriptions. We apply VisDiff to various domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing model failure modes (supervised ResNet), characterizing differences between generative models (e.g., StableDiffusionV1 and V2), and discovering what makes images memorable. Using VisDiff, we are able to find interesting and previously unknown differences in datasets and models, demonstrating its utility in revealing nuanced insights.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-26
# 表情認識のための主観的ドメイン適応

Subject-Based Domain Adaptation for Facial Expression Recognition ( http://arxiv.org/abs/2312.05632v3 )

ライセンス: Link先を確認
Muhammad Osama Zeeshan, Muhammad Haseeb Aslam, Soufiane Belharbi, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger, (参考訳) ディープラーニングモデルを特定の対象に適応させることは、教師なしドメイン適応(UDA)手法を用いて達成される、挑戦的な表情認識(FER)タスクである。 ソースおよびターゲットデータセット間での深いFERモデルの適用にはいくつかのUDA手法が提案されているが、複数の主題固有のソースドメインは、主題ベース適応における個人内および個人間の変動を正確に表現するために必要である。 本稿では、データセット全体ではなく、ドメインが個人に対応する設定について考察する。 UDAとは異なり、マルチソースドメイン適応(MSDA)メソッドは、複数のソースデータセットを活用して、ターゲットモデルの正確性と堅牢性を改善することができる。 しかし、MSDAの以前の手法はデータセット全体にわたる画像分類モデルに適応しており、より多くのソースドメインにスケールできない。 本稿では、FERにおける主観的ドメイン適応のための新しいMSDA手法を提案する。 複数のソース・サブジェクト(ラベル付きソース・ドメイン・データ)からの情報を効率的に利用し、ディープFERモデルを単一のターゲット・個人(ラベルなしターゲット・ドメイン・データ)に適応させる。 適応中は、まず、複数のソースからのデータ間のドメインシフトを軽減するために、ソース間の不一致を計算します。 そして、新たな戦略を用いて、対象者に対して自信を増した擬似ラベルを生成し、ソースと対象者の間のドメインシフトを低減させる。 87名の被験者とUNBC-McMaster肩痛データセットを用いたBioVid熱・痛みデータセットと、25名の被験者による実験により、我々の被験者ベースのMSDAは、複数の被験者ベースのソースドメインに順応しながら、最先端の手法より優れていることが示された。

Adapting a deep learning model to a specific target individual is a challenging facial expression recognition (FER) task that may be achieved using unsupervised domain adaptation (UDA) methods. Although several UDA methods have been proposed to adapt deep FER models across source and target data sets, multiple subject-specific source domains are needed to accurately represent the intra- and inter-person variability in subject-based adaption. This paper considers the setting where domains correspond to individuals, not entire datasets. Unlike UDA, multi-source domain adaptation (MSDA) methods can leverage multiple source datasets to improve the accuracy and robustness of the target model. However, previous methods for MSDA adapt image classification models across datasets and do not scale well to a more significant number of source domains. This paper introduces a new MSDA method for subject-based domain adaptation in FER. It efficiently leverages information from multiple source subjects (labeled source domain data) to adapt a deep FER model to a single target individual (unlabeled target domain data). During adaptation, our subject-based MSDA first computes a between-source discrepancy loss to mitigate the domain shift among data from several source subjects. Then, a new strategy is employed to generate augmented confident pseudo-labels for the target subject, allowing a reduction in the domain shift between source and target subjects. Experiments performed on the challenging BioVid heat and pain dataset with 87 subjects and the UNBC-McMaster shoulder pain dataset with 25 subjects show that our subject-based MSDA can outperform state-of-the-art methods yet scale well to multiple subject-based source domains.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-26
# L3Cube-IndicNews: ニュースベースの短文と長い文書分類データセット

L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages ( http://arxiv.org/abs/2401.02254v2 )

ライセンス: Link先を確認
Aishwarya Mirashi, Srushti Sonavane, Purva Lingayat, Tejas Padhiyar, Raviraj Joshi, (参考訳) 本研究では,インドの地域言語を対象とした高品質なデータセットのキュレーションを目的とした多言語テキスト分類コーパスであるL3Cube-IndicNewsを紹介する。 私たちはヒンディー語、ベンガル語、マラティ語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤラム語、パンジャービ語を含む10の著名なインド語を中心にしています。 これらのニュースデータセットはそれぞれ10以上のニュース記事のクラスで構成されている。 L3Cube-IndicNewsでは、ニュース見出しとニュースカテゴリを含むショートヘッドライン分類(SHC)データセット、ニュース記事全体とニュースカテゴリを含むロングドキュメント分類(LDC)データセット、ニュースとニュースカテゴリのサブアーティクルを含むロングパラグラフ分類(LPC)という3つの異なる文書長を扱うように調整された3つのデータセットを提供している。 詳細な長さに基づく分析のために、すべての3つのデータセットに一貫したラベリングを維持します。 単言語BERT,多言語Indic Sentence BERT(IndicSBERT),IndicBERT(IndicSBERT)の4つのモデルを用いてこれらのIndic言語データセットを評価する。 本研究は、利用可能なテキスト分類データセットのプールの拡大に大きく貢献し、インドの地域言語におけるトピック分類モデルの開発を可能にする。 これはまた、言語間のラベルの重複が大きいため、言語間分析の優れたリソースとしても機能する。 データセットとモデルはhttps://github.com/l3cube-pune/indic-nlpで公開されています。

In this work, we introduce L3Cube-IndicNews, a multilingual text classification corpus aimed at curating a high-quality dataset for Indian regional languages, with a specific focus on news headlines and articles. We have centered our work on 10 prominent Indic languages, including Hindi, Bengali, Marathi, Telugu, Tamil, Gujarati, Kannada, Odia, Malayalam, and Punjabi. Each of these news datasets comprises 10 or more classes of news articles. L3Cube-IndicNews offers 3 distinct datasets tailored to handle different document lengths that are classified as: Short Headlines Classification (SHC) dataset containing the news headline and news category, Long Document Classification (LDC) dataset containing the whole news article and the news category, and Long Paragraph Classification (LPC) containing sub-articles of the news and the news category. We maintain consistent labeling across all 3 datasets for in-depth length-based analysis. We evaluate each of these Indic language datasets using 4 different models including monolingual BERT, multilingual Indic Sentence BERT (IndicSBERT), and IndicBERT. This research contributes significantly to expanding the pool of available text classification datasets and also makes it possible to develop topic classification models for Indian regional languages. This also serves as an excellent resource for cross-lingual analysis owing to the high overlap of labels among languages. The datasets and models are shared publicly at https://github.com/l3cube-pune/indic-nlp
翻訳日:2024-05-01 00:05:36 公開日:2024-04-26
# 地域的表現の再考

Region-Based Representations Revisited ( http://arxiv.org/abs/2402.02352v3 )

ライセンス: Link先を確認
Michal Shlapentokh-Rothman, Ansel Blume, Yao Xiao, Yuqun Wu, Sethuraman T V, Heyi Tao, Jae Yong Lee, Wilfredo Torres, Yu-Xiong Wang, Derek Hoiem, (参考訳) 地域ベース表現が認識に有効かどうかを検討する。 リージョンは、かつては認識アプローチのメインステイだったが、ピクセルとパッチベースの機能は、ほぼ完全に使用されている。 近年のSAMのようなクラスに依存しないセグメンタは,DINOv2のような強力な教師なし表現と効果的に結合することができ,セグメンテーションやオブジェクトベース画像検索,マルチイメージ解析など,多種多様なタスクに利用できることを示す。 仮面と特徴が抽出されると、これらの表現は線形デコーダを使っても競合性能を実現し、カスタムクエリを必要とするアプリケーションに適している。 表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。

We investigate whether region-based representations are effective for recognition. Regions were once a mainstay in recognition approaches, but pixel and patch-based features are now used almost exclusively. We show that recent class-agnostic segmenters like SAM can be effectively combined with strong unsupervised representations like DINOv2 and used for a wide variety of tasks, including semantic segmentation, object-based image retrieval, and multi-image analysis. Once the masks and features are extracted, these representations, even with linear decoders, enable competitive performance, making them well suited to applications that require custom queries. The compactness of the representation also makes it well-suited to video analysis and other problems requiring inference across many images.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-26
# AIを活用してアフリカ全土の科学とコンピューティング教育を進化させる - 挑戦、進歩、機会

Leveraging AI to Advance Science and Computing Education across Africa: Challenges, Progress and Opportunities ( http://arxiv.org/abs/2402.07397v2 )

ライセンス: Link先を確認
George Boateng, (参考訳) アフリカ大陸全体では、コンピュータ、インターネット接続、信頼性の高い電気、資格のある教師の不足など、様々な教育上の課題に直面している。 これらの課題にもかかわらず、BERTやGPT-4といったAIの最近の進歩は、教育を前進させる可能性を示している。 しかし、これらのAIツールは西洋の教育設定の文脈内で主にデプロイされ、評価される傾向にあり、アフリカの学生が直面しているユニークなニーズと課題に限定的に注意が向けられている。 本章では,アフリカ全土におけるAI活用の課題について論じる。 1) アフリカにおける科学とコンピューティング教育のための教育ツールにおけるAIの開発と展開について説明する:(1) アフリカ人がスマートフォンを使ってプログラミングを学ぶことができるAIベースのアプリSuaCode、(2) グラフィカルおよびインタラクティブなコーディング課題のための自動グレーティングとフィードバックツールAutoGrad、(3) プラジャリズムの視覚的証拠を示すコードプラジャリズム検出ツールKwame、(4) コーディングコースのためのバイリンガルAI指導アシスタントKwame、(5) 学生の科学問題に対する即時回答を提供するWebベースのAI指導アシスタントKwame、(6) Brilla AI、国立科学と数学クイズコンペティションのためのAIコンテストのAIコンテスト者Brilla AI。 最後に、アフリカ全土の高等教育にAIを活用する可能性について論じる。

Across the African continent, students grapple with various educational challenges, including limited access to essential resources such as computers, internet connectivity, reliable electricity, and a shortage of qualified teachers. Despite these challenges, recent advances in AI such as BERT, and GPT-4 have demonstrated their potential for advancing education. Yet, these AI tools tend to be deployed and evaluated predominantly within the context of Western educational settings, with limited attention directed towards the unique needs and challenges faced by students in Africa. In this chapter, we discuss challenges with using AI to advance education across Africa. Then, we describe our work developing and deploying AI in Education tools in Africa for science and computing education: (1) SuaCode, an AI-powered app that enables Africans to learn to code using their smartphones, (2) AutoGrad, an automated grading, and feedback tool for graphical and interactive coding assignments, (3) a tool for code plagiarism detection that shows visual evidence of plagiarism, (4) Kwame, a bilingual AI teaching assistant for coding courses, (5) Kwame for Science, a web-based AI teaching assistant that provides instant answers to students' science questions and (6) Brilla AI, an AI contestant for the National Science and Maths Quiz competition. Finally, we discuss potential opportunities to leverage AI to advance education across Africa.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-26
# AMEND:ロングテール軌道予測のためのエキスパートフレームワーク

AMEND: A Mixture of Experts Framework for Long-tailed Trajectory Prediction ( http://arxiv.org/abs/2402.08698v2 )

ライセンス: Link先を確認
Ray Coden Mercurius, Ehsan Ahmadi, Soheil Mohamad Alizadeh Shabestary, Amir Rasouli, (参考訳) 歩行者の将来の動きの正確な予測は、インテリジェントな運転システムにとって重要である。 このタスクのためのモデルを開発するには、多様なサンプルセットを含む豊富なデータセットが必要である。 しかし、既存の自然主義的軌道予測データセットは、単純なサンプルを好んで不均衡であり、難解なシナリオを欠いているのが一般的である。 このような長い尾効果は、安全クリティカルなシナリオを含むデータ分布の尾部において、予測モデルが過小評価される原因となる。 従来の手法では、コントラスト学習やクラス条件のハイパーネットワークといった手法が用いられていた。 しかし、これらのアプローチはモジュラーではなく、多くの機械学習アーキテクチャに適用することはできない。 本研究では,専門的な専門家の混在を利用した軌道予測のためのモジュラーモデル非依存フレームワークを提案する。 このアプローチでは、各専門家は、データの特定の部分に関して、特別なスキルで訓練されます。 予測のために,相対的信頼スコアを生成することで,最高の専門家を選択するルータネットワークを利用する。 本研究では,一般的な歩行者軌跡予測データセットを用いて実験を行い,提案手法がロングテールシナリオの性能を向上させることを示す。 さらに, 異なる成分の寄与を明らかにするために, アブレーション研究を行っている。

Accurate prediction of pedestrians' future motions is critical for intelligent driving systems. Developing models for this task requires rich datasets containing diverse sets of samples. However, the existing naturalistic trajectory prediction datasets are generally imbalanced in favor of simpler samples and lack challenging scenarios. Such a long-tail effect causes prediction models to underperform on the tail portion of the data distribution containing safety-critical scenarios. Previous methods tackle the long-tail problem using methods such as contrastive learning and class-conditioned hypernetworks. These approaches, however, are not modular and cannot be applied to many machine learning architectures. In this work, we propose a modular model-agnostic framework for trajectory prediction that leverages a specialized mixture of experts. In our approach, each expert is trained with a specialized skill with respect to a particular part of the data. To produce predictions, we utilise a router network that selects the best expert by generating relative confidence scores. We conduct experimentation on common pedestrian trajectory prediction datasets and show that our method improves performance on long-tail scenarios. We further conduct ablation studies to highlight the contribution of different proposed components.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-26
# Beyond A*: Search Dynamics Bootstrappingによるトランスフォーマーによるプランニングの改善

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping ( http://arxiv.org/abs/2402.14083v2 )

ライセンス: Link先を確認
Lucas Lehnert, Sainbayar Sukhbaatar, DiJia Su, Qinqing Zheng, Paul Mcvay, Michael Rabbat, Yuandong Tian, (参考訳) Transformerは様々なアプリケーション設定で大幅な進歩を実現しているが、そのようなアーキテクチャは複雑な意思決定タスクを解決するための伝統的なシンボリックプランナーをいまだに遅れている。 本研究では,複雑な計画課題を解決するためにトランスフォーマーを訓練する方法を示す。 これは、$A^*$検索アルゴリズムの探索ダイナミクスを予測するために、エンコーダ・デコーダ変換モデルをトレーニングすることで達成される。 我々はこのモデルを微調整して、それまで目にしなかったソコバンパズルの93.7%を最適に解くトランスフォーマーモデルであるサーチフォーマーを得る。 トレーニング手法では,A^*$の探索ダイナミクスをトークンシーケンスとして表現し,シンボルプランニング中にタスク状態の追加や検索ツリーへの削除を行う。 Searchformerは、5-10$\times$小さなモデルサイズと10$\times$小さなトレーニングデータセットで、最適な計画を直接予測するベースラインを大幅に上回る。 最後に,サーチフォーマーが解いたタスクのパーセンテージを改善し,検索ダイナミクスを短縮することで,より大規模で複雑な意思決定タスクにどのようにスケールするかを示す。

While Transformers have enabled tremendous progress in various application settings, such architectures still trail behind traditional symbolic planners for solving complex decision making tasks. In this work, we demonstrate how to train Transformers to solve complex planning tasks. This is accomplished by training an encoder-decoder Transformer model to predict the search dynamics of the $A^*$ search algorithm. We fine tune this model to obtain a Searchformer, a Transformer model that optimally solves previously unseen Sokoban puzzles 93.7% of the time, while using up to 26.8% fewer search steps than the $A^*$ implementation that was used for training initially. In our training method, $A^*$'s search dynamics are expressed as a token sequence outlining when task states are added and removed into the search tree during symbolic planning. Searchformer significantly outperforms baselines that predict the optimal plan directly with a 5-10$\times$ smaller model size and a 10$\times$ smaller training dataset. Lastly, we demonstrate how Searchformer scales to larger and more complex decision making tasks with improved percentage of solved tasks and shortened search dynamics.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-26
# 文書部品のクラスタリング:文書からの影響を検知・特徴づけする

Clustering Document Parts: Detecting and Characterizing Influence Campaigns from Documents ( http://arxiv.org/abs/2402.17151v2 )

ライセンス: Link先を確認
Zhengxiang Wang, Owen Rambow, (参考訳) 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。 このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連性を通じて影響キャンペーンに関連するドキュメントを識別する。 本手法は、文書が影響キャンペーンの一部であるかどうかを予測する際に、直接文書レベルの分類と直接文書レベルのクラスタリングの両方に優れる。 本稿では,既存の事象事実予測システムを用いて文書部分を取得するとともに,複数のクラスタリング実験を集約し,クラスタと文書の分類性能を向上させるなど,パイプラインを強化するための新しい手法を提案する。 クラスタリング後の文書の分類は、キャンペーンに関連する文書の一部を正確に抽出するだけでなく、コーディネートされた総合的な現象として影響キャンペーンを捉えている。 我々の手法は、文書からの影響キャンペーンのよりきめ細やかなキャラクタリゼーションを可能にする。

We propose a novel clustering pipeline to detect and characterize influence campaigns from documents. This approach clusters parts of document, detects clusters that likely reflect an influence campaign, and then identifies documents linked to an influence campaign via their association with the high-influence clusters. Our approach outperforms both the direct document-level classification and the direct document-level clustering approach in predicting if a document is part of an influence campaign. We propose various novel techniques to enhance our pipeline, including using an existing event factuality prediction system to obtain document parts, and aggregating multiple clustering experiments to improve the performance of both cluster and document classification. Classifying documents after clustering not only accurately extracts the parts of the documents that are relevant to influence campaigns, but also captures influence campaigns as a coordinated and holistic phenomenon. Our approach makes possible more fine-grained and interpretable characterizations of influence campaigns from documents.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-26
# Brilla AI: 国家科学と数学のクイズのためのAIコンテスト

Brilla AI: AI Contestant for the National Science and Maths Quiz ( http://arxiv.org/abs/2403.01699v2 )

ライセンス: Link先を確認
George Boateng, Jonathan Abrefah Mensah, Kevin Takyi Yeboah, William Edor, Andrew Kojo Mensah-Onumah, Naafi Dasana Ibrahim, Nana Sam Yeboah, (参考訳) アフリカ大陸には十分な能力のある教師が不足しており、十分な学習支援の供給を妨げている。 AIは限られた数の教師の努力を増強し、より良い学習結果をもたらす可能性がある。 この研究は、NSMQ AI Grand Challengeの最初の重要な成果を記述し、評価し、このAIのための堅牢で実世界のベンチマークを提案している。 NSMQ (英語: NSMQ) は、ガーナの2人の学生からなる3つのチームが、生物学、化学、物理学、数学の5段階にわたる質問に答えて、優勝チームが優勝するまでの5段階で競う、毎年開催される科学・数学の大会である。 この作業で私たちは,2023年のNSMQ Grand FinaleのRidlesラウンドで,非公式に競うために展開した,AI競技者のBrilla AIを開発しました。 Brilla AIは現在、コンテストのRidlesラウンドをライブストリーミングするWebアプリとして利用可能で、4つの機械学習システムを実行している。 デビュー当初、私たちのAIは3つの人間コンテストチームの前の4つの謎のうちの1つに答えました。 このAIの改良と拡張は、学生に科学教育を提供し、最終的にはアフリカ中で数百万人が1対1の学習インタラクションを持ち、科学教育を民主化するために展開される可能性がある。

The African continent lacks enough qualified teachers which hampers the provision of adequate learning support. An AI could potentially augment the efforts of the limited number of teachers, leading to better learning outcomes. Towards that end, this work describes and evaluates the first key output for the NSMQ AI Grand Challenge, which proposes a robust, real-world benchmark for such an AI: "Build an AI to compete live in Ghana's National Science and Maths Quiz (NSMQ) competition and win - performing better than the best contestants in all rounds and stages of the competition". The NSMQ is an annual live science and mathematics competition for senior secondary school students in Ghana in which 3 teams of 2 students compete by answering questions across biology, chemistry, physics, and math in 5 rounds over 5 progressive stages until a winning team is crowned for that year. In this work, we built Brilla AI, an AI contestant that we deployed to unofficially compete remotely and live in the Riddles round of the 2023 NSMQ Grand Finale, the first of its kind in the 30-year history of the competition. Brilla AI is currently available as a web app that livestreams the Riddles round of the contest, and runs 4 machine learning systems: (1) speech to text (2) question extraction (3) question answering and (4) text to speech that work together in real-time to quickly and accurately provide an answer, and then say it with a Ghanaian accent. In its debut, our AI answered one of the 4 riddles ahead of the 3 human contesting teams, unofficially placing second (tied). Improvements and extensions of this AI could potentially be deployed to offer science tutoring to students and eventually enable millions across Africa to have one-on-one learning interactions, democratizing science education.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-26
# 逆DR-サブモジュール最適化のための統一射影自由アルゴリズム

Unified Projection-Free Algorithms for Adversarial DR-Submodular Optimization ( http://arxiv.org/abs/2403.10063v2 )

ライセンス: Link先を確認
Mohammad Pedramfar, Yididiya Y. Nadew, Christopher J. Quinn, Vaneet Aggarwal, (参考訳) 本稿では,予測自由なFrank-Wolfe型アルゴリズムを導入し,全情報や半帯域フィードバック,モノトーンおよび非モノトーン関数,制約の相違,確率的クエリのタイプといったシナリオを網羅する。 非単調な設定で考慮されたすべての問題に対して、提案アルゴリズムは、証明済みのサブ線形$\alpha$-regret境界を持つか、あるいは、オフライン設定における対応する近似である$\alpha$-regret境界を持つよりも良い$\alpha$-regret境界を持つかのいずれかである。 モノトーン設定では、提案手法は、残りのケースの結果と一致しながら、提案した8つのケースのうち7つのプロジェクションフリーアルゴリズムにおいて、最先端のサブ線形$\alpha$-regret境界を与える。 さらに,逆DR-サブモジュラー最適化のための半帯域フィードバックと帯域フィードバックについて検討し,この最適化領域の理解を推し進める。

This paper introduces unified projection-free Frank-Wolfe type algorithms for adversarial continuous DR-submodular optimization, spanning scenarios such as full information and (semi-)bandit feedback, monotone and non-monotone functions, different constraints, and types of stochastic queries. For every problem considered in the non-monotone setting, the proposed algorithms are either the first with proven sub-linear $\alpha$-regret bounds or have better $\alpha$-regret bounds than the state of the art, where $\alpha$ is a corresponding approximation bound in the offline setting. In the monotone setting, the proposed approach gives state-of-the-art sub-linear $\alpha$-regret bounds among projection-free algorithms in 7 of the 8 considered cases while matching the result of the remaining case. Additionally, this paper addresses semi-bandit and bandit feedback for adversarial DR-submodular optimization, advancing the understanding of this optimization area.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-26
# 大規模言語モデルの個人別次世代予測

Differentially Private Next-Token Prediction of Large Language Models ( http://arxiv.org/abs/2403.15638v3 )

ライセンス: Link先を確認
James Flemings, Meisam Razaviyayn, Murali Annavaram, (参考訳) LLM(Large Language Models)のプライバシの確保がますます重要になっている。 最も広く採用されているテクニックはDP-SGDであり、差分プライバシー(DP)を保証するためにモデルを訓練している。 しかし、DP-SGDは、ホワイトボックスをモデルにアクセスできる敵の能力を過大評価し、結果として、SGDよりも長いトレーニング時間とメモリ使用量を引き起こす。 一方、商用のLLMデプロイメントは主としてクラウドベースであるため、LLMへの敵対的なアクセスはブラックボックスである。 これらの観測により,次点サンプリングの固有確率性を利用した次点予測のためのプライベート予測プロトコルPMixEDと,微分プライバシーを実現するためのパブリックモデルを提案する。 我々は、RD-molliferを導入し、そのモデルの各出力分布を、細調整されたLLMの集合から、パブリックなLLMの出力分布の集合に投影し、それから予測された分布とサンプルを平均化する。 トレーニング中にモデルアーキテクチャを検討する必要があるDP-SGDとは異なり、PMixEDはモデルに依存しないため、PMixEDは現在のデプロイメントにとって非常に魅力的なソリューションである。 以上の結果から,PMixEDはサンプルレベルのプライバシよりも強力なプライバシ保証を実現し,プライバシに対してDP-SGDより優れていることがわかった。 したがって、PMixEDは、プライバシーを損なうことなく強力な生成ユーティリティを実現するためのDPトレーニングの実践的な代替手段を提供する。

Ensuring the privacy of Large Language Models (LLMs) is becoming increasingly important. The most widely adopted technique to accomplish this is DP-SGD, which trains a model to guarantee Differential Privacy (DP). However, DP-SGD overestimates an adversary's capabilities in having white box access to the model and, as a result, causes longer training times and larger memory usage than SGD. On the other hand, commercial LLM deployments are predominantly cloud-based; hence, adversarial access to LLMs is black-box. Motivated by these observations, we present Private Mixing of Ensemble Distributions (PMixED): a private prediction protocol for next-token prediction that utilizes the inherent stochasticity of next-token sampling and a public model to achieve Differential Privacy. We formalize this by introducing RD-mollifers which project each of the model's output distribution from an ensemble of fine-tuned LLMs onto a set around a public LLM's output distribution, then average the projected distributions and sample from it. Unlike DP-SGD which needs to consider the model architecture during training, PMixED is model agnostic, which makes PMixED a very appealing solution for current deployments. Our results show that PMixED achieves a stronger privacy guarantee than sample-level privacy and outperforms DP-SGD for privacy $\epsilon = 8$ on large-scale datasets. Thus, PMixED offers a practical alternative to DP training methods for achieving strong generative utility without compromising privacy.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-26
# 量子仮説テストにおけるサンプル複雑性への招待

An invitation to the sample complexity of quantum hypothesis testing ( http://arxiv.org/abs/2403.17868v2 )

ライセンス: Link先を確認
Hao-Chung Cheng, Nilanjana Datta, Nana Liu, Theshani Nuradha, Robert Salzmann, Mark M. Wilde, (参考訳) 量子仮説テスト(QHT)は情報理論の観点から伝統的に研究されており、未知の状態のサンプル数の関数としての誤差確率の最適減衰率に関心がある。 本稿では,QHTのサンプル複雑性について検討し,本研究の目的は,所望の誤差確率に到達するために必要なサンプルの最小数を決定することである。 QHTの文献にすでに存在する豊富な知識を利用することにより、対称的および非対称的な設定において二項QHTのサンプル複雑性を特徴付けるとともに、複数のQHTのサンプル複雑性に限界を与える。 より詳しくは、対称二項QHTのサンプル複雑性が逆誤差確率と正の正の対数に依存することを証明している。 量子シュタインの補題とは対照的に、非対称二項 QHT のサンプル複雑性は逆タイプIIの誤差確率と逆相対エントロピーに対数的に依存する。 次に、複数のQHTのサンプルの複雑さについて下限と上限を提供し、これらの境界を改善するために興味深い疑問が残る。 本稿の最終部では、QHTのサンプルの複雑さが研究領域の広さにどのように関係しているかを概説し、シミュレーションと探索のための量子アルゴリズム、量子学習と分類、量子力学の基礎など、多くの基本的な概念の理解を高めることができる。 そこで本稿は,QHTのサンプル複雑性問題への研究・貢献を,異なるコミュニティからの研究者に依頼するものであると考え,今後の研究に向けてのオープンな方向性を概説する。

Quantum hypothesis testing (QHT) has been traditionally studied from the information-theoretic perspective, wherein one is interested in the optimal decay rate of error probabilities as a function of the number of samples of an unknown state. In this paper, we study the sample complexity of QHT, wherein the goal is to determine the minimum number of samples needed to reach a desired error probability. By making use of the wealth of knowledge that already exists in the literature on QHT, we characterize the sample complexity of binary QHT in the symmetric and asymmetric settings, and we provide bounds on the sample complexity of multiple QHT. In more detail, we prove that the sample complexity of symmetric binary QHT depends logarithmically on the inverse error probability and inversely on the negative logarithm of the fidelity. As a counterpart of the quantum Stein's lemma, we also find that the sample complexity of asymmetric binary QHT depends logarithmically on the inverse type II error probability and inversely on the quantum relative entropy. We then provide lower and upper bounds on the sample complexity of multiple QHT, with it remaining an intriguing open question to improve these bounds. The final part of our paper outlines and reviews how sample complexity of QHT is relevant to a broad swathe of research areas and can enhance understanding of many fundamental concepts, including quantum algorithms for simulation and search, quantum learning and classification, and foundations of quantum mechanics. As such, we view our paper as an invitation to researchers coming from different communities to study and contribute to the problem of sample complexity of QHT, and we outline a number of open directions for future research.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-26
# 量子自然言語処理

Quantum Natural Language Processing ( http://arxiv.org/abs/2403.19758v2 )

ライセンス: Link先を確認
Dominic Widdows, Willie Aboumrad, Dohun Kim, Sayonee Ray, Jonathan Mei, (参考訳) 言語処理は、人工知能の現在の発展の中心であり、量子コンピュータは同時に利用できるようになった。 これは量子自然言語処理に大きな関心を惹き付け、いくつかの初期の提案と実験を行った。 本稿は,NLP関連技術が量子言語処理にどのように使われているかを示す。 本稿では,単語埋め込みと逐次モデルについて検討し,今後の研究への道筋と,これらの方向におけるトレードオフについて議論する。 また,変圧器モデルにおける注目度を計算し,文法解析を行う手法についても紹介する。 また,テキストエンコーディングの基本タスク(メモリ上の文字列を表現)のための新しい量子設計も導入した。 量子理論は不確実性を定量化し、「インテリジェンスとは何か?」を説明することに寄与している。 この文脈では、現代の人工知能システムにおける「幻覚」は、事実が概念化される方法の誤解であると主張する。

Language processing is at the heart of current developments in artificial intelligence, and quantum computers are becoming available at the same time. This has led to great interest in quantum natural language processing, and several early proposals and experiments. This paper surveys the state of this area, showing how NLP-related techniques have been used in quantum language processing. We examine the art of word embeddings and sequential models, proposing some avenues for future investigation and discussing the tradeoffs present in these directions. We also highlight some recent methods to compute attention in transformer models, and perform grammatical parsing. We also introduce a new quantum design for the basic task of text encoding (representing a string of characters in memory), which has not been addressed in detail before. Quantum theory has contributed toward quantifying uncertainty and explaining "What is intelligence?" In this context, we argue that "hallucinations" in modern artificial intelligence systems are a misunderstanding of the way facts are conceptualized: language can express many plausible hypotheses, of which only a few become actual.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-26
# CULTURE-GEN:自然言語による言語モデルにおけるグローバルカルチャー知覚の解明

CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting ( http://arxiv.org/abs/2404.10199v3 )

ライセンス: Link先を確認
Huihan Li, Liwei Jiang, Jena D. Huang, Hyunwoo Kim, Sebastin Santy, Taylor Sorensen, Bill Yuchen Lin, Nouha Dziri, Xiang Ren, Yejin Choi, (参考訳) 大規模言語モデル (LLMs) の利用が世界中で増加しているため, 多様なグローバル文化に対して適切な知識と公正な表現を持つことが重要である。 本研究は,文化条件付き世代を通して,110か国と8か国における3つのSOTAモデルの文化認識を明らかにし,それぞれの文化に関連するシンボルをLLMによって抽出する。 文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。 また, LLMは文化シンボルに不均一な多様性を持ち, 異なる地理的領域の文化は, LLMの文化に依存しない世代に異なる存在であることがわかった。 本研究は,LLMにおけるグローバルカルチャー認識の知識と公正性について,さらなる研究を促進するものである。 コードとデータは、https://github.com/huihanlhh/Culture-Gen/で参照できる。

As the utilization of large language models (LLMs) has proliferated worldwide, it is crucial for them to have adequate knowledge and fair representation for diverse global cultures. In this work, we uncover culture perceptions of three SOTA models on 110 countries and regions on 8 culture-related topics through culture-conditioned generations, and extract symbols from these generations that are associated to each culture by the LLM. We discover that culture-conditioned generation consist of linguistic "markers" that distinguish marginalized cultures apart from default cultures. We also discover that LLMs have an uneven degree of diversity in the culture symbols, and that cultures from different geographic regions have different presence in LLMs' culture-agnostic generation. Our findings promote further research in studying the knowledge and fairness of global culture perception in LLMs. Code and Data can be found in: https://github.com/huihanlhh/Culture-Gen/
翻訳日:2024-04-30 22:36:34 公開日:2024-04-26
# ボルツマンモーメント系の正規化エントロピーに基づく閉鎖のための構造保存ニューラルネットワーク

Structure-preserving neural networks for the regularized entropy-based closure of the Boltzmann moment system ( http://arxiv.org/abs/2404.14312v2 )

ライセンス: Link先を確認
Steffen Schotthöfer, M. Paul Laiu, Martin Frank, Cory D. Hauck, (参考訳) 放射輸送の大規模数値シミュレーションの主な課題は、運動方程式の離散化法における高いメモリと計算時間要件である。 本研究では,低メモリフットプリントと競合計算時間で多次元モーメントシステムの解を正確に計算するために,エントロピー閉包法に対するニューラルネットワークに基づく近似を導出し,検討する。 我々は、標準的なエントロピーベースのクロージャのために開発された手法を、正規化されたエントロピーベースのクロージャの文脈に拡張する。 主な考え方は、正規化エントロピー閉包の構造保存ニューラルネットワーク近似を、元のエントロピー閉包の2段階近似として解釈することである。 この近似の数値解析を行い、最適パラメータ選択について検討する。 本手法のメモリフットプリントは,従来の計算時間とシミュレーション精度を比較検討した。 コードとトレーニングされたネットワークはすべて、GitHub https://github.com/ScSteffen/neuralEntropyClosuresとhttps://github.com/CSMMLab/KiT-RTで提供されている。

The main challenge of large-scale numerical simulation of radiation transport is the high memory and computation time requirements of discretization methods for kinetic equations. In this work, we derive and investigate a neural network-based approximation to the entropy closure method to accurately compute the solution of the multi-dimensional moment system with a low memory footprint and competitive computational time. We extend methods developed for the standard entropy-based closure to the context of regularized entropy-based closures. The main idea is to interpret structure-preserving neural network approximations of the regularized entropy closure as a two-stage approximation to the original entropy closure. We conduct a numerical analysis of this approximation and investigate optimal parameter choices. Our numerical experiments demonstrate that the method has a much lower memory footprint than traditional methods with competitive computation times and simulation accuracy. The code and all trained networks are provided on GitHub https://github.com/ScSteffen/neuralEntropyClosures and https://github.com/CSMMLab/KiT-RT.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-26
# Calc-CMU at SemEval-2024 Task 7: Pre-Calc -- 計算機を使って言語モデルの数値性を改善することを学ぶ

Calc-CMU at SemEval-2024 Task 7: Pre-Calc -- Learning to Use the Calculator Improves Numeracy in Language Models ( http://arxiv.org/abs/2404.14355v2 )

ライセンス: Link先を確認
Vishruth Veerendranath, Vishwa Shah, Kshitish Ghate, (参考訳) 言語における量的および数値的理解は、教育や金融など多くの分野で重要な課題であるが、それでも言語モデルにとって難しい課題である。 ツールと電卓の使用は、大規模な事前訓練されたデコーダのみの言語モデルで数学的推論を改善するのに有用であるが、エンコーダを持つより小さな言語モデルでは、まだ探索されていない。 本稿では,計算機をエンコーダのみのアーキテクチャとエンコーダデコーダアーキテクチャの両方に使用するために,プリカルク(Pre-Calc)を提案する。 我々は,MAWPS,SVAMP,AsDiv-Aデータセットに対して,識別計算機用BERTとRoBERTaをプレトレーニングし,数値的な理解を必要とする下流タスクの性能を向上させる。 私たちのコードとデータはhttps://github.com/calc-cmu/pre-calc.comで公開されています。

Quantitative and numerical comprehension in language is an important task in many fields like education and finance, but still remains a challenging task for language models. While tool and calculator usage has shown to be helpful to improve mathematical reasoning in large pretrained decoder-only language models, this remains unexplored for smaller language models with encoders. In this paper, we propose Pre-Calc, a simple pre-finetuning objective of learning to use the calculator for both encoder-only and encoder-decoder architectures, formulated as a discriminative and generative task respectively. We pre-train BERT and RoBERTa for discriminative calculator use and Flan-T5 for generative calculator use on the MAWPS, SVAMP, and AsDiv-A datasets, which improves performance on downstream tasks that require numerical understanding. Our code and data are available at https://github.com/calc-cmu/pre-calc.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-26
# 既存のデータセットの検索と変換によるより良い合成データ

Better Synthetic Data by Retrieving and Transforming Existing Datasets ( http://arxiv.org/abs/2404.14361v3 )

ライセンス: Link先を確認
Saumya Gandhi, Ritu Gala, Vijay Viswanathan, Tongshuang Wu, Graham Neubig, (参考訳) 近年の大規模言語モデルの発展にもかかわらず、信頼性が高くデプロイ可能なNLPモデルの構築には、多くの高品質なトレーニングデータが必要である。 しかし、多くのユースケースでタスク固有のデータは利用できず、手作業でタスク固有のデータをキュレートするのは労働集約的です。 近年の研究では、大規模言語モデルを用いたプロンプト駆動合成データ生成について研究されているが、これらのデータセットは複雑さと多様性に欠ける傾向がある。 これらの制限に対処するため、既存の公開データセットをよりよく活用して自動データセット生成を改善するために、DataTuneという手法を導入しました。 DataTuneはデータセット変換を実行することで、公開されているデータセットを、ターゲットタスクの特定の要件と直接整合したフォーマットに再利用することが可能になる。 BIG-Benchベンチマークによる多種多様な言語ベースのタスクでは、DataTuneによる微調整言語モデルは、ベースラインを49%改善し、合成または検索されたトレーニングデータを使用する既存のメソッドを34%改善する。 データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。 DataTuneをオープンソースリポジトリに統合して,このメソッドをコミュニティに公開しています。

Despite recent advances in large language models, building dependable and deployable NLP models typically requires abundant, high-quality training data. However, task-specific data is not available for many use cases, and manually curating task-specific data is labor-intensive. Recent work has studied prompt-driven synthetic data generation using large language models, but these generated datasets tend to lack complexity and diversity. To address these limitations, we introduce a method, DataTune, to make better use of existing, publicly available datasets to improve automatic dataset generation. DataTune performs dataset transformation, enabling the repurposing of publicly available datasets into a format that is directly aligned with the specific requirements of target tasks. On a diverse set of language-based tasks from the BIG-Bench benchmark, we find that finetuning language models via DataTune improves over a few-shot prompting baseline by 49% and improves over existing methods that use synthetic or retrieved training data by 34%. We find that dataset transformation significantly increases the diversity and difficulty of generated data on many tasks. We integrate DataTune into an open-source repository to make this method accessible to the community: https://github.com/neulab/prompt2model.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-26
# セマンティックセル:アイテムの多様性を解明する進化過程

Semantic Cells: Evolutional Process to Acquire Sense Diversity of Items ( http://arxiv.org/abs/2404.14749v2 )

ライセンス: Link先を確認
Yukio Ohsawa, Dingming Xue, Kaira Sekiguchi, (参考訳) 単語、文、ノード、グラフなどのアイテムとそのグループの意味ベクトルを学習する以前のモデルは、アイテムの基本感覚がターゲットの現実世界の隠れた文脈に対応する次元からなる1つのベクトルに対応するという仮定に基づいており、その項目の複数の感覚は語彙データベースに適合するか、文脈に適応するかによって得られる。 しかし、文書や制限期間内でもコンテキストシフトの後に、同化や変更がほとんどなく、動的に進化するアイテムには複数の感覚があるかもしれない。 これは、環境変化を伴う生物の進化や適応と類似したプロセスである。 著者らは、センスメイキングのための項目の曖昧さの範囲を設定し、データ中の単語や項目が、相互に交差する染色体を包含する細胞と同様、相互の相互作用を通じて進化する複数の意味ベクトルを包含する手法を提案する。 筆者らは,(1)最大又は低中規模でのセマンティックベクターの分散を得るために進化する単語の役割を,著者らによって説明できる傾向にあること,(2)クロスオーバーによる大きな分散を得る地震の震源は,多種多様な地殻との相互作用に対応し,今後の大地震の震源に対応する可能性が高いこと,の2つの予備的な結果を得た。

Previous models for learning the semantic vectors of items and their groups, such as words, sentences, nodes, and graphs, using distributed representation have been based on the assumption that the basic sense of an item corresponds to one vector composed of dimensions corresponding to hidden contexts in the target real world, from which multiple senses of the item are obtained by conforming to lexical databases or adapting to the context. However, there may be multiple senses of an item, which are hardly assimilated and change or evolve dynamically following the contextual shift even within a document or a restricted period. This is a process similar to the evolution or adaptation of a living entity with/to environmental shifts. Setting the scope of disambiguation of items for sensemaking, the author presents a method in which a word or item in the data embraces multiple semantic vectors that evolve via interaction with others, similar to a cell embracing chromosomes crossing over with each other. We obtained two preliminary results: (1) the role of a word that evolves to acquire the largest or lower-middle variance of semantic vectors tends to be explainable by the author of the text; (2) the epicenters of earthquakes that acquire larger variance via crossover, corresponding to the interaction with diverse areas of land crust, are likely to correspond to the epicenters of forthcoming large earthquakes.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-26
# ディープフェイクで音声を検知する「Breath」(動画あり)

Every Breath You Don't Take: Deepfake Speech Detection Using Breath ( http://arxiv.org/abs/2404.15143v2 )

ライセンス: Link先を確認
Seth Layton, Thiago De Andrade, Daniel Olszewski, Kevin Warren, Kevin Butler, Patrick Traynor, (参考訳) ディープフェイク・スピーチは、システムや社会に対する脅威を現実にそして増大させている。 多くの検出器が音声のディープフェイクに対する防御を支援するために作られた。 これらの検出器は無数の手法を実装しているが、多くは音声生成プロセスの低レベルフラグメントに依存している。 我々は、音声の高レベル部分である呼吸が自然音声の重要な要素であり、ディープフェイク音声における不適切な生成は、パフォーマンスの差別化要因である、と仮定する。 これを評価するために、呼吸検知器を作成し、これをオンラインニュース記事音声のカスタムデータセットと比較し、実・深層音声の識別を行う。 さらに、このカスタムデータセットを公開して、将来の作業の比較を容易にする。 我々の単純な呼吸検知器を深呼吸音声識別装置として、ミリ波サンプルに適用することで、33.6時間にわたる正確な分類(テストデータでは1.0 AUPRC、0.0 EER)が可能になる。 我々は、最先端のSSL-wav2vecモデルと比較し、この複雑なディープラーニングモデルが、同じ組込みサンプル(0.72 AUPRCと0.99 EER)の分類に完全に失敗していることを示す。

Deepfake speech represents a real and growing threat to systems and society. Many detectors have been created to aid in defense against speech deepfakes. While these detectors implement myriad methodologies, many rely on low-level fragments of the speech generation process. We hypothesize that breath, a higher-level part of speech, is a key component of natural speech and thus improper generation in deepfake speech is a performant discriminator. To evaluate this, we create a breath detector and leverage this against a custom dataset of online news article audio to discriminate between real/deepfake speech. Additionally, we make this custom dataset publicly available to facilitate comparison for future work. Applying our simple breath detector as a deepfake speech discriminator on in-the-wild samples allows for accurate classification (perfect 1.0 AUPRC and 0.0 EER on test data) across 33.6 hours of audio. We compare our model with the state-of-the-art SSL-wav2vec model and show that this complex deep learning model completely fails to classify the same in-the-wild samples (0.72 AUPRC and 0.99 EER).
翻訳日:2024-04-30 20:29:37 公開日:2024-04-26
# 能動ニューマティクスから速度場を得る場合の深層学習光学流のPIV特性

Deep-learning Optical Flow Outperforms PIV in Obtaining Velocity Fields from Active Nematics ( http://arxiv.org/abs/2404.15497v2 )

ライセンス: Link先を確認
Phu N. Tran, Sattvic Ray, Linnea Lemma, Yunrui Li, Reef Sweeney, Aparna Baskaran, Zvonimir Dogic, Pengyu Hong, Michael F. Hagan, (参考訳) 深層学習に基づく光学フロー(DLOF)は、深層畳み込みニューラルネットワークで隣接するビデオフレームの特徴を抽出する。 それらの特徴を使って、ピクセルレベルでのオブジェクトのフレーム間の動きを推定する。 本稿では,異なるラベル付け条件下でのMT-based active nematicsの自然流れを定量化するための光フローの能力を評価する。 DLOFと一般的に使われている粒子画像速度測定法(PIV)を比較した。 フィラメントの少ない試料やパッシブトレーサビーズから半自動粒子追跡を行うことにより,流れ速度基底の真理を得る。 DLOF は高密度ラベル付き試料に対して PIV よりも精度の高い速度場を生成することがわかった。 PIVの分解は、アルゴリズムが高密度のコントラスト変動を、特にネマティックディレクタと平行な方向において確実に区別できないために生じることを示す。 DLOFはこの制限を克服する。 少ないラベル付きサンプルの場合、DLOF と PIV は同様の精度で結果を生成するが、DLOF は高分解能場を与える。 本研究は, 活性, ソフト, バイオ物理系の多種多様な流れを計測するための汎用ツールとしてDLOFを確立した。

Deep learning-based optical flow (DLOF) extracts features in adjacent video frames with deep convolutional neural networks. It uses those features to estimate the inter-frame motions of objects at the pixel level. In this article, we evaluate the ability of optical flow to quantify the spontaneous flows of MT-based active nematics under different labeling conditions. We compare DLOF against the commonly used technique, particle imaging velocimetry (PIV). We obtain flow velocity ground truths either by performing semi-automated particle tracking on samples with sparsely labeled filaments, or from passive tracer beads. We find that DLOF produces significantly more accurate velocity fields than PIV for densely labeled samples. We show that the breakdown of PIV arises because the algorithm cannot reliably distinguish contrast variations at high densities, particularly in directions parallel to the nematic director. DLOF overcomes this limitation. For sparsely labeled samples, DLOF and PIV produce results with similar accuracy, but DLOF gives higher-resolution fields. Our work establishes DLOF as a versatile tool for measuring fluid flows in a broad class of active, soft, and biophysical systems.
翻訳日:2024-04-30 20:29:36 公開日:2024-04-26
# NeuraChip: ハッシュベースのデカップリング空間加速器によるGNN計算の高速化

NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator ( http://arxiv.org/abs/2404.15510v3 )

ライセンス: Link先を確認
Kaustubh Shivdikar, Nicolas Bohm Agostini, Malith Jayaweera, Gilbert Jonatan, Jose L. Abellan, Ajay Joshi, John Kim, David Kaeli, (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析からバイオインフォマティクスまで、さまざまな領域にわたる非ユークリッドデータを処理するための、恐ろしいツールとして登場している。 その効果にもかかわらず、大規模なグラフデータセットに関連するスケーラビリティ上の課題、特にメッセージパッシングを利用した場合、採用は広範に行われていない。 これらの課題に対処するために、Gustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。 NeuraChipはスパース行列乗算における乗算と加算計算を分離する。 この分離により、独自のデータ依存関係を独立して活用することができ、効率的なリソース割り当てが容易になる。 本稿では,オンチップメモリにおけるデータのアイドリングを軽減し,スパースグラフ計算におけるメモリ肥大問題に対処するためのローリングエビクション戦略を提案する。 さらに、動的再検索ハッシュベースのマッピングによって計算リソースの負荷分散を実現し、スパーシティパターンに依存しない計算リソースの均一な利用を確保する。 最後に,包括的性能解析のためのオープンソース,サイクル精度,マルチスレッド,モジュールシミュレータであるNeuraSimを紹介する。 全体として、NeuraChipはIntelのMKLよりも平均22.1倍、NVIDIAのcuSPARSEより17.1倍、AMDのhipSPARSEより16.7倍、最先端のSpGEMMアクセラレータより1.5倍、GNNアクセラレータより平均1.3倍のスピードアップを実現している。 オープンソースシミュレータとパフォーマンスビジュアライザのソースコードはGitHub https://neurachip.usで公開されている。

Graph Neural Networks (GNNs) are emerging as a formidable tool for processing non-euclidean data across various domains, ranging from social network analysis to bioinformatics. Despite their effectiveness, their adoption has not been pervasive because of scalability challenges associated with large-scale graph datasets, particularly when leveraging message passing. To tackle these challenges, we introduce NeuraChip, a novel GNN spatial accelerator based on Gustavson's algorithm. NeuraChip decouples the multiplication and addition computations in sparse matrix multiplication. This separation allows for independent exploitation of their unique data dependencies, facilitating efficient resource allocation. We introduce a rolling eviction strategy to mitigate data idling in on-chip memory as well as address the prevalent issue of memory bloat in sparse graph computations. Furthermore, the compute resource load balancing is achieved through a dynamic reseeding hash-based mapping, ensuring uniform utilization of computing resources agnostic of sparsity patterns. Finally, we present NeuraSim, an open-source, cycle-accurate, multi-threaded, modular simulator for comprehensive performance analysis. Overall, NeuraChip presents a significant improvement, yielding an average speedup of 22.1x over Intel's MKL, 17.1x over NVIDIA's cuSPARSE, 16.7x over AMD's hipSPARSE, and 1.5x over prior state-of-the-art SpGEMM accelerator and 1.3x over GNN accelerator. The source code for our open-sourced simulator and performance visualizer is publicly accessible on GitHub https://neurachip.us
翻訳日:2024-04-30 20:19:52 公開日:2024-04-26
# SynCellFactory: 細胞追跡のための生成データ拡張

SynCellFactory: Generative Data Augmentation for Cell Tracking ( http://arxiv.org/abs/2404.16421v2 )

ライセンス: Link先を確認
Moritz Sturm, Lorenzo Cerrone, Fred A. Hamprecht, (参考訳) 細胞追跡は、生体医学研究において依然として重要な課題である。 この目的のためのディープラーニングの潜在能力は、包括的かつ多様なトレーニングデータセットの可用性が制限されているため、しばしば取り除かれます。 本稿では,SynCellFactoryについて述べる。 SynCellFactoryの中心には、スタイルや動きのパターンにおいて、セルイメージをフォトリアリスティックな精度で合成するように微調整されたControlNetアーキテクチャがある。 この技術は、本物の顕微鏡タイムラプスの複雑さを反映した合成的で現実的な細胞ビデオを作成することができる。 実験により,SynCellFactoryはセル追跡のためのよく確立されたディープラーニングモデルの性能を向上することを示した。

Cell tracking remains a pivotal yet challenging task in biomedical research. The full potential of deep learning for this purpose is often untapped due to the limited availability of comprehensive and varied training data sets. In this paper, we present SynCellFactory, a generative cell video augmentation. At the heart of SynCellFactory lies the ControlNet architecture, which has been fine-tuned to synthesize cell imagery with photorealistic accuracy in style and motion patterns. This technique enables the creation of synthetic yet realistic cell videos that mirror the complexity of authentic microscopy time-lapses. Our experiments demonstrate that SynCellFactory boosts the performance of well-established deep learning models for cell tracking, particularly when original training data is sparse.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-26
# ディファレンシャルプライバシのストリーミングのための高効率・準最適ノイズ生成

Efficient and Near-Optimal Noise Generation for Streaming Differential Privacy ( http://arxiv.org/abs/2404.16706v2 )

ライセンス: Link先を確認
Krishnamurthy Dvijotham, H. Brendan McMahan, Krishna Pillutla, Thomas Steinke, Abhradeep Thakurta, (参考訳) 差分的プライベート(DP)連続カウントのタスクでは、インクリメントのストリームを受け取り、特定のインクリメントについて多くを明らかにすることなく、これらのインクリメントの総実行量を近似的に出力することを目的としています。 その単純さにもかかわらず、差分的に個人的連続的数え上げは理論と実際の両方において大きな注目を集めている。 微分プライベートな連続的数え上げのための既存のアルゴリズムは、その空間的使用法において非効率であるか、あるいは過度のノイズを付加し、準最適効用を誘導する。 最も実用的なDP連続計数アルゴリズムは、ガウス雑音を注意深く値に付加する。 このノイズの共分散を選択するタスクは、(プレフィックス和を計算する)下の三角形行列を分解する言葉で表すことができる。 本稿では,DP の連続数え上げに近似的有用性を実現し,対数的あるいは多対数的空間(および時間)のみを必要とする,このクラスからの2つのアプローチを提案する。 最初のアプローチは、Toeplitz行列のクラスに対する空間効率のよいストリーミング行列乗算アルゴリズムに基づいている。 DP連続数え上げのためにこのアルゴリズムをインスタンス化するには、複素平面上の円上の平方根を近似する低次有理関数を見つけるのに十分であることを示す。 次に、ツールを近似理論から拡張してこれを実現する。 また、任意に多くのステップに対して目的関数の効率的な閉形式を導出し、直接数値最適化がこの問題に対して非常に実用的な解をもたらすことを示す。 第2のアプローチは、最初のアプローチとバイナリツリー機構に似た再帰的な構造を組み合わせるものです。

In the task of differentially private (DP) continual counting, we receive a stream of increments and our goal is to output an approximate running total of these increments, without revealing too much about any specific increment. Despite its simplicity, differentially private continual counting has attracted significant attention both in theory and in practice. Existing algorithms for differentially private continual counting are either inefficient in terms of their space usage or add an excessive amount of noise, inducing suboptimal utility. The most practical DP continual counting algorithms add carefully correlated Gaussian noise to the values. The task of choosing the covariance for this noise can be expressed in terms of factoring the lower-triangular matrix of ones (which computes prefix sums). We present two approaches from this class (for different parameter regimes) that achieve near-optimal utility for DP continual counting and only require logarithmic or polylogarithmic space (and time). Our first approach is based on a space-efficient streaming matrix multiplication algorithm for a class of Toeplitz matrices. We show that to instantiate this algorithm for DP continual counting, it is sufficient to find a low-degree rational function that approximates the square root on a circle in the complex plane. We then apply and extend tools from approximation theory to achieve this. We also derive efficient closed-forms for the objective function for arbitrarily many steps, and show direct numerical optimization yields a highly practical solution to the problem. Our second approach combines our first approach with a recursive construction similar to the binary tree mechanism.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-26
# 暗号通貨における信頼ダイナミクスと市場行動:中央集権取引所と分権取引所の比較研究

Trust Dynamics and Market Behavior in Cryptocurrency: A Comparative Study of Centralized and Decentralized Exchanges ( http://arxiv.org/abs/2404.17227v1 )

ライセンス: Link先を確認
Xintong Wu, Wanling Deng, Yuotng Quan, Luyao Zhang, (参考訳) デジタルファイナンスの進化する状況において、中央集権的な信頼メカニズムから分散化された信頼メカニズムへの移行は、主にブロックチェーン技術によって推進され、暗号通貨エコシステムを形成する上で重要な役割を担っている。 このパラダイムシフトは、従来の中央集権的信頼への依存に関する疑問を提起し、分散ネットワーク上に構築された新しい分散型信頼フレームワークを導入する。 特に、インシデントが仮想通貨市場における信頼にどのように影響し、それによって中央集権(CEX)および分散取引所(DEX)における貿易行動に影響を及ぼすかに焦点を当てている。 各種イベントの包括的分析を行い、CEXおよびDEXのトークン評価や取引量など市場ダイナミクスへの影響を評価する。 本研究は,ユーザの嗜好を指示する上での信頼の役割と,集中型プラットフォームと分散型プラットフォーム間の信頼移転の流動性を明らかにするものである。 ある種の異常にもかかわらず、結果は最初の仮説と大きく一致し、暗号通貨市場におけるユーザー信頼の複雑な性質を明らかにした。 本研究は,学際研究,分散システムのブリッジング,行動金融,分散ファイナンス(DeFi)に大きく貢献する。 分散コンピューティングコミュニティ、特にデジタルエコノミーにおける分散信頼メカニズムの理解と適用に関する貴重な洞察を提供し、社会経済的側面をさらに探求し、このダイナミックドメインにおけるブロックチェーンデータを活用するための将来の研究の道を開く。

In the evolving landscape of digital finance, the transition from centralized to decentralized trust mechanisms, primarily driven by blockchain technology, plays a critical role in shaping the cryptocurrency ecosystem. This paradigm shift raises questions about the traditional reliance on centralized trust and introduces a novel, decentralized trust framework built upon distributed networks. Our research delves into the consequences of this shift, particularly focusing on how incidents influence trust within cryptocurrency markets, thereby affecting trade behaviors in centralized (CEXs) and decentralized exchanges (DEXs). We conduct a comprehensive analysis of various events, assessing their effects on market dynamics, including token valuation and trading volumes in both CEXs and DEXs. Our findings highlight the pivotal role of trust in directing user preferences and the fluidity of trust transfer between centralized and decentralized platforms. Despite certain anomalies, the results largely align with our initial hypotheses, revealing the intricate nature of user trust in cryptocurrency markets. This study contributes significantly to interdisciplinary research, bridging distributed systems, behavioral finance, and Decentralized Finance (DeFi). It offers valuable insights for the distributed computing community, particularly in understanding and applying distributed trust mechanisms in digital economies, paving the way for future research that could further explore the socio-economic dimensions and leverage blockchain data in this dynamic domain.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-26
# CoSD:コントラストな異種トピックグラフ学習による協調的スタンス検出

CoSD: Collaborative Stance Detection with Contrastive Heterogeneous Topic Graph Learning ( http://arxiv.org/abs/2404.17609v1 )

ライセンス: Link先を確認
Yinghan Cheng, Qi Zhang, Chongyang Shi, Liang Xiao, Shufeng Hao, Liang Hu, (参考訳) スタンス検出は、特定の目標や議論の的となるトピックに対して、個人の視点を特定しようとする。 姿勢検出のための現在の高度なニューラルネットワークは、通常完全にパラメトリックなソフトマックス分類器を使用する。 しかし、これらの手法には、説明可能性の欠如、潜伏データ構造への敏感さ、一様性など、いくつかの制限がある。 このような課題に対処するために,コントラストのある異種トピックグラフ学習を活用して,テキスト,トピック,スタンスラベル間のトピック認識や協調的な信号の学習を行う,新しい協調的スタンス検出フレームワーク(CoSD)を提案する。 トレーニング中、潜在ディリクレアロケーションを用いて、暗黙のトピックを通してテキストやスタンスを構造的に整理する異種グラフを構築した。 次に、異種ノード表現を学習し、詳細なコラボレーション伝搬集約(CPA)モジュールを介して情報的な複数ホップ協調信号を集約するコントラストグラフ学習を行う。 推論において,トピック認識のセマンティクスと協調信号の包括的組み込みを可能にするハイブリッド類似度スコアリングモジュールを導入し,姿勢検出を行う。 2つのベンチマークデータセットに対する大規模な実験は、CoSDの最先端検出性能を示し、協調フレームワークの有効性と説明可能性を検証する。

Stance detection seeks to identify the viewpoints of individuals either in favor or against a given target or a controversial topic. Current advanced neural models for stance detection typically employ fully parametric softmax classifiers. However, these methods suffer from several limitations, including lack of explainability, insensitivity to the latent data structure, and unimodality, which greatly restrict their performance and applications. To address these challenges, we present a novel collaborative stance detection framework called (CoSD) which leverages contrastive heterogeneous topic graph learning to learn topic-aware semantics and collaborative signals among texts, topics, and stance labels for enhancing stance detection. During training, we construct a heterogeneous graph to structurally organize texts and stances through implicit topics via employing latent Dirichlet allocation. We then perform contrastive graph learning to learn heterogeneous node representations, aggregating informative multi-hop collaborative signals via an elaborate Collaboration Propagation Aggregation (CPA) module. During inference, we introduce a hybrid similarity scoring module to enable the comprehensive incorporation of topic-aware semantics and collaborative signals for stance detection. Extensive experiments on two benchmark datasets demonstrate the state-of-the-art detection performance of CoSD, verifying the effectiveness and explainability of our collaborative framework.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-26
# 単一指紋画像からのDense Distortion Fieldの回帰

Regression of Dense Distortion Field from a Single Fingerprint Image ( http://arxiv.org/abs/2404.17610v1 )

ライセンス: Link先を確認
Xiongjun Guan, Yongjie Duan, Jianjiang Feng, Jie Zhou, (参考訳) 皮膚の歪みは指紋マッチングにおける長期にわたる課題であり、偽の非マッチングを引き起こす。 従来の研究では、歪んだ指紋から歪み場を推定し、正常な指紋に修正することで認識率が向上することが示されている。 しかし, 既存の補正法は歪み場の主成分表現に基づいており, 精度は高く, 指のポーズに非常に敏感である。 本稿では, 自己参照に基づくネットワークを用いて, 低次元表現ではなく, 歪んだ指紋の密度歪み場を直接推定する補正手法を提案する。 種々の指ポーズと歪みパターンを有する歪んだ指紋の正確な歪み場を出力することができる。 我々は,FVC 2004 DB1\_A,Tsinghua Distorted Fingerprint Databaseの拡張(多彩な指ポーズと歪みパターンの変形指紋の追加)および潜時指紋データベースの実験を行った。 実験により,提案手法は歪み場推定と整形指紋マッチングの観点から,最先端の整形性能を実現することを示す。

Skin distortion is a long standing challenge in fingerprint matching, which causes false non-matches. Previous studies have shown that the recognition rate can be improved by estimating the distortion field from a distorted fingerprint and then rectifying it into a normal fingerprint. However, existing rectification methods are based on principal component representation of distortion fields, which is not accurate and are very sensitive to finger pose. In this paper, we propose a rectification method where a self-reference based network is utilized to directly estimate the dense distortion field of distorted fingerprint instead of its low dimensional representation. This method can output accurate distortion fields of distorted fingerprints with various finger poses and distortion patterns. We conducted experiments on FVC2004 DB1\_A, expanded Tsinghua Distorted Fingerprint database (with additional distorted fingerprints in diverse finger poses and distortion patterns) and a latent fingerprint database. Experimental results demonstrate that our proposed method achieves the state-of-the-art rectification performance in terms of distortion field estimation and rectified fingerprint matching.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-26
# MetaSD: さまざまな状況における気象変動のスケーラブルなダウンスケーリングのための統一フレームワーク

MetaSD: A Unified Framework for Scalable Downscaling of Meteorological Variables in Diverse Situations ( http://arxiv.org/abs/2404.17611v1 )

ライセンス: Link先を確認
Jing Hu, Honghu Zhang, Peng Zheng, Jialin Mu, Xiaomeng Huang, Xi Wu, (参考訳) 複雑な気象過程に細かな空間分解能で対処するには、かなりの計算資源が必要である。 気象シミュレーションを加速するために、研究者はニューラルネットワークを用いて低分解能シミュレーションから気象変数をダウンスケールさせた。 顕著な進歩にもかかわらず、現代の最先端のダウンスケーリングアルゴリズムは特定の変数に合わせている。 孤立して気象変数に対処することは、相互接続性を見落とし、大気力学の不完全な理解につながる。 さらに、個々の変数のダウンスケーリングに必要なデータ収集、アノテーション、計算リソースの面倒なプロセスは、重大なハードルである。 本稿では,異なる気象変数をまたいだ既存モデルの汎用性に限界があることから,メタラーニングを活用した統一的なダウンスケーリング手法を提案する。 この枠組みは,様々な数値モデルと時空間スケールから導かれる多様な気象変数のスケールダウンを容易にすることを目的としている。 ERA5, GFSの温度, 風速, 表面圧力, 総降水量から, 種々の時空間スケールでCFS, S2S, CMIP6の対流降水量, 電位エネルギー, 高さ, 湿度, オゾン量に拡張できる。 私たちのアプローチは、一般化されたダウンスケーリングモデルを作成するための最初の取り組みを表しています。 実験的な証拠は、提案モデルが、定量評価と定性評価の両方において、既存のトップダウンスケーリング手法より優れていることを示している。

Addressing complex meteorological processes at a fine spatial resolution requires substantial computational resources. To accelerate meteorological simulations, researchers have utilized neural networks to downscale meteorological variables from low-resolution simulations. Despite notable advancements, contemporary cutting-edge downscaling algorithms tailored to specific variables. Addressing meteorological variables in isolation overlooks their interconnectedness, leading to an incomplete understanding of atmospheric dynamics. Additionally, the laborious processes of data collection, annotation, and computational resources required for individual variable downscaling are significant hurdles. Given the limited versatility of existing models across different meteorological variables and their failure to account for inter-variable relationships, this paper proposes a unified downscaling approach leveraging meta-learning. This framework aims to facilitate the downscaling of diverse meteorological variables derived from various numerical models and spatiotemporal scales. Trained at variables consisted of temperature, wind, surface pressure and total precipitation from ERA5 and GFS, the proposed method can be extended to downscale convective precipitation, potential energy, height, humidity and ozone from CFS, S2S and CMIP6 at different spatiotemporal scales, which demonstrating its capability to capture the interconnections among diverse variables. Our approach represents the initial effort to create a generalized downscaling model. Experimental evidence demonstrates that the proposed model outperforms existing top downscaling methods in both quantitative and qualitative assessments.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-26
# 量子パッチによる異常セグメンテーションのためのオートエンコーダ

Quantum Patch-Based Autoencoder for Anomaly Segmentation ( http://arxiv.org/abs/2404.17613v1 )

ライセンス: Link先を確認
Maria Francisca Madeira, Alessandro Poggiali, Jeanette Miriam Lorenz, (参考訳) 量子機械学習は、機械学習アルゴリズムを強化する量子コンピュータの可能性を調べる。 異常セグメンテーション(英: Anomaly segmentation)は、様々な領域において、サンプルレベルで不規則を識別するための基本的なタスクであり、教師なしと教師なしの両方の手法で対処できる。 オートエンコーダは教師なしのタスクで一般的に使われ、モデルが通常のインスタンスを効率的に再構築するために訓練され、高い再構成エラーによる異常識別が可能である。 量子オートエンコーダは文献で提案されているが、それらの異常セグメンテーションタスクへの応用は未解明のままである。 本稿では、パッチサイズと対数的にスケールするパラメータを多数有する、画像異常セグメンテーションのためのパッチベースの量子オートエンコーダ(QPB-AE)を提案する。 QPB-AEは、組込み入力パッチの量子状態を再構成し、入力イメージを再構成することなくSWAPテストを通じて測定から直接異常マップを演算する。 複数のデータセットとパラメータ構成でその性能を評価し,従来のものと比較した。

Quantum Machine Learning investigates the possibility of quantum computers enhancing Machine Learning algorithms. Anomaly segmentation is a fundamental task in various domains to identify irregularities at sample level and can be addressed with both supervised and unsupervised methods. Autoencoders are commonly used in unsupervised tasks, where models are trained to reconstruct normal instances efficiently, allowing anomaly identification through high reconstruction errors. While quantum autoencoders have been proposed in the literature, their application to anomaly segmentation tasks remains unexplored. In this paper, we introduce a patch-based quantum autoencoder (QPB-AE) for image anomaly segmentation, with a number of parameters scaling logarithmically with patch size. QPB-AE reconstructs the quantum state of the embedded input patches, computing an anomaly map directly from measurement through a SWAP test without reconstructing the input image. We evaluate its performance across multiple datasets and parameter configurations and compare it against a classical counterpart.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# DeepVARMA: 化学産業指標予測のためのハイブリッドディープラーニングとVARMAモデル

DeepVARMA: A Hybrid Deep Learning and VARMA Model for Chemical Industry Index Forecasting ( http://arxiv.org/abs/2404.17615v1 )

ライセンス: Link先を確認
Xiang Li, Hu Yang, (参考訳) 化学産業指数は化学産業の発展を測る重要な指標の1つであり、産業の経済状況や動向を理解する上で重要であると予測している。 本稿では,多変量非定常連続合成材料指数を主研究対象とし,LSTMモデルとVARMAXモデルを組み合わせた新しい予測モデルであるDeep-VARMA-reとDeep-VARMA-enを提案する。 新たなモデルはまず、LSTMのような深層学習モデルを用いて、対象時系列の傾向を除去し、内在変数の表現を学習し、次にVARMAXモデルを用いて、拡張対象時系列を内在変数の埋め込みで予測し、最終的にLSTMが学習したトレンドとVARMAXモデルが学習した依存性を組み合わせて最終的な予測値を得る。 実験の結果,(1)新モデルは,外因性変数のLSTMエンコーディングとVARMAXモデルを組み合わせることで,最高の予測精度が得られることがわかった。 2)多変量非定常系列予測において,DeepVARMAは,従来のVARMAモデルや機械学習モデルLSTM,RF,XGBoostよりも高い適応性と精度を示すため,位相処理戦略を用いる。 (3)スムーズなシーケンス予測と比較すると,従来のVARMAモデルとVARMAXモデルは非滑らかなシーケンスの予測においてより変動し,DeepVARMAはより柔軟性と堅牢性を示す。 本研究は, 化学産業における今後の開発・科学的意思決定のための, より正確なツールと方法を提供する。

Since the chemical industry index is one of the important indicators to measure the development of the chemical industry, forecasting it is critical for understanding the economic situation and trends of the industry. Taking the multivariable nonstationary series-synthetic material index as the main research object, this paper proposes a new prediction model: DeepVARMA, and its variants Deep-VARMA-re and DeepVARMA-en, which combine LSTM and VARMAX models. The new model firstly uses the deep learning model such as the LSTM remove the trends of the target time series and also learn the representation of endogenous variables, and then uses the VARMAX model to predict the detrended target time series with the embeddings of endogenous variables, and finally combines the trend learned by the LSTM and dependency learned by the VARMAX model to obtain the final predictive values. The experimental results show that (1) the new model achieves the best prediction accuracy by combining the LSTM encoding of the exogenous variables and the VARMAX model. (2) In multivariate non-stationary series prediction, DeepVARMA uses a phased processing strategy to show higher adaptability and accuracy compared to the traditional VARMA model as well as the machine learning models LSTM, RF and XGBoost. (3) Compared with smooth sequence prediction, the traditional VARMA and VARMAX models fluctuate more in predicting non-smooth sequences, while DeepVARMA shows more flexibility and robustness. This study provides more accurate tools and methods for future development and scientific decision-making in the chemical industry.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 従来の脅威を超えて - フェデレートラーニングに対する永続的なバックドア攻撃

Beyond Traditional Threats: A Persistent Backdoor Attack on Federated Learning ( http://arxiv.org/abs/2404.17617v1 )

ライセンス: Link先を確認
Tao Liu, Yuhang Zhang, Zhu Feng, Zhiqin Yang, Chen Xu, Dapeng Man, Wu Yang, (参考訳) 連合学習のバックドアは、その後の良心的なアップデートによって希薄になる。 これは、イテレーションが増加し、最終的に失敗するにつれて、攻撃の成功率の大幅な低下を反映している。 我々は、アタック永続性と呼ばれる、この弱められたバックドア効果の度合いを定量化するために、新しいメトリクスを使用します。 この性能を改善するための研究はあまり注目されていないことから,本研究ではFCBA(Full Combination Backdoor Attack)法を提案する。 グローバルモデルにおいて、より完全なバックドアパターンのための、より複合的なトリガ情報を収集します。 トレーニングされたバックドアのグローバルモデルでは、更新の良し悪しが増し、テストセットでの攻撃成功率が向上する。 3つのデータセットをテストし、さまざまな設定で2つのモデルで評価する。 FCBAの永続性はSOTAの学習バックドア攻撃よりも優れています。 GTSRBでは,120発の攻撃後,攻撃成功率はベースラインから50%以上上昇した。 私たちのメソッドのコアコードはhttps://github.com/PhD-TaoLiu/FCBA.comで公開されています。

Backdoors on federated learning will be diluted by subsequent benign updates. This is reflected in the significant reduction of attack success rate as iterations increase, ultimately failing. We use a new metric to quantify the degree of this weakened backdoor effect, called attack persistence. Given that research to improve this performance has not been widely noted,we propose a Full Combination Backdoor Attack (FCBA) method. It aggregates more combined trigger information for a more complete backdoor pattern in the global model. Trained backdoored global model is more resilient to benign updates, leading to a higher attack success rate on the test set. We test on three datasets and evaluate with two models across various settings. FCBA's persistence outperforms SOTA federated learning backdoor attacks. On GTSRB, postattack 120 rounds, our attack success rate rose over 50% from baseline. The core code of our method is available at https://github.com/PhD-TaoLiu/FCBA.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 量子ボルツマン法におけるモメンタム交換法

Momentum exchange method for quantum Boltzmann methods ( http://arxiv.org/abs/2404.17618v1 )

ライセンス: Link先を確認
Merel A. Schalkers, Matthias Möller, (参考訳) 過去数年間、計算流体力学(CFD)の量子アルゴリズムが急増してきた。 これらのアルゴリズムは、アルゴリズムの性能向上を約束する一方で、特定の測定方法が提案されていないという点で共通している。 これは、文献で提示されたアルゴリズムは、最終流れ場を表す量子状態を作成するための有望な方法であるかもしれないが、効率的な測定戦略は利用できないことを意味する。 本稿では,フロー場を表す状態ベクトルから興味量(QoIs)を効率的に計算するために提案された最初の量子法を示す。 特に,格子ボルツマン法でよく用いられる運動量交換法(MEM)の量子バージョンを用いて,流体中に浸漬された物体に作用する力を計算する手法を提案する。 これを実現するために、さらに量子コンピュータ上でバウンスバック境界条件を実装するスキームを、運動量交換法が設計する境界条件として与える。

The past years have seen a surge in quantum algorithms for computational fluid dynamics (CFD). These algorithms have in common that whilst promising a speed-up in the performance of the algorithm, no specific method of measurement has been suggested. This means that while the algorithms presented in the literature may be promising methods for creating the quantum state that represents the final flow field, an efficient measurement strategy is not available. This paper marks the first quantum method proposed to efficiently calculate quantities of interest (QoIs) from a state vector representing the flow field. In particular, we propose a method to calculate the force acting on an object immersed in the fluid using a quantum version of the momentum exchange method (MEM) that is commonly used in lattice Boltzmann methods to determine the drag and lift coefficients. In order to achieve this we furthermore give a scheme that implements bounce back boundary conditions on a quantum computer, as those are the boundary conditions the momentum exchange method is designed for.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# ニューラルモード:非線形モーダル部分空間の自己教師型学習

Neural Modes: Self-supervised Learning of Nonlinear Modal Subspaces ( http://arxiv.org/abs/2404.17620v1 )

ライセンス: Link先を確認
Jiahong Wang, Yinwei Du, Stelian Coros, Bernhard Thomaszewski, (参考訳) 実時間シミュレーションのための物理に基づく部分空間学習のための自己教師型アプローチを提案する。 既存の学習に基づく手法は、あらかじめ定義されたシミュレーションデータを純粋に幾何学的に近似することで、サブスペースを構築する。 しかし、このアプローチは高エネルギーな構成を生み出し、絡み合ったラテント空間次元をもたらし、トレーニングセットを超えるほど一般化しない傾向にある。 これらの制約を克服するために,訓練中のシステムの機械的エネルギーを直接最小化する自己教師型アプローチを提案する。 本手法は, 物理平衡制約を反映した学習部分空間を導出し, 従来の手法の過度に適合する問題を解き, 解釈可能な潜在空間パラメータを提供することを示す。

We propose a self-supervised approach for learning physics-based subspaces for real-time simulation. Existing learning-based methods construct subspaces by approximating pre-defined simulation data in a purely geometric way. However, this approach tends to produce high-energy configurations, leads to entangled latent space dimensions, and generalizes poorly beyond the training set. To overcome these limitations, we propose a self-supervised approach that directly minimizes the system's mechanical energy during training. We show that our method leads to learned subspaces that reflect physical equilibrium constraints, resolve overfitting issues of previous methods, and offer interpretable latent space parameters.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# MR画像の高速化のための注意型非剛性画像登録法

Attention-aware non-rigid image registration for accelerated MR imaging ( http://arxiv.org/abs/2404.17621v1 )

ライセンス: Link先を確認
Aya Ghoul, Jiazhen Pan, Andreas Lingg, Jens Kübler, Patrick Krumm, Kerstin Hammernik, Daniel Rueckert, Sergios Gatidis, Thomas Küstner, (参考訳) 高加速度率での正確な動き推定は、診断画像の品質を損なうことなく、MRI(磁気共鳴画像)の高速な動き補償再構成を可能にする。 そこで本研究では,MRIの完全サンプリングと高速化のために,非厳密なペアワイズ登録を行うことのできる,注目に敏感なディープラーニングベースのフレームワークを提案する。 我々は,複数の解像度で登録された画像ペア間の類似度マップを構築するために,局所的な視覚表現を抽出し,また,アンダーサンプによるアーティファクトの存在の曖昧さを軽減するために,トランスフォーマーベースのモジュールを用いて長距離コンテキスト情報を活用する。 局所的および大域的依存関係を組み合わせて、粗大度と微動推定を同時に行う。 心・胸部MRIを施行した101例と健常者62例について, 完全採取および加速データを用いて検討した。 動き補償再構成の下流作業に対する動き推定精度の影響を解析した。 本モデルでは,異なるサンプリング軌跡(カルテシアンおよびラジアル)にまたがる安定かつ一貫した運動場と,最大16倍の心動,30倍の呼吸運動の加速度係数を導出し,従来と最近の深層学習に基づくアプローチと比較して,運動補償再建における画像品質を質的かつ定量的に向上することを示した。 コードはhttps://github.com/lab-midas/GMARAFTで公開されている。

Accurate motion estimation at high acceleration factors enables rapid motion-compensated reconstruction in Magnetic Resonance Imaging (MRI) without compromising the diagnostic image quality. In this work, we introduce an attention-aware deep learning-based framework that can perform non-rigid pairwise registration for fully sampled and accelerated MRI. We extract local visual representations to build similarity maps between the registered image pairs at multiple resolution levels and additionally leverage long-range contextual information using a transformer-based module to alleviate ambiguities in the presence of artifacts caused by undersampling. We combine local and global dependencies to perform simultaneous coarse and fine motion estimation. The proposed method was evaluated on in-house acquired fully sampled and accelerated data of 101 patients and 62 healthy subjects undergoing cardiac and thoracic MRI. The impact of motion estimation accuracy on the downstream task of motion-compensated reconstruction was analyzed. We demonstrate that our model derives reliable and consistent motion fields across different sampling trajectories (Cartesian and radial) and acceleration factors of up to 16x for cardiac motion and 30x for respiratory motion and achieves superior image quality in motion-compensated reconstruction qualitatively and quantitatively compared to conventional and recent deep learning-based approaches. The code is publicly available at https://github.com/lab-midas/GMARAFT.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land

Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land ( http://arxiv.org/abs/2404.17625v1 )

ライセンス: Link先を確認
Simone Scardapane, (参考訳) この本は、現代の(深層)ニューラルネットワークの設計を自己完結した紹介である。 神経」という言葉は多くの歴史的な手荷物を伴っているので、私はテキストの「微分可能なモデル」という単純な用語を好む。 この250ページのボリュームは、畳み込み、トランスフォーマー、グラフ層、現代的なリカレントモデル(線形化されたトランスフォーマーや構造化状態空間モデルを含む)を含む$n$Dデータを処理するための効率的なブロックを構築することに焦点を当てている。 この分野は急速に進化していますので、理論とコード、歴史的考察、最近のトレンドのバランスを保とうとしています。 読者は機械学習や線形代数にある程度触れていると思いますが、必要であれば予備項をカバーしようとします。 この巻は、私がSapienzaで教えたNeural Networks for Data Science Applications(ニューラルネットワーク・フォー・データサイエンス・アプリケーション)というコースの講義ノートから、洗練された草稿である。 私は、多くの高度なトピック(生成モデリング、説明可能性、プロンプト、エージェント)をカバーしていません。

This book is a self-contained introduction to the design of modern (deep) neural networks. Because the term "neural" comes with a lot of historical baggage, I prefer the simpler term "differentiable models" in the text. The focus of this 250-pages volume is on building efficient blocks for processing $n$D data, including convolutions, transformers, graph layers, and modern recurrent models (including linearized transformers and structured state-space models). Because the field is evolving quickly, I have tried to strike a good balance between theory and code, historical considerations and recent trends. I assume the reader has some exposure to machine learning and linear algebra, but I try to cover the preliminaries when necessary. The volume is a refined draft from a set of lecture notes for a course called Neural Networks for Data Science Applications that I teach in Sapienza. I do not cover many advanced topics (generative modeling, explainability, prompting, agents), which will be published over time in the companion website.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 英国バイオバンクにおける祖先特異的疾患予測のための事前学習と相互作用モデル

Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank ( http://arxiv.org/abs/2404.17626v1 )

ライセンス: Link先を確認
Thomas Le Menestrel, Erin Craig, Robert Tibshirani, Trevor Hastie, Manuel Rivas, (参考訳) 近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示し、遺伝的研究における重要なギャップを浮き彫りにしている。 そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。 英国バイオバンクにおける多様な祖先に着目した疾患予測におけるG群LASSO Interaction-NET(glinternet)とプレトレーニングラッソ(pretrained lasso)の性能評価を行った。 モデルは、ホワイト・ブリティッシュや他の祖先のデータに基づいて訓練され、8つの病気に対して96,000人以上の個人からなるコホートで検証された。 訓練した96モデルのうち、統計学的に有意な漸進的な予測性能をROC-AUCスコアで報告した。 これらの結果から,複数の祖先に情報を借りる高度な統計手法は,疾患のリスク予測を改善するが,利益は限定的である可能性が示唆された。

Recent genome-wide association studies (GWAS) have uncovered the genetic basis of complex traits, but show an under-representation of non-European descent individuals, underscoring a critical gap in genetic research. Here, we assess whether we can improve disease prediction across diverse ancestries using multiomic data. We evaluate the performance of Group-LASSO INTERaction-NET (glinternet) and pretrained lasso in disease prediction focusing on diverse ancestries in the UK Biobank. Models were trained on data from White British and other ancestries and validated across a cohort of over 96,000 individuals for 8 diseases. Out of 96 models trained, we report 16 with statistically significant incremental predictive performance in terms of ROC-AUC scores. These findings suggest that advanced statistical methods that borrow information across multiple ancestries may improve disease risk prediction, but with limited benefit.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# テキストデータ拡張のための大規模言語モデルの構築

Empowering Large Language Models for Textual Data Augmentation ( http://arxiv.org/abs/2404.17642v1 )

ライセンス: Link先を確認
Yichuan Li, Kaize Ding, Jianling Wang, Kyumin Lee, (参考訳) 自然言語命令の理解と実行の能力によって、大規模言語モデル(LLM)は、テキストデータ拡張のための強力なツールとして機能する可能性がある。 しかし、強化されたデータの品質は、提供された拡張命令に大きく依存しており、その効果は下流の様々なタスクで変動する可能性がある。 手動で命令を作成して選択することは、いくつかの改善をもたらすが、このアプローチは下流タスクの多様性のために、実際にスケーラビリティと一貫性の問題に直面している。 本研究では,これらの制約に対処するため,大規模な拡張命令を自動生成し,最適なタスクインフォームド命令を選択する新たなソリューションを提案する。 実験的に,提案手法は,LLM や LLM をベースとしたデータ拡張手法と比較して,常に高品質な拡張データを生成する。

With the capabilities of understanding and executing natural language instructions, Large language models (LLMs) can potentially act as a powerful tool for textual data augmentation. However, the quality of augmented data depends heavily on the augmentation instructions provided, and the effectiveness can fluctuate across different downstream tasks. While manually crafting and selecting instructions can offer some improvement, this approach faces scalability and consistency issues in practice due to the diversity of downstream tasks. In this work, we address these limitations by proposing a new solution, which can automatically generate a large pool of augmentation instructions and select the most suitable task-informed instructions, thereby empowering LLMs to create high-quality augmented data for different downstream tasks. Empirically, the proposed approach consistently generates augmented data with better quality compared to non-LLM and LLM-based data augmentation methods, leading to the best performance on 26 few-shot learning tasks sourced from a wide range of application domains.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 離散化の有無を考慮した条件付き独立試験

A Conditional Independence Test in the Presence of Discretization ( http://arxiv.org/abs/2404.17644v1 )

ライセンス: Link先を確認
Boyang Sun, Yu Yao, Huangyuan Hao, Yumou Qiu, Kun Zhang, (参考訳) 条件付き独立性のテストには、ベイジアンネットワーク学習や因果発見など、多くの応用がある。 様々な試験方法が提案されている。 しかし、離散化された観測しかできない場合、既存の手法は一般的には機能しない。 具体的には、 $X_1$, $\tilde{X}_2$ と $X_3$ を観測変数とし、 $\tilde{X}_2$ は潜伏変数 $X_2$ の離散化である。 既存のテストメソッドを$X_1$, $\tilde{X}_2$, $X_3$の観測に適用すると、変数の条件独立性に関する誤った結論が導かれる。 そこで我々は,このような離散化の存在に配慮した条件付き独立性テストを提案する。 これを実現するために,基礎となる潜伏連続変数の統計情報を反映したパラメータを復元するブリッジ方程式を設計する。 条件独立の無効仮説に基づく適切なテスト統計学とその漸近分布も導出されている。 提案手法の有効性を実証し, 理論的結果と実証的検証を行った。

Testing conditional independence has many applications, such as in Bayesian network learning and causal discovery. Different test methods have been proposed. However, existing methods generally can not work when only discretized observations are available. Specifically, consider $X_1$, $\tilde{X}_2$ and $X_3$ are observed variables, where $\tilde{X}_2$ is a discretization of latent variables $X_2$. Applying existing test methods to the observations of $X_1$, $\tilde{X}_2$ and $X_3$ can lead to a false conclusion about the underlying conditional independence of variables $X_1$, $X_2$ and $X_3$. Motivated by this, we propose a conditional independence test specifically designed to accommodate the presence of such discretization. To achieve this, we design the bridge equations to recover the parameter reflecting the statistical information of the underlying latent continuous variables. An appropriate test statistic and its asymptotic distribution under the null hypothesis of conditional independence have also been derived. Both theoretical results and empirical validation have been provided, demonstrating the effectiveness of our test methods.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 電子のスピン認識運動と時空運動量分光

Spin-aware movement of electrons and time-of-flight momentum spectroscopy ( http://arxiv.org/abs/2404.17646v1 )

ライセンス: Link先を確認
Siddhant Das, (参考訳) De Broglie-Bohm のパイロット波動理論(英語版)の枠組みでは、スピン-1/2粒子の有界運動と非有界運動を記述した2つのペラゴジカル問題を考察する: まず、球状箱の基底状態に閉じ込められた1つのスピン-1/2粒子を、その理論の相対論的および非相対論的バージョンの両方で研究し、次に、この粒子の閉じ込めが解放された後にこの粒子の自由時間進化を調べた。

In the framework of the de Broglie-Bohm pilot-wave theory, or Bohmian mechanics, we examine two pedagogical problems that illustrate the bound and unbound motion of spin-1/2 particles: First, a single spin-1/2 particle trapped in the ground state of a spherical box is studied in both the relativistic and nonrelativistic versions of the theory; second, the free time evolution of this particle once the confinement is released is examined, demonstrating how the Fourier transform of the prepared wave function yields the statistics of the particle's far-field (asymptotic) velocity, thereby providing a deeper understanding of time-of-flight momentum spectroscopy techniques.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# ベストファースト幅探索によるLAMAの統合

Consolidating LAMA with Best-First Width Search ( http://arxiv.org/abs/2404.17648v1 )

ライセンス: Link先を確認
Augusto B. Corrêa, Jendrik Seipp, (参考訳) ヒューリスティック検索アルゴリズムの重要な決定は、探索とエクスプロイトのバランスを取る方法である。 古典的な計画では、この点で最も成功したアプローチとして、斬新な探索が生まれている。 その考え方は、計画を探す際に、これまで見つからなかった事実を含む州を優先することにある。 これは、以前の州で観測された事実のタプルの記録を維持することによって行われる。 状態の新規性は、これまで目に見えない最小のタプルのサイズである。 ノベルティ探索の最も成功したバージョンはベストファーストワイドサーチ(BFWS)であり、ノベルティ測度とヒューリスティック推定を組み合わせたものである。 探索・探索のバランスを取るための直交的なアプローチは、いくつかのオープンリストを使用することである。 これらのオープンリストは、異なるヒューリスティック推定を用いて順序付けされ、検索で使用される情報を多様化する。 検索アルゴリズムは、これらのオープンリストを交互に切り換えて、これらの異なる推定値を活用する。 これは、古典的なプランナーであるLAMAが、リリースから10年経った今でもアジャイル計画の最先端と見なしているアプローチである。 本稿では,LAMAとBFWSの組合せについて検討する。 BFWSで使われている最強のオープンリストをLAMAに追加するだけでパフォーマンスが損なわれることを示す。 しかしながら、各プランナーの一部だけを組み合わせることで、新しい最先端のアジャイルプランナーが生まれることが示されています。

One key decision for heuristic search algorithms is how to balance exploration and exploitation. In classical planning, novelty search has come out as the most successful approach in this respect. The idea is to favor states that contain previously unseen facts when searching for a plan. This is done by maintaining a record of the tuples of facts observed in previous states. Then the novelty of a state is the size of the smallest previously unseen tuple. The most successful version of novelty search is best-first width search (BFWS), which combines novelty measures with heuristic estimates. An orthogonal approach to balance exploration-exploitation is to use several open-lists. These open-lists are ordered using different heuristic estimates, which diversify the information used in the search. The search algorithm then alternates between these open-lists, trying to exploit these different estimates. This is the approach used by LAMA, a classical planner that, a decade after its release, is still considered state-of-the-art in agile planning. In this paper, we study how to combine LAMA and BFWS. We show that simply adding the strongest open-list used in BFWS to LAMA harms performance. However, we show that combining only parts of each planner leads to a new state-of-the-art agile planner.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# Hard ASH: スパーシリティと適切なオプティマイザは継続的な学習者を生み出す

Hard ASH: Sparsity and the right optimizer make a continual learner ( http://arxiv.org/abs/2404.17651v1 )

ライセンス: Link先を確認
Santtu Keskinen, (参考訳) クラスインクリメンタルラーニングでは、ニューラルネットワークは通常、破滅的な忘れ込みに悩まされる。 本研究では,スパースアクティベーション機能と適応学習率オプティマイザを備えたMLPが,Split-MNISTタスクにおいて確立された正規化手法と競合することを示す。 本稿では、この文脈におけるAdaptive SwisH(ASH)アクティベーション機能の有効性を強調し、学習保持をさらに強化するために、新しい変種であるHard Adaptive SwisH(HSH)を導入する。

In class incremental learning, neural networks typically suffer from catastrophic forgetting. We show that an MLP featuring a sparse activation function and an adaptive learning rate optimizer can compete with established regularization techniques in the Split-MNIST task. We highlight the effectiveness of the Adaptive SwisH (ASH) activation function in this context and introduce a novel variant, Hard Adaptive SwisH (Hard ASH) to further enhance the learning retention.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 最近の高強度極端事象に対する深層学習天気予報モデルの検証

Validating Deep-Learning Weather Forecast Models on Recent High-Impact Extreme Events ( http://arxiv.org/abs/2404.17652v1 )

ライセンス: Link先を確認
Olivier C. Pasche, Jonathan Wider, Zhongwei Zhang, Jakob Zscheischler, Sebastian Engelke, (参考訳) 深層学習に基づく天気予報モデルの予測精度は急速に向上しており、多くの人々が「天気予報の第2次革命」と発言している。 多くの手法が開発され、深層学習モデルによって提供される物理的な保証が限られているため、これらの新興技術の包括的な評価が不可欠である。 このニーズはベンチマークデータセットによって部分的に満たされているが、まれで影響の大きい極端なイベントや、変数間の依存関係が誤って表現されているためモデル精度が低下する複合インパクトメトリクスについてはほとんど情報を提供していない。 これらの問題に対処するため、2021年の太平洋太平洋熱波、2023年の南アジア湿潤熱波、2021年の北米冬の嵐の3つのケーススタディにおいて、ディープラーニング天気予報モデル(GraphCast、PanguWeather、FourCastNet)とECMWFの高解像度予報システム(HRES)を比較した。 機械学習(ML)の天気予報モデルが2021年の太平洋岸北西部熱波のような記録破りの出来事において、HRESと同様の精度をローカルに達成できることを示す。 しかし、極端条件への外挿は、2つの熱波に対するHRESの時間的および空間的に比較された予測精度によって証明されるように、機械学習モデルにHRESよりも深刻な影響を及ぼす可能性がある。 ML予測には、2023年の南アジア湿潤熱波のようなイベントの健康リスクを評価するための変数が欠けている。 一般的に、ケーススタディ駆動のインパクト中心の評価は、既存の研究を補完し、公衆信頼を高め、信頼性の高いML天気予報モデルの開発を支援することができる。

The forecast accuracy of deep-learning-based weather prediction models is improving rapidly, leading many to speak of a "second revolution in weather forecasting". With numerous methods being developed, and limited physical guarantees offered by deep-learning models, there is a critical need for comprehensive evaluation of these emerging techniques. While this need has been partly fulfilled by benchmark datasets, they provide little information on rare and impactful extreme events, or on compound impact metrics, for which model accuracy might degrade due to misrepresented dependencies between variables. To address these issues, we compare deep-learning weather prediction models (GraphCast, PanguWeather, FourCastNet) and ECMWF's high-resolution forecast (HRES) system in three case studies: the 2021 Pacific Northwest heatwave, the 2023 South Asian humid heatwave, and the North American winter storm in 2021. We find evidence that machine learning (ML) weather prediction models can locally achieve similar accuracy to HRES on record-shattering events such as the 2021 Pacific Northwest heatwave and even forecast the compound 2021 North American winter storm substantially better. However, extrapolating to extreme conditions may impact machine learning models more severely than HRES, as evidenced by the comparable or superior spatially- and temporally-aggregated forecast accuracy of HRES for the two heatwaves studied. The ML forecasts also lack variables required to assess the health risks of events such as the 2023 South Asian humid heatwave. Generally, case-study-driven, impact-centric evaluation can complement existing research, increase public trust, and aid in developing reliable ML weather prediction models.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# 超高速時間ビン符号化によるプログラマブルフォトニック量子回路

Programmable Photonic Quantum Circuits with Ultrafast Time-bin Encoding ( http://arxiv.org/abs/2404.17657v1 )

ライセンス: Link先を確認
Frédéric Bouchard, Kate Fenwick, Kent Bonsma-Fisher, Duncan England, Philip J. Bustard, Khabat Heshami, Benjamin Sussman, (参考訳) 光子の超高速時間ビン符号化を利用した量子情報処理プラットフォームを提案する。 このアプローチは、フェムト秒からピコ秒までの時間スケールでコリニア時間間干渉ネットワークの固有の位相安定性を活用することにより、スケーラビリティへの経路を提供する。 提案アーキテクチャでは,光子を単一空間モードに保ちながら,光誘起非線形性および複屈折材料を用いて処理した超高速時間ビンの情報を符号化する。 我々は,2つの独立した実験を通じて,スケーラブルなフォトニック量子情報処理の可能性を示す。 最初の実験では,時間回路で最大8次元の362個のユニタリ変換をプログラムした。 第2の実験では、最大36光モードの受動光ネットワークを構築することにより、超高速なタイムビン符号化のスケーラビリティを示す。 それぞれの実験では、忠実度は97\%を超え、インターフェロメトリー相は数日間受動的に安定している。

We propose a quantum information processing platform that utilizes the ultrafast time-bin encoding of photons. This approach offers a pathway to scalability by leveraging the inherent phase stability of collinear temporal interferometric networks at the femtosecond-to-picosecond timescale. The proposed architecture encodes information in ultrafast temporal bins processed using optically induced nonlinearities and birefringent materials while keeping photons in a single spatial mode. We demonstrate the potential for scalable photonic quantum information processing through two independent experiments that showcase the platform's programmability and scalability, respectively. The scheme's programmability is demonstrated in the first experiment, where we successfully program 362 different unitary transformations in up to 8 dimensions in a temporal circuit. In the second experiment, we show the scalability of ultrafast time-bin encoding by building a passive optical network, with increasing circuit depth, of up to 36 optical modes. In each experiment, fidelities exceed 97\%, while the interferometric phase remains passively stable for several days.
翻訳日:2024-04-30 20:00:20 公開日:2024-04-26
# PLAYER*:殺人ミステリーゲームにおけるLLMに基づくマルチエージェントコミュニケーションとインタラクションの強化

PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games ( http://arxiv.org/abs/2404.17662v1 )

ライセンス: Link先を確認
Qinglin Zhu, Runcong Zhao, Jinhua Du, Lin Gui, Yulan He, (参考訳) 近年,Large Language Models (LLMs) の進歩により,エージェントコミュニケーションと社会的相互作用の有効性が向上している。 これらの進歩にもかかわらず、競合や協調を含む動的環境における推論のためのLCMベースのエージェントの構築は、グラフベースの探索手法の限界のため、依然として困難である。 本稿では,センサとプルーナーを利用した任意のサンプリングベースプランナに基づく新しいフレームワークPLAYER*を提案する。 また,複数質問を用いた定量評価手法を導入し,1,482対のQAを用いたWellPlayデータセットを構築した。 実験では、PLAYER* の効率性と性能の向上を、定量的な結果の複雑な動的環境における既存の手法と比較して実証した。

Recent advancements in Large Language Models (LLMs) have enhanced the efficacy of agent communication and social interactions. Despite these advancements, building LLM-based agents for reasoning in dynamic environments involving competition and collaboration remains challenging due to the limitations of informed graph-based search methods. We propose PLAYER*, a novel framework based on an anytime sampling-based planner, which utilises sensors and pruners to enable a purely question-driven searching framework for complex reasoning tasks. We also introduce a quantifiable evaluation method using multiple-choice questions and construct the WellPlay dataset with 1,482 QA pairs. Experiments demonstrate PLAYER*'s efficiency and performance enhancements compared to existing methods in complex, dynamic environments with quantifiable results.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# SiamQuality:不完全な生理信号のためのConvNetベースの基礎モデル

SiamQuality: A ConvNet-Based Foundation Model for Imperfect Physiological Signals ( http://arxiv.org/abs/2404.17667v1 )

ライセンス: Link先を確認
Cheng Ding, Zhicheng Guo, Zhaoliang Chen, Randall J Lee, Cynthia Rudin, Xiao Hu, (参考訳) 基礎モデル、特にトランスフォーマーをバックボーンとして使用するモデルは、特に言語や言語ビジョンタスクにおいて大きな人気を集めている。 しかし、大規模な基礎モデルは一般的に高品質なデータに基づいて訓練されており、品質の低い実世界のデータが普及しているため、これは大きな課題となる。 この課題は、生理学的データの基礎モデルを開発する上でより顕著であり、しばしばノイズ、不完全、一貫性のないデータである。 本研究の目的は,生理的データに基づく基礎モデル構築のためのツールセットを提供することである。 入院した集中治療患者の光胸腺造影(PPG)信号の大規模なデータセットを活用する。 そこで本研究では,畳み込みニューラルネットワーク(CNN)に基づく自己教師型学習タスクであるSimQualityを提案する。 我々は、SimQualityを3600万の30秒のPSGペアで事前トレーニングし、その後、外部データセットを使用して6つの下流タスクで微調整し、テストしました。 以上の結果から,ウェアラブルデバイスにおける心拍モニタリングにおいて極めて重要である下流タスクに対するアプローチの優位性が示された。 提案手法は,データ品質のトレーニングに頑健な基礎モデルのバックボーンとして,CNNが有効であることを示す。

Foundation models, especially those using transformers as backbones, have gained significant popularity, particularly in language and language-vision tasks. However, large foundation models are typically trained on high-quality data, which poses a significant challenge, given the prevalence of poor-quality real-world data. This challenge is more pronounced for developing foundation models for physiological data; such data are often noisy, incomplete, or inconsistent. The present work aims to provide a toolset for developing foundation models on physiological data. We leverage a large dataset of photoplethysmography (PPG) signals from hospitalized intensive care patients. For this data, we propose SimQuality, a novel self-supervised learning task based on convolutional neural networks (CNNs) as the backbone to enforce representations to be similar for good and poor quality signals that are from similar physiological states. We pre-trained the SimQuality on over 36 million 30-second PPG pairs and then fine-tuned and tested on six downstream tasks using external datasets. The results demonstrate the superiority of the proposed approach on all the downstream tasks, which are extremely important for heart monitoring on wearable devices. Our method indicates that CNNs can be an effective backbone for foundation models that are robust to training data quality.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# Blind Image Super-Resolutionのためのフェデレートラーニング

Federated Learning for Blind Image Super-Resolution ( http://arxiv.org/abs/2404.17670v1 )

ライセンス: Link先を確認
Brian B. Moser, Ahmed Anwar, Federico Raue, Stanislav Frolov, Andreas Dengel, (参考訳) 従来のブラインド画像SR法では、実世界の劣化を正確にモデル化する必要がある。 その結果、現在の研究は理想的な劣化を仮定することでこのジレンマに苦慮し、実際のユーザデータに限定的な適用性をもたらす。 さらに、理想的なシナリオ — ターゲットとするユーザベースからのデータに関するトレーニングモデル — は、重要なプライバシー上の懸念を提起する。 両課題に対処するために,我々は,イメージSRとフェデレーション学習を融合させることを提案し,ユーザのプライバシーを侵害することなく,現実世界の劣化を直接学習できるようにした。 さらに、データ集中化なしで多くのデバイスにまたがる最適化を可能にする。 この融合の探索が過小評価されているため、このフェデレート環境での新しいSR手法を評価するために特別に設計された新しいベンチマークを導入する。 これにより、SR研究から既知の劣化モデリング技術を採用する。 しかしながら、実際の劣化を反映することではなく、我々のベンチマークでは、分散ユーザベース内のクライアント間で見られるさまざまな劣化をシミュレートするために、これらの劣化モデルを使用します。 この区別は、現代のブラインド画像SR研究を制限する現実世界の劣化を正確にモデル化する必要性を回避するために重要である。 提案するベンチマークでは,ユーザ間で異なる分散劣化型と異なるユーザ数という新たな側面の下で,ブラインド画像SRについて検討した。 これらのベンチマークでテストされた新しいメソッドは、シミュレーションシナリオが様々な問題に対処するのに対し、フェデレートされた学習は実際の劣化のトレーニングを可能にするので、アプリケーションでよりよく機能すると考えています。

Traditional blind image SR methods need to model real-world degradations precisely. Consequently, current research struggles with this dilemma by assuming idealized degradations, which leads to limited applicability to actual user data. Moreover, the ideal scenario - training models on data from the targeted user base - presents significant privacy concerns. To address both challenges, we propose to fuse image SR with federated learning, allowing real-world degradations to be directly learned from users without invading their privacy. Furthermore, it enables optimization across many devices without data centralization. As this fusion is underexplored, we introduce new benchmarks specifically designed to evaluate new SR methods in this federated setting. By doing so, we employ known degradation modeling techniques from SR research. However, rather than aiming to mirror real degradations, our benchmarks use these degradation models to simulate the variety of degradations found across clients within a distributed user base. This distinction is crucial as it circumvents the need to precisely model real-world degradations, which limits contemporary blind image SR research. Our proposed benchmarks investigate blind image SR under new aspects, namely differently distributed degradation types among users and varying user numbers. We believe new methods tested within these benchmarks will perform more similarly in an application, as the simulated scenario addresses the variety while federated learning enables the training on actual degradations.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# BlenderAlchemy:ビジョンランゲージモデルによる3Dグラフィックの編集

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models ( http://arxiv.org/abs/2404.17672v1 )

ライセンス: Link先を確認
Ian Huang, Guandao Yang, Leonidas Guibas, (参考訳) グラフィックデザインは、映画制作やゲームデザインなど様々な用途において重要である。 高品質なシーンを作るためには、デザイナーは通常、Blenderのようなソフトウェアに何時間も費やす必要がある。 さらに、わずかに異なる設計目標には、完全に異なるシーケンスが必要になる可能性があるため、自動化が難しくなる。 本稿では,GPT-4Vのような視覚言語モデル(VLM)を利用して,ユーザの意図を満足できる回答に到達するための設計行動空間をインテリジェントに探索するシステムを提案する。 具体的には、視覚に基づく編集生成器と状態評価器を協調して設計し、その目標を達成するためのアクションの正しいシーケンスを見つける。 人間のデザインプロセスにおける視覚的想像力の役割に触発されて、VLMの視覚的推論能力と画像生成モデルからの「想像」参照イメージを補完し、抽象言語記述の視覚的基盤を提供する。 本稿では,テキストや参照画像からのプロシージャ資料の編集や複雑なシーンにおける製品レンダリングの照明構成の調整といったタスクに対して,簡単なが退屈なブレンダー編集シーケンスを生成できることを示す実証的証拠を提供する。

Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 動的・共有3次元空間における操作課題の学習

Learning Manipulation Tasks in Dynamic and Shared 3D Spaces ( http://arxiv.org/abs/2404.17673v1 )

ライセンス: Link先を確認
Hariharan Arunachalam, Marc Hanheide, Sariah Mghames, (参考訳) 分離プロセスの自動化は、危険にさらされるだけでなく、大量の材料処理、反復的かつ徹底的な操作を行うすべてのセクターにとって必要である。 自動ピック・アンド・プレイス操作の学習は、職場や人間オペレーターの間で協調的な自律システム(例えばマニピュレータ)を導入することで効率よく行うことができる。 本稿では,多品目の位置タスクを複数マニピュレータ間で共有する作業空間から,選択がすでに完了していることを前提として,多品目の位置タスクを学習するための深層強化学習戦略を提案する。 学習戦略は、まず、確率的アクター批判的フレームワークを利用してエージェントのポリシーネットワークを訓練し、次に、静的および動的障害物(例えば、人間的要因とロボット仲間)がマルコフ決定プロセスの状態空間を構成する動的3Dガイム環境を利用する。 ガゼボシミュレーターで学習を行い、実験により、人的要因から遠く離れたエージェントに対する累積報酬関数の増加が示されている。 両エージェントのタスクパフォーマンスを同時に向上するため、今後の調査を行う。

Automating the segregation process is a need for every sector experiencing a high volume of materials handling, repetitive and exhaustive operations, in addition to risky exposures. Learning automated pick-and-place operations can be efficiently done by introducing collaborative autonomous systems (e.g. manipulators) in the workplace and among human operators. In this paper, we propose a deep reinforcement learning strategy to learn the place task of multi-categorical items from a shared workspace between dual-manipulators and to multi-goal destinations, assuming the pick has been already completed. The learning strategy leverages first a stochastic actor-critic framework to train an agent's policy network, and second, a dynamic 3D Gym environment where both static and dynamic obstacles (e.g. human factors and robot mate) constitute the state space of a Markov decision process. Learning is conducted in a Gazebo simulator and experiments show an increase in cumulative reward function for the agent further away from human factors. Future investigations will be conducted to enhance the task performance for both agents simultaneously.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 会員推論攻撃に対するセンターベース緩和学習

Center-Based Relaxed Learning Against Membership Inference Attacks ( http://arxiv.org/abs/2404.17674v1 )

ライセンス: Link先を確認
Xingli Fang, Jung-Eun Kim, (参考訳) メンバーシップ推論攻撃(MIA)は現在、主要なプライバシ攻撃戦略の1つと考えられており、その防御機構も広く検討されている。 しかしながら、既存の防御アプローチと、パフォーマンスとデプロイメントコストの理想的なモデルとの間にはまだギャップがあります。 特に,モデルのプライバシ脆弱性は,モデルのデータ記憶能力と一般化能力のギャップと密接に相関していることがわかった。 そこで本研究では,任意の分類モデルに適応し,最小限あるいは不要なモデル一般化性を犠牲にすることで,プライバシ保護を提供する,CRL(Central-based relaxed learning)と呼ばれるアーキテクチャに依存しない新たな学習パラダイムを提案する。 我々はCRLがメンバーデータと非メンバーデータの一貫性をよりよく維持できることを強調する。 標準分類データセットに関する広範な実験を通じて、モデルキャパシティやデータコストを必要とせずに、このアプローチが同等のパフォーマンスを示すことを実証的に示す。

Membership inference attacks (MIAs) are currently considered one of the main privacy attack strategies, and their defense mechanisms have also been extensively explored. However, there is still a gap between the existing defense approaches and ideal models in performance and deployment costs. In particular, we observed that the privacy vulnerability of the model is closely correlated with the gap between the model's data-memorizing ability and generalization ability. To address this, we propose a new architecture-agnostic training paradigm called center-based relaxed learning (CRL), which is adaptive to any classification model and provides privacy preservation by sacrificing a minimal or no loss of model generalizability. We emphasize that CRL can better maintain the model's consistency between member and non-member data. Through extensive experiments on standard classification datasets, we empirically show that this approach exhibits comparable performance without requiring additional model capacity or data costs.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 量子LDPC符号の2次元局所実装に向けて

Toward a 2D Local Implementation of Quantum LDPC Codes ( http://arxiv.org/abs/2404.17676v1 )

ライセンス: Link先を確認
Noah Berthusen, Dhruv Devulapalli, Eddie Schoute, Andrew M. Childs, Michael J. Gullans, Alexey V. Gorshkov, Daniel Gottesman, (参考訳) 幾何学的局所性は、コード性能と物理的実現の容易性に影響を与える量子低密度パリティチェック(qLDPC)符号の重要な理論的かつ実践的な要素である。 デバイスアーキテクチャが2Dローカルゲートに限定されている場合、低オーバーヘッドのフォールトトレラントな量子コンピューティングに適したハイレートコードを実装することは、オーバヘッドを禁止している。 本研究では,2次元局所ゲートに制限された場合の動作オーバーヘッドを低減することを目的とした,2層アーキテクチャ上に構築された誤り訂正プロトコルを提案する。 そこで本研究では,二変量自転車qLDPC符号の家系について検討し,局所演算を用いた高速ルーティングと古典通信(LOCC)を用いた並列シンドローム計測法に適していることを示す。 回路レベルのシミュレーションにより、このプロトコルで実装された自転車符号は、物理量子ビットを減らしながら、表面符号に匹敵する論理誤差率を持つ。

Geometric locality is an important theoretical and practical factor for quantum low-density parity-check (qLDPC) codes which affects code performance and ease of physical realization. For device architectures restricted to 2D local gates, naively implementing the high-rate codes suitable for low-overhead fault-tolerant quantum computing incurs prohibitive overhead. In this work, we present an error correction protocol built on a bilayer architecture that aims to reduce operational overheads when restricted to 2D local gates by measuring some generators less frequently than others. We investigate the family of bivariate bicycle qLDPC codes and show that they are well suited for a parallel syndrome measurement scheme using fast routing with local operations and classical communication (LOCC). Through circuit-level simulations, we find that in some parameter regimes bivariate bicycle codes implemented with this protocol have logical error rates comparable to the surface code while using fewer physical qubits.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 安定化作用素とバーンズ=ウォール格子

Stabilizer operators and Barnes-Wall lattices ( http://arxiv.org/abs/2404.17677v1 )

ライセンス: Link先を確認
Vadym Kliuchnikov, Sebastian Schonnenbeck, (参考訳) 選択後の安定化回路で実装可能な矩形行列の簡単な記述を与える。 dyadic cyclotomic number field $\mathbb{Q}(\exp(i\frac{2\pi}{2^m}))$ が与えられたとき、ある非直交基底で表現されたとき、$\mathbb{Z}[\exp(i\frac{2\pi}{2^m})]$ にエントリがある場合、選択後の安定化回路によって実装可能であることを示す。 この基底はバーンズ=ウォール格子と関連している。 我々の結果はクリフォード群とバーンズ=ウォール格子の間のよく知られた接続への一般化である。 また、バーンズ=ウォール格子の最小ベクトルが安定化状態であることも示している。 最後に、標準的なクリフォード群を超えた一般化のいくつかの例を示す。

We give a simple description of rectangular matrices that can be implemented by a post-selected stabilizer circuit. Given a matrix with entries in dyadic cyclotomic number fields $\mathbb{Q}(\exp(i\frac{2\pi}{2^m}))$, we show that it can be implemented by a post-selected stabilizer circuit if it has entries in $\mathbb{Z}[\exp(i\frac{2\pi}{2^m})]$ when expressed in a certain non-orthogonal basis. This basis is related to Barnes-Wall lattices. Our result is a generalization to a well-known connection between Clifford groups and Barnes-Wall lattices. We also show that minimal vectors of Barnes-Wall lattices are stabilizer states, which may be of independent interest. Finally, we provide a few examples of generalizations beyond standard Clifford groups.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 変圧器を基盤とした2つの市場におけるエネルギー貯蔵のアービタージュ

Energy Storage Arbitrage in Two-settlement Markets: A Transformer-Based Approach ( http://arxiv.org/abs/2404.17683v1 )

ライセンス: Link先を確認
Saud Alghumayjan, Jiajun Han, Ningkun Zheng, Ming Yi, Bolun Xu, (参考訳) 本稿では、利益を最大化するために、日頭とリアルタイム市場におけるエネルギー貯蔵の入札モデルを提案する。 統合された2段階入札においては、リアルタイム入札は日頭決済とは独立であり、日頭入札は予測されたリアルタイム価格に基づいて行われるべきであることを示す。 本研究では,リアルタイム価格予測にトランスフォーマーモデルを用い,リアルタイム価格の複雑な動的パターンを抽出し,その結果を日頭入札設計に利用する。 リアルタイム入札には、長期のメモリ・ダイナミックプログラミングハイブリッドリアルタイム入札モデルを用いる。 我々は,我々のモデルをニューヨーク州の歴史的データでトレーニングし,その結果,リアルタイム市場のみの入札よりも約20倍近い利益率の有望な結果を達成し,同時に負の利益を伴う日数でリスクを低減した。

This paper presents an integrated model for bidding energy storage in day-ahead and real-time markets to maximize profits. We show that in integrated two-stage bidding, the real-time bids are independent of day-ahead settlements, while the day-ahead bids should be based on predicted real-time prices. We utilize a transformer-based model for real-time price prediction, which captures complex dynamical patterns of real-time prices, and use the result for day-ahead bidding design. For real-time bidding, we utilize a long short-term memory-dynamic programming hybrid real-time bidding model. We train and test our model with historical data from New York State, and our results showed that the integrated system achieved promising results of almost a 20\% increase in profit compared to only bidding in real-time markets, and at the same time reducing the risk in terms of the number of days with negative profits.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 触覚による一般化:ロボット家具組み立てのための触覚アンサンブルスキルトランスファー

Generalize by Touching: Tactile Ensemble Skill Transfer for Robotic Furniture Assembly ( http://arxiv.org/abs/2404.17684v1 )

ライセンス: Link先を確認
Haohong Lin, Radu Corcodel, Ding Zhao, (参考訳) 家具組み立ては、長い作業地平線と非汎用的な運用計画のために、ロボット操作において未解決の問題のままである。 本稿では,触覚フィードバックを制御ループに組み込んだオフライン強化学習(RL)手法であるTEST(Tactile Ensemble Skill Transfer)フレームワークを提案する。 TESTの中核となる設計は、高度計画のためのスキル移行モデルと、適応的なスキル内目標達成ポリシーのセットを学ぶことである。 このような設計は、ロボット家具の組み立て問題をより一般化可能な方法で解決することを目的としており、この長い水平作業のスキルをシームレスに連鎖させることを容易にしている。 まず、ランダム化されたサブスキルセグメントからなるヒューリスティックなポリシーとトラジェクトリから、スキルステージ、ロボットの状態、視覚的インジケータ、および重要な触覚信号を取得するリッチなロボットトラジェクトリの取得を可能にする。 これらの軌道を利用して、オフラインRL法は、スキル終了条件を識別し、スキル遷移をコーディネートする。 本評価では, 市販家具集合体におけるTESTの熟練度, 未確認家具構成への適応性, 視覚障害に対する堅牢性を強調した。 アブレーション研究は、スキルトランジションモデルと触覚アンサンブルポリシーという、2つのアルゴリズムコンポーネントの重要な役割をさらに強調する。 以上の結果から,TESTが90%以上の成功率を達成でき,分布内および一般化設定におけるヒューリスティックポリシの4倍以上の効率が得られ,コンタクトリッチな操作のためのスケーラブルなスキルトランスファーアプローチが提案されている。

Furniture assembly remains an unsolved problem in robotic manipulation due to its long task horizon and nongeneralizable operations plan. This paper presents the Tactile Ensemble Skill Transfer (TEST) framework, a pioneering offline reinforcement learning (RL) approach that incorporates tactile feedback in the control loop. TEST's core design is to learn a skill transition model for high-level planning, along with a set of adaptive intra-skill goal-reaching policies. Such design aims to solve the robotic furniture assembly problem in a more generalizable way, facilitating seamless chaining of skills for this long-horizon task. We first sample demonstration from a set of heuristic policies and trajectories consisting of a set of randomized sub-skill segments, enabling the acquisition of rich robot trajectories that capture skill stages, robot states, visual indicators, and crucially, tactile signals. Leveraging these trajectories, our offline RL method discerns skill termination conditions and coordinates skill transitions. Our evaluations highlight the proficiency of TEST on the in-distribution furniture assemblies, its adaptability to unseen furniture configurations, and its robustness against visual disturbances. Ablation studies further accentuate the pivotal role of two algorithmic components: the skill transition model and tactile ensemble policies. Results indicate that TEST can achieve a success rate of 90\% and is over 4 times more efficient than the heuristic policy in both in-distribution and generalization settings, suggesting a scalable skill transfer approach for contact-rich manipulation.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# クロスドメイン強化学習のための知識伝達 : 体系的レビュー

Knowledge Transfer for Cross-Domain Reinforcement Learning: A Systematic Review ( http://arxiv.org/abs/2404.17687v1 )

ライセンス: Link先を確認
Sergio A. Serrano, Jose Martinez-Carranza, L. Enrique Sucar, (参考訳) 強化学習(RL)は、複雑な意思決定問題を解決するために、試行錯誤を通じてエージェントを訓練できるフレームワークを提供する。 ほとんど監督しない学習は、RLメソッドに大量のデータを必要とする原因となり、多くのアプリケーション(例えばロボティクス)では高価すぎる。 異なるタスクから知識を再利用することにより、知識伝達手法はRLのトレーニング時間を短縮する代替手段を提供する。 データの不足がどれほど深刻かを考えると、柔軟性のために異なるドメイン(つまり異なる表現を持つ問題)間で知識を伝達できる手法への関心が高まっている。 本稿では,異なる領域間で知識を伝達することに焦点を当てた手法の統一分析を行う。 転帰対応分類に基づく分類と,それらのデータ消費要件に基づく作品のキャラクタリゼーションを通じて,本項の目的について述べる。 1)クロスドメインRL設定のための知識伝達手法を包括的かつ体系的に改訂する。 2)これらの手法を分類・特徴付けして、転送アプローチやデータ要求といった関連する特徴に基づいた分析を行う。 3)ドメイン間の知識伝達に関する主な課題と,これらの課題に対処する価値のある今後の方向性について論じる。

Reinforcement Learning (RL) provides a framework in which agents can be trained, via trial and error, to solve complex decision-making problems. Learning with little supervision causes RL methods to require large amounts of data, which renders them too expensive for many applications (e.g. robotics). By reusing knowledge from a different task, knowledge transfer methods present an alternative to reduce the training time in RL. Given how severe data scarcity can be, there has been a growing interest for methods capable of transferring knowledge across different domains (i.e. problems with different representation) due to the flexibility they offer. This review presents a unifying analysis of methods focused on transferring knowledge across different domains. Through a taxonomy based on a transfer-approach categorization, and a characterization of works based on their data-assumption requirements, the objectives of this article are to 1) provide a comprehensive and systematic revision of knowledge transfer methods for the cross-domain RL setting, 2) categorize and characterize these methods to provide an analysis based on relevant features such as their transfer approach and data requirements, and 3) discuss the main challenges regarding cross-domain knowledge transfer, as well as ideas of future directions worth exploring to address these problems.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 生産の意味を理解する:視覚芸術における創造的AIモデルの作成、適応、誘導の風景を探る

Seizing the Means of Production: Exploring the Landscape of Crafting, Adapting and Navigating Generative AI Models in the Visual Arts ( http://arxiv.org/abs/2404.17688v1 )

ライセンス: Link先を確認
Ahmed M. Abuzuraiq, Philippe Pasquier, (参考訳) 本稿では, ビジュアルアーティストが, 制作, 適応, ナビゲートなど, パーソナルアートワークを作成するための選択肢の展望を地図化する。 その後、創造目標のための生成モデルの設計と操作として定義されたモデル作成を再考し、独自の創造活動としてモデル作成の研究と設計を動機付ける。

In this paper, we map out the landscape of options available to visual artists for creating personal artworks, including crafting, adapting and navigating deep generative models. Following that, we argue for revisiting model crafting, defined as the design and manipulation of generative models for creative goals, and motivate studying and designing for model crafting as a creative activity in its own right.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# MinMaxサンプリングと分散アグリゲーションのためのバイアス付き推定器

A Biased Estimator for MinMax Sampling and Distributed Aggregation ( http://arxiv.org/abs/2404.17690v1 )

ライセンス: Link先を確認
Joel Wolfrath, Abhishek Chandra, (参考訳) MinMax サンプリングは、すべてのベクトル成分の最大分散を最小化する実数値ベクトルをサンプリングする手法である。 このアプローチは、制約付きネットワークリンク(例えば、広域)上で送信されるデータ量を削減するのに有用である。 MinMaxはベクトル要素の偏りのない推定と、ベクトルが複数の位置から結合されたときの集合の偏りのない推定を提供することができる。 そこで本研究では,分散の低減のために推定器バイアスの増加と引き換えに,B-MinMax推定法を提案する。 集約が行われない場合、B-MinMaxは非バイアスのMinMax推定器に比べて厳密に低いMSEを得る。 集約が必要な場合、サンプルサイズが小さい場合や集約ベクトルの数が少ない場合、B-MinMaxが好ましい。 提案手法は,MinMaxサンプリングにおけるMSEを大幅に削減できることを示す。

MinMax sampling is a technique for downsampling a real-valued vector which minimizes the maximum variance over all vector components. This approach is useful for reducing the amount of data that must be sent over a constrained network link (e.g. in the wide-area). MinMax can provide unbiased estimates of the vector elements, along with unbiased estimates of aggregates when vectors are combined from multiple locations. In this work, we propose a biased MinMax estimation scheme, B-MinMax, which trades an increase in estimator bias for a reduction in variance. We prove that when no aggregation is performed, B-MinMax obtains a strictly lower MSE compared to the unbiased MinMax estimator. When aggregation is required, B-MinMax is preferable when sample sizes are small or the number of aggregated vectors is limited. Our experiments show that this approach can substantially reduce the MSE for MinMax sampling in many practical settings.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 自動車車間センサフュージョンによるトラック管理システムの強化

Enhancing Track Management Systems with Vehicle-To-Vehicle Enabled Sensor Fusion ( http://arxiv.org/abs/2404.17697v1 )

ライセンス: Link先を確認
Thomas Billington, Ansh Gwash, Aadi Kothari, Lucas Izquierdo, Timothy Talty, (参考訳) CAV(コネクテッド・アンド・オートマチック・ビークル)の急速な進歩の中で、従来の核融合システムにおけるV2X(V2X)通信の統合は、車両の知覚を高めるための有望な道を示す。 本稿では,V2V信号の相乗効果とレーダおよびカメラセンサからの検出を活かした,V2V対応トラック管理システムを提案する。 中心となるイノベーションは、V2V通信を通じて検証された融合検出からなる独立した優先度トラックリストの作成にある。 このアプローチは、トラック管理のためのより柔軟でレジリエントなしきい値を可能にし、特に、トラックされた物体が知覚センサーの視野外を移動する多数の閉塞のあるシナリオにおいてである。 本システムでは,V2X信号のファルシフィケーションが,認識センサからの検知を用いて,初期車両識別プロセスを通じて発生することの意義を考察する。 紹介されているのは、融合アルゴリズム、シミュレーション環境、バリデーションメカニズムである。 実験により, 運転シナリオにおいて提案方式の精度と堅牢性を向上し, 自律走行車の信頼性と効率を向上する可能性を明らかにした。

In the rapidly advancing landscape of connected and automated vehicles (CAV), the integration of Vehicle-to-Everything (V2X) communication in traditional fusion systems presents a promising avenue for enhancing vehicle perception. Addressing current limitations with vehicle sensing, this paper proposes a novel Vehicle-to-Vehicle (V2V) enabled track management system that leverages the synergy between V2V signals and detections from radar and camera sensors. The core innovation lies in the creation of independent priority track lists, consisting of fused detections validated through V2V communication. This approach enables more flexible and resilient thresholds for track management, particularly in scenarios with numerous occlusions where the tracked objects move outside the field of view of the perception sensors. The proposed system considers the implications of falsification of V2X signals which is combated through an initial vehicle identification process using detection from perception sensors. Presented are the fusion algorithm, simulated environments, and validation mechanisms. Experimental results demonstrate the improved accuracy and robustness of the proposed system in common driving scenarios, highlighting its potential to advance the reliability and efficiency of autonomous vehicles.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 視覚変換器を用いた表面熱画像からの溶融プール深さパターン予測の深層学習

Deep Learning for Melt Pool Depth Contour Prediction From Surface Thermal Images via Vision Transformers ( http://arxiv.org/abs/2404.17699v1 )

ライセンス: Link先を確認
Francis Ogoke, Peter Myung-Won Pak, Alexander Myers, Guadalupe Quirarte, Jack Beuth, Jonathan Malen, Amir Barati Farimani, (参考訳) レーザー粉層融合(L-PBF)で生成する溶融プール間の十分な重なり合いは、融解欠陥の欠如と機械的および疲労性能の低下につながる可能性がある。 溶融プール地下形態のその場監視には、容易にアクセスできない、または拡張性のない特殊な装置が必要である。 そこで本研究では,高速カラーイメージングにより観察された2色熱画像と溶融プール断面の2次元形状を相関付ける機械学習フレームワークを提案する。 具体的には,光顕微鏡を用いて測定した単一ビーズオフ軸熱画像列と溶融プール断面輪郭との相関関係を確立するために,ハイブリッドCNN-Transformerアーキテクチャを用いる。 このアーキテクチャでは、ResNetモデルは熱画像に含まれる空間情報を潜伏ベクトルに埋め込むが、Transformerモデルは埋め込みベクトルのシーケンスを相関付け、時間情報を抽出する。 本フレームワークは, 地下融解プール構造の曲率をモデル化し, 解析的融解プールモデルと比較して高エネルギー密度モデルの性能を向上させることができる。 本モデルの性能は, 実験用メルトプール観測と比較し, 次元および幾何学的比較により評価した。

Insufficient overlap between the melt pools produced during Laser Powder Bed Fusion (L-PBF) can lead to lack-of-fusion defects and deteriorated mechanical and fatigue performance. In-situ monitoring of the melt pool subsurface morphology requires specialized equipment that may not be readily accessible or scalable. Therefore, we introduce a machine learning framework to correlate in-situ two-color thermal images observed via high-speed color imaging to the two-dimensional profile of the melt pool cross-section. Specifically, we employ a hybrid CNN-Transformer architecture to establish a correlation between single bead off-axis thermal image sequences and melt pool cross-section contours measured via optical microscopy. In this architecture, a ResNet model embeds the spatial information contained within the thermal images to a latent vector, while a Transformer model correlates the sequence of embedded vectors to extract temporal information. Our framework is able to model the curvature of the subsurface melt pool structure, with improved performance in high energy density regimes compared to analytical melt pool models. The performance of this model is evaluated through dimensional and geometric comparisons to the corresponding experimental melt pool observations.
翻訳日:2024-04-30 19:50:27 公開日:2024-04-26
# 粒子検出器読み出しにおける機械学習のための130nmおよび28nmCMOSの組み込みFPGA開発

Embedded FPGA Developments in 130nm and 28nm CMOS for Machine Learning in Particle Detector Readout ( http://arxiv.org/abs/2404.17701v1 )

ライセンス: Link先を確認
Julia Gonski, Aseem Gupta, Haoyi Jia, Hyunjoon Kim, Lorenzo Rota, Larry Ruckman, Angelo Dragone, Ryan Herbst, (参考訳) 組み込みフィールドプログラマブルゲートアレイ(eFPGA)技術は、アプリケーション固有の集積回路(ASIC)の設計において再構成可能なロジックの実装を可能にする。 このアプローチはASICの低消費電力と効率、FPGA構成の容易さ、特に次世代コライダー実験のデータパイプラインにおける機械学習のユースケースに有益である。 FABulous"と呼ばれるオープンソースのフレームワークは130nmと28nmのCMOS技術ノードを使ってeFPGAを設計するために使われ、その後、テストによって製造され検証された。 シリコン画素センサを通した高エネルギー粒子のシミュレーションを用いて,eFPGAをフロントエンドの読み出しチップとして機能させる性能を検証した。 ソースにおけるセンサデータの削減のために設計された機械学習ベースの分類器を合成し、eFPGA上に構成した。 完全な精度でeFPGA上で予測されたアルゴリズムを再現し,概念実証に成功した。 eFPGA技術のさらなる発展とコライダー検出器の読み出しへの応用について論じる。

Embedded field programmable gate array (eFPGA) technology allows the implementation of reconfigurable logic within the design of an application-specific integrated circuit (ASIC). This approach offers the low power and efficiency of an ASIC along with the ease of FPGA configuration, particularly beneficial for the use case of machine learning in the data pipeline of next-generation collider experiments. An open-source framework called "FABulous" was used to design eFPGAs using 130 nm and 28 nm CMOS technology nodes, which were subsequently fabricated and verified through testing. The capability of an eFPGA to act as a front-end readout chip was tested using simulation of high energy particles passing through a silicon pixel sensor. A machine learning-based classifier, designed for reduction of sensor data at the source, was synthesized and configured onto the eFPGA. A successful proof-of-concept was demonstrated through reproduction of the expected algorithm result on the eFPGA with perfect accuracy. Further development of the eFPGA technology and its application to collider detector readout is discussed.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# 最小距離問題に対する量子アニール法

A quantum annealing approach to minimum distance problem ( http://arxiv.org/abs/2404.17703v1 )

ライセンス: Link先を確認
Refat Ismail, Ashish Kakkar, Anatoly Dymarsky, (参考訳) 量子誤り訂正符号(QECC)は、フォールトトレラント量子コンピューティングの中心にある。 量子プラットフォームのサイズが大きくなると予想されているため、オープンな疑問の1つは、常に増加するサイズの新しい最適なコードの設計である。 関連する課題は、最小距離、量子情報を保存するためのコードの能力を特徴づける量を評価することで、与えられたコードの品質を '`certify'' することである。 この問題はNPハードであることが知られている。 ここでは、現代の量子プラットフォームのパワーを活用してこの問題に対処することを提案し、この方法では未来の量子プラットフォームの設計を支援する。 すなわち、量子安定化器符号の最小距離を計算するアプローチとして、量子非拘束バイナリ最適化(QUBO)問題として問題を修正し、確立されたQUBOアルゴリズムとヒューリスティックス、および量子アニール(QA)を活用して後者に対処する。 QUBOとしての再構成は、必要な変数数の対数乗算オーバーヘッドのみを導入する。 D-Wave Advantage 4.1 量子アニールとハイブリッド量子古典アルゴリズム Qbsolv の性能を比較することで,本手法の実用性を示す。 このハイブリッド手法はQUBOを解くのに最適な古典的アルゴリズムに匹敵する競争性能を示す。 現実的な意味では、QUBOベースのアプローチは現在、決定論的最小距離アルゴリズムに遅れを取っているが、プラットフォームのサイズが大きくなるにつれて、この優位性は消滅する可能性がある。

Quantum error-correcting codes (QECCs) is at the heart of fault-tolerant quantum computing. As the size of quantum platforms is expected to grow, one of the open questions is to design new optimal codes of ever-increasing size. A related challenge is to ``certify'' the quality of a given code by evaluating its minimum distance, a quantity characterizing code's capacity to preserve quantum information. This problem is known to be NP-hard. Here we propose to harness the power of contemporary quantum platforms to address this question, and in this way help design quantum platforms of the future. Namely, we introduce an approach to compute the minimum distance of quantum stabilizer codes by reformulating the problem as a Quadratic Unconstrained Binary Optimization (QUBO) problem and leveraging established QUBO algorithms and heuristics as well as quantum annealing (QA) to address the latter. The reformulation as a QUBO introduces only a logarithmic multiplicative overhead in the required number of variables. We demonstrate practical viability of our method by comparing the performance of purely classical algorithms with the D-Wave Advantage 4.1 quantum annealer as well as hybrid quantum-classical algorithm Qbsolv. We found that the hybrid approach demonstrates competitive performance, on par with the best available classical algorithms to solve QUBO. In a practical sense, the QUBO-based approach is currently lagging behind the best deterministic minimal distance algorithms, however this advantage may disappear as the size of the platforms grows.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# SPLICE -- デジタル病理画像処理の合理化

SPLICE -- Streamlining Digital Pathology Image Processing ( http://arxiv.org/abs/2404.17704v1 )

ライセンス: Link先を確認
Areej Alsaafin, Peyman Nejat, Abubakr Shafique, Jibran Khan, Saghir Alfasly, Ghazal Alabtah, H. R. Tizhoosh, (参考訳) デジタル病理学と人工知能(AI)モデルの統合は、病理学に革命をもたらし、新たな機会を生み出した。 WSI(Whole Slide Images)が利用可能になるにつれて、膨大なバイオメディカルアーカイブから関連画像の効率的な検索、処理、分析への需要が高まっています。 しかし、WSIの処理は、そのサイズとコンテントの複雑さが問題となる。 WSIの完全なコンピュータ消化は非現実的であり、パッチを個別に処理することは違法に高価である。 本稿では,画像分類・問合せのための非教師付きパッチアルゴリズムであるSequential Patching Latticeを提案する。 この新しいアプローチは、病理組織学的WSIをコンパクトな代表パッチセットに凝縮し、冗長性を最小化しながらWSIの"コラージュ"を形成する。 SPLICEは、WSIを逐次解析し、非冗長な代表機能を選択することで、パッチの品質とユニークさを優先する。 検索およびマッチングのためのSPLICEを評価し,既存の最先端手法と比較して,精度の向上,計算時間短縮,ストレージ要件について検討した。 教師なしの方法として、SPLICEは組織像の保存要求を50%削減する。 この削減により、計算病理学における多くのアルゴリズムがより効率的に動作し、デジタル病理学の採用を加速する道を開くことができる。

Digital pathology and the integration of artificial intelligence (AI) models have revolutionized histopathology, opening new opportunities. With the increasing availability of Whole Slide Images (WSIs), there's a growing demand for efficient retrieval, processing, and analysis of relevant images from vast biomedical archives. However, processing WSIs presents challenges due to their large size and content complexity. Full computer digestion of WSIs is impractical, and processing all patches individually is prohibitively expensive. In this paper, we propose an unsupervised patching algorithm, Sequential Patching Lattice for Image Classification and Enquiry (SPLICE). This novel approach condenses a histopathology WSI into a compact set of representative patches, forming a "collage" of WSI while minimizing redundancy. SPLICE prioritizes patch quality and uniqueness by sequentially analyzing a WSI and selecting non-redundant representative features. We evaluated SPLICE for search and match applications, demonstrating improved accuracy, reduced computation time, and storage requirements compared to existing state-of-the-art methods. As an unsupervised method, SPLICE effectively reduces storage requirements for representing tissue images by 50%. This reduction enables numerous algorithms in computational pathology to operate much more efficiently, paving the way for accelerated adoption of digital pathology.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# ヘビーテールリワード付き低ランクマトリックスバンド

Low-rank Matrix Bandits with Heavy-tailed Rewards ( http://arxiv.org/abs/2404.17709v1 )

ライセンス: Link先を確認
Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee, (参考訳) 確率的低ランク行列バンドイットでは、腕の期待される報酬は、その特徴行列と未知の$d_1$ by $d_2$低ランクパラメータ行列$\Theta^*$とランク$r \ll d_1\wedge d_2$の間の内積と等しい。 すべての先行研究は、ペイオフがガウス以下の雑音と混同されていると仮定するが、この研究において、この厳密な仮定を緩めて、ある$\delta \in (0,1)$に対して、報酬が有限$(1+\delta)$モーメントしか持たないような \underline{h}eavy-\underline{r}ailed \underline{r}ewards (LowHTR) という新しい問題を考える。 観測されたペイオフと動的探索のトランケーションを利用して、次数 $\tilde O(d^\frac{3}{2}r^\frac{1}{2}T^\frac{1}{1+\delta}/\tilde{D}_{rr})$ という新しいアルゴリズムを提案する。 さらに、LowHTRに対して$\Omega(d^\frac{\delta}{1+\delta} r^\frac{\delta}{1+\delta} T^\frac{1}{1+\delta}) = \Omega(T^\frac{1}{1+\delta})$の下位境界を確立する。 さらに、LOTUS を改善して、$\tilde O(dr^\frac{3}{2}T^\frac{1+\delta}{1+2\delta})$ regret bound で階数 $r$ の知識を必要としないようにし、高次元シナリオの下では効率的である。 また,本アルゴリズムの実用的優位性を示すシミュレーションも行った。

In stochastic low-rank matrix bandit, the expected reward of an arm is equal to the inner product between its feature matrix and some unknown $d_1$ by $d_2$ low-rank parameter matrix $\Theta^*$ with rank $r \ll d_1\wedge d_2$. While all prior studies assume the payoffs are mixed with sub-Gaussian noises, in this work we loosen this strict assumption and consider the new problem of \underline{low}-rank matrix bandit with \underline{h}eavy-\underline{t}ailed \underline{r}ewards (LowHTR), where the rewards only have finite $(1+\delta)$ moment for some $\delta \in (0,1]$. By utilizing the truncation on observed payoffs and the dynamic exploration, we propose a novel algorithm called LOTUS attaining the regret bound of order $\tilde O(d^\frac{3}{2}r^\frac{1}{2}T^\frac{1}{1+\delta}/\tilde{D}_{rr})$ without knowing $T$, which matches the state-of-the-art regret bound under sub-Gaussian noises~\citep{lu2021low,kang2022efficient} with $\delta = 1$. Moreover, we establish a lower bound of the order $\Omega(d^\frac{\delta}{1+\delta} r^\frac{\delta}{1+\delta} T^\frac{1}{1+\delta}) = \Omega(T^\frac{1}{1+\delta})$ for LowHTR, which indicates our LOTUS is nearly optimal in the order of $T$. In addition, we improve LOTUS so that it does not require knowledge of the rank $r$ with $\tilde O(dr^\frac{3}{2}T^\frac{1+\delta}{1+2\delta})$ regret bound, and it is efficient under the high-dimensional scenario. We also conduct simulations to demonstrate the practical superiority of our algorithm.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# 全パラメータ規則に基づくガウス共分散行列のプライベート推定のための下界

Lower Bounds for Private Estimation of Gaussian Covariance Matrices under All Reasonable Parameter Regimes ( http://arxiv.org/abs/2404.17714v1 )

ライセンス: Link先を確認
Victor S. Portella, Nick Harvey, (参考訳) ガウス分布の共分散行列をプライベートに推定するために必要なサンプル数に対する下界を証明した。 我々の境界は、最も広く知られているパラメータの集合における既存の上界と一致する。 我々の分析は、以前のフィンガープリント・レムマの議論で使われた古典的なスタインのアイデンティティの拡張であるスタイン=ハフのアイデンティティに依存している。

We prove lower bounds on the number of samples needed to privately estimate the covariance matrix of a Gaussian distribution. Our bounds match existing upper bounds in the widest known setting of parameters. Our analysis relies on the Stein-Haff identity, an extension of the classical Stein's identity used in previous fingerprinting lemma arguments.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# Airlift Challenge: カーゴ配達を最適化するためのコンペティション

Airlift Challenge: A Competition for Optimizing Cargo Delivery ( http://arxiv.org/abs/2404.17716v1 )

ライセンス: Link先を確認
Adis Delanovic, Carmen Chiu, Andre Beckus, (参考訳) 空輸作業には様々な貨物のタイムリーな分配が必要であり、その多くは時間に敏感で価値のあるものである。 しかし、これらの作戦は気象や故障から突然の混乱と競合し、即時の再スケジュールを必要とした。 エアリフトチャレンジコンペティションは、エアリフト問題を単純化した抽象化を提供するシミュレーターを通じて可能な解決策を模索している。 このシミュレーターはOpenAIのジムインターフェースを使用し、参加者はエージェントアクションを計画するアルゴリズムを作成できる。 このアルゴリズムは、常に困難なシナリオに対して遠隔評価器を用いて評価される。 第2回大会は2023年11月から2024年4月まで行われた。 本稿では,競争環境とシミュレーション環境について述べる。 本稿では, 一般計画手法を課題に適用するためのステップとして, エアリフトチャレンジの中核に位置する, ピックアップ・アンド・デリバリー問題に対する時空間PDDLドメインを提案する。

Airlift operations require the timely distribution of various cargo, much of which is time sensitive and valuable. However, these operations have to contend with sudden disruptions from weather and malfunctions, requiring immediate rescheduling. The Airlift Challenge competition seeks possible solutions via a simulator that provides a simplified abstraction of the airlift problem. The simulator uses an OpenAI gym interface that allows participants to create an algorithm for planning agent actions. The algorithm is scored using a remote evaluator against scenarios of ever-increasing difficulty. The second iteration of the competition was underway from November 2023 to April 2024. In this paper, we describe the competition and simulation environment. As a step towards applying generalized planning techniques to the problem, we present a temporal PDDL domain for the Pickup and Delivery Problem, a model which lies at the core of the Airlift Challenge.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# CropFollow++のデプロイから学んだこと: キーポイント付きアンダーキャノピー農業ナビゲーション

Lessons from Deploying CropFollow++: Under-Canopy Agricultural Navigation with Keypoints ( http://arxiv.org/abs/2404.17718v1 )

ライセンス: Link先を確認
Arun N. Sivakumar, Mateus V. Gasparino, Michael McGuire, Vitor A. H. Higuti, M. Ugur Akcal, Girish Chowdhary, (参考訳) セマンティックキーポイントを用いたアンダーキャノピー農業ロボットのための視覚に基づくナビゲーションシステムを提案する。 オートマチックアンダーキャノピーナビゲーションは、作物列間の密接な間隔(\sim 0.75$m)、マルチパス誤差によるRTK-GPSの精度の低下、過度なクラッタからのLiDAR測定におけるノイズにより困難である。 我々のシステムであるCropFollow++は、学習されたセマンティックキーポイント表現によるモジュラーおよび解釈可能な知覚アーキテクチャを導入している。 我々は,CropFollow++を多種多様な畑条件下で大規模(合計25km)に展開し,そこから得られた重要な教訓について考察した。

We present a vision-based navigation system for under-canopy agricultural robots using semantic keypoints. Autonomous under-canopy navigation is challenging due to the tight spacing between the crop rows ($\sim 0.75$ m), degradation in RTK-GPS accuracy due to multipath error, and noise in LiDAR measurements from the excessive clutter. Our system, CropFollow++, introduces modular and interpretable perception architecture with a learned semantic keypoint representation. We deployed CropFollow++ in multiple under-canopy cover crop planting robots on a large scale (25 km in total) in various field conditions and we discuss the key lessons learned from this.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# ファースト・ツー・スパイク符号化を用いた確率スパイクニューラルネットワーク

Stochastic Spiking Neural Networks with First-to-Spike Coding ( http://arxiv.org/abs/2404.17719v1 )

ライセンス: Link先を確認
Yi Jiang, Sen Lu, Abhronil Sengupta, (参考訳) ニューラルネットワークの第3世代として認識されているスパイキングニューラルネットワーク(SNN)は、特にニューロモルフィックハードウェアに実装された場合、その生物学的楽観性とエネルギー効率で知られている。 しかし、SNNの既存の研究の大部分は、情報統合の長い時間による計算上のオーバーヘッドを生じさせ、脳の確率的推論能力と時間的ダイナミクスを完全に活用できない決定論的ニューロンに集中している。 本研究では,SNNアーキテクチャにおける新しい計算手法と情報符号化手法の融合について検討し,確率的スパイクニューロンモデルと時間的符号化技術を統合する。 他の決定論的SNNとの広範なベンチマークとレートベースコーディングを通じて、我々は、精度、推論遅延、スパイク空間性、エネルギー消費、ロバスト性の観点から、我々の提案のトレードオフを調査した。 我々の研究は、VGGアーキテクチャやMNISTを超えるデータセットにテンポラリエンコードすることで、確率的SNNの直接トレーニングアプローチのスケーラビリティを初めて拡張したものです。

Spiking Neural Networks (SNNs), recognized as the third generation of neural networks, are known for their bio-plausibility and energy efficiency, especially when implemented on neuromorphic hardware. However, the majority of existing studies on SNNs have concentrated on deterministic neurons with rate coding, a method that incurs substantial computational overhead due to lengthy information integration times and fails to fully harness the brain's probabilistic inference capabilities and temporal dynamics. In this work, we explore the merger of novel computing and information encoding schemes in SNN architectures where we integrate stochastic spiking neuron models with temporal coding techniques. Through extensive benchmarking with other deterministic SNNs and rate-based coding, we investigate the tradeoffs of our proposal in terms of accuracy, inference latency, spiking sparsity, energy consumption, and robustness. Our work is the first to extend the scalability of direct training approaches of stochastic SNNs with temporal encoding to VGG architectures and beyond-MNIST datasets.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# Real, Fake, partially fake 音声検出のためのRFPデータセット

An RFP dataset for Real, Fake, and Partially fake audio detection ( http://arxiv.org/abs/2404.17721v1 )

ライセンス: Link先を確認
Abdulazeez AlAli, George Theodorakopoulos, (参考訳) 近年のディープラーニングの進歩により、自然な音声合成音声の作成が可能となった。 しかし、攻撃者はこれらの技術理論を利用してフィッシングのような攻撃を行った。 効果的な検出モデルの開発を容易にするために、多くの公開データセットが作成されている。 いずれにせよ、利用可能なデータセットは、完全に偽のオーディオのみを含むため、検出モデルは、実際のオーディオの短い部分を偽のオーディオに置き換える攻撃を見逃す可能性がある。 この問題を認識し,本論文では,部分的偽音(PF),雑音を伴う音声,音声変換(VC),テキスト音声(TTS),リアルタイムの5つの異なる音声タイプからなるRFP da-tasetについて述べる。 その後、データは複数の検出モデルを評価するために使用され、利用可能なdetec-tionモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)をもたらすことが明らかになった。 EERの最低値は25.42%だった。 したがって、検出モデルの作成者は、PFやその他の偽オーディオを含むRFPのようなデータセットを使用して、重大にコンシドレートする必要があると信じている。

Recent advances in deep learning have enabled the creation of natural-sounding synthesised speech. However, attackers have also utilised these tech-nologies to conduct attacks such as phishing. Numerous public datasets have been created to facilitate the development of effective detection models. How-ever, available datasets contain only entirely fake audio; therefore, detection models may miss attacks that replace a short section of the real audio with fake audio. In recognition of this problem, the current paper presents the RFP da-taset, which comprises five distinct audio types: partial fake (PF), audio with noise, voice conversion (VC), text-to-speech (TTS), and real. The data are then used to evaluate several detection models, revealing that the available detec-tion models incur a markedly higher equal error rate (EER) when detecting PF audio instead of entirely fake audio. The lowest EER recorded was 25.42%. Therefore, we believe that creators of detection models must seriously consid-er using datasets like RFP that include PF and other types of fake audio.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# 顧客サービス質問回答のための知識グラフを用いた検索拡張生成

Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering ( http://arxiv.org/abs/2404.17723v1 )

ライセンス: Link先を確認
Zhentao Xu, Mark Jerome Cruz, Matthew Guevara, Tie Wang, Manasi Deshpande, Xiaofeng Wang, Zheng Li, (参考訳) カスタマーサービス技術サポートでは、顧客からの問い合わせを効率的に解決するために、過去の問題を迅速かつ正確に検索することが重要である。 大規模言語モデル(LLM)の検索強化生成(RAG)における従来の検索手法は,過去の発行追跡チケットの大量のコーパスをプレーンテキストとして扱い,重要な発行内構造や,性能を制限した発行間関係を無視している。 本稿では,知識グラフ(KG)とRAGを併用する新しい顧客サービス質問回答手法を提案する。 本手法は, 歴史的問題からKGを抽出し, 発行内構造と発行間関係を維持する。 質問応答フェーズにおいて,提案手法は消費者問合せを解析し,関連する部分グラフをKGから検索し,回答を生成する。 このKGの統合は、顧客サービス構造情報を保存することによって検索精度を向上するだけでなく、テキストセグメンテーションの効果を緩和して回答品質を向上させる。 提案手法は,キー検索(MRR, Recall@K, NDCG@K)とテキスト生成(BLEU, ROUGE, METEOR)のメトリクスを用いて,ベンチマークデータセットの実証評価を行い,MRRでは77.6%,BLEUでは0.32倍の精度でベースラインを達成できた。 当社のメソッドはLinkedInのカスタマーサービスチーム内で約6ヶ月にわたってデプロイされ、イシュー毎の解決時間の中央値が28.6%削減された。

In customer service technical support, swiftly and accurately retrieving relevant past issues is critical for efficiently resolving customer inquiries. The conventional retrieval methods in retrieval-augmented generation (RAG) for large language models (LLMs) treat a large corpus of past issue tracking tickets as plain text, ignoring the crucial intra-issue structure and inter-issue relations, which limits performance. We introduce a novel customer service question-answering method that amalgamates RAG with a knowledge graph (KG). Our method constructs a KG from historical issues for use in retrieval, retaining the intra-issue structure and inter-issue relations. During the question-answering phase, our method parses consumer queries and retrieves related sub-graphs from the KG to generate answers. This integration of a KG not only improves retrieval accuracy by preserving customer service structure information but also enhances answering quality by mitigating the effects of text segmentation. Empirical assessments on our benchmark datasets, utilizing key retrieval (MRR, Recall@K, NDCG@K) and text generation (BLEU, ROUGE, METEOR) metrics, reveal that our method outperforms the baseline by 77.6% in MRR and by 0.32 in BLEU. Our method has been deployed within LinkedIn's customer service team for approximately six months and has reduced the median per-issue resolution time by 28.6%.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# ボルツマン状態依存的合理性

Boltzmann State-Dependent Rationality ( http://arxiv.org/abs/2404.17725v1 )

ライセンス: Link先を確認
Osher Lerner, (参考訳) 本稿では、構造的不合理性の測定段階を通じて、人間の行動の既存の学習モデルを拡張する。 具体的には、ボルツマンの有理性モデルにおける準最適定数 $\beta$ を状態 $\beta(s)$ 上の関数に置き換えることで、計算的に抽出可能な自然な表現性が得られる。 本稿では, 関連する数学的理論を論じ, いくつかの実験設計を立案し, 限定的な予備結果を示し, 今後の研究を提案する。

This paper expands on existing learned models of human behavior via a measured step in structured irrationality. Specifically, by replacing the suboptimality constant $\beta$ in a Boltzmann rationality model with a function over states $\beta(s)$, we gain natural expressivity in a computationally tractable manner. This paper discusses relevant mathematical theory, sets up several experimental designs, presents limited preliminary results, and proposes future investigations.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# 単一ビットを用いた効率的な半量子鍵分配プロトコル

Efficient Mediated Semi-Quantum Key Distribution Protocol Using Single Qubits ( http://arxiv.org/abs/2404.17727v1 )

ライセンス: Link先を確認
Mustapha Anis Younes, Sofia Zebboudj, Abdelhakim Gharbi, (参考訳) 本稿では,2人の古典的参加者間の秘密鍵の共有化を容易にし,信頼できない第三者(TP)の助けを借りて,より効率的な半量子鍵分配(MSQKD)プロトコルを提案する。 既存のMSQKDプロトコルとは異なり、我々の手法は、量子ビットを$X$で準備し測定することしか必要としないTPの量子要求を大幅に削減する。 一方、古典的参加者は、アダマール演算の実行とともに、$Z$ベースのキュービットの準備と測定に制限される。 この量子オーバーヘッドの低減は、量子ビット効率を損なうことなく、我々のMSQKDプロトコルの実用性を高める。 さらに,様々な攻撃に対するプロトコルの安全性を実証する。

In this paper, we propose a new efficient mediated semi-quantum key distribution (MSQKD) protocol, facilitating the establishment of a shared secret key between two classical participants with the assistance of an untrusted third party (TP). Unlike existing MSQKD protocols, our approach significantly reduces the quantum requirements for TP, who only needs to prepare and measure qubits in the $X$ basis. Meanwhile, the classical participants are limited to preparing and measuring qubits in the $Z$ basis, along with performing Hadamard operations. This reduction in quantum overhead enhances the practicality of our MSQKD protocol without compromising qubit efficiency. Additionally, we demonstrate the security of our protocol against various well-known attacks.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# CoMM: 複雑な問題解決のための協調型マルチエージェント・マルチ推論パスプロンプト

CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving ( http://arxiv.org/abs/2404.17729v1 )

ライセンス: Link先を確認
Pei Chen, Boran Han, Shuai Zhang, (参考訳) 大規模言語モデル(LLM)は,従来の自然言語タスクや基本推論タスクを適切なプロンプト技術で解く上で,優れた能力を示している。 しかし、その能力は複雑な科学問題の解決に限られている。 本研究では,協調型マルチエージェントマルチレゾニングパス(CoMM)プロンプトフレームワークを提案することにより,LLMの推論能力の上限を押し上げることを目的とする。 具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。 特に、異なる役割に異なる推論パスを適用することは、マルチエージェントシナリオにおいて、数発のプロンプトアプローチを実装する効果的な戦略であることがわかった。 実験により,提案手法が2つの大学レベルの科学問題に対して,競争基準よりも有効であることを実証した。 我々のさらなる分析は、LSMに異なる役割や専門家を単独で演じるよう促すことの必要性を示している。 https://github.com/amazon-science/comm-prompt

Large Language Models (LLMs) have shown great ability in solving traditional natural language tasks and elementary reasoning tasks with appropriate prompting techniques. However, their ability is still limited in solving complicated science problems. In this work, we aim to push the upper bound of the reasoning capability of LLMs by proposing a collaborative multi-agent, multi-reasoning-path (CoMM) prompting framework. Specifically, we prompt LLMs to play different roles in a problem-solving team, and encourage different role-play agents to collaboratively solve the target task. In particular, we discover that applying different reasoning paths for different roles is an effective strategy to implement few-shot prompting approaches in the multi-agent scenarios. Empirical results demonstrate the effectiveness of the proposed methods on two college-level science problems over competitive baselines. Our further analysis shows the necessity of prompting LLMs to play different roles or experts independently. We release the code at: https://github.com/amazon-science/comm-prompt
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# 自閉症成人に対するAAC(Augmentative and Alternative Communication)応用における社会的・技術的分断のブリッジ

Bridging the Social & Technical Divide in Augmentative and Alternative Communication (AAC) Applications for Autistic Adults ( http://arxiv.org/abs/2404.17730v1 )

ライセンス: Link先を確認
Lara J. Martin, Malathy Nagalakshmi, (参考訳) 自然言語処理(NLP)技術は、AAC(Augmentative and Alternative Communication)の改善に頻繁に用いられているが、これらの技術の多くは、ユーザの視点を含まない形で統合されている。 これらのツールの多くは子どもを念頭に置いて作られているため、自閉症の成人はまずAACツールの設計を無視されることが多い。 自閉症成人12名を対象に詳細なインタビューを行い,現在のAACの問題点を把握し,どの技術進歩に役立つかを検討した。 技術的問題に加えて、社会的な問題も数多く存在することがわかりました。 インプットオプション、アウトプットオプション、AACの選択または適応、AACの起動または交換のタイミング、(AACへの)メリット、(AACへの)アクセス、継続的な使用のためのブロックのスタンブル、社会的懸念、制御の欠如。 本稿では,これらの9つのカテゴリを深く掘り下げて,NLPコミュニティ,AACアプリケーションメーカ,および政策メーカに対して,自閉症成人に対するAAC使用を改善するためのガイドラインを提案する。

Natural Language Processing (NLP) techniques are being used more frequently to improve high-tech Augmentative and Alternative Communication (AAC), but many of these techniques are integrated without the inclusion of the users' perspectives. As many of these tools are created with children in mind, autistic adults are often neglected in the design of AAC tools to begin with. We conducted in-depth interviews with 12 autistic adults to find the pain points of current AAC and determine what general technological advances they would find helpful. We found that in addition to technological issues, there are many societal issues as well. We found 9 different categories of themes from our interviews: input options, output options, selecting or adapting AAC for a good fit, when to start or swap AAC, benefits (of use), access (to AAC), stumbling blocks for continued use, social concerns, and lack of control. In this paper, we go through these nine categories in depth and then suggest possible guidelines for the NLP community, AAC application makers, and policy makers to improve AAC use for autistic adults.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# 生成的データセット蒸留:グローバル構造と局所的詳細のバランスをとる

Generative Dataset Distillation: Balancing Global Structure and Local Details ( http://arxiv.org/abs/2404.17732v1 )

ライセンス: Link先を確認
Longzhen Li, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama, (参考訳) 本稿では,大規模なデータセットから生成モデルに情報を蒸留する際のグローバル構造と局所的詳細のバランスを考慮に入れた新しいデータセット蒸留法を提案する。 モデルのトレーニング時に必要となるデータセットのサイズを減らすために、データセットの蒸留が提案されている。 従来のデータセット蒸留法では, 長期再デプロイ時間とクロスアーキテクチャ性能の低下が問題視されている。 さらに、従来の手法では、テクスチャや形状などの局所的な特徴を無視しながら、合成データセットと元のデータセットの間の高レベルなセマンティック属性に重きを置いていた。 以上の知見に基づいて,原画像データセットを生成モデルに蒸留する方法を提案する。 本手法では, 条件付き生成逆数ネットワークを用いて蒸留したデータセットを生成する。 その後、蒸留プロセスにおけるグローバル構造と局所的な詳細のバランスを確保するとともに、より情報密度の高いデータセット生成のためのジェネレータを継続的に最適化する。

In this paper, we propose a new dataset distillation method that considers balancing global structure and local details when distilling the information from a large dataset into a generative model. Dataset distillation has been proposed to reduce the size of the required dataset when training models. The conventional dataset distillation methods face the problem of long redeployment time and poor cross-architecture performance. Moreover, previous methods focused too much on the high-level semantic attributes between the synthetic dataset and the original dataset while ignoring the local features such as texture and shape. Based on the above understanding, we propose a new method for distilling the original image dataset into a generative model. Our method involves using a conditional generative adversarial network to generate the distilled dataset. Subsequently, we ensure balancing global structure and local details in the distillation process, continuously optimizing the generator for more information-dense dataset generation.
翻訳日:2024-04-30 19:40:37 公開日:2024-04-26
# FashionSD-X:潜在拡散を用いたマルチモーダルファッションガーメント合成

FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion ( http://arxiv.org/abs/2404.18591v1 )

ライセンス: Link先を確認
Abhishek Kumar Singh, Ioannis Patras, (参考訳) ファッション産業の急速な進化は、特に生成的AIの統合を通じて、技術進歩とますます交差している。 本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。 ControlNetとLoRAの微調整を利用して,テキストやスケッチなどのマルチモーダル入力から高品質な画像を生成する。 我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。 FID,CLIP Score,KIDなどの指標を用いて評価を行った結果,従来の安定拡散モデルよりも大幅に優れた結果が得られた。 その結果、ファッションに適したアウトプットを生成する上での我々のモデルの有効性だけでなく、ファッションデザインワークフローを革新させる上での拡散モデルの可能性も浮き彫りにした。 この研究は、ファッションデザインと表現において、よりインタラクティブでパーソナライズされ、技術に富んだ方法論を開拓し、創造的ビジョンと実践的応用のギャップを埋める。

The rapid evolution of the fashion industry increasingly intersects with technological advancements, particularly through the integration of generative AI. This study introduces a novel generative pipeline designed to transform the fashion design process by employing latent diffusion models. Utilizing ControlNet and LoRA fine-tuning, our approach generates high-quality images from multimodal inputs such as text and sketches. We leverage and enhance state-of-the-art virtual try-on datasets, including Multimodal Dress Code and VITON-HD, by integrating sketch data. Our evaluation, utilizing metrics like FID, CLIP Score, and KID, demonstrates that our model significantly outperforms traditional stable diffusion models. The results not only highlight the effectiveness of our model in generating fashion-appropriate outputs but also underscore the potential of diffusion models in revolutionizing fashion design workflows. This research paves the way for more interactive, personalized, and technologically enriched methodologies in fashion design and representation, bridging the gap between creative vision and practical application.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-26
# 量子ゼノ、ハムレットおよび同様の効果

Quantum Zeno, Hamlet and similar effects ( http://arxiv.org/abs/0908.1301v8 )

ライセンス: Link先を確認
Vladan Pankovic, (参考訳) 不安定な量子系に対する単純な量子ゼノ効果は、頻繁な減衰検出によって全崩壊確率が減少することを示す。 アナログ的に、不安定な量子系に対する量子反ゼノ効果は、頻繁な崩壊検出による全非脱落確率の減少を表す。 また、光学的、すなわち量子ゼノの偏光検出アナロジーや反ゼノ効果も検討した。 本研究では、量子ゼノと反ゼノ効果の基本的な量子力学的概念について考察する。 我々は、量子ゼノの光子偏光検出アナログと反ゼノ効果に関する最も単純な(マス法則)概念を用いて、いくつかの新しい状況(異なる頻繁な検出の間の量子力学進化の非等価時間)を提案する。 対応するものとして、新しい量子効果、量子ハムレット効果(頻発検出、最終全分極角、状態収束)、量子反ハムレット効果(頻発検出、最終全分極角、状態分岐)を定義する。 また、ゼノ効果の古典的な機械的アナロジーも考慮する。 最後に、ビームスプリッターにおける単一光子の頻繁な干渉を考察し、通常の指数関数的に減少する崩壊則の類似と同様に、量子ゼノと反ゼノ効果の類似の反射係数と伝達係数の異なる値を求める。

Simply speaking quantum Zeno effect for an unstable quantum system represents total decay probability decrease by frequent decay detection. Analogously simply speaking quantum anti-Zeno effect for an unstable quantum system represents total no-decay probability decrease by frequent decay detection. Also, some authors considered optical, i.e. polarization detection analogy of quantum Zeno and anti-Zeno effects. In this work we consider basic standard quantum mechanical concepts in quantum Zeno and anti-Zeno effect. We use simplest (Malus law) form of mentioned ideas on the photon polarization detection analogy of quantum Zeno and anti-Zeno effects and we suggest some new situations (non-equivalent time duration of the quantum dynamical evolution between different frequent detection). Correspondingly we define new quantum effects, quantum Hamlet effect (when, by frequent detection, final total polarization angle and state converge but total probability for appearance of this state diverges) and quantum anti-Hamlet effect (when, by frequent detection, final total polarization angle and state diverge but total probability for appearance of this state converges). Also, we consider a rough classical mechanical analogy of Zeno effect. Finally we consider frequent interference of single photon at beam splitters and obtain for different values of reflection and transmission coefficients analogies of quantum Zeno and anti-Zeno effect as well as analogy of usual exponentially decreasing decay law.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# 説明可能なAIにおける解釈可能な表現:理論から実践へ

Interpretable Representations in Explainable AI: From Theory to Practice ( http://arxiv.org/abs/2008.07007v4 )

ライセンス: Link先を確認
Kacper Sokol, Peter Flach, (参考訳) 解釈可能な表現は、人工知能と機械学習アルゴリズムに基づくブラックボックス予測システムをターゲットにした、多くの説明者のバックボーンである。 優れた予測性能に必要な低レベルのデータ表現を、説明的洞察を伝えるために使用される高レベルの人間知的な概念に変換する。 特に、説明型とその認知的複雑さは、解釈可能な表現によって直接制御され、特定のオーディエンスやユースケースをターゲットとして調整される。 しかし、解釈可能な表現の上に構築された多くの説明者は、その利点を軽視し、暗黙の仮定をしばしば持つデフォルトのソリューションに取って代わり、そのような手法の説明力や信頼性を低下させる。 この問題に対処するために,人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。 表、画像、テキストデータに対してどのように運用されているかを示し、仮定、強度、弱点について議論し、中核となるビルディングブロックを特定し、設定とパラメータ化を精査する。 特に,線形モデルを用いて解釈可能な概念がブラックボックス予測に与える影響を定量化するために,これらの説明特性,デシラタ,および(有害な)操作のスコープを表わすことができる。 以上の結果から,信頼性の高い解釈可能な表現を設計するための様々な推奨事項が得られた。具体的には,表型データのクラス認識(教師付き)離散化の利点,例えば決定木による分類木による識別,画像解釈可能な表現のセグメンテーションの粒度と隠蔽色に対する感度などである。

Interpretable representations are the backbone of many explainers that target black-box predictive systems based on artificial intelligence and machine learning algorithms. They translate the low-level data representation necessary for good predictive performance into high-level human-intelligible concepts used to convey the explanatory insights. Notably, the explanation type and its cognitive complexity are directly controlled by the interpretable representation, tweaking which allows to target a particular audience and use case. However, many explainers built upon interpretable representations overlook their merit and fall back on default solutions that often carry implicit assumptions, thereby degrading the explanatory power and reliability of such techniques. To address this problem, we study properties of interpretable representations that encode presence and absence of human-comprehensible concepts. We demonstrate how they are operationalised for tabular, image and text data; discuss their assumptions, strengths and weaknesses; identify their core building blocks; and scrutinise their configuration and parameterisation. In particular, this in-depth analysis allows us to pinpoint their explanatory properties, desiderata and scope for (malicious) manipulation in the context of tabular data where a linear model is used to quantify the influence of interpretable concepts on a black-box prediction. Our findings lead to a range of recommendations for designing trustworthy interpretable representations; specifically, the benefits of class-aware (supervised) discretisation of tabular data, e.g., with decision trees, and sensitivity of image interpretable representations to segmentation granularity and occlusion colour.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# Dual-Mandate Patrols: グリーンセキュリティのためのマルチアーマッドバンド

Dual-Mandate Patrols: Multi-Armed Bandits for Green Security ( http://arxiv.org/abs/2009.06560v3 )

ライセンス: Link先を確認
Lily Xu, Elizabeth Bondi, Fei Fang, Andrew Perrault, Kai Wang, Milind Tambe, (参考訳) 野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保護活動は、攻撃者(例えば密猟者や違法な伐採者)から保護するために広大な地域をパトロールしなければならない防衛者(パトロール業者)の限られた可用性によって制限されている。 被告は保護地域の各地域でどれだけの時間を過ごすかを選択し、頻繁に訪れる地域を探索し、既知のホットスポットを搾取するバランスをとる必要がある。 各行動がパトロール戦略を表し、パトロール政策の収束率を保証できる確率的多武装バンディットとしてこの問題を定式化する。 しかし、ナイーブ・バンディットのアプローチは長期的な最適性のために短期的なパフォーマンスを損なうことになり、動物が密猟され森林が破壊される結果となった。 性能向上のために,報酬関数の滑らかさと動作の分解可能性を活用する。 リプシッツ連続性と分解の相乗効果を示す。 その際、組合せとリプシッツの帯域幅のギャップを埋め、短期的な性能を最適化しながら、既存の保証を厳格化するための非相対的なアプローチを提示します。 我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを実証する。

Conservation efforts in green security domains to protect wildlife and forests are constrained by the limited availability of defenders (i.e., patrollers), who must patrol vast areas to protect from attackers (e.g., poachers or illegal loggers). Defenders must choose how much time to spend in each region of the protected area, balancing exploration of infrequently visited regions and exploitation of known hotspots. We formulate the problem as a stochastic multi-armed bandit, where each action represents a patrol strategy, enabling us to guarantee the rate of convergence of the patrolling policy. However, a naive bandit approach would compromise short-term performance for long-term optimality, resulting in animals poached and forests destroyed. To speed up performance, we leverage smoothness in the reward function and decomposability of actions. We show a synergy between Lipschitz-continuity and decomposition as each aids the convergence of the other. In doing so, we bridge the gap between combinatorial and Lipschitz bandits, presenting a no-regret approach that tightens existing guarantees while optimizing for short-term performance. We demonstrate that our algorithm, LIZARD, improves performance on real-world poaching data from Cambodia.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# Riesz表現子の逆推定

Adversarial Estimation of Riesz Representers ( http://arxiv.org/abs/2101.00009v3 )

ライセンス: Link先を確認
Victor Chernozhukov, Whitney Newey, Rahul Singh, Vasilis Syrgkanis, (参考訳) 多くの因果パラメータは、下層の回帰の線形汎関数である。 リース表現器は半パラメトリック推定線型汎函数の漸近分散における鍵成分である。 一般関数空間を用いてRiesz表現子を推定する逆フレームワークを提案する。 臨界半径(Critical radius)と呼ばれる抽象的な量で非漸近平均平方レートを証明し、ニューラルネットワーク、ランダムな森林、カーネルヒルベルト空間を主要なケースとして再現する。 我々の推定装置は、標本分割による機械学習と高度に互換性があり、誤特定を許容する推論の一般的な条件を直接検証する。 また、安定性や複雑さに基づいて、サンプル分割なしで推論を証明できるように保証しています。 我々の推定器は、いくつかの従来の手法が故障した非常に非線形なシミュレーションにおいて、名目上のカバレッジを達成する。 彼らは、一致した補助金の不均一な効果に新しい光を放った。

Many causal parameters are linear functionals of an underlying regression. The Riesz representer is a key component in the asymptotic variance of a semiparametrically estimated linear functional. We propose an adversarial framework to estimate the Riesz representer using general function spaces. We prove a nonasymptotic mean square rate in terms of an abstract quantity called the critical radius, then specialize it for neural networks, random forests, and reproducing kernel Hilbert spaces as leading cases. Our estimators are highly compatible with targeted and debiased machine learning with sample splitting; our guarantees directly verify general conditions for inference that allow mis-specification. We also use our guarantees to prove inference without sample splitting, based on stability or complexity. Our estimators achieve nominal coverage in highly nonlinear simulations where some previous methods break down. They shed new light on the heterogeneous effects of matching grants.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# 確率的ハミルトン力学学習による物理インフォームドニューラルネットワーク

Physics-informed neural networks via stochastic Hamiltonian dynamics learning ( http://arxiv.org/abs/2111.08108v3 )

ライセンス: Link先を確認
Chandrajit Bajaj, Minh Nguyen, (参考訳) 本稿では,ポントリャーギンの最大原理を適用し,ハミルトン力学系を解くことによって,最適制御問題に対処する新しい学習フレームワークを提案する。 ポントリャーギンの最大原理を元の最適制御問題に適用すると、学習焦点はハミルトン力学と対応する随伴変数にシフトする。 すると、還元ハミルトニアンネットワークは時間を遡って学習し、ポントリャーギンの最大原理の条件から導かれる損失関数を最小化する。 学習過程は、縮小されたハミルトン人の後部分布を徐々に学習することでさらに改善される。 これは、より効率的な経路探索プロセスをもたらす変分オートエンコーダを利用することによって達成される。 我々は,NeuralPMPと呼ばれる学習フレームワークを様々な制御タスクに適用し,競争力のある結果を得る。

In this paper, we propose novel learning frameworks to tackle optimal control problems by applying the Pontryagin maximum principle and then solving for a Hamiltonian dynamical system. Applying the Pontryagin maximum principle to the original optimal control problem shifts the learning focus to reduced Hamiltonian dynamics and corresponding adjoint variables. Then, the reduced Hamiltonian networks can be learned by going backwards in time and then minimizing loss function deduced from the Pontryagin maximum principle's conditions. The learning process is further improved by progressively learning a posterior distribution of the reduced Hamiltonians. This is achieved through utilizing a variational autoencoder which leads to more effective path exploration process. We apply our learning frameworks called NeuralPMP to various control tasks and obtain competitive results.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# SoK: 自動運転におけるセマンティックAIセキュリティについて

SoK: On the Semantic AI Security in Autonomous Driving ( http://arxiv.org/abs/2203.05314v2 )

ライセンス: Link先を確認
Junjie Shen, Ningfei Wang, Ziwen Wan, Yunpeng Luo, Takami Sato, Zhisheng Hu, Xinyang Zhang, Shengjian Guo, Zhenyu Zhong, Kang Li, Ziming Zhao, Chunming Qiao, Qi Alfred Chen, (参考訳) 自律運転(AD)システムは、安全と運転判断の正しさをAIコンポーネントに依存している。 残念ながら、今日のAIアルゴリズムは、一般的に敵の攻撃に弱いことが知られている。 しかし、そのようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、(1)システムレベルの攻撃入力空間から(2)AIコンポーネントレベルの攻撃の影響と(2)システムレベルのものの両方に対処する必要がある。 本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義する。 過去5年間で、ADコンテキストにおけるこのようなセマンティックAIセキュリティの課題に取り組むために、さらに多くの研究が実施されている。 本稿では,このような発展途上のADAIセキュリティ研究空間の知識の体系化を行う。 総じて、53件の論文を収集し分析し、セキュリティ分野に不可欠な研究の側面に基づいて体系的に分類する。 我々は、既存のAD AIセキュリティワークと密接な関係のあるドメインのセキュリティワークとを垂直に比較した量的比較に基づいて、観測された6つの重要な科学的ギャップを要約した。 これにより、設計レベルだけでなく、研究目標、方法論、コミュニティレベルにおいても、洞察と将来的な方向性を提供することができます。 もっとも重要な科学的方法論レベルのギャップに対処するため、私たちは、AD AIセキュリティ研究コミュニティのための、PASSというオープンソースの、均一で拡張可能なシステム駆動評価プラットフォームを開発するためのイニシアティブを取ります。 また、実装されたプラットフォームプロトタイプを使用して、代表的セマンティックADAIアタックを使用して、そのようなプラットフォームの能力とメリットを誇示しています。

Autonomous Driving (AD) systems rely on AI components to make safety and correct driving decisions. Unfortunately, today's AI algorithms are known to be generally vulnerable to adversarial attacks. However, for such AI component-level vulnerabilities to be semantically impactful at the system level, it needs to address non-trivial semantic gaps both (1) from the system-level attack input spaces to those at AI component level, and (2) from AI component-level attack impacts to those at the system level. In this paper, we define such research space as semantic AI security as opposed to generic AI security. Over the past 5 years, increasingly more research works are performed to tackle such semantic AI security challenges in AD context, which has started to show an exponential growth trend. In this paper, we perform the first systematization of knowledge of such growing semantic AD AI security research space. In total, we collect and analyze 53 such papers, and systematically taxonomize them based on research aspects critical for the security field. We summarize 6 most substantial scientific gaps observed based on quantitative comparisons both vertically among existing AD AI security works and horizontally with security works from closely-related domains. With these, we are able to provide insights and potential future directions not only at the design level, but also at the research goal, methodology, and community levels. To address the most critical scientific methodology-level gap, we take the initiative to develop an open-source, uniform, and extensible system-driven evaluation platform, named PASS, for the semantic AD AI security research community. We also use our implemented platform prototype to showcase the capabilities and benefits of such a platform using representative semantic AD AI attacks.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# ルーティングネットワークにおける遅延推定のためのオープンワールドラーニンググラフ畳み込み

Open World Learning Graph Convolution for Latency Estimation in Routing Networks ( http://arxiv.org/abs/2207.14643v2 )

ライセンス: Link先を確認
Yifei Jin, Marios Daoutis, Sarunas Girdzijauskas, Aristides Gionis, (参考訳) 正確なルーティングネットワークの状態推定は、Software Defined Networkingの重要なコンポーネントである。 しかし、ネットワークルーティングをモデル化する既存のディープラーニングベースの手法では、見当たらない特徴分布への外挿ができない。 オープンワールドインプットを含むテストセットでは、スケールされたネットワーク属性やドリフトされたネットワーク属性も処理できない。 これらの課題に対処するために,グラフニューラルネットワークを用いてネットワークルーティングをモデル化する新しい手法を提案する。 提案手法は,ネットワーク遅延推定にも利用できる。 ドメイン知識によるグラフの定式化によってサポートされた我々のモデルは、異なるネットワークサイズとルーティングネットワークの構成にまたがる安定したパフォーマンスを共有すると同時に、目に見えないサイズ、構成、ユーザの振る舞いへの外挿を可能にする。 予測精度,計算資源,推論速度,およびオープンワールド入力への一般化能力の観点から,本モデルが従来のディープラーニングモデルよりも優れていることを示す。

Accurate routing network status estimation is a key component in Software Defined Networking. However, existing deep-learning-based methods for modeling network routing are not able to extrapolate towards unseen feature distributions. Nor are they able to handle scaled and drifted network attributes in test sets that include open-world inputs. To deal with these challenges, we propose a novel approach for modeling network routing, using Graph Neural Networks. Our method can also be used for network-latency estimation. Supported by a domain-knowledge-assisted graph formulation, our model shares a stable performance across different network sizes and configurations of routing networks, while at the same time being able to extrapolate towards unseen sizes, configurations, and user behavior. We show that our model outperforms most conventional deep-learning-based models, in terms of prediction accuracy, computational resources, inference speed, as well as ability to generalize towards open-world input.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# ルールベースモデルから大規模言語モデル(メタ)へのオープン情報抽出に関する調査

A Survey on Open Information Extraction from Rule-based Model to Large Language Model (meta) ( http://arxiv.org/abs/2208.08690v4 )

ライセンス: Link先を確認
Pai Liu, Wenyang Gao, Wenjie Dong, Lin Ai, Ziwei Gong, Songfang Huang, Zongsheng Li, Ehsan Hoque, Julia Hirschberg, Yue Zhang, (参考訳) オープン情報抽出(OpenIE)は、構造化されていないテキストから構造化情報を引き出すための重要なNLPタスクであり、関係タイプやドメインによって制限されない。 本調査では,2007年から2024年にかけてのOpenIE技術の概観を概説し,前回の調査で欠落した時系列的視点を強調した。 近年の技術の進歩に合わせて,OpenIEにおけるタスク設定の進化を考察する。 この記事では、OpenIEアプローチをルールベース、ニューラル、トレーニング済みの大規模言語モデルに分類し、時系列フレームワーク内でそれぞれについて議論する。 さらに、現在使用されている一般的なデータセットと評価指標も強調する。 この広範なレビューに基づいて、本論文は、データセット、情報ソース、出力フォーマット、方法論、評価指標の観点から、将来的な方向性を概説する。

Open Information Extraction (OpenIE) represents a crucial NLP task aimed at deriving structured information from unstructured text, unrestricted by relation type or domain. This survey paper provides an overview of OpenIE technologies spanning from 2007 to 2024, emphasizing a chronological perspective absent in prior surveys. It examines the evolution of task settings in OpenIE to align with the advances in recent technologies. The paper categorizes OpenIE approaches into rule-based, neural, and pre-trained large language models, discussing each within a chronological framework. Additionally, it highlights prevalent datasets and evaluation metrics currently in use. Building on this extensive review, the paper outlines potential future directions in terms of datasets, information sources, output formats, methodologies, and evaluation metrics.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# 量子ハミルトンシミュレーションと双対性のための数学的枠組み

A mathematical framework for quantum Hamiltonian simulation and duality ( http://arxiv.org/abs/2208.11941v3 )

ライセンス: Link先を確認
Harriet Apel, Toby Cubitt, (参考訳) アナログハミルトニアンシミュレーションは量子コンピューティングの将来的な短期的応用であり、最近理論的な足場に置かれている。 ハミルトニアンシミュレーションでは、物理ハミルトニアンが、他の(しばしば非常に異なる)ハミルトニアンと同一の物理を持つように設計される。 これは物理学における双対性の概念と質的に類似しており、2つの超現実的な異なる理論は数学的に何らかの正確な意味で等価である。 しかし、ハミルトニアンシミュレーションの既存の特徴付けは、物理学の全ての双対性にまで拡張するのに十分一般的ではない。 特に、強い/弱く、高温で/低温の双対性の重要なケースを包含することはできない。 本研究では、観測可能関数、分割関数、エントロピーの3つの物理的に動機付けられた双対性の公理を与える。 これらの公理は同値であることを証明し、これらの公理を満たす任意の双対性は取らなければならないという数学的形式を特徴づける。 結果の1つであるビルディングブロックは、エントロピー保存マップから加法定数まで保存される写像への以前の結果の強化であり、独立数学的な興味を持つユニタリ成分と反ユニタリ成分の直和として分解されることを証明している。

Analogue Hamiltonian simulation is a promising near-term application of quantum computing and has recently been put on a theoretical footing. In Hamiltonian simulation, a physical Hamiltonian is engineered to have identical physics to another - often very different - Hamiltonian. This is qualitatively similar to the notion of duality in physics, whereby two superficially different theories are mathematically equivalent in some precise sense. However, existing characterisations of Hamiltonian simulations are not sufficiently general to extend to all dualities in physics. In particular, they cannot encompass the important cases of strong/weak and high-temperature/low-temperature dualities. In this work, we give three physically motivated axiomatisations of duality, formulated respectively in terms of observables, partition functions and entropies. We prove that these axiomatisations are equivalent, and characterise the mathematical form that any duality satisfying these axioms must take. A building block in one of our results is a strengthening of earlier results on entropy-preserving maps to maps that are entropy-preserving up to an additive constant, which we prove decompose as a direct sum of unitary and anti-unitary components, which may be of independent mathematical interest.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# DDoS: グラフニューラルネットワークによる薬物相乗予測アルゴリズム

DDoS: A Graph Neural Network based Drug Synergy Prediction Algorithm ( http://arxiv.org/abs/2210.00802v3 )

ライセンス: Link先を確認
Kyriakos Schwarz, Alicia Pliego-Mendieta, Amina Mollaysa, Lara Planas-Paz, Chantal Pauli, Ahmed Allam, Michael Krauthammer, (参考訳) 薬物相乗効果は、2つの薬物の複合的な影響が個々の効果の合計を超えると起こる。 細胞株に対するシングルドラッグ効果は十分に文書化されているが、薬物相乗効果に関するデータの不足は、薬物の組み合わせの可能性を考えると、未試験の薬物対における相乗効果を予測するための計算手法への関心が高まりつつある。 薬物の化学構造と細胞株の遺伝子発現データを利用した薬物相乗効果予測のためのグラフニューラルネットワーク(\textit{GNN})モデルを提案する。 我々は,最大利用可能な薬物組み合わせデータベース(DrugComb)からデータを抽出し,複数のシナジースコア(文献でよく使用される)を生成し,信頼性の高い信頼性ベンチマークとして機能する7つのデータセットを作成する。 我々のGNNベースのアプローチは、事前に計算された化学物質の特徴に依存する従来のモデルとは対照的に、薬物のグラフ構造から直接タスク固有の薬物表現を学習し、薬物相乗効果の予測に優れた性能を提供する。 我々の研究は、タスク固有の薬物表現を学習し、多様なデータセットを活用することが、薬物と薬物の相互作用とシナジーの理解を深めるための有望なアプローチであることを示唆している。

Drug synergy arises when the combined impact of two drugs exceeds the sum of their individual effects. While single-drug effects on cell lines are well-documented, the scarcity of data on drug synergy, considering the vast array of potential drug combinations, prompts a growing interest in computational approaches for predicting synergies in untested drug pairs. We introduce a Graph Neural Network (\textit{GNN}) based model for drug synergy prediction, which utilizes drug chemical structures and cell line gene expression data. We extract data from the largest available drug combination database (DrugComb) and generate multiple synergy scores (commonly used in the literature) to create seven datasets that serve as a reliable benchmark with high confidence. In contrast to conventional models relying on pre-computed chemical features, our GNN-based approach learns task-specific drug representations directly from the graph structure of the drugs, providing superior performance in predicting drug synergies. Our work suggests that learning task-specific drug representations and leveraging a diverse dataset is a promising approach to advancing our understanding of drug-drug interaction and synergy.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# 非負のテンソル因子化によるプロセスモデルからの隠れマルコフモデルの生成

Generating Hidden Markov Models from Process Models Through Nonnegative Tensor Factorization ( http://arxiv.org/abs/2210.01060v2 )

ライセンス: Link先を確認
Erik Skau, Andrew Hollis, Stephan Eidenbenz, Kim Rasmussen, Boian Alexandrov, (参考訳) 産業プロセスの監視は、生産サイクル、迅速な緊急対応、国家安全保障の信頼性を確保するために、産業や政府にとって重要な能力である。 プロセスモニタリングにより、ユーザーは産業プロセスにおける組織の進捗を計測したり、遠隔地で行われるプロセスにおける機械部品の劣化や老化を予測することができる。 多くのデータサイエンスアプリケーションと同様に、通常は衛星画像、短いビデオクリップ、イベントログ、小さなセンサーによってキャプチャされたシグネチャなど、限られた生データにしかアクセスできません。 データ不足に対処するために、関心の行動に精通した課題エキスパート(SME)の知識を活用する。 中小企業は、タスク完了に必要な必要不可欠な活動と、これらの活動を実行するために必要なリソースについて専門家の知識を提供する。 このタイプの分析のために様々なプロセスマイニング技術が開発されており、一般的には、ドメインの専門家の洞察に基づいて構築された理論的プロセスモデルと、利用可能な生データのアドホックな統合を組み合わせている。 本稿では,非負のテンソル因子化によって構築された,理論的プロセスモデル(中小企業が提案しているように)と関連する最小隠れマルコフモデル(HMM)を統合する,数学的に新しい手法を提案する。 私たちの方法が統合されます。 a)理論過程モデル (b)HMM, (c)結合非負行列テンソル因子化、および (d)カスタムモデル選択。 我々の方法論とその能力を実証するために、簡単な合成および実世界のプロセスモデルに適用する。

Monitoring of industrial processes is a critical capability in industry and in government to ensure reliability of production cycles, quick emergency response, and national security. Process monitoring allows users to gauge the progress of an organization in an industrial process or predict the degradation or aging of machine parts in processes taking place at a remote location. Similar to many data science applications, we usually only have access to limited raw data, such as satellite imagery, short video clips, event logs, and signatures captured by a small set of sensors. To combat data scarcity, we leverage the knowledge of Subject Matter Experts (SMEs) who are familiar with the actions of interest. SMEs provide expert knowledge of the essential activities required for task completion and the resources necessary to carry out each of these activities. Various process mining techniques have been developed for this type of analysis; typically such approaches combine theoretical process models built based on domain expert insights with ad-hoc integration of available pieces of raw data. Here, we introduce a novel mathematically sound method that integrates theoretical process models (as proposed by SMEs) with interrelated minimal Hidden Markov Models (HMM), built via nonnegative tensor factorization. Our method consolidates: (a) theoretical process models, (b) HMMs, (c) coupled nonnegative matrix-tensor factorizations, and (d) custom model selection. To demonstrate our methodology and its abilities, we apply it on simple synthetic and real world process models.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# 単一LiDARによる大規模自由環境における歩行認識

Gait Recognition in Large-scale Free Environment via Single LiDAR ( http://arxiv.org/abs/2211.12371v2 )

ライセンス: Link先を確認
Xiao Han, Yiming Ren, Peishan Cong, Yujing Sun, Jingya Wang, Lan Xu, Yuexin Ma, (参考訳) 人間の歩行認識はマルチメディアにおいて不可欠であり、直接のインタラクションなしに歩行パターンを識別し、スマートホームやヘルスケア、非侵襲的セキュリティといった現実のアプリケーションにおける様々なメディアフォームの統合を強化する。 深度を捉えるLiDARの能力は、ロボットの知覚にとって重要な要素であり、現実世界の歩行認識の可能性を秘めている。 本稿では,単一LiDARに基づく階層型多表現特徴相互作用ネットワーク(HMRNet)を提案する。 一般的なLiDARベースの歩行データセットは、主に事前に定義された軌道を持つ制御された設定から派生しており、実際のシナリオとのギャップを保っている。 LiDARに基づく歩行認識研究を容易にするために,大規模かつ制約のない大規模かつ多様な2D/3Dデータに富んだ歩行データセットであるFreeGaitを紹介した。 特に,本手法は,先行データセット(SUSTech1K)およびFreeGait上での最先端性能を実現する。 コードとデータセットは、この記事の公開時に公開される。

Human gait recognition is crucial in multimedia, enabling identification through walking patterns without direct interaction, enhancing the integration across various media forms in real-world applications like smart homes, healthcare and non-intrusive security. LiDAR's ability to capture depth makes it pivotal for robotic perception and holds promise for real-world gait recognition. In this paper, based on a single LiDAR, we present the Hierarchical Multi-representation Feature Interaction Network (HMRNet) for robust gait recognition. Prevailing LiDAR-based gait datasets primarily derive from controlled settings with predefined trajectory, remaining a gap with real-world scenarios. To facilitate LiDAR-based gait recognition research, we introduce FreeGait, a comprehensive gait dataset from large-scale, unconstrained settings, enriched with multi-modal and varied 2D/3D data. Notably, our approach achieves state-of-the-art performance on prior dataset (SUSTech1K) and on FreeGait. Code and dataset will be released upon publication of this paper.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-26
# 分散量子ネットワークのための量子フェデレーション学習

Quantum Federated Learning for Distributed Quantum Networks ( http://arxiv.org/abs/2212.12913v2 )

ライセンス: Link先を確認
Kai Yu, Fei Gao, Song Lin, (参考訳) フェデレートラーニング(Federated Learning)は、分散ネットワークから学ぶことのできるフレームワークである。 実際のデータを共有せずに、仮想融合データに基づいたグローバルモデルの構築を試みる。 それでも、従来の連合学習プロセスでは、高い計算コストとメッセージ送信セキュリティという2つの大きな課題に直面している。 これらの課題に対処するために,量子力学の興味深い特徴を利用した分散量子ネットワークのための量子フェデレーション学習を提案する。 まず、量子状態にデータ情報を抽出する2つの方法を提案する。 データ情報の異なる取得頻度に対処できる。 次に、分散量子ネットワーク内のクライアントがローカルモデルをトレーニングするのを助けるために、量子勾配降下アルゴリズムが提供される。 言い換えれば、アルゴリズムはクライアントに局所モデルの勾配を並列に推定するメカニズムを与える。 従来のアルゴリズムと比較して,提案アルゴリズムはデータセットスケールの指数加速度とデータ次元の2次高速化を実現する。 また,中国の残差定理を用いて,量子セキュアなマルチパーティ計算プロトコルを設計する。 多数の操作の過程で発生するエラーやオーバーフローの問題を回避することができる。 セキュリティ分析は、この量子プロトコルが共通の外部攻撃や内部攻撃に抵抗できることを示している。 最後に,提案フレームワークの有効性を示すために,列車連系線形回帰モデルを用いて,Qiskit量子コンピューティングフレームワーク上で本質的な計算ステップを実行する。

Federated learning is a framework that can learn from distributed networks. It attempts to build a global model based on virtual fusion data without sharing the actual data. Nevertheless, the traditional federated learning process encounters two main challenges: high computational cost and message transmission security. To address these challenges, we propose a quantum federated learning for distributed quantum networks by utilizing interesting characteristics of quantum mechanics. First, we give two methods to extract the data information to the quantum state. It can cope with different acquisition frequencies of data information. Next, a quantum gradient descent algorithm is provided to help clients in the distributed quantum networks to train local models. In other words, the algorithm gives the clients a mechanism to estimate the gradient of the local model in parallel. Compared with the classical counterpart, the proposed algorithm achieves exponential acceleration in dataset scale and quadratic speedup in data dimensionality. And, a quantum secure multi-party computation protocol is designed, which utilizes the Chinese residual theorem. It could avoid errors and overflow problems that may occur in the process of large number operation. Security analysis shows that this quantum protocol can resist common external and internal attacks. Finally, to demonstrate the effectiveness of the proposed framework, we use it to the train federated linear regression model and execute essential computation steps on the Qiskit quantum computing framework.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# プライベート・セット・インターセクションで参加者を振り返る(動画あり)

Earn While You Reveal: Private Set Intersection that Rewards Participants ( http://arxiv.org/abs/2301.03889v3 )

ライセンス: Link先を確認
Aydin Abadi, (参考訳) プライベート・セット・インターセクション・プロトコル(PSI)では、空でない結果は常に当事者のプライベート・インプット・セットについて何かを明らかにする。 さらに、PSIの様々な変種において、すべての当事者が必ずしも結果を受け入れたり、興味を持ったりするわけではない。 それにもかかわらず、これまでの文献では、結果を受け取らなかったり、興味を持っていない当事者は、プライベートな入力セットをPSIに無償で提供しているが、プライバシーを犠牲にしていると推測されている。 本研究では,プロトコルにプライベートな入力セットをコントリビュートする参加者に報酬を与えるマルチパーティPSIである"Anesidora"を提案する。 アニシドーラは効率的であり、主に対称鍵プリミティブに依存し、その計算と通信の複雑さはパーティーの数と集合基数に線形である。 政党の大多数が活発に衝突する敵によって腐敗しても、安全は保たれる。

In Private Set Intersection protocols (PSIs), a non-empty result always reveals something about the private input sets of the parties. Moreover, in various variants of PSI, not all parties necessarily receive or are interested in the result. Nevertheless, to date, the literature has assumed that those parties who do not receive or are not interested in the result still contribute their private input sets to the PSI for free, although doing so would cost them their privacy. In this work, for the first time, we propose a multi-party PSI, called "Anesidora", that rewards parties who contribute their private input sets to the protocol. Anesidora is efficient; it mainly relies on symmetric key primitives and its computation and communication complexities are linear with the number of parties and set cardinality. It remains secure even if the majority of parties are corrupted by active colluding adversaries.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# 微粒ファッション検索のための属性ガイド型マルチレベルアテンションネットワーク

Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval ( http://arxiv.org/abs/2301.13014v2 )

ライセンス: Link先を確認
Ling Xiao, Toshihiko Yamasaki, (参考訳) 類似の属性とクエリ画像を共有する項目をきめ細かいファッション検索で検索する。 既存のほとんどのメソッドでは、イメージ表現をキャプチャするために事前訓練された特徴抽出器(例:ResNet 50)を使用している。 しかしながら、事前訓練された特徴バックボーンは、通常、きめ細かいファッション検索と根本的に異なるタスクである画像分類とオブジェクト検出のために訓練される。 そのため、既存の手法は、訓練済みのバックボーンを直接使用して微調整を行う際に、特徴ギャップの問題に悩まされる。 この問題を解決するために,属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を導入する。 具体的には、まず事前訓練された特徴抽出器を拡張し、多層画像の埋め込みをキャプチャし、これらの表現内の低レベル特徴を豊かにする。 そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。 これにより、オブジェクト中心の機能学習を摂動させることで、特徴ギャップの問題をさらに緩和することができる。 さらに,より正確な属性固有表現を抽出するための改良された属性誘導型アテンションモジュールを提案する。 我々のモデルは、FashionAI (MAPで62.8788%)、DeepFashion (MAPで8.9804%)、Zappos50kデータセット (予測精度93.32%)で評価された場合、既存の注意ベースの手法よりも一貫して優れている。 特に当社では,FashionAI,DeepFashion,Zappos50kの各データセットにおいて,最も一般的なASENet_V2モデルを2.12%,0.31%,0.78%改善しています。 ソースコードはhttps://github.com/Dr-LingXiao/AG-MANで入手できる。

Fine-grained fashion retrieval searches for items that share a similar attribute with the query image. Most existing methods use a pre-trained feature extractor (e.g., ResNet 50) to capture image representations. However, a pre-trained feature backbone is typically trained for image classification and object detection, which are fundamentally different tasks from fine-grained fashion retrieval. Therefore, existing methods suffer from a feature gap problem when directly using the pre-trained backbone for fine-tuning. To solve this problem, we introduce an attribute-guided multi-level attention network (AG-MAN). Specifically, we first enhance the pre-trained feature extractor to capture multi-level image embedding, thereby enriching the low-level features within these representations. Then, we propose a classification scheme where images with the same attribute, albeit with different values, are categorized into the same class. This can further alleviate the feature gap problem by perturbing object-centric feature learning. Moreover, we propose an improved attribute-guided attention module for extracting more accurate attribute-specific representations. Our model consistently outperforms existing attention based methods when assessed on the FashionAI (62.8788% in MAP), DeepFashion (8.9804% in MAP), and Zappos50k datasets (93.32% in Prediction accuracy). Especially, ours improves the most typical ASENet_V2 model by 2.12%, 0.31%, and 0.78% points in FashionAI, DeepFashion, and Zappos50k datasets, respectively. The source code is available in https://github.com/Dr-LingXiao/AG-MAN.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# $\mathbb{Z}_3$ Kitaevモデルにおけるキラルスピン液体

Chiral spin liquid in a $\mathbb{Z}_3$ Kitaev model ( http://arxiv.org/abs/2302.05060v3 )

ライセンス: Link先を確認
Li-Mei Chen, Tyler D. Ellison, Meng Cheng, Peng Ye, Ji-Yao Chen, (参考訳) 近傍相互作用を持つハニカム格子上での$\mathbb{Z}_3$ Kitaevモデルについて検討する。 行列積状態のシミュレーションと対称性の考察に基づいて、強磁性等方性カップリングを用いて、このモデルがキラルなスピン液体を実現し、可能な$\mathrm{U}(1)_{12}$キラルなトポロジカル秩序を特徴付けることを示す。 これはシリンダーとストリップのジオメトリーのシミュレーションによって支えられている。 幅の異なる無限長円筒では、絡み合いエントロピーと最大相関長のスケーリング解析により、モデルが2次元バルク間隙を有することが示唆された。 トポロジカルエントロピーは抽出され、$\mathrm{U}(1)_{12}$トポロジカル位数と一致する。 適度な幅を持つ無限長のストリップ上で、このモデルは、$\mathrm{U}(1)_{12}$位相位相のカイラルエッジ理論と整合した中心電荷で臨界となる。 いくつかのオープンな質問を議論することで締めくくります。

We study a $\mathbb{Z}_3$ Kitaev model on the honeycomb lattice with nearest neighbor interactions. Based on matrix product state simulations and symmetry considerations, we find evidence that, with ferromagnetic isotropic couplings, the model realizes a chiral spin liquid, characterized by a possible $\mathrm{U}(1)_{12}$ chiral topological order. This is supported by simulations on both cylinder and strip geometries. On infinitely long cylinders with various widths, scaling analysis of entanglement entropy and maximal correlation length suggests that the model has a gapped 2D bulk. The topological entanglement entropy is extracted and found to be in agreement with the $\mathrm{U}(1)_{12}$ topological order. On infinitely long strips with moderate widths, we find the model is critical with a central charge consistent with the chiral edge theory of the $\mathrm{U}(1)_{12}$ topological phase. We conclude by discussing several open questions.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# LuViRAデータセット:屋内局地化のための同期視覚、ラジオ、オーディオセンサ

The LuViRA Dataset: Synchronized Vision, Radio, and Audio Sensors for Indoor Localization ( http://arxiv.org/abs/2302.05309v3 )

ライセンス: Link先を確認
Ilayda Yaman, Guoda Tian, Martin Larsson, Patrik Persson, Michiel Sandra, Alexander Dürr, Erik Tegler, Nikhil Challa, Henrik Garde, Fredrik Tufvesson, Kalle Åström, Ove Edfors, Steffen Malkowsky, Liang Liu, (参考訳) 我々は,Lund University Vision, Radio, and Audio (LuViRA) Dataset という,正確で堅牢な屋内ローカライゼーションのための同期マルチセンサデータセットを提案する。 データセットは、カラー画像、対応する深度マップ、慣性測定ユニット(IMU)読み取り、5Gの大容量マルチインプットとマルチアウトプット(MIMO)テストベッドとユーザ機器間のチャネル応答、12マイクロフォンで記録されたオーディオ、正確な6自由度(6DOF)が0.5mmの真理を示す。 これらのセンサーを同期させて、すべてのデータが同時に記録されるようにします。 ゆっくりと動くサービスロボットの上にカメラ、スピーカー、送信アンテナを設置し、89軌道を記録する。 各軌道は、記録されたセンサデータと地上の真実ラベルの20秒から50秒を含む。 異なるセンサからのデータを別々または共同でローカライズタスクに使用することができ、モーションキャプチャ(モキャップ)システムからのデータを使用して、ローカライズアルゴリズムによって得られた結果を検証する。 このデータセットの主な目的は、ローカライゼーションタスクに最もよく使用されるセンサーとのセンサー融合の研究を可能にすることである。 さらに、完全なデータセットやその一部は、チャネル推定や画像分類など、他の研究領域にも使用することができる。 私たちのデータセットは、https://github.com/ilaydayaman/LuViRA_Datasetで利用可能です。

We present a synchronized multisensory dataset for accurate and robust indoor localization: the Lund University Vision, Radio, and Audio (LuViRA) Dataset. The dataset includes color images, corresponding depth maps, inertial measurement unit (IMU) readings, channel response between a 5G massive multiple-input and multiple-output (MIMO) testbed and user equipment, audio recorded by 12 microphones, and accurate six degrees of freedom (6DOF) pose ground truth of 0.5 mm. We synchronize these sensors to ensure that all data is recorded simultaneously. A camera, speaker, and transmit antenna are placed on top of a slowly moving service robot, and 89 trajectories are recorded. Each trajectory includes 20 to 50 seconds of recorded sensor data and ground truth labels. Data from different sensors can be used separately or jointly to perform localization tasks, and data from the motion capture (mocap) system is used to verify the results obtained by the localization algorithms. The main aim of this dataset is to enable research on sensor fusion with the most commonly used sensors for localization tasks. Moreover, the full dataset or some parts of it can also be used for other research areas such as channel estimation, image classification, etc. Our dataset is available at: https://github.com/ilaydayaman/LuViRA_Dataset
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# 整数計画法による2進2進最適化のための量子アルゴリズムの強化

Enhancing Quantum Algorithms for Quadratic Unconstrained Binary Optimization via Integer Programming ( http://arxiv.org/abs/2302.05493v3 )

ライセンス: Link先を確認
Friedrich Wagner, Jonas Nüßlein, Frauke Liers, (参考訳) 現在まで、量子計算の研究は、組合せ最適化において古典的ヒューリスティックよりも優れている可能性を約束している。 しかし、証明可能な最適性を目指す場合、整数プログラミングのような古典的な正確な方法に頼る必要がある。 最先端の整数プログラミングアルゴリズムは、ハードインスタンスでも強い緩和境界を計算することができるが、最適解を決定するには多数のサブプロブレムを列挙する必要がある。 量子コンピューティングのポテンシャルが実現すれば、特に難しい問題に対する高品質な解を見つけることは、迅速にできると期待できる。 それでも、近い将来の量子ハードウェアは、処理可能な問題のサイズをかなり制限します。 本研究では、組合せ最適化のための量子および古典的手法のポテンシャルを統合するための一歩を踏み出す。 重み付き最大カット問題に対するハイブリッドヒューリスティックを提案する。 このヒューリスティックは線形プログラミング緩和を採用しており、正確な分岐とカットのアルゴリズムに統合するのに適している。 大規模の場合、線形緩和により問題のサイズを小さくし、最小限の量子マシンで問題を処理できる。 さらに、パラメータ化量子アルゴリズムであるQAOAの適用性を向上させるために、任意のインスタンスに対するパラメータ推定を動機付ける特別なインスタンスに対して最適なパラメータを導出する。 実量子ハードウェアの計算結果を多数提示する。

To date, research in quantum computation promises potential for outperforming classical heuristics in combinatorial optimization. However, when aiming at provable optimality, one has to rely on classical exact methods like integer programming. State-of-the-art integer programming algorithms can compute strong relaxation bounds even for hard instances, but may have to enumerate a large number of subproblems for determining an optimum solution. If the potential of quantum computing realizes, it can be expected that in particular finding high-quality solutions for hard problems can be done fast. Still, near-future quantum hardware considerably limits the size of treatable problems. In this work, we go one step into integrating the potentials of quantum and classical techniques for combinatorial optimization. We propose a hybrid heuristic for the weighted maximum-cut problem or, equivalently, for quadratic unconstrained binary optimization. The heuristic employs a linear programming relaxation, rendering it well-suited for integration into exact branch-and-cut algorithms. For large instances, we reduce the problem size according to a linear relaxation such that the reduced problem can be handled by quantum machines of limited size. Moreover, we improve the applicability of QAOA, a parameterized quantum algorithm, by deriving optimal parameters for special instances which motivates a parameter estimate for arbitrary instances. We present numerous computational results from real quantum hardware.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# パフォーマンス改善のためのコード編集の学習

Learning Performance-Improving Code Edits ( http://arxiv.org/abs/2302.07867v5 )

ライセンス: Link先を確認
Alexander Shypula, Aman Madaan, Yimeng Zeng, Uri Alon, Jacob Gardner, Milad Hashemi, Graham Neubig, Parthasarathy Ranganathan, Osbert Bastani, Amir Yazdanbakhsh, (参考訳) ムーアの法則の衰退に伴い、プログラム性能の最適化がソフトウェア研究の大きな焦点となっている。 しかし、コードのセマンティクスを理解するのが難しいため、APIやアルゴリズムの変更といったハイレベルな最適化はいまだ解明されていない。 同時に、事前訓練された大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く強力な能力を示している。 そこで我々は,LLMを高レベルプログラム最適化に適用するためのフレームワークを提案する。 まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットを、広範囲なユニットテストとともにキュレートする。 最大の課題は、コモディティハードウェアの性能を測定することによる大きな多様性であり、これは「改善」を刺激する可能性がある。 プログラム最適化の影響を分離し, 確実に評価するために, gem5 フルシステムシミュレータ, 学術・産業におけるデファクトシミュレータをベースとした環境を設計する。 次に,コード最適化のための多種多様な適応戦略を提案する。プロンプトには,検索に基づく少数ショットプロンプトとチェーン・オブ・シンクレットが含まれ,微調整には,自己再生に基づく性能条件付き生成と合成データ拡張を含む。 これらの手法を組み合わせることで、個々のプログラマ(3.66)の平均最適化よりも高い8世代で平均6.86のスピードアップを達成する。 私たちのモデルの最速世代を使用して、データセットで可能な最速のスピードアップに新たな上限を9.64に設定しました。

With the decline of Moore's law, optimizing program performance has become a major focus of software research. However, high-level optimizations such as API and algorithm changes remain elusive due to the difficulty of understanding the semantics of code. Simultaneously, pretrained large language models (LLMs) have demonstrated strong capabilities at solving a wide range of programming tasks. To that end, we introduce a framework for adapting LLMs to high-level program optimization. First, we curate a dataset of performance-improving edits made by human programmers of over 77,000 competitive C++ programming submission pairs, accompanied by extensive unit tests. A major challenge is the significant variability of measuring performance on commodity hardware, which can lead to spurious "improvements." To isolate and reliably evaluate the impact of program optimizations, we design an environment based on the gem5 full system simulator, the de facto simulator used in academia and industry. Next, we propose a broad range of adaptation strategies for code optimization; for prompting, these include retrieval-based few-shot prompting and chain-of-thought, and for finetuning, these include performance-conditioned generation and synthetic data augmentation based on self-play. A combination of these techniques achieves a mean speedup of 6.86 with eight generations, higher than average optimizations from individual programmers (3.66). Using our model's fastest generations, we set a new upper limit on the fastest speedup possible for our dataset at 9.64 compared to using the fastest human submissions available (9.56).
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# 視覚変換器のソフトエラー信頼性解析

Soft Error Reliability Analysis of Vision Transformers ( http://arxiv.org/abs/2302.10468v3 )

ライセンス: Link先を確認
Xinghua Xue, Cheng Liu, Ying Wang, Bing Yang, Tao Luo, Lei Zhang, Huawei Li, Xiaowei Li, (参考訳) 自己注意機構を利用する視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、多くの古典的な視覚タスクにおいて優れたパフォーマンスを示し、最近人気が高まっている。 既存のViTは、主に性能と精度を最適化するが、大規模なVLSI設計におけるソフトエラーによる信頼性の問題が概ね見過ごされている。 本研究では、主にViTの信頼性を調査し、モデル、レイヤ、モジュール、パッチなど、さまざまなアーキテクチャの粒度の脆弱性を初めて調査する。 調査の結果,自覚機構を持つ ViT は一般行列行列行列乗算 (GEMM) や完全接続 (FC) を含む線形計算においてより弾力性があり,パッチ全体にわたって比較的脆弱な分布を示すことが明らかとなった。 ViTは、一般的なCNNに比べて、ソフトマックスやGELUのような脆弱な非線形コンピューティングを含んでいる。 本研究は,GEMMの異なるサイズで実装された線形コンピューティングを保護し,非線形コンピューティングにおけるソフトエラーを軽減するための範囲ベースの保護スキームを適用するための,軽量なブロックワイドアルゴリズムベースの耐障害性(LB-ABFT)アプローチを提案する。 提案手法は,種々のソフトエラーが存在する場合の計算オーバーヘッドを小さく抑えながら,ViTsの精度を著しく向上させる。

Vision Transformers (ViTs) that leverage self-attention mechanism have shown superior performance on many classical vision tasks compared to convolutional neural networks (CNNs) and gain increasing popularity recently. Existing ViTs works mainly optimize performance and accuracy, but ViTs reliability issues induced by soft errors in large-scale VLSI designs have generally been overlooked. In this work, we mainly study the reliability of ViTs and investigate the vulnerability from different architecture granularities ranging from models, layers, modules, and patches for the first time. The investigation reveals that ViTs with the self-attention mechanism are generally more resilient on linear computing including general matrix-matrix multiplication (GEMM) and full connection (FC) and show a relatively even vulnerability distribution across the patches. ViTs involve more fragile non-linear computing such as softmax and GELU compared to typical CNNs. With the above observations, we propose a lightweight block-wise algorithm-based fault tolerance (LB-ABFT) approach to protect the linear computing implemented with distinct sizes of GEMM and apply a range-based protection scheme to mitigate soft errors in non-linear computing. According to our experiments, the proposed fault-tolerant approaches enhance ViTs accuracy significantly with minor computing overhead in presence of various soft errors.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# 仮想量子資源蒸留

Virtual quantum resource distillation ( http://arxiv.org/abs/2303.00955v2 )

ライセンス: Link先を確認
Xiao Yuan, Bartosz Regula, Ryuji Takagi, Mile Gu, (参考訳) 蒸留または精製は、量子通信や計算でしばしば発生するノイズの多い環境での量子資源の実用的利用の中心である。 伝統的に蒸留では、ノイズの多い状態から所望の純状態に近い状態に変換するために制限された「自由な」操作を使用する必要がある。 そこで本研究では,対象とする純状態の測定統計量の近似のみを必要とすることで,測定結果の古典的後処理を可能にすることにより,この設定を緩和することを提案する。 仮想資源蒸留と呼ばれるこの拡張シナリオは、従来の資源を蒸留できないノイズ状態の浄化を可能にするため、蒸留の標準概念よりもかなり有利であることを示す。 本研究では,既存の資源量と逆比例するコスト(測定オーバーヘッド)で,一般状態を仮想的に蒸留できることを示し,そのコストを凸および半定値プログラミングにより効率的に推定する方法を開発し,計算可能なバウンダリを複数与えている。 我々はコヒーレンス、絡み合い、魔法の蒸留への応用や、量子テレポーテーション(分散量子コンピューティング)の明確な例を考える。 この研究は、量子資源を操作する一般化された方法を研究するための新しい道を開く。

Distillation, or purification, is central to the practical use of quantum resources in noisy settings often encountered in quantum communication and computation. Conventionally, distillation requires using some restricted 'free' operations to convert a noisy state into one that approximates a desired pure state. Here, we propose to relax this setting by only requiring the approximation of the measurement statistics of a target pure state, which allows for additional classical postprocessing of the measurement outcomes. We show that this extended scenario, which we call virtual resource distillation, provides considerable advantages over standard notions of distillation, allowing for the purification of noisy states from which no resources can be distilled conventionally. We show that general states can be virtually distilled with a cost (measurement overhead) that is inversely proportional to the amount of existing resource, and we develop methods to efficiently estimate such cost via convex and semidefinite programming, giving several computable bounds. We consider applications to coherence, entanglement, and magic distillation, and an explicit example in quantum teleportation (distributed quantum computing). This work opens a new avenue for investigating generalized ways to manipulate quantum resources.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# NTRU暗号系からのGottesman-Kitaev-Preskill符号

Good Gottesman-Kitaev-Preskill codes from the NTRU cryptosystem ( http://arxiv.org/abs/2303.02432v3 )

ライセンス: Link先を確認
Jonathan Conrad, Jens Eisert, Jean-Pierre Seifert, (参考訳) 我々は,いわゆるNTRU暗号系の暗号解析から得られた,ランダムなGottesman-Kitaev-Preskill(GKP)符号のクラスを導入する。 導出符号は、一定レートおよび平均距離スケーリング$\Delta \propto \sqrt{n}$を高い確率で示すのがよいが、$n$はボソニックモードの数であり、これは単一モードGKP符号を線形距離で量子量子誤り訂正符号に変換することで得られるGKP符号と等価な距離スケーリングである。 NTRU-GKP符号の派生型は、確率的変位ノイズモデルの復号化がNTRU暗号システムの復号化と等価であるという付加的な性質を持ち、コードのランダムなインスタンスは、自然に効率的な復号器が付属する。 この構造は、GKPコードがどのように古典的誤り訂正、量子誤り訂正、およびポスト量子暗号の側面を橋渡しするかを強調している。 我々は、GKP符号の復号化の計算困難さを論じ、NTRU暗号システムからセキュリティを継承した単純な公開鍵量子通信プロトコルを提案する。

We introduce a new class of random Gottesman-Kitaev-Preskill (GKP) codes derived from the cryptanalysis of the so-called NTRU cryptosystem. The derived codes are good in that they exhibit constant rate and average distance scaling $\Delta \propto \sqrt{n}$ with high probability, where $n$ is the number of bosonic modes, which is a distance scaling equivalent to that of a GKP code obtained by concatenating single mode GKP codes into a qubit-quantum error correcting code with linear distance. The derived class of NTRU-GKP codes has the additional property that decoding for a stochastic displacement noise model is equivalent to decrypting the NTRU cryptosystem, such that every random instance of the code naturally comes with an efficient decoder. This construction highlights how the GKP code bridges aspects of classical error correction, quantum error correction as well as post-quantum cryptography. We underscore this connection by discussing the computational hardness of decoding GKP codes and propose, as a new application, a simple public key quantum communication protocol with security inherited from the NTRU cryptosystem.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# シミュレーションデータの後処理による雷雨予報のための機械学習手法

A machine-learning approach to thunderstorm forecasting through post-processing of simulation data ( http://arxiv.org/abs/2303.08736v3 )

ライセンス: Link先を確認
Kianusch Vahid Yousefnia, Tobias Bölle, Isabella Zöbisch, Thomas Gerz, (参考訳) 雷雨は社会や経済に大きな危険をもたらし、信頼できる雷雨予報が求められている。 本研究では,数値天気予報(NWP)データから雷雨の発生を識別するフィードフォワードニューラルネットワークモデルである,SALAMA(Machine Learning)を用いた雷活動の識別のためのシグナチャベースアプローチを提案する。 このモデルは、中央ヨーロッパにおける対流分解型アンサンブル予測と雷観測に基づいて訓練されている。 NWPデータから抽出され、雷雨発生に関連する画素単位の入力パラメータのみを考慮し、SALAMAは雷雨の発生確率を確実に調整した方法で推定する。 リードタイムを最大11時間にすると、NWP反射率のみに基づく分類よりも優れた予測スキルが見つかる。 雷観測とNWPデータとを関連づけた時空間基準を用いて, 熟練した雷雨予測の時間スケールが予測の空間スケールと線形に増加することを示す。

Thunderstorms pose a major hazard to society and economy, which calls for reliable thunderstorm forecasts. In this work, we introduce a Signature-based Approach of identifying Lightning Activity using MAchine learning (SALAMA), a feedforward neural network model for identifying thunderstorm occurrence in numerical weather prediction (NWP) data. The model is trained on convection-resolving ensemble forecasts over Central Europe and lightning observations. Given only a set of pixel-wise input parameters that are extracted from NWP data and related to thunderstorm development, SALAMA infers the probability of thunderstorm occurrence in a reliably calibrated manner. For lead times up to eleven hours, we find a forecast skill superior to classification based only on NWP reflectivity. Varying the spatiotemporal criteria by which we associate lightning observations with NWP data, we show that the time scale for skillful thunderstorm predictions increases linearly with the spatial scale of the forecast.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# 量子ビットのキラル基底とスピンヘリックス崩壊

Chiral basis for qubits and spin-helix decay ( http://arxiv.org/abs/2303.14056v3 )

ライセンス: Link先を確認
Vladislav Popkov, Xin Zhang, Frank Göhmann, Andreas Klümper, (参考訳) 我々は,横スピンヘリックスとキンクからなる量子ビット基底を提案する。 通常の計算基底とは異なり、このキラル基底は非自明なトポロジーを持つ量子状態を記述するのに適している。 適切なパラメータを選択することで、横スピン成分の演算子 $\sigma_n^x$ と $\sigma_n^y$ はキラル基底において対角的になり、横スピン成分に焦点を絞った問題の研究が容易になる。 適用例として,最近の低温原子実験で測定されたXXモデルにおけるスピンヘリックスの横偏極の時間減衰について検討した。 任意の波長のヘリックスの緩和を記述する明示的な普遍関数を得る。

We propose a qubit basis composed of transverse spin helices with kinks. Unlike the usual computational basis, this chiral basis is well suited for describing quantum states with nontrivial topology. Choosing appropriate parameters the operators of the transverse spin components, $\sigma_n^x$ and $\sigma_n^y$, become diagonal in the chiral basis, which facilitates the study of problems focused on transverse spin components. As an application, we study the temporal decay of the transverse polarization of a spin helix in the XX model that has been measured in recent cold atom experiments. We obtain an explicit universal function describing the relaxation of helices of arbitrary wavelength.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# 大規模視覚言語モデルの概念的理解の提案

Probing Conceptual Understanding of Large Visual-Language Models ( http://arxiv.org/abs/2304.03659v3 )

ライセンス: Link先を確認
Madeline Schiappa, Raiyaan Abdullah, Shehreen Azad, Jared Claypoole, Michael Cogswell, Ajay Divakaran, Yogesh Rawat, (参考訳) 近年、様々な下流タスクにおいて、大規模な視覚言語(V+L)モデルが大きな成功を収めている。 しかし、これらのモデルが視覚的内容の概念的把握を持っているかどうかについては、よく研究されていない。 本研究では、これらの大きなV+Lモデルの概念的理解に焦点を当てる。 本研究では,コンテンツ理解の3つの側面を探索するための新しいベンチマークデータセットを提案する。 1) \textit{relations} 2) \textit{composition}, and 3) \textit{context}。 我々の調査は認知科学に基礎を置いており、例えば、V+Lモデルが、男性によって育てられた雪が不信であるかどうか、あるいはビーチにあることを知ることでビーチの家具を識別できるかどうかを判断するのに役立つ。 我々は、最近の多くの最先端V+Lモデルで実験を行い、これらのモデルが概念的理解を実証するために主に「textit{fail>」であることを観察した。 本研究は,「textit{cross-attention}」が概念的理解の学習に役立つこと,CNNが「textit{texture and patterns}」より優れていること,トランスフォーマーが「textit{color and shape}」より優れていること,などの興味深い知見を明らかにする。 これらの知見を更に活用し,有望な初期結果を伴う3つの概念的理解尺度に報いる「textit{simple finetuning technique」について検討する。 提案されたベンチマークにより、コミュニティは概念的理解を深め、大規模なV+Lモデルの能力の向上を促進することができる。 コードとデータセットは: \url{https://tinyurl.com/vlm-robustness}

In recent years large visual-language (V+L) models have achieved great success in various downstream tasks. However, it is not well studied whether these models have a conceptual grasp of the visual content. In this work we focus on conceptual understanding of these large V+L models. To facilitate this study, we propose novel benchmarking datasets for probing three different aspects of content understanding, 1) \textit{relations}, 2) \textit{composition}, and 3) \textit{context}. Our probes are grounded in cognitive science and help determine if a V+L model can, for example, determine if snow garnished with a man is implausible, or if it can identify beach furniture by knowing it is located on a beach. We experimented with many recent state-of-the-art V+L models and observe that these models mostly \textit{fail to demonstrate} a conceptual understanding. This study reveals several interesting insights such as that \textit{cross-attention} helps learning conceptual understanding, and that CNNs are better with \textit{texture and patterns}, while Transformers are better at \textit{color and shape}. We further utilize some of these insights and investigate a \textit{simple finetuning technique} that rewards the three conceptual understanding measures with promising initial results. The proposed benchmarks will drive the community to delve deeper into conceptual understanding and foster advancements in the capabilities of large V+L models. The code and dataset is available at: \url{https://tinyurl.com/vlm-robustness}
翻訳日:2024-04-29 18:37:21 公開日:2024-04-26
# オーバーロード:エッジデバイスのオブジェクト検出における遅延攻撃

Overload: Latency Attacks on Object Detection for Edge Devices ( http://arxiv.org/abs/2304.05370v4 )

ライセンス: Link先を確認
Erh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-rung Lee, (参考訳) 今日では、インテリジェントなサービスに対する需要が高まっているため、ディープラーニングベースのアプリケーションのデプロイが不可欠である。 本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。 誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことであり、アプリケーションが適切な時間内に要求に応答するのを阻止する可能性がある。 このような攻撃は様々なアプリケーションに広く適用されており、この種の攻撃がどのように動作するかを示すためにオブジェクト検出を使用します。 また、大規模な遅延アタックを生成するOverloadというフレームワークも設計しています。 提案手法は,新たに定式化された最適化問題と空間アテンションと呼ばれる新しい手法に基づく。 この攻撃は、推論時間の間に必要となる計算コストを増大させ、結果としてオブジェクト検出のための推論時間が延長される。 これは特に限られた計算資源を持つシステムに重大な脅威をもたらす。 Nvidia NX上でYOLOv5モデルを用いた実験を行った。 既存の手法と比較して,本手法はよりシンプルで効果的である。 実験の結果, 遅延攻撃では, 単一画像の推測時間は, 通常の設定の10倍長くなることがわかった。 さらに,NMSに依存せず,非最大抑制(NMS)を必要とする全ての物体検出タスクに対して新たな脅威となる可能性が示唆された。

Nowadays, the deployment of deep learning-based applications is an essential task owing to the increasing demands on intelligent services. In this paper, we investigate latency attacks on deep learning applications. Unlike common adversarial attacks for misclassification, the goal of latency attacks is to increase the inference time, which may stop applications from responding to the requests within a reasonable time. This kind of attack is ubiquitous for various applications, and we use object detection to demonstrate how such kind of attacks work. We also design a framework named Overload to generate latency attacks at scale. Our method is based on a newly formulated optimization problem and a novel technique, called spatial attention. This attack serves to escalate the required computing costs during the inference time, consequently leading to an extended inference time for object detection. It presents a significant threat, especially to systems with limited computing resources. We conducted experiments using YOLOv5 models on Nvidia NX. Compared to existing methods, our method is simpler and more effective. The experimental results show that with latency attacks, the inference time of a single image can be increased ten times longer in reference to the normal setting. Moreover, our findings pose a potential new threat to all object detection tasks requiring non-maximum suppression (NMS), as our attack is NMS-agnostic.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化

LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v7 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang, (参考訳) エフェクト・レセプティブ・フィールド(ERF)はトランスフォーメーション・コーディングにおいて重要な役割を担い、トランスフォーメーション中にどの程度の冗長性を取り除けるか、逆トランスフォーメーション時にテクスチャを合成するのにどれだけの空間的先行性を利用するかを決定する。 既存の手法では、RFが十分大きくない小さなカーネルのスタックや、高解像度の画像符号化の可能性を制限する重い非局所的な注意機構に依存している。 この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。 具体的には、学習した画像圧縮コミュニティで初めて、控えめな複雑さを維持しながら冗長性を高めるために、カーネルベースの奥行きに関する大規模なコンボリューションをいくつか導入する。 画像の多様性の幅が広いことから,自己条件付き重み生成による畳み込み適応性の向上機構も提案する。 大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。 私たちの調査は、これらの大きなカーネルの潜在能力を最大限に活用する、洗練されたトレーニング方法にまで拡張しています。 さらに、よりダイナミックなチャネル間相互作用を促進するために、自己条件でチャネル重要因子を自律的に生成する適応的なチャネルワイドビット割り当て戦略を導入する。 提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。 提案したLLICモデルは,VTM-17.0でそれぞれ9.49%,9.47%,10.94%,BD-Rateを9.49%削減した。 我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。

The Effective Receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed at most during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERF remains not large enough instead, or heavy non-local attention mechanisms, which limit the potential of high-resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in the learned image compression community, we introduce a few large kernel-based depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to the wide range of image diversity, we further propose a mechanism to augment convolution adaptability through the self-conditioned generation of weights. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter point-wise interactions. Our investigation extends to refined training methods that unlock the full potential of these large kernels. Moreover, to promote more dynamic inter-channel interactions, we introduce an adaptive channel-wise bit allocation strategy that autonomously generates channel importance factors in a self-conditioned manner. To demonstrate the effectiveness of the proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, LLIC-TCM. Extensive experiments demonstrate our proposed LLIC models have significant improvements over corresponding baselines and reduce BD-Rate by 9.49%, 9.47%, 10.94% on Kodak over VTM-17.0 Intra, respectively. Our LLIC models achieve state-of-the-art performances and better trade-offs between performance and complexity.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# Bake off redux:最近の時系列分類アルゴリズムのレビューと実験的評価

Bake off redux: a review and experimental evaluation of recent time series classification algorithms ( http://arxiv.org/abs/2304.13029v2 )

ライセンス: Link先を確認
Matthew Middlehurst, Patrick Schäfer, Anthony Bagnall, (参考訳) 2017年、カリフォルニア大学リバーサイド校(UCR)のアーカイブから得られた85のデータセットに対して、18の時系列分類(TSC)アルゴリズムを比較した。 この研究は一般に「ベイクオフ」と呼ばれ、9つのアルゴリズムのみが使用されていた動的時間ウォーピング(DTW)や回転フォレストベンチマークよりもはるかに優れた性能を示した。 この研究は、各アルゴリズムを時系列データから抽出した特徴の種類によって分類し、5つの主要なアルゴリズムの分類を作成した。 このアルゴリズムの分類と、コード提供と再現性のためのアクセス可能な結果の分類は、TSC分野の人気向上に寄与した。 このブームから6年以上が経過し、UCRアーカイブは112のデータセットに拡張され、多くの新しいアルゴリズムが提案されている。 提案したカテゴリが、当初からどのように進歩してきたかを確認し、拡張されたUCRアーカイブを用いて、以前のベスト・オブ・カテゴリに対して、新しいアルゴリズムの性能を評価する。 我々は、最近の発展を反映する3つの新しいカテゴリーを含むように分類を拡張します。 提案した距離,間隔,シェープレット,辞書,ハイブリッドベースアルゴリズムとともに,より新しい畳み込みアルゴリズムと特徴ベースアルゴリズム,ディープラーニングアプローチを比較した。 我々は、最近アーカイブに寄贈された30の分類データセットや、TSCフォーマットに改定された30の分類データセットを導入し、これらを用いて、各カテゴリの最高の性能アルゴリズムをさらに評価する。 近年提案されているHydra+MultiROCKET と HIVE-COTEv2 のアルゴリズムは,現在のTSC 問題と新しい TSC 問題の両方において,他の手法よりも優れていることがわかった。

In 2017, a research paper compared 18 Time Series Classification (TSC) algorithms on 85 datasets from the University of California, Riverside (UCR) archive. This study, commonly referred to as a `bake off', identified that only nine algorithms performed significantly better than the Dynamic Time Warping (DTW) and Rotation Forest benchmarks that were used. The study categorised each algorithm by the type of feature they extract from time series data, forming a taxonomy of five main algorithm types. This categorisation of algorithms alongside the provision of code and accessible results for reproducibility has helped fuel an increase in popularity of the TSC field. Over six years have passed since this bake off, the UCR archive has expanded to 112 datasets and there have been a large number of new algorithms proposed. We revisit the bake off, seeing how each of the proposed categories have advanced since the original publication, and evaluate the performance of newer algorithms against the previous best-of-category using an expanded UCR archive. We extend the taxonomy to include three new categories to reflect recent developments. Alongside the originally proposed distance, interval, shapelet, dictionary and hybrid based algorithms, we compare newer convolution and feature based algorithms as well as deep learning approaches. We introduce 30 classification datasets either recently donated to the archive or reformatted to the TSC format, and use these to further evaluate the best performing algorithm from each category. Overall, we find that two recently proposed algorithms, Hydra+MultiROCKET and HIVE-COTEv2, perform significantly better than other approaches on both the current and new TSC problems.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# 対人政策による強化学習のロバスト性評価に向けて

Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy ( http://arxiv.org/abs/2305.02605v3 )

ライセンス: Link先を確認
Xiang Zheng, Xingjun Ma, Shengjie Wang, Xinyu Wang, Chao Shen, Cong Wang, (参考訳) 強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。 単一エージェント環境では、これらの攻撃は、被害者のポリシーネットワークの入力に注入される知覚不能な摂動によって起こりうる。 マルチエージェント環境では、攻撃者は敵を操り、被害者の方針の観察に間接的に影響を及ぼすことができる。 敵の政策はこのような攻撃を行うための有望な技術を提供するが、現在の手法は探索戦略が貧弱なためサンプル非効率であるか、ブラックボックスの仮定の下で余分な代理モデルの訓練を必要とする。 これらの課題に対処するため,本論文では,単一環境とマルチエージェント環境の両方において,効率的なブラックボックス・逆ポリシー学習のための内在的モチベーション・アドバイザリ・ポリシー(IMAP)を提案する。 我々は, 敵対的内在的正規化要因の4つのタイプを定式化し, 敵対的状態カバレッジ, 政策カバレッジ, リスク, 分散度を最大化し, 被害者政策の潜在的な脆弱性を原則的に発見する。 また,外因性目的と対向性内因性正規化器を適応的にバランスさせる新しいバイアス低減手法を提案する。 本実験は, 種々の環境におけるブラックボックス型対向政策学習における, 4種類の対向型内向正則化器の有効性とバイアス低減法の有効性を検証した。 我々のIMAPは、対人訓練と頑健な正則化という2種類の防御手法を回避し、4つの単一エージェントタスクにおいて、最先端のロバストなWocaR-PPOエージェントの性能を34\%-54\%低下させることに成功した。 IMAPはマルチエージェントゲームYouShallNotPassで最先端の攻撃成功率83.91\%を達成した。 私たちのコードは \url{https://github.com/x-zheng16/IMAP} で利用可能です。

Reinforcement learning agents are susceptible to evasion attacks during deployment. In single-agent environments, these attacks can occur through imperceptible perturbations injected into the inputs of the victim policy network. In multi-agent environments, an attacker can manipulate an adversarial opponent to influence the victim policy's observations indirectly. While adversarial policies offer a promising technique to craft such attacks, current methods are either sample-inefficient due to poor exploration strategies or require extra surrogate model training under the black-box assumption. To address these challenges, in this paper, we propose Intrinsically Motivated Adversarial Policy (IMAP) for efficient black-box adversarial policy learning in both single- and multi-agent environments. We formulate four types of adversarial intrinsic regularizers -- maximizing the adversarial state coverage, policy coverage, risk, or divergence -- to discover potential vulnerabilities of the victim policy in a principled way. We also present a novel bias-reduction method to balance the extrinsic objective and the adversarial intrinsic regularizers adaptively. Our experiments validate the effectiveness of the four types of adversarial intrinsic regularizers and the bias-reduction method in enhancing black-box adversarial policy learning across a variety of environments. Our IMAP successfully evades two types of defense methods, adversarial training and robust regularizer, decreasing the performance of the state-of-the-art robust WocaR-PPO agents by 34\%-54\% across four single-agent tasks. IMAP also achieves a state-of-the-art attacking success rate of 83.91\% in the multi-agent game YouShallNotPass. Our code is available at \url{https://github.com/x-zheng16/IMAP}.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# ULIP-2:3次元理解のためのスケーラブルなマルチモーダル事前学習を目指して

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding ( http://arxiv.org/abs/2305.08275v4 )

ライセンス: Link先を確認
Le Xue, Ning Yu, Shu Zhang, Artemis Panagopoulou, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese, (参考訳) 近年のマルチモーダル事前学習の進歩は, 3次元形状, 2次元形状, 言語記述の多モーダル特徴の整合による3次元表現学習において有望な効果を示した。 しかし, 既存のフレームワークがこのようなマルチモーダルデータ, 特に3次元形状の言語記述をキュレートする手法はスケーラビリティに欠けており, 収集された言語記述は多様ではない。 そこで本研究では,大規模マルチモーダルモデルを利用して3次元形状の全体的言語記述を自動的に生成する,シンプルで効果的な3モーダル事前学習フレームワークULIP-2を紹介する。 入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。 ULIP-2は、より優れたマルチモーダル表現学習のためのスケールアップバックボーンも備えている。 我々は,2つの大規模3DデータセットであるObjaverseとShapeNetで実験を行い,ULIP-2をトレーニングするための3Dポイントクラウド,画像,言語をトリモーダルデータセットで拡張した。 実験の結果, ULIP-2は, ゼロショット3D分類, ファインチューニングによる標準3D分類, 3Dキャプション生成(3D-to-Language generation)の3つのダウンストリームタスクにおいて, 顕著なメリットを示すことがわかった。 ゼロショット分類では、Objaverse-LVISで50.6%(トップ-1)、ModelNet40で84.7%(トップ-1)の新しいSOTAを実現している。 標準微調整のためのScanObjectNNベンチマークでは、ULIP-2は91.5%の精度に達し、パラメータはわずか1.4万である。 ULIP-2は、人間のアノテーションを使わずにスケーラブルなマルチモーダル3D表現学習のための新しいパラダイムに光を当て、既存のベースラインよりも大幅に改善されている。 コードとデータセットはhttps://github.com/salesforce/ULIPで公開されている。

Recent advancements in multimodal pre-training have shown promising efficacy in 3D representation learning by aligning multimodal features across 3D shapes, their 2D counterparts, and language descriptions. However, the methods used by existing frameworks to curate such multimodal data, in particular language descriptions for 3D shapes, are not scalable, and the collected language descriptions are not diverse. To address this, we introduce ULIP-2, a simple yet effective tri-modal pre-training framework that leverages large multimodal models to automatically generate holistic language descriptions for 3D shapes. It only needs 3D data as input, eliminating the need for any manual 3D annotations, and is therefore scalable to large datasets. ULIP-2 is also equipped with scaled-up backbones for better multimodal representation learning. We conduct experiments on two large-scale 3D datasets, Objaverse and ShapeNet, and augment them with tri-modal datasets of 3D point clouds, images, and language for training ULIP-2. Experiments show that ULIP-2 demonstrates substantial benefits in three downstream tasks: zero-shot 3D classification, standard 3D classification with fine-tuning, and 3D captioning (3D-to-language generation). It achieves a new SOTA of 50.6% (top-1) on Objaverse-LVIS and 84.7% (top-1) on ModelNet40 in zero-shot classification. In the ScanObjectNN benchmark for standard fine-tuning, ULIP-2 reaches an overall accuracy of 91.5% with a compact model of only 1.4 million parameters. ULIP-2 sheds light on a new paradigm for scalable multimodal 3D representation learning without human annotations and shows significant improvements over existing baselines. The code and datasets are released at https://github.com/salesforce/ULIP.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# NAI$_2$:教師なし低光画像強調のためのノイズ対応イルミネーション補間器の学習

NAI$_2$: Learning Noise-Aware Illumination-Interpolator for Unsupervised Low-Light Image Enhancement ( http://arxiv.org/abs/2305.10223v3 )

ライセンス: Link先を確認
Xiaofeng Liu, Jiaxin Gao, Xin Fan, Risheng Liu, (参考訳) LLIE(Contemporary Low-Light Image Enhancement)技術は、画像の詳細の保存とコントラストの強化において顕著な進歩を遂げ、特定のデータセットに対する賞賛可能な結果を実現している。 それでもこれらのアプローチは、ダイナミックノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。 複雑な画素マッピング学習における十分でない制約は、低照度条件に関連する特定の種類のノイズやアーティファクトに過度に適合し、可変照明シナリオの有効性を低下させる。 そこで本研究では,低照度画像の雑音レベルを迅速かつ高精度に推定する手法を提案する。 これにより、正確に騒音を識別し、過度なスムーシングを防ぎ、ダイナミックノイズパターンに適応する。 その後、入力と単位ベクトル間の学習可能な補間演算を用いて、照明と入力の一般的な制約を満たすLearnerable Illumination Interpolator (LII) を考案する。 最後に、本研究は、本質的な画像特性と本質的な視覚特性を取り入れた自己正規化損失を導入し、人間の視覚的期待を満たすためのアウトプットを導出する。 定性評価と定量的評価の両方において,提案アルゴリズムの競争性を総合的に検証した。 特に, 騒音推定法は, 線形時間複雑であり, 各種騒音対策に適しており, 騒音低減性能と騒音改善性能を著しく向上させる。 そこで本手法は,LLIEタスク上のMITデータセット上で0.675dBPSNR,LLIEタスク上で0.818dBの改善を実現している。

Contemporary Low-Light Image Enhancement (LLIE) techniques have made notable advancements in preserving image details and enhancing contrast, achieving commendable results on specific datasets. Nevertheless, these approaches encounter persistent challenges in efficiently mitigating dynamic noise and accommodating diverse low-light scenarios. Insufficient constraints on complex pixel-wise mapping learning lead to overfitting to specific types of noise and artifacts associated with low-light conditions, reducing effectiveness in variable lighting scenarios. To this end, we first propose a method for estimating the noise level in low light images in a quick and accurate way. This facilitates precise denoising, prevents over-smoothing, and adapts to dynamic noise patterns. Subsequently, we devise a Learnable Illumination Interpolator (LII), which employs learnlable interpolation operations between the input and unit vector to satisfy general constraints between illumination and input. Finally, we introduce a self-regularization loss that incorporates intrinsic image properties and essential visual attributes to guide the output towards meeting human visual expectations. Comprehensive experiments validate the competitiveness of our proposed algorithm in both qualitative and quantitative assessments. Notably, our noise estimation method, with linear time complexity and suitable for various denoisers, significantly improves both denoising and enhancement performance. Benefiting from this, our approach achieves a 0.675dB PSNR improvement on the LOL dataset and 0.818dB on the MIT dataset on LLIE task, even compared to supervised methods.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# セレスタルホログラフィーとウェッジ様ホログラフィーにおける混合境界条件と二重トラス様変形

Mixed boundary conditions and Double-trace like deformations in Celestial holography and Wedge-like holography ( http://arxiv.org/abs/2305.10779v3 )

ライセンス: Link先を確認
Machiko Fukada, Akihiro Miyata, (参考訳) AdS/CFT辞書によると、ホログラフィック CFT アクションに関連するダブルトレース変形 $f\int O^2$ を加えることは、場が AdS において$O$ になるような混合ノイマン/ディリクレ境界条件を課すことと二重である。 我々は,コディメンション2平らな空間ホログラフィーで同様の挙動を観察した。 平面空間の共次元2次元ホログラフィー、天体ホログラフィー、ウェッジのようなホログラフィーにおける平坦な時空における境界条件の変形を考察する。 従来の天体ホログラフィー法では散乱の初期および最終バルク状態に境界条件を課した。 バルク内のこれらの非自明な境界条件は、セレスタルCFT側の「二重変形」を誘導し、通常のAdS/CFTにおける二重トレース変形のアナロジーとして理解することができる。 非自明な変形境界条件下での2点バルク散乱振幅を計算する。 後者のウェッジ様ホログラフィー法では、光錐の零無限遠点上のノイマン/ディリクレ境界条件について考察する。 この混合は、通常のAdS/CFTのように、ウェッジホログラフィーの下で二重ウェッジCFT側の再正規化フローを誘導する。 ウェッジ2点関数とセレスタル2点関数の相違は、バルク質量場からの正則化パラメータへの感度に起因し、通常のAdS/CFT技術を使用する。

According to the AdS/CFT dictionary, adding a relevant double-trace deformation $f\int O^2$ to a holographic CFT action is dual to imposing mixed Neumann/Dirichlet boundary conditions for the field dual to $O$ in AdS. We observed similar behaviour in codimension-two flat space holographies. We consider deformations of boundary conditions in flat spacetimes under flat space co-dimension-two holographies, celestial holography and Wedge-like holography. In the former celestial-holographic approach, we imposed boundary conditions on initial and final bulk states in the scattering. We find that these non-trivial boundary conditions in the bulk induce "double deformations" on the Celestial CFT side, which can be understood as an analogy of double trace deformations in the usual AdS/CFT. We compute two-point bulk scattering amplitudes under the non-trivial deformed boundary conditions. In the latter Wedge-like holography approach, we consider mixed Neumann/Dirichlet boundary conditions on the null infinity of the light-cone. We find that this mixing induces a renormalization flow in the dual Wedge CFT side under the Wedge holography, as in the usual AdS/CFT. We argue that the discrepancy between the Wedge two-point function and the Celestial two-point function originates from a sensitivity of bulk massless fields to a regularization parameter to use the usual AdS/CFT techniques.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# 記述に基づくテキストの類似性

Description-Based Text Similarity ( http://arxiv.org/abs/2305.12517v4 )

ライセンス: Link先を確認
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg, (参考訳) 与えられたセマンティクスでテキストを識別することは、多くの情報検索シナリオの中心である。 ベクトル埋め込みに対する類似性探索は、この能力の中心にあるように見えるが、現在のテキスト埋め込みに反映される類似性はコーパス駆動であり、多くのユースケースでは矛盾し、準最適である。 では、テキストを効果的に検索する上で、類似性のよい概念は何だろうか? 我々は,その内容の抽象的な記述とそれに対応する「emph{description based similarity}」の概念に基づいて,テキストの検索の必要性を特定する。 本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。 モデルはLLMのプロンプトを通じて、正と負のペアを使ってトレーニングされ、LLMからのデータを使って、元のモデルではすぐには不可能な新しい機能を作成する方法を示している。

Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# NLPにおけるバイアスと公平性について--言語モデルにおけるバイアスとデバイアスが毒性検出の公平性に及ぼす影響について

On Bias and Fairness in NLP: Investigating the Impact of Bias and Debiasing in Language Models on the Fairness of Toxicity Detection ( http://arxiv.org/abs/2305.12829v3 )

ライセンス: Link先を確認
Fatma Elsafoury, Stamos Katsigiannis, (参考訳) 言語モデルは、新しい最先端自然言語処理(NLP)モデルであり、多くのNLPタスクで使われている。 言語モデルがバイアスを受けているという証拠はあるが、そのバイアスが下流のNLPタスクの公平性に与える影響はまだ検討されていない。 さらに,本研究では,多くのバイアス除去法が提案されているが,NLPタスクの公平性に対するバイアス除去法の影響も検討されている。 本研究では,NLPモデルにおける3つの異なるバイアス源,すなわち表現バイアス,選択バイアス,過剰増幅バイアスについて検討し,これらが毒性検出の下流タスクの公平性に与える影響について検討する。 さらに, 各種バイアス除去法を用いてこれらのバイアスを除去することが毒性検出の公平性に及ぼす影響について検討した。 結果は、下流のバイアス源、特に過剰増幅バイアスが、毒性検出のタスクの公平性に最も影響のあるバイアスであることを示す。 また,異なるアイデンティティ群間の正の例の比率と文脈表現のバランスの取れたデータセット上で言語モデルを微調整することにより,過剰増幅バイアスの除去が毒性検出のタスクの公平性を向上させることが示唆された。 最後に,本研究の成果に基づいて,毒性検出の課題の公平性を確保するためのガイドラインを提示する。

Language models are the new state-of-the-art natural language processing (NLP) models and they are being increasingly used in many NLP tasks. Even though there is evidence that language models are biased, the impact of that bias on the fairness of downstream NLP tasks is still understudied. Furthermore, despite that numerous debiasing methods have been proposed in the literature, the impact of bias removal methods on the fairness of NLP tasks is also understudied. In this work, we investigate three different sources of bias in NLP models, i.e. representation bias, selection bias and overamplification bias, and examine how they impact the fairness of the downstream task of toxicity detection. Moreover, we investigate the impact of removing these biases using different bias removal techniques on the fairness of toxicity detection. Results show strong evidence that downstream sources of bias, especially overamplification bias, are the most impactful types of bias on the fairness of the task of toxicity detection. We also found strong evidence that removing overamplification bias by fine-tuning the language models on a dataset with balanced contextual representations and ratios of positive examples between different identity groups can improve the fairness of the task of toxicity detection. Finally, we build on our findings and introduce a list of guidelines to ensure the fairness of the task of toxicity detection.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# 繰り返しマグニチュード・プルーニングのための複数粒子を用いたスパースウェイト平均化

Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning ( http://arxiv.org/abs/2305.14852v2 )

ライセンス: Link先を確認
Moonseok Choi, Hyungi Lee, Giung Nam, Juho Lee, (参考訳) 現代のニューラルネットワークのサイズが絶え間なく大きくなることを考えると、スパースアーキテクチャの重要性は、推論速度の加速と最小限のメモリ要求のために急上昇している。 グローバルプルーニング技術に関して言えば、イテレーティブ・マグニチュード・プルーニング(IMP)は、非常にスパースな状況において、その単純さにもかかわらず、依然として最先端のアルゴリズムである。 近年, 2 つの IMP ソリューションが損失障壁を伴わずに線形に接続されているという発見を踏まえ, 2 つの IMP ソリューションのアンサンブルに匹敵する性能を実現する IMP の簡単な修正である Sparse Weight Averaging with Multiple Particles (SWAMP) を提案する。 各イテレーションにおいて、複数のスパースモデルを同時に訓練し、異なるバッチオーダを使用して、同じマッチングチケットを使用して、そのようなモデルを重み平均して1つのマスクを生成します。 提案手法は,様々なデータやニューラルネットワーク構造に関する広範な実験を通じて,様々な空間にわたって既存のベースラインを一貫して上回ることを示す。

Given the ever-increasing size of modern neural networks, the significance of sparse architectures has surged due to their accelerated inference speeds and minimal memory demands. When it comes to global pruning techniques, Iterative Magnitude Pruning (IMP) still stands as a state-of-the-art algorithm despite its simple nature, particularly in extremely sparse regimes. In light of the recent finding that the two successive matching IMP solutions are linearly connected without a loss barrier, we propose Sparse Weight Averaging with Multiple Particles (SWAMP), a straightforward modification of IMP that achieves performance comparable to an ensemble of two IMP solutions. For every iteration, we concurrently train multiple sparse models, referred to as particles, using different batch orders yet the same matching ticket, and then weight average such models to produce a single mask. We demonstrate that our method consistently outperforms existing baselines across different sparsities through extensive experiments on various data and neural network structures.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# データアクセスのないディープ・クラシファイア・ミミミリ

Deep Classifier Mimicry without Data Access ( http://arxiv.org/abs/2306.02090v5 )

ライセンス: Link先を確認
Steven Braun, Martin Mundt, Kristian Kersting, (参考訳) 事前訓練されたモデルへのアクセスは、最近、多くの機械学習ドメインの標準として登場した。 残念なことに、モデルがトレーニングしたオリジナルのデータへのアクセスは、等しく許可されないかもしれない。 これにより、モデルを微調整したり、圧縮したり、継続的に適応したり、あるいは他のタイプのデータ駆動更新を行うのは非常に困難になります。 しかし、元のデータアクセスは必要ないかもしれないと仮定する。 具体的には、原データにアクセスせずに深部分類器を模倣するモデルに依存しない知識蒸留法であるContrastive Abductive Knowledge extract (CAKE)を提案する。 この目的のために、CAKEはノイズの多い合成サンプルのペアを生成し、それらをモデルの決定境界に対して対照的に拡散させる。 我々は、いくつかのベンチマークデータセットとさまざまなアーキテクチャ選択を使用して、CAKEの有効性を実証的に相関付け、幅広いアプリケーションへの道を開く。

Access to pre-trained models has recently emerged as a standard across numerous machine learning domains. Unfortunately, access to the original data the models were trained on may not equally be granted. This makes it tremendously challenging to fine-tune, compress models, adapt continually, or to do any other type of data-driven update. We posit that original data access may however not be required. Specifically, we propose Contrastive Abductive Knowledge Extraction (CAKE), a model-agnostic knowledge distillation procedure that mimics deep classifiers without access to the original data. To this end, CAKE generates pairs of noisy synthetic samples and diffuses them contrastively toward a model's decision boundary. We empirically corroborate CAKE's effectiveness using several benchmark datasets and various architectural choices, paving the way for broad application.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# 事前学習モデルにおける速度低下原理による画像クラスタリング

Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models ( http://arxiv.org/abs/2306.05272v5 )

ライセンス: Link先を確認
Tianzhe Chu, Shengbang Tong, Tianjiao Ding, Xili Dai, Benjamin David Haeffele, René Vidal, Yi Ma, (参考訳) 大規模な事前学習モデルの出現は、視覚表現学習と自然言語処理の両方にパラダイムシフトをもたらした。 しかしながら、基本的で古典的な機械学習問題として、ラベルのないイメージをクラスタリングすることは、特に大規模データセットにおいて、効果的なソリューションを欠いている。 本稿では,CLIPやクラスタイメージなどの大規模事前学習モデルの強力な特徴表現を効果的かつ効率的に活用する,新しい画像クラスタリングパイプラインを提案する。 我々はまず,与えられたデータセットのクラスタ数を推定する新しいアルゴリズムを開発した。 次に, 事前学習した特徴が, 速度減少目標をさらに最適化することにより, より構造化されていることを示す。 その結果、ImageNet-1kでは、クラスタリングの精度が57\%から66\%に大幅に向上する可能性がある。 さらに、画像とテキスト間のCLIPのマルチモーダルブリッジを活用することで、クラスタに対して意味のあるキャプションを生成する、単純で効果的な自己ラベルアルゴリズムを開発する。 広範な実験を通じて、パイプラインはCIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。 また、LAION-AestheticsやWikiArtsのようなクラスタリングのためにキュレーションされていないデータセットにも拡張される。 コードをhttps://github.com/LeslieTrue/CPPでリリースしました。

The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks an effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We first developed a novel algorithm to estimate the number of clusters in a given dataset. We then show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57\% to 66\% on ImageNet-1k. Furthermore, by leveraging CLIP's multimodality bridge between image and text, we develop a simple yet effective self-labeling algorithm that produces meaningful captions for the clusters. Through extensive experiments, we show that our pipeline works well on standard datasets such as CIFAR-10, CIFAR-100, and ImageNet-1k. It also extends to datasets that are not curated for clustering, such as LAION-Aesthetics and WikiArts. We released the code in https://github.com/LeslieTrue/CPP.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# DocumentCLIP: リフロードドキュメンテーションにおける図形と本文のリンク

DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents ( http://arxiv.org/abs/2306.06306v3 )

ライセンス: Link先を確認
Fuxiao Liu, Hao Tan, Chris Tensmeyer, (参考訳) 視覚言語事前学習モデルは、画像とテキストのアライメントを理解することによってマルチメディアアプリケーションをサポートすることに成功している。 既存の視覚言語事前学習モデルは、主に1つのテキストに関連付けられた1つの画像を理解することに焦点を当てるが、それらは文書内レベルでのアライメントを無視することが多い。 本研究では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制する,サラレンス対応のコントラスト学習フレームワークであるDocumentCLIPを提案する。 我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。 我々の知る限りでは、コントラッシブ・ラーニングによって文書内リンクをマルチモーダルに探索するのは初めてである。 さらに、さまざまなトピックや構造を提供する事前学習用の大きなウィキペディアデータセットを収集する。 実験の結果,DocumentCLIPは教師付きセッティングにおいて最先端のベースラインを上回るだけでなく,人的評価後の野における最高のゼロショット性能も達成できることがわかった。 私たちのコードはhttps://github.com/FuxiaoLiu/DocumentCLIPで利用可能です。

Vision-language pretraining models have achieved great success in supporting multimedia applications by understanding the alignments between images and text. While existing vision-language pretraining models primarily focus on understanding single image associated with a single piece of text, they often ignore the alignment at the intra-document level, consisting of multiple sentences with multiple images. In this work, we propose DocumentCLIP, a salience-aware contrastive learning framework to enforce vision-language pretraining models to comprehend the interaction between images and longer text within documents. Our model is beneficial for the real-world multimodal document understanding like news article, magazines, product descriptions, which contain linguistically and visually richer content. To the best of our knowledge, we are the first to explore multimodal intra-document links by contrastive learning. In addition, we collect a large Wikipedia dataset for pretraining, which provides various topics and structures. Experiments show DocumentCLIP not only outperforms the state-of-the-art baselines in the supervised setting, but also achieves the best zero-shot performance in the wild after human evaluation. Our code is available at https://github.com/FuxiaoLiu/DocumentCLIP.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# Long-Range Deep Learningを用いた暗号ハードウェアに対する汎用パワーアタック

Generalized Power Attacks against Crypto Hardware using Long-Range Deep Learning ( http://arxiv.org/abs/2306.07249v2 )

ライセンス: Link先を確認
Elie Bursztein, Luca Invernizzi, Karel Král, Daniel Moghimi, Jean-Michel Picod, Marina Zhang, (参考訳) 暗号プロセッサのサイドチャネル攻撃に対する耐性を高めるために、エンジニアは様々な対策を開発した。 しかし、ソフトウェアとハードウェアの複雑な相互作用に依存するため、これらの対策の有効性は不確かであることが多い。 これまでのプロファイリング技術や機械学習を用いた対策の有効性を評価するには、これらの評価を高価にするためには、新たな目標に適応するための重要な専門知識と努力が必要である。 我々は、コスト効率のよい自動攻撃を含めることで、チップ設計チームが開発フェーズにおける対策を迅速に評価し、よりセキュアなチップへの道を開くことができると論じている。 本稿では,手動チューニングやトレース前処理を必要とせずに,複数の暗号アルゴリズム,実装,サイドチャネル対策を一般化した,パワーサイドチャネル解析のための最初のディープラーニングシステムGPAMを提案する。 ハードウェアアクセラレーションを高速化した楕円曲線のデジタル署名実装を4つのハード化してGPAMの能力を実証する。 GPAMは、保護されたAES実装を攻撃し、手動のトレースキュレーションや限られた予算で、最先端の攻撃に匹敵する性能を達成することで、複数のアルゴリズムをまたいで一般化する能力を示す。 データとモデルをオープンソースコントリビューションとしてリリースし、コミュニティが独立して結果を複製し、その上に構築できるようにします。

To make cryptographic processors more resilient against side-channel attacks, engineers have developed various countermeasures. However, the effectiveness of these countermeasures is often uncertain, as it depends on the complex interplay between software and hardware. Assessing a countermeasure's effectiveness using profiling techniques or machine learning so far requires significant expertise and effort to be adapted to new targets which makes those assessments expensive. We argue that including cost-effective automated attacks will help chip design teams to quickly evaluate their countermeasures during the development phase, paving the way to more secure chips. In this paper, we lay the foundations toward such automated system by proposing GPAM, the first deep-learning system for power side-channel analysis that generalizes across multiple cryptographic algorithms, implementations, and side-channel countermeasures without the need for manual tuning or trace preprocessing. We demonstrate GPAM's capability by successfully attacking four hardened hardware-accelerated elliptic-curve digital-signature implementations. We showcase GPAM's ability to generalize across multiple algorithms by attacking a protected AES implementation and achieving comparable performance to state-of-the-art attacks, but without manual trace curation and within a limited budget. We release our data and models as an open-source contribution to allow the community to independently replicate our results and build on them.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-26
# バックドアアタックにおける毒殺効率を効果的に改善するためのプロキシアタックフリー戦略

A Proxy Attack-Free Strategy for Practically Improving the Poisoning Efficiency in Backdoor Attacks ( http://arxiv.org/abs/2306.08313v2 )

ライセンス: Link先を確認
Ziqiang Li, Hong Sun, Pengfei Xia, Beihao Xia, Xue Rui, Wei Zhang, Qinglang Guo, Bin Li, (参考訳) 毒殺効率は、毒殺ベースのバックドア攻撃において重要な役割を果たす。 検出を回避するため、攻撃者は最少の毒物サンプルを所望の攻撃強度を達成しつつ使用することを目指している。 効果的な引き金は毒の効率を著しく向上させたが、さらなる増強の余地は残っている。 近年, 効率的な試料の選択は有望であるが, 有効な汚染試料を識別するためには, プロキシ・バックドア・インジェクション・タスクが必要となることが多い。 しかし、プロキシアタックベースのアプローチは、バックドア学習のショートカットによって実際の犠牲者が使用するものとは、プロキシアタック設定が異なる場合、パフォーマンスが低下する可能性がある。 本稿では, 個別の類似性とアンサンブルの多様性に基づいて, 効率的な毒素試料の同定を目的とした PFS (Proxy attack-free Strategy) を提案する。 提案したPSFは, 清浄試料とそれに対応する毒素試料との類似度の高いTo-be-poisonedサンプルの選択が, 類似度が低い試料と比較して, 攻撃成功率を著しく高めるという観察結果から動機づけられた。 さらに、この現象の理論的解析は、アクティブラーニングとニューラル・タンジェント・カーネルの理論に基づいて行われる。 提案した戦略を、さまざまなデータセット、トリガー、中毒率、アーキテクチャ、トレーニングハイパーパラメータにわたって総合的に評価する。 実験の結果, PFSはバックドア攻撃効率を向上すると同時に, 従来のプロキシ依存選択手法よりも高速であることがわかった。

Poisoning efficiency plays a critical role in poisoning-based backdoor attacks. To evade detection, attackers aim to use the fewest poisoning samples while achieving the desired attack strength. Although efficient triggers have significantly improved poisoning efficiency, there is still room for further enhancement. Recently, selecting efficient samples has shown promise, but it often requires a proxy backdoor injection task to identify an efficient poisoning sample set. However, the proxy attack-based approach can lead to performance degradation if the proxy attack settings differ from those used by the actual victims due to the shortcut of backdoor learning. This paper presents a Proxy attack-Free Strategy (PFS) designed to identify efficient poisoning samples based on individual similarity and ensemble diversity, effectively addressing the mentioned concern. The proposed PFS is motivated by the observation that selecting the to-be-poisoned samples with high similarity between clean samples and their corresponding poisoning samples results in significantly higher attack success rates compared to using samples with low similarity. Furthermore, theoretical analyses for this phenomenon are provided based on the theory of active learning and neural tangent kernel. We comprehensively evaluate the proposed strategy across various datasets, triggers, poisoning rates, architectures, and training hyperparameters. Our experimental results demonstrate that PFS enhances backdoor attack efficiency, while also exhibiting a remarkable speed advantage over prior proxy-dependent selection methodologies.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 量子ソフトカバー型補題と量子チャネルによる速度歪み符号化、解離性および識別への応用

Quantum soft-covering lemma with applications to rate-distortion coding, resolvability and identification via quantum channels ( http://arxiv.org/abs/2306.12416v3 )

ライセンス: Link先を確認
Touheed Anwar Atif, S. Sandeep Pradhan, Andreas Winter, (参考訳) 本稿では、与えられた一般量子チャネルとその出力状態の1つに対して、与えられたチャネル出力を近似するために必要な入力状態の最小ランクを求めるための量子ソフトカバー問題を提案する。 次に、量子シャノン理論から切り離す手法を活用することで、スムーズなミンエントロピーの観点からワンショット量子被覆補題を証明した。 この被覆結果は、2人の著者による後(逆)チャネル歪み基準の下での速度歪みの符号化定理と等価であることが示されている。 どちらのワンショット結果も、チャネルのコヒーレントな情報の観点から、i.d. asymsymoticsに関するコログを直接生成する。 量子被覆補題のパワーは、2つの応用により示される: まず、量子チャネルの可解性問題を定式化し、1ショットと漸近上界と下界を提供する。 第2に、量子チャネルの非制限および同時識別能力に関する新しい上限、特に、非制限と同時識別能力が初めて分離され、最後の著者の長年の予想が証明される。

We propose a quantum soft-covering problem for a given general quantum channel and one of its output states, which consists in finding the minimum rank of an input state needed to approximate the given channel output. We then prove a one-shot quantum covering lemma in terms of smooth min-entropies by leveraging decoupling techniques from quantum Shannon theory. This covering result is shown to be equivalent to a coding theorem for rate distortion under a posterior (reverse) channel distortion criterion by two of the present authors. Both one-shot results directly yield corollaries about the i.i.d. asymptotics, in terms of the coherent information of the channel. The power of our quantum covering lemma is demonstrated by two additional applications: first, we formulate a quantum channel resolvability problem, and provide one-shot as well as asymptotic upper and lower bounds. Secondly, we provide new upper bounds on the unrestricted and simultaneous identification capacities of quantum channels, in particular separating for the first time the simultaneous identification capacity from the unrestricted one, proving a long-standing conjecture of the last author.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 乗算自由推論を用いた高効率ディープスパイクマルチ層パーセプトロン

Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference ( http://arxiv.org/abs/2306.12465v3 )

ライセンス: Link先を確認
Boyan Li, Luziwei Leng, Shuaijie Shen, Kaixuan Zhang, Jianguo Zhang, Jianxing Liao, Ran Cheng, (参考訳) スパイキングニューラルネットワーク(SNN)に対する深層畳み込みアーキテクチャの適用の進歩は、画像分類性能を大幅に向上させ、計算負荷を低減させた。 しかし,MFI(Multiplication-Free Inference)では,高解像度ビジョンタスクの性能向上に欠かせない注意と変圧器機構に整合できないため,これらの利得に制限が課せられる。 そこで本研究では,MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て,新たな経路を探索する。 本稿では,MFIの互換性を維持するためにバッチ正規化を用いて,局所的特徴抽出能力を高めるためにスパイキングパッチ符号化層を導入する,革新的なスパイキング型MLPアーキテクチャを提案する。 その結果,効果的にグローバルな受容場と局所的特徴抽出をブレンドして総合的なスパイクベースの計算を行う,効率的なマルチステージスパイクMLPネットワークを構築した。 我々のネットワークは、事前トレーニングや洗練されたSNNトレーニング技術に頼ることなく、ImageNet-1Kデータセットで66.39%のトップ1精度を確保し、直接訓練されたResNet-34を2.67%上回る。 さらに,計算コスト,モデルパラメータ,シミュレーションステップを削減した。 我々のネットワークの拡張版は、スパイクするVGG-16ネットワークの性能を71.64%の精度で比較する。 本研究は,グローバルな学習能力とローカルな学習能力を効果的に統合する上での,深層SNNアーキテクチャの可能性を明らかにするものである。 興味深いことに、我々のネットワークの訓練された受容野は、皮質細胞の活動パターンを反映している。 ソースコードはhttps://github.com/EMI-Group/mixer-snnで公開されている。

Advancements in adapting deep convolution architectures for Spiking Neural Networks (SNNs) have significantly enhanced image classification performance and reduced computational burdens. However, the inability of Multiplication-Free Inference (MFI) to align with attention and transformer mechanisms, which are critical to superior performance on high-resolution vision tasks, imposing limitations on these gains. To address this, our research explores a new pathway, drawing inspiration from the progress made in Multi-Layer Perceptrons (MLPs). We propose an innovative spiking MLP architecture that uses batch normalization to retain MFI compatibility and introducing a spiking patch encoding layer to enhance local feature extraction capabilities. As a result, we establish an efficient multi-stage spiking MLP network that blends effectively global receptive fields with local feature extraction for comprehensive spike-based computation. Without relying on pre-training or sophisticated SNN training techniques, our network secures a top-1 accuracy of 66.39% on the ImageNet-1K dataset, surpassing the directly trained spiking ResNet-34 by 2.67%. Furthermore, we curtail computational costs, model parameters, and simulation steps. An expanded version of our network compares with the performance of the spiking VGG-16 network with a 71.64% top-1 accuracy, all while operating with a model capacity 2.1 times smaller. Our findings highlight the potential of our deep SNN architecture in effectively integrating global and local learning abilities. Interestingly, the trained receptive field in our network mirrors the activity patterns of cortical cells. Source codes are publicly accessible at https://github.com/EMI-Group/mixer-snn.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 量子スイッチの創発的非マルコフ性と動的量子化

Emergent non-Markovianity and dynamical quantification of the quantum switch ( http://arxiv.org/abs/2307.01964v2 )

ライセンス: Link先を確認
Vishal Anand, Ananda G. Maity, Subhadip Mitra, Samyadeb Bhattacharya, (参考訳) 量子スイッチの動的側面について検討し,スイッチ動作から生じる量子メモリの特定の形態を見出す。 まず、量子スイッチの対象となる一般的な量子進化における情報の損失を分析し、スイッチが引き起こすメモリの定量化のための尺度を提案する。 次に、情報損失とスイッチ駆動メモリの不確かさを導出する。 動的非偏極化の例を明示的に考察し、量子スイッチの作用によってどのように影響を受けるかを示す。 より詳細な分析では、制御量子ビットと制御量子ビットの最終的な測定の両方をノイズとして考慮し、その不確実性関係について検討する。 さらに,スイッチ動作の低減のためにリンドブラッド型力学を導出しながら,スイッチ誘起メモリが非マルコビアン性の出現につながることを確認した。 興味深いことに、創発的非マルコビアン性は、他の標準的非マルコビアン性尺度と比較することにより、スイッチ操作に明示的に起因できることが示される。 そこで本研究では,量子スイッチを新しい非マルコフ量子メモリとして理解するための道を開く。

We investigate the dynamical aspects of the quantum switch and find a particular form of quantum memory emerging out of the switch action. We first analyse the loss of information in a general quantum evolution subjected to a quantum switch and propose a measure to quantify the switch-induced memory. We then derive an uncertainty relation between information loss and switch-induced memory. We explicitly consider the example of depolarizing dynamics and show how it is affected by the action of a quantum switch. For a more detailed analysis, we consider both the control qubit and the final measurement on the control qubit as noisy and investigate the said uncertainty relation. Further, while deriving the Lindblad-type dynamics for the reduced operation of the switch action, we identify that the switch-induced memory actually leads to the emergence of non-Markovianity. Interestingly, we demonstrate that the emergent non-Markovianity can be explicitly attributed to the switch operation by comparing it with other standard measures of non-Markovianity. Our investigation thus paves the way forward to understanding the quantum switch as an emerging non-Markovian quantum memory.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# NMR量子プロセッサ上のパウリ半群の凸混合による量子非マルコフ性の実験的実現

Experimental realization of quantum non-Markovianity through the convex mixing of Pauli semigroups on an NMR quantum processor ( http://arxiv.org/abs/2307.02899v2 )

ライセンス: Link先を確認
Vaishali Gulati, Vinayak Jagadish, R. Srikanth, Kavita Dorai, (参考訳) この実験は、任意の混合パラメータを持つパウリ半群の凸結合を調べ、結果の動的写像がマルコフ的あるいは非マルコフ的挙動を示すかどうかを決定することを目的としている。 具体的には、2つのパウリ半群の同値かつ不等混合を考慮し、結果の写像が常に非マルコフ写像であることを示す。 さらに、3つのパウリ半群の3方向混合の3つのケースを調査し、結果の写像のマルコビアン性または非マルコビアン性を決定する。 NMR量子プロセッサ上でのパウリ半群の混合結合の異なる単一量子ビット系の非単位力学をシミュレートするために、2つの補助量子ビットを含むアルゴリズムを用いる。 実験結果は理論的な予測と一致している。

This experimental study aims to investigate the convex combinations of Pauli semigroups with arbitrary mixing parameters to determine whether the resulting dynamical map exhibits Markovian or non-Markovian behavior. Specifically, we consider the cases of equal as well as unequal mixing of two Pauli semigroups, and demonstrate that the resulting map is always non-Markovian. Additionally, we study three cases of three-way mixing of the three Pauli semigroups and determine the Markovianity or non-Markovianity of the resulting maps by experimentally determining the decay rates. To simulate the non-unitary dynamics of a single qubit system with different mixing combinations of Pauli semigroups on an NMR quantum processor, we use an algorithm involving two ancillary qubits. The experimental results align with the theoretical predictions.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 位相位相におけるチェシャー弦の弦作用素

String operators for Cheshire strings in topological phases ( http://arxiv.org/abs/2307.03180v2 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Xie Chen, (参考訳) 3+1D位相相の初等点電荷励起は、線に沿って凝縮し、チェシャー弦と呼ばれる子孫励起を形成する。 系の基本的なフラックスループ励起とは異なり、チェシャー弦は2dディスクの境界として現れる必要はなく、開線セグメント上に存在する。 一方、チェシャー弦は、0dの局所ユニタリと1d以上の有限深さ量子回路で生成できる自明な励起とは異なる。 本稿では,チェシャー弦を生成するためには,弦の長さに沿って順次作用する線形深度回路が必要であることを示す。 チェシャー弦が生成されると、その変形、運動、融合は有限深度回路によって実現される。 この回路深度要件は、対称性に保護されたトポロジカル鎖やマヨラナ鎖を含むすべての非自明な子孫励起に適用される。

Elementary point charge excitations in 3+1D topological phases can condense along a line and form a descendant excitation called the Cheshire string. Unlike the elementary flux loop excitations in the system, Cheshire strings do not have to appear as the boundary of a 2d disc and can exist on open line segments. On the other hand, Cheshire strings are different from trivial excitations that can be created with local unitaries in 0d and finite depth quantum circuits in 1d and higher. In this paper, we show that to create a Cheshire string, one needs a linear depth circuit that acts sequentially along the length of the string. Once a Cheshire string is created, its deformation, movement and fusion can be realized by finite depths circuits. This circuit depth requirement applies to all nontrivial descendant excitations including symmetry-protected topological chains and the Majorana chain.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# コントラスト・デモとサリエンシ・マップを用いたインテクスト・ラーニングの理解に向けて

Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps ( http://arxiv.org/abs/2307.05052v4 )

ライセンス: Link先を確認
Fuxiao Liu, Paiheng Xu, Zongxia Li, Yue Feng, Hyemi Song, (参考訳) 大規模言語モデル(LLM)のテキスト内学習(ICL)性能における様々な実演要素の役割について検討する。 具体的には, 地中構造ラベル, 入力分布, 相補的説明の影響について検討する。 これらの要素がICLにどのように影響するかについて、さまざまな知見を提供する。 これらの問題を探索するために,説明可能なNLP(XNLP)法を用い,定性解析と定量的解析の両方に対照的な実演のサリエンシマップを用いた。 以上の結果から,大きなLSMではより顕著であるが,地平線ラベルの反転が唾液濃度に顕著に影響を及ぼすことが明らかとなった。 入力分布を粒度レベルで分析した結果,感情分析タスクにおける感情表現的用語を中立語に変化させることは,地味ラベルの変更ほど大きな影響を与えないことがわかった。 最後に、ICLの性能向上における補完的説明の有効性は、シンボリック推論タスクと比較して、感情分析タスクで見られるメリットが限られており、タスク依存であることが判明した。 これらの知見は,ChatGPT などのアプリケーションで LLM の利用が増加していることを踏まえ,LLM の機能を理解し,効果的な実演の開発を導く上で重要である。 我々の研究コードはhttps://github.com/paihengxu/XICL.comで公開されています。

We investigate the role of various demonstration components in the in-context learning (ICL) performance of large language models (LLMs). Specifically, we explore the impacts of ground-truth labels, input distribution, and complementary explanations, particularly when these are altered or perturbed. We build on previous work, which offers mixed findings on how these elements influence ICL. To probe these questions, we employ explainable NLP (XNLP) methods and utilize saliency maps of contrastive demonstrations for both qualitative and quantitative analysis. Our findings reveal that flipping ground-truth labels significantly affects the saliency, though it's more noticeable in larger LLMs. Our analysis of the input distribution at a granular level reveals that changing sentiment-indicative terms in a sentiment analysis task to neutral ones does not have as substantial an impact as altering ground-truth labels. Finally, we find that the effectiveness of complementary explanations in boosting ICL performance is task-dependent, with limited benefits seen in sentiment analysis tasks compared to symbolic reasoning tasks. These insights are critical for understanding the functionality of LLMs and guiding the development of effective demonstrations, which is increasingly relevant in light of the growing use of LLMs in applications such as ChatGPT. Our research code is publicly available at https://github.com/paihengxu/XICL.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 変換テンソル低ランク表現による外乱を考慮したロバストデータクラスタリング

Robust Data Clustering with Outliers via Transformed Tensor Low-Rank Representation ( http://arxiv.org/abs/2307.09055v3 )

ライセンス: Link先を確認
Tong Wu, (参考訳) 近年、テンソル低ランク表現(TLRR)は、経験的成功と理論的保証のためにテンソルデータの回復とクラスタリングの一般的なツールとなっている。 しかし、既存のTLRR法ではガウスノイズや粗いスパースノイズを考慮し、テンソルデータが外れ値やサンプル固有の破損によって汚染された場合、必然的に性能低下を招いた。 本稿では,t-SVDフレームワークに基づいて,外乱検出とテンソルデータクラスタリングを同時に行う,外乱テンソル低ランク表現(OR-TLRR)法を提案する。 任意の外乱によるテンソル観測では、OR-TLRRは、清潔なデータの行空間を正確に復元し、穏やかな条件下で外乱を検出する性能を保証する。 さらに、データの一部が欠落している場合にケースを扱うためにOR-TLRRの拡張を提案する。 最後に、合成および実データに対する広範な実験結果により、提案アルゴリズムの有効性が示された。 コードをhttps://github.com/twugithub/2024-AISTATS-ORTLRRでリリースします。

Recently, tensor low-rank representation (TLRR) has become a popular tool for tensor data recovery and clustering, due to its empirical success and theoretical guarantees. However, existing TLRR methods consider Gaussian or gross sparse noise, inevitably leading to performance degradation when the tensor data are contaminated by outliers or sample-specific corruptions. This paper develops an outlier-robust tensor low-rank representation (OR-TLRR) method that provides outlier detection and tensor data clustering simultaneously based on the t-SVD framework. For tensor observations with arbitrary outlier corruptions, OR-TLRR has provable performance guarantee for exactly recovering the row space of clean data and detecting outliers under mild conditions. Moreover, an extension of OR-TLRR is proposed to handle the case when parts of the data are missing. Finally, extensive experimental results on synthetic and real data demonstrate the effectiveness of the proposed algorithms. We release our code at https://github.com/twugithub/2024-AISTATS-ORTLRR.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 協調型MECシステムにおける共同サービスキャッシング・通信・計算資源配分:DRLに基づく二段階的アプローチ

Joint Service Caching, Communication and Computing Resource Allocation in Collaborative MEC Systems: A DRL-based Two-timescale Approach ( http://arxiv.org/abs/2307.09691v2 )

ライセンス: Link先を確認
Qianqian Liu, Haixia Zhang, Xin Zhang, Dongfeng Yuan, (参考訳) 端末の厳格なQuality of Service (QoS) 要件を満たすため、マルチアクセスエッジコンピューティング (MEC) システムには、限られた多次元リソースが課せられている。 この課題に対処するために、エッジサーバ間のリソース共有を容易にする協調MECフレームワークを提案し、サービスキャッシュ、協調オフロード、および計算および通信リソース割り当ての協調最適化により、長期QoSを最大化し、キャッシュ切替コストを削減することを目的とする。 サービスキャッシングと他のリソースアロケーションの2つの時間スケール機能と時間的リカレンス関係は、この問題をさらに困難にします。 そこで我々は,DGL-DDPGと呼ばれる,DGL-DDPGという,DRLに基づく2次元時間スケールスキームを提案し,その手法は,短期遺伝的アルゴリズム(GA)と長期記憶ネットワークに基づくDeep Deterministic Policy gradient(LSTM-DDPG)から構成される。 そこで我々は,改良GAによって生成された小規模資源配分決定を状態として,集中型LSTM-DDPGエージェントに入力し,大規模なサービスキャッシュ決定を生成する,マルコフ決定プロセス(MDP)として最適化問題を再構築する。 シミュレーションの結果,提案アルゴリズムは,平均QoSおよびキャッシュ切替コストの観点から,ベースラインアルゴリズムよりも優れていた。

Meeting the strict Quality of Service (QoS) requirements of terminals has imposed a signiffcant challenge on Multiaccess Edge Computing (MEC) systems, due to the limited multidimensional resources. To address this challenge, we propose a collaborative MEC framework that facilitates resource sharing between the edge servers, and with the aim to maximize the long-term QoS and reduce the cache switching cost through joint optimization of service caching, collaborative offfoading, and computation and communication resource allocation. The dual timescale feature and temporal recurrence relationship between service caching and other resource allocation make solving the problem even more challenging. To solve it, we propose a deep reinforcement learning (DRL)-based dual timescale scheme, called DGL-DDPG, which is composed of a short-term genetic algorithm (GA) and a long short-term memory network-based deep deterministic policy gradient (LSTM-DDPG). In doing so, we reformulate the optimization problem as a Markov decision process (MDP) where the small-timescale resource allocation decisions generated by an improved GA are taken as the states and input into a centralized LSTM-DDPG agent to generate the service caching decision for the large-timescale. Simulation results demonstrate that our proposed algorithm outperforms the baseline algorithms in terms of the average QoS and cache switching cost.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 正方形の公式和によるカスタムベルの不等式

Custom Bell inequalities from formal sums of squares ( http://arxiv.org/abs/2308.08601v2 )

ライセンス: Link先を確認
Victor Barizien, Pavel Sekatski, Jean-Daniel Bancal, (参考訳) ベルの不等式は、デバイスに依存しない量子情報プロトコルの量子特性の証明において重要な役割を果たす。 しかし、与えられた任意の量子状態に適したベルの不等式を考案することは、依然として大きな課題である。 既存の2乗の和に基づくアプローチは、この方向に結果をもたらすが、状態に適した測定設定を最初に選択する必要性によって制限される。 ここでは, 任意の目標状態に対して, 数値化子の選択を適度に行うことにより, 任意の目標状態に対して平方特性の和を強制することができることを示す。 提案手法を用いて,量子状態のいくつかの族に対する単純ベル不等式を構築する。 ほとんどの場合、構築されたベルの不等式が目標状態の自己テストを達成することを証明できる。 また,2つのパラメータを持つ設定の族を持つ2量子状態の部分的絡み合いを自己テストするために,測定の選択の自由を利用する。 最後に、いくつかの統計はベルの不等式が異なる形で自己検証できることを示し、従って量子相関の集合の形状に関する新たな知見を得る。

Bell inequalities play a key role in certifying quantum properties for device-independent quantum information protocols. It is still a major challenge, however, to devise Bell inequalities tailored for an arbitrary given quantum state. Existing approaches based on sums of squares provide results in this direction, but they are restricted by the necessity of first choosing measurement settings suited to the state. Here, we show how the sum of square property can be enforced for an arbitrary target state by making an appropriate choice of nullifiers, which is made possible by leaving freedom in the choice of measurement. Using our method, we construct simple Bell inequalities for several families of quantum states, including partially entangled multipartite GHZ states and qutrit states. In most cases we are able to prove that the constructed Bell inequalities achieve self-testing of the target state. We also use the freedom in the choice of measurement to self-test partially entangled two-qubit states with a family of settings with two parameters. Finally, we show that some statistics can be self-tested with distinct Bell inequalities, hence obtaining new insight on the shape of the set of quantum correlations.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# ハイパースペクトルアンミックスのための画像処理と機械学習 - 概要とHySUPP Pythonパッケージ

Image Processing and Machine Learning for Hyperspectral Unmixing: An Overview and the HySUPP Python Package ( http://arxiv.org/abs/2308.09375v3 )

ライセンス: Link先を確認
Behnood Rasti, Alexandre Zouaoui, Julien Mairal, Jocelyn Chanussot, (参考訳) スペクトル画素は、しばしば、ハイパースペクトルセンサーの低空間分解能、二重散乱、シーン内の物質の親密な混合のために、エンドメンバーと呼ばれる素材の純粋なスペクトルの混合物である。 アンミキシングは、ピクセル内のエンドメンバーの分数量を推定する。 エンドメンバーの事前の知識によって、線形アンミックスは、教師付き、半教師付き、および教師なし(盲)線形アンミックスの3つの主要なグループに分けられる。 画像処理と機械学習の進歩は、アンミックスに大きな影響を与えた。 本稿では,先進的および従来型のアンミックス手法の概要について述べる。 さらに,3つのカテゴリから,先進的手法と従来手法を批判的に比較した。 シミュレーションされた3つのデータセットと2つの実際のデータセット上でのアンミックス手法の性能を比較した。 実験結果は、異なる未混合のシナリオに対して異なる未混合のカテゴリの利点を明らかにした。 さらに、結果を再現するためにhttps://github.com/BehnoodRasti/HySUPPで利用可能なPythonベースのオープンソースパッケージも提供しています。

Spectral pixels are often a mixture of the pure spectra of the materials, called endmembers, due to the low spatial resolution of hyperspectral sensors, double scattering, and intimate mixtures of materials in the scenes. Unmixing estimates the fractional abundances of the endmembers within the pixel. Depending on the prior knowledge of endmembers, linear unmixing can be divided into three main groups: supervised, semi-supervised, and unsupervised (blind) linear unmixing. Advances in Image processing and machine learning substantially affected unmixing. This paper provides an overview of advanced and conventional unmixing approaches. Additionally, we draw a critical comparison between advanced and conventional techniques from the three categories. We compare the performance of the unmixing techniques on three simulated and two real datasets. The experimental results reveal the advantages of different unmixing categories for different unmixing scenarios. Moreover, we provide an open-source Python-based package available at https://github.com/BehnoodRasti/HySUPP to reproduce the results.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 言語モデルにおけるSOSバイアス

Systematic Offensive Stereotyping (SOS) Bias in Language Models ( http://arxiv.org/abs/2308.10684v2 )

ライセンス: Link先を確認
Fatma Elsafoury, (参考訳) 本稿では,言語モデル(LM)におけるSOSバイアスを測定するための新しい指標を提案する。 次に,SOSバイアスを検証し,その除去の有効性について検討する。 最後に, LMのSOSバイアスがヘイトスピーチ検出に及ぼす影響について検討した。 以上の結果から,検査対象のLMはSOSに偏りがあることが示唆された。 そして、SOSの偏見は、差別化されたアイデンティティによって経験されるオンライン憎悪を反映している。 その結果, 文献からの脱バイアス法を用いることで, LMのSOSバイアスが微妙な属性で悪化し, 他の属性で改善されることが示唆された。 最後に,検査したLMのSOSバイアスがヘイトスピーチ検出の公平性に与える影響を示唆した。 しかし、SOSバイアスがヘイトスピーチ検出の性能に影響を及ぼすという強い証拠はない。

In this paper, we propose a new metric to measure the SOS bias in language models (LMs). Then, we validate the SOS bias and investigate the effectiveness of removing it. Finally, we investigate the impact of the SOS bias in LMs on their performance and fairness on hate speech detection. Our results suggest that all the inspected LMs are SOS biased. And that the SOS bias is reflective of the online hate experienced by marginalized identities. The results indicate that using debias methods from the literature worsens the SOS bias in LMs for some sensitive attributes and improves it for others. Finally, Our results suggest that the SOS bias in the inspected LMs has an impact on their fairness of hate speech detection. However, there is no strong evidence that the SOS bias has an impact on the performance of hate speech detection.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 光格子における大規模原子配列の高忠実度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v4 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher, (参考訳) 中立原子に基づく量子シミュレーションの最近の進歩は、高分解能で単原子感度のイメージング技術から大きく恩恵を受けている。 光学格子や光ツイーザにおける原子の局所的な検出を実現するために、様々なアプローチが開発されている。 アルカリ-アース原子やアルカリ-アース原子の場合、狭い光学遷移の存在は、冷却機構がトラップ電位の微分光学レベルシフトを空間的に解決する能力から生じる新しいタイプのシホス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,高忠実度 (99.971(1)\%$) と高生存率 (99.80(5)\%$) のシィフス冷却によるストロンチウム原子のイメージングを示す。 最大399ドルのツイーザーを持つ大規模ツイーザーアレイの原子のピンニング電位として光学格子を用い、繰り返し、高忠実な格子-ツイーザー-格子転移を示す。 さらに、MOTから直接約10000の原子で格子をロードし、生存確率と分類忠実度を99.2\%$より良く組み合わせた10000ドルの格子サイトをスケーラブルに撮像する。 この格子は将来,光ツイーザアレイの連続的な補充のための局所的にアドレス化可能でソート可能な貯水池として機能する。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.971(1)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate loading the lattice with approximately 10000 atoms directly from the MOT and scalable imaging over $>10000$ lattice sites with a combined survival probability and classification fidelity better than $99.2\%$. Our lattice thus serves as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# LiHoF4における強ハイブリッド化電子核スピン励起のキャビティ-マグノン-ポラリトン分光

Cavity-Magnon-Polariton spectroscopy of strongly hybridized electro-nuclear spin excitations in LiHoF4 ( http://arxiv.org/abs/2309.05051v2 )

ライセンス: Link先を確認
Yikai Yang, Peter Babkevich, Richard Gaal, Ivica Zivkovic, Henrik M. Ronnow, (参考訳) まず、入出力形式と線形応答理論を組み込んで、共振器-マグノン-ポラリトン結合を分光ツールとして利用し、強ハイブリッド化電子-核スピン励起の研究を行う。 強いハイブリッド化キャビティ-マグノン-ポラリトン系における一般化された感受性と散乱パラメータ |S11| の微視的関係は、半古典的近似に頼らずに導出された。 フォーマリズムは、モデル量子イジング磁石(LiHoF4)と高精細3D共振器からなる特定の系を解析およびシミュレートするために適用される。 LiHoF4の電子核スピン状態の定量情報を抽出し、量子臨界点を横切る外部磁場を含む広いパラメータ範囲にわたる実験観測を数値的に再現した。 この手法は、LiHoF4の量子相転移のさらなる研究だけでなく、幅広い複雑な磁気システムにも新たな道を開く可能性がある。

We first present a formalism that incorporates the input-output formalism and the linear response theory to employ cavity-magnon-polariton coupling as a spectroscopic tool for investigating strongly hybridized electro-nuclear spin excitations. A microscopic relation between the generalized susceptibility and the scattering parameter |S11| in strongly hybridized cavity-magnon-polariton systems has been derived without resorting to semi-classical approximations. The formalism is then applied to both analyze and simulate a specific systems comprising a model quantum Ising magnet (LiHoF4) and a high-finesse 3D re-entrant cavity resonator. Quantitative information on the electro-nuclear spin states in LiHoF4 is extracted, and the experimental observations across a broad parameter range were numerically reproduced, including an external magnetic field titraversing a quantum critical point. The method potentially opens a new avenue not only for further studies on the quantum phase transition in LiHoF4 but also for a wide range of complex magnetic systems.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-26
# 任意のグラフ上のボース・ハバードモデルに対する量子モンテカルロアルゴリズム

A quantum Monte Carlo algorithm for Bose-Hubbard models on arbitrary graphs ( http://arxiv.org/abs/2309.05166v2 )

ライセンス: Link先を確認
Itay Hen, Emre Akaturk, (参考訳) 本稿では,任意のグラフ上でBose-Hubbardモデルをシミュレートできる量子モンテカルロアルゴリズムを提案する。 提案手法は,最近導入された置換行列表現量子モンテカルロ [Gupta, Albash and Hen, J. Stat. Mech. (2020) 073105] に基づいて,モデルが定義されたグラフのサイクルベースを生成するために,シミュレーションを与えられた幾何学に適応させる問題,効率的にかつ自動的に行うことができる手順を提示する。 提案手法の汎用性を示すため,2次元格子上に定義されたBose-Hubbardモデルと,多数のランダムグラフ上でのシミュレーション結果を提供する。

We propose a quantum Monte Carlo algorithm capable of simulating the Bose-Hubbard model on arbitrary graphs, obviating the need for devising lattice-specific updates for different input graphs. We show that with our method, which is based on the recently introduced Permutation Matrix Representation Quantum Monte Carlo [Gupta, Albash and Hen, J. Stat. Mech. (2020) 073105], the problem of adapting the simulation to a given geometry amounts to generating a cycle basis for the graph on which the model is defined, a procedure that can be carried out efficiently and and in an automated manner. To showcase the versatility of our approach, we provide simulation results for Bose-Hubbard models defined on two-dimensional lattices as well as on a number of random graphs.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# 生オーディオ用コンブネットの不安定性

Instabilities in Convnets for Raw Audio ( http://arxiv.org/abs/2309.05855v4 )

ライセンス: Link先を確認
Daniel Haider, Vincent Lostanlen, Martin Ehler, Peter Balazs, (参考訳) 波形ベースのディープラーニングがなぜそんなに難しいのか? フィルタバンク設計のための畳み込みニューラルネットワーク (convnets) を訓練する試みは数多くあるが、手作りのベースラインを上回りしないことが多い。 これらの基底線は線形時間不変系であり、より広い受容場を持つ凸ネットによって近似することができる。 しかし、実際には勾配に基づく最適化は準最適近似をもたらす。 本稿では,この現象を初期化の観点から考察する。 ランダムなガウス重みを持つFIRフィルタバンクのエネルギー応答に対する大きな偏差の理論を示す。 その結果,大規模なフィルタや局所的な周期的な入力信号の偏差が悪化することが判明した。 数値シミュレーションは我々の理論と一致し、畳み込み層の条件数は、離散ウェーブレット基底を連想させるフィルタの数と長さの間の対数スケーリング則に従うことを示唆している。

What makes waveform-based deep learning so hard? Despite numerous attempts at training convolutional neural networks (convnets) for filterbank design, they often fail to outperform hand-crafted baselines. These baselines are linear time-invariant systems: as such, they can be approximated by convnets with wide receptive fields. Yet, in practice, gradient-based optimization leads to suboptimal approximations. In our article, we approach this phenomenon from the perspective of initialization. We present a theory of large deviations for the energy response of FIR filterbanks with random Gaussian weights. We find that deviations worsen for large filters and locally periodic input signals, which are both typical for audio signal processing applications. Numerical simulations align with our theory and suggest that the condition number of a convolutional layer follows a logarithmic scaling law between the number and length of the filters, which is reminiscent of discrete wavelet bases.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# 2次元スケルトン熱マップと多モード融合を用いたアクションセグメンテーション

Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion ( http://arxiv.org/abs/2309.06462v3 )

ライセンス: Link先を確認
Syed Waleed Hyder, Muhammad Usama, Anas Zafar, Muhammad Naufil, Fawad Javed Fateh, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran, (参考訳) 本稿では,微細な人間の行動認識に応用した2次元骨格に基づくアクションセグメンテーション法を提案する。 時空間特徴学習において3次元骨格座標のシーケンスを直接入力として取り込んでグラフ畳み込みネットワーク(GCN)を適用する最先端の手法とは対照的に,我々は2次元骨格熱マップのシーケンスを入力として使用し,時空間畳み込みネットワーク(TCN)を用いて時空間特徴を抽出する。 3D情報がないにもかかわらず、我々の手法は、従来のアクションセグメンテーションデータセットの手法よりも、同等/上位のパフォーマンスと欠落キーポイントに対する堅牢性が得られる。 さらに、2DスケルトンヒートマップとRGBビデオの両方を入力として使用することで、パフォーマンスをさらに向上する。 我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン+RGB融合を探索する最初の研究である。

This paper presents a 2D skeleton-based action segmentation method with applications in fine-grained human activity recognition. In contrast with state-of-the-art methods which directly take sequences of 3D skeleton coordinates as inputs and apply Graph Convolutional Networks (GCNs) for spatiotemporal feature learning, our main idea is to use sequences of 2D skeleton heatmaps as inputs and employ Temporal Convolutional Networks (TCNs) to extract spatiotemporal features. Despite lacking 3D information, our approach yields comparable/superior performances and better robustness against missing keypoints than previous methods on action segmentation datasets. Moreover, we improve the performances further by using both 2D skeleton heatmaps and RGB videos as inputs. To our best knowledge, this is the first work to utilize 2D skeleton heatmap inputs and the first work to explore 2D skeleton+RGB fusion for action segmentation.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# mEBAL2データベースとベンチマーク:画像に基づくマルチスペクトルアイリンク検出

mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection ( http://arxiv.org/abs/2309.07880v2 )

ライセンス: Link先を確認
Roberto Daza, Aythami Morales, Julian Fierrez, Ruben Tolosana, Ruben Vera-Rodriguez, (参考訳) 本研究は、RGBおよび近赤外(NIR)個々の画像における新しいマルチスペクトルデータベースとアイブリンク検出のための新しいアプローチを導入する。 提案したデータセット (mEBAL2, multimodal Eye Blink and Attention Level Estimation, Version 2) は,blink検出および関連するアプリケーション(例えば,顔バイオメトリックスにおける注目レベル推定と提示攻撃検出)に対する,データ駆動型マルチスペクトルアプローチを改善するための大きな機会である。 mEBAL2には180の異なる学生(合計200万以上のラベル付き画像)から21,100のイメージシーケンスが含まれており、難易度が異なる多くのeラーニングタスクを実行したり、EDX MOOCプラットフォームを通じてHTML開始の実際のコースを受講している。 mEBAL2は2つの近赤外線(NIR)と1つのRGBカメラを含む複数のセンサーを使用し、タスクの実行中の顔のジェスチャーをキャプチャし、脳波(EEG)バンドを使用してユーザの認知活動を取得し、イベントを点滅させる。 さらに、この研究は、最大97%のパフォーマンスを持つmEBAL2の点滅検出のベンチマークとして、畳み込みニューラルネットワークアーキテクチャを提案する。 既存のアイブリンク検出器の性能を高めるために、RGBスペクトル、NIRスペクトル、および両者の組み合わせを用いて異なるトレーニング手法が実装されている。 トレーニング中にNIRとRGB画像を組み合わせることで、RGBアイブリンク検出器(すなわち、RGB画像のみに基づく検出)の性能が向上することを示した。 最後に、提案したアイリンク検出器の一般化能力は、HUST-LEBWデータセットのようなより荒野で困難な環境で検証され、新しい世代のアイリンク検出のためのデータ駆動アプローチを訓練するためのmEBAL2の有用性を示す。

This work introduces a new multispectral database and novel approaches for eyeblink detection in RGB and Near-Infrared (NIR) individual images. Our contributed dataset (mEBAL2, multimodal Eye Blink and Attention Level estimation, Version 2) is the largest existing eyeblink database, representing a great opportunity to improve data-driven multispectral approaches for blink detection and related applications (e.g., attention level estimation and presentation attack detection in face biometrics). mEBAL2 includes 21,100 image sequences from 180 different students (more than 2 million labeled images in total) while conducting a number of e-learning tasks of varying difficulty or taking a real course on HTML initiation through the edX MOOC platform. mEBAL2 uses multiple sensors, including two Near-Infrared (NIR) and one RGB camera to capture facial gestures during the execution of the tasks, as well as an Electroencephalogram (EEG) band to get the cognitive activity of the user and blinking events. Furthermore, this work proposes a Convolutional Neural Network architecture as benchmark for blink detection on mEBAL2 with performances up to 97%. Different training methodologies are implemented using the RGB spectrum, NIR spectrum, and the combination of both to enhance the performance on existing eyeblink detectors. We demonstrate that combining NIR and RGB images during training improves the performance of RGB eyeblink detectors (i.e., detection based only on a RGB image). Finally, the generalization capacity of the proposed eyeblink detectors is validated in wilder and more challenging environments like the HUST-LEBW dataset to show the usefulness of mEBAL2 to train a new generation of data-driven approaches for eyeblink detection.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# エクアリングによる抽出混合モデル:表現と学習

Subtractive Mixture Models via Squaring: Representation and Learning ( http://arxiv.org/abs/2310.00724v3 )

ライセンス: Link先を確認
Lorenzo Loconte, Aleksanteri M. Sladek, Stefan Mengel, Martin Trapp, Arno Solin, Nicolas Gillis, Antonio Vergari, (参考訳) 混合モデルは伝統的に、いくつかの分布をコンポーネントとして追加することによって表現され、学習される。 確率質量や密度を減じるために混合物を与えると、複雑な分布をモデル化するのに必要な成分の数が劇的に減少する。 しかし、そのような減算混合を学習し、非負の関数を符号化し続けることは困難である。 そこで本研究では, 深層抽出混合物の抽出と解析について検討した。 確率回路の枠組みでこれを行えば、テンソル化混合を表現でき、他のいくつかの減算的モデルを一般化できる。 理論的には, 減算が可能な正方形回路のクラスは, 従来の添加剤の混合よりも指数関数的に表現可能であることを証明し, 実世界の分布推定タスクにおいて, この表現性の増加を実証的に示す。

Mixture models are traditionally represented and learned by adding several distributions as components. Allowing mixtures to subtract probability mass or density can drastically reduce the number of components needed to model complex distributions. However, learning such subtractive mixtures while ensuring they still encode a non-negative function is challenging. We investigate how to learn and perform inference on deep subtractive mixtures by squaring them. We do this in the framework of probabilistic circuits, which enable us to represent tensorized mixtures and generalize several other subtractive models. We theoretically prove that the class of squared circuits allowing subtractions can be exponentially more expressive than traditional additive mixtures; and, we empirically show this increased expressiveness on a series of real-world distribution estimation tasks.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# コンピュータビジョンに基づく冬期道路表面状態モニタリングのための予測区間推定を用いた軽量回帰モデル

Lightweight Regression Model with Prediction Interval Estimation for Computer Vision-based Winter Road Surface Condition Monitoring ( http://arxiv.org/abs/2310.00923v2 )

ライセンス: Link先を確認
Risto Ojala, Alvari Seppänen, (参考訳) 冬の条件は、自動運転アプリケーションにいくつかの課題をもたらす。 冬期の重要な課題は、摩擦に対する影響が安全かつ確実に車両を制御するための重要なパラメータであるため、道路表面の状態の正確な評価である。 本稿では,カメラ画像から路面摩擦特性を推定できるディープラーニング回帰モデルSIWNetを提案する。 SIWNetはアーキテクチャに不確実性推定機構を含むことによって最先端のアーキテクチャを拡張している。 これは、予測間隔を推定する追加のヘッダをネットワークに含めることによって達成される。 予測間隔ヘッドは、最大極大損失関数で訓練される。 モデルは、SeeingThroughFogデータセットでトレーニングされ、テストされた。 得られた結果はSIWNetの予測間隔推定の機能を強調し,ネットワークは従来の最先端技術と類似点推定精度も達成した。 さらにSIWNetアーキテクチャは、これまで適用されていた最先端モデルよりも数倍軽量で、より実用的で効率的なデプロイメントを実現している。

Winter conditions pose several challenges for automated driving applications. A key challenge during winter is accurate assessment of road surface condition, as its impact on friction is a critical parameter for safely and reliably controlling a vehicle. This paper proposes a deep learning regression model, SIWNet, capable of estimating road surface friction properties from camera images. SIWNet extends state of the art by including an uncertainty estimation mechanism in the architecture. This is achieved by including an additional head in the network, which estimates a prediction interval. The prediction interval head is trained with a maximum likelihood loss function. The model was trained and tested with the SeeingThroughFog dataset, which features corresponding road friction sensor readings and images from an instrumented vehicle. Acquired results highlight the functionality of the prediction interval estimation of SIWNet, while the network also achieved similar point estimate accuracy as the previous state of the art. Furthermore, the SIWNet architecture is several times more lightweight than the previously applied state-of-the-art model, resulting in more practical and efficient deployment.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# 教師なし選挙区パーシングのためのアンサンブル蒸留

Ensemble Distillation for Unsupervised Constituency Parsing ( http://arxiv.org/abs/2310.01717v2 )

ライセンス: Link先を確認
Behzad Shayegh, Yanshuai Cao, Xiaodan Zhu, Jackie C. K. Cheung, Lili Mou, (参考訳) 文の語句を言語的に注釈付けされたデータを用いることなく階層構造に整理する,教師なし選挙区構文解析タスクについて検討する。 我々は、既存の教師なしパーサが、教師なしパーサの性能を高めるために活用できる解析構造の異なる側面を捉えていることを観察する。 そこで本稿では,教師なし構文解析のための新しいアンサンブル手法を提案する。 推論効率を向上させるために,学生モデルにさらにアンサンブル知識を蒸留する。このようなアンサンブル・テン蒸留プロセスは,一般的なマルチティーチンガー蒸留法に存在する過度に平滑な問題を緩和するための効果的なアプローチである。 実験により,本手法は従来手法を超越し,様々な動作,異なるアンサンブル成分,ドメインシフト条件下での有効性とロバスト性を示した。

We investigate the unsupervised constituency parsing task, which organizes words and phrases of a sentence into a hierarchical structure without using linguistically annotated data. We observe that existing unsupervised parsers capture differing aspects of parsing structures, which can be leveraged to enhance unsupervised parsing performance. To this end, we propose a notion of "tree averaging," based on which we further propose a novel ensemble method for unsupervised parsing. To improve inference efficiency, we further distill the ensemble knowledge into a student model; such an ensemble-then-distill process is an effective approach to mitigate the over-smoothing problem existing in common multi-teacher distilling methods. Experiments show that our method surpasses all previous approaches, consistently demonstrating its effectiveness and robustness across various runs, with different ensemble components, and under domain-shift conditions.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# Kosmos-G:マルチモーダル大言語モデルを用いた文脈における画像生成

Kosmos-G: Generating Images in Context with Multimodal Large Language Models ( http://arxiv.org/abs/2310.02992v3 )

ライセンス: Link先を確認
Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei, (参考訳) 被写体駆動画像生成の最近の進歩は、大きな進歩をもたらした。 しかし、現在のメソッドはテスト時のチューニングが必要であり、インターリーブされたマルチイメージやテキスト入力を受け入れることができないため、さまざまなアプリケーションシナリオでは依然として不足している。 これらの制限は、「画像生成における外国語としてのイメージ」という最終的な目標から遠ざかっている。 本稿では,Multimodal Large Language Models (MLLM) の高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。 提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。 Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。 特に、スコア蒸留指示チューニングでは、画像デコーダの変更は不要である。 これにより、CLIPのシームレスな置換と、きめ細かいコントロールからパーソナライズされたイメージデコーダまで、数多くのU-Net技術との統合が可能になる。 我々は、コスモスGを「画像生成における外国語としてのイメージ」という目標に向けた最初の試みとしている。 コードはhttps://aka.ms/Kosmos-Gで確認できる。

Recent advancements in subject-driven image generation have made significant strides. However, current methods still fall short in diverse application scenarios, as they require test-time tuning and cannot accept interleaved multi-image and text input. These limitations keep them far from the ultimate goal of "image as a foreign language in image generation." This paper presents Kosmos-G, a model that leverages the advanced multimodal perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates an impressive capability of zero-shot subject-driven generation with interleaved multi-image and text input. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation." The code can be found at https://aka.ms/Kosmos-G
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# ZeroSwap: DeFiにおけるデータ駆動型最適市場

ZeroSwap: Data-driven Optimal Market Making in DeFi ( http://arxiv.org/abs/2310.09413v2 )

ライセンス: Link先を確認
Viraj Nadkarni, Jiachen Hu, Ranvir Rana, Chi Jin, Sanjeev Kulkarni, Pramod Viswanath, (参考訳) AMM(Automated Market Makers)は、分散金融における流動性供給と需要に合致する主要なセンターである。 彼らの機能は主に、資産を流動性プールに投資するインセンティブを得た流動性提供者(LP)の存在に依存している。 しかし、プールされた資産が取引される価格は、中央集権的・流動的な取引所の価格よりも安定していることが多い。 これによりLPは仲裁に苦しむことになる。 この問題は、グロステンとミルグロムの古典的な市場マイクロ構造モデルを通じて捉えられたトレーダーの行動に市場価格を適応させることによって解決される。 本稿では,アセットの外部価格を最適に追跡する,最初の最適ベイズアルゴリズムとモデルフリーなデータ駆動アルゴリズムを提案する。 我々が使用する最適性の概念は、市場メーカの価格にゼロ利益条件を強制するので、ZeroSwapという名前になる。 これにより、市場メーカは、情報トレーダーに損失とノイズトレーダーからの利益のバランスをとることができる。 当社のアプローチのキーとなる特性は、価格異状や損失異状を必要とせず、外部市場価格を見積もることができることです。 これらのアルゴリズムの性能を理論的に保証し、それらの価格提案の安定性と収束を保証し、強化学習理論に独立した関心を持つ。 市場状況の変化に対するアルゴリズムの堅牢性を実証的に実証する。

Automated Market Makers (AMMs) are major centers of matching liquidity supply and demand in Decentralized Finance. Their functioning relies primarily on the presence of liquidity providers (LPs) incentivized to invest their assets into a liquidity pool. However, the prices at which a pooled asset is traded is often more stale than the prices on centralized and more liquid exchanges. This leads to the LPs suffering losses to arbitrage. This problem is addressed by adapting market prices to trader behavior, captured via the classical market microstructure model of Glosten and Milgrom. In this paper, we propose the first optimal Bayesian and the first model-free data-driven algorithm to optimally track the external price of the asset. The notion of optimality that we use enforces a zero-profit condition on the prices of the market maker, hence the name ZeroSwap. This ensures that the market maker balances losses to informed traders with profits from noise traders. The key property of our approach is the ability to estimate the external market price without the need for price oracles or loss oracles. Our theoretical guarantees on the performance of both these algorithms, ensuring the stability and convergence of their price recommendations, are of independent interest in the theory of reinforcement learning. We empirically demonstrate the robustness of our algorithms to changing market conditions.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# MiniZero: Go, Othello, Atari GamesにおけるAlphaZeroとMuZeroの比較分析

MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games ( http://arxiv.org/abs/2310.11305v3 )

ライセンス: Link先を確認
Ti-Rong Wu, Hung Guei, Pei-Chiun Peng, Po-Wei Huang, Ting Han Wei, Chung-Chin Shih, Yun-Jui Tsai, (参考訳) 本稿では,AlphaZero,MuZero,Gumbel AlphaZero,Gumbel MuZeroの4つの最先端アルゴリズムをサポートするゼロ知識学習フレームワークであるMiniZeroを提案する。 これらのアルゴリズムは多くのゲームで超人的性能を示しているが、どのアルゴリズムが特定のタスクに最も適しているか、それとも効率的かは定かではない。 MiniZeroを用いて,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を体系的に評価した。 2つのボードゲームでは、より多くのシミュレーションを使用することでパフォーマンスが向上する。 しかし、AlphaZero と MuZero の選択はゲームの性質によって異なる可能性がある。 Atariのゲームでは、MuZeroとGumbel MuZeroの両方が検討に値する。 各ゲームに固有の特徴があるため、異なるアルゴリズムとシミュレーションが様々な結果をもたらす。 さらに,より効率的に計算を割り当てるため,訓練中のシミュレーション予算を漸進的に増加させるプログレッシブ・シミュレーションという手法を導入する。 実験により,2つのボードゲームにおいて,プログレッシブ・シミュレーションが大幅に優れた性能を発揮することを示す。 本稿では,このフレームワークと訓練されたモデルを一般公開することによって,ゼロ知識学習アルゴリズムの今後の研究のベンチマークに寄与し,アルゴリズムの選択と,これらのゼロ知識学習ベースラインとの比較を支援する。 私たちのコードとデータはhttps://rlg.iis.sinica.edu.tw/papers/minizeroで公開されています。

This paper presents MiniZero, a zero-knowledge learning framework that supports four state-of-the-art algorithms, including AlphaZero, MuZero, Gumbel AlphaZero, and Gumbel MuZero. While these algorithms have demonstrated super-human performance in many games, it remains unclear which among them is most suitable or efficient for specific tasks. Through MiniZero, we systematically evaluate the performance of each algorithm in two board games, 9x9 Go and 8x8 Othello, as well as 57 Atari games. For two board games, using more simulations generally results in higher performance. However, the choice of AlphaZero and MuZero may differ based on game properties. For Atari games, both MuZero and Gumbel MuZero are worth considering. Since each game has unique characteristics, different algorithms and simulations yield varying results. In addition, we introduce an approach, called progressive simulation, which progressively increases the simulation budget during training to allocate computation more efficiently. Our empirical results demonstrate that progressive simulation achieves significantly superior performance in two board games. By making our framework and trained models publicly available, this paper contributes a benchmark for future research on zero-knowledge learning algorithms, assisting researchers in algorithm selection and comparison against these zero-knowledge learning baselines. Our code and data are available at https://rlg.iis.sinica.edu.tw/papers/minizero.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# テンソル化パウリ分解アルゴリズム

Tensorized Pauli decomposition algorithm ( http://arxiv.org/abs/2310.13421v3 )

ライセンス: Link先を確認
Lukas Hantzko, Lennart Binkowski, Sabhyata Gupta, (参考訳) 本稿では,コストのかかる行列乗算よりも行列スライシングと加算を併用した,パウリ分解のための新しい汎用アルゴリズムを提案する。 より詳細な複雑性解析では、このアルゴリズムは最もよく知られた最悪のスケーリングと、多くの実例でより好ましいランタイムを認めている。 量子コンピューティングと量子化学シミュレーションの領域において、アルゴリズムが潜在的に有意であることを示すため、小さなインスタンスサイズで既に漸近的なスピードアップを検証するための数値実験が提供されている。

This paper introduces a novel general-purpose algorithm for Pauli decomposition that employs matrix slicing and addition rather than expensive matrix multiplication, significantly accelerating the decomposition of multi-qubit matrices. In a detailed complexity analysis, we show that the algorithm admits the best known worst-case scaling and more favorable runtimes for many practical examples. Numerical experiments are provided to validate the asymptotic speed-up already for small instance sizes, underscoring the algorithm's potential significance in the realm of quantum computing and quantum chemistry simulations.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-26
# 時間優先による自己注意: 時間短縮からもっと学べるか?

Self Attention with Temporal Prior: Can We Learn More from Arrow of Time? ( http://arxiv.org/abs/2310.18932v2 )

ライセンス: Link先を確認
Kyung Geun Kim, Byeong Tak Lee, (参考訳) 自然界における多くの多様な現象は、特に時間の流れの方向から生じる短期的および長期的依存関係の両方を本質的にエンコードする。 この点に関して、より近い時間スタンプでは、これらの事象の相互関係がより高いことを示す実験的証拠が発見された。 しかし、注意に基づくモデルでこれらの規則を短期的な依存関係で学習するためには、大量のデータが必要である。 これは、断片的な時間的依存を学ぶのに長けているが、注意に基づくモデルは時系列のバイアスをエンコードする構造を欠いているためである。 そこで本研究では,学習可能な適応型カーネルをアテンション行列に直接適用することにより,これらのデータセットの短期的時間的バイアスをよりよく符号化する,シンプルで効率的な手法を提案する。 我々はElectronic Health Records(EHR)データセットを用いた実験の様々な予測タスクを選択した。 本実験は,ほとんどのタスクやデータセットにおいて,最高の性能を示すモデルと比較して,例外的な分類結果を示す。

Many diverse phenomena in nature often inherently encode both short- and long-term temporal dependencies, which especially result from the direction of the flow of time. In this respect, we discovered experimental evidence suggesting that interrelations of these events are higher for closer time stamps. However, to be able for attention-based models to learn these regularities in short-term dependencies, it requires large amounts of data, which are often infeasible. This is because, while they are good at learning piece-wise temporal dependencies, attention-based models lack structures that encode biases in time series. As a resolution, we propose a simple and efficient method that enables attention layers to better encode the short-term temporal bias of these data sets by applying learnable, adaptive kernels directly to the attention matrices. We chose various prediction tasks for the experiments using Electronic Health Records (EHR) data sets since they are great examples with underlying long- and short-term temporal dependencies. Our experiments show exceptional classification results compared to best-performing models on most tasks and data sets.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 進化的最適化としての大規模言語モデル

Large Language Models as Evolutionary Optimizers ( http://arxiv.org/abs/2310.19046v3 )

ライセンス: Link先を確認
Shengcai Liu, Caishun Chen, Xinghua Qu, Ke Tang, Yew-Soon Ong, (参考訳) 進化的アルゴリズム(EA)は複雑な組合せ最適化問題に取り組むことに成功している。 しかし、EAはよく、ドメインの専門知識の助けを借りて慎重に設計されたオペレーターに、満足なパフォーマンスを達成するよう要求する。 本研究では,大規模言語モデル (LLM) を進化的組合せ最適化器として初めて研究する。 主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。 このアプローチはLLM駆動EA(LMEA)と呼ばれる。 具体的には、進化探索の各世代において、LMEAはLLMに現在の個体群から親溶液を選択し、交叉と突然変異を行い、子孫溶液を生成するように指示する。 そして、LMEAはこれらの新しいソリューションを評価し、それらを次世代の人口に含めます。 LMEAはLLMの温度を制御する自己適応機構を備えている。 これにより、探索とエクスプロイトのバランスを保ち、探索が局所的な最適化で行き詰まるのを防ぐことができる。 組合せ最適化研究に広く用いられている古典的旅行セールスマン問題(TSP)に対するLMEAの力について検討する。 特に、LMEAは、最大20ノードのTSPインスタンス上で高品質なソリューションを見つける際に、従来のヒューリスティックと競争的に機能することを示した。 さらに,LLMによるクロスオーバー/ミューテーションの有効性と,進化探索における自己適応機構についても検討した。 結論として, 組合せ問題を解くための進化的最適化手法として, LLMが持つ大きな可能性を明らかにした。 我々の研究は、複雑な最適化課題に対するLLM駆動型EAの今後の探索を刺激することを期待します。

Evolutionary algorithms (EAs) have achieved remarkable success in tackling complex combinatorial optimization problems. However, EAs often demand carefully-designed operators with the aid of domain expertise to achieve satisfactory performance. In this work, we present the first study on large language models (LLMs) as evolutionary combinatorial optimizers. The main advantage is that it requires minimal domain knowledge and human efforts, as well as no additional training of the model. This approach is referred to as LLM-driven EA (LMEA). Specifically, in each generation of the evolutionary search, LMEA instructs the LLM to select parent solutions from current population, and perform crossover and mutation to generate offspring solutions. Then, LMEA evaluates these new solutions and include them into the population for the next generation. LMEA is equipped with a self-adaptation mechanism that controls the temperature of the LLM. This enables it to balance between exploration and exploitation and prevents the search from getting stuck in local optima. We investigate the power of LMEA on the classical traveling salesman problems (TSPs) widely used in combinatorial optimization research. Notably, the results show that LMEA performs competitively to traditional heuristics in finding high-quality solutions on TSP instances with up to 20 nodes. Additionally, we also study the effectiveness of LLM-driven crossover/mutation and the self-adaptation mechanism in evolutionary search. In summary, our results reveal the great potentials of LLMs as evolutionary optimizers for solving combinatorial problems. We hope our research shall inspire future explorations on LLM-driven EAs for complex optimization challenges.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# ギャップを埋める: 公共セクターにおけるML対応意思決定のための拡張ツールキットを目指して

Bridging the Gap: Towards an Expanded Toolkit for ML-Supported Decision-Making in the Public Sector ( http://arxiv.org/abs/2310.19091v2 )

ライセンス: Link先を確認
Unai Fischer-Abaigar, Christoph Kern, Noam Barda, Frauke Kreuter, (参考訳) 機械学習(ML)システムは、刑事司法、社会福祉、金融詐欺検出、公衆衛生などの分野にまたがる、公共セクターにおいて重要な存在になりつつある。 これらのシステムは、効率改善や信頼性向上など、制度的な意思決定プロセスに大きなメリットをもたらすが、MLモデルで必要とされる厳密な形式化要件と、曖昧な政策目標を整合させるという課題に直面している。 本稿では,政策目標とMLモデルの相違が一般的である重要な技術的課題の包括的概要を提示することにより,MLモデル要件と公共セクター意思決定のギャップを埋めることを目的とする。 我々は、モデルと運用環境を接続するMLパイプラインの要点に集中し、代表的トレーニングデータの重要性について議論し、効果的な意思決定を容易にするモデルセットアップの重要性を強調します。 さらに、これらの課題を、因果ML、ドメイン適応、不確実性定量化、多目的最適化を含む、新たな方法論の進歩と結びつけ、MLと公共セクターの目的を調和させるための道筋を示す。

Machine Learning (ML) systems are becoming instrumental in the public sector, with applications spanning areas like criminal justice, social welfare, financial fraud detection, and public health. While these systems offer great potential benefits to institutional decision-making processes, such as improved efficiency and reliability, they still face the challenge of aligning nuanced policy objectives with the precise formalization requirements necessitated by ML models. In this paper, we aim to bridge the gap between ML model requirements and public sector decision-making by presenting a comprehensive overview of key technical challenges where disjunctions between policy goals and ML models commonly arise. We concentrate on pivotal points of the ML pipeline that connect the model to its operational environment, discussing the significance of representative training data and highlighting the importance of a model setup that facilitates effective decision-making. Additionally, we link these challenges with emerging methodological advancements, encompassing causal ML, domain adaptation, uncertainty quantification, and multi-objective optimization, illustrating the path forward for harmonizing ML and public sector objectives.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# クラスタリングの観点からのエントロピーに基づくテスト時間適応の改善

Improving Entropy-Based Test-Time Adaptation from a Clustering View ( http://arxiv.org/abs/2310.20327v6 )

ライセンス: Link先を確認
Guoliang Lin, Hanjiang Lai, Yan Pan, Jian Yin, (参考訳) ドメインシフトは、トレーニングデータとテストデータが異なるデータ分布に従う現実的な世界で一般的な問題である。 この問題に対処するために、完全なテスト時間適応(TTA)は、テスト時間中に遭遇したラベルのないデータを活用してモデルを適応させる。 特に,テストサンプルにおける予測のエントロピーを最小化するエントロピーベースのTTA(EBTTA)法は,大きな成功を収めている。 本稿では,EBTTAにおけるクラスタリングの視点について紹介する。 これは反復アルゴリズムである。 1) 課題段階では、EBTTAモデルの前方プロセスは、これらの試験サンプルのラベルの割り当てであり、 2) 更新ステップでは、下位プロセスは、割り当てられたサンプルを通してモデルの更新です。 この新たな視点は、エントロピーの最小化がテスト時間適応にどのように影響するかを探索することを可能にする。 したがって、この観察により、ETTTAの改善を推し進めることができる。 そこでは, ラベル割り当て, 類似性保存制約, サンプル選択, 勾配の蓄積を明示的に活用するために提案する。 実験結果から,本手法は様々なデータセットに対して一貫した改善が可能であることが示された。 コードは補足材料で提供される。

Domain shift is a common problem in the realistic world, where training data and test data follow different data distributions. To deal with this problem, fully test-time adaptation (TTA) leverages the unlabeled data encountered during test time to adapt the model. In particular, entropy-based TTA (EBTTA) methods, which minimize the prediction's entropy on test samples, have shown great success. In this paper, we introduce a new clustering perspective on the EBTTA. It is an iterative algorithm: 1) in the assignment step, the forward process of the EBTTA models is the assignment of labels for these test samples, and 2) in the updating step, the backward process is the update of the model via the assigned samples. This new perspective allows us to explore how entropy minimization influences test-time adaptation. Accordingly, this observation can guide us to put forward the improvement of EBTTA. We propose to improve EBTTA from the assignment step and the updating step, where robust label assignment, similarity-preserving constraint, sample selection, and gradient accumulation are proposed to explicitly utilize more information. Experimental results demonstrate that our method can achieve consistent improvements on various datasets. Code is provided in the supplementary material.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 時系列セグメンテーションのクレイジング

Raising the ClaSS of Streaming Time Series Segmentation ( http://arxiv.org/abs/2310.20431v3 )

ライセンス: Link先を確認
Arik Ermshaus, Patrick Schäfer, Ulf Leser, (参考訳) 今日、ユビキタスセンサーは、人間、動物、工業、商業、および自然の過程の特性を反映する数値測定の高周波ストリームを出力している。 このようなプロセスにおけるシフト、例えば、外部イベントや内部状態の変化によって引き起こされるgは、記録された信号の変化として表される。 ストリーミング時系列セグメンテーション(STSS)のタスクは、ストリームを観測されたプロセスやエンティティの状態に対応する連続的な可変サイズのセグメントに分割することである。 パーティション演算自体のパフォーマンスは、信号の入力周波数に対処できなければならない。 本稿では,新しい,効率的かつ高精度なSTSSアルゴリズムであるClaSSを紹介する。 ClaSSは、自己教師付き時系列分類を用いて電位分割の均一性を評価し、統計的テストを適用して重要な変化点(CP)を検出する。 2つの大規模なベンチマークと6つの実世界のデータアーカイブを用いた実験の結果、ClaSSは8つの最先端の競合相手よりもはるかに正確であることが判明した。 その空間と時間の複雑さはセグメントサイズとは独立であり、スライディングウィンドウサイズのみに線形である。 また、Apache Flinkストリーミングエンジンでは、平均スループットが毎秒1Kのデータポイントを持つウィンドウオペレータとしてClaSSを提供しています。

Ubiquitous sensors today emit high frequency streams of numerical measurements that reflect properties of human, animal, industrial, commercial, and natural processes. Shifts in such processes, e.g. caused by external events or internal state changes, manifest as changes in the recorded signals. The task of streaming time series segmentation (STSS) is to partition the stream into consecutive variable-sized segments that correspond to states of the observed processes or entities. The partition operation itself must in performance be able to cope with the input frequency of the signals. We introduce ClaSS, a novel, efficient, and highly accurate algorithm for STSS. ClaSS assesses the homogeneity of potential partitions using self-supervised time series classification and applies statistical tests to detect significant change points (CPs). In our experimental evaluation using two large benchmarks and six real-world data archives, we found ClaSS to be significantly more precise than eight state-of-the-art competitors. Its space and time complexity is independent of segment sizes and linear only in the sliding window size. We also provide ClaSS as a window operator with an average throughput of 1k data points per second for the Apache Flink streaming engine.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 日頭電力価格予測のための適応的標準化手法

An adaptive standardisation methodology for Day-Ahead electricity price forecasting ( http://arxiv.org/abs/2311.02610v3 )

ライセンス: Link先を確認
Carlos Sebastián, Carlos E. González-Guillén, Jesús Juan, (参考訳) 電力市場における日頭価格の研究は、時系列予測において最も一般的な問題の一つである。 これまでの研究は、市場の洗練されたダイナミクスを捉えるために、ますます複雑な学習アルゴリズムを使うことに重点を置いてきた。 しかし、複雑さが増大しても大幅な改善が得られないしきい値が存在する。 本研究では,市場において一般的に発生するデータセットシフトの影響を軽減するために,適応標準化を導入することで,代替手法を提案する。 これにより、学習アルゴリズムは、対象変数と説明変数の真の関係を明らかにすることを優先することができる。 文献に記載されていない2つの新しいデータセットを含む5つの異なる市場を調査した。 これらのデータセットは、従来のデータセットが示さない、現在の市場コンテキストをより現実的な表現を提供する。 その結果、文学(LEAR、DNN)において広く受け入れられている学習アルゴリズムを用いて、5つの市場すべてで大幅な改善が示された。 特に,提案手法と文献に提示された方法論を組み合わせることで,最良の結果が得られる。 この大きな進歩は、この分野での新しい研究ラインを明らかにし、予測モデルの性能を高めるための適応変換の可能性を強調している。

The study of Day-Ahead prices in the electricity market is one of the most popular problems in time series forecasting. Previous research has focused on employing increasingly complex learning algorithms to capture the sophisticated dynamics of the market. However, there is a threshold where increased complexity fails to yield substantial improvements. In this work, we propose an alternative approach by introducing an adaptive standardisation to mitigate the effects of dataset shifts that commonly occur in the market. By doing so, learning algorithms can prioritize uncovering the true relationship between the target variable and the explanatory variables. We investigate five distinct markets, including two novel datasets, previously unexplored in the literature. These datasets provide a more realistic representation of the current market context, that conventional datasets do not show. The results demonstrate a significant improvement across all five markets using the widely accepted learning algorithms in the literature (LEAR and DNN). In particular, the combination of the proposed methodology with the methodology previously presented in the literature obtains the best results. This significant advancement unveils new lines of research in this field, highlighting the potential of adaptive transformations in enhancing the performance of forecasting models.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# コミュニティ対応機能によるノードの特性予測

Predicting Properties of Nodes via Community-Aware Features ( http://arxiv.org/abs/2311.04730v2 )

ライセンス: Link先を確認
Bogumił Kamiński, Paweł Prałat, François Théberge, Sebastian Zając, (参考訳) 本稿では、ネットワークのコミュニティ構造に関する情報を用いて、分類タスクの予測能力が高いノードの特徴を定義する方法について述べる。 そのため,コミュニティ対応ノードの機能群を定義し,その特性について検討する。 これらの機能は、大きなグラフであっても効率的に計算できるように設計されている。 コミュニティ対応ノード機能には,古典的ノード機能やノード埋め込み(古典的および構造的)によって完全に復元できない情報が含まれており,ノード分類タスクに価値をもたらすことを示す。 合成および実生活ネットワークにおける様々な分類タスクについて検証する。

This paper shows how information about the network's community structure can be used to define node features with high predictive power for classification tasks. To do so, we define a family of community-aware node features and investigate their properties. Those features are designed to ensure that they can be efficiently computed even for large graphs. We show that community-aware node features contain information that cannot be completely recovered by classical node features or node embeddings (both classical and structural) and bring value in node classification tasks. This is verified for various classification tasks on synthetic and real-life networks.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 楕円対称分布の混合に基づく最大推定とクラスタリングのための非パラメトリック整合性

Nonparametric consistency for maximum likelihood estimation and clustering based on mixtures of elliptically-symmetric distributions ( http://arxiv.org/abs/2311.06108v4 )

ライセンス: Link先を確認
Pietro Coretto, Christian Hennig, (参考訳) 集団バージョンを推定するための楕円対称分布の混合物に対する最大極大推定器の整合性を示し、基礎となる分布$P$は非パラメトリックであり、その推定器が基底となる混合物のクラスに必ずしも属さない。 P$ が十分に分離されているが非パラメトリック分布の混合である場合、推定器の集団バージョンの成分は、よく分離された$P$ の成分に対応することが示される。 このことは、もしこれらのサブポピュレーションが混合モデルが仮定したものと異なるとしても、$P$が十分に分離されたサブポピュレーションを持つ場合のクラスタ分析にそのような推定子を使用するための理論的正当化を与える。

The consistency of the maximum likelihood estimator for mixtures of elliptically-symmetric distributions for estimating its population version is shown, where the underlying distribution $P$ is nonparametric and does not necessarily belong to the class of mixtures on which the estimator is based. In a situation where $P$ is a mixture of well enough separated but nonparametric distributions it is shown that the components of the population version of the estimator correspond to the well separated components of $P$. This provides some theoretical justification for the use of such estimators for cluster analysis in case that $P$ has well separated subpopulations even if these subpopulations differ from what the mixture model assumes.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 解剖学的尺度における深層学習における構造的不確実性:ホワイトマター病変セグメンテーションの分析

Structural-Based Uncertainty in Deep Learning Across Anatomical Scales: Analysis in White Matter Lesion Segmentation ( http://arxiv.org/abs/2311.08931v2 )

ライセンス: Link先を確認
Nataliia Molchanova, Vatsal Raina, Andrey Malinin, Francesco La Rosa, Adrien Depeursinge, Mark Gales, Cristina Granziera, Henning Muller, Mara Graziani, Meritxell Bach Cuadra, (参考訳) 多発性硬化症(MS)患者のMRI(MRI)による白質病変(WML)セグメンテーションの文脈における自動ディープラーニング(DL)ツールの信頼性の指標として不確実性定量化(UQ)を検討する。 本研究は,構造的出力セグメンテーションタスクにおける不確実性の2つの主要な側面に焦点を当てた。 まず、適切な不確実性尺度は、高い不確実性値と誤認する可能性のある予測を示すべきであると仮定する。 第2に、異なる解剖学的尺度(ボクセル、病変、または患者)で不確実性を定量化するメリットについて検討する。 各スケールにおける不確実性は、特定のタイプのエラーと関連していると仮定する。 本研究の目的は,ドメイン内設定とドメイン外設定を別々に分析することで,この関係を確かめることである。 私たちの主要な方法論的貢献は 一 構造的予測の相違から発生した、病変及び患者規模の不確かさの定量化のための新しい尺度の開発 (II) 病変および患者スケールでのUQ評価を容易にするための誤差保持曲線解析フレームワークの拡張。 334人の患者を対象とした多心MRIデータセットの結果, 平均ボキセルスケール不確実性値と比較すると, 病変や患者スケールのモデル誤差をより効果的に把握できることが示された。 We provide the UQ protocol code at https://github.com/Medical-Image-Analysis-Laboratory/MS_WML_uncs。

This paper explores uncertainty quantification (UQ) as an indicator of the trustworthiness of automated deep-learning (DL) tools in the context of white matter lesion (WML) segmentation from magnetic resonance imaging (MRI) scans of multiple sclerosis (MS) patients. Our study focuses on two principal aspects of uncertainty in structured output segmentation tasks. Firstly, we postulate that a good uncertainty measure should indicate predictions likely to be incorrect with high uncertainty values. Second, we investigate the merit of quantifying uncertainty at different anatomical scales (voxel, lesion, or patient). We hypothesize that uncertainty at each scale is related to specific types of errors. Our study aims to confirm this relationship by conducting separate analyses for in-domain and out-of-domain settings. Our primary methodological contributions are (i) the development of novel measures for quantifying uncertainty at lesion and patient scales, derived from structural prediction discrepancies, and (ii) the extension of an error retention curve analysis framework to facilitate the evaluation of UQ performance at both lesion and patient scales. The results from a multi-centric MRI dataset of 334 patients demonstrate that our proposed measures more effectively capture model errors at the lesion and patient scales compared to measures that average voxel-scale uncertainty values. We provide the UQ protocols code at https://github.com/Medical-Image-Analysis-Laboratory/MS_WML_uncs.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 記述論理型文脈における変換器

Transformers in the Service of Description Logic-based Contexts ( http://arxiv.org/abs/2311.08941v3 )

ライセンス: Link先を確認
Angelos Poulis, Eleni Tsalapati, Manolis Koubarakis, (参考訳) 近年のトランスフォーマーモデルの発展は、推論タスクを学習する能力の研究に研究の関心を喚起している。 しかし、この目的のために使われるコンテキストのほとんどは、実際には非常に単純である:少数の論理演算子と量子化器を持つ一階述語論理文の短文(フラグメント)から生成される。 本研究では、記述論理言語 $\mathcal{ALCQ}$ を用いて、自然言語データセット DELTA$_D$ を構築する。 DELTA$_D$は384Kの例を含み、2次元で増加します。 一 深度を推論すること、及び i) 言語的な複雑さ。 このようにして、教師付き微調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について、数発のプロンプトで体系的に検討する。 以上の結果から,DeBERTaをベースとしたモデルでは推論タスクを習得でき,少数のサンプルが提供された場合(9ショット)でもGPTの性能は大幅に向上することが示された。 コードとデータセットをオープンソースにしています。

Recent advancements in transformer-based models have initiated research interests in investigating their ability to learn to perform reasoning tasks. However, most of the contexts used for this purpose are in practice very simple: generated from short (fragments of) first-order logic sentences with only a few logical operators and quantifiers. In this work, we construct the natural language dataset, DELTA$_D$, using the description logic language $\mathcal{ALCQ}$. DELTA$_D$ contains 384K examples, and increases in two dimensions: i) reasoning depth, and ii) linguistic complexity. In this way, we systematically investigate the reasoning ability of a supervised fine-tuned DeBERTa-based model and of two large language models (GPT-3.5, GPT-4) with few-shot prompting. Our results demonstrate that the DeBERTa-based model can master the reasoning task and that the performance of GPTs can improve significantly even when a small number of samples is provided (9 shots). We open-source our code and datasets.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# DeepClean: 魚の対角線を用いたプライバシ感受性重みのリセットによるチープ上の機械学習

DeepClean: Machine Unlearning on the Cheap by Resetting Privacy Sensitive Weights using the Fisher Diagonal ( http://arxiv.org/abs/2311.10448v2 )

ライセンス: Link先を確認
Jiaeli Shi, Najah Ghalyan, Kostis Gourgoulias, John Buford, Sean Moran, (参考訳) 機密データやプライベートデータに基づいてトレーニングされた機械学習モデルは、その情報を不注意に記憶し、リークする可能性がある。 機械学習は、プライバシーを保護するためにモデルウェイトからそのような詳細を遡及的に取り除こうとしている。 本稿では,FIM(Fiher Information Matrix)を応用した軽量なアンラーニングアルゴリズムを提案する。 この分野での以前の作業では、計算コストのかかる完全な再トレーニングや大きな行列の逆変換が必要だった。 我々の重要な洞察は、太さの変化に対するログライリフードの感度を測定するFIMの対角要素は、効果的に忘れるのに十分な情報を含んでいるということである。 具体的には、トレーニング可能なすべての重量に対して、FIM対角線を2つのサブセット -- 保持および忘れるデータ -- で計算する。 この対角表現は、計算を劇的に減らしながら完全なFIMを近似する。 次に、重みを選択的に更新して、機密部分集合の忘れを最大にしつつ、保持部分集合への影響を最小限に抑えます。 実験により、ニューラルネットワークアーキテクチャ全体にわたるトレーニングデータのランダムに選択されたサブセットを、アルゴリズムがうまく忘れることができることが示された。 FIMの対角性を活用することで、我々のアプローチは、実用的なプライバシー上の利点のある機械学習のための解釈可能で軽量で効率的なソリューションを提供する。

Machine learning models trained on sensitive or private data can inadvertently memorize and leak that information. Machine unlearning seeks to retroactively remove such details from model weights to protect privacy. We contribute a lightweight unlearning algorithm that leverages the Fisher Information Matrix (FIM) for selective forgetting. Prior work in this area requires full retraining or large matrix inversions, which are computationally expensive. Our key insight is that the diagonal elements of the FIM, which measure the sensitivity of log-likelihood to changes in weights, contain sufficient information for effective forgetting. Specifically, we compute the FIM diagonal over two subsets -- the data to retain and forget -- for all trainable weights. This diagonal representation approximates the complete FIM while dramatically reducing computation. We then use it to selectively update weights to maximize forgetting of the sensitive subset while minimizing impact on the retained subset. Experiments show that our algorithm can successfully forget any randomly selected subsets of training data across neural network architectures. By leveraging the FIM diagonal, our approach provides an interpretable, lightweight, and efficient solution for machine unlearning with practical privacy benefits.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 視覚受容場に対する一般化されたガウス微分モデルに基づく時空間受容場に対する幾何学的画像変換の下での合同共分散特性

Joint covariance properties under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields ( http://arxiv.org/abs/2311.10543v4 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 自然画像変換が受容野反応に与える影響は、コンピュータビジョンと生物学的ビジョンにおける視覚操作のモデル化に不可欠である。 この点において、視覚階層の最初期の層における幾何学的画像変換に関する共分散特性は、ロバストな画像操作を表現し、より高いレベルで不変な視覚操作を定式化するために不可欠である。 本稿では,空間的スケーリング変換,空間的アフィン変換,ガリレオ変換,時間的スケーリング変換といった構成条件下での結合共分散特性の集合を定義,証明し,異なるタイプの画像変換が相互にどのように相互作用するかを特徴付ける。 ここでは、スケール正規化微分の概念をアフィン正規化微分に拡張し、アフィンガウス核による空間滑らか化に基づいて計算される空間微分の真のアフィン共変特性を得ることができる。 導出された関係は、合成時空間画像変換の下での時空間受容場からの出力と一致するように、受容場のパラメータをどのように変換する必要があるかを示す。 副作用として、異なる幾何学的画像変換の統合結合に対する共同共分散性の証明も、これまで文献で完全に報告されていなかった個々の変換特性の具体的な証明を提供する。 また、導出共分散特性の幾何学的解釈の詳細な理論的解析や、これらの結果の多くの生物学的解釈について概説する。

The influence of natural image transformations on receptive field responses is crucial for modelling visual operations in computer vision and biological vision. In this regard, covariance properties with respect to geometric image transformations in the earliest layers of the visual hierarchy are essential for expressing robust image operations, and for formulating invariant visual operations at higher levels. This paper defines and proves a set of joint covariance properties under compositions of spatial scaling transformations, spatial affine transformations, Galilean transformations and temporal scaling transformations, which make it possible to characterize how different types of image transformations interact with each other and the associated spatio-temporal receptive field responses. In this regard, we also extend the notion of scale-normalized derivatives to affine-normalized derivatives, to be able to obtain true affine-covariant properties of spatial derivatives, that are computed based on spatial smoothing with affine Gaussian kernels. The derived relations show how the parameters of the receptive fields need to be transformed, in order to match the output from spatio-temporal receptive fields under composed spatio-temporal image transformations. As a side effect, the presented proof for the joint covariance property over the integrated combination of the different geometric image transformations also provides specific proofs for the individual transformation properties, which have not previously been fully reported in the literature. The paper also presents an in-depth theoretical analysis of geometric interpretations of the derived covariance properties, as well as outlines a number of biological interpretations of these results.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 拡張駆動原子配列における定常超放射能の破壊

Breakdown of steady-state superradiance in extended driven atomic arrays ( http://arxiv.org/abs/2311.10824v2 )

ライセンス: Link先を確認
Stefan Ostermann, Oriol Rubies-Bigorda, Victoria Zhang, Susanne F. Yelin, (参考訳) 自由空間における個々の原子の厳密な配列をよく制御する最近の進歩は、これらの系の拡張された性質が超放射現象にどのように影響するかを理解することに関心を惹き付けている。 ここでは、双極子-双極子相互作用によって引き起こされる空間依存光シフトと崩壊速度が、コヒーレントに駆動される量子エミッタの配列の定常特性をどのように変化させるかについて、詳細な分析を行う。 我々は定常状態の位相図を特徴づけ、特に定常状態の放射特性に焦点をあてる。 興味深いことに、平等なオール・ツー・オール相互作用の確立されたディックパラダイムから分岐することで、発光特性が著しく変化する。 特に、定常状態のDicke超放射能の指標である粒子数による放射光強度の顕著な2次スケーリングは、完全に抑制され、粒子数による線形スケーリングのみが実現される。 この定常超放射能の崩壊は、超放射能状態だけでなく、亜放射能状態にも出現する余分な散逸チャネルの出現によるものである。 ダイナミックスにおけるサブラジアント暗黒状態のさらなる寄与は、定常状態を達成するのに必要な時間スケールのばらつきにつながる。 これに基づいて、拡張原子アンサンブルの有限時間測定により、理想化されたディックシナリオを忠実に反映した特性が明らかになる。

Recent advances in generating well controlled dense arrangements of individual atoms in free space have generated interest in understanding how the extended nature of these systems influences superradiance phenomena. Here, we provide an in-depth analysis on how space-dependent light-shifts and decay rates induced by dipole-dipole interactions modify the steady-state properties of coherently driven arrays of quantum emitters. We characterize the steady-state phase diagram, with particular focus on the radiative properties in the steady-state. Interestingly, we find that diverging from the well-established Dicke paradigm of equal all-to-all interactions significantly modifies the emission properties. In particular, the prominent quadratic scaling of the radiated light intensity with particle number in the steady-state -- a hallmark of steady-state Dicke superradiance -- is entirely suppressed, resulting in only linear scaling with particle number. We show that this breakdown of steady-state superradiance occurs due to the emergence of additional dissipation channels that populate not only superradiant states but also subradiant ones. The additional contribution of subradiant dark states in the dynamics leads to a divergence in the time scales needed to achieve steady-states. Building on this, we further show that measurements taken at finite times for extended atom ensembles reveal properties closely mirroring the idealized Dicke scenario.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# ChemScraper: 分子ダイアグラム解析のためのPDFグラフィックインストラクションの活用

ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing ( http://arxiv.org/abs/2311.12161v3 )

ライセンス: Link先を確認
Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore, Blake Ocampo, Scott Denmark, Richard Zanibbi, (参考訳) ほとんどの分子図解析器は、ラスタ画像(例えば、PNGs)から化学構造を復元する。 しかし、多くのPDFには、文字、行、ポリゴンの明確な位置と形を示すコマンドが含まれている。 我々は、これらの誕生デジタルPDFプリミティブを入力として利用する新しいパーサを提案する。 解析モデルは高速で正確であり、GPU、光学文字認識(OCR)、ベクトル化を必要としない。 我々は,ラスター画像にアノテートするパーサーを用いて,ラスター画像中の分子を認識するために,新しいマルチタスクニューラルネットワークを訓練する。 SMILESと標準ベンチマークを用いて解析を行い、自動エラーコンパイルをサポートする分子グラフを直接比較し、SMILESによる評価で欠落したエラーを明らかにする新しい評価プロトコルについて述べる。

Most molecular diagram parsers recover chemical structure from raster images (e.g., PNGs). However, many PDFs include commands giving explicit locations and shapes for characters, lines, and polygons. We present a new parser that uses these born-digital PDF primitives as input. The parsing model is fast and accurate, and does not require GPUs, Optical Character Recognition (OCR), or vectorization. We use the parser to annotate raster images and then train a new multi-task neural network for recognizing molecules in raster images. We evaluate our parsers using SMILES and standard benchmarks, along with a novel evaluation protocol comparing molecular graphs directly that supports automatic error compilation and reveals errors missed by SMILES-based evaluation.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-26
# 視覚接地と一般化の促進:視覚言語モデルのためのマルチタスクサイクルトレーニングアプローチ

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models ( http://arxiv.org/abs/2311.12327v2 )

ライセンス: Link先を確認
Xiaoyu Yang, Lijian Xu, Hao Sun, Hongsheng Li, Shaoting Zhang, (参考訳) 視覚接地(VG)は多モード視覚言語モデルにおいて重要な位置を占める。 本研究では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。 参照表現生成(REG)と参照表現理解(REC)のサイクルトレーニングを導入する。 視覚的な位置と参照表現の一貫性を高め、高品質でマルチタスクなVGデータセットの必要性に対処する。 さらに,本モデルでは,VGのマルチタスクが促進され,サイクルトレーニング戦略に寄与する。 RECのマルチタスクは、領域レベルからピクセルレベルまで、参照ボックス検出、参照キーポイント検出、参照イメージセグメンテーションを含む様々な粒度を含んでいる。 REGでは、参照領域分類がターゲットのきめ細かいカテゴリを決定し、参照領域キャプションは包括的な記述を生成する。 一方、全てのタスクがジョイントトレーニングに参加し、シナジスティックに互いに強化し、モデル全体のパフォーマンスを総括的に改善する。 さらに、大規模な言語モデルの能力を活用して、ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に向上させる。 大規模な公開データセットは、ミューティタスクを持つVGにおいて、私たちのモデルの優れた能力を裏付けます。 さらに、その堅牢な一般化を検証するために、ViLaMはオープンセットと少数ショットのシナリオで検証される。 特に医療分野では,クロスドメイン・ロバストな一般化能力を示す。 さらに、VGデータセット、特にマルチタスクにコントリビュートする。 VGにフォーカスしたコミュニティのサポートと奨励のために、データセットとコードの両方を公開しました。

Visual grounding (VG) occupies a pivotal position in multi-modality vision-language models. In this study, we propose ViLaM, a large multi-modality model, that supports multi-tasks of VG using the cycle training strategy, with abundant interaction instructions. The cycle training between referring expression generation (REG) and referring expression comprehension (REC) is introduced. It enhances the consistency between visual location and referring expressions, and addresses the need for high-quality, multi-tasks VG datasets. Moreover, multi-tasks of VG are promoted in our model, contributed by the cycle training strategy. The multi-tasks in REC encompass a range of granularities, from region-level to pixel-level, which include referring bbox detection, referring keypoints detection, and referring image segmentation. In REG, referring region classification determines the fine-grained category of the target, while referring region captioning generates a comprehensive description. Meanwhile, all tasks participate in the joint training, synergistically enhancing one another and collectively improving the overall performance of the model. Furthermore, leveraging the capabilities of large language models, ViLaM extends a wide range of instructions, thereby significantly enhancing its generalization and interaction potentials. Extensive public datasets corroborate the superior capabilities of our model in VG with muti-tasks. Additionally, validating its robust generalization, ViLaM is validated under open-set and few-shot scenarios. Especially in the medical field, our model demonstrates cross-domain robust generalization capabilities. Furthermore, we contribute a VG dataset, especially with multi-tasks. To support and encourage the community focused on VG, we have made both the dataset and our code public: https://github.com/AnonymGiant/ViLaM.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# DAE-Net: きめ細かい形状のコセグメンテーションのためのデフォーミングオートエンコーダ

DAE-Net: Deforming Auto-Encoder for fine-grained shape co-segmentation ( http://arxiv.org/abs/2311.13125v2 )

ライセンス: Link先を確認
Zhiqin Chen, Qimin Chen, Hang Zhou, Hao Zhang, (参考訳) 本稿では,形状コレクションから変形可能な部分テンプレートの集合を学習する,教師なしの3次元形状協調手法を提案する。 ネットワークは,アフィン変換されたテンプレート部品のサブセットによって各形状を構成する。 部分テンプレートの表現力を最大化するために,変形容量に制約を課し,各部分の変形ネットワークを導入し,形状変化の大きい多様な部品のモデリングを可能にする。 また,ローカル・ミニマを効果的に克服するためのトレーニング手法を提案する。 アーキテクチャ上,我々のネットワークは分岐オートエンコーダであり,Voxel形状を入力とし,各部分変換行列,潜時符号および部分存在スコアを生成するCNNエンコーダと,復調損失を定義するための点占有を出力するデコーダを備える。 DAE-Net for Deforming Auto-Encoderとよばれる我々のネットワークは、様々な形状で一貫した細粒度でコンパクトで有意義な部分を生み出す、教師なしの3次元形状のコセグメンテーションを実現することができる。 本研究では,ShapeNet Partデータセット,DFAUST,およびObjaverseの動物サブセットに関する広範な実験を行い,従来の手法よりも優れた性能を示す。 コードとデータはhttps://github.com/czq142857/DAE-Netで公開されている。

We present an unsupervised 3D shape co-segmentation method which learns a set of deformable part templates from a shape collection. To accommodate structural variations in the collection, our network composes each shape by a selected subset of template parts which are affine-transformed. To maximize the expressive power of the part templates, we introduce a per-part deformation network to enable the modeling of diverse parts with substantial geometry variations, while imposing constraints on the deformation capacity to ensure fidelity to the originally represented parts. We also propose a training scheme to effectively overcome local minima. Architecturally, our network is a branched autoencoder, with a CNN encoder taking a voxel shape as input and producing per-part transformation matrices, latent codes, and part existence scores, and the decoder outputting point occupancies to define the reconstruction loss. Our network, coined DAE-Net for Deforming Auto-Encoder, can achieve unsupervised 3D shape co-segmentation that yields fine-grained, compact, and meaningful parts that are consistent across diverse shapes. We conduct extensive experiments on the ShapeNet Part dataset, DFAUST, and an animal subset of Objaverse to show superior performance over prior methods. Code and data are available at https://github.com/czq142857/DAE-Net.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# MAIRA-1:放射線学レポート生成のための大規模マルチモーダルモデル

MAIRA-1: A specialised large multimodal model for radiology report generation ( http://arxiv.org/abs/2311.13668v3 )

ライセンス: Link先を確認
Stephanie L. Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Mercy Ranjit, Anton Schwaighofer, Fernando Pérez-García, Valentina Salvatelli, Shaury Srivastav, Anja Thieme, Noel Codella, Matthew P. Lungren, Maria Teodora Wetscherek, Ozan Oktay, Javier Alvarez-Valle, (参考訳) 胸部X線(CXR)から放射線学的報告を生成するための放射線学固有のマルチモーダルモデルを提案する。 我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。 自然画像上では、マルチモーダルモデルが画像の理解と記述能力を得ることができることが示されている。 提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。 特に、MAIRA-1は、放射線学者によるRadCliQ測定値と、考慮されたすべての語彙指標を大きく改善する。 モデルアウトプットのマニュアルレビューでは、既存の評価プラクティスが捉えていない障害モードを明らかにしながら、生成されたレポートの有望な流速と正確性を示している。 詳細な情報とリソースはプロジェクトのWebサイトにある。

We present a radiology-specific multimodal model for the task for generating radiological reports from chest X-rays (CXRs). Our work builds on the idea that large language model(s) can be equipped with multimodal capabilities through alignment with pre-trained vision encoders. On natural images, this has been shown to allow multimodal models to gain image understanding and description capabilities. Our proposed model (MAIRA-1) leverages a CXR-specific image encoder in conjunction with a fine-tuned large language model based on Vicuna-7B, and text-based data augmentation, to produce reports with state-of-the-art quality. In particular, MAIRA-1 significantly improves on the radiologist-aligned RadCliQ metric and across all lexical metrics considered. Manual review of model outputs demonstrates promising fluency and accuracy of generated reports while uncovering failure modes not captured by existing evaluation practices. More information and resources can be found on the project website: https://aka.ms/maira.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# CAT-DM:拡散モデルによる制御可能な仮想試行

CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model ( http://arxiv.org/abs/2311.18405v2 )

ライセンス: Link先を確認
Jianhao Zeng, Dan Song, Weizhi Nie, Hongshuo Tian, Tongtong Wang, Anan Liu, (参考訳) 画像ベースの仮想試行において,GAN(Generative Adversarial Networks)が研究分野を支配しているが,衣服の不自然な変形やぼやけた生成品質といった問題は解決されていない。 拡散モデルの生成的品質は印象的であるが、制御性を達成することは、仮想試行にそれを適用する際に大きな課題となる。 本稿では,Diffusion Model (CAT-DM) を用いた制御可能な仮想トライオンを提案する。 制御性を高めるために,ControlNet を利用した基本的な拡散型仮想トライオンネットワークを設計し,新たな制御条件を導入し,衣料品画像の特徴抽出を改善する。 加速度の面では、CAT-DMは、事前訓練されたGANベースモデルによって生成される暗黙の分布で逆復調プロセスを開始する。 拡散モデルに基づく従来の試行法と比較して、CAT-DMは、ホップ服のパターンやテクスチャの詳細を保持するだけでなく、生成品質を損なうことなくサンプリング工程を短縮する。 広汎な実験は、よりリアルな画像を作成し、正確に衣料パターンを再現するGAN法と拡散法の両方に対するCAT-DMの優位性を実証している。

Generative Adversarial Networks (GANs) dominate the research field in image-based virtual try-on, but have not resolved problems such as unnatural deformation of garments and the blurry generation quality. While the generative quality of diffusion models is impressive, achieving controllability poses a significant challenge when applying it to virtual try-on and multiple denoising iterations limit its potential for real-time applications. In this paper, we propose Controllable Accelerated virtual Try-on with Diffusion Model (CAT-DM). To enhance the controllability, a basic diffusion-based virtual try-on network is designed, which utilizes ControlNet to introduce additional control conditions and improves the feature extraction of garment images. In terms of acceleration, CAT-DM initiates a reverse denoising process with an implicit distribution generated by a pre-trained GAN-based model. Compared with previous try-on methods based on diffusion models, CAT-DM not only retains the pattern and texture details of the inshop garment but also reduces the sampling steps without compromising generation quality. Extensive experiments demonstrate the superiority of CAT-DM against both GANbased and diffusion-based methods in producing more realistic images and accurately reproducing garment patterns.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# 深部強化学習によるZX線図の最適化

Optimizing ZX-Diagrams with Deep Reinforcement Learning ( http://arxiv.org/abs/2311.18588v2 )

ライセンス: Link先を確認
Maximilian Nägele, Florian Marquardt, (参考訳) ZXダイアグラムは、基本的な量子力学、量子回路最適化、テンソルネットワークシミュレーションなど、量子プロセスを記述するための強力なグラフィカル言語である。 ZX-ダイアグラムの効用は、それらが記述する基礎となる量子過程を変更することなくそれらに適用できる一連の局所変換規則に依存している。 これらのルールは、様々なアプリケーションに対してZX-ダイアグラムの構造を最適化するために利用することができる。 しかし、変換規則の最適列を見つけることは一般にオープンな問題である。 本研究は,ZXダイアグラムと強化学習を組み合わせ,意思決定問題における最適な行動列の探索を目的とした機械学習技術であり,訓練された強化学習エージェントが,欲求戦略やシミュレートされたアニーリングなどの他の最適化手法を大幅に上回ることを示す。 エージェントのポリシを符号化するグラフニューラルネットワークを使用することで、トレーニングフェーズで見られるよりもはるかに大きなダイアグラムへの一般化が可能になる。

ZX-diagrams are a powerful graphical language for the description of quantum processes with applications in fundamental quantum mechanics, quantum circuit optimization, tensor network simulation, and many more. The utility of ZX-diagrams relies on a set of local transformation rules that can be applied to them without changing the underlying quantum process they describe. These rules can be exploited to optimize the structure of ZX-diagrams for a range of applications. However, finding an optimal sequence of transformation rules is generally an open problem. In this work, we bring together ZX-diagrams with reinforcement learning, a machine learning technique designed to discover an optimal sequence of actions in a decision-making problem and show that a trained reinforcement learning agent can significantly outperform other optimization techniques like a greedy strategy or simulated annealing. The use of graph neural networks to encode the policy of the agent enables generalization to diagrams much bigger than seen during the training phase.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# 条件変動拡散モデル

Conditional Variational Diffusion Models ( http://arxiv.org/abs/2312.02246v4 )

ライセンス: Link先を確認
Gabriel della Maggiora, Luis Alberto Croquevielle, Nikita Deshpande, Harry Horsley, Thomas Heinis, Artur Yakimovich, (参考訳) 逆問題とは、工学と科学における重要な課題である観測からパラメータを決定することである。 近年、生成モデル、特に拡散モデルがこの領域で、現実的な解と優れた数学的性質を生み出す能力で人気を集めている。 その成功にもかかわらず、拡散モデルの重大な欠点は、拡散過程の力学を制御する分散スケジュールの選択に対する感度である。 特定のアプリケーションのためにこのスケジュールを微調整することは非常に重要ですが、時間的にコストがかかり、最適な結果が保証されません。 トレーニングプロセスの一環としてスケジュールを学習するための新しいアプローチを提案する。 提案手法は,データに対する確率的条件付けをサポートし,高品質なソリューションを提供し,柔軟性があり,最小限のオーバーヘッドで異なるアプリケーションに適応できることを示す。 このアプローチは、超解像顕微鏡と定量的位相イメージングという2つの非関係の逆問題で検証され、従来の手法と同等または優れた結果と微調整拡散モデルが得られる。 実験によるスケジュールの微調整は、トレーニング中により優れた結果が得られる安定した方法で学習できるので、避けるべきである、と結論付けている。

Inverse problems aim to determine parameters from observations, a crucial task in engineering and science. Lately, generative models, especially diffusion models, have gained popularity in this area for their ability to produce realistic solutions and their good mathematical properties. Despite their success, an important drawback of diffusion models is their sensitivity to the choice of variance schedule, which controls the dynamics of the diffusion process. Fine-tuning this schedule for specific applications is crucial but time-costly and does not guarantee an optimal result. We propose a novel approach for learning the schedule as part of the training process. Our method supports probabilistic conditioning on data, provides high-quality solutions, and is flexible, proving able to adapt to different applications with minimum overhead. This approach is tested in two unrelated inverse problems: super-resolution microscopy and quantitative phase imaging, yielding comparable or superior results to previous methods and fine-tuned diffusion models. We conclude that fine-tuning the schedule by experimentation should be avoided because it can be learned during training in a stable way that yields better results.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# 注意融合による都市域表現学習

Urban Region Representation Learning with Attentive Fusion ( http://arxiv.org/abs/2312.04606v2 )

ライセンス: Link先を確認
Fengze Sun, Jianzhong Qi, Yanchuan Chang, Xiaoliang Fan, Shanika Karunasekera, Egemen Tanin, (参考訳) 関連する都市データソースが増加し、都市部の表現、すなわち埋め込みを学習する新たな機会が生まれている。 埋め込みは、都市部の潜在特性を記述し、都市計画への応用に類似した地域を発見することができる。 既存手法では,各種類の地域特徴データを用いて領域の埋め込みを学習し,学習したすべての領域の埋め込みを融合させて統一された領域埋め込みを生成する。 しかし、これらの研究はしばしば核融合プロセスの重要性を見落としている。 典型的な融合法は、和や結合のような単純な集合に依存し、融合領域の埋め込み内での相関を無視する。 この制限に対処するため,HAFusion という新しいモデルを提案する。 我々のモデルはDAFusionという名前の二重機能減衰核融合モジュールを用いており、これは異なる領域の特徴からの埋め込みを融合させ、各領域の特徴と異なるタイプの領域特徴の間の高次相関を学習する。 DAFusionはジェネリックです - 既存のモデルに統合して、融合プロセスを強化することができます。 さらに,注意モジュールの有効融合能力に動機づけられたHALearningというハイブリッド注意機能学習モジュールを提案し,各タイプの地域特徴からの埋め込み学習を強化する。 3つの実世界のデータセットに対する大規模な実験は、我々のモデルHAFusionが3つの異なる予測タスクで最先端の手法より優れていることを示した。 学習した領域の埋め込みを使用することで、予測精度が最大31%向上する。

An increasing number of related urban data sources have brought forth novel opportunities for learning urban region representations, i.e., embeddings. The embeddings describe latent features of urban regions and enable discovering similar regions for urban planning applications. Existing methods learn an embedding for a region using every different type of region feature data, and subsequently fuse all learned embeddings of a region to generate a unified region embedding. However, these studies often overlook the significance of the fusion process. The typical fusion methods rely on simple aggregation, such as summation and concatenation, thereby disregarding correlations within the fused region embeddings. To address this limitation, we propose a novel model named HAFusion. Our model is powered by a dual-feature attentive fusion module named DAFusion, which fuses embeddings from different region features to learn higher-order correlations between the regions as well as between the different types of region features. DAFusion is generic - it can be integrated into existing models to enhance their fusion process. Further, motivated by the effective fusion capability of an attentive module, we propose a hybrid attentive feature learning module named HALearning to enhance the embedding learning from each individual type of region features. Extensive experiments on three real-world datasets demonstrate that our model HAFusion outperforms state-of-the-art methods across three different prediction tasks. Using our learned region embedding leads to consistent and up to 31% improvements in the prediction accuracy.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# InstructAny2Pix: マルチモーダルインストラクションによるフレキシブルなビジュアル編集

InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following ( http://arxiv.org/abs/2312.06738v3 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover, (参考訳) 視覚画像の生成と編集のためのきめ細かい制御を提供する能力は、コンピュータビジョンとその応用に大きな影響を及ぼす。 従来の研究では、テキストベースのプロンプトによる命令チューニングとマルチモーダル条件付けという2つの方向の制御可能性の拡張について検討されてきた。 しかし、これらの研究は、可制御性を表現するために使われる数および/またはモダリティ入力のタイプについて1つ以上の不自然な仮定を下している。 InstructAny2Pixは、ユーザが音声、画像、テキストを含む命令を使って入力画像を編集できる、フレキシブルなマルチモーダル命令追従システムである。 InstructAny2Pixは、3つのビルディングブロックで構成されており、画像やオーディオなどの様々なモダリティを統一されたラテント空間にエンコードするマルチモーダルエンコーダ、このラテント空間の表現をイメージにデコードすることを学習する拡散モデル、複数の画像やオーディオ部品を含む命令を理解し、所望の出力の条件埋め込みを生成するマルチモーダルLCMである。 さらに,学習効率の向上と生成品質の向上を図るため,LCM出力の視覚的品質を高めるための事前モジュールを付加する。 これらの設計は、我々のシステムの性能に欠かせない。 本システムでは,命令誘導型編集タスクを複数実施できることを実証する。 コードはhttps://github.com/jacklishufan/InstructAny2Pix.gitで公開されている。

The ability to provide fine-grained control for generating and editing visual imagery has profound implications for computer vision and its applications. Previous works have explored extending controllability in two directions: instruction tuning with text-based prompts and multi-modal conditioning. However, these works make one or more unnatural assumptions on the number and/or type of modality inputs used to express controllability. We propose InstructAny2Pix, a flexible multi-modal instruction-following system that enables users to edit an input image using instructions involving audio, images, and text. InstructAny2Pix consists of three building blocks that facilitate this capability: a multi-modal encoder that encodes different modalities such as images and audio into a unified latent space, a diffusion model that learns to decode representations in this latent space into images, and a multi-modal LLM that can understand instructions involving multiple images and audio pieces and generate a conditional embedding of the desired output, which can be used by the diffusion decoder. Additionally, to facilitate training efficiency and improve generation quality, we include an additional refinement prior module that enhances the visual quality of LLM outputs. These designs are critical to the performance of our system. We demonstrate that our system can perform a series of novel instruction-guided editing tasks. The code is available at https://github.com/jacklishufan/InstructAny2Pix.git
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# データベース支援プログラムの解法

Disjunctive Policies for Database-Backed Programs ( http://arxiv.org/abs/2312.10441v2 )

ライセンス: Link先を確認
Amir M. Ahmadian, Matvey Soloviev, Musard Balliu, (参考訳) データベースのセキュリティポリシーを規定する場合、情報の一部が2つの依存関係 P1 または P2 の少なくとも1つに依存するが両方ではないような、解離的依存関係を定式化するのが自然であることが多い。 このような解離的依存関係の形式的意味モデルであるQuantale of Informationは、情報格子の一般化として、Hunt and Sandsによって最近導入された。 本稿では,データベース支援プログラムにおける解離的依存関係の理解に寄与し,静的に解離的セキュリティポリシーを実施するための実践的枠組みを提案する。 そこで本研究では,データベースにおける解離情報の順序付けをキャプチャする,新しいクエリベースの構造であるDeterminacy Quantaleを紹介する。 この構造は、Quantale of Informationに匹敵するクエリベースの構造として理解することができる。 この構造に基づいて,データベース支援プログラムの解離ポリシーをチェックするための音響強制機構を設計する。 このメカニズムは、データベースクエリによる単純な命令型言語に対する型ベースの解析に基づいており、制御フローによる解離の追跡を保ちながら、様々な行および列レベルのデータベースポリシーを柔軟に適合させるのに十分な精度である。 ツールであるDiVerTに実装することで、そのメカニズムを検証し、多くのユースケースでその実現可能性を示す。

When specifying security policies for databases, it is often natural to formulate disjunctive dependencies, where a piece of information may depend on at most one of two dependencies P1 or P2, but not both. A formal semantic model of such disjunctive dependencies, the Quantale of Information, was recently introduced by Hunt and Sands as a generalization of the Lattice of Information. In this paper, we seek to contribute to the understanding of disjunctive dependencies in database-backed programs and introduce a practical framework to statically enforce disjunctive security policies. To that end, we introduce the Determinacy Quantale, a new query-based structure which captures the ordering of disjunctive information in databases. This structure can be understood as a query-based counterpart to the Quantale of Information. Based on this structure, we design a sound enforcement mechanism to check disjunctive policies for database-backed programs. This mechanism is based on a type-based analysis for a simple imperative language with database queries, which is precise enough to accommodate a variety of row- and column-level database policies flexibly while keeping track of disjunctions due to control flow. We validate our mechanism by implementing it in a tool, DiVerT, and demonstrate its feasibility on a number of use cases.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# 複数の2量子ユニタリを持つカット回路

Cutting circuits with multiple two-qubit unitaries ( http://arxiv.org/abs/2312.11638v3 )

ライセンス: Link先を確認
Lukas Schmitt, Christophe Piveteau, David Sutter, (参考訳) 準確率的切断法により、非局所ゲートを局所ゲートの確率混合に置き換えることで、大きな量子回路を小さなサブ回路に分割することができる。 この手法のコストは、カット数で指数関数的にスケールするサンプリングオーバーヘッドである。 ゲート切断の最小コストを決定するとともに,回路間の古典的な通信がサンプリングオーバーヘッドを改善できるかどうかを理解することが重要である。 本研究では,任意の数の2量子ユニタリを切断する最適なサンプリングオーバーヘッドの計算式を導出し,それに対応する分解を行う。 興味深いことに、任意の2ビットのユニタリをひとつに切ることは、それらを個別に切るよりも安価であり、古典的なコミュニケーションはいかなる利点も与えない。 これは、回路内で遠くに配置された複数の非局所ゲートを切断することさえある。

Quasiprobabilistic cutting techniques allow us to partition large quantum circuits into smaller subcircuits by replacing non-local gates with probabilistic mixtures of local gates. The cost of this method is a sampling overhead that scales exponentially in the number of cuts. It is crucial to determine the minimal cost for gate cutting and to understand whether allowing for classical communication between subcircuits can improve the sampling overhead. In this work, we derive a closed formula for the optimal sampling overhead for cutting an arbitrary number of two-qubit unitaries and provide the corresponding decomposition. Interestingly, cutting several arbitrary two-qubit unitaries together is cheaper than cutting them individually and classical communication does not give any advantage. This is even the case when one cuts multiple non-local gates that are placed far apart in the circuit.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# 3D-LFM: Lifting Foundation Model

3D-LFM: Lifting Foundation Model ( http://arxiv.org/abs/2312.11894v2 )

ライセンス: Link先を確認
Mosam Dabhi, Laszlo A. Jeni, Simon Lucey, (参考訳) 3D構造とカメラを2Dランドマークから持ち上げることは、コンピュータビジョンのすべての分野の基礎となっている。 従来の手法は、パースペクティブ-n-Point(PnP)問題のような特定の剛性オブジェクトに限られていたが、ディープラーニングは、ノイズ、オクルージョン、パースペクティブ歪みに対する耐性を持つ広範囲のオブジェクトクラス(例えばC3DPOやPAUL)を再構成する能力を拡張した。 しかし、これらすべての技術は、3Dトレーニングデータ全体にわたる対応を確立するための基本的な必要性によって制限されている。 提案手法は変圧器の固有置換等式を利用して,3次元データインスタンスあたりの点数の変動を管理し,オクルージョンに耐え,未知のカテゴリに一般化する。 2D-3Dリフトタスクベンチマークにおける最先端性能を実証する。 私たちのアプローチは、このような幅広い種類の構造でトレーニングできるので、単に3D Lifting Foundation Model(3D-LFM)と呼びます。

The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3DPO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# FENet: レーン検出のための拡張ネットワーク

FENet: Focusing Enhanced Network for Lane Detection ( http://arxiv.org/abs/2312.17163v5 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong, (参考訳) 人間の運転に焦点を当てたこの研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossなどのネットワークを進化させた。 実験では、均一なアプローチと異なり、重要な距離の細部を強調し、安全性に不可欠なベンチマークと実用的な曲線付き/距離付きレーン認識の精度を著しく向上する。 FENetV1は、ドライバービジョンを模倣する視点認識コンテキストを分離することで、最先端の従来のメトリック性能を達成するが、FENetV2は提案した部分フィールド解析において最も信頼性が高い。 したがって、標準的な全画像の計測値に差分劣化があるにもかかわらず、実用的な車線ナビゲーションにはV2を特に推奨する。 今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。 コードはhttps://github.com/HanyangZhong/FENet.comから入手できる。

Inspired by human driving focus, this research pioneers networks augmented with Focusing Sampling, Partial Field of View Evaluation, Enhanced FPN architecture and Directional IoU Loss - targeted innovations addressing obstacles to precise lane detection for autonomous driving. Experiments demonstrate our Focusing Sampling strategy, emphasizing vital distant details unlike uniform approaches, significantly boosts both benchmark and practical curved/distant lane recognition accuracy essential for safety. While FENetV1 achieves state-of-the-art conventional metric performance via enhancements isolating perspective-aware contexts mimicking driver vision, FENetV2 proves most reliable on the proposed Partial Field analysis. Hence we specifically recommend V2 for practical lane navigation despite fractional degradation on standard entire-image measures. Future directions include collecting on-road data and integrating complementary dual frameworks to further breakthroughs guided by human perception principles. The Code is available at https://github.com/HanyangZhong/FENet.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-26
# LLMトレーニングにおける構造化パッケージングによる長期利用の改善

Structured Packing in LLM Training Improves Long Context Utilization ( http://arxiv.org/abs/2312.17296v5 )

ライセンス: Link先を確認
Konrad Staniszewski, Szymon Tworkowski, Yu Zhao, Sebastian Jaszczur, Henryk Michalewski, Łukasz Kuciński, Piotr Miłoś, (参考訳) 近年の長文大言語モデルの発展は注目されている。 しかし、それらの現実世界のアプリケーションは、しばしば非効率的な文脈情報の使用によって妨げられる。 この研究は、意味的相互依存を高めるためのトレーニングデータの構造化が、文脈利用の最適化に有効な戦略であることを示している。 この目的のために、情報検索手法を用いて、相互に関連のある文書を単一のトレーニングコンテキストに照合することで、トレーニング例を作成する方法であるStructured Packing for Long Context (SPLiCe)を紹介した。 我々はSPLiCeを大規模な3$Bと7$Bのモデルで実証的に検証し、より複雑な改善と下流タスクにおける長期使用率の向上を示す。 注目すべきは、SPLiCeでの比較的短い微調整は、これらのメリットを達成するのに十分であるということだ。 さらに、SPLiCeの包括的な研究により、コードデータのトレーニングなどの興味深い転送効果が、テキストデータの難易度改善につながっていることが明らかになった。

Recent developments in long-context large language models have attracted considerable attention. Yet, their real-world applications are often hindered by ineffective context information use. This work shows that structuring training data to increase semantic interdependence is an effective strategy for optimizing context utilization. To this end, we introduce Structured Packing for Long Context (SPLiCe), a method for creating training examples by using information retrieval methods to collate mutually relevant documents into a single training context. We empirically validate SPLiCe on large $3$B and $7$B models, showing perplexity improvements and better long-context utilization on downstream tasks. Remarkably, already relatively short fine-tuning with SPLiCe is enough to attain these benefits. Additionally, the comprehensive study of SPLiCe reveals intriguing transfer effects such as training on code data leading to perplexity improvements on text data.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# GazeCLIP: テキストガイダンスによる視線推定の強化を目指す

GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance ( http://arxiv.org/abs/2401.00260v3 )

ライセンス: Link先を確認
Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Huachun Li, Jun Zhou, (参考訳) 過去10年間で、広範囲にわたる応用シナリオのために、視覚的な視線推定が研究コミュニティ内で注目を集めている。 既存の推定手法は予測精度の向上に成功しているが、主に単一画像信号からの視線を推定し、現在支配的なテキストガイダンスの潜在的な利点を無視している。 特に、画像合成や操作、大規模コントラスト言語-画像事前学習(CLIP)モデルの顕著な伝達性を活用するなど、視覚的言語協調は様々な視覚的タスクで広く研究されている。 それでも、既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落とし、性能の後退をもたらす。 このギャップに対処するため、我々はテキスト・アイ・コラボレーション・プロトコルを深く掘り下げ、GazeCLIPという新しい視線推定フレームワークを導入しました。 具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。 また、視線推定のためのテキスト-アイ対を特徴付けるCLIPベースのバックボーンを提示する。 これに続いて、不均一な入力間の相互関係をモデル化することを目的とした、きめ細かいマルチモーダル融合モジュールが実装された。 3つの挑戦的なデータセットに対する大規模な実験は、最先端の精度を達成するための提案されたGazeCLIPの優位性を示している。

Over the past decade, visual gaze estimation has garnered increasing attention within the research community, owing to its wide-ranging application scenarios. While existing estimation approaches have achieved remarkable success in enhancing prediction accuracy, they primarily infer gaze from single-image signals, neglecting the potential benefits of the currently dominant text guidance. Notably, visual-language collaboration has been extensively explored across various visual tasks, such as image synthesis and manipulation, leveraging the remarkable transferability of large-scale Contrastive Language-Image Pre-training (CLIP) model. Nevertheless, existing gaze estimation approaches overlook the rich semantic cues conveyed by linguistic signals and the priors embedded in CLIP feature space, thereby yielding performance setbacks. To address this gap, we delve deeply into the text-eye collaboration protocol and introduce a novel gaze estimation framework, named GazeCLIP. Specifically, we intricately design a linguistic description generator to produce text signals with coarse directional cues. Additionally, a CLIP-based backbone that excels in characterizing text-eye pairs for gaze estimation is presented. This is followed by the implementation of a fine-grained multi-modal fusion module aimed at modeling the interrelationships between heterogeneous inputs. Extensive experiments on three challenging datasets demonstrate the superiority of the proposed GazeCLIP which achieves the state-of-the-art accuracy.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# 単純群集検出のための単純錯体の量子ウォーク

Quantum walk on simplicial complexes for simplicial community detection ( http://arxiv.org/abs/2401.00699v3 )

ライセンス: Link先を確認
Euijun Song, (参考訳) 量子ウォークは量子情報処理における変換パラダイムとして登場し、様々なグラフ問題に適用できる。 本研究では、グラフ構造の高次一般化である単体錯体上の離散時間量子ウォークについて検討する。 単純複体(Simplicial Complex)は、単純化によって高次相互作用を符号化し、複雑なシステムのよりリッチな位相表現を提供する。 従来のランダムウォークではコミュニティ構造を直接検出できないため、単純コミュニティと呼ばれる高次コミュニティ構造を検出する量子ウォークアルゴリズムを提案する。 我々はフーリエ硬貨を用いて、単純な複体において隣接する単体間の絡み合った翻訳状態を生成する。 我々の量子アルゴリズムのポテンシャルは、ザカリーの空手部ネットワークでテストされている。 この研究は、代数トポロジーと量子ウォークアルゴリズムの交点における複雑なシステムを理解することに寄与するかもしれない。

Quantum walks have emerged as a transformative paradigm in quantum information processing and can be applied to various graph problems. This study explores discrete-time quantum walks on simplicial complexes, a higher-order generalization of graph structures. Simplicial complexes, encoding higher-order interactions through simplices, offer a richer topological representation of complex systems. Since the conventional classical random walk cannot directly detect community structures, we present a quantum walk algorithm to detect higher-order community structures called simplicial communities. We utilize the Fourier coin to produce entangled translation states among adjacent simplices in a simplicial complex. The potential of our quantum algorithm is tested on Zachary's karate club network. This study may contribute to understanding complex systems at the intersection of algebraic topology and quantum walk algorithms.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# テンソル畳み込みニューラルネットワークを用いた製造における欠陥検出の高速化

Boosting Defect Detection in Manufacturing using Tensor Convolutional Neural Networks ( http://arxiv.org/abs/2401.01373v2 )

ライセンス: Link先を確認
Pablo Martin-Ramiro, Unai Sainz de la Maza, Sukhbinder Singh, Roman Orus, Samuel Mugel, (参考訳) 欠陥検出は製造業における品質管理の段階において最も重要かつ困難な課題の1つである。 本研究では,T-CNN(Tensor Convolutional Neural Network)を導入し,ロバート・ボッシュの工場で製造された超音波センサのコンポーネントの1つにおいて,実際の欠陥検出アプリケーションの性能について検討する。 我々の量子インスパイアされたT-CNNは、精度を犠牲にすることなく、等価なCNNモデルのトレーニング速度と性能を大幅に向上するために、縮小されたモデルパラメータ空間で動作する。 より具体的には、T-CNNが、品質指標によって測定された古典的なCNNと同じパフォーマンスに到達できることを示し、パラメータの最大15倍、トレーニング時間が4%から19%速くなった。 以上の結果から,T-CNNは従来の人間の視覚検査の結果を大きく上回り,製造における実際の応用に価値をもたらすことが示された。

Defect detection is one of the most important yet challenging tasks in the quality control stage in the manufacturing sector. In this work, we introduce a Tensor Convolutional Neural Network (T-CNN) and examine its performance on a real defect detection application in one of the components of the ultrasonic sensors produced at Robert Bosch's manufacturing plants. Our quantum-inspired T-CNN operates on a reduced model parameter space to substantially improve the training speed and performance of an equivalent CNN model without sacrificing accuracy. More specifically, we demonstrate how T-CNNs are able to reach the same performance as classical CNNs as measured by quality metrics, with up to fifteen times fewer parameters and 4% to 19% faster training times. Our results demonstrate that the T-CNN greatly outperforms the results of traditional human visual inspection, providing value in a current real application in manufacturing.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# PythonSaga: LLMを生成するためのベンチマークを再定義

PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM ( http://arxiv.org/abs/2401.03855v3 )

ライセンス: Link先を確認
Ankit Yadav, Mayank Singh, (参考訳) 大規模言語モデル(LLM)を使用したコード生成の急増によって、これらのLLM機能を評価するために多くのベンチマークが登場した。 我々はHumanEvalとMBPPの大規模評価を行い、Pythonコード生成の2つの人気のあるベンチマークを行い、その多様性と難易度を分析した。 我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。 さらに、簡単なタスクの頻度を心配し、モデルの性能推定を膨らませる可能性を明らかにする。 これらの制約に対処するため,様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする,PythonSagaという新しいベンチマークを提案する。

Driven by the surge in code generation using large language models (LLMs), numerous benchmarks have emerged to evaluate these LLMs capabilities. We conducted a large-scale human evaluation of HumanEval and MBPP, two popular benchmarks for Python code generation, analyzing their diversity and difficulty. Our findings unveil a critical bias towards a limited set of programming concepts, neglecting most of the other concepts entirely. Furthermore, we uncover a worrying prevalence of easy tasks, potentially inflating model performance estimations. To address these limitations, we propose a novel benchmark, PythonSaga, featuring 185 hand-crafted prompts on a balanced representation of 38 programming concepts across diverse difficulty levels.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# 接合を有するグラフェンナノリボンの有効理論

An Effective Theory for Graphene Nanoribbons with Junctions ( http://arxiv.org/abs/2401.04715v3 )

ライセンス: Link先を確認
Johann Ostmeyer, Lado Razmadze, Evan Berkowitz, Thomas Luu, Ulf-G. Meißner, (参考訳) グラフェンナノリボンは耐故障性量子エレクトロニクスの候補となる。 このシナリオでは、クビットは異なる幅の2つのアームチェアナノリボンによって形成されるハイブリッドリボンの接合に現れる局所化された状態によって実現される。 ハイブリッドナノリボンのエネルギーギャップと局在特性を正確に予測するために, ハイブリッドナノリボンを記述するための強結合アンサッツに基づく有効理論を導出する。 量子モンテカルロシミュレーションを用いて、ハバード相互作用の存在下で有効理論が依然として適用可能であることを示す。 我々は、接合上のよく知られた局所化に加えて、ハイブリッドリボンのセグメントに現れる新しいタイプの「キリマンジャロ」局在化である「フジ」と呼ばれるものを発見した。 幅$N$ および $N+2$ アームチェアナノリボンのハイブリッドにおけるフジ局在は、N\pmod3=1$ の場合に限り対称接合周辺で起こるが、エッジ整列接合が強い局所化を支えないことを示す。 この振る舞いは、現在までの局所化の起源と信じられている位相的$Z_2$不変量に依存するだけでは説明できない。

Graphene nanoribbons are a promising candidate for fault-tolerant quantum electronics. In this scenario, qubits are realised by localised states that can emerge on junctions in hybrid ribbons formed by two armchair nanoribbons of different widths. We derive an effective theory based on a tight-binding ansatz for the description of hybrid nanoribbons and use it to make accurate predictions of the energy gap and nature of the localisation in various hybrid nanoribbon geometries. We use quantum Monte Carlo simulations to demonstrate that the effective theory remains applicable in the presence of Hubbard interactions. We discover, in addition to the well known localisations on junctions, which we call `Fuji', a new type of `Kilimanjaro' localisation smeared out over a segment of the hybrid ribbon. We show that Fuji localisations in hybrids of width $N$ and $N+2$ armchair nanoribbons occur around symmetric junctions if and only if $N\pmod3=1$, while edge-aligned junctions never support strong localisation. This behaviour cannot be explained relying purely on the topological $Z_2$ invariant, which has been believed the origin of the localisations to date.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# 非参照画像品質評価モデルの脆弱性探索:クエリに基づくブラックボックス法

Exploring Vulnerabilities of No-Reference Image Quality Assessment Models: A Query-Based Black-Box Method ( http://arxiv.org/abs/2401.05217v3 )

ライセンス: Link先を確認
Chenxi Yang, Yujia Liu, Dingquan Li, Tingting Jiang, (参考訳) No-Reference Image Quality Assessment (NR-IQA) は、プリスタン参照画像に頼ることなく、人間の知覚と整合した画像品質スコアを予測することを目的としており、様々な視覚タスクにおいて重要な要素となっている。 NR-IQA法の堅牢性を保証することは,様々な画像処理技術と一貫したユーザエクスペリエンスの信頼性比較に不可欠である。 NR-IQAの攻撃方法は、NR-IQAの堅牢性をテストする強力な手段を提供する。 しかし、現在のNR-IQAの攻撃方法はNR-IQAモデルの勾配に大きく依存しており、勾配情報が利用できない場合に制限が生じる。 本稿では,NR-IQA法に対するクエリベースのブラックボックス攻撃の先駆的手法を提案する。 スコア境界の概念を提案し、複数のスコア境界を持つ適応的反復的アプローチを利用する。 一方、初期攻撃方向はヒューマン・ビジュアル・システム(HVS)の特性を活用するように設計されている。 実験の結果,本手法は従来のブラックボックス手法よりもはるかに優れていることがわかった。 実効的な NR-IQA モデル DBCNN はSpearman の階数相関係数 (SROCC) が 0.6381 に低下し, NR-IQA モデルのブラックボックス攻撃に対する脆弱性を明らかにする。 提案手法はまた、NR-IQAロバスト性をさらに探究するための強力なツールを提供する。

No-Reference Image Quality Assessment (NR-IQA) aims to predict image quality scores consistent with human perception without relying on pristine reference images, serving as a crucial component in various visual tasks. Ensuring the robustness of NR-IQA methods is vital for reliable comparisons of different image processing techniques and consistent user experiences in recommendations. The attack methods for NR-IQA provide a powerful instrument to test the robustness of NR-IQA. However, current attack methods of NR-IQA heavily rely on the gradient of the NR-IQA model, leading to limitations when the gradient information is unavailable. In this paper, we present a pioneering query-based black box attack against NR-IQA methods. We propose the concept of score boundary and leverage an adaptive iterative approach with multiple score boundaries. Meanwhile, the initial attack directions are also designed to leverage the characteristics of the Human Visual System (HVS). Experiments show our method outperforms all compared state-of-the-art attack methods and is far ahead of previous black-box methods. The effective NR-IQA model DBCNN suffers a Spearman's rank-order correlation coefficient (SROCC) decline of 0.6381 attacked by our method, revealing the vulnerability of NR-IQA models to black-box attacks. The proposed attack method also provides a potent tool for further exploration into NR-IQA robustness.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# 大規模言語モデルでは, より均一で, ヒトにみられるバイアスと共存する群が社会に適応する

Large Language Models Portray Socially Subordinate Groups as More Homogeneous, Consistent with a Bias Observed in Humans ( http://arxiv.org/abs/2401.08495v2 )

ライセンス: Link先を確認
Messi H. J. Lee, Jacob M. Montgomery, Calvin K. Lai, (参考訳) 大規模言語モデル(LLM)は日常的に普及しつつあるが、トレーニングデータから受け継がれたバイアスを再現する確率は、依然として懸念されている。 LLMにおける偏見に関する以前の研究は、社会的グループとステレオタイプ的属性の関連に焦点を当てていた。 しかし、このようなシステムが再現できるのは、人間のバイアスの1つの形態のみである。 社会的に支配的な集団よりも社会的に従属する集団の方が同質であると認識される社会心理学現象に類似した,LSMの新たなバイアス形態を考察する。 我々は,最先端のLCMであるChatGPTを交叉群の同一性に関するテキストを生成し,それらのテキストを均一性の尺度で比較した。 私たちは一貫して、ChatGPTがアフリカ系アメリカ人、アジア系アメリカ人、ヒスパニック系アメリカ人を白人よりも同質であると表現し、このモデルが人間の経験の幅が狭い人種的少数派を描写していることを示している。 また、ChatGPTは女性を男性よりも同質であると表現したが、これらの差は小さくなかった。 最後に,性別の影響は人種・民族によって異なっており,アフリカ系とヒスパニック系では男女の影響は一貫していたが,アジア系と白人では一致しなかった。 LLMは, ステレオタイプや差別行動が持続する危険性が低い, グループを表現する傾向が指摘されている。

Large language models (LLMs) are becoming pervasive in everyday life, yet their propensity to reproduce biases inherited from training data remains a pressing concern. Prior investigations into bias in LLMs have focused on the association of social groups with stereotypical attributes. However, this is only one form of human bias such systems may reproduce. We investigate a new form of bias in LLMs that resembles a social psychological phenomenon where socially subordinate groups are perceived as more homogeneous than socially dominant groups. We had ChatGPT, a state-of-the-art LLM, generate texts about intersectional group identities and compared those texts on measures of homogeneity. We consistently found that ChatGPT portrayed African, Asian, and Hispanic Americans as more homogeneous than White Americans, indicating that the model described racial minority groups with a narrower range of human experience. ChatGPT also portrayed women as more homogeneous than men, but these differences were small. Finally, we found that the effect of gender differed across racial/ethnic groups such that the effect of gender was consistent within African and Hispanic Americans but not within Asian and White Americans. We argue that the tendency of LLMs to describe groups as less diverse risks perpetuating stereotypes and discriminatory behavior.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# 教育用大規模言語モデルへの適応 : 基礎的能力・可能性・課題

Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges ( http://arxiv.org/abs/2401.08664v3 )

ライセンス: Link先を確認
Qingyao Li, Lingyue Fu, Weiming Zhang, Xianyu Chen, Jingwei Yu, Wei Xia, Weinan Zhang, Ruiming Tang, Yong Yu, (参考訳) オンライン教育プラットフォームは、インターネットを利用して教育資源を配布し、便利な教育を提供しようとしているが、学生とのリアルタイムコミュニケーションでは不足することが多い。 彼らはしばしば、学生が学習旅行中に遭遇する多様な障害に対処するのに苦労する。 学生が直面する問題の解決は、幅広い教科知識だけでなく、学生の個人的困難を構成するものを理解する能力を必要とするため、従来のディープラーニングモデルにとって重要な課題となる。 従来の機械学習モデルには、学生のパーソナライズされたニーズを理解する能力がないため、難しい。 近年,大規模言語モデル (LLM) の出現は,個々の要求を解釈することによってこの問題を解決する可能性を示唆している。 LLMは様々な分野で成功を収めてきたが、LLMベースの教育システムの構築は、必要な幅広い教育スキルにおいて依然として困難である。 本稿では, 数学, 書記, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観し, 次世代知的教育システム構築の可能性を探究する。 具体的には、各能力について、2つの側面を調べることに重点を置いています。 まず,LLMの現状について,その能力の進歩,人間の能力を超えるか,欠陥が存在するか,などについて検討する。 第2に,本領域におけるLCMの開発手法が一般化可能であるか否か,すなわち,これらの手法が,特異点のみに有効であるのではなく,様々な能力にまたがる強みを持つ総合的な教育スーパーモデルの構築に応用できるかどうかを評価する。

Online education platforms, leveraging the internet to distribute education resources, seek to provide convenient education but often fall short in real-time communication with students. They often struggle to address the diverse obstacles students encounter throughout their learning journey. Solving the problems encountered by students poses a significant challenge for traditional deep learning models, as it requires not only a broad spectrum of subject knowledge but also the ability to understand what constitutes a student's individual difficulties. It's challenging for traditional machine learning models, as they lack the capacity to comprehend students' personalized needs. Recently, the emergence of large language models (LLMs) offers the possibility for resolving this issue by comprehending individual requests. Although LLMs have been successful in various fields, creating an LLM-based education system is still challenging for the wide range of educational skills required. This paper reviews the recently emerged LLM research related to educational capabilities, including mathematics, writing, programming, reasoning, and knowledge-based question answering, with the aim to explore their potential in constructing the next-generation intelligent education system. Specifically, for each capability, we focus on investigating two aspects. Firstly, we examine the current state of LLMs regarding this capability: how advanced they have become, whether they surpass human abilities, and what deficiencies might exist. Secondly, we evaluate whether the development methods for LLMs in this area are generalizable, that is, whether these methods can be applied to construct a comprehensive educational supermodel with strengths across various capabilities, rather than being effective in only a singular aspect.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# ビデオ質問応答のための大規模マルチモーダルモデルによる弱教師付きガウスコントラストグラウンド

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering ( http://arxiv.org/abs/2401.10711v3 )

ライセンス: Link先を確認
Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge, (参考訳) Video Question Answering (VideoQA) は、ビデオで見られる情報に基づいて自然言語の質問に答えることを目的としている。 画像言語理解と推論におけるLMM(Large Multimodal Models)の成功にもかかわらず、ビデオQAは、一様にサンプリングされたフレームを視覚入力として扱うだけでは不十分である。 さらに、既存のVideoQAデータセットには、質問クリティカルなタイムスタンプに対する人間のアノテーションはありません。 そこで本研究では,視覚的入力として質問クリティカルモーメントによる回答を推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。 具体的には、まず質問と回答のペアをイベント記述として融合して、複数のキーフレームをターゲットモーメントと擬似ラベルとして、CLIPモデルの視覚言語アライメント機能によって見つける。 これらの擬似ラベル付き鍵フレームを監視の弱さとして、我々はガウスベースのコントラストグラウンド(GCG)モジュールを考案した。 GCGはビデオの時間構造を特徴付けるために複数のガウス関数を学習し、LMMの視覚的入力である正のモーメントとして質問クリティカルフレームをサンプリングする。 いくつかのベンチマークにおいて、我々のフレームワークの有効性を検証し、従来の最先端手法と比較して大幅に改善した。

Video Question Answering (VideoQA) aims to answer natural language questions based on the information observed in videos. Despite the recent success of Large Multimodal Models (LMMs) in image-language understanding and reasoning, they deal with VideoQA insufficiently, by simply taking uniformly sampled frames as visual inputs, which ignores question-relevant visual clues. Moreover, there are no human annotations for question-critical timestamps in existing VideoQA datasets. In light of this, we propose a novel weakly supervised framework to enforce the LMMs to reason out the answers with question-critical moments as visual inputs. Specifically, we first fuse the question and answer pairs as event descriptions to find multiple keyframes as target moments and pseudo-labels, with the visual-language alignment capability of the CLIP models. With these pseudo-labeled keyframes as additionally weak supervision, we devise a lightweight Gaussian-based Contrastive Grounding (GCG) module. GCG learns multiple Gaussian functions to characterize the temporal structure of the video, and sample question-critical frames as positive moments to be the visual inputs of LMMs. Extensive experiments on several benchmarks verify the effectiveness of our framework, and we achieve substantial improvements compared to previous state-of-the-art methods.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# アクションを視覚的に接続する学習とその効果

Learning to Visually Connect Actions and their Effects ( http://arxiv.org/abs/2401.10805v2 )

ライセンス: Link先を確認
Eric Peh, Paritosh Parmar, Basura Fernando, (参考訳) 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。 CATEは、タスク計画やデモからの学習といった分野に応用できる。 CATEの概念の2つの異なる側面:アクション選択とエフェクト親和性評価(ビデオ理解モデル)。 我々は、異なる定式化が直感的な行動特性をキャプチャする表現を生成することを観察する。 また,アクション選択とエフェクト親和性評価のためのベースラインモデルも設計する。 このタスクの直感的な性質にもかかわらず、モデルが苦しむのを観察し、人間は大きなマージンでそれらを上回ります。 本研究は,映像理解における行動と効果の結合の柔軟性と汎用性を示すとともに,先進的な定式化とモデルの実現を目指して,今後の取り組みの基盤を確立することを目的とする。

In this work, we introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We identify and explore two different aspects of the concept of CATE: Action Selection and Effect-Affinity Assessment, where video understanding models connect actions and effects at semantic and fine-grained levels, respectively. We observe that different formulations produce representations capturing intuitive action properties. We also design various baseline models for Action Selection and Effect-Affinity Assessment. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. The study aims to establish a foundation for future efforts, showcasing the flexibility and versatility of connecting actions and effects in video understanding, with the hope of inspiring advanced formulations and models.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# アンサンブル型量子メモリと単一スピン光子トランスデューサを用いたハイブリッド量子リピータ

Hybrid Quantum Repeaters with Ensemble-based Quantum Memories and Single-spin Photon Transducers ( http://arxiv.org/abs/2401.12395v3 )

ライセンス: Link先を確認
Fenglei Gu, Shankar G Menon, David Maier, Antariksha Das, Tanmoy Chakraborty, Wolfgang Tittel, Hannes Bernien, Johannes Borregaard, (参考訳) 数百キロにわたる信頼性の高い量子通信は、量子インターネットにとって非常に必要な要件である。 光子損失を克服するためには、遠隔ネットワークノード間の量子中継局の配置が必要である。 この目的のために、さまざまな量子ハードウェアが開発されており、各プラットフォームには独自の機会と課題がある。 本稿では、2つの有望なハードウェアプラットフォームをハイブリッド量子リピータアーキテクチャに組み合わせて、コストを削減し、長距離量子通信の性能を高めることを提案する。 我々は、光子と1本のスピンの間で量子情報を伝達できる単一スピン光子変換器とアンサンブルベースの量子メモリを組み合わせることで、大規模な多重化、効率的な光子生成、および通信速度を増幅する量子ロジックを実現する方法について概説する。 特定の例として、ナノフォトニック共振器に結合した1つのルビジウム(Rb)原子が高レートでテレコム可視光子源として機能し、可視光子がサリウムドープ結晶メモリ(Tmメモリ)の記憶に適合し、テレコム光子が低損失ファイバ伝播に適合することを示す。 我々はTmとRbの遷移が互いに共鳴していることを実験的に検証した。 解析の結果,最大9つのリピータ局を用いて,最大625個の記憶モードを持つ2つのTmメモリと4つのRb原子を同時に装備することにより,最大1000kmの距離で1秒間に10個の秘密ビットの量子通信速度に達することができることがわかった。

Reliable quantum communication over hundreds of kilometers is a daunting yet necessary requirement for a quantum internet. To overcome photon loss, the deployment of quantum repeater stations between distant network nodes is necessary. A plethora of different quantum hardware is being developed for this purpose, each platform with its own opportunities and challenges. Here, we propose to combine two promising hardware platforms in a hybrid quantum repeater architecture to lower the cost and boost the performance of long-distance quantum communication. We outline how ensemble-based quantum memories combined with single-spin photon transducers, which can transfer quantum information between a photon and a single spin, can facilitate massive multiplexing, efficient photon generation, and quantum logic for amplifying communication rates. As a specific example, we describe how a single Rubidium (Rb) atom coupled to nanophotonic resonators can function as a high-rate, telecom-visible entangled photon source with the visible photon being compatible with storage in a Thulium-doped crystal memory (Tm-memory) and the telecom photon being compatible with low loss fiber propagation. We experimentally verify that Tm and Rb transitions are in resonance with each other. Our analysis shows that by employing up to 9 repeater stations, each equipped with two Tm-memories capable of holding up to 625 storage modes, along with four single Rb atoms, one can reach a quantum communication rate of about 10 secret bits per second across distances of up to 1000 km.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-26
# イメージアップサンプリング手法の妥当性のベンチマーク

Benchmarking the Fairness of Image Upsampling Methods ( http://arxiv.org/abs/2401.13555v2 )

ライセンス: Link先を確認
Mike Laszkiewicz, Imant Daunhawer, Julia E. Vogt, Asja Fischer, Johannes Lederer, (参考訳) 近年、画像やビデオなどの合成メディアを作成するための深層生成モデルの開発が急速に進んでいる。 日常業務におけるこれらのモデルの実践的応用は注目されているが、その公正性に関する本質的なリスクを評価することは重要である。 本研究では,条件付き生成モデルの性能と公平性をベンチマークする包括的なフレームワークを提案する。 我々は、その公正さと多様性のモデルを評価するために、教師付きフェアネスの指標である$\unicode{x2013}$インスパイアされたメトリクスのセットを開発する。 画像アップサンプリングの特定の応用に焦点を当てて、様々な現代的なアップサンプリング手法をカバーするベンチマークを作成する。 ベンチマークの一環として、FairFaceのサブセットであるUnfairFaceを紹介します。 実験的な研究は、偏りのないトレーニングセットを使用することの重要性を強調し、アルゴリズムがデータセットの不均衡にどのように反応するかを明らかにする。 また,どの手法も統計的に公平で多様な結果が得られないことがわかった。 すべての実験は、提供されたリポジトリを使って再現できます。

Recent years have witnessed a rapid development of deep generative models for creating synthetic media, such as images and videos. While the practical applications of these models in everyday tasks are enticing, it is crucial to assess the inherent risks regarding their fairness. In this work, we introduce a comprehensive framework for benchmarking the performance and fairness of conditional generative models. We develop a set of metrics$\unicode{x2013}$inspired by their supervised fairness counterparts$\unicode{x2013}$to evaluate the models on their fairness and diversity. Focusing on the specific application of image upsampling, we create a benchmark covering a wide variety of modern upsampling methods. As part of the benchmark, we introduce UnfairFace, a subset of FairFace that replicates the racial distribution of common large-scale face datasets. Our empirical study highlights the importance of using an unbiased training set and reveals variations in how the algorithms respond to dataset imbalances. Alarmingly, we find that none of the considered methods produces statistically fair and diverse results. All experiments can be reproduced using our provided repository.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 微分可能なグラフニューラルネットワークシミュレータによる粒界流れの逆解析

Inverse analysis of granular flows using differentiable graph neural network simulator ( http://arxiv.org/abs/2401.13695v3 )

ライセンス: Link先を確認
Yongjin Choi, Krishna Kumar, (参考訳) 地すべりや土砂流などの粒状流の逆問題では, 目標流出プロファイルに基づいて材料パラメータや境界条件を推定する。 これらの逆問題に対する従来の高忠実性シミュレータは計算的に要求され、可能なシミュレーションの数を制限する。 さらに、その微分不可能な性質は、高次元問題における効率で知られている勾配に基づく最適化法を適用できないものにしている。 機械学習ベースのサロゲートモデルは計算効率と微分可能性を提供するが、グラニュラーフローの完全な物理を捉えるのに失敗する低次元の入出力マッピングに依存するため、トレーニングデータ以上の一般化に苦慮することが多い。 本稿では,グラフニューラルネットワークの逆モード自動微分と勾配に基づく最適化を組み合わせることで,新たな微分可能なグラフニューラルネットワークシミュレータ(GNS)を提案する。 GNSは、系をグラフとして表現することで粒度の流れのダイナミクスを学習し、現在の状態から次のステップでグラフの進化を予測する。 差別化可能なGNSは、トレーニングデータを超えた最適化機能を示している。 本研究では, 単パラメータおよび多パラメータ最適化問題に対する逆推定法の有効性を実証し, 目標ランアウト距離に対する材料特性と境界条件の評価と, 地すべりランアウトの制限のためにバッフル位置を設計することを含む。 提案した微分可能GNSフレームワークは、従来の勾配に基づく最適化に対する有限差分法よりも、これらの逆問題に対して桁違いに高速な解を提供する。

Inverse problems in granular flows, such as landslides and debris flows, involve estimating material parameters or boundary conditions based on target runout profile. Traditional high-fidelity simulators for these inverse problems are computationally demanding, restricting the number of simulations possible. Additionally, their non-differentiable nature makes gradient-based optimization methods, known for their efficiency in high-dimensional problems, inapplicable. While machine learning-based surrogate models offer computational efficiency and differentiability, they often struggle to generalize beyond their training data due to their reliance on low-dimensional input-output mappings that fail to capture the complete physics of granular flows. We propose a novel differentiable graph neural network simulator (GNS) by combining reverse mode automatic differentiation of graph neural networks with gradient-based optimization for solving inverse problems. GNS learns the dynamics of granular flow by representing the system as a graph and predicts the evolution of the graph at the next time step, given the current state. The differentiable GNS shows optimization capabilities beyond the training data. We demonstrate the effectiveness of our method for inverse estimation across single and multi-parameter optimization problems, including evaluating material properties and boundary conditions for a target runout distance and designing baffle locations to limit a landslide runout. Our proposed differentiable GNS framework offers an orders of magnitude faster solution to these inverse problems than the conventional finite difference approach to gradient-based optimization.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 運転シーンの映像セマンティックセマンティックセマンティックセグメンテーション

Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes ( http://arxiv.org/abs/2401.15261v2 )

ライセンス: Link先を確認
Diandian Guo, Deng-Ping Fan, Tongyu Lu, Christos Sakaridis, Luc Van Gool, (参考訳) 暗黙的なクロスフレーム対応の推定と高い計算コストは、駆動シーンにおけるビデオセマンティックセグメンテーション(VSS)において長年大きな課題であった。 以前の作業では、これらの問題に対処するために、キーフレーム、フィーチャープロパゲーション、あるいはクロスフレームアテンションが使われていました。 対照的に、我々はより効果的なセグメンテーションのために消滅点(VP)を最初に活用する。 直感的には、VP(つまり車から離れたもの)の近くの物体は識別できない。 さらに、前方カメラ、直線道路、車両の直線前方運動の通常の場合、彼らはVPから時間とともに放射的に遠ざかる傾向にある。 当社の新規で効率的なVSSネットワークであるVPSegは,この2つの静的および動的VPプリエント(Sparse-to-dense feature mining, DenseVP)とVP-guided Motion fusion(MotionVP)を正確に利用する2つのモジュールを組み込んでいる。 MotionVPはVP-guided Motion Estimationを使用し、フレーム間の明示的な対応を確立し、隣接するフレームから最も関連性の高い特徴に対応するのに役立ち、DenseVPはVP周辺の離れた領域の弱いダイナミックな特徴を強化する。 これらのモジュールは、コンテクスト・ディテール・フレームワーク内で動作し、コンテクスト的特徴を異なる入力解像度で高解像度なローカル特徴から分離し、計算コストを削減する。 文脈的特徴と局所的特徴は、最終予測のために文脈的動き注意(CMA)を通して統合される。 Cityscapes と ACDC の2つの一般的な運転セグメンテーションベンチマークに関する大規模な実験では、VPSeg が従来の SOTA 手法より優れており、計算オーバーヘッドはわずかである。

The estimation of implicit cross-frame correspondences and the high computational cost have long been major challenges in video semantic segmentation (VSS) for driving scenes. Prior works utilize keyframes, feature propagation, or cross-frame attention to address these issues. By contrast, we are the first to harness vanishing point (VP) priors for more effective segmentation. Intuitively, objects near VPs (i.e., away from the vehicle) are less discernible. Moreover, they tend to move radially away from the VP over time in the usual case of a forward-facing camera, a straight road, and linear forward motion of the vehicle. Our novel, efficient network for VSS, named VPSeg, incorporates two modules that utilize exactly this pair of static and dynamic VP priors: sparse-to-dense feature mining (DenseVP) and VP-guided motion fusion (MotionVP). MotionVP employs VP-guided motion estimation to establish explicit correspondences across frames and help attend to the most relevant features from neighboring frames, while DenseVP enhances weak dynamic features in distant regions around VPs. These modules operate within a context-detail framework, which separates contextual features from high-resolution local features at different input resolutions to reduce computational costs. Contextual and local features are integrated through contextualized motion attention (CMA) for the final prediction. Extensive experiments on two popular driving segmentation benchmarks, Cityscapes and ACDC, demonstrate that VPSeg outperforms previous SOTA methods, with only modest computational overhead.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 人間とチャットGPT生成会話の言語学的比較

A Linguistic Comparison between Human and ChatGPT-Generated Conversations ( http://arxiv.org/abs/2401.16587v3 )

ライセンス: Link先を確認
Morgan Sandler, Hyesun Choung, Arun Ross, Prabu David, (参考訳) 本研究では,ChatGPT-3.5が生成した19.5K対話を,共感ダイアログデータセットの共用として用いて,人間とLLM生成対話の言語的差異について検討した。 この研究は言語問合せと単語数(LIWC)分析を採用し、ChatGPTが生成した会話と118の言語カテゴリーにおける人間の会話を比較した。 結果は、人間の対話における多様性と信頼性を示しているが、ChatGPTは、社会的プロセス、分析的スタイル、認知、注意的焦点、ポジティブな感情的トーンなどのカテゴリで優れており、近年のLSMの「人間よりも人間の方が多い」という発見を補強している。 しかし,ChatGPTとヒトの対話には有意な差は認められなかった。 ダイアログ埋め込みの分類器解析は、会話における影響の明示的な言及にもかかわらず、感情の価の暗黙的な符号化を示す。 この研究は、2つの独立したチャットボット間の会話の、ChatGPTで生成された新しいデータセットにも貢献している。 本研究は,ChatGPTの言語能力の理解を深め,AI生成偽情報,誤情報,偽情報の検出に重要な人間とLLM生成テキストを区別するための継続的な取り組みについて報告する。

This study explores linguistic differences between human and LLM-generated dialogues, using 19.5K dialogues generated by ChatGPT-3.5 as a companion to the EmpathicDialogues dataset. The research employs Linguistic Inquiry and Word Count (LIWC) analysis, comparing ChatGPT-generated conversations with human conversations across 118 linguistic categories. Results show greater variability and authenticity in human dialogues, but ChatGPT excels in categories such as social processes, analytical style, cognition, attentional focus, and positive emotional tone, reinforcing recent findings of LLMs being "more human than human." However, no significant difference was found in positive or negative affect between ChatGPT and human dialogues. Classifier analysis of dialogue embeddings indicates implicit coding of the valence of affect despite no explicit mention of affect in the conversations. The research also contributes a novel, companion ChatGPT-generated dataset of conversations between two independent chatbots, which were designed to replicate a corpus of human conversations available for open access and used widely in AI research on language modeling. Our findings enhance understanding of ChatGPT's linguistic capabilities and inform ongoing efforts to distinguish between human and LLM-generated text, which is critical in detecting AI-generated fakes, misinformation, and disinformation.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# MEIA: 身体ロボットの現実的なマルチモーダルインタラクションと操作を目指して

MEIA: Towards Realistic Multimodal Interaction and Manipulation for Embodied Robots ( http://arxiv.org/abs/2402.00290v2 )

ライセンス: Link先を確認
Yang Liu, Xinshuai Song, Kaixuan Jiang, Weixing Chen, Jingzhou Luo, Guanbin Li, Liang Lin, (参考訳) 大規模言語モデルの発展に伴い、エンボディド・インテリジェンス(英語版)が注目を集めている。 それにもかかわらず、エンボディドインテリジェンスに関する以前の研究は、通常、視覚的または言語的に、シーンまたは歴史的記憶を一様の方法で符号化しており、それは、モデルの動き計画とエンボディドコントロールとの整合を複雑にしている。 この制限を克服するために、自然言語で表現された高レベルなタスクを実行可能なアクションのシーケンスに変換することができるMultimodal Embodied Interactive Agent (MEIA)を導入する。 具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。 この能力により、MEIAは多様な要件とロボットの能力に基づいて実行可能なアクションプランを生成することができる。 さらに,大規模言語モデルの助けを借りて,動的仮想カフェ環境に基づく具体的質問応答データセットを構築した。 この仮想環境では、ゼロショット学習を通じて複数の大規模モデルを活用し、様々な状況におけるシナリオを慎重に設計し、いくつかの実験を行う。 実験の結果,様々な対話型タスクにおけるMEIAの有望な性能が示された。

With the surge in the development of large language models, embodied intelligence has attracted increasing attention. Nevertheless, prior works on embodied intelligence typically encode scene or historical memory in an unimodal manner, either visual or linguistic, which complicates the alignment of the model's action planning with embodied control. To overcome this limitation, we introduce the Multimodal Embodied Interactive Agent (MEIA), capable of translating high-level tasks expressed in natural language into a sequence of executable actions. Specifically, we propose a novel Multimodal Environment Memory (MEM) module, facilitating the integration of embodied control with large models through the visual-language memory of scenes. This capability enables MEIA to generate executable action plans based on diverse requirements and the robot's capabilities. Furthermore, we construct an embodied question answering dataset based on a dynamic virtual cafe environment with the help of the large language model. In this virtual environment, we conduct several experiments, utilizing multiple large models through zero-shot learning, and carefully design scenarios for various situations. The experimental results showcase the promising performance of our MEIA in various embodied interactive tasks.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 投機的復号化復号法

Decoding Speculative Decoding ( http://arxiv.org/abs/2402.01528v2 )

ライセンス: Link先を確認
Minghao Yan, Saurabh Agarwal, Shivaram Venkataraman, (参考訳) 投機的復号化(英: Speculative Decoding)とは、大規模言語モデル(LLM)の推論を、品質を犠牲にすることなく高速化する手法である。 推論を行う場合、投機的復号化は、より小さなドラフトモデルを使用して投機的トークンを生成し、ターゲットのLSMを使用してそれらの投機的トークンを検証する。 投機的復号化によって提供されるスピードアップは、ドラフトモデルの選択に大きく依存する。 本研究では,LLaMA-65B と OPT-66B を用いて350以上の実験を行い,投機的復号化による性能向上に影響を及ぼす要因を明らかにした。 提案実験により, 投機的復号化の性能は, 投機的復号化の遅延に大きく依存しており, 言語モデルにおけるドラフトモデルの性能は投機的復号化の性能と強く相関しないことがわかった。 これらの知見に基づいて、ドラフトモデルのための新しいデザインスペースと、投機的復号化のためのハードウェア効率の良いドラフトモデルについて検討する。 新たに設計されたLLaMA-65Bのドラフトモデルは、既存のドラフトモデルよりも60%高いスループットを提供し、LLaMA-2モデルファミリと教師付き微調整モデルにさらに一般化することができる。

Speculative Decoding is a widely used technique to speed up inference for Large Language Models (LLMs) without sacrificing quality. When performing inference, speculative decoding uses a smaller draft model to generate speculative tokens and then uses the target LLM to verify those draft tokens. The speedup provided by speculative decoding heavily depends on the choice of the draft model. In this work, we perform a detailed study comprising over 350 experiments with LLaMA-65B and OPT-66B using speculative decoding and delineate the factors that affect the performance gain provided by speculative decoding. Our experiments indicate that the performance of speculative decoding depends heavily on the latency of the draft model, and the draft model's capability in language modeling does not correlate strongly with its performance in speculative decoding. Based on these insights we explore a new design space for draft models and design hardware-efficient draft models for speculative decoding. Our newly designed draft model for LLaMA-65B can provide 60% higher throughput than existing draft models and can generalize further to the LLaMA-2 model family and supervised fine-tuned models.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 微調整大イベントモデルを用いた異なるコンテキストにおけるプレイヤーパフォーマンスの推定

Estimating Player Performance in Different Contexts Using Fine-tuned Large Events Models ( http://arxiv.org/abs/2402.06815v2 )

ライセンス: Link先を確認
Tiago Mendes-Neves, Luís Meireles, João Mendes-Moreira, (参考訳) 本稿では,Large Event Models (LEMs) のサッカー分析分野への応用について紹介する。 サッカーの言語を学ぶことで、言葉ではなく後続のイベントの変数を予測することで、LEMはマッチのシミュレーションを促進し、異なるチームコンテキストにわたるプレイヤーのパフォーマンス予測を含むさまざまなアプリケーションを提供します。 我々は、2017-2018年のプレミアリーグシーズンのWyScoutデータセットを使って、プレーヤーのコントリビューションとチーム戦略に関する具体的な洞察を得るための微調整LEMに焦点を当てている。 提案手法は,これらのモデルを用いてサッカーのニュアンスド・ダイナミクスを反映し,仮説移動の評価を可能にする。 サッカー分析におけるLEMの有効性と限界を確認し,プレミアリーグの異なるチームにCrisティアーノ・ロナルドやライオネル・メッシを移籍させる可能性など,チームの期待する立場を予測し,注目されるシナリオを探索するモデルの能力を強調した。 この分析は、プレイヤーの品質を評価する上での文脈の重要性を浮き彫りにする。 一般的なメトリクスはプレイヤー間で大きな違いを示すかもしれませんが、コンテキスト分析によって特定のチームフレームワーク内のパフォーマンスのギャップが狭くなります。

This paper introduces an innovative application of Large Event Models (LEMs), akin to Large Language Models, to the domain of soccer analytics. By learning the language of soccer - predicting variables for subsequent events rather than words - LEMs facilitate the simulation of matches and offer various applications, including player performance prediction across different team contexts. We focus on fine-tuning LEMs with the WyScout dataset for the 2017-2018 Premier League season to derive specific insights into player contributions and team strategies. Our methodology involves adapting these models to reflect the nuanced dynamics of soccer, enabling the evaluation of hypothetical transfers. Our findings confirm the effectiveness and limitations of LEMs in soccer analytics, highlighting the model's capability to forecast teams' expected standings and explore high-profile scenarios, such as the potential effects of transferring Cristiano Ronaldo or Lionel Messi to different teams in the Premier League. This analysis underscores the importance of context in evaluating player quality. While general metrics may suggest significant differences between players, contextual analyses reveal narrower gaps in performance within specific team frameworks.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 言語によるサッカーの試合イベントの予測

Forecasting Events in Soccer Matches Through Language ( http://arxiv.org/abs/2402.06820v2 )

ライセンス: Link先を確認
Tiago Mendes-Neves, Luís Meireles, João Mendes-Moreira, (参考訳) 本稿では,Large Language Models (LLM) が直面している問題と顕著に類似した課題である,サッカーの試合における次の事象を予測するためのアプローチを提案する。 サッカーにおけるイベントダイナミクスを厳しく制限する他の手法と異なり、多くの変数から抽象化したり、連続したモデルの混合に依存する場合が多いが、本研究では、LLMの手法に触発された新しい手法を提案する。 これらのモデルは、イベントを構成する変数の完全な連鎖を予測し、サッカー用の大型イベントモデル(LEM)の構築を著しく単純化する。 公開されているWyScoutデータセットのディープラーニングを利用することで、提案手法は、次のイベントタイプの予測精度など、重要な領域における以前のLEM提案のパフォーマンスを特に上回る。 本稿では,マッチング予測や解析など,各種アプリケーションにおけるLEMの有用性を強調した。 さらに,LEMは,ユーザが多数の分析パイプラインを構築するためのシミュレーションバックボーンを提供する。 LEMはサッカー分析における重要な進歩であり、単一の機械学習モデルを通じて多面分析パイプラインの基礎となるフレームワークを確立している。

This paper introduces an approach to predicting the next event in a soccer match, a challenge bearing remarkable similarities to the problem faced by Large Language Models (LLMs). Unlike other methods that severely limit event dynamics in soccer, often abstracting from many variables or relying on a mix of sequential models, our research proposes a novel technique inspired by the methodologies used in LLMs. These models predict a complete chain of variables that compose an event, significantly simplifying the construction of Large Event Models (LEMs) for soccer. Utilizing deep learning on the publicly available WyScout dataset, the proposed approach notably surpasses the performance of previous LEM proposals in critical areas, such as the prediction accuracy of the next event type. This paper highlights the utility of LEMs in various applications, including match prediction and analytics. Moreover, we show that LEMs provide a simulation backbone for users to build many analytics pipelines, an approach opposite to the current specialized single-purpose models. LEMs represent a pivotal advancement in soccer analytics, establishing a foundational framework for multifaceted analytics pipelines through a singular machine-learning model.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# Walia-LLM:タスク特化および生成データセットの統合によるAmharic-LLaMAの強化

Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets ( http://arxiv.org/abs/2402.08015v4 )

ライセンス: Link先を確認
Israel Abebe Azime, Atnafu Lambebo Tonja, Tadesse Destaw Belay, Mitiku Yohannes Fuge, Aman Kassahun Wassie, Eyasu Shiferaw Jada, Yonas Chanie, Walelign Tewabe Sewunetie, Seid Muhie Yimam, (参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) 研究において、人間の言語を理解・生成する上での卓越した性能のため、多くの注目を集めている。 しかし、リソースが利用できないため、低リソースの言語は残されたままである。 本研究では,Amharicの言語モデル性能を向上させるために,タスク固有および生成データセットを統合することで,LLaMA-2-Amharicモデルの強化に焦点をあてる。 我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。 微調整されたモデルは、異なるNLPタスクで有望な結果を示す。 我々は、これらのモデルに関する言語固有の研究を促進するために、データセット作成パイプライン、命令データセット、訓練済みモデル、評価アウトプットをオープンソース化した。

Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# マルチエージェントコラボレーションによるフェアネス監査

Fairness Auditing with Multi-Agent Collaboration ( http://arxiv.org/abs/2402.08522v2 )

ライセンス: Link先を確認
Martijn de Vos, Akash Dhasade, Jade Garcia Bourrée, Anne-Marie Kermarrec, Erwan Le Merrer, Benoit Rottembourg, Gilles Tredan, (参考訳) 公正監査における既存の作業は、各監査が独立して実行されることを前提としている。 本稿では,複数のエージェントが協調して作業し,それぞれが異なるタスクに対して同じプラットフォームを監査する。 エージェントは、協調戦略と適切なデータポイントを抽出する戦略の2つのレバーを持っている。 これらのレバーの相互作用を理論的に比較する。 私たちの主な発見は (i)コラボレーションは一般に正確な監査に有用である。 二 基本サンプリング方法が有効であることがしばしば証明され、 3)質問に対する広範囲な調整は,エージェントの数が増加するにつれて,監査の精度が低下することが多い。 3つの大きなデータセットの実験は、我々の理論的結果を確認します。 本研究は,意思決定にMLモデルを使用するプラットフォームの公正度監査において,協調を動機づけるものである。

Existing work in fairness auditing assumes that each audit is performed independently. In this paper, we consider multiple agents working together, each auditing the same platform for different tasks. Agents have two levers: their collaboration strategy, with or without coordination beforehand, and their strategy for sampling appropriate data points. We theoretically compare the interplay of these levers. Our main findings are that (i) collaboration is generally beneficial for accurate audits, (ii) basic sampling methods often prove to be effective, and (iii) counter-intuitively, extensive coordination on queries often deteriorates audits accuracy as the number of agents increases. Experiments on three large datasets confirm our theoretical results. Our findings motivate collaboration during fairness audits of platforms that use ML models for decision-making.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# 一様行動コストを考慮した計算計画について

On Computing Plans with Uniform Action Costs ( http://arxiv.org/abs/2402.09877v2 )

ライセンス: Link先を確認
Alberto Pozanco, Daniel Borrajo, Manuela Veloso, (参考訳) 多くの現実世界の計画アプリケーションでは、エージェントは可能な限り均一なコストで行動する計画を見つけることに興味があるかもしれない。 このような計画はエージェントに安定性と予測可能性を与えるが、これは人間が計画ツールによって提案された計画を実行するエージェントであるときに重要な特徴である。 本稿では,3つの一様性指標を自動計画に適用し,また,行動コストと行動コストの総和を語彙的に最適化する計画ベースのコンパイルを導入する。 良く知られた計画ベンチマークと新しい計画ベンチマークの両方の実験結果は、修正されたタスクを効果的に解決し、一様計画を生成することができることを示している。

In many real-world planning applications, agents might be interested in finding plans whose actions have costs that are as uniform as possible. Such plans provide agents with a sense of stability and predictability, which are key features when humans are the agents executing plans suggested by planning tools. This paper adapts three uniformity metrics to automated planning, and introduce planning-based compilations that allow to lexicographically optimize sum of action costs and action costs uniformity. Experimental results both in well-known and novel planning benchmarks show that the reformulated tasks can be effectively solved in practice to generate uniform plans.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# コンテンツモデレーションの学習:人間とAIの対話

Learning to Defer in Content Moderation: The Human-AI Interplay ( http://arxiv.org/abs/2402.12237v2 )

ライセンス: Link先を確認
Thodoris Lykouris, Wentao Weng, (参考訳) オンラインプラットフォームにおけるコンテンツモデレーションの成功は、人間とAIのコラボレーションアプローチに依存している。 典型的なヒューリスティックは、ポストの予想される有害度を推定し、固定された閾値を使用して、削除するかどうか、人間によるレビューのために送信するかどうかを決定する。 これは、予測の不確実性、人間のレビュー能力とポスト到着の時間変化要素、データセットの選択的サンプリング(入場アルゴリズムでフィルタリングされたレビューポストのみ)を無視している。 本稿では,コンテンツモデレーションにおける人間とAIの相互作用を捉えるモデルを提案する。 このアルゴリズムは、受信した投稿の文脈情報を観察し、分類と入場決定を行い、人的レビューのために投稿をスケジュールする。 許可された投稿だけが、その有害性に関する人間のレビューを受け取っている。 これらのレビューは、機械学習アルゴリズムの教育に役立つが、人間のレビューシステムの混雑により遅れている。 この人間とAIの相互作用を捉えるための古典的な学習理論は、学習のフレームワークを通じて遅延し、アルゴリズムは特定のコストで人間に分類タスクを延期し、即座にフィードバックを受け取るオプションを持つ。 我々のモデルは,人間のレビューシステムに混雑を導入することで,この文献に寄与する。 さらに、フィードバックの遅延がアルゴリズムの判断に外在的である遅延フィードバックによるオンライン学習の作業とは異なり、我々のモデルにおける遅延は入試とスケジュール決定の両方に内在的である。 提案アルゴリズムは,選択されたサンプルデータセットからの分類損失,非レビューポストの慣用的損失,ヒトレビューシステムにおける混雑の遅延損失とを慎重にバランスさせる。 我々の知る限りでは、これは文脈待ち行列システムにおけるオンライン学習の最初の結果であり、分析フレームワークは独立した関心を持つかもしれない。

Successful content moderation in online platforms relies on a human-AI collaboration approach. A typical heuristic estimates the expected harmfulness of a post and uses fixed thresholds to decide whether to remove it and whether to send it for human review. This disregards the prediction uncertainty, the time-varying element of human review capacity and post arrivals, and the selective sampling in the dataset (humans only review posts filtered by the admission algorithm). In this paper, we introduce a model to capture the human-AI interplay in content moderation. The algorithm observes contextual information for incoming posts, makes classification and admission decisions, and schedules posts for human review. Only admitted posts receive human reviews on their harmfulness. These reviews help educate the machine-learning algorithms but are delayed due to congestion in the human review system. The classical learning-theoretic way to capture this human-AI interplay is via the framework of learning to defer, where the algorithm has the option to defer a classification task to humans for a fixed cost and immediately receive feedback. Our model contributes to this literature by introducing congestion in the human review system. Moreover, unlike work on online learning with delayed feedback where the delay in the feedback is exogenous to the algorithm's decisions, the delay in our model is endogenous to both the admission and the scheduling decisions. We propose a near-optimal learning algorithm that carefully balances the classification loss from a selectively sampled dataset, the idiosyncratic loss of non-reviewed posts, and the delay loss of having congestion in the human review system. To the best of our knowledge, this is the first result for online learning in contextual queueing systems and hence our analytical framework may be of independent interest.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# テキスト分類における特殊小・一般大言語モデルの比較:ブレーク・イヴ・パフォーマンス向上のための100個のラベレードサンプル

Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance ( http://arxiv.org/abs/2402.12819v2 )

ライセンス: Link先を確認
Branislav Pecher, Ivan Srba, Maria Bielikova, (参考訳) 限られたラベル付きデータでNLPタスクを解く場合、研究者は、さらなる更新なしに一般的な大きな言語モデルを使用するか、少数のラベル付きサンプルを使用して、特別な小さなモデルをチューニングすることができる。 本研究は, 小型モデルにおいて, 性能のばらつきを考慮しつつ, 一般大規模モデルよりも優れた性能を示すために, ラベル付きサンプルがいくつ必要かという研究ギャップに対処するものである。 7つの言語モデル上での微調整,命令チューニング,プロンプト,テキスト内学習の振る舞いを観察することにより,特徴の異なる8つの代表的なテキスト分類タスクにまたがる,パフォーマンスの欠落点を同定する。 特殊化されたモデルでは、一般的なモデルと同等かそれ以上のサンプル(平均10~1000ドル)をほとんど必要としないことが多い。 同時に、必要なラベルの数は、データセットやタスクの特性に強く依存しており、この数は、バイナリデータセット(最大5000ドル)よりも、マルチクラスデータセット(最大100ドル)で著しく低い。 パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200 %$、特定のケースでは1500 %$まで増加する。

When solving NLP tasks with limited labelled data, researchers can either use a general large language model without further update, or use a small number of labelled examples to tune a specialised smaller model. In this work, we address the research gap of how many labelled samples are required for the specialised small models to outperform general large models, while taking the performance variance into consideration. By observing the behaviour of fine-tuning, instruction-tuning, prompting and in-context learning on 7 language models, we identify such performance break-even points across 8 representative text classification tasks of varying characteristics. We show that the specialised models often need only few samples (on average $10 - 1000$) to be on par or better than the general ones. At the same time, the number of required labels strongly depends on the dataset or task characteristics, with this number being significantly lower on multi-class datasets (up to $100$) than on binary datasets (up to $5000$). When performance variance is taken into consideration, the number of required labels increases on average by $100 - 200\%$ and even up to $1500\%$ in specific cases.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-26
# DEEM: スタンス検出のための動的経験豊富なエキスパートモデリング

DEEM: Dynamic Experienced Expert Modeling for Stance Detection ( http://arxiv.org/abs/2402.15264v3 )

ライセンス: Link先を確認
Xiaolong Wang, Yile Wang, Sijie Cheng, Peng Li, Yang Liu, (参考訳) 最近の研究は、大規模言語モデル(LLM)を用いて姿勢検出タスクを解くための予備的な試みを行い、有望な結果を示している。 しかしながら、姿勢検出は通常詳細な背景知識を必要とするため、バニラ推論法は専門的かつ正確な分析を行うためにドメイン知識を無視する可能性がある。 したがって、LSMの推論を改善する余地は残っており、特にLSMの生成能力を利用して特定の専門家(マルチエージェント)をシミュレートして姿勢を検出する。 本稿では, 詳細な説明を必要とする既存のマルチエージェントワークと異なり, 得られた経験者を利用した動的経験者モデリング(DEEM)手法を提案し, LLMを半パラメトリックな手法で推論し, 専門家をより一般化し信頼性の高いものにする。 実験結果から,DEMは3つの標準ベンチマークにおいて常に最良の結果を得ることができ,自己整合性推論による手法よりも優れ,LCMのバイアスを低減できることがわかった。

Recent work has made a preliminary attempt to use large language models (LLMs) to solve the stance detection task, showing promising results. However, considering that stance detection usually requires detailed background knowledge, the vanilla reasoning method may neglect the domain knowledge to make a professional and accurate analysis. Thus, there is still room for improvement of LLMs reasoning, especially in leveraging the generation capability of LLMs to simulate specific experts (i.e., multi-agents) to detect the stance. In this paper, different from existing multi-agent works that require detailed descriptions and use fixed experts, we propose a Dynamic Experienced Expert Modeling (DEEM) method which can leverage the generated experienced experts and let LLMs reason in a semi-parametric way, making the experts more generalizable and reliable. Experimental results demonstrate that DEEM consistently achieves the best results on three standard benchmarks, outperforms methods with self-consistency reasoning, and reduces the bias of LLMs.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# UniMODE:Unified Monocular 3D Object Detection

UniMODE: Unified Monocular 3D Object Detection ( http://arxiv.org/abs/2402.18573v2 )

ライセンス: Link先を確認
Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao, (参考訳) 屋内と屋外の両方のシーンを含む、統一されたモノクル3Dオブジェクト検出を実現することは、ロボットナビゲーションのようなアプリケーションにおいて非常に重要である。 しかし、トレーニングモデルにデータの様々なシナリオを組み込むことは、例えば、様々な幾何学的性質や不均一な領域分布など、その特性が著しく異なるため、課題を提起する。 これらの課題に対処するため,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。 次に,従来のBEV検出アーキテクチャを2段階に分割し,上記の課題に起因する収束不安定性に対処する不均一なBEVグリッド設計を提案する。 さらに、計算コストを削減するためのスパースなBEV特徴予測戦略と、異種ドメインを扱うための統一されたドメインアライメント手法を開発する。 これらの技術を組み合わせて、統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセット(屋内と屋外の両方を含む大規模なデータセット)を4.9%のAP_3Dで上回った。

Realizing unified monocular 3D object detection, including both indoor and outdoor scenes, holds great importance in applications like robot navigation. However, involving various scenarios of data to train models poses challenges due to their significantly different characteristics, e.g., diverse geometry properties and heterogeneous domain distributions. To address these challenges, we build a detector based on the bird's-eye-view (BEV) detection paradigm, where the explicit feature projection is beneficial to addressing the geometry learning ambiguity when employing multiple scenarios of data to train detectors. Then, we split the classical BEV detection architecture into two stages and propose an uneven BEV grid design to handle the convergence instability caused by the aforementioned challenges. Moreover, we develop a sparse BEV feature projection strategy to reduce computational cost and a unified domain alignment method to handle heterogeneous domains. Combining these techniques, a unified detector UniMODE is derived, which surpasses the previous state-of-the-art on the challenging Omni3D dataset (a large-scale dataset including both indoor and outdoor scenes) by 4.9% AP_3D, revealing the first successful generalization of a BEV detector to unified 3D object detection.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# オブジェクトゴールナビゲーションのための視覚知覚を用いた知識グラフのアライメント

Aligning Knowledge Graph with Visual Perception for Object-goal Navigation ( http://arxiv.org/abs/2402.18892v2 )

ライセンス: Link先を確認
Nuo Xu, Wen Wang, Rong Yang, Mengjie Qin, Zheyuan Lin, Wei Song, Chunlong Zhang, Jason Gu, Chao Li, (参考訳) オブジェクトゴールナビゲーションは、一対一の視覚的観察に基づいてエージェントを特定のオブジェクトに誘導する必要がある難しいタスクである。 エージェントが周囲を理解する能力は、オブジェクト発見を成功させる上で重要な役割を担っている。 しかし、既存のナレッジグラフベースのナビゲータは、しばしば個別のカテゴリの1ホットベクトルと投票カウント戦略に頼り、シーンのグラフ表現を構築する。 より正確でコヒーレントなシーン記述を提供し,このミスアライメント問題に対処するために,オブジェクト指向ナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。 技術的には、階層的なシーンアーキテクチャの連続モデリングを導入し、自然言語記述と視覚知覚を協調させるために、視覚-言語事前学習を活用する。 継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。 我々は,AI2-THORシミュレータを用いて本手法を広範囲に評価し,ナビゲータの有効性と効率性を示す一連の実験を行った。 コードはhttps://github.com/nuoxu/AKGVP。

Object-goal navigation is a challenging task that requires guiding an agent to specific objects based on first-person visual observations. The ability of agent to comprehend its surroundings plays a crucial role in achieving successful object finding. However, existing knowledge-graph-based navigators often rely on discrete categorical one-hot vectors and vote counting strategy to construct graph representation of the scenes, which results in misalignment with visual images. To provide more accurate and coherent scene descriptions and address this misalignment issue, we propose the Aligning Knowledge Graph with Visual Perception (AKGVP) method for object-goal navigation. Technically, our approach introduces continuous modeling of the hierarchical scene architecture and leverages visual-language pre-training to align natural language description with visual perception. The integration of a continuous knowledge graph architecture and multimodal feature alignment empowers the navigator with a remarkable zero-shot navigation capability. We extensively evaluate our method using the AI2-THOR simulator and conduct a series of experiments to demonstrate the effectiveness and efficiency of our navigator. Code available: https://github.com/nuoxu/AKGVP.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 自己指導型学習における一様性メトリクスの再考

Rethinking The Uniformity Metric in Self-Supervised Learning ( http://arxiv.org/abs/2403.00642v2 )

ライセンス: Link先を確認
Xianghong Fang, Jian Li, Qiang Sun, Benyou Wang, (参考訳) 統一性は学習した表現を評価する上で重要な役割を担い、自己指導型学習に対する洞察を提供する。 効果的な一様性指標を求める中で、そのような指標が持つべき4つの原則的特性を指摘します。 すなわち、有効均一度計量は、特徴の冗長性と次元の崩壊を正確に捉えながら、インスタンスの置換やサンプルの複製に不変であり続けるべきである。 驚いたことに、 \citet{Wang2020UnderstandingCR} が提案する均一性計量はこれらの性質の大部分を満たすことができない。 特に、それらの計量はサンプル複製に敏感であり、特徴の冗長性と次元の崩壊を正しく説明できない。 これらの制限を克服するために、上述のすべての性質を満たすワッサーシュタイン距離に基づく新しい均一度計量を導入する。 CIFAR-10とCIFAR-100データセットを含む下流タスクにおいて、この新たなメトリクスを既存の自己教師型学習手法に統合することにより、次元の崩壊を効果的に軽減し、そのパフォーマンスを継続的に改善する。 コードは \url{https://github.com/statsle/WassersteinSSL} で入手できる。

Uniformity plays an important role in evaluating learned representations, providing insights into self-supervised learning. In our quest for effective uniformity metrics, we pinpoint four principled properties that such metrics should possess. Namely, an effective uniformity metric should remain invariant to instance permutations and sample replications while accurately capturing feature redundancy and dimensional collapse. Surprisingly, we find that the uniformity metric proposed by \citet{Wang2020UnderstandingCR} fails to satisfy the majority of these properties. Specifically, their metric is sensitive to sample replications, and can not account for feature redundancy and dimensional collapse correctly. To overcome these limitations, we introduce a new uniformity metric based on the Wasserstein distance, which satisfies all the aforementioned properties. Integrating this new metric in existing self-supervised learning methods effectively mitigates dimensional collapse and consistently improves their performance on downstream tasks involving CIFAR-10 and CIFAR-100 datasets. Code is available at \url{https://github.com/statsle/WassersteinSSL}.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 長期的勧告のための学習可能なプランナとしての大規模言語モデル

Large Language Models are Learnable Planners for Long-Term Recommendation ( http://arxiv.org/abs/2403.00843v2 )

ライセンス: Link先を確認
Wentao Shi, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li, Jizhi Zhang, Qifan Wang, Fuli Feng, (参考訳) 即時利益と長期利益の両方の計画が、勧告においてますます重要になる。 既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習(RL)を適用している。 しかしながら、レコメンデーションデータの不足は、RLモデルをスクラッチからトレーニングする際の不安定性や過度な適合に対する感受性などの課題を示し、結果として準最適性能をもたらす。 本稿では,Large Language Models (LLMs) のスパースデータよりも,長期的勧告に優れた計画能力を活用することを提案する。 目標達成の鍵は、長期的なエンゲージメントを強化し、パーソナライズされた方法で効果的かつ実行可能な行動を行うための計画を基礎付ける原則に従って、ガイダンスプランを策定することにある。 そこで本研究では,LLMインスタンスの集合からなるBi-level Learnable LLM Plannerフレームワークを提案し,学習プロセスをマクロ学習とマイクロ学習に分解し,マクロレベルのガイダンスとマイクロレベルのパーソナライズされたレコメンデーションポリシーを学習する。 大規模な実験により、長期的勧告のためにLLMの計画能力を促進することが検証された。 コードとデータはhttps://github.com/jizhi-zhang/BiLLP.comで確認できます。

Planning for both immediate and long-term benefits becomes increasingly important in recommendation. Existing methods apply Reinforcement Learning (RL) to learn planning capacity by maximizing cumulative reward for long-term recommendation. However, the scarcity of recommendation data presents challenges such as instability and susceptibility to overfitting when training RL models from scratch, resulting in sub-optimal performance. In this light, we propose to leverage the remarkable planning capabilities over sparse data of Large Language Models (LLMs) for long-term recommendation. The key to achieving the target lies in formulating a guidance plan following principles of enhancing long-term engagement and grounding the plan to effective and executable actions in a personalized manner. To this end, we propose a Bi-level Learnable LLM Planner framework, which consists of a set of LLM instances and breaks down the learning process into macro-learning and micro-learning to learn macro-level guidance and micro-level personalized recommendation policies, respectively. Extensive experiments validate that the framework facilitates the planning ability of LLMs for long-term recommendation. Our code and data can be found at https://github.com/jizhi-zhang/BiLLP.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 実世界のFact-Checkingを支援するマルチモーダル大規模言語モデル

Multimodal Large Language Models to Support Real-World Fact-Checking ( http://arxiv.org/abs/2403.03627v2 )

ライセンス: Link先を確認
Jiahui Geng, Yova Kementchedjhieva, Preslav Nakov, Iryna Gurevych, (参考訳) MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。 ここではこのギャップを埋めることを目指しています。 特に,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。 我々の方法論はエビデンスフリーであり、これらのモデルの本質的な知識と推論能力のみを活用する。 モデルの予測、説明、信頼レベルを抽出するプロンプトを設計することで、モデルの正確性、堅牢性、失敗の理由に関する研究の問題を掘り下げる。 実験により,(1)GPT-4Vは悪質で誤解を招くマルチモーダルクレームの識別に優れた性能を示し,(2)既存のオープンソースモデルは強いバイアスを示し,そのプロンプトに非常に敏感であることがわかった。 我々の研究は、偽のマルチモーダル情報と戦うための洞察を与え、安全で信頼できるマルチモーダルモデルを構築する。 私たちの知る限りでは、実世界のファクトチェックのためにMLLMを評価するのは初めてです。

Multimodal large language models (MLLMs) carry the potential to support humans in processing vast amounts of information. While MLLMs are already being used as a fact-checking tool, their abilities and limitations in this regard are understudied. Here is aim to bridge this gap. In particular, we propose a framework for systematically assessing the capacity of current multimodal models to facilitate real-world fact-checking. Our methodology is evidence-free, leveraging only these models' intrinsic knowledge and reasoning capabilities. By designing prompts that extract models' predictions, explanations, and confidence levels, we delve into research questions concerning model accuracy, robustness, and reasons for failure. We empirically find that (1) GPT-4V exhibits superior performance in identifying malicious and misleading multimodal claims, with the ability to explain the unreasonable aspects and underlying motives, and (2) existing open-source models exhibit strong biases and are highly sensitive to the prompt. Our study offers insights into combating false multimodal information and building secure, trustworthy multimodal models. To the best of our knowledge, we are the first to evaluate MLLMs for real-world fact-checking.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 連立注意の再帰的融合に基づく聴覚・視覚人物の検証

Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention ( http://arxiv.org/abs/2403.04654v3 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam, (参考訳) 近年,顔や声が互いに密接な関連性を共有しているため,音声と視覚の融合による個人認証や身元確認が注目されている。 従来の音声-視覚融合に基づくアプローチは、スコアレベルまたは初期特徴レベルの融合技術に依存している。 既存のアプローチでは、単調なシステムよりも改善が見られたが、人物認証のための音声-視覚融合の可能性は、十分に活用されていない。 本稿では,音声と視覚の両モード間の相互関係を効果的に把握する可能性について検討した。 特に,共用音声・視覚的特徴表現を相互意図の枠組みで再帰的に活用し,モーダル内およびモーダル間関係を効果的に捉えることのできる特徴表現を段階的に洗練する,連用音声・視覚的特徴表現モデルの再帰的融合を導入する。 音声・視覚的特徴表現をさらに強化するため,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討した。 提案モデルを評価するために,Voxceleb1データセット上で大規模な実験を行った。 以上の結果から,本モデルでは,音声と視覚の相違点を網羅的に捉えることにより,融合性能が向上することが示唆された。

Person or identity verification has been recently gaining a lot of attention using audio-visual fusion as faces and voices share close associations with each other. Conventional approaches based on audio-visual fusion rely on score-level or early feature-level fusion techniques. Though existing approaches showed improvement over unimodal systems, the potential of audio-visual fusion for person verification is not fully exploited. In this paper, we have investigated the prospect of effectively capturing both the intra- and inter-modal relationships across audio and visual modalities, which can play a crucial role in significantly improving the fusion performance over unimodal systems. In particular, we introduce a recursive fusion of a joint cross-attentional model, where a joint audio-visual feature representation is employed in the cross-attention framework in a recursive fashion to progressively refine the feature representations that can efficiently capture the intra-and inter-modal relationships. To further enhance the audio-visual feature representations, we have also explored BLSTMs to improve the temporal modeling of audio-visual feature representations. Extensive experiments are conducted on the Voxceleb1 dataset to evaluate the proposed model. Results indicate that the proposed model shows promising improvement in fusion performance by adeptly capturing the intra-and inter-modal relationships across audio and visual modalities.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# Debian Pythonパッケージにおけるエンジニアリングの形式性とソフトウェアリスク

Engineering Formality and Software Risk in Debian Python Packages ( http://arxiv.org/abs/2403.05728v2 )

ライセンス: Link先を確認
Matthew Gaughan, Kaylea Champion, Sohyeon Hwang, (参考訳) FLOSS(free/libre and open source software)は、グローバルコンピューティングインフラにおいて重要であるが、広く採用されているFLOSSパッケージのメンテナンスは、自身のタスクを選択するボランティア開発者に依存している。 エンジニアリングサプライと需要の不調整(アンダープロダクションとして知られる)による失敗のリスクは、コードベースの崩壊と、HeartbleedやLog4Shellといったその後のサイバーセキュリティインシデントにつながった。 FLOSSプロジェクトは自己組織化されているが、多くの場合、より大きく、よりフォーマルな取り組みへと拡張される。 よりフォーマルな組織になるという以前の研究はプロジェクトのリスクを減少させるが、フォーマルな研究はプロジェクト放棄の可能性を高める可能性があることを示唆している。 我々は、形式構造、開発者の責任、作業プロセス管理に焦点をあて、生産と形式の関係を評価する。 我々はPythonで書かれた182パッケージを分析し、Debian GNU/Linuxディストリビューションを介して利用可能にした。 よりフォーマルな構造は、アンダープロダクションのリスクが高いが、より高い開発者の責任は、アンダープロダクションのリスクが少なく、フォーマルなプロセス管理とアンダープロダクションの関係は統計的に有意ではない。 我々の分析は、FLOSSの組織がよりフォーマルな構造に変化することは、慎重に管理しなければならない意図しない結果に直面する可能性があることを示唆している。

While free/libre and open source software (FLOSS) is critical to global computing infrastructure, the maintenance of widely-adopted FLOSS packages is dependent on volunteer developers who select their own tasks. Risk of failure due to the misalignment of engineering supply and demand -- known as underproduction -- has led to code base decay and subsequent cybersecurity incidents such as the Heartbleed and Log4Shell vulnerabilities. FLOSS projects are self-organizing but can often expand into larger, more formal efforts. Although some prior work suggests that becoming a more formal organization decreases project risk, other work suggests that formalization may increase the likelihood of project abandonment. We evaluate the relationship between underproduction and formality, focusing on formal structure, developer responsibility, and work process management. We analyze 182 packages written in Python and made available via the Debian GNU/Linux distribution. We find that although more formal structures are associated with higher risk of underproduction, more elevated developer responsibility is associated with less underproduction, and the relationship between formal work process management and underproduction is not statistically significant. Our analysis suggests that a FLOSS organization's transformation into a more formal structure may face unintended consequences which must be carefully managed.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# OntoChat: 言語モデルを用いた会話オントロジーエンジニアリングフレームワーク

OntoChat: a Framework for Conversational Ontology Engineering using Language Models ( http://arxiv.org/abs/2403.05921v2 )

ライセンス: Link先を確認
Bohui Zhang, Valentina Anita Carriero, Katrin Schreiberhuber, Stefani Tsaneva, Lucía Sánchez González, Jongmo Kim, Jacopo de Berardinis, (参考訳) 大規模プロジェクトにおけるオントロジーエンジニアリング(OE)は、様々な利害関係者、ドメインの専門家、そしてオントロジーデザイナーとの複雑な相互作用の不均一な背景から生じる多くの課題を生んでいる。 この多党間相互作用は、しばしばオントロジー要求の帰結から体系的な曖昧さとバイアスを生み出し、それは設計、評価に直接影響を与え、ターゲットの再利用を阻害する可能性がある。 一方、現在のOE方法論は、手動の活動(例えば、インタビュー、ディスカッションページ)に強く依存しています。 もっとも重要なOE活動に関する証拠を収集した後、要求の推論、分析、テストをサポートする会話オントロジー工学のためのフレームワークである \textbf{OntoChat} を紹介した。 対話エージェントと対話することで、ユーザは、ユーザストーリーの作成と能力的質問の抽出を操りながら、全体的な要求を分析し、結果のオントロジーの初期バージョンをテストするための計算支援を受けることができる。 音楽メタオントロジーのエンジニアリングを再現し,ユーザから各コンポーネントの有効性に関する予備的な指標を収集することにより,OntoChatを評価する。 すべてのコードはhttps://github.com/King-s-Knowledge-Graph-Lab/OntoChatでリリースします。

Ontology engineering (OE) in large projects poses a number of challenges arising from the heterogeneous backgrounds of the various stakeholders, domain experts, and their complex interactions with ontology designers. This multi-party interaction often creates systematic ambiguities and biases from the elicitation of ontology requirements, which directly affect the design, evaluation and may jeopardise the target reuse. Meanwhile, current OE methodologies strongly rely on manual activities (e.g., interviews, discussion pages). After collecting evidence on the most crucial OE activities, we introduce \textbf{OntoChat}, a framework for conversational ontology engineering that supports requirement elicitation, analysis, and testing. By interacting with a conversational agent, users can steer the creation of user stories and the extraction of competency questions, while receiving computational support to analyse the overall requirements and test early versions of the resulting ontologies. We evaluate OntoChat by replicating the engineering of the Music Meta Ontology, and collecting preliminary metrics on the effectiveness of each component from users. We release all code at https://github.com/King-s-Knowledge-Graph-Lab/OntoChat.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 古典コンピューティング時代における多体局在

Many-Body Localization in the Age of Classical Computing ( http://arxiv.org/abs/2403.07111v2 )

ライセンス: Link先を確認
Piotr Sierant, Maciej Lewenstein, Antonello Scardicchio, Lev Vidmar, Jakub Zakrzewski, (参考訳) 統計力学は、システムの状態を決定するために、少数のマクロパラメータを使用して、大規模で複雑な多体系の物理を記述するためのフレームワークを提供する。 孤立した量子多体系では、このような記述は固有状態熱化仮説(ETH)によって達成され、熱化、エルゴード性、量子カオスの振る舞いを結びつける。 しかし、有限系サイズと進化時間では、強い障害下で相互作用する多体系の力学で数値的および実験的に発見された頑健な多体局在(MBL)系では熱化傾向は観察されない。 MBL体制の現象学は確立されているが、中心的な疑問は未解決のままであり、MBL体制は、無限のシステムサイズと進化時間の漸近的限界においてさえ熱化が起こらないMBLフェーズを、どのような条件で生み出すのか? 本総説では,MBL相の現状を明らかにすることを目的とした近年の数値研究に焦点が当てられ,乱れた多体系の力学に関する重要なオープンな疑問が浮かび上がっている。 永続的な有限サイズドリフトは、無秩序な多体系のスペクトル特性において常に出現し、単純な単一パラメータスケーリング仮説を除外し、MBL相の状態の理解を妨げている。 ドリフトは、多体系の力学で観察される熱化や非消滅輸送の傾向、たとえ強い障害であっても関係している。 これらの現象は、ETH-MBLクロスオーバーにおける微視的過程の理解を妨げている。 それでも、障害強度の増大に伴うダイナミックスの急激な減速は、MBL相の近接を示唆している。 本総説では, 不規則多体系における熱化とその故障に関する疑問は, さらなる探査のために開放された捕食領域として残されている。

Statistical mechanics provides a framework for describing the physics of large, complex many-body systems using only a few macroscopic parameters to determine the state of the system. For isolated quantum many-body systems, such a description is achieved via the eigenstate thermalization hypothesis (ETH), which links thermalization, ergodicity and quantum chaotic behavior. However, tendency towards thermalization is not observed at finite system sizes and evolution times in a robust many-body localization (MBL) regime found numerically and experimentally in the dynamics of interacting many-body systems at strong disorder. Although the phenomenology of the MBL regime is well-established, the central question remains unanswered: under what conditions does the MBL regime give rise to an MBL phase in which the thermalization does not occur even in the asymptotic limit of infinite system size and evolution time? This review focuses on recent numerical investigations aiming to clarify the status of the MBL phase, and it establishes the critical open questions about the dynamics of disordered many-body systems. Persistent finite size drifts towards ergodicity consistently emerge in spectral properties of disordered many-body systems, excluding naive single-parameter scaling hypothesis and preventing comprehension of the status of the MBL phase. The drifts are related to tendencies towards thermalization and non-vanishing transport observed in the dynamics of many-body systems, even at strong disorder. These phenomena impede understanding of microscopic processes at the ETH-MBL crossover. Nevertheless, the abrupt slowdown of dynamics with increasing disorder strength suggests the proximity of the MBL phase. This review concludes that the questions about thermalization and its failure in disordered many-body systems remain a captivating area open for further explorations.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 深層学習モデルを用いた脳内画像認識における時間周波数結合型非知覚的対立攻撃

Time-Frequency Jointed Imperceptible Adversarial Attack to Brainprint Recognition with Deep Learning Models ( http://arxiv.org/abs/2403.10021v2 )

ライセンス: Link先を確認
Hangjie Yi, Yuhang Ming, Dongjun Liu, Wanzeng Kong, (参考訳) 深層学習モデルを用いた脳波に基づく脳プリント認識は生体認証において多くの注目を集めている。 しかし,脳波入力を伴う深層学習モデルにおいて,敵対的攻撃に対する脆弱性が示唆されている。 本稿では,ウェーブレット変換を用いて,時間領域と周波数領域のEEG信号を同時攻撃する新たな逆攻撃手法を提案する。 時間領域脳波信号のみをターゲットとする既存の方法とは異なり、我々の手法は時間領域攻撃の強力な対角的強度を活かすだけでなく、周波数領域攻撃に固有の非受容性の利点も生かし、攻撃性能と非受容性のバランスを良くする。 その結果、3つのデータセットと3つのディープラーニングモデルに対して、攻撃手法が最先端の攻撃性能を達成することを実証した。 一方、我々の方法で攻撃された信号の摂動は、人間の視覚系に対してほとんど認識できない。

EEG-based brainprint recognition with deep learning models has garnered much attention in biometric identification. Yet, studies have indicated vulnerability to adversarial attacks in deep learning models with EEG inputs. In this paper, we introduce a novel adversarial attack method that jointly attacks time-domain and frequency-domain EEG signals by employing wavelet transform. Different from most existing methods which only target time-domain EEG signals, our method not only takes advantage of the time-domain attack's potent adversarial strength but also benefits from the imperceptibility inherent in frequency-domain attack, achieving a better balance between attack performance and imperceptibility. Extensive experiments are conducted in both white- and grey-box scenarios and the results demonstrate that our attack method achieves state-of-the-art attack performance on three datasets and three deep-learning models. In the meanwhile, the perturbations in the signals attacked by our method are barely perceptible to the human visual system.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# ポイントクラウド生成のためのトポロジカルプライオリティの爆発的展開

Exploiting Topological Priors for Boosting Point Cloud Generation ( http://arxiv.org/abs/2403.10962v2 )

ライセンス: Link先を確認
Baiyuan Chen, (参考訳) 本稿では、ポイントクラウド生成用に設計された最先端GANであるSP-GANモデルとして、Sphereの革新的な拡張について述べる。 生成した点雲の構造的整合性と全体的品質を高めるために, 発生源のトレーニングプロセスにトポロジカル事前を組み込むことにより, 点雲生成に新たな手法が導入された。 具体的には、K平均アルゴリズムを用いて、リポジトリからポイントクラウドをクラスタに分割し、センタロイドを抽出し、SP-GANの生成プロセスの先行として使用する。 さらに、SP-GANの差別化要素は、セントロイドに寄与する同一の点雲を利用して、一貫性のある一貫した学習環境を確保する。 直感的ガイドとしてのこの戦略的利用は、グローバルな特徴学習の効率を高めるだけでなく、生成された点雲の構造的コヒーレンスと忠実性を大幅に改善する。 K平均アルゴリズムを適用してセンチロイドを生成することにより、この研究は直感的かつ実験的に、そのような先行が生成された点雲の品質を高めることを実証する。

This paper presents an innovative enhancement to the Sphere as Prior Generative Adversarial Network (SP-GAN) model, a state-of-the-art GAN designed for point cloud generation. A novel method is introduced for point cloud generation that elevates the structural integrity and overall quality of the generated point clouds by incorporating topological priors into the training process of the generator. Specifically, this work utilizes the K-means algorithm to segment a point cloud from the repository into clusters and extract centroids, which are then used as priors in the generation process of the SP-GAN. Furthermore, the discriminator component of the SP-GAN utilizes the identical point cloud that contributed the centroids, ensuring a coherent and consistent learning environment. This strategic use of centroids as intuitive guides not only boosts the efficiency of global feature learning but also substantially improves the structural coherence and fidelity of the generated point clouds. By applying the K-means algorithm to generate centroids as the prior, the work intuitively and experimentally demonstrates that such a prior enhances the quality of generated point clouds.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# テンプレート抽出によるJava JITテスト

Java JIT Testing with Template Extraction ( http://arxiv.org/abs/2403.11281v2 )

ライセンス: Link先を確認
Zhiqiang Zang, Fu-Yao Yu, Aditya Thimmaiah, August Shi, Milos Gligoric, (参考訳) Javaのジャスト・イン・タイム(JIT)コンパイラをテストするためのテンプレートベースのフレームワークであるLeJitを紹介します。 最近のテンプレートベースのフレームワークと同様に、LeJitはJava JITコンパイラへのインプットとして与えられた具体的なプログラムを生成するテンプレートを実行する。 LeJitは、式を穴に変換することで既存のJavaコードからテンプレートプログラムを自動的に生成し、生成したテンプレートを実行可能なものにするために必要なグルーコード(非プリミティブな型のインスタンスを生成するコード)を生成する。 私たちは、さまざまな人気のあるJava JITコンパイラのテストにLeJitを使い、HotSpotの5つのバグ、OpenJ9の9つのバグ、GraalVMの1つのバグを明らかにしました。 これらのバグはすべてOracleとIBMの開発者によって確認されており、以前はCVE(Common Vulnerabilities and Exposures)を含む11のバグが不明であった。 既存のいくつかのアプローチと比較すると、LeJitはそれらと相補的であり、Java JITコンパイラの正確性を保証するための強力なテクニックであることがわかる。

We present LeJit, a template-based framework for testing Java just-in-time (JIT) compilers. Like recent template-based frameworks, LeJit executes a template -- a program with holes to be filled -- to generate concrete programs given as inputs to Java JIT compilers. LeJit automatically generates template programs from existing Java code by converting expressions to holes, as well as generating necessary glue code (i.e., code that generates instances of non-primitive types) to make generated templates executable. We have successfully used LeJit to test a range of popular Java JIT compilers, revealing five bugs in HotSpot, nine bugs in OpenJ9, and one bug in GraalVM. All of these bugs have been confirmed by Oracle and IBM developers, and 11 of these bugs were previously unknown, including two CVEs (Common Vulnerabilities and Exposures). Our comparison with several existing approaches shows that LeJit is complementary to them and is a powerful technique for ensuring Java JIT compiler correctness.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-26
# 大規模モデルのためのパラメータ効率の良いファインチューニング:包括的調査

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey ( http://arxiv.org/abs/2403.14608v4 )

ライセンス: Link先を確認
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang, (参考訳) 大規模モデルは、複数のアプリケーション分野における画期的な進歩を表しており、様々なタスクにおける顕著な達成を可能にしている。 しかし、その前例のない規模には計算コストがかなり伴う。 これらのモデルはしばしば数十億のパラメータで構成され、実行には膨大な量の計算資源を必要とする。 特に、拡張スケールと計算要求は、特定の下流タスク、特に計算能力に制約されたハードウェアプラットフォームをカスタマイズする際に大きな課題を生じさせる。 パラメータ効率の良いファインチューニング(PEFT)は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 特にPEFTは、訓練済みの大規模モデルのパラメータを調整して特定のタスクに適応させ、導入された追加のパラメータの数や計算リソースを最小化するプロセスを指す。 これらのモデルをスクラッチから微調整することは、計算コストが高く、リソース集約的であり、サポートするシステムプラットフォーム設計において大きな課題を生じさせるため、大きな言語モデルと高いパラメータ数を扱う場合、このアプローチは特に重要である。 本稿では,様々なPEFTアルゴリズムの総合的な研究を行い,その性能と計算オーバーヘッドについて検討する。 さらに,異なるPEFTアルゴリズムを用いて開発されたアプリケーションの概要を述べるとともに,PEFTの計算コストを軽減するための一般的な手法について議論する。 アルゴリズムの観点に加えて,様々な実世界のシステム設計を概観し,異なるPEFTアルゴリズムによる実装コストについて検討する。 この調査は、PEFTアルゴリズムとシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant computational costs. These models, often consisting of billions of parameters, require vast amounts of computational resources for execution. Especially, the expansive scale and computational demands pose considerable challenges when customizing them for particular downstream tasks, particularly over the hardware platforms constrained by computational capabilities. Parameter Efficient Fine-Tuning (PEFT) provides a practical solution by efficiently adapt the large models over the various downstream tasks. In particular, PEFT refers to the process of adjusting the parameters of a pre-trained large models to adapt it to a specific task while minimizing the number of additional parameters introduced or computational resources required. This approach is particularly important when dealing with large language models with high parameter counts, as fine-tuning these models from scratch can be computationally expensive and resource-intensive, posing considerable challenges in the supporting system platform design. In this survey, we present comprehensive studies of various PEFT algorithms, examining their performance and computational overhead. Moreover, we provide an overview of applications developed using different PEFT algorithms and discuss common techniques employed to mitigate computation costs for PEFT. In addition to the algorithmic perspective, we overview various real-world system designs to investigate the implementation costs associated with different PEFT algorithms. This survey serves as an indispensable resource for researchers aiming to understand both the PEFT algorithm and its system implementation, offering detailed insights into recent advancements and practical applications.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# 社会住宅におけるレトロフィットデバイスの普及--ベルギーにおける2つのフィールド実験から

Increasing retrofit device adoption in social housing: evidence from two field experiments in Belgium ( http://arxiv.org/abs/2403.15490v2 )

ライセンス: Link先を確認
Mona Bielig, Celina Kacperski, Florian Kutzner, (参考訳) エネルギー効率の良い技術は特に社会の居住環境において重要であり、経済的な貯蓄と快適さを通じてテナントの幸福を向上し、コミュニティ全体の排出を削減できる可能性がある。 社会住宅における革新的エネルギー技術のゆっくりとの取り込みは、信頼の欠如と養子縁組のリスクの認識に関連している。 両対策として,技術導入の社会的規範や具体的なメリットを含む,暖房用補修技術のためのコミュニケーションキャンペーンを考案した。 ベルギーの2つの異なるソーシャル・ハウジング・コミュニティにおいて,ランダム化制御試験(RCT)を2回実施した。 最初の研究では、ランダム化は住宅ブロックのレベルで行われ、コミュニケーションは制御群(b = 1.7, p = .024)と比較して大きな上昇率をもたらした。 第2の研究では、住居ブロックとの相互作用を考慮した場合、アパートレベルでランダム化が行われ、再び顕著な増加(b = 1.62, p = 0.02)が得られた。 地域社会におけるランダム化試験の実施の課題について論じる。

Energy efficient technologies are particularly important for social housing settings: they offer the potential to improve tenants' wellbeing through monetary savings and comfort, while reducing emissions of entire communities. Slow uptake of innovative energy technology in social housing has been associated with a lack of trust and the perceived risks of adoption. To counteract both, we designed a communication campaign for a retrofit technology for heating including social norms for technology adoption and concretely experienced benefits. We report two randomized controlled trials (RCT) in two different social housing communities in Belgium. In the first study, randomization was on housing block level: the communication led to significant higher uptake rates compared to the control group, (b = 1.7, p = .024). In the second study randomization occurred on apartment level, again yielding a significant increase (b = 1.62, p = 0.02), when an interaction with housing blocks was considered. We discuss challenges of conducting randomized controlled trials in social housing communities.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# ViTによるCNN学習:ドメイン適応のためのクラス固有境界のハイブリッドモデル

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation ( http://arxiv.org/abs/2403.18360v3 )

ライセンス: Link先を確認
Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi, (参考訳) ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。 彼らは独自の特性を考慮せずに、ドメイン間の分布差をエンコーダとして整列させる。 例えば、ViTはグローバル表現をキャプチャする能力に優れており、CNNはローカル表現をキャプチャする利点がある。 この事実により、私たちは、Explicitly Class-specific Boundaries (ECB)と呼ばれるViTとCNNの両方をフルに活用するハイブリッドな手法を設計しました。 ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。 特に,2つの分類器の出力間の差を最大化することにより,ViTの特性を利用してクラス固有の決定境界を明示的に見つけることで,ソースサポートから離れたターゲットサンプルを検出する。 対照的に、CNNエンコーダクラスタは、2つの分類器の確率間の差を最小限に抑えて、予め定義されたクラス固有の境界に基づいて、ターゲットとなる特徴を目標としている。 最後に、ViTとCNNは相互に知識を交換し、擬似ラベルの品質を改善し、これらのモデルの知識格差を減らす。 従来のDA手法と比較して、当社のECBは優れたパフォーマンスを達成しており、このハイブリッドモデルの有効性を検証しています。 プロジェクトのWebサイトはhttps://dotrannhattuong.github.io/ECB/websiteにある。

Most domain adaptation (DA) methods are based on either a convolutional neural networks (CNNs) or a vision transformers (ViTs). They align the distribution differences between domains as encoders without considering their unique characteristics. For instance, ViT excels in accuracy due to its superior ability to capture global representations, while CNN has an advantage in capturing local representations. This fact has led us to design a hybrid method to fully take advantage of both ViT and CNN, called Explicitly Class-specific Boundaries (ECB). ECB learns CNN on ViT to combine their distinct strengths. In particular, we leverage ViT's properties to explicitly find class-specific decision boundaries by maximizing the discrepancy between the outputs of the two classifiers to detect target samples far from the source support. In contrast, the CNN encoder clusters target features based on the previously defined class-specific boundaries by minimizing the discrepancy between the probabilities of the two classifiers. Finally, ViT and CNN mutually exchange knowledge to improve the quality of pseudo labels and reduce the knowledge discrepancies of these models. Compared to conventional DA methods, our ECB achieves superior performance, which verifies its effectiveness in this hybrid model. The project website can be found https://dotrannhattuong.github.io/ECB/website.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# CodeBenchGen: スケーラブルな実行ベースのコード生成ベンチマークの作成

CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks ( http://arxiv.org/abs/2404.00566v2 )

ライセンス: Link先を確認
Yiqing Xie, Alex Xie, Divyanshu Sheth, Pengfei Liu, Daniel Fried, Carolyn Rose, (参考訳) 多様なシナリオにまたがるコード生成システムの評価を容易にするため、我々は、人間からの軽いガイダンスのみを必要とするスケーラブルな実行ベースのベンチマークを作成するためのフレームワーク、CodeBenchGenを紹介した。 具体的には,大規模言語モデル(LLM)を活用して任意のコードを評価例に変換する。 CodeSearchNetデータセットから取得した367のGitHubリポジトリのコードから293のライブラリを修正した1,931のサンプルを含むデータセットであるExec-CSNを作成することで、私たちのフレームワークの有用性を説明します。 Exec-CSNにおける例の複雑さと解決可能性を示すために, 81.3%が人間によって解決され, 61%が「解決に必要な努力」と評価されている。 オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。 私たちはhttps://github.com/Veronicium/CodeBenchGen.orgでコードを公開しています。

To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks that only requires light guidance from humans. Specifically, we leverage a large language model (LLM) to convert an arbitrary piece of code into an evaluation example, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries revised from code in 367 GitHub repositories taken from the CodeSearchNet dataset. To demonstrate the complexity and solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as "requires effort to solve". We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We provide the code at https://github.com/Veronicium/CodeBenchGen.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# マルチタスクによるオープンソースのLCMのソフトウェア脆弱性評価

Multitask-based Evaluation of Open-Source LLM on Software Vulnerability ( http://arxiv.org/abs/2404.02056v2 )

ライセンス: Link先を確認
Xin Yin, Chao Ni, Shaohua Wang, (参考訳) 本稿では,公開データセットを用いた対話型LCMの定量的評価パイプラインを提案する。 我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。 このデータセットに基づいて,LLMのマルチタスクおよびマルチ言語的側面を評価する。 既存の最先端手法は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることが判明した。 LLMは、文脈情報を提供する際の精度を改善するが、特定のCWEタイプの重度評価を正確に予測する際の制限がある。 加えて、LLMは特定のCWEタイプの脆弱性を見つける能力を示しているが、その性能は異なるCWEタイプによって異なる。 最後に、LLMは様々なCWEタイプのCVE記述を生成する際に不均一な性能を示し、数ショット設定では精度が制限される。 全体として、LLMはいくつかの面でうまく機能するが、コード脆弱性の微妙な違いと、その潜在的な可能性を十分に実現するための脆弱性を記述する能力を理解するためには、依然として改善が必要である。 我々の評価パイプラインは、LSMのソフトウェア脆弱性処理能力をさらに強化するための貴重な洞察を提供する。

This paper proposes a pipeline for quantitatively evaluating interactive LLMs using publicly available datasets. We carry out an extensive technical evaluation of LLMs using Big-Vul covering four different common software vulnerability tasks. We evaluate the multitask and multilingual aspects of LLMs based on this dataset. We find that the existing state-of-the-art methods are generally superior to LLMs in software vulnerability detection. Although LLMs improve accuracy when providing context information, they still have limitations in accurately predicting severity ratings for certain CWE types. In addition, LLMs demonstrate some ability to locate vulnerabilities for certain CWE types, but their performance varies among different CWE types. Finally, LLMs show uneven performance in generating CVE descriptions for various CWE types, with limited accuracy in a few-shot setting. Overall, though LLMs perform well in some aspects, they still need improvement in understanding the subtle differences in code vulnerabilities and the ability to describe vulnerabilities to fully realize their potential. Our evaluation pipeline provides valuable insights for further enhancing LLMs' software vulnerability handling capabilities.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# 許容可能な知識プール

Permissible Knowledge Pooling ( http://arxiv.org/abs/2404.03418v2 )

ライセンス: Link先を確認
Huimin Dong, (参考訳) 情報プーリングは、様々な情報共有パターンを特徴とする、分散システムの様々な論理的フレームワークで広く形式化されてきた。 これらのアプローチは一般的に、エージェントが知っているか知らないかに関わらず、すべての可能な情報を集約する、交差点の観点を採用する。 対照的に、この著作は独特なスタンスを採用し、知識の共有とは、何が不確実であるかではなく、既知のものを配布することである、と強調している。 本稿では,知識プーリングの新しい言語から,知識共有のための動的メカニズムまで,知識プーリングと共有のための新しいモーダルロジックを提案する。 また、それらの公理化の概要を述べ、許容可能な知識プールのための潜在的なフレームワークについて論じている。

Information pooling has been extensively formalised across various logical frameworks in distributed systems, characterized by diverse information-sharing patterns. These approaches generally adopt an intersection perspective, aggregating all possible information, regardless of whether it is known or unknown to the agents. In contrast, this work adopts a unique stance, emphasising that sharing knowledge means distributing what is known, rather than what remains uncertain. This paper introduces new modal logics for knowledge pooling and sharing, ranging from a novel language of knowledge pooling to a dynamic mechanism for knowledge sharing. It also outlines their axiomatizations and discusses a potential framework for permissible knowledge pooling.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# 十分でないなら、そのようにしよう:合成顔を通して顔認識における認証データの需要を減らす

If It's Not Enough, Make It So: Reducing Authentic Data Demand in Face Recognition through Synthetic Faces ( http://arxiv.org/abs/2404.03537v4 )

ライセンス: Link先を確認
Andrea Atzori, Fadi Boutros, Naser Damer, Gianni Fenu, Mirko Marras, (参考訳) 近年の深層顔認識の進歩は、大規模で多様で手動で注釈付けされた顔データセットの需要を増大させてきた。 顔認識のための真正で高品質なデータを取得することは、主にプライバシー上の懸念から、困難であることが証明されている。 大規模な顔データセットは、主にWebベースのイメージから作成され、明示的なユーザの同意が欠如している。 本稿では,合成顔データを用いて実画像に頼らずに効果的な顔認識モデルを訓練し,データ収集の懸念を緩和する方法について検討する。 まず,最新の顔認識モデルの性能ギャップについて検討し,合成データのみと認証データのみを用いて訓練した。 そこで我々は,最先端のバックボーンを様々な合成データと認証データの組み合わせで訓練することにより,分析をより深め,検証精度の確保のために,後者の限られた使用法を最適化するための洞察を得た。 最後に、同じ目的を念頭において、データ拡張アプローチが合成データおよび認証データに与える影響を評価した。 以上の結果から,統合データセットでトレーニングしたFRの有効性,特に適切な拡張手法と組み合わせた場合のFRの有効性が明らかとなった。

Recent advances in deep face recognition have spurred a growing demand for large, diverse, and manually annotated face datasets. Acquiring authentic, high-quality data for face recognition has proven to be a challenge, primarily due to privacy concerns. Large face datasets are primarily sourced from web-based images, lacking explicit user consent. In this paper, we examine whether and how synthetic face data can be used to train effective face recognition models with reduced reliance on authentic images, thereby mitigating data collection concerns. First, we explored the performance gap among recent state-of-the-art face recognition models, trained with synthetic data only and authentic (scarce) data only. Then, we deepened our analysis by training a state-of-the-art backbone with various combinations of synthetic and authentic data, gaining insights into optimizing the limited use of the latter for verification accuracy. Finally, we assessed the effectiveness of data augmentation approaches on synthetic and authentic data, with the same goal in mind. Our results highlighted the effectiveness of FR trained on combined datasets, particularly when combined with appropriate augmentation techniques.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# Panoptic Perception:Universal Remote Sensing Image Interpretationのための新しいタスクときめ細かいデータセット

Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation ( http://arxiv.org/abs/2404.04608v2 )

ライセンス: Link先を確認
Danpei Zhao, Bo Yuan, Ziqiang Chen, Tian Li, Zhuoran Liu, Wentao Li, Yue Gao, (参考訳) 現在のリモートセンシングの解釈モデルは、しばしば検出、セグメンテーション、キャプションのような単一のタスクにフォーカスする。 しかし、タスク固有の設計モデルは、画像の総合的なマルチレベル解釈を実現するには不可能である。 このフィールドはマルチタスク共同解釈データセットもサポートしていない。 本稿では,新しいタスクであるPanoptic Perceptionと,より包括的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。 新しい仕事。 1) 画素レベル, インスタンスレベル, 画像レベル情報を統合し, 普遍的なイメージ知覚を実現する。 2)粗い画像から細かい粒度までの画像情報をキャプチャして、より深いシーン理解と記述を実現し、 3) 様々な独立したタスクがマルチタスク学習を通じて相互に補完し、強化することができる。 マルチタスクインタラクションと知覚結果の整合性を強調することにより, 細粒度インスタンスセグメンテーション, 背景セグメンテーション, グローバル細粒度イメージキャプションの同時処理を実現する。 具体的には、FineGripデータセットには、2,649のリモートセンシングイメージ、20の前景物カテゴリに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。 さらに,共同最適化に基づく汎視知覚モデルを提案する。 FineGripの実験結果から, 単視知覚タスクの実現可能性, マルチタスク共同最適化が個々のタスクに与える影響が示された。 データセットは一般公開される予定だ。

Current remote-sensing interpretation models often focus on a single task such as detection, segmentation, or caption. However, the task-specific designed models are unattainable to achieve the comprehensive multi-level interpretation of images. The field also lacks support for multi-task joint interpretation datasets. In this paper, we propose Panoptic Perception, a novel task and a new fine-grained dataset (FineGrip) to achieve a more thorough and universal interpretation for RSIs. The new task, 1) integrates pixel-level, instance-level, and image-level information for universal image perception, 2) captures image information from coarse to fine granularity, achieving deeper scene understanding and description, and 3) enables various independent tasks to complement and enhance each other through multi-task learning. By emphasizing multi-task interactions and the consistency of perception results, this task enables the simultaneous processing of fine-grained foreground instance segmentation, background semantic segmentation, and global fine-grained image captioning. Concretely, the FineGrip dataset includes 2,649 remote sensing images, 12,054 fine-grained instance segmentation masks belonging to 20 foreground things categories, 7,599 background semantic masks for 5 stuff classes and 13,245 captioning sentences. Furthermore, we propose a joint optimization-based panoptic perception model. Experimental results on FineGrip demonstrate the feasibility of the panoptic perception task and the beneficial effect of multi-task joint optimization on individual tasks. The dataset will be publicly available.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# チェビシェフ擬似サイト行列積のクラスター摂動理論への応用

Chebyshev pseudosite matrix product state approach for cluster perturbation theory ( http://arxiv.org/abs/2404.05686v2 )

ライセンス: Link先を確認
Pei-Yuan Zhao, Ke Ding, Shuo Yang, (参考訳) 本稿では,2次元電子フォノン(e$-ph)結合系におけるスペクトル関数のシミュレーションに不可欠なクラスタ摂動理論(CPT)の解法として,ChepsMPS(Chebyshev pseudosite matrix product state approach)を導入する。 ChePSMPSは、より大きなクラスターをサポートすることによって従来の正確な対角化解法と区別し、有限サイズ効果を著しく緩和する。 フェルミオンサイン問題から解放されたChePSMPSは、$e$-ph効果を探索し、ドープモット絶縁体で高分解能スペクトル関数を生成する能力を高める。 この手法を用いて、1次元および2次元のハバード・ホルシュタインモデルの両方のスペクトルをシミュレートし、他の手法よりもその優位性を強調する。 以上の結果から,ChePSMPSはグリーン関数解法として強力かつ信頼性が高いことが示唆された。 埋め込み法とともに、ChePSMPSは強い相関を持つ$e$-ph結合系をシミュレートするための重要なツールとして現れる。

We introduce the Chebyshev pseudosite matrix product state approach (ChePSMPS) as a solver for cluster perturbation theory (CPT), crucial for simulating spectral functions in two-dimensional electron-phonon ($e$-ph) coupling systems. ChePSMPS distinguishes itself from conventional exact diagonalization solvers by supporting larger clusters, thereby significantly mitigating finite-size effects. Free from the fermion sign problem, ChePSMPS enhances its ability to explore $e$-ph effects and generate high-resolution spectral functions in doped Mott insulators. We use this method to simulate the spectra for both one- and two-dimensional Hubbard-Holstein models, highlighting its superiority over other methods. Our findings validate ChePSMPS as a powerful and reliable Green's function solver. In conjunction with embedding methods, ChePSMPS emerges as an essential tool for simulating strongly correlated $e$-ph coupling systems.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# 2レート駆動プロトコルによるフレケットフラットバンドのエクササイズと加熱抑制

Exact Floquet flat band and heating suppression via two-rate drive protocols ( http://arxiv.org/abs/2404.06536v2 )

ライセンス: Link先を確認
Tista Banerjee, Sayan Choudhury, K. Sengupta, (参考訳) 閉量子多体系における固有状態熱化仮説の強い違反を示唆する正確なフロケ平面バンドの存在を、周波数$\Omega_1$と$\Omega_2=\nu \Omega_1$を特徴とする2レート駆動の存在下で示す。 特に$\nu=(2p+1)$では、$p$は整数であり、任意の$\Omega_1$に対して平方パルスと余弦駆動の両方に対してそのような平坦なバンドとなる。 これらの点の近傍では、熱はこれらの駆動系において非常に長い時間スケールで抑制され、予熱状態につながり、フレケット固有状態の分布と帯域幅、スペクトル形状係数、エンタングルメントエントロピー、実験で実現可能な有限駆動リドバーグ鎖の相関関数の正確な数値的研究によりこれを実証する。 対応するマイクロモーションは、エコーを連想させる励起のコヒーレントな反転を示す。 我々の分析は、駆動されたクローズド量子系における加熱抑制のための未解明のメカニズムを構成する。

We demonstrate the existence of exact Floquet flat bands implying strong violation of the eigenstate thermalization hypothesis in a large class of closed quantum many-body systems in the presence of a two-rate drive characterized by frequencies $\Omega_1$ and $\Omega_2=\nu \Omega_1$. We provide the exact analytic condition for this phenomenon to occur for a generic protocol; in particular, $\nu=(2p+1)$, where $p$ is an integer, leads to such flat bands for both square-pulse and cosine drive protocols for arbitrary $\Omega_1$. In the vicinity of these points, heating is suppressed up to very long timescales in such driven systems, leading to a prethermal regime; we demonstrate this by exact numerical studies of distribution and bandwidth of the Floquet eigenstates, spectral form factor, entanglement entropy, and correlation functions of an experimentally realizable finite driven Rydberg chain. The corresponding micromotion exhibits coherent reversal of excitations reminiscent of echoes. Our analysis constitutes a yet unexplored mechanism for heating suppression in driven closed quantum systems.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# Laplace-HDC:二元双対超次元計算の幾何学的理解

Laplace-HDC: Understanding the geometry of binary hyperdimensional computing ( http://arxiv.org/abs/2404.10759v2 )

ライセンス: Link先を確認
Saeid Pourmand, Wyatt D. Whiting, Alireza Aghasi, Nicholas F. Marshall, (参考訳) 本稿では,高次元二進ベクトルを用いてデータを符号化する計算手法である二進超次元計算(HDC)の幾何学について検討する。 我々はHDC結合演算子によって誘導される類似構造に関する結果を確立し、Laplaceカーネルがこの設定で自然に発生することを示す。 本稿では,画像から空間情報を符号化する際の2値HDCの限界について述べるとともに,Haarの畳み込み機能の利用や,変換等価なHDC符号化の定義など,潜在的な解決策について議論する。 代替手法とは対照的に,Laplace-HDCの精度向上を示す数値実験を行った。 また、ロバストネスや基盤となる翻訳-同変符号化などのフレームワークの他の側面についても数値的に検討する。

This paper studies the geometry of binary hyperdimensional computing (HDC), a computational scheme in which data are encoded using high-dimensional binary vectors. We establish a result about the similarity structure induced by the HDC binding operator and show that the Laplace kernel naturally arises in this setting, motivating our new encoding method Laplace-HDC, which improves upon previous methods. We describe how our results indicate limitations of binary HDC in encoding spatial information from images and discuss potential solutions, including using Haar convolutional features and the definition of a translation-equivariant HDC encoding. Several numerical experiments highlighting the improved accuracy of Laplace-HDC in contrast to alternative methods are presented. We also numerically study other aspects of the proposed framework such as robustness and the underlying translation-equivariant encoding.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# WPSデータセット:樹皮除去処理における木材板のセグメンテーションのベンチマーク

WPS-Dataset: A benchmark for wood plate segmentation in bark removal processing ( http://arxiv.org/abs/2404.11051v2 )

ライセンス: Link先を確認
Rijun Wang, Guanghao Zhang, Fulong Liang, Bo Wang, Xiangwei Mou, Yesheng Chen, Peng Sun, Canjin Wang, (参考訳) 深層学習は樹皮除去効率の向上と木材製品の品質向上に有望なアプローチである。 しかし、樹皮除去処理における木板セグメンテーションのための公開データセットの欠如は、この分野の研究者にとって課題となっている。 この問題に対処するために,4863枚の画像からなるWPSデータセットという樹皮除去処理における木材板のセグメンテーションのベンチマークを提案する。 我々は、画像取得装置を設計し、それを樹皮除去装置に組み込んで、実際の産業環境で画像をキャプチャした。 WPSデータセットを6つの典型的なセグメンテーションモデルを用いて評価した。 モデルはトレーニング中にWPSデータセットの特徴を効果的に学習し理解し、木材板分割作業において高い性能と精度をもたらす。 我々のデータセットは、樹皮除去処理における将来の研究の確かな基盤を築き、この分野の進歩に貢献できると信じている。

Using deep learning methods is a promising approach to improving bark removal efficiency and enhancing the quality of wood products. However, the lack of publicly available datasets for wood plate segmentation in bark removal processing poses challenges for researchers in this field. To address this issue, a benchmark for wood plate segmentation in bark removal processing named WPS-dataset is proposed in this study, which consists of 4863 images. We designed an image acquisition device and assembled it on a bark removal equipment to capture images in real industrial settings. We evaluated the WPS-dataset using six typical segmentation models. The models effectively learn and understand the WPS-dataset characteristics during training, resulting in high performance and accuracy in wood plate segmentation tasks. We believe that our dataset can lay a solid foundation for future research in bark removal processing and contribute to advancements in this field.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# 安定化剤エントロピーはマジック状態資源理論のためのモノトンである

Stabilizer entropies are monotones for magic-state resource theory ( http://arxiv.org/abs/2404.11652v2 )

ライセンス: Link先を確認
Lorenzo Leone, Lennart Bittel, (参考訳) 我々は、純状態に制限されたマジック状態資源理論の文脈内で、$\alpha\geq 2$に対して安定化器エントロピーの単調性を確立する。 さらに, 線形安定層エントロピーは強いモノトンとして機能することを示した。 さらに, コンベックス屋根構造を通したマジックモノトンとして, 安定体エントロピーの混合状態への拡張を提供する。

We establish the monotonicity of stabilizer entropies for $\alpha\geq 2$ within the context of magic-state resource theory restricted to pure states. Additionally, we show that linear stabilizer entropies serve as strong monotones. Furthermore, we provide the extension to mixed states of stabilizer entropies as magic monotones through convex roof constructions.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-26
# RegWSI: ACROBAT 2023チャレンジの勝者

RegWSI: Whole Slide Image Registration using Combined Deep Feature- and Intensity-Based Methods: Winner of the ACROBAT 2023 Challenge ( http://arxiv.org/abs/2404.13108v2 )

ライセンス: Link先を確認
Marek Wodzinski, Niccolò Marini, Manfredo Atzori, Henning Müller, (参考訳) 異なる可視構造から生じる相補的情報を融合することにより, 診断と予後を改善するために, 異なる染色された全スライド画像(WSI)の自動登録が重要である。 また、連続または保持されたスライド間でアノテーションを素早く転送することで、アノテーションの時間と関連するコストを大幅に削減できる。 それでも、スライス製剤は染色ごとに異なり、組織は複雑で大きな変形を受ける。 そのため,デジタル病理学を専門とする科学コミュニティや病院では,堅牢で効率的かつ正確な登録方法が望まれている。 本稿では,2段階のハイブリッド手法を提案する。 (i)ディープラーニングと特徴に基づく初期アライメントアルゴリズム、 (II) インスタンス最適化を用いた強度に基づく非剛性登録。 提案手法は特定のデータセットへの微調整を一切必要とせず,任意の組織タイプや染色に直接使用することができる。 この方法はACROBAT 2023チャレンジで1位を獲得した。 3つのオープンデータセットを用いて評価した。 (i)ANHIR (二)ACROBAT、及び 三)HyReCoは、登録に使用する分解能と初期アライメントの堅牢性及び安定性に関するいくつかのアブレーション研究を行った。 この手法はACROBATデータセットの最も正確な結果、HyReCoデータセットから保持されたスライドのセルレベル登録精度、およびANHIRデータセットで評価された最良の方法の1つである。 この手法では、新しいデータセットに微調整をする必要はなく、他の種類の顕微鏡画像のアウト・オブ・ボックスで使用することができる。 このメソッドはDeeperHistRegフレームワークに組み込まれており、他の人が直接それを使用して、任意の望まれるピラミッドレベルでWSIを登録、変換、保存することができる。 提案手法はWSI登録への重要な貢献であり,デジタル病理学の分野を進展させる。

The automatic registration of differently stained whole slide images (WSIs) is crucial for improving diagnosis and prognosis by fusing complementary information emerging from different visible structures. It is also useful to quickly transfer annotations between consecutive or restained slides, thus significantly reducing the annotation time and associated costs. Nevertheless, the slide preparation is different for each stain and the tissue undergoes complex and large deformations. Therefore, a robust, efficient, and accurate registration method is highly desired by the scientific community and hospitals specializing in digital pathology. We propose a two-step hybrid method consisting of (i) deep learning- and feature-based initial alignment algorithm, and (ii) intensity-based nonrigid registration using the instance optimization. The proposed method does not require any fine-tuning to a particular dataset and can be used directly for any desired tissue type and stain. The method scored 1st place in the ACROBAT 2023 challenge. We evaluated using three open datasets: (i) ANHIR, (ii) ACROBAT, and (iii) HyReCo, and performed several ablation studies concerning the resolution used for registration and the initial alignment robustness and stability. The method achieves the most accurate results for the ACROBAT dataset, the cell-level registration accuracy for the restained slides from the HyReCo dataset, and is among the best methods evaluated on the ANHIR dataset. The method does not require any fine-tuning to a new datasets and can be used out-of-the-box for other types of microscopic images. The method is incorporated into the DeeperHistReg framework, allowing others to directly use it to register, transform, and save the WSIs at any desired pyramid level. The proposed method is a significant contribution to the WSI registration, thus advancing the field of digital pathology.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# インクリメンタルビルドにおけるビルド依存性エラーの検出

Detecting Build Dependency Errors in Incremental Builds ( http://arxiv.org/abs/2404.13295v2 )

ライセンス: Link先を確認
Jun Lyu, Shanshan Li, He Zhang, Yang Zhang, Guoping Rong, Manuel Rigger, (参考訳) Makeのようなビルドツールによって実行される増分ビルドと並列ビルドは、現代のC/C++ソフトウェアプロジェクトの中心である。 それらの正しい効率的な実行は、ビルドスクリプトに依存する。 しかし、ビルドスクリプトはエラーを起こしやすい。 最も多いエラーは、依存性の欠如(MD)と冗長依存関係(RD)である。 これらのエラーを検出する最先端の手法は、クリーンなビルド(すなわち、クリーンな環境におけるソフトウェア構成のサブセットの完全なビルド)に依存している。 これらの課題に対処するため、インクリメンタルビルドのコンテキストにおいて、ビルド依存性エラーを検出するためのECheckerと呼ばれる新しいアプローチを提案する。 ECheckerの中核となる考え方は、C/C++プリプロセッサディレクティブとMakefileの変更を新しいコミットから推論することで、実際のビルド依存関係を自動的に更新することだ。 ECheckerは、効率を維持しながらクリーンビルドに依存する方法よりも高い効率を達成する。 私たちは、ECheckerの有効性と効率を評価するため、12の代表的なプロジェクトを選択しました。 評価結果を,最先端のビルド依存性検出ツールと比較した。 評価の結果,ECheckerのF-1スコアは最先端法に比べて0.18改善した。 ECheckerはビルド依存性のエラー検出効率を平均85.14倍に向上させる(中央値16.30倍)。 その結果、ECheckerは、ビルド依存性のエラーを効率的に検出する実践者をサポートすることができた。

Incremental and parallel builds performed by build tools such as Make are the heart of modern C/C++ software projects. Their correct and efficient execution depends on build scripts. However, build scripts are prone to errors. The most prevalent errors are missing dependencies (MDs) and redundant dependencies (RDs). The state-of-the-art methods for detecting these errors rely on clean builds (i.e., full builds of a subset of software configurations in a clean environment), which is costly and takes up to multiple hours for large-scale projects. To address these challenges, we propose a novel approach called EChecker to detect build dependency errors in the context of incremental builds. The core idea of EChecker is to automatically update actual build dependencies by inferring them from C/C++ pre-processor directives and Makefile changes from new commits, which avoids clean builds when possible. EChecker achieves higher efficiency than the methods that rely on clean builds while maintaining effectiveness. We selected 12 representative projects, with their sizes ranging from small to large, with 240 commits (20 commits for each project), based on which we evaluated the effectiveness and efficiency of EChecker. We compared the evaluation results with a state-of-the-art build dependency error detection tool. The evaluation shows that the F-1 score of EChecker improved by 0.18 over the state-of-the-art method. EChecker increases the build dependency error detection efficiency by an average of 85.14 times (with the median at 16.30 times). The results demonstrate that EChecker can support practitioners in detecting build dependency errors efficiently.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# 立体内視鏡画像の超解像・手術機器分割のためのSEGSRNet

SEGSRNet for Stereo-Endoscopic Image Super-Resolution and Surgical Instrument Segmentation ( http://arxiv.org/abs/2404.13330v2 )

ライセンス: Link先を確認
Mansoor Hayat, Supavadee Aramvith, Titipat Achakulvisut, (参考訳) SEGSRNetは、低解像度立体内視鏡画像における手術器具の正確な識別という課題に対処する。 我々の革新的なフレームワークは、セグメント化の前に最先端の超解像技術を適用することにより、画像の明瞭度とセグメンテーション精度を向上させる。 これにより、より正確なセグメンテーションのための高品質な入力が保証される。 SEGSRNetは、高度な特徴抽出と注意機構と空間処理を組み合わせることで、画像の詳細を鮮明にする。 提案モデルはDice,IoU,PSNR,SSIM,SEGSRNetなどの現行モデルより優れている。 SEGSRNetは、画像の解像度と正確なセグメンテーションを提供し、外科的精度と患者のケア結果を大幅に向上させることができる。

SEGSRNet addresses the challenge of precisely identifying surgical instruments in low-resolution stereo endoscopic images, a common issue in medical imaging and robotic surgery. Our innovative framework enhances image clarity and segmentation accuracy by applying state-of-the-art super-resolution techniques before segmentation. This ensures higher-quality inputs for more precise segmentation. SEGSRNet combines advanced feature extraction and attention mechanisms with spatial processing to sharpen image details, which is significant for accurate tool identification in medical images. Our proposed model outperforms current models including Dice, IoU, PSNR, and SSIM, SEGSRNet where it produces clearer and more accurate images for stereo endoscopic surgical imaging. SEGSRNet can provide image resolution and precise segmentation which can significantly enhance surgical accuracy and patient care outcomes.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# グローバルデジタル民主主義によるグローバルデジタルプラットフォーム構築のための草の根アーキテクチャ

A Grassroots Architecture to Supplant Global Digital Platforms by a Global Digital Democracy ( http://arxiv.org/abs/2404.13468v3 )

ライセンス: Link先を確認
Ehud Shapiro, (参考訳) 我々は、地域デジタルコミュニティの社会的、経済的、市民的、政治的ニーズ、およびそれらの連合を支援するために設計された、草の根と呼ばれるグローバルデジタルプラットフォームに対するアーキテクチャ上の代替案を提示する。 Grassrootsプラットフォームは、地域コミュニティにグローバルデジタルプラットフォームに代わるものを提供し、メンバーのスマートフォンでのみ運用し、ネットワーク自体以外のグローバルリソースを禁止します。 このような共同体は、初期資本や外部クレジットなしでデジタル経済を形成し、主権的な民主主義と連邦を行使し、最終的にはグローバルなデジタル民主主義の草の根を形成する。

We present an architectural alternative to global digital platforms termed grassroots, designed to serve the social, economic, civic, and political needs of local digital communities, as well as their federation. Grassroots platforms may offer local communities an alternative to global digital platforms while operating solely on the smartphones of their members, forsaking any global resources other than the network itself. Such communities may form digital economies without initial capital or external credit, exercise sovereign democratic governance, and federate, ultimately resulting in the grassroots formation of a global digital democracy.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# Bt-GAN: Bias-transforming Generative Adversarial Networksによる公正な合成健康データの生成

Bt-GAN: Generating Fair Synthetic Healthdata via Bias-transforming Generative Adversarial Networks ( http://arxiv.org/abs/2404.13634v3 )

ライセンス: Link先を確認
Resmi Ramachandranpillai, Md Fahim Sikder, David Bergström, Fredrik Heintz, (参考訳) 合成データ生成は、現実的な非識別データを生成することにより、電子医療記録(EHR)の有用性を高めるための有望なソリューションを提供する。 しかし、既存の文献は、下流予測における公平性の重要な側面を無視して、合成健康データの品質に重点を置いている。 その結果、合成EHRで訓練されたモデルは、目標タスクにおいてバイアスのある結果を生み出すという批判に直面している。 これらのバイアスは、特徴間の急激な相関や、サブグループを正確に表現するモデルの失敗から生じることがある。 これらの問題に対処するために、医療領域向けに設計されたGANベースの合成データ生成装置であるBt-GAN(Bias-transforming Generative Adversarial Networks)を提案する。 素早い相関に挑戦するために i) 情報制約付きデータ生成プロセスを提案し, アルゴリズムの公正性の概念に基づいて, 生成者が公正な決定論的変換を学習できるようにする。 正確な部分群表現の取得という課題を克服する (II) スコアベース重み付けサンプリングにより, サブグループ密度を保ち, ジェネレータにインセンティブを与える。 このアプローチは、データ多様体の未表現領域から学習するジェネレータを補完する。 我々はMIMIC-IIIデータベースを用いて広範囲にわたる実験を行った。 以上の結果から,Bt-GANはSOTAの精度を向上し,公平性を向上し,バイアス増幅を最小化できることがわかった。 また,本研究の有効性を裏付ける証拠として,詳細な説明可能性分析を行った。 そこで本研究では,医療領域における合成データ生成の限界に対処するための,新規かつ専門的なアプローチを提案する。 公平性を考慮し、GANのような高度な技術を活用することで、医療応用における信頼性と偏見のない予測の道を開く。

Synthetic data generation offers a promising solution to enhance the usefulness of Electronic Healthcare Records (EHR) by generating realistic de-identified data. However, the existing literature primarily focuses on the quality of synthetic health data, neglecting the crucial aspect of fairness in downstream predictions. Consequently, models trained on synthetic EHR have faced criticism for producing biased outcomes in target tasks. These biases can arise from either spurious correlations between features or the failure of models to accurately represent sub-groups. To address these concerns, we present Bias-transforming Generative Adversarial Networks (Bt-GAN), a GAN-based synthetic data generator specifically designed for the healthcare domain. In order to tackle spurious correlations (i), we propose an information-constrained Data Generation Process that enables the generator to learn a fair deterministic transformation based on a well-defined notion of algorithmic fairness. To overcome the challenge of capturing exact sub-group representations (ii), we incentivize the generator to preserve sub-group densities through score-based weighted sampling. This approach compels the generator to learn from underrepresented regions of the data manifold. We conduct extensive experiments using the MIMIC-III database. Our results demonstrate that Bt-GAN achieves SOTA accuracy while significantly improving fairness and minimizing bias amplification. We also perform an in-depth explainability analysis to provide additional evidence supporting the validity of our study. In conclusion, our research introduces a novel and professional approach to addressing the limitations of synthetic data generation in the healthcare domain. By incorporating fairness considerations and leveraging advanced techniques such as GANs, we pave the way for more reliable and unbiased predictions in healthcare applications.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# ArtNeRF: 3次元認識型顔合成のためのスティル化ニューラルネットワーク

ArtNeRF: A Stylized Neural Field for 3D-Aware Cartoonized Face Synthesis ( http://arxiv.org/abs/2404.13711v2 )

ライセンス: Link先を確認
Zichen Tang, Hongyu Yang, (参考訳) 生成的視覚モデルとニューラルラディアンスフィールドの最近の進歩は、3D認識画像合成とスタイリングタスクを大幅に向上させた。 しかし、これまでのNeRFベースの作品は単一シーンのスタイリングに限られており、任意のスタイルで3D対応のマンガ顔を生成するためのモデルを訓練することは未解決のままである。 この問題に対処するために, 3D 対応 GAN から派生した新しい顔スタイリングフレームワーク ArtNeRF を提案する。 本研究では,表現型ジェネレータを用いてスタイリングされた顔とトリプルブランチ識別器モジュールを合成し,生成した顔の視覚的品質とスタイルの整合性を改善する。 具体的には、コントラスト学習に基づくスタイルエンコーダを利用して、様々なスタイルの知識を生かして、スタイル画像のロバストな低次元埋め込みを抽出する。 ドメイン間移動学習の学習プロセスを円滑にするために,スタイル情報を注入し,ユーザが自由にスタイリングのレベルを調整できる適応型スタイルブレンディングモジュールを提案する。 さらに、高解像度の画像の効率的なリアルタイムレンダリングを実現するためのニューラルネットワークレンダリングモジュールを導入する。 大規模な実験により、ArtNeRFは任意のスタイルで高品質な3D対応マンガの顔を生成するのに汎用的であることが示された。

Recent advances in generative visual models and neural radiance fields have greatly boosted 3D-aware image synthesis and stylization tasks. However, previous NeRF-based work is limited to single scene stylization, training a model to generate 3D-aware cartoon faces with arbitrary styles remains unsolved. We propose ArtNeRF, a novel face stylization framework derived from 3D-aware GAN to tackle this problem. In this framework, we utilize an expressive generator to synthesize stylized faces and a triple-branch discriminator module to improve the visual quality and style consistency of the generated faces. Specifically, a style encoder based on contrastive learning is leveraged to extract robust low-dimensional embeddings of style images, empowering the generator with the knowledge of various styles. To smooth the training process of cross-domain transfer learning, we propose an adaptive style blending module which helps inject style information and allows users to freely tune the level of stylization. We further introduce a neural rendering module to achieve efficient real-time rendering of images with higher resolutions. Extensive experiments demonstrate that ArtNeRF is versatile in generating high-quality 3D-aware cartoon faces with arbitrary styles.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# 説明可能なAIが人間のパフォーマンスにどのように影響するか:サリエンシマップの行動結果の体系的レビュー

How explainable AI affects human performance: A systematic review of the behavioural consequences of saliency maps ( http://arxiv.org/abs/2404.16042v2 )

ライセンス: Link先を確認
Romy Müller, (参考訳) 透明性マップは、ディープニューラルネットワークがどのように画像を分類するかを説明することができる。 しかし、実際には人間にとって役に立つのだろうか? 68のユーザスタディの体系的なレビューでは、サリエンシマップは人間のパフォーマンスを向上させるが、ヌル効果やコストさえも非常に一般的であることがわかった。 これらの効果をどう調節するかを調べるために、人間のタスク、AIパフォーマンス、XAIメソッド、分類対象の画像、人間の参加者、比較条件に関連するいくつかの要因に沿って実験結果が編成された。 イメージ中心のタスクでは、AI中心のタスクよりもメリットは一般的ではなかったが、その効果は特定の認知的要求に依存していた。 さらに、AIに焦点を当てたタスクではAI予測の誤りに制限されるが、画像に焦点を当てたタスクでは修正される。 XAI関連の要因は驚くほど少なかった。 証拠は画像関連因子と人間関連因子に限られており、その効果は比較条件に大きく依存していた。 これらの知見は、将来のユーザ研究の設計を支援する可能性がある。

Saliency maps can explain how deep neural networks classify images. But are they actually useful for humans? The present systematic review of 68 user studies found that while saliency maps can enhance human performance, null effects or even costs are quite common. To investigate what modulates these effects, the empirical outcomes were organised along several factors related to the human tasks, AI performance, XAI methods, images to be classified, human participants and comparison conditions. In image-focused tasks, benefits were less common than in AI-focused tasks, but the effects depended on the specific cognitive requirements. Moreover, benefits were usually restricted to incorrect AI predictions in AI-focused tasks but to correct ones in image-focused tasks. XAI-related factors had surprisingly little impact. The evidence was limited for image- and human-related factors and the effects were highly dependent on the comparison conditions. These findings may support the design of future user studies.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-26
# 測定によるテンソルネットワーク状態の有限深さ生成

Finite-Depth Preparation of Tensor Network States from Measurement ( http://arxiv.org/abs/2404.17087v1 )

ライセンス: Link先を確認
Rahul Sahay, Ruben Verresen, (参考訳) テンソルネットワーク状態は、幅広いエキゾチックな量子状態を構成するが、その実現は困難であり、しばしばシステムサイズとともに深度がスケールするリソースを必要とする。 本研究では,一ラウンドの計測とオンサイト・ユニタリフィードバックによる決定論的状態準備を実現するための局所テンソルの基準について検討する。 これらの基準を用いて、1次元と2次元で測定可能な状態の族を構築し、異なる対称性の破れ、対称性の保護、内在的なトポロジ的位相の調整を行う。 例えば、1次元では、AKLT、クラスタ、GHZおよび他の関心のある状態の間を補間する準備可能な状態の3パラメータの族をグラフ化します。 我々のプロトコルは、様々な所望の相関長と絡み合い特性を持つ準備可能な量子状態を設計することさえできる。 このような構成的アプローチに加えて、測定により与えられたテンソルネットワーク状態が準備可能であるかどうかを検証するための診断手法を提案する。 本稿では,複数ラウンドの測定,行列積演算子の実装,不完全基底測定などの一般化を図解する。

Although tensor network states constitute a broad range of exotic quantum states, their realization is challenging and often requires resources whose depth scales with system size. In this work, we explore criteria on the local tensors for enabling deterministic state preparation via a single round of measurements and on-site unitary feedback. We use these criteria to construct families of measurement-preparable states in one and two dimensions, tuning between distinct symmetry-breaking, symmetry-protected, and intrinsic topological phases of matter. For instance, in one dimension we chart out a three-parameter family of preparable states which interpolate between the AKLT, cluster, GHZ and other states of interest. Our protocol even allows one to engineer preparable quantum states with a range of desired correlation lengths and entanglement properties. In addition to such constructive approaches, we present diagnostics for verifying whether a given tensor network state is preparable using measurements. We conclude by charting out generalizations, such as considering multiple rounds of measurements, implementing matrix product operators, and using incomplete basis measurements.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-26
# 画像浄化による敵攻撃に対するスパイクニューラルネットワークの防御

Defending Spiking Neural Networks against Adversarial Attacks through Image Purification ( http://arxiv.org/abs/2404.17092v1 )

ライセンス: Link先を確認
Weiran Chen, Qi Sun, Qi Xu, (参考訳) スパイキングニューラルネットワーク(SNN)は、人間の神経系の構造をエミュレートすることによって、神経科学と機械学習のギャップを埋めることを目的としている。 しかし、畳み込みニューラルネットワークのように、SNNは敵の攻撃に対して脆弱である。 そこで我々は,SNNのロバスト性を高め,視覚マスキング効果とフィルタリング理論から洞察を引き出す生物学的にインスピレーションを得た手法を提案する。 まず、ノイズ抽出ネットワークや非盲検ネットワークを含む敵対的攻撃に対して、エンド・ツー・エンドのSNNによる画像浄化モデルを提案する。 前者のネットワークはノイズ画像からノイズ特徴を抽出し、後者のコンポーネントは残留なU-Net構造を用いて高品質なノイズ画像を再構成し、クリーンな画像を生成する。 同時に、Squeeze-and-Excitation Networkに基づくマルチレベル発火SNNを導入し、分類器の堅牢性を向上させる。 重要なことは、提案された画像浄化ネットワークが前処理モジュールとして機能し、分類器の変更を避けることである。 敵の訓練と異なり、我々の手法は柔軟であり、他の防衛戦略とシームレスに統合できる。 提案手法は, 防衛効果, 訓練時間, 資源消費の面で, 最先端のベースラインよりも優れていることを示す。

Spiking Neural Networks (SNNs) aim to bridge the gap between neuroscience and machine learning by emulating the structure of the human nervous system. However, like convolutional neural networks, SNNs are vulnerable to adversarial attacks. To tackle the challenge, we propose a biologically inspired methodology to enhance the robustness of SNNs, drawing insights from the visual masking effect and filtering theory. First, an end-to-end SNN-based image purification model is proposed to defend against adversarial attacks, including a noise extraction network and a non-blind denoising network. The former network extracts noise features from noisy images, while the latter component employs a residual U-Net structure to reconstruct high-quality noisy images and generate clean images. Simultaneously, a multi-level firing SNN based on Squeeze-and-Excitation Network is introduced to improve the robustness of the classifier. Crucially, the proposed image purification network serves as a pre-processing module, avoiding modifications to classifiers. Unlike adversarial training, our method is highly flexible and can be seamlessly integrated with other defense strategies. Experimental results on various datasets demonstrate that the proposed methodology outperforms state-of-the-art baselines in terms of defense effectiveness, training time, and resource consumption.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-26
# ウェブ・アンパック : グローバルウェブ利用の定量的分析

The Web unpacked: a quantitative analysis of global Web usage ( http://arxiv.org/abs/2404.17095v1 )

ライセンス: Link先を確認
Henrique S. Xavier, (参考訳) 本稿では,Webトラフィックを推定する主要な情報源であるSimis Webのデータをもとに,グローバルなWeb利用パターンを包括的に分析する。 25万以上のWebサイトからなるデータセットを活用して、Webトラフィックの総量を推定し、ドメインや業界セクター間でのその分布を調査する。 ウェブトラフィックの3分の1を占めるトップ116ドメインの特徴について詳述する。 分析では、コンテンツソースやタイプ、アクセス要件、オフライン存在、オーナシップ機能など、これらのドメインのさまざまな属性を精査する。 分析の結果,Webトラフィックが著しく集中していることが判明した。 検索エンジン、ニュース、メディア、ソーシャルネットワーク、ストリーミング、そしてアダルトコンテンツがウェブトラフィックの主要な魅力として浮上し、プラットフォームや米国が所有するウェブサイトにも集中している。 トラフィックの大部分は営利目的のウェブサイトだが、ほとんどが無料のウェブサイトに流れており、有料の壁をベースとしないビジネスモデルの優位性を強調している。

This paper presents a comprehensive analysis of global web usage patterns based on data from SimilarWeb, a leading source for estimating web traffic. Leveraging a dataset comprising over 250,000 websites, we estimate the total web traffic and investigate its distribution among domains and industry sectors. We detail the characteristics of the top 116 domains, which comprise an estimated one-third of all web traffic. Our analysis scrutinizes various attributes of these domains, including their content sources and types, access requirements, offline presence, and ownership features. Our analysis reveals a significant concentration of web traffic, with a diminutive number of top websites capturing the majority of visits. Search engines, news and media, social networks, streaming, and adult content emerge as primary attractors of web traffic, which is also highly concentrated on platforms and USA-owned websites. Much of the traffic goes to for-profit but mostly free-of-charge websites, highlighting the dominance of business models not based on paywalls.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-26
# CLARE:マルチモーダルデータを用いたリアルタイムの認知的負荷評価

CLARE: Cognitive Load Assessment in REaltime with Multimodal Data ( http://arxiv.org/abs/2404.17098v1 )

ライセンス: Link先を確認
Anubhav Bhatti, Prithila Angkan, Behnam Behinaein, Zunayed Mahmud, Dirk Rodenburg, Heather Braund, P. James Mclellan, Aaron Ruberto, Geoffery Harrison, Daryl Wilson, Adam Szulewski, Dan Howes, Ali Etemad, Paul Hungler, (参考訳) 本稿では,Realtime(CLARE)における認知負荷評価のための新しいマルチモーダルデータセットを提案する。 このデータセットには、自己報告された認知負荷スコアを持つ24人の被験者の生理的および視力的なデータが含まれている。 このデータセットは、心電図(ECG)、心電図(EDA)、脳波(EEG)、迷路追跡の4つのモードから構成される。 実験参加者のメンタルロードのさまざまなレベルをマッピングするために、参加者はコンピュータベースのオペレーターのパフォーマンスとメンタルワークロードタスク(MATB-IIソフトウェア)の4つの9分間のセッションを完了した。 実験中、参加者は認知負荷を10秒毎に報告した。 データセットには、機械学習とディープラーニングモデルによるベンチマークバイナリ分類結果、すなわち10倍と1桁のオブジェクトアウト(LOSO)クロスバリデーションの2つの異なる評価スキームも提供します。 ベンチマークの結果から、畳み込みニューラルネットワーク(CNN)に基づくディープラーニングモデルでは、ECG、EDA、Gazeで最高の分類性能が得られることが示された。 対照的に、LOSOでは、ECG、EDA、EEGを用いたディープラーニングモデルによって、最高のパフォーマンスが達成されます。

We present a novel multimodal dataset for Cognitive Load Assessment in REaltime (CLARE). The dataset contains physiological and gaze data from 24 participants with self-reported cognitive load scores as ground-truth labels. The dataset consists of four modalities, namely, Electrocardiography (ECG), Electrodermal Activity (EDA), Electroencephalogram (EEG), and Gaze tracking. To map diverse levels of mental load on participants during experiments, each participant completed four nine-minutes sessions on a computer-based operator performance and mental workload task (the MATB-II software) with varying levels of complexity in one minute segments. During the experiment, participants reported their cognitive load every 10 seconds. For the dataset, we also provide benchmark binary classification results with machine learning and deep learning models on two different evaluation schemes, namely, 10-fold and leave-one-subject-out (LOSO) cross-validation. Benchmark results show that for 10-fold evaluation, the convolutional neural network (CNN) based deep learning model achieves the best classification performance with ECG, EDA, and Gaze. In contrast, for LOSO, the best performance is achieved by the deep learning model with ECG, EDA, and EEG.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# FRONDを用いたグラフニューラルネットワークにおける分数計算の可能性

Unleashing the Potential of Fractional Calculus in Graph Neural Networks with FROND ( http://arxiv.org/abs/2404.17099v1 )

ライセンス: Link先を確認
Qiyu Kang, Kai Zhao, Qinxu Ding, Feng Ji, Xuhao Li, Wenfei Liang, Yang Song, Wee Peng Tay, (参考訳) 本稿では,新しい連続グラフニューラルネットワーク(GNN)フレームワークであるFRactional-Order graph Neural Dynamical Network (FROND)を紹介する。 整数階微分方程式に依存する伝統的な連続GNNとは異なり、FRONDは分数計算の非局所的性質を利用するためにカプトー分数微分を用いる。 このアプローチは、機能更新における長期的な依存関係のキャプチャを可能にし、従来の整数順序モデルのマルコフ更新メカニズムを超えて、グラフ表現学習の強化機能を提供する。 本研究では,FRONDにおけるノード特徴更新プロセスの解釈を,非マルコフランダムウォークの観点から解釈する。 この設定で過度なスムース化を緩和できることを解析的に実証する。 実験により、確立された整数階連続GNNの分数適応を比較し、その一貫した性能を実証し、従来の連続GNNを強化する効果的な拡張としてフレームワークの可能性を示すことにより、FRONDフレームワークの有効性を検証する。 コードは \url{https://github.com/zknus/ICLR2024-FROND} で公開されている。

We introduce the FRactional-Order graph Neural Dynamical network (FROND), a new continuous graph neural network (GNN) framework. Unlike traditional continuous GNNs that rely on integer-order differential equations, FROND employs the Caputo fractional derivative to leverage the non-local properties of fractional calculus. This approach enables the capture of long-term dependencies in feature updates, moving beyond the Markovian update mechanisms in conventional integer-order models and offering enhanced capabilities in graph representation learning. We offer an interpretation of the node feature updating process in FROND from a non-Markovian random walk perspective when the feature updating is particularly governed by a diffusion process. We demonstrate analytically that oversmoothing can be mitigated in this setting. Experimentally, we validate the FROND framework by comparing the fractional adaptations of various established integer-order continuous GNNs, demonstrating their consistently improved performance and underscoring the framework's potential as an effective extension to enhance traditional continuous GNNs. The code is available at \url{https://github.com/zknus/ICLR2024-FROND}.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 人間の表情に敏感なプロンプトを用いたオープンセット映像による表情認識

Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting ( http://arxiv.org/abs/2404.17100v1 )

ライセンス: Link先を確認
Yuanyuan Liu, Yuxuan Huang, Shuyang Liu, Yibing Zhan, Zijing Chen, Zhe Chen, (参考訳) ビデオベースの表情認識(V-FER)では、モデルは通常、一定の数の既知のクラスを持つクローズドセットデータセットで訓練される。 しかし、これらのV-FERモデルは現実世界のシナリオでよく見られる未知のクラスを扱うことはできない。 本稿では,オープンセット映像に基づく表情認識(OV-FER)課題について紹介する。 既存のアプローチでは、CLIPのような大規模視覚言語モデルを利用して未確認クラスを識別することで、オープンセット認識に対処しているが、これらの手法はOV-FERタスクで要求されるニュアンスで微妙な人間の表現パターンを適切に捉えていない。 この制限に対処するために,CLIPの表情の詳細を効果的にモデル化する能力を大幅に向上させる新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。 提案するHESPは3つのコンポーネントから構成される。 1) 学習可能なプロンプト表現を備えたテキストプロンプトモジュールは、元のCLIPテキストプロンプトを補完し、既知の感情と未知の感情の両方のテキスト表現を強化する。 2) 表情に敏感な注意を用いて映像フレームから時間的情動情報をエンコードする視覚的プロンプトモジュールで, 感情に富む情報を抽出する新たな視覚的モデリング機能を備えたCLIPを装備する。 3) テキストと視覚のプロンプトモジュール間の相互作用を促進・促進する,繊細に設計されたマルチタスク学習方式である。 4つのOV-FERタスク設定で実施された大規模な実験により、HESPはCLIPのパフォーマンスを大幅に向上させる(AUROCでは17.93%、OSCRでは106.18%)。

In Video-based Facial Expression Recognition (V-FER), models are typically trained on closed-set datasets with a fixed number of known classes. However, these V-FER models cannot deal with unknown classes that are prevalent in real-world scenarios. In this paper, we introduce a challenging Open-set Video-based Facial Expression Recognition (OV-FER) task, aiming at identifying not only known classes but also new, unknown human facial expressions not encountered during training. While existing approaches address open-set recognition by leveraging large-scale vision-language models like CLIP to identify unseen classes, we argue that these methods may not adequately capture the nuanced and subtle human expression patterns required by the OV-FER task. To address this limitation, we propose a novel Human Expression-Sensitive Prompting (HESP) mechanism to significantly enhance CLIP's ability to model video-based facial expression details effectively, thereby presenting a new CLIP-based OV-FER approach. Our proposed HESP comprises three components: 1) a textual prompting module with learnable prompt representations to complement the original CLIP textual prompts and enhance the textual representations of both known and unknown emotions, 2) a visual prompting module that encodes temporal emotional information from video frames using expression-sensitive attention, equipping CLIP with a new visual modeling ability to extract emotion-rich information, 3) a delicately designed open-set multi-task learning scheme that facilitates prompt learning and encourages interactions between the textual and visual prompting modules. Extensive experiments conducted on four OV-FER task settings demonstrate that HESP can significantly boost CLIP's performance (a relative improvement of 17.93% on AUROC and 106.18% on OSCR) and outperform other state-of-the-art open-set video understanding methods by a large margin.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# カメラは見ないで! 視線を感知する

Don't Look at the Camera: Achieving Perceived Eye Contact ( http://arxiv.org/abs/2404.17104v1 )

ライセンス: Link先を確認
Alice Gao, Samyukta Jayakumar, Marcello Maniglia, Brian Curless, Ira Kemelmacher-Shlizerman, Aaron R. Seitz, Steven M. Seitz, (参考訳) 本研究では、被写体をカメラで捉えて2Dディスプレイに映し出す際に、眼球接触の知覚をいかに最大限に達成するかという課題について考察する。 カメラで撮影された1つの被写体について、従来の知恵は、カメラを直接見て眼球に接触すると教えてくれる。 経験的ユーザスタディを通じて、カメラレンズのすぐ下を見ることが好ましいことを示す。 被験者は視線をカメラレンズと比較して視線を向けるべきかを定量的に評価し、視線接触の知覚を最適化する。

We consider the question of how to best achieve the perception of eye contact when a person is captured by camera and then rendered on a 2D display. For single subjects photographed by a camera, conventional wisdom tells us that looking directly into the camera achieves eye contact. Through empirical user studies, we show that it is instead preferable to {\em look just below the camera lens}. We quantitatively assess where subjects should direct their gaze relative to a camera lens to optimize the perception that they are making eye contact.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 生成的対立ネットワークを用いたアイリス画像の合成:調査と比較分析

Synthesizing Iris Images using Generative Adversarial Networks: Survey and Comparative Analysis ( http://arxiv.org/abs/2404.17105v1 )

ライセンス: Link先を確認
Shivangi Yadav, Arun Ross, (参考訳) 虹彩認識に基づく生体認証システムは、現在、国境管理アプリケーションやモバイルデバイスで使用されている。 しかしながら、虹彩認識の研究は、ボナフィドイリドのデータセットの制限や、プレゼンテーション攻撃装置、クラス内変異の制限、プライバシー上の懸念など、様々な要因によって妨げられている。 これらの問題のいくつかは、合成虹彩データを使用することによって緩和することができる。 本稿では,現在最先端のGANベースの合成虹彩画像生成技術について概観的なレビューを行い,現実的かつ有用な虹彩画像の生成における強度と限界を評価し,虹彩認識システムとプレゼンテーション攻撃検出装置の両方に使用できることを示す。 そこで本研究では,合成虹彩生成に使用されてきた各種手法をまず調査し,StyleGAN,RaSGAN,CIT-GAN,iWarpGAN,StarGANなどに基づくジェネレータについて検討する。 次に、これらのモデルが生成した画像から、現実主義、一意性、生体的有用性について分析する。 この包括的分析は、堅牢な虹彩マッチング器や提示攻撃検出器の開発という文脈において、様々なGANの長所と短所を強調している。

Biometric systems based on iris recognition are currently being used in border control applications and mobile devices. However, research in iris recognition is stymied by various factors such as limited datasets of bonafide irides and presentation attack instruments; restricted intra-class variations; and privacy concerns. Some of these issues can be mitigated by the use of synthetic iris data. In this paper, we present a comprehensive review of state-of-the-art GAN-based synthetic iris image generation techniques, evaluating their strengths and limitations in producing realistic and useful iris images that can be used for both training and testing iris recognition systems and presentation attack detectors. In this regard, we first survey the various methods that have been used for synthetic iris generation and specifically consider generators based on StyleGAN, RaSGAN, CIT-GAN, iWarpGAN, StarGAN, etc. We then analyze the images generated by these models for realism, uniqueness, and biometric utility. This comprehensive analysis highlights the pros and cons of various GANs in the context of developing robust iris matchers and presentation attack detectors.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 二音駆動における干渉によるレベルアトラクション

Level attraction from interference in two-tone driving ( http://arxiv.org/abs/2404.17108v1 )

ライセンス: Link先を確認
Alan Gardin, Guillaume Bourcin, Christian Person, Christophe Fumeaux, Romain Lebrun, Isabella Boventer, Giuseppe C. Tettamanzi, Vincent Castel, (参考訳) それぞれエネルギーレベルの反発とアトラクションによって特徴づけられるコヒーレント結合と散逸結合は、それぞれ異なる量子情報処理への応用を持っている。 したがって、コヒーレントカップリングと散逸カップリングの両方をオンデマンドで調整し、その場でタンタライズするシステムである。 この目標に向けた最初のステップは、2つのボソニックモードの2トーン駆動であり、実験的なシグネチャは1つのドライブの位相と振幅を変化させることで、制御可能なレベル反発とアトラクションを示すことが示されている。 しかしながら、基礎となる物理学がコヒーレントで散逸的なカップリングであるか否かは明らかにされておらず、系の測定された共鳴(または反共鳴)からのみ結論付けることはできない。 ここでは、物理が理論的にどのように解析されるかを示す。 この理論と現実的な有限要素シミュレーションを組み合わせることで、レベルアトラクションの観測は測定装置による干渉に起因するものであり、散逸結合ではないと推定する。 干渉によるアトラクションの新たな起源の解明に加えて、我々の研究は、ハミルトニアンが物理学を適切に記述するためにいかに効果的に導出できるかを実証した。

Coherent and dissipative couplings, respectively characterised by energy level repulsion and attraction, each have different applications for quantum information processing. Thus, a system in which both coherent and dissipative couplings are tunable on-demand and in-situ is tantalising. A first step towards this goal is the two-tone driving of two bosonic modes, whose experimental signature was shown to exhibit controllable level repulsion and attraction by changing the phase and amplitude of one drive. However, whether the underlying physics is that of coherent and dissipative couplings has not been clarified, and cannot be concluded solely from the measured resonances (or anti-resonances) of the system. Here, we show how the physics at play can be analysed theoretically. Combining this theory with realistic finite-element simulations, we deduce that the observation of level attraction originates from interferences due to the measurement setup, and not dissipative coupling. Beyond the clarification of a novel origin for level attraction attributed to interference, our work demonstrate how effective Hamiltonians can be derived to appropriately describe the physics.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 低リソース言語におけるソフトウェア脆弱性予測:CodeBERTとChatGPTの実証的研究

Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT ( http://arxiv.org/abs/2404.17110v1 )

ライセンス: Link先を確認
Triet H. M. Le, M. Ali Babar, Tung Hoang Thai, (参考訳) 背景: 新興言語におけるソフトウェア脆弱性(SV)予測は、現代のシステムにおけるソフトウェアセキュリティを保証するためにますます重要になっている。 しかし、これらの言語は通常、高性能な予測モデルを開発するために限られたSVデータを持っている。 Aims: 新興言語におけるSVデータ不足が最先端のSV予測モデルに与える影響を実証的に評価し, 性能向上のための潜在的解決策を検討する。 メソッド: 私たちは、Kotlin、Swift、Rustの3つの低リソース言語で関数レベルのSV予測とラインレベルのSV予測のためのデータサンプリングテクニックを使用せずに、CodeBERTに基づいた最先端モデルのトレーニングとテストを行います。 また,他の領域での最近の成功を踏まえ,低リソースSV予測におけるChatGPTの有効性を評価した。 結果: C/C++の大規模データと比較すると,機能レベルとラインレベルのSV予測の性能は低リソース言語では著しく低下し,データ不足による負の影響が示唆された。 一方、ChatGPTは有望な結果を示し、関数レベルでは34.4%、ラインレベルでは53.5%まで予測性能を大幅に向上させた。 結論:我々はこの課題を強調し、低リソースのSV予測の最初の有望なステップを踏み出した。

Background: Software Vulnerability (SV) prediction in emerging languages is increasingly important to ensure software security in modern systems. However, these languages usually have limited SV data for developing high-performing prediction models. Aims: We conduct an empirical study to evaluate the impact of SV data scarcity in emerging languages on the state-of-the-art SV prediction model and investigate potential solutions to enhance the performance. Method: We train and test the state-of-the-art model based on CodeBERT with and without data sampling techniques for function-level and line-level SV prediction in three low-resource languages - Kotlin, Swift, and Rust. We also assess the effectiveness of ChatGPT for low-resource SV prediction given its recent success in other domains. Results: Compared to the original work in C/C++ with large data, CodeBERT's performance of function-level and line-level SV prediction significantly declines in low-resource languages, signifying the negative impact of data scarcity. Regarding remediation, data sampling techniques fail to improve CodeBERT; whereas, ChatGPT showcases promising results, substantially enhancing predictive performance by up to 34.4% for the function level and up to 53.5% for the line level. Conclusion: We have highlighted the challenge and made the first promising step for low-resource SV prediction, paving the way for future research in this direction.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# MER 2024: 半教師付き学習, ノイズロバスト性, オープン語彙マルチモーダル感情認識

MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition ( http://arxiv.org/abs/2404.17113v1 )

ライセンス: Link先を確認
Zheng Lian, Haiyang Sun, Licai Sun, Zhuofan Wen, Siyuan Zhang, Shun Chen, Hao Gu, Jinming Zhao, Ziyang Ma, Xie Chen, Jiangyan Yi, Rui Liu, Kele Xu, Bin Liu, Erik Cambria, Guoying Zhao, Björn W. Schuller, Jianhua Tao, (参考訳) マルチモーダル感情認識は人工知能における重要な研究課題である。 過去数十年間、研究者はデータセットのサイズを拡大し、より効果的なアーキテクチャを構築することで驚くべき進歩を遂げてきた。 しかし、様々な理由(複雑な環境や不正確なラベルなど)により、現在のシステムは依然として実用アプリケーションの要求を満たすことができない。 そこで我々は,この分野の発展を促進するために,感情認識に関する一連の課題を整理する。 昨年、私たちはMER2023を立ち上げ、マルチラベル学習、ノイズの堅牢性、半教師付き学習という3つのトピックに焦点を当てました。 今年もMER2024を組織し続けます。 データセットサイズの拡大に加えて、オープン語彙感情認識に関する新たなトラックを導入する。 このトラックの主な考慮事項は、既存のデータセットがしばしばラベル空間を固定し、アノテータの一貫性を高めるために過半数投票を使用することであるが、このプロセスは微妙な感情を記述するモデルの能力を制限する可能性がある。 本トラックでは,登場人物の感情状態を極力正確に表現することを目的として,どのカテゴリーのラベルでも生成することを推奨する。 私たちのベースラインはMERToolsに基づいており、コードはhttps://github.com/zeroQiaoba/MERTools/tree/master/MER2024で利用可能です。

Multimodal emotion recognition is an important research topic in artificial intelligence. Over the past few decades, researchers have made remarkable progress by increasing dataset size and building more effective architectures. However, due to various reasons (such as complex environments and inaccurate labels), current systems still cannot meet the demands of practical applications. Therefore, we plan to organize a series of challenges around emotion recognition to further promote the development of this field. Last year, we launched MER2023, focusing on three topics: multi-label learning, noise robustness, and semi-supervised learning. This year, we continue to organize MER2024. In addition to expanding the dataset size, we introduce a new track around open-vocabulary emotion recognition. The main consideration for this track is that existing datasets often fix the label space and use majority voting to enhance annotator consistency, but this process may limit the model's ability to describe subtle emotions. In this track, we encourage participants to generate any number of labels in any category, aiming to describe the character's emotional state as accurately as possible. Our baseline is based on MERTools and the code is available at: https://github.com/zeroQiaoba/MERTools/tree/master/MER2024.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 360度画像の水平平面投影による棚上パレットの局在

Localization of Pallets on Shelves Using Horizontal Plane Projection of a 360-degree Image ( http://arxiv.org/abs/2404.17118v1 )

ライセンス: Link先を確認
Yasuyo Kita, Yudai Fujieda, Ichiro Matsuda, Nobuyuki Kita, (参考訳) 本稿では、360度カメラを用いて、フォークリフトトラックの側面の棚に置かれるパレットの3次元3次元位置と配向を計算する方法を提案する。 フォークリフトトラックに搭載された360度カメラを用いることで、フォークリフトの側面にあるパレットと、数メートル先にあるパレットの両方を観察することができる。 しかし、得られた画像上のパレットは、その3次元位置によって異なる歪みで観察されるため、画像からパレットを抽出することは困難である。 この問題を解決するために、棚の正面と一致する垂直面に360度画像を投影して、棚の正面から見える画像に似た画像を計算することによって、パレットを検出する方法[1]が提案されている。 検出と同時に、検出されたパレットの近似位置と方位を求めることができるが、フォークリフトトラックの自動制御には精度が不十分である。 本論文では,検出されたパレットの表面の境界線を含む水平面に360度画像を投影することにより,水平面におけるパレットの前面の角度であるヨー角を正確に検出する手法を提案する。 また、検出されたヨー角を有する垂直面を前後に移動させることでパレットの位置を判定し、垂直面上の投影画像とパレットの前面の実際の大きさとの一致度を最大化する位置を求める。 実験室と倉庫で撮影された実画像を用いて実験した結果, 提案手法は, パレットの位置と向きを合理的な計算時間内に計算し, パレットの前方孔にフォークを挿入するのに必要な精度で計算できることが確認された。

In this paper, we propose a method for calculating the three-dimensional (3D) position and orientation of a pallet placed on a shelf on the side of a forklift truck using a 360-degree camera. By using a 360-degree camera mounted on the forklift truck, it is possible to observe both the pallet at the side of the forklift and one several meters ahead. However, the pallet on the obtained image is observed with different distortion depending on its 3D position, so that it is difficult to extract the pallet from the image. To solve this problem, a method [1] has been proposed for detecting a pallet by projecting a 360-degree image on a vertical plane that coincides with the front of the shelf to calculate an image similar to the image seen from the front of the shelf. At the same time as the detection, the approximate position and orientation of the detected pallet can be obtained, but the accuracy is not sufficient for automatic control of the forklift truck. In this paper, we propose a method for accurately detecting the yaw angle, which is the angle of the front surface of the pallet in the horizontal plane, by projecting the 360-degree image on a horizontal plane including the boundary line of the front surface of the detected pallet. The position of the pallet is also determined by moving the vertical plane having the detected yaw angle back and forth, and finding the position at which the degree of coincidence between the projection image on the vertical plane and the actual size of the front surface of the pallet is maximized. Experiments using real images taken in a laboratory and an actual warehouse have confirmed that the proposed method can calculate the position and orientation of a pallet within a reasonable calculation time and with the accuracy necessary for inserting the fork into the hole in the front of the pallet.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 言葉のナンセンス:大言語モデルによる敵対的ギバーリッシュ入力の理解

Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs ( http://arxiv.org/abs/2404.17120v1 )

ライセンス: Link先を確認
Valeriia Cherepanova, James Zou, (参考訳) 大規模言語モデル(LLM)は、人間の言語を理解する能力に優れていますが、私たちにとってジブベリと思える独自の言語も理解していますか? 本研究は,LLMにおけるそのような行動のメカニズムを明らかにすることを目的として,この問題を掘り下げるものである。 我々は、Greedy Coordinate Gradient Optimizationrを用いて、LLMを強制的に非感覚的な入力からコヒーレントな応答を生成するプロンプトを作成する。 我々はこれらの入力をLM Babelと呼び、これらのプロンプトによって操作されるLSMの挙動を体系的に研究する。 操作効率は対象のテキストの長さとパープレキシティに依存しており、バベルプロンプトは自然のプロンプトよりも小さい損失最小値に置かれることが多い。 さらに,Babelプロンプトの構造について検討し,その堅牢性を評価する。 特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。

Large language models (LLMs) exhibit excellent ability to understand human languages, but do they also understand their own language that appears gibberish to us? In this work we delve into this question, aiming to uncover the mechanisms underlying such behavior in LLMs. We employ the Greedy Coordinate Gradient optimizer to craft prompts that compel LLMs to generate coherent responses from seemingly nonsensical inputs. We call these inputs LM Babel and this work systematically studies the behavior of LLMs manipulated by these prompts. We find that the manipulation efficiency depends on the target text's length and perplexity, with the Babel prompts often located in lower loss minima compared to natural prompts. We further examine the structure of the Babel prompts and evaluate their robustness. Notably, we find that guiding the model to generate harmful texts is not more difficult than into generating benign texts, suggesting lack of alignment for out-of-distribution prompts.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 2M-NER:言語・モーダル融合を用いた多言語・多モーダルNERのコントラスト学習

2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion ( http://arxiv.org/abs/2404.17122v1 )

ライセンス: Link先を確認
Dongsheng Wang, Xiaoqin Feng, Zeming Liu, Chuan Wang, (参考訳) 名前付きエンティティ認識(NER)は、自然言語処理における基本的なタスクであり、文中のエンティティを事前に定義された型に識別し分類する。 エンティティリンク、質問応答、オンライン製品レコメンデーションなど、さまざまな研究分野で重要な役割を果たしている。 近年の研究では、多言語および多モーダルデータセットを組み込むことで、NERの有効性を高めることが示されている。 これは、言語伝達学習と異なるモダリティにまたがる暗黙的特徴の存在によるものである。 しかし、多言語主義と多モーダリティを組み合わせたデータセットの欠如は、多モーダリティが複数の言語で同時にNERに役立つため、これらの2つの側面を組み合わせる研究を妨げている。 本稿では,その潜在的な価値と影響を考慮して,多言語および多モーダルな名前付きエンティティ認識(MMNER)という,より困難な課題に対処することを目的とする。 具体的には、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)からなる大規模MMNERデータセットを構築した。 この課題に対処するため、2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合して、2つのモーダル間の相互作用を効果的に表現する。 実験結果から,本モデルが多言語・多モーダルNERタスクにおいて,比較ベースラインや代表ベースラインよりも高いF1スコアを達成できることが示唆された。 さらに、難解な分析では、文レベルのアライメントがNERモデルに大きく干渉していることが分かり、データセットの難易度が高いことがわかりました。

Named entity recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying entities in sentences into pre-defined types. It plays a crucial role in various research fields, including entity linking, question answering, and online product recommendation. Recent studies have shown that incorporating multilingual and multimodal datasets can enhance the effectiveness of NER. This is due to language transfer learning and the presence of shared implicit features across different modalities. However, the lack of a dataset that combines multilingualism and multimodality has hindered research exploring the combination of these two aspects, as multimodality can help NER in multiple languages simultaneously. In this paper, we aim to address a more challenging task: multilingual and multimodal named entity recognition (MMNER), considering its potential value and influence. Specifically, we construct a large-scale MMNER dataset with four languages (English, French, German and Spanish) and two modalities (text and image). To tackle this challenging MMNER task on the dataset, we introduce a new model called 2M-NER, which aligns the text and image representations using contrastive learning and integrates a multimodal collaboration module to effectively depict the interactions between the two modalities. Extensive experimental results demonstrate that our model achieves the highest F1 score in multilingual and multimodal NER tasks compared to some comparative and representative baselines. Additionally, in a challenging analysis, we discovered that sentence-level alignment interferes a lot with NER models, indicating the higher level of difficulty in our dataset.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 双方向ゲーテッド・リカレント・ユニット(GRU)モデルに基づくテキスト知覚分析と分類

Text Sentiment Analysis and Classification Based on Bidirectional Gated Recurrent Units (GRUs) Model ( http://arxiv.org/abs/2404.17123v1 )

ライセンス: Link先を確認
Wei Xu, Jianlong Chen, Zhicheng Ding, Jinyin Wang, (参考訳) 本稿では、自然言語処理分野におけるテキスト感情分析と分類の重要性を考察し、双方向ゲート再帰単位(GRU)モデルに基づく感情分析と分類の新しいアプローチを提案する。 この研究はまず、テキストの単語クラウドモデルを6つの感情ラベルで分析し、特別な記号、句読点、数字、停止語、非失語部分を削除するステップを含むデータ前処理を実行する。 その後、データセットをトレーニングセットとテストセットに分割し、モデルトレーニングとテストにより、トレーニングによって検証セットの精度が85%から93%に向上し、8%に向上し、同時に、検証セットの損失値が0.7から0.1に低下し、安定する傾向にあり、モデルは実際の値に徐々に接近し、テキスト感情を効果的に分類することができる。 混乱行列は、テストセット上のモデルの精度が94.8%、精度が95.9%、リコールが99.1%、F1スコアが97.4%に達し、モデルの一般化能力と分類効果が良好であることを証明している。 本研究は,テキストの感情分析と,満足な結果による分類に有効な方法を示した。

This paper explores the importance of text sentiment analysis and classification in the field of natural language processing, and proposes a new approach to sentiment analysis and classification based on the bidirectional gated recurrent units (GRUs) model. The study firstly analyses the word cloud model of the text with six sentiment labels, and then carries out data preprocessing, including the steps of removing special symbols, punctuation marks, numbers, stop words and non-alphabetic parts. Subsequently, the data set is divided into training set and test set, and through model training and testing, it is found that the accuracy of the validation set is increased from 85% to 93% with training, which is an increase of 8%; at the same time, the loss value of the validation set decreases from 0.7 to 0.1 and tends to be stable, and the model is gradually close to the actual value, which can effectively classify the text emotions. The confusion matrix shows that the accuracy of the model on the test set reaches 94.8%, the precision is 95.9%, the recall is 99.1%, and the F1 score is 97.4%, which proves that the model has good generalisation ability and classification effect. Overall, the study demonstrated an effective method for text sentiment analysis and classification with satisfactory results.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 線量予測のためのディープ・エビデンシャル・ラーニング

Deep Evidential Learning for Dose Prediction ( http://arxiv.org/abs/2404.17126v1 )

ライセンス: Link先を確認
Hai Siong Tan, Kuancheng Wang, Rafe Mcbeth, (参考訳) 本研究では,放射線治療用線量予測分野におけるDeep Evidential Learningと呼ばれる不確実性定量化フレームワークの新たな応用法を提案する。 オープン知識ベースプランニングチャレンジデータセットの医用画像を用いて,ネットワークトレーニング完了時の予測誤差と相関する不確実性推定を効果的に活用できることを見出した。 これは、安定した実装のためにオリジナルの損失関数を書き換えた後にのみ達成された。 私たちはそれを発見しました (i)局部的不確実性は予測誤差と高い相関を示し,モンテカルロ・ドロップアウト法やディープ・アンサンブル法と同程度あるいは強い相関指標を示した。 (II) 従来の2つの枠組みと比較して, 深層認知学習において, 不確実性閾値がより線形に変化し, モデル誤差に対するより均一な感度が示唆された。 3) てんかん性不確実性と関連して, 結節性不確実性は, CT強度に付加されたガウス雑音に応答して, より顕著な分布変化を示した。 以上の結果から,ディープ・エビデンシャル・ラーニング(Deep Evidential Learning)は,放射線治療用線量予測において,統計的ロバスト性を伴う深層学習モデルを実現する,有望なアプローチであることが示唆された。 臨床関連性を高めるために,予測されたドセ・ヴォルメ・ヒストグラムの信頼区間を構築するために,そのようなモデルをいかに利用できるかを実証する。

In this work, we present a novel application of an uncertainty-quantification framework called Deep Evidential Learning in the domain of radiotherapy dose prediction. Using medical images of the Open Knowledge-Based Planning Challenge dataset, we found that this model can be effectively harnessed to yield uncertainty estimates that inherited correlations with prediction errors upon completion of network training. This was achieved only after reformulating the original loss function for a stable implementation. We found that (i)epistemic uncertainty was highly correlated with prediction errors, with various association indices comparable or stronger than those for Monte-Carlo Dropout and Deep Ensemble methods, (ii)the median error varied with uncertainty threshold much more linearly for epistemic uncertainty in Deep Evidential Learning relative to these other two conventional frameworks, indicative of a more uniformly calibrated sensitivity to model errors, (iii)relative to epistemic uncertainty, aleatoric uncertainty demonstrated a more significant shift in its distribution in response to Gaussian noise added to CT intensity, compatible with its interpretation as reflecting data noise. Collectively, our results suggest that Deep Evidential Learning is a promising approach that can endow deep-learning models in radiotherapy dose prediction with statistical robustness. Towards enhancing its clinical relevance, we demonstrate how we can use such a model to construct the predicted Dose-Volume-Histograms' confidence intervals.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# プロセスマイニングの埋め込み:ペトリネットのためのベクトル表現の学習

Process Mining Embeddings: Learning Vector Representations for Petri Nets ( http://arxiv.org/abs/2404.17129v1 )

ライセンス: Link先を確認
Juan G. Colonna, Ahmed A. Fares, Márcio Duarte, Ricardo Sousa, (参考訳) プロセスマイニングは、現実世界のビジネスプロセスを発見し、分析し、拡張するための強力な技術を提供します。 この文脈では、ペトリネットはプロセスの振る舞いをモデル化する表現的な手段を提供する。 しかし、複雑なペトリネットを直接分析し比較することは困難である。 本研究では、Doc2Vecにインスパイアされた自然言語処理の概念に基づく、新しい教師なし方法論であるPetriNet2Vecを紹介し、埋め込みベクトルとして表されるプロセスモデルの効率的な比較、クラスタリング、分類を容易にする。 これらの埋め込みベクトルは、異なるプロセスモデル間の類似性と関係を定量化することができる。 提案手法は,96種類のペトリネットモデルを特徴とするPDCデータセットを用いて実験的に検証した。 我々はクラスタ分析を行い、UMAP視覚化を作成し、プロセスモデルとその構成タスク間の意味のあるパターンと関係を識別するペトリネット2Vecの能力を示すための決定木を訓練した。 一連の実験を通して、ペトリネット2Vecがペトリネットの構造や、データセットのプロセスモデルをシミュレートする主な特性を学習できることを実証した。 さらに,プロセスマイニングにおける2つの重要な下流タスク,すなわちプロセス分類とプロセス検索において,学習した埋め込みが有用であることを示す。

Process mining offers powerful techniques for discovering, analyzing, and enhancing real-world business processes. In this context, Petri nets provide an expressive means of modeling process behavior. However, directly analyzing and comparing intricate Petri net presents challenges. This study introduces PetriNet2Vec, a novel unsupervised methodology based on Natural Language Processing concepts inspired by Doc2Vec and designed to facilitate the effective comparison, clustering, and classification of process models represented as embedding vectors. These embedding vectors allow us to quantify similarities and relationships between different process models. Our methodology was experimentally validated using the PDC Dataset, featuring 96 diverse Petri net models. We performed cluster analysis, created UMAP visualizations, and trained a decision tree to provide compelling evidence for the capability of PetriNet2Vec to discern meaningful patterns and relationships among process models and their constituent tasks. Through a series of experiments, we demonstrated that PetriNet2Vec was capable of learning the structure of Petri nets, as well as the main properties used to simulate the process models of our dataset. Furthermore, our results showcase the utility of the learned embeddings in two crucial downstream tasks within process mining enhancement: process classification and process retrieval.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 大規模言語モデルによる自然言語からのデータの可視化 -探索的研究-

Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study ( http://arxiv.org/abs/2404.17136v1 )

ライセンス: Link先を確認
Yang Wu, Yao Wan, Hongyu Zhang, Yulei Sui, Wucai Wei, Wei Zhao, Guandong Xu, Hai Jin, (参考訳) 自然言語・トゥ・ビジュアライゼーション(NL2Vis)タスクは、自然言語記述を接地テーブルの視覚表現に変換することを目的としており、ユーザーは大量のデータから洞察を得ることができる。 近年,NL2Visのためのディープラーニングベースのアプローチが数多く開発されている。 これらのアプローチによる多大な努力にもかかわらず、未確認のデータベースや複数のテーブルにまたがるデータ視覚化の課題は続いている。 本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,可視化生成におけるその可能性を評価する実証的研究を行い,この課題を強化するための文脈内学習プロンプトの有効性について検討する。 特に、構造化された表データを逐次テキストプロンプトに変換する方法について、まずLLMにフィードし、どのテーブルコンテンツがNL2Visに最も寄与するかを分析する。 この結果から,構造化表データをプログラムに変換することは効果的であることが示唆され,プロンプトを定式化する際にはテーブルスキーマを考えることが不可欠である。 さらに、NL2Visベンチマーク(nvBench)を用いて、最先端手法に対する微調整モデル(例:T5-Small)と推論専用モデル(例:GPT-3.5)の2種類のLCMを評価する。 実験結果から、LLMはベースラインよりも優れており、推論のみのモデルが常に性能改善を示しており、場合によっては、テキスト内学習によるいくつかのデモを行う際に、微調整されたモデルを超えていることが明らかとなった。 最後に,LLMがNL2Visでフェールした場合の分析を行い,チェーン・オブ・ソート,ロール・プレイング,コード・インタープリタといった戦略を用いて,結果を反復的に更新することを提案する。 実験の結果,反復的更新の有効性が確認され,今後の研究に大きな可能性を秘めている。

The Natural Language to Visualization (NL2Vis) task aims to transform natural-language descriptions into visual representations for a grounded table, enabling users to gain insights from vast amounts of data. Recently, many deep learning-based approaches have been developed for NL2Vis. Despite the considerable efforts made by these approaches, challenges persist in visualizing data sourced from unseen databases or spanning multiple tables. Taking inspiration from the remarkable generation capabilities of Large Language Models (LLMs), this paper conducts an empirical study to evaluate their potential in generating visualizations, and explore the effectiveness of in-context learning prompts for enhancing this task. In particular, we first explore the ways of transforming structured tabular data into sequential text prompts, as to feed them into LLMs and analyze which table content contributes most to the NL2Vis. Our findings suggest that transforming structured tabular data into programs is effective, and it is essential to consider the table schema when formulating prompts. Furthermore, we evaluate two types of LLMs: finetuned models (e.g., T5-Small) and inference-only models (e.g., GPT-3.5), against state-of-the-art methods, using the NL2Vis benchmarks (i.e., nvBench). The experimental results reveal that LLMs outperform baselines, with inference-only models consistently exhibiting performance improvements, at times even surpassing fine-tuned models when provided with certain few-shot demonstrations through in-context learning. Finally, we analyze when the LLMs fail in NL2Vis, and propose to iteratively update the results using strategies such as chain-of-thought, role-playing, and code-interpreter. The experimental results confirm the efficacy of iterative updates and hold great potential for future study.
翻訳日:2024-04-29 14:14:08 公開日:2024-04-26
# 自己整合推論に強力な検証器を必要とする小言語モデル

Small Language Models Need Strong Verifiers to Self-Correct Reasoning ( http://arxiv.org/abs/2404.17140v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Muhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang, (参考訳) 自己補正は,大規模言語モデル(LLM)の推論性能を高めるための,有望なソリューションとして現れている。 本研究は,より小規模な(<=13B)言語モデル (LM) が,より強いLMから最小限の入力で推論タスクを自己補正できるかどうかを考察する。 本稿では,小人数のLMに対して,自己補正能力の訓練を支援する自己補正データ収集を促すパイプラインを提案する。 まず、正しい解を利用して、不正確な応答を判断する。 第二に、生成した批判は、フィルタリング後に、溶液精製による自己補正推論の教師付き微調整に使用される。 実験の結果,数学とコモンセンス推論にまたがる5つのデータセットにおける2つのモデルの自己補正能力は向上し,強いGPT-4ベースの検証器と組み合わせた場合,顕著な性能向上が得られた。

Self-correction has emerged as a promising solution to boost the reasoning performance of large language models (LLMs), where LLMs refine their solutions using self-generated critiques that pinpoint the errors. This work explores whether smaller-size (<= 13B) language models (LMs) have the ability of self-correction on reasoning tasks with minimal inputs from stronger LMs. We propose a novel pipeline that prompts smaller LMs to collect self-correction data that supports the training of self-refinement abilities. First, we leverage correct solutions to guide the model in critiquing their incorrect responses. Second, the generated critiques, after filtering, are used for supervised fine-tuning of the self-correcting reasoner through solution refinement. Our experimental results show improved self-correction abilities of two models on five datasets spanning math and commonsense reasoning, with notable performance gains when paired with a strong GPT-4-based verifier, though limitations are identified when using a weak self-verifier for determining when to correct.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 逆ハッシュ関数計算のための量子回路の自動生成

Automated Quantum Circuit Generation for Computing Inverse Hash Functions ( http://arxiv.org/abs/2404.17142v1 )

ライセンス: Link先を確認
Elena R. Henderson, Jessie M. Henderson, William V. Oxford, Mitchell A. Thornton, (参考訳) いくつかの暗号系は、暗号ハッシュ関数を反転させる際の計算困難に依存している。 ロバストハッシュ関数は入力を出力に変換し、出力とそれを生成した関数が知られているとしても、後から適切な時間で入力を検索できないようにする。 したがって、ハッシュ関数は暗号化的に安全であり、暗号化、認証、その他のセキュリティメソッドで使用される。 このような暗号的にセキュアなハッシュ関数は、従来のシステムのように、ポスト量子暗号(PQC)の時代において重要な役割を果たすことが示唆されている。 本研究では,可逆性の原理を利用してハッシュ関数を反転させる回路を生成する手法を提案する。 本稿では,ハッシュ関数の逆解析手法を拡張可能な概念実証実装と記述法を提案する。 具体的には、より汎用的な量子回路合成、コンパイル、最適化ツールキットの一部として、アルゴリズムの1つのマニフェストを実装している。 本稿では,関数の逆変換を本質的に提供する暗号ハッシュ関数に対する可逆回路の生成について述べるとともに,ハッシュ関数の逆変換アプローチのスケーラビリティを高めるデータ構造について述べる。

Several cryptographic systems depend upon the computational difficulty of reversing cryptographic hash functions. Robust hash functions transform inputs to outputs in such a way that the inputs cannot be later retrieved in a reasonable amount of time even if the outputs and the function that created them are known. Consequently, hash functions can be cryptographically secure, and they are employed in encryption, authentication, and other security methods. It has been suggested that such cryptographically-secure hash functions will play a critical role in the era of post-quantum cryptography (PQC), as they do in conventional systems. In this work, we introduce a procedure that leverages the principle of reversibility to generate circuits that invert hash functions. We provide a proof-of-concept implementation and describe methods that allow for scaling the hash function inversion approach. Specifically, we implement one manifestation of the algorithm as part of a more general automated quantum circuit synthesis, compilation, and optimization toolkit. We illustrate production of reversible circuits for crypto-hash functions that inherently provide the inverse of the function, and we describe data structures that increase the scalability of the hash function inversion approach.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 日本語新聞とペイウォールを用いたドメイン特化事前学習言語モデルの記憶量の定量化

Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls ( http://arxiv.org/abs/2404.17143v1 )

ライセンス: Link先を確認
Shotaro Ishihara, (参考訳) 支配的な事前学習型言語モデル(PLM)は高品質な自然言語生成に成功している。 しかし、それらの世代の分析は成熟していない:それらは一般化可能な言語抽象化を取得するのか、それとも単にトレーニングデータのサブストリングを記憶し、復元するだけなのか? 特にドメイン特異的なPLMに焦点を当てた研究はほとんどない。 本研究では,日本語新聞記事の限定コーパスを用いて,ドメイン固有GPT-2モデルを事前学習し,一般の日本語GPT-2モデルと比較することにより,トレーニングデータの定量化を行った。 実験の結果,ドメイン固有のPLMが大規模にコピー&ペーストされることが判明した。 さらに, 過去の英語研究と同様, 暗記は重複, モデルサイズ, 即時長と関係があることを実証的に再現した。 本評価は, 新聞ペイウォールに着目したデータ汚染の懸念から緩和され, トレーニングデータとしての利用を妨げている。 PLMのセキュリティや著作権など,健全な議論を促すことを願っています。

Dominant pre-trained language models (PLMs) have been successful in high-quality natural language generation. However, the analysis of their generation is not mature: do they acquire generalizable linguistic abstractions, or do they simply memorize and recover substrings of the training data? Especially, few studies focus on domain-specific PLM. In this study, we pre-trained domain-specific GPT-2 models using a limited corpus of Japanese newspaper articles and quantified memorization of training data by comparing them with general Japanese GPT-2 models. Our experiments revealed that domain-specific PLMs sometimes "copy and paste" on a large scale. Furthermore, we replicated the empirical finding that memorization is related to duplication, model size, and prompt length, in Japanese the same as in previous English studies. Our evaluations are relieved from data contamination concerns by focusing on newspaper paywalls, which prevent their use as training data. We hope that our paper encourages a sound discussion such as the security and copyright of PLMs.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 長期記憶ネットワーク予測を用いたセンサ応答時間短縮

Sensor Response-Time Reduction using Long-Short Term Memory Network Forecasting ( http://arxiv.org/abs/2404.17144v1 )

ライセンス: Link先を確認
Simon J. Ward, Muhamed Baljevic, Sharon M. Weiss, (参考訳) バイオセンサーの応答時間は、早期診断が患者の予後を著しく改善する医療診断などの安全クリティカルな応用において重要な指標である。 しかし、バイオセンサーが最終平衡状態に達する速度は、低質量輸送と長い分子拡散時間によって制限され、標的分子がバイオセンサーのアクティブな感知領域に到達するのに要する時間が増加する。 システムおよびセンサ設計の最適化は、センサー要素に到達する分子を高速に促進することができるが、全てのセンサプラットフォームで広く適用可能な応答時間削減のための単純で相補的なアプローチは、最終的な定常センサー応答を予測するために時系列予測を使用することである。 本研究では,長期記憶(LSTM)ネットワークのアンサンブルが,短時間の時間依存性バイオセンサ測定から平衡バイオセンサ応答を正確に予測し,それぞれ18.6および5.1の改善率の平均値と中央値で応答時間を著しく低減できることを示す。 モデルのアンサンブルはまた、不確実性の同時推定も提供しており、予測とそれに続く安全に関する決定への信頼を提供するために不可欠である。 この手法は, 多チャンネル流体セルを用いて, 多孔質シリコンバイオセンサをバッファリングしたタンパク質溶液に露光することで, 100個の多孔質シリコンバイオセンサを並列に自動測定できる実時間実験データを用いて実証した。 LSTMネットワークアンサンブルと関連する不確実性定量化を用いて達成されたセンサ応答時間の劇的な改善により、バイオセンサーの信頼性と迅速な応答に対する扉が開き、患者の結果と医療アクセスを改善するためのより迅速な医療診断と、食品や環境中の毒素の迅速同定が可能になる。

The response time of a biosensor is a crucial metric in safety-critical applications such as medical diagnostics where an earlier diagnosis can markedly improve patient outcomes. However, the speed at which a biosensor reaches a final equilibrium state can be limited by poor mass transport and long molecular diffusion times that increase the time it takes target molecules to reach the active sensing region of a biosensor. While optimization of system and sensor design can promote molecules reaching the sensing element faster, a simpler and complementary approach for response time reduction that is widely applicable across all sensor platforms is to use time-series forecasting to predict the ultimate steady-state sensor response. In this work, we show that ensembles of long short-term memory (LSTM) networks can accurately predict equilibrium biosensor response from a small quantity of initial time-dependent biosensor measurements, allowing for significant reduction in response time by a mean and median factor of improvement of 18.6 and 5.1, respectively. The ensemble of models also provides simultaneous estimation of uncertainty, which is vital to provide confidence in the predictions and subsequent safety-related decisions that are made. This approach is demonstrated on real-time experimental data collected by exposing porous silicon biosensors to buffered protein solutions using a multi-channel fluidic cell that enables the automated measurement of 100 porous silicon biosensors in parallel. The dramatic improvement in sensor response time achieved using LSTM network ensembles and associated uncertainty quantification opens the door to trustworthy and faster responding biosensors, enabling more rapid medical diagnostics for improved patient outcomes and healthcare access, as well as quicker identification of toxins in food and the environment.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 協調認知のためのフェデレーション学習フレームワークについて

On the Federated Learning Framework for Cooperative Perception ( http://arxiv.org/abs/2404.17147v1 )

ライセンス: Link先を確認
Zhenrong Zhang, Jianan Liu, Xi Zhou, Tao Huang, Qing-Long Han, Jingxin Liu, Hongbin Liu, (参考訳) 協力的な認識は将来の輸送システムの効率性と安全性を高めるために不可欠であり、道路上の車両間での広範なデータ共有が必要であり、プライバシー上の懸念を生じさせる。 フェデレーション学習は、コネクテッドおよび自律走行車(CAV)間の知覚、意思決定、計画における、データのプライバシ保護による協調的な強化を可能にすることで、有望なソリューションを提供する。 しかし、フェデレート学習は、多様なクライアント間のデータの均一性から生じる重大な課題によって妨げられ、モデルの精度が低下し、収束期間が長くなる可能性がある。 本研究では, 動的調整損失(DALoss)関数によって促進されるFedDWAアルゴリズム(Federated dynamic weighted aggregate, FedDWA)と呼ばれる, CPのための特殊な連合学習フレームワークを提案する。 このフレームワークは、動的クライアント重み付けをモデル収束の直接化に利用し、KLD(Kullback-Leibler divergence)を利用して非独立かつ同一に分散された(Non-IID)データと不均衡なデータの有害な影響を対処する新しい損失関数を統合する。 BEV変換器を主モデルとして、FedBEVTデータで拡張したOpenV2Vデータセットの厳密なテストを行い、結合平均交差(IoU)が大幅に改善されたことを示す。 これらの結果は,CPにおけるデータ不均一性問題に対処し,環境認識モデルの精度を高め,交通セクターにおけるより堅牢で効率的な協調学習ソリューションを実現するための,我々の連合学習フレームワークの実質的な可能性を強調した。

Cooperative perception is essential to enhance the efficiency and safety of future transportation systems, requiring extensive data sharing among vehicles on the road, which raises significant privacy concerns. Federated learning offers a promising solution by enabling data privacy-preserving collaborative enhancements in perception, decision-making, and planning among connected and autonomous vehicles (CAVs). However, federated learning is impeded by significant challenges arising from data heterogeneity across diverse clients, potentially diminishing model accuracy and prolonging convergence periods. This study introduces a specialized federated learning framework for CP, termed the federated dynamic weighted aggregation (FedDWA) algorithm, facilitated by dynamic adjusting loss (DALoss) function. This framework employs dynamic client weighting to direct model convergence and integrates a novel loss function that utilizes Kullback-Leibler divergence (KLD) to counteract the detrimental effects of non-independently and identically distributed (Non-IID) and unbalanced data. Utilizing the BEV transformer as the primary model, our rigorous testing on the OpenV2V dataset, augmented with FedBEVT data, demonstrates significant improvements in the average intersection over union (IoU). These results highlight the substantial potential of our federated learning framework to address data heterogeneity challenges in CP, thereby enhancing the accuracy of environmental perception models and facilitating more robust and efficient collaborative learning solutions in the transportation sector.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 単一指紋画像からの歪み場の直接回帰

Direct Regression of Distortion Field from a Single Fingerprint Image ( http://arxiv.org/abs/2404.17148v1 )

ライセンス: Link先を確認
Xiongjun Guan, Yongjie Duan, Jianjiang Feng, Jie Zhou, (参考訳) 皮膚の歪みは指紋マッチングにおける長期にわたる課題であり、偽の非マッチングを引き起こす。 従来の研究では、歪んだ指紋から歪み場を推定し、正常な指紋に修正することで認識率が向上することが示されている。 しかし、既存の補正法は歪み場の主成分表現に基づいており、これは正確ではなく、指のポーズに非常に敏感である。 本稿では, 自己参照に基づくネットワークを用いて, 低次元表現ではなく, 歪んだ指紋の密度歪み場を直接推定する補正手法を提案する。 この方法では、様々な指のポーズで歪んだ指紋の正確な歪み場を出力することができる。 既存の公開データセットにおける変形指紋の数と多様さを考慮して, 多様な指のポーズと歪みパターンを新しいデータベースとして収集した。 実験により,提案手法は歪み場推定と整形指紋マッチングの観点から,最先端の整形性能を実現することを示す。

Skin distortion is a long standing challenge in fingerprint matching, which causes false non-matches. Previous studies have shown that the recognition rate can be improved by estimating the distortion field from a distorted fingerprint and then rectifying it into a normal fingerprint. However, existing rectification methods are based on principal component representation of distortion fields, which is not accurate and are very sensitive to finger pose. In this paper, we propose a rectification method where a self-reference based network is utilized to directly estimate the dense distortion field of distorted fingerprint instead of its low dimensional representation. This method can output accurate distortion fields of distorted fingerprints with various finger poses. Considering the limited number and variety of distorted fingerprints in the existing public dataset, we collected more distorted fingerprints with diverse finger poses and distortion patterns as a new database. Experimental results demonstrate that our proposed method achieves the state-of-the-art rectification performance in terms of distortion field estimation and rectified fingerprint matching.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 3Dフィンガープリントの折り畳み加工

Pose-Specific 3D Fingerprint Unfolding ( http://arxiv.org/abs/2404.17149v1 )

ライセンス: Link先を確認
Xiongjun Guan, Jianjiang Feng, Jie Zhou, (参考訳) 従来の2D指紋と互換性のある3D指紋を作るには、従来の2D指紋認識アルゴリズムによって3D指紋を2Dロール指紋に展開するのが一般的である。 この方法の問題点は、折り畳み指紋と平らな指紋との間に大きな弾性変形があり、認識率に影響を及ぼす可能性があることである。 本稿では,平らな指紋と同じポーズを用いて3D指紋を折り畳むために,ポーズ特異的な3D指紋展開アルゴリズムを提案する。 実験の結果,提案手法は3次元指紋と平面指紋との整合性を向上し,実際のマッチングスコアが向上することがわかった。

In order to make 3D fingerprints compatible with traditional 2D flat fingerprints, a common practice is to unfold the 3D fingerprint into a 2D rolled fingerprint, which is then matched with the flat fingerprints by traditional 2D fingerprint recognition algorithms. The problem with this method is that there may be large elastic deformation between the unfolded rolled fingerprint and flat fingerprint, which affects the recognition rate. In this paper, we propose a pose-specific 3D fingerprint unfolding algorithm to unfold the 3D fingerprint using the same pose as the flat fingerprint. Our experiments show that the proposed unfolding algorithm improves the compatibility between 3D fingerprint and flat fingerprint and thus leads to higher genuine matching scores.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# MorphText:Deep Morphology Regularized Arbitrary-Shape Scene Text Detection

MorphText: Deep Morphology Regularized Arbitrary-shape Scene Text Detection ( http://arxiv.org/abs/2404.17151v1 )

ライセンス: Link先を確認
Chengpei Xu, Wenjing Jia, Ruomei Wang, Xiaonan Luo, Xiangjian He, (参考訳) ボトムアップテキスト検出法は、任意形状のシーンテキスト検出において重要な役割を担っているが、大きな可能性、すなわち2つの制限がある。 1)後の処理に影響を及ぼす偽テキストセグメント検出の蓄積 2)テキストセグメント間の信頼性の高い接続を構築することの難しさ。 これら2つの問題をターゲットとして,任意の形状のテキスト検出に深層形態を埋め込んでテキストの規則性を捉える手法「MorphText」を提案する。 この目的のために、テキストセグメントを正規化し、それらの間のリンクを決定するために、2つの深い形態的モジュールが設計されている。 まず、特徴抽出プロセスで生成された偽テキストセグメント検出を除去するために、DMOP(Deep Morphological Opening)モジュールを構築する。 次に、様々な形状のテキストインスタンスが、それらの接続を導出しながら、その最も重要な方向に沿ってその形態を伸ばすことができるように、Deep Morphological Closing (DMCL)モジュールを提案する。 CTW1500, Total-Text, MSRA-TD500, ICDAR2017の4つの挑戦的ベンチマークデータセットで実施された大規模な実験により、提案したMorphTextは、トップダウンおよびボトムアップの任意のシーン検出アプローチよりも優れていることが示された。

Bottom-up text detection methods play an important role in arbitrary-shape scene text detection but there are two restrictions preventing them from achieving their great potential, i.e., 1) the accumulation of false text segment detections, which affects subsequent processing, and 2) the difficulty of building reliable connections between text segments. Targeting these two problems, we propose a novel approach, named ``MorphText", to capture the regularity of texts by embedding deep morphology for arbitrary-shape text detection. Towards this end, two deep morphological modules are designed to regularize text segments and determine the linkage between them. First, a Deep Morphological Opening (DMOP) module is constructed to remove false text segment detections generated in the feature extraction process. Then, a Deep Morphological Closing (DMCL) module is proposed to allow text instances of various shapes to stretch their morphology along their most significant orientation while deriving their connections. Extensive experiments conducted on four challenging benchmark datasets (CTW1500, Total-Text, MSRA-TD500 and ICDAR2017) demonstrate that our proposed MorphText outperforms both top-down and bottom-up state-of-the-art arbitrary-shape scene text detection approaches.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# CSCO: 畳み込み演算子の接続性探索

CSCO: Connectivity Search of Convolutional Operators ( http://arxiv.org/abs/2404.17152v1 )

ライセンス: Link先を確認
Tunhou Zhang, Shiyu Li, Hsin-Pai Cheng, Feng Yan, Hai Li, Yiran Chen, (参考訳) 畳み込み作用素の密接な接続の探索は、異なるレベルの特徴ベクトルを伝達し、コンピュータビジョンアプリケーションにおける変換のセットを強化するために重要な「シナプス」を確立する。 しかし、ニューラルネットワーク探索(NAS)のような重機的アプローチであっても、制約のある接続設計空間や制約のない検索空間によって誘導される準最適探索プロセスのために、効果的な接続パターンの発見には多大な努力が必要である。 本稿では,既存の設計モチーフを最小限に活用した畳み込み演算子の効率的な接続を実現する新しいパラダイムであるCSCOを提案する。 CSCOは、ニューラルネットワークによる探索を、地道的なパフォーマンスの代理として導く。 サンプル効率を向上させるため,グラフアイソモーフィズムをデータ拡張として導入し,MH-ES(Metropolis-Hastings Evolutionary Search)を提案する。 ImageNetの結果、手作りとNASで作り上げた高密度接続の性能はおよそ0.6%向上した。 私たちのコードは公開されています。

Exploring dense connectivity of convolutional operators establishes critical "synapses" to communicate feature vectors from different levels and enriches the set of transformations on Computer Vision applications. Yet, even with heavy-machinery approaches such as Neural Architecture Search (NAS), discovering effective connectivity patterns requires tremendous efforts due to either constrained connectivity design space or a sub-optimal exploration process induced by an unconstrained search space. In this paper, we propose CSCO, a novel paradigm that fabricates effective connectivity of convolutional operators with minimal utilization of existing design motifs and further utilizes the discovered wiring to construct high-performing ConvNets. CSCO guides the exploration via a neural predictor as a surrogate of the ground-truth performance. We introduce Graph Isomorphism as data augmentation to improve sample efficiency and propose a Metropolis-Hastings Evolutionary Search (MH-ES) to evade locally optimal architectures and advance search quality. Results on ImageNet show ~0.6% performance improvement over hand-crafted and NAS-crafted dense connectivity. Our code is publicly available.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# LLMに基づくマルチエージェント・シナジーによる統一デバッグ手法

A Unified Debugging Approach via LLM-Based Multi-Agent Synergy ( http://arxiv.org/abs/2404.17153v1 )

ライセンス: Link先を確認
Cheryl Lee, Chunqiu Steven Xia, Jen-tse Huang, Zhouruixin Zhu, Lingming Zhang, Michael R. Lyu, (参考訳) ソフトウェアのデバッグは、フォールトローカライゼーションと修復生成を含む時間を要するプロセスである。 最近、Large Language Models (LLMs) は自動デバッグに大きな可能性を示している。 しかし、従来のLCMベースのデバッグツールがもたらす3つの課題を特定した。 1) 上流の断層の局地化の不備は下流の修復に影響を及ぼす。 2 複雑な論理的誤りの処理に欠けていること、及び 3)プログラムコンテキストの無知。 この文脈では、LLMエージェントのシナジーを介して、最初の自動化された統合デバッグフレームワークであるFixAgentを提案する。 FixAgentは、エンドツーエンドのローカライズ、修復、バグの分析を行うことができる。 私たちの洞察では、LCMは、ゴム製のアヒルデバッギングのようなデバッグにおいて、人間の開発者が認識する一般的なソフトウェアエンジニアリングの原則の恩恵を受けることができ、プログラム機能やロジックのバグをよりよく理解できます。 したがって、これらの課題に対処するために、ゴム製のアヒルにインスパイアされた3つのデザインを作成します。 これらはエージェントの専門化とシナジー、キー変数追跡、プログラムコンテキスト理解であり、LCMに明確な説明を提供し、重要なプログラム論理情報に集中するよう要求する。 広く使われているデータセットQuixBugsの実験によると、FixAgentは80のバグのうち79の修正を正しく行っており、そのうち9つは修正されていない。 また、バグの位置情報が無く、サンプリング時間が0.6%未満であるにもかかわらず、CodeFlawsで最高のパフォーマンスの修理ツールよりも1.9倍の欠陥をパッチする。 平均すると、FixAgentは、異なるLLMを用いたベースモデルと比較して、約20%の信頼性と修正率を向上し、我々の設計の有効性を示している。 さらに、FixAgentの正しさ率は97.26%に達し、FixAgentが既存のアプローチの過度な問題を克服できる可能性を示唆している。

Tremendous efforts have been devoted to automating software debugging, a time-consuming process involving fault localization and repair generation. Recently, Large Language Models (LLMs) have shown great potential in automated debugging. However, we identified three challenges posed to traditional and LLM-based debugging tools: 1) the upstream imperfection of fault localization affects the downstream repair, 2) the deficiency in handling complex logic errors, and 3) the ignorance of program contexts. In this context, we propose the first automated, unified debugging framework, FixAgent, via LLM agent synergy. FixAgent can perform end-to-end localization, repair, and analysis of bugs. Our insight is that LLMs can benefit from general software engineering principles recognized by human developers in debugging, such as rubber duck debugging, enabling a better understanding of program functionality and logic bugs. Hence, we create three designs inspired by rubber ducking to address these challenges. They are agent specialization and synergy, key variable tracking, and program context comprehension, which request LLMs to provide explicit explanations and force them to focus on crucial program logic information. Experiments on the widely used dataset QuixBugs show that FixAgent correctly fixes 79 out of 80 bugs, 9 of which have never been fixed. It also plausibly patches 1.9X more defects than the best-performing repair tool on CodeFlaws, even with no bug location information and fewer than 0.6% sampling times. On average, FixAgent increases about 20% plausible and correct fixes compared to its base model using different LLMs, showing the effectiveness of our designs. Moreover, the correctness rate of FixAgent reaches remarkably 97.26%, indicating that FixAgent can potentially overcome the overfitting issue of the existing approaches.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 自己回帰生成による短時間かつ効果的な特徴選択のためのニューロ・シンボリック・エンベディング

Neuro-Symbolic Embedding for Short and Effective Feature Selection via Autoregressive Generation ( http://arxiv.org/abs/2404.17157v1 )

ライセンス: Link先を確認
Nanxu Gong, Wangyang Ying, Dongjie Wang, Yanjie Fu, (参考訳) 機能選択は、下流モデルを強化するのに最適な機能サブセットを特定することを目的としている。 効果的な機能選択は、冗長な機能を取り除き、計算リソースを節約し、モデル学習プロセスを加速し、全体的なパフォーマンスを改善する。 しかし、既存の研究はしばしば、高次元の特徴空間における効果的な特徴部分集合を特定するために時間集約的である。 一方、これらの手法は主に選択基準として単一のダウンストリームタスク性能を利用しており、選択されたサブセットは冗長であるだけでなく、一般化性も欠いている。 これらのギャップを埋めるために、我々はニューロシンボリックレンズを通して特徴選択を再構成し、短く効果的な特徴サブセットを特定することを目的とした新しい生成フレームワークを導入する。 より具体的には、選択したサブセットの特徴IDトークンは、特徴間の複雑な相関を反映するシンボルとして定式化できることがわかった。 そこで,本フレームワークではまず,特徴IDトークン,モデル性能,特徴サブセットの冗長度測定などからなる多数の特徴選択サンプルを自動的に収集するデータコレクタを作成する。 収集したデータに基づいてエンコーダ・デコーダ・評価学習パラダイムを開発し,特徴選択のインテリジェンスを連続的な埋め込み空間に保存し,効率的な探索を行う。 学習した埋め込み空間内では、より堅牢で一般化された埋め込みを見つけるために、多段階探索アルゴリズムを活用し、モデル性能を改善し、特徴部分の冗長性を減少させることを目的としている。 これらの埋め込みは、最終機能選択を実行するために特徴IDトークンを再構築するために使用される。 最終的に、提案フレームワークの有効性を検証するための総合的な実験とケーススタディが実施される。

Feature selection aims to identify the optimal feature subset for enhancing downstream models. Effective feature selection can remove redundant features, save computational resources, accelerate the model learning process, and improve the model overall performance. However, existing works are often time-intensive to identify the effective feature subset within high-dimensional feature spaces. Meanwhile, these methods mainly utilize a single downstream task performance as the selection criterion, leading to the selected subsets that are not only redundant but also lack generalizability. To bridge these gaps, we reformulate feature selection through a neuro-symbolic lens and introduce a novel generative framework aimed at identifying short and effective feature subsets. More specifically, we found that feature ID tokens of the selected subset can be formulated as symbols to reflect the intricate correlations among features. Thus, in this framework, we first create a data collector to automatically collect numerous feature selection samples consisting of feature ID tokens, model performance, and the measurement of feature subset redundancy. Building on the collected data, an encoder-decoder-evaluator learning paradigm is developed to preserve the intelligence of feature selection into a continuous embedding space for efficient search. Within the learned embedding space, we leverage a multi-gradient search algorithm to find more robust and generalized embeddings with the objective of improving model performance and reducing feature subset redundancy. These embeddings are then utilized to reconstruct the feature ID tokens for executing the final feature selection. Ultimately, comprehensive experiments and case studies are conducted to validate the effectiveness of the proposed framework.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# オンライン $\mathrm{L}^{\natural}$-Convex 最小化

Online $\mathrm{L}^{\natural}$-Convex Minimization ( http://arxiv.org/abs/2404.17158v1 )

ライセンス: Link先を確認
Ken Yokoyama, Shinji Ito, Tatsuya Matsuoka, Kei Kimura, Makoto Yokoo, (参考訳) オンライン意思決定問題は、プレイヤーが長期的損失を最小限に抑えるために繰り返し意思決定を行う学習問題である。 アプリケーションに現れるこれらの問題は、しばしば非線形組合せ目的関数を持ち、そのような問題に対するアルゴリズムの開発は、かなりの注目を集めている。 そのような目的関数を扱うための既存の一般的なフレームワークは、オンラインのサブモジュラー最小化である。 しかし、部分モジュラ函数の領域は単位ハイパーキューブの部分集合に限られているため、実際的な問題はこのフレームワークの範囲外であることが多い。 既存のフレームワークのこの制限を管理するために、オンラインの$\mathrm{L}^{\natural}$-convex最小化を導入し、$\mathrm{L}^{\natural}$-convex関数は部分モジュラ函数を一般化して、その領域が整数格子の部分集合となるようにする。 本稿では,オンラインの$\mathrm{L}^{\natural}$-convex関数最小化のための計算効率のよいアルゴリズムを提案する。 我々はこれらのアルゴリズムの後悔を分析し、特に、完全な情報設定のためのアルゴリズムが一定の要因に縛られた厳密な後悔を得ることを示す。 また、オンライン$\mathrm{L}^{\natural}$-convex最小化の有用性を示すいくつかのモチベーション例を示す。

An online decision-making problem is a learning problem in which a player repeatedly makes decisions in order to minimize the long-term loss. These problems that emerge in applications often have nonlinear combinatorial objective functions, and developing algorithms for such problems has attracted considerable attention. An existing general framework for dealing with such objective functions is the online submodular minimization. However, practical problems are often out of the scope of this framework, since the domain of a submodular function is limited to a subset of the unit hypercube. To manage this limitation of the existing framework, we in this paper introduce the online $\mathrm{L}^{\natural}$-convex minimization, where an $\mathrm{L}^{\natural}$-convex function generalizes a submodular function so that the domain is a subset of the integer lattice. We propose computationally efficient algorithms for the online $\mathrm{L}^{\natural}$-convex function minimization in two major settings: the full information and the bandit settings. We analyze the regrets of these algorithms and show in particular that our algorithm for the full information setting obtains a tight regret bound up to a constant factor. We also demonstrate several motivating examples that illustrate the usefulness of the online $\mathrm{L}^{\natural}$-convex minimization.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 高速フィンガープリント密度登録のための位相集約型デュアルブランチネットワーク

Phase-aggregated Dual-branch Network for Efficient Fingerprint Dense Registration ( http://arxiv.org/abs/2404.17159v1 )

ライセンス: Link先を確認
Xiongjun Guan, Jianjiang Feng, Jie Zhou, (参考訳) 指紋密度登録は、指紋ペアをピクセルレベルで微調整することを目的としており、これにより歪みによるクラス内差を低減する。 残念ながら、従来の手法では、低品質の指紋を扱う場合、推論速度の遅さに悩まされていた。 深層学習に基づくアプローチはこれらの面で著しく改善されているが、その登録精度はまだ不十分である。 本稿では,両手法の利点を集約するために,位相集約型デュアルブランチ登録ネットワーク(PDRNet)を提案する。 高分解能の相関情報と低分解能のテクスチャ特徴との間には,多段階相互作用を持つ二重ブランチ構造を導入し,局所的な微細な相違を知覚し,大域的安定性を確保した。 従来よりも包括的なデータベース上で大規模な実験が実施されている。 実験結果から,提案手法は精度とロバスト性を両立させつつ,高い競争性を維持しつつ,最先端の登録性能に達することが示された。

Fingerprint dense registration aims to finely align fingerprint pairs at the pixel level, thereby reducing intra-class differences caused by distortion. Unfortunately, traditional methods exhibited subpar performance when dealing with low-quality fingerprints while suffering from slow inference speed. Although deep learning based approaches shows significant improvement in these aspects, their registration accuracy is still unsatisfactory. In this paper, we propose a Phase-aggregated Dual-branch Registration Network (PDRNet) to aggregate the advantages of both types of methods. A dual-branch structure with multi-stage interactions is introduced between correlation information at high resolution and texture feature at low resolution, to perceive local fine differences while ensuring global stability. Extensive experiments are conducted on more comprehensive databases compared to previous works. Experimental results demonstrate that our method reaches the state-of-the-art registration performance in terms of accuracy and robustness, while maintaining considerable competitiveness in efficiency.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# DPGAN: グラフにデータインプットを欠くための二重パス生成逆ネットワーク

DPGAN: A Dual-Path Generative Adversarial Network for Missing Data Imputation in Graphs ( http://arxiv.org/abs/2404.17164v1 )

ライセンス: Link先を確認
Xindi Zheng, Yuwei Wu, Yu Pan, Wanyu Lin, Lei Ma, Jianjun Zhao, (参考訳) データ計算の欠如は、グラフデータを扱う際の最重要課題である。 従来の作業は通常、この問題に対処するための機能伝搬やグラフオートエンコーダに基づいています。 しかし、グラフニューラルネットワーク(GNN)モジュールは、欠落データを扱うために明示的に設計されていないため、これらの手法は通常、欠落データを扱う際の過度な問題に直面する。 本稿では、欠落したデータを同時に処理し、過度にスムースな問題を回避できる、Dual-Path Generative Adversarial Network (DPGAN) と呼ばれる新しいフレームワークを提案する。 私たちの研究の要点は、入力グラフ信号のグローバルな表現とローカルな表現の両方を認め、長距離依存をキャプチャできることです。 提案したジェネレータはMLPUNet++とGraphUNet++という2つのキーコンポーネントで構成されている。 我々の発電機は、敵対的プロセスを通じて指定された識別器で訓練されている。 特に,文献におけるグラフ全体の評価を避けるため,判別器は局所的な部分グラフの忠実度に着目し,局所的な計算の質を高める。 サブグラフサイズは調整可能で、逆正則化の強度を制御できる。 さまざまなベンチマークデータセットにわたる総合的な実験は、DPGANが既存の最先端の計算アルゴリズムよりも優れていなくても、一貫して競合していることを裏付けている。 コードは \url{https://github.com/momoxia/DPGAN} で提供されている。

Missing data imputation poses a paramount challenge when dealing with graph data. Prior works typically are based on feature propagation or graph autoencoders to address this issue. However, these methods usually encounter the over-smoothing issue when dealing with missing data, as the graph neural network (GNN) modules are not explicitly designed for handling missing data. This paper proposes a novel framework, called Dual-Path Generative Adversarial Network (DPGAN), that can deal simultaneously with missing data and avoid over-smoothing problems. The crux of our work is that it admits both global and local representations of the input graph signal, which can capture the long-range dependencies. It is realized via our proposed generator, consisting of two key components, i.e., MLPUNet++ and GraphUNet++. Our generator is trained with a designated discriminator via an adversarial process. In particular, to avoid assessing the entire graph as did in the literature, our discriminator focuses on the local subgraph fidelity, thereby boosting the quality of the local imputation. The subgraph size is adjustable, allowing for control over the intensity of adversarial regularization. Comprehensive experiments across various benchmark datasets substantiate that DPGAN consistently rivals, if not outperforms, existing state-of-the-art imputation algorithms. The code is provided at \url{https://github.com/momoxia/DPGAN}.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# FairGT: 公正を意識したグラフ変換器

FairGT: A Fairness-aware Graph Transformer ( http://arxiv.org/abs/2404.17169v1 )

ライセンス: Link先を確認
Renqiang Luo, Huafei Huang, Shuo Yu, Xiuzhen Zhang, Feng Xia, (参考訳) グラフ変換器(GT)の設計は、一般に公正性に対する考慮を無視し、特定の敏感な部分群に対してバイアスのある結果をもたらす。 GTはメッセージパッシング機構を頼らずにグラフ情報を符号化するため、従来のフェアネス対応グラフ学習法はこれらの問題に対処するには直接適用できない。 この課題に対処するために、我々は、GTに固有の公正性に関する懸念を軽減するために、明示的に構築されたフェアネス対応グラフ変換器であるFairGTを提案する。 FairGTには、繊細な構造的特徴選択戦略とマルチホップノード機能統合手法が組み込まれており、センシティブな特徴の独立性を確保し、公平性を重視している。 これらのフェアネスを意識したグラフ情報エンコーディングは、下流タスクのためのTransformerフレームワークにシームレスに統合される。 また,隣接行列固有ベクトル選択とマルチホップ積分を用いた公正な構造トポロジ符号化が理論的に有効であることを示す。 5つの実世界のデータセットで実施された実証的な評価は、既存のグラフトランスフォーマーやグラフニューラルネットワーク、最先端の公正を意識したグラフ学習アプローチよりも、FairGTの公正度指標の優位性を示している。

The design of Graph Transformers (GTs) generally neglects considerations for fairness, resulting in biased outcomes against certain sensitive subgroups. Since GTs encode graph information without relying on message-passing mechanisms, conventional fairness-aware graph learning methods cannot be directly applicable to address these issues. To tackle this challenge, we propose FairGT, a Fairness-aware Graph Transformer explicitly crafted to mitigate fairness concerns inherent in GTs. FairGT incorporates a meticulous structural feature selection strategy and a multi-hop node feature integration method, ensuring independence of sensitive features and bolstering fairness considerations. These fairness-aware graph information encodings seamlessly integrate into the Transformer framework for downstream tasks. We also prove that the proposed fair structural topology encoding with adjacency matrix eigenvector selection and multi-hop integration are theoretically effective. Empirical evaluations conducted across five real-world datasets demonstrate FairGT's superiority in fairness metrics over existing graph transformers, graph neural networks, and state-of-the-art fairness-aware graph learning approaches.
翻訳日:2024-04-29 14:04:24 公開日:2024-04-26
# 圧縮サンプリングによるS-IQA画像品質評価

S-IQA Image Quality Assessment With Compressive Sampling ( http://arxiv.org/abs/2404.17170v1 )

ライセンス: Link先を確認
Ronghua Liao, Chen Hui, Lang Yuan, Feng Jiang, (参考訳) No-Reference Image Quality Assessment (IQA) は、画像品質を主観的人間の知覚に応じて推定することを目的としている。 しかし、既存のNR-IQAメソッドのほとんどは、最終的なパフォーマンスを改善するために、ますます複雑なネットワークやコンポーネントを探索することに焦点を当てている。 このようなプラクティスは、特に実世界の高解像度(HR)画像に適用された場合、IQA法に大きな制限と複雑さを課す。 実際、ほとんどの画像は特にこれらのHRデータに対して高い空間的冗長性を持っている。 本研究では, 圧縮サンプリングを用いた画像品質評価(S-IQA)のための新しいフレームワークを提案し, その特徴を更に活用するために, 1) フレキシブルサンプリングモジュール(FSM) は任意の比で画像をサンプリングし, 任意の比率で測定する。 2) アダプティブ・エンベディング・モジュール (AEM) を用いたビジョン・トランスフォーマーは, 均一なサイズを計測し, 深い特徴を抽出する (3) デュアルブランチ (DB) はパッチ毎に重みを割り当て, 最終的な品質スコアを予測する。 実験の結果,提案したS-IQAは,データ使用量が少ない様々なデータセットに対して,最先端の結果が得られることがわかった。

No-Reference Image Quality Assessment (IQA) aims at estimating image quality in accordance with subjective human perception. However, most existing NR-IQA methods focus on exploring increasingly complex networks or components to improve the final performance. Such practice imposes great limitations and complexity on IQA methods, especially when they are applied to high-resolution (HR) images in the real world. Actually, most images own high spatial redundancy, especially for those HR data. To further exploit the characteristic and alleviate the issue above, we propose a new framework for Image Quality Assessment with compressive Sampling (dubbed S-IQA), which consists of three components: (1) The Flexible Sampling Module (FSM) samples the image to obtain measurements at an arbitrary ratio. (2) Vision Transformer with the Adaptive Embedding Module (AEM) makes measurements of uniform size and extracts deep features (3) Dual Branch (DB) allocates weight for every patch and predicts the final quality score. Experiments show that our proposed S-IQA achieves state-of-the-art result on various datasets with less data usage.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# ログを超えて探索する:半スーパービジョン分類のための埋め込みに基づく階層的動的ラベル付け

Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification ( http://arxiv.org/abs/2404.17173v1 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Lingling Li, Shuyuan Yang, Xu Liu, (参考訳) 半教師付き学習では、疑似ラベルを生成するための信頼度学習に依存する手法が広く提案されている。 しかし, ノイズやバイアスのあるデータに直面すると, モデルの表現ネットワークは分類ネットワークよりも信頼性が高いことがわかった。 さらに、モデル予測に基づくラベル生成手法は、分類ネットワークのカスタマイズを必要とするため、異なるデータセット間での適応性が低いことを示すことが多い。 そこで本研究では,モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。 また,HDLにおけるハイパーパラメータの適応的選択法を導入し,その汎用性を高めた。 さらに、HDLは一般的な画像エンコーダ(例えばCLIP)と組み合わせて、基本的なデータ処理モジュールとして機能させることができる。 我々は,事前学習した半教師付きモデルを用いて,クラスバランスと長い尾の分布を持つデータセットから埋め込みを抽出する。 その後、サンプルをHDLで再ラベルし、半教師付きモデルをさらに訓練するために再ラベルしたサンプルを使用する。 実験ではモデルの性能が向上し、表現ネットワークが分類器や予測器よりも信頼性が高いという動機が検証された。 本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。

In semi-supervised learning, methods that rely on confidence learning to generate pseudo-labels have been widely proposed. However, increasing research finds that when faced with noisy and biased data, the model's representation network is more reliable than the classification network. Additionally, label generation methods based on model predictions often show poor adaptability across different datasets, necessitating customization of the classification network. Therefore, we propose a Hierarchical Dynamic Labeling (HDL) algorithm that does not depend on model predictions and utilizes image embeddings to generate sample labels. We also introduce an adaptive method for selecting hyperparameters in HDL, enhancing its versatility. Moreover, HDL can be combined with general image encoders (e.g., CLIP) to serve as a fundamental data processing module. We extract embeddings from datasets with class-balanced and long-tailed distributions using pre-trained semi-supervised models. Subsequently, samples are re-labeled using HDL, and the re-labeled samples are used to further train the semi-supervised models. Experiments demonstrate improved model performance, validating the motivation that representation networks are more reliable than classifiers or predictors. Our approach has the potential to change the paradigm of pseudo-label generation in semi-supervised learning.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 物理インフォームドモデルによるリチウムイオン電池のサイクル寿命予測

Optimizing Cycle Life Prediction of Lithium-ion Batteries via a Physics-Informed Model ( http://arxiv.org/abs/2404.17174v1 )

ライセンス: Link先を確認
Constantin-Daniel Nicolae, Sara Sameer, Nathan Sun, Karena Yan, (参考訳) 商業用リチウムイオン電池のサイクル寿命を正確に測定することは、性能と技術開発に不可欠である。 本稿では, 物理式と自己保持モデルを組み合わせて, 商業用リチウムリン酸リチウムグラファイトセルのライフサイクル寿命を早期サイクルデータで予測するハイブリッド手法を提案する。 この物理に基づく方程式に容量損失曲線を適合させた後、電池容量損失曲線全体を自己保持層で再構築する。 我々のモデルは既存のモデルに匹敵する性能を示しながら、より多くの情報を予測している。 私たちのモデルは、人生の終わりという別の概念のために再訓練される必要はなく、物理的な直観によって支えられています。

Accurately measuring the cycle lifetime of commercial lithium-ion batteries is crucial for performance and technology development. We introduce a novel hybrid approach combining a physics-based equation with a self-attention model to predict the cycle lifetimes of commercial lithium iron phosphate graphite cells via early-cycle data. After fitting capacity loss curves to this physics-based equation, we then use a self-attention layer to reconstruct entire battery capacity loss curves. Our model exhibits comparable performances to existing models while predicting more information: the entire capacity loss curve instead of cycle life. This provides more robustness and interpretability: our model does not need to be retrained for a different notion of end-of-life and is backed by physical intuition.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# MovieChat+: 長いビデオ質問応答のためのスパースメモリ

MovieChat+: Question-aware Sparse Memory for Long Video Question Answering ( http://arxiv.org/abs/2404.17176v1 )

ライセンス: Link先を確認
Enxin Song, Wenhao Chai, Tian Ye, Jenq-Neng Hwang, Xi Li, Gaoang Wang, (参考訳) 近年,ビデオ基盤モデルと大規模言語モデルを統合して,映像理解システムを構築することで,予め定義された視覚タスクの限界を克服することができる。 しかし、既存の手法では複雑な時空間モジュールを利用するか、ビデオ理解のための時間的特徴を抽出するために追加の知覚モデルに強く依存する。 長いビデオでは、長期的時間的接続に関連する計算複雑性とメモリコストが大幅に増加し、追加の課題が生じるが、Atkinson-Shiffrinメモリモデルの利点を生かし、トランスフォーマーのトークンがメモリのキャリアとして、特別な設計のメモリ機構と組み合わせて採用され、これらの課題を克服するためにMovieChatを提案する。 トレーニング可能なテンポラリモジュールを追加することなく、ゼロショットアプローチを用いて、長いビデオを理解するために、事前訓練されたマルチモーダルな大言語モデルを持ち上げる。 MovieChatは1Kの長ビデオと2Kの時間的グラウンドラベルと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長いビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。 データセットとともに、以下のhttps://github.com/rese1f/MovieChatを通じてアクセスすることができる。

Recently, integrating video foundation models and large language models to build a video understanding system can overcome the limitations of specific pre-defined vision tasks. Yet, existing methods either employ complex spatial-temporal modules or rely heavily on additional perception models to extract temporal features for video understanding, and they only perform well on short videos. For long videos, the computational complexity and memory costs associated with long-term temporal connections are significantly increased, posing additional challenges.Taking advantage of the Atkinson-Shiffrin memory model, with tokens in Transformers being employed as the carriers of memory in combination with our specially designed memory mechanism, we propose MovieChat to overcome these challenges. We lift pre-trained multi-modal large language models for understanding long videos without incorporating additional trainable temporal modules, employing a zero-shot approach. MovieChat achieves state-of-the-art performance in long video understanding, along with the released MovieChat-1K benchmark with 1K long video, 2K temporal grounding labels, and 14K manual annotations for validation of the effectiveness of our method. The code along with the dataset can be accessed via the following https://github.com/rese1f/MovieChat.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# RE-RFME:顧客セグメンテーションのための実店舗RFMEモデル

RE-RFME: Real-Estate RFME Model for customer segmentation ( http://arxiv.org/abs/2404.17177v1 )

ライセンス: Link先を確認
Anurag Kumar Pandey, Anil Goyal, Nikhil Sikka, (参考訳) マーケティングは、あらゆるオンラインプラットフォームにとって、高コストな活動の1つだ。 顧客の増加に伴い、顧客の動的な行動に基づいて顧客を理解し、効果的なマーケティング戦略を設計することが不可欠である。 顧客セグメンテーションは、顧客を異なるカテゴリに分類し、個別にグループをターゲットにしたマーケティング戦略を設計するために広く使われているアプローチである。 そこで本稿では,顧客を高い価値,有望,注意力,アクティベーションの4つのグループに分割するためのエンドツーエンドパイプラインRE-RFMEを提案する。 具体的には、顧客の行動特性を追跡し、異なるカテゴリに分類する新しいRFME(Recency, Frequency, Monetary and Engagement)モデルを提案する。 最後に、ユーザを4つのカテゴリの1つにクラスタリングするために、K平均クラスタリングアルゴリズムを訓練する。 本研究では,Webサイトおよびモバイルアプリケーションユーザを対象とした実世界のHousing.comデータセットに対する提案手法の有効性を示す。

Marketing is one of the high-cost activities for any online platform. With the increase in the number of customers, it is crucial to understand customers based on their dynamic behaviors to design effective marketing strategies. Customer segmentation is a widely used approach to group customers into different categories and design the marketing strategy targeting each group individually. Therefore, in this paper, we propose an end-to-end pipeline RE-RFME for segmenting customers into 4 groups: high value, promising, need attention, and need activation. Concretely, we propose a novel RFME (Recency, Frequency, Monetary and Engagement) model to track behavioral features of customers and segment them into different categories. Finally, we train the K-means clustering algorithm to cluster the user into one of the 4 categories. We show the effectiveness of the proposed approach on real-world Housing.com datasets for both website and mobile application users.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# ファウショット名前付きエンティティ認識のための統一ラベル認識コントラスト学習フレームワーク

A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2404.17178v1 )

ライセンス: Link先を確認
Haojie Zhang, Yimeng Zhuang, (参考訳) 名前付きエンティティ認識(NER)は、ラベル付きサンプルの限られた数だけを使用して名前付きエンティティを抽出することを目的としている。 既存のコントラスト学習手法は、ラベルのセマンティクスのみに依存しているか、完全に無視しているため、文脈ベクトル表現の区別が不十分な場合が多い。 この問題に対処するために,ラベルを意識したトークンレベルのコントラスト学習フレームワークを提案する。 提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。 さらに、コンテキストコンテキストと文脈ラベルの対比学習目標を同時に最適化し、一般化された識別的文脈表現を強化するとともに、様々な従来のテスト領域(OntoNotes, CoNLL'03, WNUT'17, GUM, I2B2)と大規模数ショットNERデータセット(FEWNERD)による実験により、我々のアプローチの有効性を実証した。 従来の最先端モデルよりも大幅に優れており、ほとんどのシナリオで平均7%のマイクロF1スコアを達成している。 さらなる分析により、我々のモデルは、その強力な転送能力と文脈表現の改善から恩恵を受けていることが明らかとなった。

Few-shot Named Entity Recognition (NER) aims to extract named entities using only a limited number of labeled examples. Existing contrastive learning methods often suffer from insufficient distinguishability in context vector representation because they either solely rely on label semantics or completely disregard them. To tackle this issue, we propose a unified label-aware token-level contrastive learning framework. Our approach enriches the context by utilizing label semantics as suffix prompts. Additionally, it simultaneously optimizes context-context and context-label contrastive learning objectives to enhance generalized discriminative contextual representations.Extensive experiments on various traditional test domains (OntoNotes, CoNLL'03, WNUT'17, GUM, I2B2) and the large-scale few-shot NER dataset (FEWNERD) demonstrate the effectiveness of our approach. It outperforms prior state-of-the-art models by a significant margin, achieving an average absolute gain of 7% in micro F1 scores across most scenarios. Further analysis reveals that our model benefits from its powerful transfer capability and improved contextual representations.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# ゼロショット分類による社会不安の感情・身体症状の頻度 : 観察的研究

Prevalent Frequency of Emotional and Physical Symptoms in Social Anxiety using Zero Shot Classification: An Observational Study ( http://arxiv.org/abs/2404.17183v1 )

ライセンス: Link先を確認
Muhammad Rizwan, Jure Demšar, (参考訳) 社会不安は、現代の社会において一般的な課題であり、個人や専門分野の個人に影響を与える。 この状態は、社会的相互作用やパフォーマンスに影響を及ぼし、実質的なネガティブな結果をもたらす可能性がある。 多様な身体症状や感情症状の理解は、包括的診断や治療介入の調整に重要である。 本研究は,マヨクリニックから得られた社会不安症状の頻度と頻度を分析し,この問題に特化した大規模なRedditデータセットを利用することで,多様な人間の経験を探索する。 これらのプラットフォームを活用して、この研究は、社会的不安障害に関連する身体的および感情的な症状のスペクトルを抽出し、調査することを目的としている。 倫理的考慮を保ちながら、この研究はデータセット内で厳密なユーザー匿名を維持している。 新たなアプローチを用いることで、BARTに基づくマルチラベルゼロショット分類を用いて、各症状の確率スコアの形で、症状の有病率と重要性を特定し、測定する。 その結果,「発声」は身体症状として出現し,「否定的に判断されることを恐れ」などの感情症状は高い頻度で現れることがわかった。 これらの発見は、社会的不安の多面的な性質についての洞察を与え、その多様な表現に合わせた臨床実践や介入を支援する。

Social anxiety represents a prevalent challenge in modern society, affecting individuals across personal and professional spheres. Left unaddressed, this condition can yield substantial negative consequences, impacting social interactions and performance. Further understanding its diverse physical and emotional symptoms becomes pivotal for comprehensive diagnosis and tailored therapeutic interventions. This study analyze prevalence and frequency of social anxiety symptoms taken from Mayo Clinic, exploring diverse human experiences from utilizing a large Reddit dataset dedicated to this issue. Leveraging these platforms, the research aims to extract insights and examine a spectrum of physical and emotional symptoms linked to social anxiety disorder. Upholding ethical considerations, the study maintains strict user anonymity within the dataset. By employing a novel approach, the research utilizes BART-based multi-label zero-shot classification to identify and measure symptom prevalence and significance in the form of probability score for each symptom under consideration. Results uncover distinctive patterns: "Trembling" emerges as a prevalent physical symptom, while emotional symptoms like "Fear of being judged negatively" exhibit high frequencies. These findings offer insights into the multifaceted nature of social anxiety, aiding clinical practices and interventions tailored to its diverse expressions.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 医療ファウンデーションモデルのための低ランク知識分解

Low-Rank Knowledge Decomposition for Medical Foundation Models ( http://arxiv.org/abs/2404.17184v1 )

ライセンス: Link先を確認
Yuhang Zhou, Haolin Li, Siyuan Du, Jiangchao Yao, Ya Zhang, Yanfeng Wang, (参考訳) 大規模プレトレーニングの人気は、医療基盤モデルの開発を促進している。 しかし, 基礎モデルでは, 特徴抽出能力は強いが, 特定のタスクにおける性能は, タスク固有の手法よりは劣っていることを示す研究もある。 本稿では, 「知識分解」 と呼ばれる新たな視点を探求し, 基礎モデルを複数の軽量専門家モデルに分解し, 資源支出を同時に軽減しつつ, 専門性を向上させることを目的としている。 この目的を達成するために,ローランク知識分解(LoRKD)と呼ばれる新しいフレームワークを設計し,低ランクのエキスパートモジュールと効率的な知識分離の畳み込みを組み込むことで,敬意を明確化する。 大規模な実験結果から、分解されたモデルは、元の基礎モデルを超え、性能と伝達性の観点からも良好に機能することが示された。

The popularity of large-scale pre-training has promoted the development of medical foundation models. However, some studies have shown that although foundation models exhibit strong general feature extraction capabilities, their performance on specific tasks is still inferior to task-specific methods. In this paper, we explore a new perspective called ``Knowledge Decomposition'' to improve the performance on specific medical tasks, which deconstruct the foundation model into multiple lightweight expert models, each dedicated to a particular task, with the goal of improving specialization while concurrently mitigating resource expenditure. To accomplish the above objective, we design a novel framework named Low-Rank Knowledge Decomposition (LoRKD), which explicitly separates graidents by incorporating low-rank expert modules and the efficient knowledge separation convolution. Extensive experimental results demonstrate that the decomposed models perform well in terms of performance and transferability, even surpassing the original foundation models.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# MCSDNet:マルチスケール時空間情報によるメソスケール対流系検出ネットワーク

MCSDNet: Mesoscale Convective System Detection Network via Multi-scale Spatiotemporal Information ( http://arxiv.org/abs/2404.17186v1 )

ライセンス: Link先を確認
Jiajun Liang, Baoquan Zhang, Yunming Ye, Xutao Li, Chuyao Luo, Xukai Fu, (参考訳) メソスケール対流系(MCS)の正確な検出は、気象観測に欠かせない。 しかし, MCS検出の既存の手法は, 静的特性を考慮し, MCSのライフサイクルにおける時間的進化を無視した単一フレーム検出を主に対象としている。 本稿では,MCSDNet(MCSDNet)のための新しいエンコーダデコーダニューラルネットワークを提案する。 MCSDNetはシンプルなアーキテクチャであり、拡張が容易です。 従来のモデルとは異なり、MCSDNetはマルチフレーム検出をターゲットとし、リモートセンシング画像(RSI)におけるMCS領域の検出にマルチスケール時空間情報を活用する。 私たちが知る限り、マルチスケールの時空間情報を用いてMCS領域を検出するのは、これが初めてである。 まず,異なるエンコーダレベルから多段階のセマンティクスを抽出するマルチスケール時空間情報モジュールを設計し,より詳細な時空間特徴を抽出する。 第2に、MCSDNetに時空間混合ユニット(STMU)を導入し、フレーム内特徴とフレーム間相関の両方をキャプチャし、拡張性のあるモジュールであり、他の時空間モジュール(例えば、CNN、RNN、Transformer、提案した時空間注意(DSTA))に置き換えられる。 これは、時空間モジュールの将来が我々のモデルに容易に統合できることを意味している。 最後に、FY-4A衛星からの可視チャネル画像に基づくマルチフレームMCS検出のための最初の公開データセットであるMCSRSIを提案する。 また,MCSRSI 上でいくつかの実験を行い,提案したMCSDNet が MCS 検出タスクにおいて,他のベースライン手法と比較して最高の性能を発揮することを確認した。

The accurate detection of Mesoscale Convective Systems (MCS) is crucial for meteorological monitoring due to their potential to cause significant destruction through severe weather phenomena such as hail, thunderstorms, and heavy rainfall. However, the existing methods for MCS detection mostly targets on single-frame detection, which just considers the static characteristics and ignores the temporal evolution in the life cycle of MCS. In this paper, we propose a novel encoder-decoder neural network for MCS detection(MCSDNet). MCSDNet has a simple architecture and is easy to expand. Different from the previous models, MCSDNet targets on multi-frames detection and leverages multi-scale spatiotemporal information for the detection of MCS regions in remote sensing imagery(RSI). As far as we know, it is the first work to utilize multi-scale spatiotemporal information to detect MCS regions. Firstly, we design a multi-scale spatiotemporal information module to extract multi-level semantic from different encoder levels, which makes our models can extract more detail spatiotemporal features. Secondly, a Spatiotemporal Mix Unit(STMU) is introduced to MCSDNet to capture both intra-frame features and inter-frame correlations, which is a scalable module and can be replaced by other spatiotemporal module, e.g., CNN, RNN, Transformer and our proposed Dual Spatiotemporal Attention(DSTA). This means that the future works about spatiotemporal modules can be easily integrated to our model. Finally, we present MCSRSI, the first publicly available dataset for multi-frames MCS detection based on visible channel images from the FY-4A satellite. We also conduct several experiments on MCSRSI and find that our proposed MCSDNet achieve the best performance on MCS detection task when comparing to other baseline methods.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 政策蒸留と行動鍛造を用いたウォーファリン維持用深部強化学習モデル

An Explainable Deep Reinforcement Learning Model for Warfarin Maintenance Dosing Using Policy Distillation and Action Forging ( http://arxiv.org/abs/2404.17187v1 )

ライセンス: Link先を確認
Sadjad Anzabi Zadeh, W. Nick Street, Barrett W. Thomas, (参考訳) 深層強化学習(Deep Reinforcement Learning)は、慢性的な状態管理に有効な薬物投与ツールである。 しかしながら、最終プロトコルは一般的に、その所定の用量に対する正当化のないブラックボックスである。 本稿では, 政策蒸留と組み合わせた政策最適化手法を用いて, ワーファリン用ドスプロトコルの提案により, この問題に対処する。 本稿では、説明可能性を達成するための効果的なツールとしてAction Forgingを紹介します。 私たちの焦点はメンテナンス・ドス・プロトコルにあります。 その結果、最終モデルは現在のドスプロトコルと同じくらい理解し、デプロイしやすく、ベースラインドスアルゴリズムよりも優れています。

Deep Reinforcement Learning is an effective tool for drug dosing for chronic condition management. However, the final protocol is generally a black box without any justification for its prescribed doses. This paper addresses this issue by proposing an explainable dosing protocol for warfarin using a Proximal Policy Optimization method combined with Policy Distillation. We introduce Action Forging as an effective tool to achieve explainability. Our focus is on the maintenance dosing protocol. Results show that the final model is as easy to understand and deploy as the current dosing protocols and outperforms the baseline dosing algorithms.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 駆動的分散相互作用によって生じる状態の非古典的性質

Nonclassical properties of a state generated by a driven dispersive interaction ( http://arxiv.org/abs/2404.17189v1 )

ライセンス: Link先を確認
Naveen Kumar, Arpita Chatterjee, (参考訳) 我々は、駆動場の存在下で原子空洞の相互作用によって生成される空洞場状態を考える。 2段階の原子は空洞を通過し、弱い古典的場によって駆動される。 光子数依存のスタークシフトは、原子のキャビティ場との分散相互作用によって引き起こされる。 原子が励起状態$|a\rangle$のとき、得られた出力空洞場を考慮する。 状態評価の助けを借りて、光子数分布、ウィグナー関数、マンデルの$Q$パラメータ、スクイーズなど様々な統計特性について検討する。

We consider a cavity field state, which is created by the atom-cavity field's interaction in the presence of a driven field. The two-level atom passes through the cavity and is driven by a weak classical field. A photon number dependent Stark shift is induced by the atom's dispersive interaction with the cavity field. When the atom is in excited state $|a\rangle$, the output cavity field thus obtained is taken into consideration. With the help of the state evaluated, we investigate different statistical properties such as photon number distribution, Wigner function, Mandel's $Q$ parameter and squeezing.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# TIGQA:Tigrinyaのデータセットに対する専門家の回答

TIGQA:An Expert Annotated Question Answering Dataset in Tigrinya ( http://arxiv.org/abs/2404.17194v1 )

ライセンス: Link先を確認
Hailay Teklehaymanot, Dren Fazlija, Niloy Ganguly, Gourab K. Patro, Wolfgang Nejdl, (参考訳) 教育目的のために明示的に調整された、アクセス可能な注釈付きデータセットがないことは、限られたリソースを持つ言語におけるNLPタスクに顕著な障害をもたらす。本研究では、まず、機械翻訳(MT)を使用して既存のデータセットをSQuAD形式でTigrinyaデータセットに変換する可能性について検討する。 その結果、気候、水、交通など122の多様なトピックをカバーする2.68Kの質問応答ペアからなる、専門家による注釈付き教育データセットTIGQAを提示した。 これらのペアは、チグリニャと生物学の本で公開されている537の文脈の段落から来ている。 包括的分析により、TIGQAデータセットは単純な単語マッチング以上のスキルを必要とし、単一文と複数文の推論能力の両方を必要とすることを示した。 我々は最先端のMRC手法を用いて実験を行い、TIGQA上でそのようなモデルを初めて探索した。 さらに、データセット上での人的パフォーマンスを推定し、事前訓練されたモデルから得られた結果と並べて、人的パフォーマンスと最良のモデル性能の顕著な相違は、継続研究を通じてTIGQAをさらに強化する可能性を示している。 我々のデータセットは、提供されたリンクを通じて自由にアクセスでき、Tigrinya MRCの課題に対処するよう研究コミュニティに促すことができます。

The absence of explicitly tailored, accessible annotated datasets for educational purposes presents a notable obstacle for NLP tasks in languages with limited resources.This study initially explores the feasibility of using machine translation (MT) to convert an existing dataset into a Tigrinya dataset in SQuAD format. As a result, we present TIGQA, an expert annotated educational dataset consisting of 2.68K question-answer pairs covering 122 diverse topics such as climate, water, and traffic. These pairs are from 537 context paragraphs in publicly accessible Tigrinya and Biology books. Through comprehensive analyses, we demonstrate that the TIGQA dataset requires skills beyond simple word matching, requiring both single-sentence and multiple-sentence inference abilities. We conduct experiments using state-of-the art MRC methods, marking the first exploration of such models on TIGQA. Additionally, we estimate human performance on the dataset and juxtapose it with the results obtained from pretrained models.The notable disparities between human performance and best model performance underscore the potential for further enhancements to TIGQA through continued research. Our dataset is freely accessible via the provided link to encourage the research community to address the challenges in the Tigrinya MRC.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# LLM応用における非知覚的検索ポジショニング攻撃

Human-Imperceptible Retrieval Poisoning Attacks in LLM-Powered Applications ( http://arxiv.org/abs/2404.17196v1 )

ライセンス: Link先を確認
Quan Zhang, Binqi Zeng, Chijin Zhou, Gwihwan Go, Heyuan Shi, Yu Jiang, (参考訳) 現在、先進的なLLMアプリケーション開発フレームワークの助けを借りて、検索拡張生成(RAG)技術を用いて、LLMの知識を外部コンテンツで強化するアプリケーションが増えてきている。 しかし、これらのフレームワークの設計は外部コンテンツのリスクを十分に考慮していないため、攻撃者はこれらのフレームワークで開発されたアプリケーションを損なうことができる。 本稿では,攻撃者がRAGプロセス中に悪意ある応答を誘導できる検索中毒という,LSMを利用したアプリケーションに対する新たな脅威を明らかにする。 具体的には、LLMアプリケーションフレームワークの分析を通じて、攻撃者は良質なものと区別できない文書を視覚的に作成することができる。 正しい情報を提供するドキュメントにもかかわらず、RAGのリファレンスソースとして使用されると、アプリケーションは誤ったレスポンスを生成するように誤解される。 我々の予備実験は、攻撃者が88.33\%の成功率でLSMを誤解させ、現実のアプリケーションで66.67\%の成功率を達成できることを示している。

Presently, with the assistance of advanced LLM application development frameworks, more and more LLM-powered applications can effortlessly augment the LLMs' knowledge with external content using the retrieval augmented generation (RAG) technique. However, these frameworks' designs do not have sufficient consideration of the risk of external content, thereby allowing attackers to undermine the applications developed with these frameworks. In this paper, we reveal a new threat to LLM-powered applications, termed retrieval poisoning, where attackers can guide the application to yield malicious responses during the RAG process. Specifically, through the analysis of LLM application frameworks, attackers can craft documents visually indistinguishable from benign ones. Despite the documents providing correct information, once they are used as reference sources for RAG, the application is misled into generating incorrect responses. Our preliminary experiments indicate that attackers can mislead LLMs with an 88.33\% success rate, and achieve a 66.67\% success rate in the real-world application, demonstrating the potential impact of retrieval poisoning.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 数発の書道スタイル学習

Few-shot Calligraphy Style Learning ( http://arxiv.org/abs/2404.17199v1 )

ライセンス: Link先を確認
Fangda Chen, Jiacheng Nie, Lichuan Jiang, Zhuoer Zeng, (参考訳) 我々は,2段階の学習プロセスを通じて適応された事前学習拡散モデルを用いて,習熟と習熟のための新しい手法である「Presidifussion」を紹介した。 当初,本モデルは様々な書道家の作品を含む多種多様なデータセット上で事前訓練されている。 これに続き、習主席の書道のより小型で特殊なデータセットを微調整し、200枚弱の画像を作成した。 フォント画像条件付けとストローク情報条件付けの革新的手法を導入し,漢字の複雑な構造要素を抽出する。 提案手法の有効性は,zi2ziやCalliGANといった従来の手法との比較により実証された。 本研究は,書道芸術のデジタル保存におけるブレークスルーを示すだけでなく,文化遺産デジタル化分野におけるデータ効率生成モデリングの新たな標準を定めている。

We introduced "Presidifussion," a novel approach to learning and replicating the unique style of calligraphy of President Xu, using a pretrained diffusion model adapted through a two-stage training process. Initially, our model is pretrained on a diverse dataset containing works from various calligraphers. This is followed by fine-tuning on a smaller, specialized dataset of President Xu's calligraphy, comprising just under 200 images. Our method introduces innovative techniques of font image conditioning and stroke information conditioning, enabling the model to capture the intricate structural elements of Chinese characters. The effectiveness of our approach is demonstrated through a comparison with traditional methods like zi2zi and CalliGAN, with our model achieving comparable performance using significantly smaller datasets and reduced computational resources. This work not only presents a breakthrough in the digital preservation of calligraphic art but also sets a new standard for data-efficient generative modeling in the domain of cultural heritage digitization.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 低データ体制における自己指導型視覚学習 : 比較評価

Self-supervised visual learning in the low-data regime: a comparative evaluation ( http://arxiv.org/abs/2404.17202v1 )

ライセンス: Link先を確認
Sotirios Konstantakos, Despina Ioanna Chalkiadaki, Ioannis Mademlis, Yuki M. Asano, Efstratios Gavves, Georgios Th. Papadopoulos, (参考訳) SSL(Self Supervised Learning)は、現代のDeep Neural Networks(DNN)にとって価値ある、堅牢なトレーニング手法である。 これにより、大量のラベルのないトレーニングデータから効率的な表現学習が可能になる。 SSLの比較的単純な概念化と適用性にもかかわらず、特に現実世界のアプリケーション設定に関して、非常に大規模な事前トレーニングデータセットの収集や利用が常に可能であるとは限らない。 特に、専門的でドメイン固有のアプリケーションシナリオの場合、数百万のインスタンスの順序で関連するイメージ事前トレーニングデータセットを組み立てることは達成不可能あるいは現実的ではないかもしれない。 このことは、プレトレーニングデータセットが比較的制限された/制約されたサイズである場合、共通のSSLプリテキストタスクの有効性の調査を動機付けている。 この文脈では、この研究は、アプローチの主要なカテゴリに関する詳細な説明と洞察を伴い、現代のビジュアルSSLメソッドの分類を導入し、続いて、ローデータ体制における徹底的な比較実験を行い、その特定を目標としている。 a) ローデータSSL事前トレーニングにより学習されるもの b) 異なるSSLカテゴリがこのようなトレーニングシナリオでどのように振る舞うか。 興味深いことに、ドメイン固有の下流タスクでは、ドメイン内の低データSSL事前トレーニングは、一般的なデータセットでの大規模事前トレーニングの一般的なアプローチよりも優れています。 得られた結果に基づいて,SSL手法の各カテゴリのパフォーマンスに関する貴重な知見が浮き彫りにされ,その結果,この分野における直接的な研究方向性が示唆された。

Self-Supervised Learning (SSL) is a valuable and robust training methodology for contemporary Deep Neural Networks (DNNs), enabling unsupervised pretraining on a `pretext task' that does not require ground-truth labels/annotation. This allows efficient representation learning from massive amounts of unlabeled training data, which in turn leads to increased accuracy in a `downstream task' by exploiting supervised transfer learning. Despite the relatively straightforward conceptualization and applicability of SSL, it is not always feasible to collect and/or to utilize very large pretraining datasets, especially when it comes to real-world application settings. In particular, in cases of specialized and domain-specific application scenarios, it may not be achievable or practical to assemble a relevant image pretraining dataset in the order of millions of instances or it could be computationally infeasible to pretrain at this scale. This motivates an investigation on the effectiveness of common SSL pretext tasks, when the pretraining dataset is of relatively limited/constrained size. In this context, this work introduces a taxonomy of modern visual SSL methods, accompanied by detailed explanations and insights regarding the main categories of approaches, and, subsequently, conducts a thorough comparative experimental evaluation in the low-data regime, targeting to identify: a) what is learnt via low-data SSL pretraining, and b) how do different SSL categories behave in such training scenarios. Interestingly, for domain-specific downstream tasks, in-domain low-data SSL pretraining outperforms the common approach of large-scale pretraining on general datasets. Grounded on the obtained results, valuable insights are highlighted regarding the performance of each category of SSL methods, which in turn suggest straightforward future research directions in the field.
翻訳日:2024-04-29 13:54:01 公開日:2024-04-26
# 2 in 1 Go:デカップリング型主語変換器を用いた単段階感情認識

Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer ( http://arxiv.org/abs/2404.17205v1 )

ライセンス: Link先を確認
Xinpeng Li, Teng Wang, Jian Zhao, Shuyi Mao, Jinbao Wang, Feng Zheng, Xiaojiang Peng, Xuelong Li, (参考訳) 感情認識は、イメージ内の被験者の感情状態を、主観的・文脈的な視覚的手がかりに依存して識別することを目的としている。 現在のアプローチは典型的には2段階のパイプラインに従っており、まず被験者を棚外の検出器でローカライズし、その後、被写体と文脈の特徴の後期融合を通じて感情分類を行う。 しかし、複雑なパラダイムは、相容れない訓練段階と、微粒な主語-文脈要素間の限定的な相互作用に悩まされている。 この課題に対処するため、単段階の感情認識アプローチとして、DCT(Decoupled Subject-Context Transformer)を用いて、同時主題の局所化と感情分類を行う。 学習段階の区分化ではなく,ボックス信号と感情信号を協調的に活用し,主観的特徴学習を充実させる。 さらに、DSCTを導入して、細粒度な主語-文脈間の相互作用を、分離・テーマ-フューズ方式で促進する。 分離されたクエリトークン--オブジェクトクエリとコンテキストクエリ--DSCT内の層に徐々に介入し、空間的および意味的関係を利用して集約する。 広範に使われている2つの文脈認識型感情認識データセットであるCAER-SとEMOTIC上での単一ステージフレームワークの評価を行った。 提案手法は,CAER-SデータセットとEMOTICデータセットでそれぞれ平均6.46%の精度向上と3.39%の精度向上を実現している。

Emotion recognition aims to discern the emotional state of subjects within an image, relying on subject-centric and contextual visual cues. Current approaches typically follow a two-stage pipeline: first localize subjects by off-the-shelf detectors, then perform emotion classification through the late fusion of subject and context features. However, the complicated paradigm suffers from disjoint training stages and limited interaction between fine-grained subject-context elements. To address the challenge, we present a single-stage emotion recognition approach, employing a Decoupled Subject-Context Transformer (DSCT), for simultaneous subject localization and emotion classification. Rather than compartmentalizing training stages, we jointly leverage box and emotion signals as supervision to enrich subject-centric feature learning. Furthermore, we introduce DSCT to facilitate interactions between fine-grained subject-context cues in a decouple-then-fuse manner. The decoupled query token--subject queries and context queries--gradually intertwine across layers within DSCT, during which spatial and semantic relations are exploited and aggregated. We evaluate our single-stage framework on two widely used context-aware emotion recognition datasets, CAER-S and EMOTIC. Our approach surpasses two-stage alternatives with fewer parameter numbers, achieving a 3.39% accuracy improvement and a 6.46% average precision gain on CAER-S and EMOTIC datasets, respectively.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 制限付き平均生存時間推定のための擬似観測と超学習者

Pseudo-Observations and Super Learner for the Estimation of the Restricted Mean Survival Time ( http://arxiv.org/abs/2404.17211v1 )

ライセンス: Link先を確認
Ariane Cwiling, Vittorio Perduca, Olivier Bouaziz, (参考訳) 右チャージデータの文脈では,一組の共変量に基づいて,制限時間からイベントまでの予測の問題について検討する。 二次的損失の下では、この問題は条件付き平均生存時間(RMST)の推定と等価である。 そこで本研究では,擬似観測とスーパーラーナを組み合わせた,フレキシブルで使いやすいアンサンブルアルゴリズムを提案する。 超学習者の古典的理論的結果は、いわゆるスプリット擬似観測という新しい定義を用いて、右チャージされたデータに拡張される。 シミュレーション研究は、小さなサンプルサイズであっても、分割された擬似観測と標準擬似観測は類似していることを示している。 本手法は、他の予測方法と比較して、実際に実施されている方法の関心を示す、維持および大腸癌データセットに適用される。 提案手法から得られた予測を, RMST適応リスク尺度, 予測間隔, 変数重要度尺度で補完する。

In the context of right-censored data, we study the problem of predicting the restricted time to event based on a set of covariates. Under a quadratic loss, this problem is equivalent to estimating the conditional Restricted Mean Survival Time (RMST). To that aim, we propose a flexible and easy-to-use ensemble algorithm that combines pseudo-observations and super learner. The classical theoretical results of the super learner are extended to right-censored data, using a new definition of pseudo-observations, the so-called split pseudo-observations. Simulation studies indicate that the split pseudo-observations and the standard pseudo-observations are similar even for small sample sizes. The method is applied to maintenance and colon cancer datasets, showing the interest of the method in practice, as compared to other prediction methods. We complement the predictions obtained from our method with our RMST-adapted risk measure, prediction intervals and variable importance measures developed in a previous work.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 空からのデータを精査する:地域交通文脈におけるその正確性の検討

Scrutinizing Data from Sky: An Examination of Its Veracity in Area Based Traffic Contexts ( http://arxiv.org/abs/2404.17212v1 )

ライセンス: Link先を確認
Yawar Ali, Krishnan K N, Debashis Ray Sarkar, K. Ramachandra Rao, Niladri Chatterjee, Ashish Bhaskar, (参考訳) 交通データ収集は、長年にわたって研究者や当局にとって圧倒的な課題だった。 技術進歩と交通データの処理・抽出のための様々なツールの導入により、タスクは極めて便利になった。 Sky(DFS)のデータは、画像処理と人工知能(AI)に基づいて、トラフィックストリームの微視的変数だけでなく、マクロ的な出力を提供するツールである。 同社によると、DFSツールを使ってエクスポートされたデータの精度は98~100%だ。 このツールは、交通が均質で車線に基づく動きを持つ先進国で広く利用されている。 本研究では,多くの発展途上国で普及している異種・地域交通運動におけるDFSツールの妥当性を確認した。 検証は,各車両の分類体積数(CVC),空間平均速度(SMS),プローブ車両の微視的軌道を用いて行う。 トラフィックストリームに存在する各車両クラスのCVCの誤差を推定する。 手動およびDFS抽出空間平均速度(SMS)間の各車両クラスの平均速度に対して平均絶対誤差(MAPE)値を算出し、プローブ車両に搭載されたGPSベースのトラッカーを用いて微視的軌跡を検証する。 鳥の視線から得られたデータは、最小限の誤差でかなり正確だ。 データ収集の他の構成にはいくつかの重大な誤りがあり、それは主に、様々なトラフィック構成、カメラ角の視界、トラフィックの方向によって引き起こされる。

Traffic data collection has been an overwhelming task for researchers as well as authorities over the years. With the advancement in technology and introduction of various tools for processing and extracting traffic data the task has been made significantly convenient. Data from Sky (DFS) is one such tool, based on image processing and artificial intelligence (AI), that provides output for macroscopic as well as microscopic variables of the traffic streams. The company claims to provide 98 to 100 percent accuracy on the data exported using DFS tool. The tool is widely used in developed countries where the traffic is homogenous and has lane-based movements. In this study, authors have checked the veracity of DFS tool in heterogenous and area-based traffic movement that is prevailing in most developing countries. The validation is done using various methods using Classified Volume Count (CVC), Space Mean Speeds (SMS) of individual vehicle classes and microscopic trajectory of probe vehicle to verify DFS claim. The error for CVCs for each vehicle class present in the traffic stream is estimated. Mean Absolute Percentage Error (MAPE) values are calculated for average speeds of each vehicle class between manually and DFS extracted space mean speeds (SMSs), and the microscopic trajectories are validated using a GPS based tracker put on probe vehicles. The results are fairly accurate in the case of data taken from a bird eye view with least errors. The other configurations of data collection have some significant errors, that are majorly caused by the varied traffic composition, the view of camera angle, and the direction of traffic.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 広域建設環境の屋内マッピングのためのSLAM

SLAM for Indoor Mapping of Wide Area Construction Environments ( http://arxiv.org/abs/2404.17215v1 )

ライセンス: Link先を確認
Vincent Ress, Wei Zhang, David Skuddis, Norbert Haala, Uwe Soergel, (参考訳) 同時局所化とマッピング(SLAM)、すなわち3Dマップで表される環境の再構築と同時ポーズ推定は驚くべき進歩を遂げた。 一方,工場や建設現場などの複雑な環境下でのデータ収集を目的とした大規模アプリケーションが実現可能になっている。 しかし、建物内部を1つの部屋、店の床、あるいは建設現場に分けた小規模なシナリオとは対照的に、照明の難易度が低い場合、より広い距離での測度を必要とする。 GNSS測度は通常の屋内応用のため利用できないため、ポース推定はさらに増大する。 本研究では,4台のステレオカメラと3Dレーザースキャナを備えたロボットシステムによる大規模工場ホールにおけるデータ収集を実現する。 そこで我々は,現在最先端のLiDARと視覚SLAMを応用し,これらの環境における軌跡推定と高密度マップ生成のための異なるセンサタイプの長所と短所について検討する。 さらに,3次元ガウススプラッティングにより高密度かつ高精度な深度マップが生成される。

Simultaneous localization and mapping (SLAM), i.e., the reconstruction of the environment represented by a (3D) map and the concurrent pose estimation, has made astonishing progress. Meanwhile, large scale applications aiming at the data collection in complex environments like factory halls or construction sites are becoming feasible. However, in contrast to small scale scenarios with building interiors separated to single rooms, shop floors or construction areas require measures at larger distances in potentially texture less areas under difficult illumination. Pose estimation is further aggravated since no GNSS measures are available as it is usual for such indoor applications. In our work, we realize data collection in a large factory hall by a robot system equipped with four stereo cameras as well as a 3D laser scanner. We apply our state-of-the-art LiDAR and visual SLAM approaches and discuss the respective pros and cons of the different sensor types for trajectory estimation and dense map generation in such an environment. Additionally, dense and accurate depth maps are generated by 3D Gaussian splatting, which we plan to use in the context of our project aiming on the automatic construction and site monitoring.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# GPTをPivotとするUnder-Resourced言語におけるコードスイッチデータスカシティの緩和に向けたプロンプト

Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot ( http://arxiv.org/abs/2404.17216v1 )

ライセンス: Link先を確認
Michelle Terblanche, Kayode Olaleye, Vukosi Marivate, (参考訳) アフリカの多くの人々を含む多くの多言語コミュニティは、会話中に頻繁にコード交換に従事している。 この振る舞いは、コード変更されたテキストを処理するのに適した自然言語処理技術の必要性を強調している。 しかし、特にアフリカの言語におけるデータ不足は、多くが低リソースで低表現であるため、大きな課題となっている。 本研究は, GPT 3.5に, 英語とヨルバ語で書かれた音声文を生成させ, 話題キーワードペア, 言語ガイドライン, 少数例を用いて多様性を高めた。 その結果,非ラテン文字を用いた言語における生成文の品質は,アフリカーンス英語の成功率と比較すると,かなり低いことがわかった。 したがって、言語モデルの微調整に適した文を提示するためのガイドラインを洗練させる重要な機会がある。 本稿では,GPTを用いた合成コードスイッチングデータの多様性向上のためのフレームワークを提案し,この技術を利用して低リソース言語におけるデータ不足を軽減し,本プロセスにおけるネイティブ話者の役割を浮き彫りにする。

Many multilingual communities, including numerous in Africa, frequently engage in code-switching during conversations. This behaviour stresses the need for natural language processing technologies adept at processing code-switched text. However, data scarcity, particularly in African languages, poses a significant challenge, as many are low-resourced and under-represented. In this study, we prompted GPT 3.5 to generate Afrikaans--English and Yoruba--English code-switched sentences, enhancing diversity using topic-keyword pairs, linguistic guidelines, and few-shot examples. Our findings indicate that the quality of generated sentences for languages using non-Latin scripts, like Yoruba, is considerably lower when compared with the high Afrikaans-English success rate. There is therefore a notable opportunity to refine prompting guidelines to yield sentences suitable for the fine-tuning of language models. We propose a framework for augmenting the diversity of synthetically generated code-switched data using GPT and propose leveraging this technology to mitigate data scarcity in low-resourced languages, underscoring the essential role of native speakers in this process.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# ワークショップへのサイクル:バルセロナの自転車シェアリングシステムの予測保守

Cycling into the workshop: predictive maintenance for Barcelona's bike-sharing system ( http://arxiv.org/abs/2404.17217v1 )

ライセンス: Link先を確認
Jordi Grau-Escolano, Aleix Bassolas, Julian Vicens, (参考訳) 自転車シェアリングシステムは都市移動の重要な要素として現れ、環境に優しい交通手段を提供している。 電動自転車とメカニカルバイクの統合が進む中、異なる使用パターンとメンテナンスへの影響を照らすことが不可欠である。 そこで本研究では,モビリティのダイナミクスを包括的に理解し,異なるモビリティモードを区別し,自転車に適した新しい予測保守システムを導入することを目的とする。 バルセロナの自転車シェアリングシステムであるバイシング(Bicing)の旅行情報とメンテナンスデータを組み合わせて,移動パターンと自転車部品の故障との関係を広範囲に分析した。 本研究は、重要な自転車部品のメンテナンスニーズを正確に予測するために、様々なモビリティ指標を掘り下げ、深層学習モデルを含む統計的および機械学習サバイバルモデルを適用した。 その複雑さと、システムの予測に対する信頼性を高めることを目的として、解釈可能性技術はメンテナンスニーズの主要な予測因子を説明する。 この分析によると、機械式自転車と電動自転車の利用パターンは明らかに異なっている。 これらの移動性の違いは、自転車共有システムにおけるメンテナンスニーズに大きな影響を及ぼすことがわかった。 さらに、予測メンテナンスモデルは、これらのメンテナンスニーズを予測するのに有効であることが証明された。 自転車使用量やデータ不均衡といった課題にもかかわらず、この研究は、運用コスト、自転車の可用性、セキュリティを改善するための正確な予測保守システムの実現可能性を示すことに成功している。

Bike-sharing systems have emerged as a significant element of urban mobility, providing an environmentally friendly transportation alternative. With the increasing integration of electric bikes alongside mechanical bikes, it is crucial to illuminate distinct usage patterns and their impact on maintenance. Accordingly, this research aims to develop a comprehensive understanding of mobility dynamics, distinguishing between different mobility modes, and introducing a novel predictive maintenance system tailored for bikes. By utilising a combination of trip information and maintenance data from Barcelona's bike-sharing system, Bicing, this study conducts an extensive analysis of mobility patterns and their relationship to failures of bike components. To accurately predict maintenance needs for essential bike parts, this research delves into various mobility metrics and applies statistical and machine learning survival models, including deep learning models. Due to their complexity, and with the objective of bolstering confidence in the system's predictions, interpretability techniques explain the main predictors of maintenance needs. The analysis reveals marked differences in the usage patterns of mechanical bikes and electric bikes, with a growing user preference for the latter despite their extra costs. These differences in mobility were found to have a considerable impact on the maintenance needs within the bike-sharing system. Moreover, the predictive maintenance models proved effective in forecasting these maintenance needs, capable of operating across an entire bike fleet. Despite challenges such as approximated bike usage metrics and data imbalances, the study successfully showcases the feasibility of an accurate predictive maintenance system capable of improving operational costs, bike availability, and security.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# システム1とシステム2によるLLMの社会的バイアス低減のためのプロンプト技術

Prompting Techniques for Reducing Social Bias in LLMs through System 1 and System 2 Cognitive Processes ( http://arxiv.org/abs/2404.17218v1 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Gene Louis Kim, (参考訳) 二重過程理論は、人間の認知は2つのシステムを通して生じると仮定する。 システム1は、素早い、感情的で直感的なプロセスであり、認知バイアスを受けます。 NLP研究者は、LLMにおけるゼロショットプロンプトをSystem 1推論とSystem 2へのチェーン・オブ・シント(CoT)プロンプトと比較することが多い。 この解釈に従って、先行研究により、LLMにおけるCoTプロンプトの使用は性バイアスを減少させることがわかった。 LLMにおけるバイアス,CoTプロンプト,および二重プロセス理論の関係を直接検討する。 我々は、ゼロショット、CoT、および9つの異なる社会的バイアスカテゴリにまたがる2つのバイアスデータセットに対する様々なデュアルプロセス理論に基づくプロンプト戦略を比較した。 また、人間と機械のペルソナを用いて、LLMにおける二重プロセス理論の効果が、人間の認知をモデル化しているか、システム固有ののかを判断する。 人間のペルソナであるSystem 2とCoTは、LLMの社会的偏見を減少させる傾向にあるが、特徴の最良の組み合わせは正確なモデルと偏見のカテゴリーに依存している。

Dual process theory posits that human cognition arises via two systems. System 1, which is a quick, emotional, and intuitive process, which is subject to cognitive biases, and System 2, a slow, onerous, and deliberate process. NLP researchers often compare zero-shot prompting in LLMs to System 1 reasoning and chain-of-thought (CoT) prompting to System 2. In line with this interpretation, prior research has found that using CoT prompting in LLMs leads to reduced gender bias. We investigate the relationship between bias, CoT prompting, and dual process theory in LLMs directly. We compare zero-shot, CoT, and a variety of dual process theory-based prompting strategies on two bias datasets spanning nine different social bias categories. We also use human and machine personas to determine whether the effects of dual process theory in LLMs are based on modeling human cognition or inherent to the system. We find that a human persona, System 2, and CoT prompting all tend to reduce social biases in LLMs, though the best combination of features depends on the exact model and bias category -- resulting in up to a 13 percent drop in stereotypical judgments by an LLM.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# SAGHOG: 著者検索のためのHOG機能を生成するセルフスーパービジョンオートエンコーダ

SAGHOG: Self-Supervised Autoencoder for Generating HOG Features for Writer Retrieval ( http://arxiv.org/abs/2404.17221v1 )

ライセンス: Link先を確認
Marco Peer, Florian Kleber, Robert Sablatnig, (参考訳) 本稿では、二項化入力画像のHOG特徴を用いた著者検索のための自己教師付き事前学習戦略であるSAGHOGを紹介する。 我々の前処理では、Segment Anything技術を用いて様々なデータセットから手書きを抽出し、最終的に約24kの文書を作成し、その後、手書きのマスク付きパッチを再構築するビジョントランスフォーマーを訓練する。 SAGHOGは、事前訓練されたエンコーダに符号化層としてNetRVLADを付加することにより微調整される。 ヒストリー-WI,HisFrag20,GRK-Papyriの3つの歴史的データセットに対するアプローチの評価は,著者検索におけるSAGHOGの有効性を実証する。 さらに、アーキテクチャに関するアブレーション研究を行い、教師なしおよび教師なしの微調整を評価する。 特にHisFrag20では、SAGHOGが関連する作業を57.2%のmAPで上回り、現在の最先端に11.6%のマージンを与え、挑戦的なデータに頑健さを示し、小さなデータセット(例えばGRK-Papyri)でも競合し、58.0%のTop-1精度を達成した。

This paper introduces SAGHOG, a self-supervised pretraining strategy for writer retrieval using HOG features of the binarized input image. Our preprocessing involves the application of the Segment Anything technique to extract handwriting from various datasets, ending up with about 24k documents, followed by training a vision transformer on reconstructing masked patches of the handwriting. SAGHOG is then finetuned by appending NetRVLAD as an encoding layer to the pretrained encoder. Evaluation of our approach on three historical datasets, Historical-WI, HisFrag20, and GRK-Papyri, demonstrates the effectiveness of SAGHOG for writer retrieval. Additionally, we provide ablation studies on our architecture and evaluate un- and supervised finetuning. Notably, on HisFrag20, SAGHOG outperforms related work with a mAP of 57.2 % - a margin of 11.6 % to the current state of the art, showcasing its robustness on challenging data, and is competitive on even small datasets, e.g. GRK-Papyri, where we achieve a Top-1 accuracy of 58.0%.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 自律型UAVナビゲーションのプライバシとセキュリティ向上

Enhancing Privacy and Security of Autonomous UAV Navigation ( http://arxiv.org/abs/2404.17225v1 )

ライセンス: Link先を確認
Vatsal Aggarwal, Arjun Ramesh Kaushik, Charanjit Jutla, Nalini Ratha, (参考訳) 無人航空機(UAV)は、防衛、法執行、災害対応、製品提供において欠かせない道具となっている。 これらの自律ナビゲーションシステムは無線通信ネットワークを必要としており、最近ではディープラーニングベースになっている。 国境警備や災害対応といった重要なシナリオでは、自律型無人機の安全な航行が最重要である。 しかし、これらの自律型UAVは、通信ネットワークやディープラーニングモデルを通じて敵の攻撃を受けやすい。 そこで本研究では,RL(Reinforcement Learning)とFHE(Fully Homomorphic Encryption)を組み合わせて,自律型UAVナビゲーションを実現する革新的な手法を提案する。 このエンドツーエンドのセキュアなフレームワークは、UAVカメラが捉えたリアルタイムビデオフィード用に設計されており、FHEを使用して暗号化された入力画像の推論を行う。 FHEは暗号化データ上での計算を可能にするが、特定の演算子はまだ実装されていない。 畳み込みニューラルネットワーク、完全に接続されたニューラルネットワーク、アクティベーション関数、OpenAI Gymライブラリは、暗号化されたデータ処理を可能にするために、FHEドメインに慎重に適合する。 提案手法の有効性を広範囲な実験により実証する。 提案手法により,自律型UAVナビゲーションにおけるセキュリティとプライバシが保証され,性能が損なわれない。

Autonomous Unmanned Aerial Vehicles (UAVs) have become essential tools in defense, law enforcement, disaster response, and product delivery. These autonomous navigation systems require a wireless communication network, and of late are deep learning based. In critical scenarios such as border protection or disaster response, ensuring the secure navigation of autonomous UAVs is paramount. But, these autonomous UAVs are susceptible to adversarial attacks through the communication network or the deep learning models - eavesdropping / man-in-the-middle / membership inference / reconstruction. To address this susceptibility, we propose an innovative approach that combines Reinforcement Learning (RL) and Fully Homomorphic Encryption (FHE) for secure autonomous UAV navigation. This end-to-end secure framework is designed for real-time video feeds captured by UAV cameras and utilizes FHE to perform inference on encrypted input images. While FHE allows computations on encrypted data, certain computational operators are yet to be implemented. Convolutional neural networks, fully connected neural networks, activation functions and OpenAI Gym Library are meticulously adapted to the FHE domain to enable encrypted data processing. We demonstrate the efficacy of our proposed approach through extensive experimentation. Our proposed approach ensures security and privacy in autonomous UAV navigation with negligible loss in performance.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# ObjectAdd: トレーニング不要な拡散修正ファシオンによるイメージへのオブジェクトの追加

ObjectAdd: Adding Objects into Image via a Training-Free Diffusion Modification Fashion ( http://arxiv.org/abs/2404.17230v1 )

ライセンス: Link先を確認
Ziyue Zhang, Mingbao Lin, Rongrong Ji, (参考訳) 我々は,ユーザ指定領域にユーザ予測オブジェクトを追加するトレーニング不要な拡散修正手法であるObjectAddを紹介する。 ObjectAddの動機は次のようなものだ。 1つは、すべてのことを1つのプロンプトで記述することが難しいこと、2つ目は、ユーザが生成したイメージにオブジェクトを追加する必要があること。 実世界に対応するため,ObjectAddは,(1) 適切なテキスト埋め込み合体を保証するための埋め込みレベル結合,(2) 潜時および注意注入によるオブジェクト駆動レイアウト制御によるユーザ指定領域へのアクセスを保証するためのオブジェクト駆動レイアウト制御,(3) 注意再焦点化・オブジェクト拡張方式による画像インペインティングにより,画像の残りが同一であることを保証する。 テキストプロンプトされた画像により、ObjectAddはユーザーがボックスとオブジェクトを指定することができ、(1) ボックス領域内にオブジェクトを追加し、(2) ボックス領域の外に正確なコンテンツを追加し、(3) ボックス領域間の不完全な融合を実現する。

We introduce ObjectAdd, a training-free diffusion modification method to add user-expected objects into user-specified area. The motive of ObjectAdd stems from: first, describing everything in one prompt can be difficult, and second, users often need to add objects into the generated image. To accommodate with real world, our ObjectAdd maintains accurate image consistency after adding objects with technical innovations in: (1) embedding-level concatenation to ensure correct text embedding coalesce; (2) object-driven layout control with latent and attention injection to ensure objects accessing user-specified area; (3) prompted image inpainting in an attention refocusing & object expansion fashion to ensure rest of the image stays the same. With a text-prompted image, our ObjectAdd allows users to specify a box and an object, and achieves: (1) adding object inside the box area; (2) exact content outside the box area; (3) flawless fusion between the two areas
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# ユニバーサル病変セグメンテーションの最適化:特徴量調整を伴う状態空間モデル誘導階層型ネットワーク

Optimizing Universal Lesion Segmentation: State Space Model-Guided Hierarchical Networks with Feature Importance Adjustment ( http://arxiv.org/abs/2404.17235v1 )

ライセンス: Link先を確認
Kazi Shahriar Sanjid, Md. Tanzim Hossain, Md. Shakib Shahariar Junayed, M. Monir Uddin, (参考訳) ディープラーニングは、複雑な医療課題に対する革新的な解決策を提供することによって、医療画像に革命をもたらした。 伝統的なモデルは、しばしば機能の重要性を動的に調整するのに苦労し、特に正確な構造記述に不可欠なセグメンテーションのようなタスクにおいて、最適でない表現をもたらす。 さらに、静的な性質は高い計算コストをもたらす。 これらの課題に対処するため,MAMBAフレームワークにステートスペースモデル(SSM)とアドバンスト階層ネットワーク(AHNet)を統合したMamba-Ahnetを紹介する。 イメージをパッチに分割し,自己認識機構を通じて特徴理解を洗練することにより,特徴の分解能を大幅に向上させる。 AHNetのMAMBAフレームワークへの統合により、情報領域を選択的に増幅し、リッチな階層表現の学習を容易にすることにより、セグメンテーション性能がさらに向上する。 Universal Lesion Segmentationデータセットの評価は、Dice類似度係数約98%、Intersection over Union約83%など、最先端技術よりも優れたパフォーマンスを示している。 これらの結果は, 診断精度, 治療計画, そして, 最終的に臨床実習における患者予後を高める手法の可能性を明らかにするものである。 従来のモデルの限界に対処し、ディープラーニングのパワーを活用することで、我々のアプローチは医療画像技術の進歩の大きな一歩となる。

Deep learning has revolutionized medical imaging by providing innovative solutions to complex healthcare challenges. Traditional models often struggle to dynamically adjust feature importance, resulting in suboptimal representation, particularly in tasks like semantic segmentation crucial for accurate structure delineation. Moreover, their static nature incurs high computational costs. To tackle these issues, we introduce Mamba-Ahnet, a novel integration of State Space Model (SSM) and Advanced Hierarchical Network (AHNet) within the MAMBA framework, specifically tailored for semantic segmentation in medical imaging.Mamba-Ahnet combines SSM's feature extraction and comprehension with AHNet's attention mechanisms and image reconstruction, aiming to enhance segmentation accuracy and robustness. By dissecting images into patches and refining feature comprehension through self-attention mechanisms, the approach significantly improves feature resolution. Integration of AHNet into the MAMBA framework further enhances segmentation performance by selectively amplifying informative regions and facilitating the learning of rich hierarchical representations. Evaluation on the Universal Lesion Segmentation dataset demonstrates superior performance compared to state-of-the-art techniques, with notable metrics such as a Dice similarity coefficient of approximately 98% and an Intersection over Union of about 83%. These results underscore the potential of our methodology to enhance diagnostic accuracy, treatment planning, and ultimately, patient outcomes in clinical practice. By addressing the limitations of traditional models and leveraging the power of deep learning, our approach represents a significant step forward in advancing medical imaging technology.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# スパイキングランダム結合ニューラルネットワークにおけるフィリング閾値と学習閾値の同期ステップワイド制御によるハードウェア実装

Synchronized Stepwise Control of Firing and Learning Thresholds in a Spiking Randomly Connected Neural Network toward Hardware Implementation ( http://arxiv.org/abs/2404.17241v1 )

ライセンス: Link先を確認
Kumiko Nomura, Yoshifumi Nishi, (参考訳) 本稿では、ランダムに連結された再帰的ニューラルネットワーク(RNN)をスパイクするための、固有可塑性(IP)とシナプス可塑性(SP)のハードウェア指向モデルを提案する。 時間的データ処理のためのRNNの可能性は実証されているが、ネットワークアーキテクチャのランダム性はしばしば性能劣化を引き起こす。 IPとSPを用いた自己組織化機構は劣化を軽減できるため、これらの機能をスパイクニューロンモデルでコンパイルする。 IPの機能を実装するために、RNNの各興奮ニューロンに対して、その活動に応じて段階的に変化する可変発射しきい値を導入する。 また、前シナプススパイクの受信時に実行される段階的なシナプス更新の方向を決定する、発射しきい値と同期するSPの他のしきい値も定義する。 心電図を用いたスパイキングRNNによる時間的データ学習と異常検出のシミュレーションにより,本モデルの有効性を実証する。 ハードウェアの実装を考えると、離散化しきい値とシナプス重みを用いて、RNNアーキテクチャが適切に設計されている場合、これらのパラメータをバイナリにすることができることを示す。 これは、IPとSPを有する神経細胞系の回路の最小化に寄与する。

We propose hardware-oriented models of intrinsic plasticity (IP) and synaptic plasticity (SP) for spiking randomly connected recursive neural network (RNN). Although the potential of RNNs for temporal data processing has been demonstrated, randomness of the network architecture often causes performance degradation. Self-organization mechanism using IP and SP can mitigate the degradation, therefore, we compile these functions in a spiking neuronal model. To implement the function of IP, a variable firing threshold is introduced to each excitatory neuron in the RNN that changes stepwise in accordance with its activity. We also define other thresholds for SP that synchronize with the firing threshold, which determine the direction of stepwise synaptic update that is executed on receiving a pre-synaptic spike. We demonstrate the effectiveness of our model through simulations of temporal data learning and anomaly detection with a spiking RNN using publicly available electrocardiograms. Considering hardware implementation, we employ discretized thresholds and synaptic weights and show that these parameters can be reduced to binary if the RNN architecture is appropriately designed. This contributes to minimization of the circuit of the neuronal system having IP and SP.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 最適化のための縮小アルゴリズムにおける量子および古典的相関の役割

The role of quantum and classical correlations in shrinking algorithms for optimization ( http://arxiv.org/abs/2404.17242v1 )

ライセンス: Link先を確認
Victor Fischer, Maximilian Passek, Friedrich Wagner, Jernej Rudi Finžgar, Lilly Palackal, Christian B. Mendl, (参考訳) 組合せ最適化問題(COP)を解決するための量子コンピューティングの利点は、オープンな研究課題である。 本研究では,COPのための縮小アルゴリズムの性能について検討する。 このアルゴリズムは、量子または古典的なサブルーチンから抽出された相関を利用して問題を再帰的に単純化する。 量子近似最適化アルゴリズム (QAOA) と古典線形計画法 (LP) と半定値計画法 (SDP) の相関によるアルゴリズムの性能の比較を行った。 これにより、確立された古典的緩和アルゴリズムに対するQAOA相関の有用性をベンチマークすることができる。 グラフ密度の異なる最大100個の頂点を持つMaxCut問題インスタンスに対して再帰的アルゴリズムを適用する。 その結果、LPは低密度のインスタンスに対して他の全てのアプローチよりも優れており、SDPは高密度の問題に対して優れていた。 さらに、縮小アルゴリズムは、LPおよびSDP緩和の確立された方法の代替となることが証明された。 さらに、再帰的縮小アルゴリズムは3種類の相関関係、すなわち木の丸みを分散したLP、ゴーマンス・ウィリアムソンアルゴリズム、および従来のQAOAにおいて、その素数よりも優れる。 低深さQAOAはSDPよりも常に悪い結果をもたらすが、このテンソルネットワーク実験により、より深いQAOA回路では性能が著しく向上することが示された。

The benefit of quantum computing for solving combinatorial optimization problems (COPs) constitutes an open research question. In this work, we study the performance of a shrinking algorithm for COPs. The algorithm leverages correlations extracted from quantum or classical subroutines to recursively simplify the problem. We compare the performance of the algorithm equipped with correlations from the quantum approximate optimization algorithm (QAOA) as well as the classical linear programming (LP) and semi-definite programming (SDP) relaxations. This allows us to benchmark the utility of QAOA correlations against established classical relaxation algorithms. We apply the recursive algorithm to MaxCut problem instances with up to a hundred vertices at different graph densities. Our results indicate that LP outperforms all other approaches for low-density instances, while SDP excels for high-density problems. Moreover, the shrinking algorithm proves to be a viable alternative to established methods of rounding LP and SDP relaxations. In addition, the recursive shrinking algorithm outperforms its bare counterparts for all three types of correlations, i.e., LP with spanning tree rounding, the Goemans-Williamson algorithm, and conventional QAOA. While the lowest depth QAOA consistently yields worse results than the SDP, our tensor network experiments show that the performance increases significantly for deeper QAOA circuits.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 空間と周波数の両利用による文書のバイナリ化

Binarizing Documents by Leveraging both Space and Frequency ( http://arxiv.org/abs/2404.17243v1 )

ライセンス: Link先を確認
Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara, (参考訳) 文書画像のバイナリ化は、文書解析とコンピュータビジョンにおいてよく知られた問題であるが、解決には程遠い。 このタスクの主な課題の1つは、ドキュメントが一般的にページ全体で大きく異なる、劣化と獲得の成果物を示すことである。 それでも、文書の局所的なパッチを扱う場合でも、ページの広い部分の全体像を考慮すると、インクや背景条件のセマンティックな情報によって、予測が楽になる。 この点において、地域情報とグローバル情報の両方をモデル化できるアプローチが、この課題に適していることが証明されている。 特に、ViT(Vision Transformer)ベースのモデルでは、注意機構を通じて短距離および長距離の依存関係をモデル化することができ、代わりにグローバルな依存関係をモデル化するのに苦労する標準的な畳み込みベースのモデルよりも優位性を証明している。 本稿では,最近導入されたFast Fourier Convolutionsに基づく代替ソリューションを提案する。これは,ViTよりも少ないパラメータを必要としながら,グローバル情報モデリングにおける標準畳み込みの制限を克服するものである。 各種の劣化を考慮した広範囲な実験解析により, 本手法の有効性を検証した。

Document Image Binarization is a well-known problem in Document Analysis and Computer Vision, although it is far from being solved. One of the main challenges of this task is that documents generally exhibit degradations and acquisition artifacts that can greatly vary throughout the page. Nonetheless, even when dealing with a local patch of the document, taking into account the overall appearance of a wide portion of the page can ease the prediction by enriching it with semantic information on the ink and background conditions. In this respect, approaches able to model both local and global information have been proven suitable for this task. In particular, recent applications of Vision Transformer (ViT)-based models, able to model short and long-range dependencies via the attention mechanism, have demonstrated their superiority over standard Convolution-based models, which instead struggle to model global dependencies. In this work, we propose an alternative solution based on the recently introduced Fast Fourier Convolutions, which overcomes the limitation of standard convolutions in modeling global information while requiring fewer parameters than ViTs. We validate the effectiveness of our approach via extensive experimental analysis considering different types of degradations.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# 機械学習モデルのための自動構成合成:gitベースの要件とアーキテクチャ管理システム

Automated Configuration Synthesis for Machine Learning Models: A git-Based Requirement and Architecture Management System ( http://arxiv.org/abs/2404.17244v1 )

ライセンス: Link先を確認
Abdullatif AlShriaf, Hans-Martin Heyn, Eric Knauss, (参考訳) この作業では、ソフトウェアコードとともにgitリポジトリ(T-Reqs)にアーティファクトとして格納されたテキスト要求からランタイム設定を自動的に生成するツールを導入している。 このツールは、T-Reqsでモデル化されたアーキテクチャ記述を利用して、人工知能(AI)対応ソフトウェアシステムのデプロイに必要な構成特性を特定する。 これにより、機能要件と非機能要件の両方を考慮したトレーサブルな構成生成が可能になる。 結果として生じる構成仕様には、調整が必要な動的な特性や、調整の背景にある根拠も含まれている。 この中間フォーマットは,例えば,デプロイメント前のMLモデルサイズの観点から,実行時の最適化を実現するために,システムによって直接使用したり,特定のターゲットに適応したりすることができることを示す。

This work introduces a tool for generating runtime configurations automatically from textual requirements stored as artifacts in git repositories (a.k.a. T-Reqs) alongside the software code. The tool leverages T-Reqs-modelled architectural description to identify relevant configuration properties for the deployment of artificial intelligence (AI)-enabled software systems. This enables traceable configuration generation, taking into account both functional and non-functional requirements. The resulting configuration specification also includes the dynamic properties that need to be adjusted and the rationale behind their adjustment. We show that this intermediary format can be directly used by the system or adapted for specific targets, for example in order to achieve runtime optimisations in term of ML model size before deployment.
翻訳日:2024-04-29 13:44:15 公開日:2024-04-26
# カタストロフィック形成を伴わない自己監督型ビタミンVTの高精度微調整

Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic Forgetting ( http://arxiv.org/abs/2404.17245v1 )

ライセンス: Link先を確認
Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi, (参考訳) 人工ニューラルネットワークは、しばしば破滅的な忘れ込みに悩まされ、そこで新しい概念を学ぶことで、以前に獲得した知識が完全に失われる。 特に視覚変換器(ViT)では,新しいタスクの事前学習や微調整により,モデルの本来の汎用能力を著しく低下させる可能性がある。 例えば、ImageNet-1kで事前トレーニングされたDINO ViT-Base/16は、CIFAR-100で10回の微調整を行っただけで、ImageNet-1kで70%以上の精度を失う。 この安定性-塑性ジレンマを克服することは、ViTが初期知識を維持しながら、新しいドメインを継続的に学習し、適応できるようにするために重要である。 本研究では,(1)〜ブロック展開と(2)ローランク適応(LoRA)という,パラメータ効率のよい2つの新しい微調整戦略について検討する。 実験の結果,自己指導型VTではブロック拡張あるいはLoRAが完全に調整されたVTを超越し,パラメータ効率は大幅に向上した。 特に、Block Expansionはトレーニング済みのドメインで最小のパフォーマンス低下しか経験せず、これにより、トレーニング済みのViTにおける破滅的な忘れを効果的に軽減できることがわかった。

Artificial neural networks often suffer from catastrophic forgetting, where learning new concepts leads to a complete loss of previously acquired knowledge. We observe that this issue is particularly magnified in vision transformers (ViTs), where post-pre-training and fine-tuning on new tasks can significantly degrade the model's original general abilities. For instance, a DINO ViT-Base/16 pre-trained on ImageNet-1k loses over 70% accuracy on ImageNet-1k after just 10 iterations of fine-tuning on CIFAR-100. Overcoming this stability-plasticity dilemma is crucial for enabling ViTs to continuously learn and adapt to new domains while preserving their initial knowledge. In this work, we study two new parameter-efficient fine-tuning strategies: (1)~Block Expansion, and (2) Low-rank adaptation (LoRA). Our experiments reveal that using either Block Expansion or LoRA on self-supervised pre-trained ViTs surpass fully fine-tuned ViTs in new domains while offering significantly greater parameter efficiency. Notably, we find that Block Expansion experiences only a minimal performance drop in the pre-training domain, thereby effectively mitigating catastrophic forgetting in pre-trained ViTs.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 逆場イジングモデルにおける反キブルズレークスケーリングの解析的導出と拡張

Analytical derivation and expansion of the anti-Kibble-Zurek scaling in the transverse field Ising model ( http://arxiv.org/abs/2404.17247v1 )

ライセンス: Link先を確認
Kaito Iwamura, Takayuki Suzuki, (参考訳) スピン基底状態からの偏差を定量化する欠陥密度は、相転移中の非平衡ダイナミクスを特徴づける。 広く知られているKibble-Zurekスケーリングは、相転移中に欠陥密度がどのように進化するかを予測する。 しかし、ノイズに悩まされ、反キブル・ズールクのスケーリングに繋がる。 本研究では,ガウスホワイトノイズがランダウ・ツェナーモデルの遷移確率に及ぼす影響を解析的に検討する。 このモデルを1次元逆場イジングモデルに適用し、欠陥密度の解析近似を導出する。 分析の結果,小さなノイズ条件下では,このモデルがアンチ・キブル・ズールクスケーリングに従うことが明らかとなった。 ノイズの増加に伴い、新しいスケーリング動作が出現し、以前報告されたよりも高い精度を示す。 さらに,新たなスケーリングに基づいて,欠陥密度を最適化するパラメータを同定する。 これにより、より高精度で最適化されたパラメータの洗練が可能になり、以前に確立されたスケーリングのさらなる検証が可能になる。

A defect density which quantifies the deviation from the spin ground state characterizes non-equilibrium dynamics during phase transitions. The widely recognized Kibble-Zurek scaling predicts how the defect density evolves during phase transitions. However, it can be perturbed by noise, leading to anti-Kibble-Zurek scaling. In this research, we analytically investigate the effect of Gaussian white noise on the transition probabilities of the Landau-Zener model. We apply this model to the one-dimensional transverse field Ising model and derive an analytical approximation for the defect density. Our analysis reveals that under small noise conditions, the model follows an anti-Kibble-Zurek scaling. As the noise increases, a new scaling behavior emerges, showing higher accuracy than previously reported. Furthermore, we identify the parameters that optimize the defect density based on the new scaling. This allows for the refinement of optimized parameters with greater precision and provides further validations of previously established scaling.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# ベイジアンアクティブラーニングにおける非競合データの利用性向上

Making Better Use of Unlabelled Data in Bayesian Active Learning ( http://arxiv.org/abs/2404.17249v1 )

ライセンス: Link先を確認
Freddie Bickford Smith, Adam Foster, Tom Rainforth, (参考訳) 完全な教師付きモデルはベイズ的活発な学習において支配的である。 問題のないデータに存在する情報を無視することは、予測性能だけでなく、取得すべきデータに関する決定にも害をもたらすと我々は主張する。 提案手法は半教師付きベイズ能動学習のための単純なフレームワークである。 従来のベイズ的アクティブラーニングやランダムに取得したデータを用いた半教師付きラーニングよりも優れた性能モデルが得られた。 従来の方法よりもスケールアップも容易です。 本研究は, 半教師付きモデルへの移行を支援するとともに, モデル研究と獲得手法の併用の重要性を強調した。

Fully supervised models are predominant in Bayesian active learning. We argue that their neglect of the information present in unlabelled data harms not just predictive performance but also decisions about what data to acquire. Our proposed solution is a simple framework for semi-supervised Bayesian active learning. We find it produces better-performing models than either conventional Bayesian active learning or semi-supervised learning with randomly acquired data. It is also easier to scale up than the conventional approach. As well as supporting a shift towards semi-supervised models, our findings highlight the importance of studying models and acquisition methods in conjunction.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# RGB-D-慣性流れからのカメラモーション推定

Camera Motion Estimation from RGB-D-Inertial Scene Flow ( http://arxiv.org/abs/2404.17251v1 )

ライセンス: Link先を確認
Samuel Cerezo, Javier Civera, (参考訳) 本稿では,RGB-D画像とシーンフローによる慣性データを統合するカメラモーション推定の新しい定式化を提案する。 我々の目標は、慣性測定ユニット(IMU)の状態とともに、剛性3次元環境におけるカメラの動きを正確に推定することである。 提案手法は,複数フレームの最適化や古いデータのマージ化を行う柔軟性を提供し,過去の測定を効果的に活用する。 ICL-NUIMデータセットの合成データとOpenLORIS-Sceneデータセットの実際のデータシーケンスの両方を用いて,本手法の性能評価を行った。 その結果,この2つのセンサの融合により,視覚データのみを用いた場合と比較して,カメラの動き推定精度が向上することがわかった。

In this paper, we introduce a novel formulation for camera motion estimation that integrates RGB-D images and inertial data through scene flow. Our goal is to accurately estimate the camera motion in a rigid 3D environment, along with the state of the inertial measurement unit (IMU). Our proposed method offers the flexibility to operate as a multi-frame optimization or to marginalize older data, thus effectively utilizing past measurements. To assess the performance of our method, we conducted evaluations using both synthetic data from the ICL-NUIM dataset and real data sequences from the OpenLORIS-Scene dataset. Our results show that the fusion of these two sensors enhances the accuracy of camera motion estimation when compared to using only visual data.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 鳥類種認識のための自己教師付き内ドメインと教師付き外ドメイン移動学習の比較

Comparison of self-supervised in-domain and supervised out-domain transfer learning for bird species recognition ( http://arxiv.org/abs/2404.17252v1 )

ライセンス: Link先を確認
Houtan Ghaffari, Paul Devos, (参考訳) 別のタスクを支援するために事前訓練されたモデルの重みを移すことは、特にデータスキャンのシナリオにおいて、現代のディープラーニングの重要な部分となっている。 事前トレーニング(Pre-training)とは、現在の関心のあるタスク、通常は別のデータセットの外でモデルをトレーニングする最初のステップを指す。 これは、人間のアノテーション付きデータセットまたはラベルなしデータセットでトレーニングされた自己教師付きモデルを使用して、教師付きモデルを通じて行うことができる。 どちらの場合も、多くの事前訓練されたモデルは興味のあるタスクのために微調整が可能である。 興味深いことに、ImageNetから事前トレーニングされたモデルは、画像データセットでトレーニングされているにもかかわらず、オーディオタスクに役立つことが研究で示されている。 したがって、ImageNetの畳み込みニューラルネットワークのような競合する外部ドメインモデルと比較して、ドメイン内のモデルが有利であるかどうかは不明だ。 鳥種認識におけるドメイン内モデルとデータセットの有用性を,最近かつ強力な自己管理手法であるVICRegを用いて実証する。

Transferring the weights of a pre-trained model to assist another task has become a crucial part of modern deep learning, particularly in data-scarce scenarios. Pre-training refers to the initial step of training models outside the current task of interest, typically on another dataset. It can be done via supervised models using human-annotated datasets or self-supervised models trained on unlabeled datasets. In both cases, many pre-trained models are available to fine-tune for the task of interest. Interestingly, research has shown that pre-trained models from ImageNet can be helpful for audio tasks despite being trained on image datasets. Hence, it's unclear whether in-domain models would be advantageous compared to competent out-domain models, such as convolutional neural networks from ImageNet. Our experiments will demonstrate the usefulness of in-domain models and datasets for bird species recognition by leveraging VICReg, a recent and powerful self-supervised method.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 個人文書におけるホログラム検証のための弱監督訓練

Weakly Supervised Training for Hologram Verification in Identity Documents ( http://arxiv.org/abs/2404.17253v1 )

ライセンス: Link先を確認
Glen Pouliquen, Guillaume Chiron, Joseph Chazalon, Thierry Géraud, Ahmad Montaser Awal, (参考訳) 本稿では,光学可変デバイス(OVD)の信頼性を遠隔で検証する手法を提案する。 MIDV-HOLO と MIDV-2020 の2つの公開データセットで評価を行った。 MIDV-HOLOでは,攻撃サンプルとして使用されるMIDV-2020の文書を高いリコールを維持しつつ,特徴抽出と決定パイプラインを最適化した。 また、写真置換攻撃タスクに効果的に対処する最初の方法であり、真のサンプル、攻撃サンプル、あるいはパフォーマンス向上のためにトレーニングすることができる。 OVDの形状やダイナミクスをほとんど監視することなく検証可能にすることで、この研究は、膨大な量のラベルのないデータを使用して、コモディティスマートフォン上で堅牢なリモートID文書検証システムを構築するための道を開く。 コードはhttps://github.com/EPITAResearchLab/pouliquen.24.icdarで公開されている。

We propose a method to remotely verify the authenticity of Optically Variable Devices (OVDs), often referred to as ``holograms'', in identity documents. Our method processes video clips captured with smartphones under common lighting conditions, and is evaluated on two public datasets: MIDV-HOLO and MIDV-2020. Thanks to a weakly-supervised training, we optimize a feature extraction and decision pipeline which achieves a new leading performance on MIDV-HOLO, while maintaining a high recall on documents from MIDV-2020 used as attack samples. It is also the first method, to date, to effectively address the photo replacement attack task, and can be trained on either genuine samples, attack samples, or both for increased performance. By enabling to verify OVD shapes and dynamics with very little supervision, this work opens the way towards the use of massive amounts of unlabeled data to build robust remote identity document verification systems on commodity smartphones. Code is available at https://github.com/EPITAResearchLab/pouliquen.24.icdar
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# トリニティ検出器:拡散生成画像検出のためのテキスト支援・注意機構に基づくスペクトル融合

Trinity Detector:text-assisted and attention mechanisms based spectral fusion for diffusion generation image detection ( http://arxiv.org/abs/2404.17254v1 )

ライセンス: Link先を確認
Jiawei Song, Dengpan Ye, Yunming Zhang, (参考訳) AIGC(Artificial Intelligence Generated Content)技術は、テキスト・ツー・イメージ・ジェネレーションによって表現されている。 従来の偽造検出手法を拡散モデルに適用することは困難である。 そこで本論文では,Trinity Detectorと呼ばれる拡散モデルのために設計された偽造検出手法を提案する。 Trinity Detectorは、CLIPエンコーダを通じて粗粒度のテキスト機能を組み込んで、ピクセル領域の細粒度のアーティファクトとコヒーレントに統合して、包括的なマルチモーダル検出を行う。 拡散生成画像の特徴に対する感度を高めるために、多スペクトルチャネル注意融合ユニット(MCAF)が設計され、様々な周波数帯域の適応融合を通じてスペクトルの不整合を抽出し、さらに2つのモードの空間的共起を統合する。 大規模な実験により、我々のトリニティ検出器法はいくつかの最先端手法よりも優れており、我々の性能は全データセットで競争力があり、拡散データセットにおける転送性は最大17.6%向上している。

Artificial Intelligence Generated Content (AIGC) techniques, represented by text-to-image generation, have led to a malicious use of deep forgeries, raising concerns about the trustworthiness of multimedia content. Adapting traditional forgery detection methods to diffusion models proves challenging. Thus, this paper proposes a forgery detection method explicitly designed for diffusion models called Trinity Detector. Trinity Detector incorporates coarse-grained text features through a CLIP encoder, coherently integrating them with fine-grained artifacts in the pixel domain for comprehensive multimodal detection. To heighten sensitivity to diffusion-generated image features, a Multi-spectral Channel Attention Fusion Unit (MCAF) is designed, extracting spectral inconsistencies through adaptive fusion of diverse frequency bands and further integrating spatial co-occurrence of the two modalities. Extensive experimentation validates that our Trinity Detector method outperforms several state-of-the-art methods, our performance is competitive across all datasets and up to 17.6\% improvement in transferability in the diffusion datasets.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# SDFD: 多様な属性を持つヴァーサタイル合成顔画像データセットの構築

SDFD: Building a Versatile Synthetic Face Image Dataset with Diverse Attributes ( http://arxiv.org/abs/2404.17255v1 )

ライセンス: Link先を確認
Georgia Baltsou, Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, (参考訳) AIシステムは、さまざまなタスクに対処するために、大規模なデータセットの広範なトレーニングに依存している。 しかし、画像ベースのシステム、特に人口統計学的属性予測に使用されるシステムは、重大な課題に直面している。 現在の顔画像データセットの多くは、主に年齢、性別、肌のトーンなどの人口統計要因に焦点を当てており、ヘアスタイルやアクセサリーのような他の重要な顔の特徴を見下ろしている。 この狭い焦点はデータの多様性を制限し、結果としてトレーニングされたAIシステムの堅牢性も制限される。 この研究は、顔の多様性の幅広いスペクトルをキャプチャする合成顔画像データセットを生成する方法論を提案することで、この制限に対処することを目的としている。 具体的には、人口統計学やバイオメトリックスだけでなく、メイクアップ、ヘアスタイル、アクセサリーといった非永続的な特徴を包含する、体系的な迅速な定式化戦略を統合する。 これらのプロンプトは、高品質なリアル画像の包括的なデータセットを生成する際に、最先端のテキスト・トゥ・イメージモデルを示し、顔分析システムで評価セットとして使用できる。 既存のデータセットと比較して,提案データセットは画像分類タスクにおいて,サイズがはるかに小さく,等しく,あるいはそれ以上の困難さを証明している。

AI systems rely on extensive training on large datasets to address various tasks. However, image-based systems, particularly those used for demographic attribute prediction, face significant challenges. Many current face image datasets primarily focus on demographic factors such as age, gender, and skin tone, overlooking other crucial facial attributes like hairstyle and accessories. This narrow focus limits the diversity of the data and consequently the robustness of AI systems trained on them. This work aims to address this limitation by proposing a methodology for generating synthetic face image datasets that capture a broader spectrum of facial diversity. Specifically, our approach integrates a systematic prompt formulation strategy, encompassing not only demographics and biometrics but also non-permanent traits like make-up, hairstyle, and accessories. These prompts guide a state-of-the-art text-to-image model in generating a comprehensive dataset of high-quality realistic images and can be used as an evaluation set in face analysis systems. Compared to existing datasets, our proposed dataset proves equally or more challenging in image classification tasks while being much smaller in size.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 純粋ガウス状態の真の多モード絡みの典型的な挙動

Typical behaviour of genuine multimode entanglement of pure Gaussian states ( http://arxiv.org/abs/2404.17265v1 )

ライセンス: Link先を確認
Saptarshi Roy, (参考訳) 一様生成多モード純ガウス状態における真の絡み合いの傾向について検討した。 一般化幾何測度(GGM)として知られる距離ベースの計量は、真の絡み合いを定量化するために用いられる。 状態のGGMは、すべての非自然交絡状態の集合から最小距離として定義される。 まず、エネルギー制約状態の集合上で定義される任意の関数のハール平均値の式を導出する。 その後、多数のモードを持つ状態を調査し、モード毎の平均エネルギーの観点から平均GGMの閉形式表現を提供する。 さらに, 偏差確率を指数的に抑制された限界で制限したHaar平均GGM値に近似することが実証された。 次に、有限モードで典型状態のGGM含量を解析し、GGMの分布を示す。 その結果, モード数が増加するにつれて, 分布はより高い絡み合い値へと変化し, より集中することが明らかとなった。 これらの特徴をHaar平均GGMの計算とGGM分布の標準偏差により定量化し、後者がモード数で減少する間に前者が増加することを示した。

Trends of genuine entanglement in Haar uniformly generated multimode pure Gaussian states with fixed average energy per mode are explored. A distance-based metric known as the generalized geometric measure (GGM) is used to quantify genuine entanglement. The GGM of a state is defined as its minimum distance from the set of all non-genuinely entangled states. To begin with, we derive an expression for the Haar averaged value of any function defined on the set of energy-constrained states. Subsequently, we investigate states with a large number of modes and provide a closed-form expression for the Haar averaged GGM in terms of the average energy per mode. Furthermore, we demonstrate that typical states closely approximate their Haar averaged GGM value, with deviation probabilities bounded by an exponentially suppressed limit. We then analyze the GGM content of typical states with a finite number of modes and present the distribution of GGM. Our findings indicate that as the number of modes increases, the distribution shifts towards higher entanglement values and becomes more concentrated. We quantify these features by computing the Haar averaged GGM and the standard deviation of the GGM distribution, revealing that the former increases while the latter decreases with the number of modes.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# センシティブなデータで研究を民主化するためには、合成データをもっと使いやすくする必要がある

To democratize research with sensitive data, we should make synthetic data more accessible ( http://arxiv.org/abs/2404.17271v1 )

ライセンス: Link先を確認
Erik-Jan van Kesteren, (参考訳) 30年以上にわたって、センシティブなデータセットをアクセス可能にするための有望なソリューションとして、合成データが推奨されてきた。 しかし、多くの研究努力といくつかの顕著なユースケースにもかかわらず、オープンでアクセスしやすく再現可能なデータを用いた研究のためのツールとして、合成データを広く採用することは、まだまだ遠い夢である。 この意見の中で、ODISSEI Social Data Scienceチームの責任者であるErik-Jan van Kesteren氏は、プライバシ向上技術として合成データを広く採用するためには、データサイエンス研究コミュニティはより良い合成方法の開発から離れるべきである、と論じている。

For over 30 years, synthetic data has been heralded as a promising solution to make sensitive datasets accessible. However, despite much research effort and several high-profile use-cases, the widespread adoption of synthetic data as a tool for open, accessible, reproducible research with sensitive data is still a distant dream. In this opinion, Erik-Jan van Kesteren, head of the ODISSEI Social Data Science team, argues that in order to progress towards widespread adoption of synthetic data as a privacy enhancing technology, the data science research community should shift focus away from developing better synthesis methods: instead, it should develop accessible tools, educate peers, and publish small-scale case studies.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 3SHNet:視覚的セマンティック空間自己照準による画像文検索

3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting ( http://arxiv.org/abs/2404.17273v1 )

ライセンス: Link先を確認
Xuri Ge, Songpei Xu, Fuhai Chen, Jie Wang, Guoxin Wang, Shan An, Joemon M. Jose, (参考訳) 本稿では,高精度,高効率,高一般化画像文検索のための視覚的セマンティック・空間自己ハイライトネットワーク(3SHNet)を提案する。 3SHNetは、視覚的モダリティ内の顕著な物体とその空間的位置の同定を強調し、視覚的セマンティクスと空間的相互作用の統合と、2つのモダリティ間の独立性の維持を可能にする。 この統合は、視覚的表現を強化するために、オブジェクト領域とセグメンテーションから派生した対応する意味と位置のレイアウトを効果的に結合する。 そして、モダリティ独立性は効率と一般化を保証する。 さらに、3SHNetは、セグメンテーションから構造化されたコンテキストビジュアルシーン情報を利用して、ローカル(地域ベース)またはグローバル(グリッドベース)ガイダンスを実行し、正確なハイブリッドレベル検索を実現する。 MS-COCO と Flickr30K ベンチマークで実施された大規模な実験は、現代の最先端の方法論に照らし合わせると、提案した 3SHNet の優れた性能、推論効率、一般化を裏付けるものである。 具体的には、より大規模なMS-COCO 5Kテストセットにおいて、各rSumスコアの16.3%、24.8%、および18.3%の改善を実現した。 さらに,クロスデータセットの一般化性能は18.6%向上した。 データとコードはhttps://github.com/XuriGe 1995/3SHNetで入手できる。

In this paper, we propose a novel visual Semantic-Spatial Self-Highlighting Network (termed 3SHNet) for high-precision, high-efficiency and high-generalization image-sentence retrieval. 3SHNet highlights the salient identification of prominent objects and their spatial locations within the visual modality, thus allowing the integration of visual semantics-spatial interactions and maintaining independence between two modalities. This integration effectively combines object regions with the corresponding semantic and position layouts derived from segmentation to enhance the visual representation. And the modality-independence guarantees efficiency and generalization. Additionally, 3SHNet utilizes the structured contextual visual scene information from segmentation to conduct the local (region-based) or global (grid-based) guidance and achieve accurate hybrid-level retrieval. Extensive experiments conducted on MS-COCO and Flickr30K benchmarks substantiate the superior performances, inference efficiency and generalization of the proposed 3SHNet when juxtaposed with contemporary state-of-the-art methodologies. Specifically, on the larger MS-COCO 5K test set, we achieve 16.3%, 24.8%, and 18.3% improvements in terms of rSum score, respectively, compared with the state-of-the-art methods using different image representations, while maintaining optimal retrieval efficiency. Moreover, our performance on cross-dataset generalization improves by 18.6%. Data and code are available at https://github.com/XuriGe1995/3SHNet.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# ドメイン適応のための$α$-Power Maximizationによる逆方向再重み付け

Adversarial Reweighting with $α$-Power Maximization for Domain Adaptation ( http://arxiv.org/abs/2404.17275v1 )

ライセンス: Link先を確認
Xiang Gu, Xi Yu, Yan Yang, Jian Sun, Zongben Xu, (参考訳) 実用的なドメイン適応(DA)タスク、例えば、部分DA(PDA)、オープンセットDA、ユニバーサルDA、テストタイム適応は、機械学習コミュニティで注目を集めている。 本稿では、ソースドメインがターゲットドメインにないプライベートクラスを含むPDAに対して、$\alpha$-Power Maximization (ARPM) を用いたAdversarial Reweighting(Adversarial Reweighting)と呼ばれる新しいアプローチを提案する。 そこで,ARPM では,より小さな重みを割り当ててソース・プライベートなクラス・サンプルを識別するために,逆向きにソース・ドメイン・データを再重み付けすることを学習する新たな逆方向再重み付けモデルを提案する。 逆方向の再重み付けに基づいて、共用クラスデータの分類を可能にするために、再重み付きソース分布上の転送可能な認識モデルを訓練する。 PDAの認識モデルの予測不確かさを低減するため、PDAの予測不確かさを軽減するために損失のファミリーを充実させるARPMに$\alpha$-power maximizationメカニズムを提案する。 Office-31、Office-Home、VisDA-2017、ImageNet-Caltech、DomainNetの5つのPDAベンチマークによる大規模な実験結果から、我々の手法は最近のPDA法よりも優れていることが示された。 アブレーション研究は、我々のアプローチにおけるコンポーネントの有効性も確認する。 提案手法を理論的に解析するために,提案手法ではほぼ最小となる PDA の目標領域予測誤差の上限を導出する。 さらに,ARPMをオープンセットDA,ユニバーサルDA,テスト時間適応に拡張し,実験による有用性を検証する。

The practical Domain Adaptation (DA) tasks, e.g., Partial DA (PDA), open-set DA, universal DA, and test-time adaptation, have gained increasing attention in the machine learning community. In this paper, we propose a novel approach, dubbed Adversarial Reweighting with $\alpha$-Power Maximization (ARPM), for PDA where the source domain contains private classes absent in target domain. In ARPM, we propose a novel adversarial reweighting model that adversarially learns to reweight source domain data to identify source-private class samples by assigning smaller weights to them, for mitigating potential negative transfer. Based on the adversarial reweighting, we train the transferable recognition model on the reweighted source distribution to be able to classify common class data. To reduce the prediction uncertainty of the recognition model on the target domain for PDA, we present an $\alpha$-power maximization mechanism in ARPM, which enriches the family of losses for reducing the prediction uncertainty for PDA. Extensive experimental results on five PDA benchmarks, i.e., Office-31, Office-Home, VisDA-2017, ImageNet-Caltech, and DomainNet, show that our method is superior to recent PDA methods. Ablation studies also confirm the effectiveness of components in our approach. To theoretically analyze our method, we deduce an upper bound of target domain expected error for PDA, which is approximately minimized in our approach. We further extend ARPM to open-set DA, universal DA, and test time adaptation, and verify the usefulness through experiments.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 多地点気象データによる効率的な決定論的再生可能エネルギー予測

Efficient Deterministic Renewable Energy Forecasting Guided by Multiple-Location Weather Data ( http://arxiv.org/abs/2404.17276v1 )

ライセンス: Link先を確認
Charalampos Symeonidis, Nikos Nikolaidis, (参考訳) 再生可能エネルギー源から発生する電力は、エネルギー不足と従来のエネルギー生産法から生じる環境汚染の両面において効率的な対策として確立されている。 太陽光発電と風力発電は、最も支配的な再生可能エネルギー源の2つである。 これらの源のエネルギー発生の正確な予測は、その管理と運用に関する不確実性の負の影響を最小限に抑え、電力網への統合を促進する。 本稿では,多地点における風速予測と太陽エネルギー発生予測のための新しい手法を提案する。 この手法では、U字型の時空間畳み込みオートエンコーダ(UTCAE)アーキテクチャを用いて、気象やエネルギーに関連する時系列の時間的処理を行う。 また,MKST-Attention(Multi-sized Kernels convolutional Spatio-Temporal Attention)は,気象データからエネルギーデータへの時間的パターンの伝達を,発電所の位置や提供された気象データの位置を事前に把握することなく効率的に行うことを目的としている。 5つのデータセットの日平均太陽・風力エネルギー予測シナリオを実験的に評価し,提案手法が最上位となることを示した。

Electricity generated from renewable energy sources has been established as an efficient remedy for both energy shortages and the environmental pollution stemming from conventional energy production methods. Solar and wind power are two of the most dominant renewable energy sources. The accurate forecasting of the energy generation of those sources facilitates their integration into electric grids, by minimizing the negative impact of uncertainty regarding their management and operation. This paper proposes a novel methodology for deterministic wind and solar energy generation forecasting for multiple generation sites, utilizing multi-location weather forecasts. The method employs a U-shaped Temporal Convolutional Auto-Encoder (UTCAE) architecture for temporal processing of weather-related and energy-related time-series across each site. The Multi-sized Kernels convolutional Spatio-Temporal Attention (MKST-Attention), inspired by the multi-head scaled-dot product attention mechanism, is also proposed aiming to efficiently transfer temporal patterns from weather data to energy data, without a priori knowledge of the locations of the power stations and the locations of provided weather data. The conducted experimental evaluation on a day-ahead solar and wind energy forecasting scenario on five datasets demonstrated that the proposed method achieves top results, outperforming all competitive time-series forecasting state-of-the-art methods.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# Black-Box LLMを用いたFact Checking News Claimsのためのきめ細かいフィードバックを利用した強化検索

Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM ( http://arxiv.org/abs/2404.17283v1 )

ライセンス: Link先を確認
Xuan Zhang, Wei Gao, (参考訳) Retrieval-augmented Language Modelは、ファクトクリティカルタスクを含む、自然言語処理(NLP)の様々な領域で有望なパフォーマンスを示した。 しかし,高度な大規模言語モデル (LLM) のブラックボックスの性質と,特定のタスクの非検索指向の監視信号により,検索モデルのトレーニングは,ブラックボックス LLM の設定下で大きな課題に直面している。 ブラックボックス LLM を用いて, ニュースクレームのファクトチェックを強化するために, FFRR (Reinforcement Retrieval) を用いたきめ細かいフィードバックを利用する手法を提案する。 FFRRは、検索ポリシーを最適化するための報酬となるLLMからのきめ細かいフィードバックを集めるための2段階の戦略を採用する。 実世界のニューズクレーム検証のための2つの公開データセット上で本モデルを評価した結果,FFRRは強力なLLM対応および非LLMベースラインよりも大幅に改善されていることが示された。

Retrieval-augmented language models have exhibited promising performance across various areas of natural language processing (NLP), including fact-critical tasks. However, due to the black-box nature of advanced large language models (LLMs) and the non-retrieval-oriented supervision signal of specific tasks, the training of retrieval model faces significant challenges under the setting of black-box LLM. We propose an approach leveraging Fine-grained Feedback with Reinforcement Retrieval (FFRR) to enhance fact-checking on news claims by using black-box LLM. FFRR adopts a two-level strategy to gather fine-grained feedback from the LLM, which serves as a reward for optimizing the retrieval policy, by rating the retrieved documents based on the non-retrieval ground truth of the task. We evaluate our model on two public datasets for real-world news claim verification, and the results demonstrate that FFRR achieves significant improvements over strong LLM-enabled and non-LLM baselines.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# 異なる電荷放電条件下でのバナジウムレドックスフロー電池温度上昇の機械学習による予測

Machine Learning based prediction of Vanadium Redox Flow Battery temperature rise under different charge-discharge conditions ( http://arxiv.org/abs/2404.17284v1 )

ライセンス: Link先を確認
Anirudh Narayan D, Akshat Johar, Divye Kalra, Bhavya Ardeshna, Ankur Bhattacharjee, (参考訳) 電池温度上昇の正確な予測は, 効率的な熱管理手法の設計に不可欠である。 本稿では,Vanadium Redox Flow Battery (VRFB) の熱的挙動を機械学習で予測した。 特定の電解質流量の異なる電流を考慮すると、kWスケールのVRFB系の温度は実験によって測定される。 リニア回帰(LR)、サポートベクトル回帰(SVR)、エクストリーム勾配ブースト(XGBoost)の3つの異なるMLアルゴリズムが予測作業に使用されている。 MLアルゴリズムのトレーニングと検証は、40A, 45A, 50A, 60Aのチャージ放電電流と10L min-1の流量で1kW 6kWh VRFBストレージの実用的なデータセットを用いて行われた。 MLアルゴリズムの比較分析は、相関係数(R2)、平均絶対誤差(MAE)、根平均二乗誤差(RMSE)などの性能指標を用いて行われる。 XGBoostは99%の精度で予測できる。 本研究で得られたMLに基づく予測結果は,動作中のVRFB温度上昇を制御する上で非常に有用であり,最適化熱管理システムのさらなる開発のための指標として機能する。

Accurate prediction of battery temperature rise is very essential for designing an efficient thermal management scheme. In this paper, machine learning (ML) based prediction of Vanadium Redox Flow Battery (VRFB) thermal behavior during charge-discharge operation has been demonstrated for the first time. Considering different currents with a specified electrolyte flow rate, the temperature of a kW scale VRFB system is studied through experiments. Three different ML algorithms; Linear Regression (LR), Support Vector Regression (SVR) and Extreme Gradient Boost (XGBoost) have been used for the prediction work. The training and validation of ML algorithms have been done by the practical dataset of a 1kW 6kWh VRFB storage under 40A, 45A, 50A and 60A charge-discharge currents and 10 L min-1 of flow rate. A comparative analysis among the ML algorithms is done in terms of performance metrics such as correlation coefficient (R2), mean absolute error (MAE) and root mean square error (RMSE). It is observed that XGBoost shows the highest accuracy in prediction of around 99%. The ML based prediction results obtained in this work can be very useful for controlling the VRFB temperature rise during operation and act as indicator for further development of an optimized thermal management system.
翻訳日:2024-04-29 13:34:31 公開日:2024-04-26
# LLMを信頼する時 - 信頼性と応答品質の整合性

When to Trust LLMs: Aligning Confidence with Response Quality ( http://arxiv.org/abs/2404.17287v1 )

ライセンス: Link先を確認
Shuchang Tao, Liuyi Yao, Hanxing Ding, Yuexiang Xie, Qi Cao, Fei Sun, Jinyang Gao, Huawei Shen, Bolin Ding, (参考訳) 自然言語生成における大きな言語モデル(LLM)の成功にもかかわらず、多くの証拠はLLMが誤った、あるいは非意味なテキストを生成する可能性があることを示している。 この制限は、特に安全クリティカルな領域において、LLMを信頼する時を識別することの重要性を強調している。 既存の手法は、トップk応答を誘導し、複数の応答をサンプリング・集約することで、信頼性を示すために言語化の信頼性に依存するが、信頼の客観的ガイダンスが欠如しているため、しばしば失敗する。 これを解決するために,2成分報酬関数を調整した強化学習を利用するconfidence-Quality-ORDerserving alignment approach (CONQORD)を提案する。 この機能は品質報酬と整列報酬関数を含む。 具体的には、注文保存報酬は、より高い品質の応答に対する高い信頼を言葉で表し、信頼と品質の順序を一致させるモデルにインセンティブを与える。 実験により, 信頼性レベルと応答精度のアライメント性能は, モデルが過度に安全になることなく, 大幅に向上することが示された。 さらに、CONQORDが提供する一致した信頼度は、いつLLMを信頼するかを知らせ、外部知識の検索プロセスを開始するための決定要因として機能する。 応答品質に対する信頼性の調整により、透明性と信頼性が向上し、信頼性が向上する。

Despite the success of large language models (LLMs) in natural language generation, much evidence shows that LLMs may produce incorrect or nonsensical text. This limitation highlights the importance of discerning when to trust LLMs, especially in safety-critical domains. Existing methods, which rely on verbalizing confidence to tell the reliability by inducing top-k responses and sampling-aggregating multiple responses, often fail, due to the lack of objective guidance of confidence. To address this, we propose CONfidence-Quality-ORDerpreserving alignment approach (CONQORD), leveraging reinforcement learning with a tailored dual-component reward function. This function encompasses quality reward and orderpreserving alignment reward functions. Specifically, the order-preserving reward incentivizes the model to verbalize greater confidence for responses of higher quality to align the order of confidence and quality. Experiments demonstrate that our CONQORD significantly improves the alignment performance between confidence levels and response accuracy, without causing the model to become over-cautious. Furthermore, the aligned confidence provided by CONQORD informs when to trust LLMs, and acts as a determinant for initiating the retrieval process of external knowledge. Aligning confidence with response quality ensures more transparent and reliable responses, providing better trustworthiness.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# シンボリック回帰のための遺伝的プログラミングの非効率性-拡張バージョン

The Inefficiency of Genetic Programming for Symbolic Regression -- Extended Version ( http://arxiv.org/abs/2404.17292v1 )

ライセンス: Link先を確認
Gabriel Kronberger, Fabricio Olivetti de Franca, Harry Desmond, Deaglan J. Bartlett, Lukas Kammerer, (参考訳) 本研究は, 遺伝的プログラミングの探索行動を分析し, 全解の総括列挙を可能にする。 これにより、最適な表現を見つけるための成功確率を定量化し、遺伝的プログラミングの探索効率を意味的に一意な表現空間におけるランダム検索と比較することができる。 この解析は,抽出記号回帰アルゴリズムの改良に使用する等式飽和法の改良アルゴリズムにより実現され,全記号回帰探索空間よりも桁違い小さい意味的に一意な表現構造が生成される。 固有表現と遺伝的プログラミングの集合におけるランダム検索の効率を比較検討する。 実験では,2つの実世界のデータセットを用いて,粗管内の流れのニクラドスデータセットと銀河力学の放射加速度関係という,よく適合した単変量式を生成する。 その結果、このような限られた環境での遺伝的プログラミングは、全てのユニークな表現のごく一部しか探索せず、既に訪れた表現と相容れない表現を繰り返し評価していることがわかった。

We analyse the search behaviour of genetic programming for symbolic regression in practically relevant but limited settings, allowing exhaustive enumeration of all solutions. This enables us to quantify the success probability of finding the best possible expressions, and to compare the search efficiency of genetic programming to random search in the space of semantically unique expressions. This analysis is made possible by improved algorithms for equality saturation, which we use to improve the Exhaustive Symbolic Regression algorithm; this produces the set of semantically unique expression structures, orders of magnitude smaller than the full symbolic regression search space. We compare the efficiency of random search in the set of unique expressions and genetic programming. For our experiments we use two real-world datasets where symbolic regression has been used to produce well-fitting univariate expressions: the Nikuradse dataset of flow in rough pipes and the Radial Acceleration Relation of galaxy dynamics. The results show that genetic programming in such limited settings explores only a small fraction of all unique expressions, and evaluates expressions repeatedly that are congruent to already visited expressions.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# Lazy Data Practices Harm Fairness Research

Lazy Data Practices Harm Fairness Research ( http://arxiv.org/abs/2404.17293v1 )

ライセンス: Link先を確認
Jan Simson, Alessandro Fabris, Christoph Kern, (参考訳) データプラクティスは、機械学習(フェアML)における公正性の研究と実践を形作る。 批判的データ研究は、欠点を強調し、改善のための推奨を提案することによって、フィールドの責任ある進歩に重要なリフレクションと批判を与える。 本研究は,機械学習の公正なデータセットを包括的に分析し,予測できないが一般的なプラクティスが,アルゴリズム的公正な発見の到達と信頼性を妨げていることを実証する。 グラフデータセットに符号化された保護情報とその使用法を,142の出版物にわたる280の実験で体系的に研究した。 分析では,(1)データと評価の両方において,保護された属性の表現の「textbf{lack」,(2)データ前処理時の「マイノリティの排除」,(3)フェアネス研究の一般化を脅かす「textbf{opaque data processing"」の3つの主要な領域を抽出した。 顕著なデータセットの利用に関する模範的な分析を行うことで、不適切なデータ決定が少数派グループ、公正度指標、結果のモデル比較にどのように不均衡に影響を及ぼすかを実証する。 さらに、公開データの制限、プライバシーの考慮、認識の全般的欠如など、これらの課題を悪化させる補足的要因を同定する。 これらの課題に対処するために、透明性と責任ある包摂性を中心とした公正な研究において、データ使用に関する一連の勧告を提案する。 この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。

Data practices shape research and practice on fairness in machine learning (fair ML). Critical data studies offer important reflections and critiques for the responsible advancement of the field by highlighting shortcomings and proposing recommendations for improvement. In this work, we present a comprehensive analysis of fair ML datasets, demonstrating how unreflective yet common practices hinder the reach and reliability of algorithmic fairness findings. We systematically study protected information encoded in tabular datasets and their usage in 280 experiments across 142 publications. Our analyses identify three main areas of concern: (1) a \textbf{lack of representation for certain protected attributes} in both data and evaluations; (2) the widespread \textbf{exclusion of minorities} during data preprocessing; and (3) \textbf{opaque data processing} threatening the generalization of fairness research. By conducting exemplary analyses on the utilization of prominent datasets, we demonstrate how unreflective data decisions disproportionately affect minority groups, fairness metrics, and resultant model comparisons. Additionally, we identify supplementary factors such as limitations in publicly available data, privacy considerations, and a general lack of awareness, which exacerbate these challenges. To address these issues, we propose a set of recommendations for data usage in fairness research centered on transparency and responsible inclusion. This study underscores the need for a critical reevaluation of data practices in fair ML and offers directions to improve both the sourcing and usage of datasets.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# Sim2Real Articulated Object Manipulationのための部分ガイド3D RL

Part-Guided 3D RL for Sim2Real Articulated Object Manipulation ( http://arxiv.org/abs/2404.17302v1 )

ライセンス: Link先を確認
Pengwei Xie, Rui Chen, Siang Chen, Yuzhe Qin, Fanbo Xiang, Tianyu Sun, Jing Xu, Guijin Wang, Hao Su, (参考訳) 視覚フィードバックを通じて、目に見えない物体を操作することは、現実のロボットにとって重要な作業である。 既存の学習ベースのソリューションは主に、現実世界のシナリオで新しいインスタンスの課題に直面している操作ポリシーを導くために、視覚的アベイランス学習やその他の事前訓練された視覚モデルに焦点を当てている。 本稿では,実演を伴わずに調音物体の操作を学習できる,新しい3D RLフレームワークを提案する。 2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。 実ロボットにおけるポリシーの安定性を向上させるため,フレーム一貫性不確実性認識サンプリング(FUS)戦略を設計し,凝縮された階層的な3D表現を実現する。 さらに, 一つの汎用的なRLポリシを複数の音声操作タスクに対して同時にトレーニングし, 新たなカテゴリやインスタンスに対して高い一般化性を示す。 実験により,シミュレーションと実環境設定の両方において,本フレームワークの有効性が示された。 私たちのコードはhttps://github.com/THU-VCLab/Part-Guided-3D-RL-for-Sim2Real-Articulated-Object-Manipulationで利用可能です。

Manipulating unseen articulated objects through visual feedback is a critical but challenging task for real robots. Existing learning-based solutions mainly focus on visual affordance learning or other pre-trained visual models to guide manipulation policies, which face challenges for novel instances in real-world scenarios. In this paper, we propose a novel part-guided 3D RL framework, which can learn to manipulate articulated objects without demonstrations. We combine the strengths of 2D segmentation and 3D RL to improve the efficiency of RL policy training. To improve the stability of the policy on real robots, we design a Frame-consistent Uncertainty-aware Sampling (FUS) strategy to get a condensed and hierarchical 3D representation. In addition, a single versatile RL policy can be trained on multiple articulated object manipulation tasks simultaneously in simulation and shows great generalizability to novel categories and instances. Experimental results demonstrate the effectiveness of our framework in both simulation and real-world settings. Our code is available at https://github.com/THU-VCLab/Part-Guided-3D-RL-for-Sim2Real-Articulated-Object-Manipulation.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# ディープパッチマッチとペアワイズランキング学習による画像コピー・モーブ偽造検出

Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning ( http://arxiv.org/abs/2404.17310v1 )

ライセンス: Link先を確認
Yuanman Li, Yingjie He, Changsheng Chen, Li Dong, Bin Li, Jiantao Zhou, Xia Li, (参考訳) 近年のディープラーニングアルゴリズムの進歩は、画像コピー・モーブ偽造検出(CMFD)の顕著な進歩を示している。 しかし、これらのアルゴリズムは、訓練画像にコピーされた領域が存在しない、あるいはクローンされた領域が背景に存在しない、実践的なシナリオにおいて一般化性に欠ける。 さらに、これらのアルゴリズムは畳み込み操作を利用してソース領域とターゲット領域を区別する。 そこで本研究では,従来の学習手法と深層学習手法の長所を統合した,エンドツーエンドのCMFDフレームワークを提案する。 具体的には、CMFDがコピー-ムーブ領域を特定するためにカスタマイズした、深いクロススケールなPatchMatch(PM)手法を開発した。 既存のディープモデルとは異なり,提案手法では,高分解能スケールから抽出した特徴を利用して,ソース領域とターゲット領域の明示的かつ信頼性の高いポイント・ツー・ポイントマッチングを求める。 さらに、ソース領域とターゲット領域を分離する新しいペアワイドなランク学習フレームワークを提案する。 このフレームワークは、ポイント・ツー・ポイントマッチングの強い先行性を活用することで、微妙な違いを識別し、ターゲット領域が背景とうまく混在している場合でも、ソースとターゲット領域を効果的に識別することができる。 私たちのフレームワークは完全に差別化可能で、エンドツーエンドでトレーニングすることができます。 総合的な実験結果から,提案手法は様々なコピー・モーブ・シナリオにまたがる顕著な一般化性を示し,既存手法よりも優れていた。

Recent advances in deep learning algorithms have shown impressive progress in image copy-move forgery detection (CMFD). However, these algorithms lack generalizability in practical scenarios where the copied regions are not present in the training images, or the cloned regions are part of the background. Additionally, these algorithms utilize convolution operations to distinguish source and target regions, leading to unsatisfactory results when the target regions blend well with the background. To address these limitations, this study proposes a novel end-to-end CMFD framework that integrates the strengths of conventional and deep learning methods. Specifically, the study develops a deep cross-scale PatchMatch (PM) method that is customized for CMFD to locate copy-move regions. Unlike existing deep models, our approach utilizes features extracted from high-resolution scales to seek explicit and reliable point-to-point matching between source and target regions. Furthermore, we propose a novel pairwise rank learning framework to separate source and target regions. By leveraging the strong prior of point-to-point matches, the framework can identify subtle differences and effectively discriminate between source and target regions, even when the target regions blend well with the background. Our framework is fully differentiable and can be trained end-to-end. Comprehensive experimental results highlight the remarkable generalizability of our scheme across various copy-move scenarios, significantly outperforming existing methods.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# 認証MaxSAT前処理

Certified MaxSAT Preprocessing ( http://arxiv.org/abs/2404.17316v1 )

ライセンス: Link先を確認
Hannes Ihalainen, Andy Oertel, Yong Kiam Tan, Jeremias Berg, Matti Järvisalo, Jakob Nordström, (参考訳) 過去数十年間のブール充足可能性(SAT)解決の進展を踏まえ、最大充足可能性(MaxSAT)はNP-ハード最適化問題の解決に有効なアプローチとなっているが、MaxSATソルバの正しさの確保は依然として重要な懸念点である。 SATの場合、これは証明ロギング(英語版)を用いることにより、主に解決された問題である。 しかし、MaxSATでは、証明ロギング解決器が開発され始めたのはごく最近である。 さらに、これらの初期段階の取り組みは、コア解決プロセスのみを対象としており、入力問題インスタンスが適切な解決者に渡される前に実質的に再構成される前処理フェーズを無視している。 本研究は,最新のMaxSATプリプロセッシング技術の正確性を証明するために,疑似ブール検定ロギングがいかに有効かを示すものである。 VeriPB と CakePB のツールを組み合わせて拡張することにより,入力および前処理した MaxSAT 問題インスタンスが同じ最適値であることを確認する。 応用MaxSATベンチマークの広範な評価は、我々のアプローチが実際に実現可能であることを示している。

Building on the progress in Boolean satisfiability (SAT) solving over the last decades, maximum satisfiability (MaxSAT) has become a viable approach for solving NP-hard optimization problems, but ensuring correctness of MaxSAT solvers has remained an important concern. For SAT, this is largely a solved problem thanks to the use of proof logging, meaning that solvers emit machine-verifiable proofs of (un)satisfiability to certify correctness. However, for MaxSAT, proof logging solvers have started being developed only very recently. Moreover, these nascent efforts have only targeted the core solving process, ignoring the preprocessing phase where input problem instances can be substantially reformulated before being passed on to the solver proper. In this work, we demonstrate how pseudo-Boolean proof logging can be used to certify the correctness of a wide range of modern MaxSAT preprocessing techniques. By combining and extending the VeriPB and CakePB tools, we provide formally verified, end-to-end proof checking that the input and preprocessed output MaxSAT problem instances have the same optimal value. An extensive evaluation on applied MaxSAT benchmarks shows that our approach is feasible in practice.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# アフィン軌道沿いのCMA-ES性能に及ぼす構造バイアスの影響

A Deep Dive into Effects of Structural Bias on CMA-ES Performance along Affine Trajectories ( http://arxiv.org/abs/2404.17323v1 )

ライセンス: Link先を確認
Niki van Stein, Sarah L. Thomson, Anna V. Kononova, (参考訳) より反復的な最適化ヒューリスティックスの設計を導くためには,アルゴリズムコンポーネント内の構造的バイアスが,様々な検索環境における性能にどのように影響するかを理解することが不可欠である。 本研究は, モジュラー共分散行列適応進化戦略 (modCMA) における構造バイアスの影響について検討し, アルゴリズムにおける様々なモジュラーの役割に着目した。 また,modCMAの435,456構成に関する広範な調査を通じて,様々なクラスの構造バイアスに大きく影響を及ぼす重要なモジュールを同定した。 解析では,Deep-BIASツールボックスを用いて構造バイアスの検出と分類を行い,SHAP解析によりモジュールのコントリビューションの定量化を行った。 これらの構成の性能はアフィン再結合関数のシーケンス上でテストされ、ランドスケープの特徴を徐々に変化させながら、固定された最適な位置を維持した。 本研究は,モジュールによる構造バイアスと,ランドスケープ特性の異なるアルゴリズム性能の相互作用を示すものである。

To guide the design of better iterative optimisation heuristics, it is imperative to understand how inherent structural biases within algorithm components affect the performance on a wide variety of search landscapes. This study explores the impact of structural bias in the modular Covariance Matrix Adaptation Evolution Strategy (modCMA), focusing on the roles of various modulars within the algorithm. Through an extensive investigation involving 435,456 configurations of modCMA, we identified key modules that significantly influence structural bias of various classes. Our analysis utilized the Deep-BIAS toolbox for structural bias detection and classification, complemented by SHAP analysis for quantifying module contributions. The performance of these configurations was tested on a sequence of affine-recombined functions, maintaining fixed optimum locations while gradually varying the landscape features. Our results demonstrate an interplay between module-induced structural bias and algorithm performance across different landscape characteristics.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# マルチモーダル画像データによる高密度道路表面グリップマップの予測

Dense Road Surface Grip Map Prediction from Multimodal Image Data ( http://arxiv.org/abs/2404.17324v1 )

ライセンス: Link先を確認
Jyri Maanpää, Julius Pesonen, Heikki Hyyti, Iaroslav Melekhov, Juho Kannala, Petri Manninen, Antero Kukko, Juha Hyyppä, (参考訳) 多くの地域では、滑りやすい道路の気象条件が一般的であり、交通のリスクを定期的に引き起こしている。 それでも、自動運転車が安全運転のために道路上の滑りやすい運転条件をどうやって検出できるかは研究されていない。 本研究では, 後処理型マルチモーダルセンサデータに基づいて, 車両前方の領域から高密度グリップマップを推定する手法を提案する。 コンボリューションニューラルネットワークを用いて,光路気象センサの弱教師付き地上真実に基づいて,融合RGBカメラ,サーマルカメラ,LiDAR反射率画像から画素ワイドグリップ値を予測する。 この実験により, 道路上の積雪地帯など, 地中気象条件と地中気象条件の両方に従って, 得られたグリップマップを用いて, 使用済みデータモダリティから, 密集グリップ値を精度良く予測できることが示唆された。 RGBカメラおよびLiDAR反射率モードのみを用いたモデルは、RGBカメラとサーマルカメラとLiDARモダリティを融合させたモデルを用いてグリップ予測精度を向上させるとともに、グリップ予測に優れたベースライン結果を与えた。

Slippery road weather conditions are prevalent in many regions and cause a regular risk for traffic. Still, there has been less research on how autonomous vehicles could detect slippery driving conditions on the road to drive safely. In this work, we propose a method to predict a dense grip map from the area in front of the car, based on postprocessed multimodal sensor data. We trained a convolutional neural network to predict pixelwise grip values from fused RGB camera, thermal camera, and LiDAR reflectance images, based on weakly supervised ground truth from an optical road weather sensor. The experiments show that it is possible to predict dense grip values with good accuracy from the used data modalities as the produced grip map follows both ground truth measurements and local weather conditions, such as snowy areas on the road. The model using only the RGB camera or LiDAR reflectance modality provided good baseline results for grip prediction accuracy while using models fusing the RGB camera, thermal camera, and LiDAR modalities improved the grip predictions significantly.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# 安全クリティカル組織におけるセキュリティエビデンス管理

Managing Security Evidence in Safety-Critical Organizations ( http://arxiv.org/abs/2404.17332v1 )

ライセンス: Link先を確認
Mazen Mohamad, Jan-Philipp Steghöfer, Eric Knauss, Riccardo Scandariato, (参考訳) オープンでコネクテッドな製品の普及に伴い、サイバーセキュリティは自動車産業のような安全上重要な分野において深刻な問題となっている。 その結果、規制機関は、これらのドメインで開発された製品に対するセキュリティ保証を必要とするサイバーセキュリティの要件により厳しくなっている。 これを受けて企業は,製品開発ライフサイクルにセキュリティを組み込むために,新たなあるいは修正されたプロセスを実装した。 しかし、エビデンスを管理することは、特に複雑な製品やシステムにとって、簡単な作業ではない。 本稿では,安全クリティカル組織におけるセキュリティ証拠管理の成熟度について,6社で実施した質的な面接調査について述べる。 認証機関や標準化機関が定める要件の増大に対して,セキュリティ証拠管理の現在の成熟度は不十分であることが判明した。 組織は現在、関連するアーティファクトをセキュリティ証拠として特定できず、この証拠を組織レベルで管理しています。 理由の1つは教育のギャップであり、もう1つはプロセスの欠如である。 セキュリティ証拠の管理にAIが与える影響は、まだ未解決の問題だ

With the increasing prevalence of open and connected products, cybersecurity has become a serious issue in safety-critical domains such as the automotive industry. As a result, regulatory bodies have become more stringent in their requirements for cybersecurity, necessitating security assurance for products developed in these domains. In response, companies have implemented new or modified processes to incorporate security into their product development lifecycle, resulting in a large amount of evidence being created to support claims about the achievement of a certain level of security. However, managing evidence is not a trivial task, particularly for complex products and systems. This paper presents a qualitative interview study conducted in six companies on the maturity of managing security evidence in safety-critical organizations. We find that the current maturity of managing security evidence is insufficient for the increasing requirements set by certification authorities and standardization bodies. Organisations currently fail to identify relevant artifacts as security evidence and manage this evidence on an organizational level. One part of the reason are educational gaps, the other a lack of processes. The impact of AI on the management of security evidence is still an open question
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# クロスモーダル知識蒸留によるイベントカメラからの深度推定のための新しいスパイクトランスネットワーク

A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation ( http://arxiv.org/abs/2404.17335v1 )

ライセンス: Link先を確認
Xin Zhang, Liangxiu Han, Tam Sobeih, Lianghao Han, Darren Dancey, (参考訳) 深度推定は複雑な環境、特に自律走行航法やロボット工学のような分野の解釈に不可欠である。 それでも、イベントカメラのデータから正確な深度を読み取ることは、まだまだ難しい課題だ。 イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度をエンコードする非同期バイナリスパイクを生成する。 しかし、イベントカメラのユニークなサンプリングメカニズムは、スパイクデータを処理するのに標準画像ベースアルゴリズムが不十分である。 これにより, スパイキングデータに固有の不規則性, 連続性, ノイズ, 空間的および時間的特性を複合したタスクであるイベントカメラに適したスパイク対応アルゴリズムの開発が必要となり, スパイクカメラデータから深度を推定するための純粋スパイク駆動スパイクトランスフォーマネットワークを提案する。 スパイキングニューラルネットワーク(SNN)の性能制限に対処するため,我々は,人工知能ニューラルネットワーク(ANN)の大規模ビジョン基盤モデル(DINOv2)からの知識を活用して,限られたデータによるSNNの性能向上を図る,新しい単一段階のクロスモーダルな知識伝達フレームワークを導入する。 合成データセットと実データセットの両方の実験結果は、既存のモデルよりも大幅に改善され、絶対相対誤差と平方相対誤差(ベンチマークモデルSpike-Tの49%と39.77%)が顕著に向上した。 提案モデルでは, 精度に加えて, 実用上の重要な要因である消費電力の削減も示している。

Depth estimation is crucial for interpreting complex environments, especially in areas such as autonomous vehicle navigation and robotics. Nonetheless, obtaining accurate depth readings from event camera data remains a formidable challenge. Event cameras operate differently from traditional digital cameras, continuously capturing data and generating asynchronous binary spikes that encode time, location, and light intensity. Yet, the unique sampling mechanisms of event cameras render standard image based algorithms inadequate for processing spike data. This necessitates the development of innovative, spike-aware algorithms tailored for event cameras, a task compounded by the irregularity, continuity, noise, and spatial and temporal characteristics inherent in spiking data.Harnessing the strong generalization capabilities of transformer neural networks for spatiotemporal data, we propose a purely spike-driven spike transformer network for depth estimation from spiking camera data. To address performance limitations with Spiking Neural Networks (SNN), we introduce a novel single-stage cross-modality knowledge transfer framework leveraging knowledge from a large vision foundational model of artificial neural networks (ANN) (DINOv2) to enhance the performance of SNNs with limited data. Our experimental results on both synthetic and real datasets show substantial improvements over existing models, with notable gains in Absolute Relative and Square Relative errors (49% and 39.77% improvements over the benchmark model Spike-T, respectively). Besides accuracy, the proposed model also demonstrates reduced power consumptions, a critical factor for practical applications.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# コスモスGPTの導入:トルコ語モデルの単言語学習

Introducing cosmosGPT: Monolingual Training for Turkish Language Models ( http://arxiv.org/abs/2404.17336v1 )

ライセンス: Link先を確認
H. Toprak Kesgin, M. Kaan Yuce, Eren Dogan, M. Egemen Uzun, Atahan Uz, H. Emre Seyrek, Ahmed Zeer, M. Fatih Amasyali, (参考訳) トルコ語を生産できるオープンソース言語モデルの数は、他の言語と同様、日々増えている。 このようなモデルの基本的なバージョンを作成するために、多言語モデルのトレーニングは通常トルコ語コーパスで継続される。 代替案は、トルコのコーパスのみでモデルを訓練することである。 本研究では,この代替手法を用いて作成した宇宙GPTモデルについて紹介する。 次に、ユーザ要求を満たすための基本言語モデルのための新しいファインチューンデータセットと、トルコ語モデルの能力を測定するための新しい評価データセットを紹介する。 最後に、異なる能力で適応されたトルコ語モデルの包括的な比較を示す。 その結果、モノリンガルコーパスで構築した言語モデルは、他に比べて約10倍小さいにもかかわらず、有望な性能を示した。

The number of open source language models that can produce Turkish is increasing day by day, as in other languages. In order to create the basic versions of such models, the training of multilingual models is usually continued with Turkish corpora. The alternative is to train the model with only Turkish corpora. In this study, we first introduce the cosmosGPT models that we created with this alternative method. Then, we introduce new finetune datasets for basic language models to fulfill user requests and new evaluation datasets for measuring the capabilities of Turkish language models. Finally, a comprehensive comparison of the adapted Turkish language models on different capabilities is presented. The results show that the language models we built with the monolingual corpus have promising performance despite being about 10 times smaller than the others.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# メトロノーム:局所配列アライメントによる詩的メーターのトレース変動

Metronome: tracing variation in poetic meters via local sequence alignment ( http://arxiv.org/abs/2404.17337v1 )

ライセンス: Link先を確認
Ben Nagy, Artjoms Šeļa, Mirella De Sisto, Petr Plecháč, (参考訳) すべての詩形はどこかから来ている。 韻律的テンプレートは世代ごとにコピーされ、個人によって変更され、外国の伝統から輸入され、言語進化の圧力の下で根本的に変更される。 しかし、これらの関係は言語や時代をまたぐのがとても難しい。 本稿では,局所配列アライメントを用いて詩の構造的類似性を検出する教師なし手法を提案する。 この方法は詩のテキストを4文字のアルファベットで韻律的な特徴の文字列として符号化することに依存し、これらのシーケンスは重み付けされたシンボル(ミス)マッチに基づいて距離測定を導出するように整列される。 局所的なアライメントにより、詩はそれらの基礎となる韻律パターンの創発的な性質に従ってクラスタ化される。 3つの短いケーススタディを用いて、強いベースラインに対するメーター認識タスクの手法性能を評価し、言語間および歴史的研究の可能性を示す。 1)古典ラテン語の量的メートル法における突然変異 2)ルネサンス音節のヨーロッパ拡散,及び 3)18世紀から19世紀にかけてのチェコ語、ドイツ語、ロシア語における近代的メートル法の比較 オープンライセンスのPythonパッケージとして,アルゴリズムの実装をリリースする。

All poetic forms come from somewhere. Prosodic templates can be copied for generations, altered by individuals, imported from foreign traditions, or fundamentally changed under the pressures of language evolution. Yet these relationships are notoriously difficult to trace across languages and times. This paper introduces an unsupervised method for detecting structural similarities in poems using local sequence alignment. The method relies on encoding poetic texts as strings of prosodic features using a four-letter alphabet; these sequences are then aligned to derive a distance measure based on weighted symbol (mis)matches. Local alignment allows poems to be clustered according to emergent properties of their underlying prosodic patterns. We evaluate method performance on a meter recognition tasks against strong baselines and show its potential for cross-lingual and historical research using three short case studies: 1) mutations in quantitative meter in classical Latin, 2) European diffusion of the Renaissance hendecasyllable, and 3) comparative alignment of modern meters in 18--19th century Czech, German and Russian. We release an implementation of the algorithm as a Python package with an open license.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# パターンベースのドメイン特化要求工学へのアプローチに向けて

Towards an Approach to Pattern-based Domain-Specific Requirements Engineering ( http://arxiv.org/abs/2404.17338v1 )

ライセンス: Link先を確認
T. Chuprina, D. Méndez, V. Nigam, M. Reich, A. Schweiger, (参考訳) 要求仕様パターンは、自然言語要求の構造された仕様を導くことを約束して、多くの注目を集めています。 それらを使用することで、要求アーティファクトに関連する品質問題を削減することを目的としています。 パターンは、その構文(例えば、ドメインの詳細/パラメータの取り込み)と、アプリケーションドメインの特殊性に応じてセマンティクスを変える必要があるかもしれない。 しかし、EARSのようなパターンベースのアプローチは、ドメインに依存しない設計で、複数のドメインで広く採用されている。 要求工学におけるドメイン特化をカバーし、理想的には、要求工学のアクティビティを品質保証タスクに統合するために、パターンベースの要求工学の原則を採用する方法について、ほとんど知られていない。 本稿では,機能要件と性能要件を包括的に記述するためのパターンベースのドメイン固有要求工学手法を提案する。 このアプローチは,産学連携から生まれたもので,ドメイン知識を解析し,要求工学プロセスに組み込むことで,要求品質保証とコンピュータ支援によるシステム検証の自動化を可能にする,アプローチの枠組み化に向けた最初の試みです。 まず、パターンベースのドメイン固有要件エンジニアリングのソリューションと、品質保証技術へのその模範的な統合を提示します。 第2に,無人航空機用飛行制御装置の領域に対するツール実装を用いた概念実証について紹介する。 共に、研究課題の次のステップを概説し、この方向への議論を促進することができる。

Requirements specification patterns have received much attention as they promise to guide the structured specification of natural language requirements. By using them, the intention is to reduce quality problems related to requirements artifacts. Patterns may need to vary in their syntax (e.g. domain details/ parameter incorporation) and semantics according to the particularities of the application domain. However, pattern-based approaches, such as EARS, are designed domain-independently to facilitate their wide adoption across several domains. Little is yet known about how to adopt the principle idea of pattern-based requirements engineering to cover domain-specificity in requirements engineering and, ideally, integrate requirements engineering activities into quality assurance tasks. In this paper, we propose the Pattern-based Domain-specific Requirements Engineering Approach for the specification of functional and performance requirements in a holistic manner. This approach emerges from an academia-industry collaboration and is our first attempt to frame an approach which allows for analyzing domain knowledge and incorporating it into the requirements engineering process enabling automated checks for requirements quality assurance and computer-aided support for system verification. Our contribution is two-fold: First, we present a solution to pattern-based domain-specific requirements engineering and its exemplary integration into quality assurance techniques. Second, we showcase a proof of concept using a tool implementation for the domain of flight controllers for Unmanned Aerial Vehicles. Both shall allow us to outline next steps in our research agenda and foster discussions in this direction.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# 真の非局所的資源としての恒常粒子

Identical particles as a genuine non-local resource ( http://arxiv.org/abs/2404.17339v1 )

ライセンス: Link先を確認
Pawel Blasiak, Marcin Markiewicz, (参考訳) 基本量子原理によれば、同じタイプの全ての粒子は区別できない。 これはシンメトリードあるいは反シンメトリード波動関数を用いて多くの粒子状態を記述することを必要とし、これが正式に絡み合うことが判明した。 しかし、個々の粒子の測定は、この絡み合いを隠蔽する第2量子理論のモード記述によって妨げられる。 それにもかかわらず、ベル型実験ではそのような状態を資源として使うことは可能だろうか? 具体的には、実験の純粋に古典的なコンポーネントと考えられる受動線形光学装置において、同じ粒子のどの状態が非局所的な相関を示すことができるのか。 ここでは、同一粒子が一定数存在する多粒子状態に対して、この問題は完全に解決される。 すべてのフェルミオン状態とほとんどのボゾン状態が、古典的な光学的セットアップにおいて非局所性を示すのに十分な量子資源を提供することを示す。 唯一の例外は、単一のモードに還元可能なボソン状態の特別なクラスであり、任意の受動線形光学実験に対して局所的にシミュレート可能であることが判明した。 この発見は、同一粒子のほとんど全ての状態において古典的な方法で観測できる、素粒子の区別不可能の概念とベル非局所性の関連性を強調している。

All particles of the same type are indistinguishable, according to a fundamental quantum principle. This entails a description of many-particle states using symmetrised or anti-symmetrised wave functions, which turn out to be formally entangled. However, the measurement of individual particles is hampered by a mode description in the second-quantised theory that masks this entanglement. Is it nonetheless possible to use such states as a resource in Bell-type experiments? More specifically, which states of identical particles can demonstrate non-local correlations in passive linear optical setups that are considered purely classical component of the experiment? Here, the problem is fully solved for multi-particle states with a definite number of identical particles. We show that all fermion states and most boson states provide a sufficient quantum resource to exhibit non-locality in classical optical setups. The only exception is a special class of boson states that are reducible to a single mode, which turns out to be locally simulable for any passive linear optical experiment. This finding highlights the connection between the basic concept of particle indistinguishability and Bell non-locality, which can be observed by classical means for almost every state of identical particles.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# 不完全なマルチビュー弱マルチラベル学習のためのマスク付き2チャンネルデカップリングフレームワーク

Masked Two-channel Decoupling Framework for Incomplete Multi-view Weak Multi-label Learning ( http://arxiv.org/abs/2404.17340v1 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Yabo Liu, Chao Huang, Zhihao Wu, Xiaoling Luo, Yong Xu, (参考訳) 近年,マルチビュー学習が注目されているが,従来のマルチラベル分類とマルチビュー学習の相互適用に関する研究はまだ初期段階にある。 本稿では,不完全な多視点弱多言語学習における複雑かつ現実的な課題に着目し,この問題を解決するために,ディープニューラルネットワークに基づくマスク付き2チャンネル疎結合フレームワークを提案する。 本手法の中核となる革新は、深層多視点学習法に共通する単一チャンネルビューレベルの表現を、共有表現とビュープロプライエタリ表現に分離することにある。 また,二つのチャネルの意味的特性を高めるために,チャネル間のコントラスト損失を設計する。 さらに、教師付き情報を利用してラベル誘導グラフ正規化損失を設計し、抽出した埋め込み特徴がサンプル間の幾何学的構造を保存するのに役立つ。 画像およびテキスト解析におけるマスキング機構の成功に触発されて,ベクトル特徴に対するランダムなフラグメントマスキング戦略を開発し,エンコーダの学習能力を向上させる。 最後に、我々のモデルは任意のビューやラベルの欠如に対して完全に適応可能であると同時に、理想的な全データでも良好に動作可能であることを強調することが重要である。 我々は,本モデルの有効性と進歩を確認するのに十分かつ説得力のある実験を行った。

Multi-view learning has become a popular research topic in recent years, but research on the cross-application of classic multi-label classification and multi-view learning is still in its early stages. In this paper, we focus on the complex yet highly realistic task of incomplete multi-view weak multi-label learning and propose a masked two-channel decoupling framework based on deep neural networks to solve this problem. The core innovation of our method lies in decoupling the single-channel view-level representation, which is common in deep multi-view learning methods, into a shared representation and a view-proprietary representation. We also design a cross-channel contrastive loss to enhance the semantic property of the two channels. Additionally, we exploit supervised information to design a label-guided graph regularization loss, helping the extracted embedding features preserve the geometric structure among samples. Inspired by the success of masking mechanisms in image and text analysis, we develop a random fragment masking strategy for vector features to improve the learning ability of encoders. Finally, it is important to emphasize that our model is fully adaptable to arbitrary view and label absences while also performing well on the ideal full data. We have conducted sufficient and convincing experiments to confirm the effectiveness and advancement of our model.
翻訳日:2024-04-29 13:24:47 公開日:2024-04-26
# 抽出質問応答のためのマルチチョイスデータセットの活用

Can a Multichoice Dataset be Repurposed for Extractive Question Answering? ( http://arxiv.org/abs/2404.17342v1 )

ライセンス: Link先を確認
Teresa Lynn, Malik H. Altakrori, Samar Mohamed Magdy, Rocktim Jyoti Das, Chenyang Lyu, Mohamed Nasr, Younes Samih, Alham Fikri Aji, Preslav Nakov, Shantanu Godbole, Salim Roukos, Radu Florian, Nizar Habash, (参考訳) 自然言語処理(NLP)の急速な進化は、英語のような主要な言語を好んでおり、リソースが限られているため、他の多くの言語には大きなギャップを残している。 これは特に、重要さを過小評価できないが、時間と費用がかかるタスクであるデータアノテーションの文脈で明らかである。 したがって、リソース不足言語のためのデータセットは、特にタスク固有の場合、貴重である。 そこで我々は,Multi-choice question answering (MCQA) のために設計されたBelebele データセット (Bandarkar et al , 2023) を再利用し,機械読解方式の抽出QA (EQA) を実現する。 本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。 また, 英語, MSA, 5つのアラビア方言を含む, モノリンガルおよびクロスリンガルのQAペアに対するQA評価結果も提示した。 私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。 我々はまた、NLP研究におけるタスク改革に伴う課題と機会のより深い理解に寄与したいと思っています。

The rapid evolution of Natural Language Processing (NLP) has favored major languages such as English, leaving a significant gap for many others due to limited resources. This is especially evident in the context of data annotation, a task whose importance cannot be underestimated, but which is time-consuming and costly. Thus, any dataset for resource-poor languages is precious, in particular when it is task-specific. Here, we explore the feasibility of repurposing existing datasets for a new NLP task: we repurposed the Belebele dataset (Bandarkar et al., 2023), which was designed for multiple-choice question answering (MCQA), to enable extractive QA (EQA) in the style of machine reading comprehension. We present annotation guidelines and a parallel EQA dataset for English and Modern Standard Arabic (MSA). We also present QA evaluation results for several monolingual and cross-lingual QA pairs including English, MSA, and five Arabic dialects. Our aim is to enable others to adapt our approach for the 120+ other language variants in Belebele, many of which are deemed under-resourced. We also conduct a thorough analysis and share our insights from the process, which we hope will contribute to a deeper understanding of the challenges and the opportunities associated with task reformulation in NLP research.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# プッシュダウンオートマトンと等価なバイオン型自然言語パーザ

A Bionic Natural Language Parser Equivalent to a Pushdown Automaton ( http://arxiv.org/abs/2404.17343v1 )

ライセンス: Link先を確認
Zhenghao Wei, Kehua Lin, Jianlin Feng, (参考訳) Papadimitriouらによって提案されたアセンブリ計算(AC)は、神経活動をシミュレートすることで高度な認知機能を再現することを目的としており、Mitropolskyらによって提案された自然言語解析器を含むACに基づくいくつかの応用が開発されている。 本稿では、ACに基づく新しいバイオニック自然言語パーサ(BNLP)を提案し、RNNと短期記憶機構にインスパイアされた2つの新しい生物学的有理構造、Recurrent CircuitとStack Circuitを統合する。 オリジナルのパーサーとは対照的に、BNLPはすべての正規言語とDyck言語を完全に扱える。 したがって、チョムスキー-Sch \H{u}tzenberger の定理を利用して、すべての文脈自由言語を解析できるBNLPを構築することができる。 また、任意のPDAに対して、BNLPに対応するパーサオートマトンが常に形成可能であることを正式に証明し、BNLPがPDAと同等の記述能力を有し、元のパーサの欠陥に対処することを保証する。

Assembly Calculus (AC), proposed by Papadimitriou et al., aims to reproduce advanced cognitive functions through simulating neural activities, with several applications based on AC having been developed, including a natural language parser proposed by Mitropolsky et al. However, this parser lacks the ability to handle Kleene closures, preventing it from parsing all regular languages and rendering it weaker than Finite Automata (FA). In this paper, we propose a new bionic natural language parser (BNLP) based on AC and integrates two new biologically rational structures, Recurrent Circuit and Stack Circuit which are inspired by RNN and short-term memory mechanism. In contrast to the original parser, the BNLP can fully handle all regular languages and Dyck languages. Therefore, leveraging the Chomsky-Sch \H{u}tzenberger theorem, the BNLP which can parse all Context-Free Languages can be constructed. We also formally prove that for any PDA, a Parser Automaton corresponding to BNLP can always be formed, ensuring that BNLP has a description ability equal to that of PDA and addressing the deficiencies of the original parser.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 付加カーネルの高速評価:特徴アレンジメント、フーリエ法、カーネル誘導体

Fast Evaluation of Additive Kernels: Feature Arrangement, Fourier Methods, and Kernel Derivatives ( http://arxiv.org/abs/2404.17344v1 )

ライセンス: Link先を確認
Theresa Wagner, Franziska Nestler, Martin Stoll, (参考訳) カーネルベースの学習を扱う際の主な計算ボトルネックの1つは、大きくて典型的には密度の高いカーネルマトリックスを扱うことである。 これらのカーネル行列に対する行列ベクトル積の高速近似を扱う技術は、高次元の特徴空間に特徴ベクトルが存在する場合、一般にその性能が低下する。 本稿では、厳密な誤り解析を伴う非等間隔高速フーリエ変換(NFFT)に基づく手法を提案する。 提案手法は,カーネルハイパーパラメータに対してカーネルが微分されたときに生じる行列の近似に適しており,ガウス過程などの手法の訓練段階によく見られる問題である。 このケースのエラー解析も提供します。 複数のデータセット上で高速な行列ベクトル積を持つ付加的カーネルスキームの性能について述べる。 私たちのコードはhttps://github.com/wagnertheresa/NFFTAddKerで利用可能です。

One of the main computational bottlenecks when working with kernel based learning is dealing with the large and typically dense kernel matrix. Techniques dealing with fast approximations of the matrix vector product for these kernel matrices typically deteriorate in their performance if the feature vectors reside in higher-dimensional feature spaces. We here present a technique based on the non-equispaced fast Fourier transform (NFFT) with rigorous error analysis. We show that this approach is also well suited to allow the approximation of the matrix that arises when the kernel is differentiated with respect to the kernel hyperparameters; a problem often found in the training phase of methods such as Gaussian processes. We also provide an error analysis for this case. We illustrate the performance of the additive kernel scheme with fast matrix vector products on a number of data sets. Our code is available at https://github.com/wagnertheresa/NFFTAddKer
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# InspectorRAGet: RAG評価のためのイントロスペクションプラットフォーム

InspectorRAGet: An Introspection Platform for RAG Evaluation ( http://arxiv.org/abs/2404.17347v1 )

ライセンス: Link先を確認
Kshitij Fadnis, Siva Sankalp Patel, Odellia Boni, Yannis Katsis, Sara Rosenthal, Benjamin Sznajder, Marina Danilevsky, (参考訳) 大規模言語モデル(LLM)は、検索拡張生成(RAG)システムを実装するための一般的なアプローチとなり、優れたモデルとメトリクスの構築に多大な労力が費やされてきた。 RAGシステムの厳密な評価の必要性は認識されているものの、モデル出力の作成や自動計算以上のツールはほとんど存在しない。 RAG評価のためのイントロスペクションプラットフォームであるInspectorRAGetを提案する。 InspectorRAGetを使えば、ユーザは人間とアルゴリズムの両方のメトリクスとアノテータの品質を使って、RAGシステムの集約とインスタンスレベルのパフォーマンスを分析できる。 InspectorRAGetは複数のユースケースに適している。 デモビデオはhttps://youtu.be/MJhe8QIXcEc.comで公開されている。

Large Language Models (LLM) have become a popular approach for implementing Retrieval Augmented Generation (RAG) systems, and a significant amount of effort has been spent on building good models and metrics. In spite of increased recognition of the need for rigorous evaluation of RAG systems, few tools exist that go beyond the creation of model output and automatic calculation. We present InspectorRAGet, an introspection platform for RAG evaluation. InspectorRAGet allows the user to analyze aggregate and instance-level performance of RAG systems, using both human and algorithmic metrics as well as annotator quality. InspectorRAGet is suitable for multiple use cases and is available publicly to the community. The demo video is available at https://youtu.be/MJhe8QIXcEc
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 明確化への道 - ドライバ支援システムにおける世界モデルのための説明可能なAIの探索

On the Road to Clarity: Exploring Explainable AI for World Models in a Driver Assistance System ( http://arxiv.org/abs/2404.17350v1 )

ライセンス: Link先を確認
Mohamed Roshdi, Julian Petzold, Mostafa Wahby, Hussein Ebrahim, Mladen Berekovic, Heiko Hamann, (参考訳) 自律運転(AD)では、ミスはコストがかかるため、透明性と安全性が最重要である。 しかしながら、ADシステムで使用されるニューラルネットワークは一般にブラックボックスと見なされる。 対策として,特徴関連性推定や次元減少といった,説明可能なAI(XAI)の手法がある。 粗粒化技術は次元を減らし、解釈可能なグローバルパターンを見つけるのに役立つ。 特定の粗粒化法は統計物理学からの正規化群である。 Restricted Boltzmann Machines (RBMs) に適用され、教師なし学習を解釈している。 我々はこの技術を改良し、畳み込み変分オートエンコーダ(VAE)のための透明なバックボーンモデルを構築し、遅延値と入力特徴をマッピングし、トレーニングされたブラックボックスVAEに匹敵する性能を有する。 さらに,VAE内部の畳み込み層を解析して,ADアプリケーションにおける危険な交通シナリオにつながる可能性のある,再構成不良の原因を説明する,独自の特徴マップ可視化手法を提案する。 第2のキーコントリビューションでは、予測ネットワークの内部力学と特徴関連性に関する説明と評価手法を提案する。 我々は,コンピュータビジョン領域における長期記憶(LSTM)ネットワークをテストし,予測可能性の評価と将来的な予測モデルの安全性について検討する。 本稿では,都市交通状況における歩行者の認識を予測したVAE-LSTM世界モデルの解析により,提案手法を実証する。

In Autonomous Driving (AD) transparency and safety are paramount, as mistakes are costly. However, neural networks used in AD systems are generally considered black boxes. As a countermeasure, we have methods of explainable AI (XAI), such as feature relevance estimation and dimensionality reduction. Coarse graining techniques can also help reduce dimensionality and find interpretable global patterns. A specific coarse graining method is Renormalization Groups from statistical physics. It has previously been applied to Restricted Boltzmann Machines (RBMs) to interpret unsupervised learning. We refine this technique by building a transparent backbone model for convolutional variational autoencoders (VAE) that allows mapping latent values to input features and has performance comparable to trained black box VAEs. Moreover, we propose a custom feature map visualization technique to analyze the internal convolutional layers in the VAE to explain internal causes of poor reconstruction that may lead to dangerous traffic scenarios in AD applications. In a second key contribution, we propose explanation and evaluation techniques for the internal dynamics and feature relevance of prediction networks. We test a long short-term memory (LSTM) network in the computer vision domain to evaluate the predictability and in future applications potentially safety of prediction models. We showcase our methods by analyzing a VAE-LSTM world model that predicts pedestrian perception in an urban traffic situation.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 条件拡散モデルを用いた3次元医用画像融合と超解像同時処理

Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model ( http://arxiv.org/abs/2404.17357v1 )

ライセンス: Link先を確認
Yushen Xu, Xiaosong Li, Yuchan Jie, Haishu Tan, (参考訳) 臨床実践において、既存のデュアルモーダル技術と比較して、トリモーダル医療画像融合は、疾患の形状、位置、生物学的活動を評価するために医師を支援する、より包括的な病変のビューを提供することができる。 しかし, 画像診断装置の限界や患者安全への配慮により, 医用画像の品質が制限され, 術中核融合性能が低下し, 医用画像解析の深度が低下する。 したがって、画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要となる。 現在の画像処理手法は画像融合と超解像を個別に効果的に扱うことができるが、両問題を同期的に解くことは極めて困難である。 本稿では,3次元医用画像融合と超解像モデルであるTFS-Diffを提案する。 特にTFS-Diffは、ランダム反復復調過程の拡散モデル生成に基づいている。 また, 単純な目的関数と, 提案した核融合超解像損失も開発し, 核融合の不確かさを効果的に評価し, 最適化プロセスの安定性を確保する。 また,複数の画像処理による情報損失を回避し,異なるモダリティの鍵情報を臨床診断に効果的に統合するチャネルアテンションモジュールを提案する。 ハーバード大学のデータセットに関する大規模な実験によると、TFS-Diffは、定量評価と視覚評価の両方において既存の最先端の手法を大幅に上回っている。 ソースコードはGitHubで入手できる。

In clinical practice, tri-modal medical image fusion, compared to the existing dual-modal technique, can provide a more comprehensive view of the lesions, aiding physicians in evaluating the disease's shape, location, and biological activity. However, due to the limitations of imaging equipment and considerations for patient safety, the quality of medical images is usually limited, leading to sub-optimal fusion performance, and affecting the depth of image analysis by the physician. Thus, there is an urgent need for a technology that can both enhance image resolution and integrate multi-modal information. Although current image processing methods can effectively address image fusion and super-resolution individually, solving both problems synchronously remains extremely challenging. In this paper, we propose TFS-Diff, a simultaneously realize tri-modal medical image fusion and super-resolution model. Specially, TFS-Diff is based on the diffusion model generation of a random iterative denoising process. We also develop a simple objective function and the proposed fusion super-resolution loss, effectively evaluates the uncertainty in the fusion and ensures the stability of the optimization process. And the channel attention module is proposed to effectively integrate key information from different modalities for clinical diagnosis, avoiding information loss caused by multiple image processing. Extensive experiments on public Harvard datasets show that TFS-Diff significantly surpass the existing state-of-the-art methods in both quantitative and visual evaluations. The source code will be available at GitHub.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 対数一貫性と対数ベイズ分類器の特異性

Adversarial Consistency and the Uniqueness of the Adversarial Bayes Classifier ( http://arxiv.org/abs/2404.17358v1 )

ライセンス: Link先を確認
Natalie S. Frank, (参考訳) 逆行訓練は、堅牢な分類器を学習するための一般的なテクニックである。 以前の研究では、凸代理損失は敵の文脈で統計的に一致していないことが示されており、つまり、敵の代理リスクの最小化シーケンスは、必ずしも敵の分類誤差を最小化するとは限らない。 我々は、逆代理損失の整合性を、最小化器の特性と、逆分類リスク(英語版)(emph{adversarial Bayes classifiers} として知られる)に結びつける。 具体的には、合理的な分布仮定の下では、凸損失は逆学習に対して統計的に一貫したものであり、逆ベイズ分類器は特定の一意性の概念を満たす。

Adversarial training is a common technique for learning robust classifiers. Prior work showed that convex surrogate losses are not statistically consistent in the adversarial context -- or in other words, a minimizing sequence of the adversarial surrogate risk will not necessarily minimize the adversarial classification error. We connect the consistency of adversarial surrogate losses to properties of minimizers to the adversarial classification risk, known as \emph{adversarial Bayes classifiers}. Specifically, under reasonable distributional assumptions, a convex loss is statistically consistent for adversarial learning iff the adversarial Bayes classifier satisfies a certain notion of uniqueness.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# UniRGB-IR:Adapter Tuningによる可視赤外線ダウンストリームタスクのための統一フレームワーク

UniRGB-IR: A Unified Framework for Visible-Infrared Downstream Tasks via Adapter Tuning ( http://arxiv.org/abs/2404.17360v1 )

ライセンス: Link先を確認
Maoxun Yuan, Bo Cui, Tianyi Zhao, Xingxing Wei, (参考訳) 可視光(RGB)と赤外線(IR)画像のセマンティック解析は、低照度および複雑な気象条件下でより正確で堅牢であることから注目されている。 大規模な赤外線画像データセットに事前トレーニングされた基礎モデルがないため、既存の手法ではタスク固有のフレームワークを設計し、RGB-IRセマンティック関連データセット上で事前トレーニングされた基礎モデルで直接微調整することを好む。 本稿では,RGB-IRの下流タスクを統一する,UniRGB-IRと呼ばれるスケーラブルで効率的なフレームワークを提案する。 具体的には、視覚変換器(ViT)基盤モデル、マルチモーダル特徴プール(MFP)モジュール、補助特徴インジェクタ(SFI)モジュールから構成される。 MFP と SFI モジュールはアドパタイザとして相互に連携し、ViT の機能とコンテキスト的マルチスケールの機能とを効果的に補完する。 トレーニングプロセス中、基礎モデル全体を凍結して事前知識を継承し、MFPおよびSFIモジュールのみを最適化する。 さらに,本フレームワークの有効性を検証するために,ViT-Baseを事前学習基盤モデルとして利用し,広範囲な実験を行う。 様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。 ソースコードと結果はhttps://github.com/PoTsui99/UniRGB-IR.gitで公開されている。

Semantic analysis on visible (RGB) and infrared (IR) images has gained attention for its ability to be more accurate and robust under low-illumination and complex weather conditions. Due to the lack of pre-trained foundation models on the large-scale infrared image datasets, existing methods prefer to design task-specific frameworks and directly fine-tune them with pre-trained foundation models on their RGB-IR semantic relevance datasets, which results in poor scalability and limited generalization. In this work, we propose a scalable and efficient framework called UniRGB-IR to unify RGB-IR downstream tasks, in which a novel adapter is developed to efficiently introduce richer RGB-IR features into the pre-trained RGB-based foundation model. Specifically, our framework consists of a vision transformer (ViT) foundation model, a Multi-modal Feature Pool (MFP) module and a Supplementary Feature Injector (SFI) module. The MFP and SFI modules cooperate with each other as an adpater to effectively complement the ViT features with the contextual multi-scale features. During training process, we freeze the entire foundation model to inherit prior knowledge and only optimize the MFP and SFI modules. Furthermore, to verify the effectiveness of our framework, we utilize the ViT-Base as the pre-trained foundation model to perform extensive experiments. Experimental results on various RGB-IR downstream tasks demonstrate that our method can achieve state-of-the-art performance. The source code and results are available at https://github.com/PoTsui99/UniRGB-IR.git.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# MV-VTON:拡散モデルを用いたマルチビューバーチャルトライオン

MV-VTON: Multi-View Virtual Try-On with Diffusion Models ( http://arxiv.org/abs/2404.17364v1 )

ライセンス: Link先を確認
Haoyu Wang, Zhilu Zhang, Donglin Di, Shiliang Zhang, Wangmeng Zuo, (参考訳) 画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。 しかし、既存の方法のほとんどは、正面服を用いた正面試着にのみ焦点をあてている。 衣服や人の視線が著しく矛盾している場合、特に人の視線が正面ではない場合、その結果は満足できない。 この課題に対処するために,指定した衣服を用いて複数のビューから人のドレッシング結果を再構築することを目的とした,マルチビュー仮想トライオン(MV-VTON)を導入する。 一方,単視服はMV-VTONに不十分な情報を提供するため,服の正面と後方の視界を可能な限り包含する2つの画像を用いる。 一方, 優れた能力を示す拡散モデルを用いて, MV-VTONを実現する。 特に,グローバルな衣服の特徴抽出にハードセレクションとソフトセレクションをそれぞれ適用したビューアダプティブ選択法を提案する。 これにより、衣服の特徴が人の視界にほぼ一致することが保証される。 続いて,衣服の特徴と人的特徴を一致させて融合させる共同注意ブロックを提案する。 さらに、MV-VTONデータセット、すなわち、MVG(Multi-View Garment)を収集し、各人が多様なビューとポーズを持つ複数の写真を持つ。 実験により,提案手法はMVGデータセットを用いたMV-VTONタスクの最先端結果だけでなく,VITON-HDおよびDressCodeデータセットを用いたフロントビュー仮想試行タスクにも優れていることがわかった。 コードとデータセットはhttps://github.com/hywang2002/MV-VTON で公開される。

The goal of image-based virtual try-on is to generate an image of the target person naturally wearing the given clothing. However, most existing methods solely focus on the frontal try-on using the frontal clothing. When the views of the clothing and person are significantly inconsistent, particularly when the person's view is non-frontal, the results are unsatisfactory. To address this challenge, we introduce Multi-View Virtual Try-ON (MV-VTON), which aims to reconstruct the dressing results of a person from multiple views using the given clothes. On the one hand, given that single-view clothes provide insufficient information for MV-VTON, we instead employ two images, i.e., the frontal and back views of the clothing, to encompass the complete view as much as possible. On the other hand, the diffusion models that have demonstrated superior abilities are adopted to perform our MV-VTON. In particular, we propose a view-adaptive selection method where hard-selection and soft-selection are applied to the global and local clothing feature extraction, respectively. This ensures that the clothing features are roughly fit to the person's view. Subsequently, we suggest a joint attention block to align and fuse clothing features with person features. Additionally, we collect a MV-VTON dataset, i.e., Multi-View Garment (MVG), in which each person has multiple photos with diverse views and poses. Experiments show that the proposed method not only achieves state-of-the-art results on MV-VTON task using our MVG dataset, but also has superiority on frontal-view virtual try-on task using VITON-HD and DressCode datasets. Codes and datasets will be publicly released at https://github.com/hywang2002/MV-VTON .
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# メタマテリアルの均質化のための類似同変グラフニューラルネットワーク

Similarity Equivariant Graph Neural Networks for Homogenization of Metamaterials ( http://arxiv.org/abs/2404.17365v1 )

ライセンス: Link先を確認
Fleur Hendriks, Vlado Menkovski, Martin Doškář, Marc G. D. Geers, Ondřej Rokoš, (参考訳) ソフトで多孔質なメカニカルメタマテリアルは、ソフトロボティクス、音の低減、バイオメディシンに重要な応用をもたらすパターン変換を示す。 これらの革新的な材料を設計するには、機械的特性を調整するために、それらを正確かつ迅速にシミュレートできることが重要である。 有限要素法を用いた従来のシミュレーションでは高い計算コストが要求されるため,本論文では,サロゲートモデルとして好適にスケール可能な機械学習ベースのアプローチを開発することを目的とする。 トレーニング中に遭遇しないものを含め、モデルが様々なマイクロ構造を扱えるようにするために、ネットワーク入力の一部としてマイクロ構造を含める。 そこで我々は,大域的量(エネルギー,応力剛性)およびパターン変換(キネマティクス)を予測するグラフニューラルネットワークを導入する。 我々のモデルをできるだけ正確かつデータ効率にするために、モデルに様々な対称性が組み込まれている。 出発点は、E(n)-同変グラフニューラルネットワーク(翻訳、回転、反射を尊重する)であり、周期境界条件(すなわち、RVEの選択に関して-/等変である)を持ち、スケールイン/等変であり、大きな変形をシミュレートでき、スカラー、ベクトルおよび第2および第4次テンソル(特にエネルギー、応力、剛性)を予測することができる。 スケール同値の包含は、ユークリッド群 E(n) が部分群であるような類似性群に対してモデル同値となる。 このネットワークは、対称性の少ないグラフニューラルネットワークよりも正確で、データ効率が高いことを示す。 有限要素離散化の効率的なグラフ表現を作成するために、有限要素メッシュから内部の幾何学的穴の境界のみを用いて、メッシュサイズでの高速化とスケーリングを実現する。

Soft, porous mechanical metamaterials exhibit pattern transformations that may have important applications in soft robotics, sound reduction and biomedicine. To design these innovative materials, it is important to be able to simulate them accurately and quickly, in order to tune their mechanical properties. Since conventional simulations using the finite element method entail a high computational cost, in this article we aim to develop a machine learning-based approach that scales favorably to serve as a surrogate model. To ensure that the model is also able to handle various microstructures, including those not encountered during training, we include the microstructure as part of the network input. Therefore, we introduce a graph neural network that predicts global quantities (energy, stress stiffness) as well as the pattern transformations that occur (the kinematics). To make our model as accurate and data-efficient as possible, various symmetries are incorporated into the model. The starting point is an E(n)-equivariant graph neural network (which respects translation, rotation and reflection) that has periodic boundary conditions (i.e., it is in-/equivariant with respect to the choice of RVE), is scale in-/equivariant, can simulate large deformations, and can predict scalars, vectors as well as second and fourth order tensors (specifically energy, stress and stiffness). The incorporation of scale equivariance makes the model equivariant with respect to the similarities group, of which the Euclidean group E(n) is a subgroup. We show that this network is more accurate and data-efficient than graph neural networks with fewer symmetries. To create an efficient graph representation of the finite element discretization, we use only the internal geometrical hole boundaries from the finite element mesh to achieve a better speed-up and scaling with the mesh size.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 空間感性自然関連金融リスクに対するAIの可能性の評価

Assessing the Potential of AI for Spatially Sensitive Nature-Related Financial Risks ( http://arxiv.org/abs/2404.17369v1 )

ライセンス: Link先を確認
Steven Reece, Emma O donnell, Felicia Liu, Joanna Wolstenholme, Frida Arriaga, Giacomo Ascenzi, Richard Pywell, (参考訳) 金融機関、金融規制当局、政策立案者の間で、自然関連リスクや機会に対処することの重要性に対する認識が高まっている。 金融機関の自然関連リスクの評価・評価は、自然上利用可能な多種多様なデータと、投資価値連鎖の複雑さ、および様々なコンポーネントの自然との関係から困難である。 データ分析のスケーリングと複雑なシステムの分析という2つの問題は、人工知能(AI)を使って対処することができる。 既存のデータギャップを発見データで埋める、不確実性のあるデータ推定、時系列分析、(近く)リアルタイム更新といった問題に対処する。 本報告では,ブラジル産牛肉供給利用事例と水利用利用事例という,2つの異なるユースケースのモデルに対するAIソリューションの可能性について述べる。 当社の2つのユースケースは、持続可能な金融の幅広い視点をカバーしています。 ブラジルの家畜農業のユースケースは、グリーン化ファイナンスの一例であり、自然に関する考慮事項を主要な金融決定に組み込んで、歴史的記録の乏しい部門や持続不可能な事業から投資を移行させるものである。 英国における水利事業のユースケースにおける自然ベースのソリューションの展開は、自然に肯定的な結果に投資するグリーン融資の例である。 この2つのユースケースは、さまざまなセクター、地理、金融資産、AIモデリング技術についてもカバーしており、自然と金融の統合に関するさまざまな課題に対してAIをどのように適用できるかを概説している。 このレポートは主に金融機関を対象としているが、ESGデータプロバイダ、TNFD、システムモデラー、そしてもちろんAI実践者にも関心がある。

There is growing recognition among financial institutions, financial regulators and policy makers of the importance of addressing nature-related risks and opportunities. Evaluating and assessing nature-related risks for financial institutions is challenging due to the large volume of heterogeneous data available on nature and the complexity of investment value chains and the various components' relationship to nature. The dual problem of scaling data analytics and analysing complex systems can be addressed using Artificial Intelligence (AI). We address issues such as plugging existing data gaps with discovered data, data estimation under uncertainty, time series analysis and (near) real-time updates. This report presents potential AI solutions for models of two distinct use cases, the Brazil Beef Supply Use Case and the Water Utility Use Case. Our two use cases cover a broad perspective within sustainable finance. The Brazilian cattle farming use case is an example of greening finance - integrating nature-related considerations into mainstream financial decision-making to transition investments away from sectors with poor historical track records and unsustainable operations. The deployment of nature-based solutions in the UK water utility use case is an example of financing green - driving investment to nature-positive outcomes. The two use cases also cover different sectors, geographies, financial assets and AI modelling techniques, providing an overview on how AI could be applied to different challenges relating to nature's integration into finance. This report is primarily aimed at financial institutions but is also of interest to ESG data providers, TNFD, systems modellers, and, of course, AI practitioners.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 100$\times$サンプル効率によるランダム化平滑化におけるロバストネス半径の推定

Estimating the Robustness Radius for Randomized Smoothing with 100$\times$ Sample Efficiency ( http://arxiv.org/abs/2404.17371v1 )

ライセンス: Link先を確認
Emmanouil Seferis, Stefanos Kollias, Chih-Hong Cheng, (参考訳) ランダムスムーシング(RS)は、入力の複数のバリエーションを生成するためにランダムノイズを追加することによって、ディープニューラルネットワーク(DNN)の予測の堅牢性向上に成功し、コンセンサスを決定する。 RS対応DNNがサンプル入力領域で有効であるかどうかを理解するためには、運用設計領域内のデータポイントをサンプリングし、ロバストネス半径に関するポイントワイド証明書を取得し、予め定義された受け入れ基準と比較する必要がある。 これにより、任意のデータポイントに対するポイントワイドロバスト性証明が比較的コスト効率良く取得されることが重要となる。 この研究は、サンプルの数を1桁から2桁に減らすことで、同じ信頼性を持つわずかに小さなロバストネス半径(通常約20%の半径減少)の計算が可能になることを証明している。 我々は、標準CIFAR-10およびImageNetデータセットで有望な結果を実験的に示しながら、この現象を説明する数学的基礎を提供する。

Randomized smoothing (RS) has successfully been used to improve the robustness of predictions for deep neural networks (DNNs) by adding random noise to create multiple variations of an input, followed by deciding the consensus. To understand if an RS-enabled DNN is effective in the sampled input domains, it is mandatory to sample data points within the operational design domain, acquire the point-wise certificate regarding robustness radius, and compare it with pre-defined acceptance criteria. Consequently, ensuring that a point-wise robustness certificate for any given data point is obtained relatively cost-effectively is crucial. This work demonstrates that reducing the number of samples by one or two orders of magnitude can still enable the computation of a slightly smaller robustness radius (commonly ~20% radius reduction) with the same confidence. We provide the mathematical foundation for explaining the phenomenon while experimentally showing promising results on the standard CIFAR-10 and ImageNet datasets.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 時計異方性をもつ非エルミート的$\rm XY$モデルにおける$\mathcal{PT}$対称性の破れによる歩行挙動

Walking behavior induced by $\mathcal{PT}$ symmetry breaking in a non-Hermitian $\rm XY$ model with clock anisotropy ( http://arxiv.org/abs/2404.17373v1 )

ライセンス: Link先を確認
Eduard Naichuk, Jeroen van den Brink, Flavio S. Nogueira, (参考訳) 非エルミティアンハミルトニアンによって支配される量子系は、相互作用によって駆動されるゼロ温度相転移を示すことができ、非ハーミティニティが量子臨界性にどのように影響するかという根本的な疑問を提起する。 この文脈では、複素数値の4状態クロック相互作用を持つ$\rm XY$モデルからなる非エルミート系を考える。 $\mathcal{PT}$対称性が破られ、時間進化が非単体となるとき、ベレジンスキー-コステリッツ-Thouless相転移に似たスケーリングの挙動が続くが、固定点の直線が欠如しているため、非常に非伝統的である。 d$ 次元 RG 方程式の解析から、$\mathcal{PT}$ の壊れた状態における非伝統的挙動は、$d\to 2$ の極限における2つの固定点の衝突によって成り立ち、歩行挙動や擬臨界性をもたらす。 $d=2+1$の場合、近接臨界挙動は平均場よりも小さい相関長指数$\nu=3/8$によって特徴づけられる。 これらの結果は、$\mathcal{PT}$-対称の場合と対照的に、1つの固定点は2<d<4$で、$d=1+1$3行の固定点は連続的に変化する臨界指数$\nu$で発生する。

A quantum system governed by a non-Hermitian Hamiltonian may exhibit zero temperature phase transitions that are driven by interactions, just as its Hermitian counterpart, raising the fundamental question how non-Hermiticity affects quantum criticality. In this context we consider a non-Hermitian system consisting of an $\rm XY$ model with a complex-valued four-state clock interaction that may or may not have parity-time-reversal ($\mathcal{PT}$) symmetry. When the $\mathcal{PT}$ symmetry is broken, and time-evolution becomes non-unitary, a scaling behavior similar to the Berezinskii-Kosterlitz-Thouless phase transition ensues, but in a highly unconventional way, as the line of fixed points is absent. From the analysis of the $d$-dimensional RG equations, we obtain that the unconventional behavior in the $\mathcal{PT}$ broken regime follows from the collision of two fixed points in the $d\to 2$ limit, leading to walking behavior or pseudocriticality. For $d=2+1$ the near critical behavior is characterized by a correlation length exponent $\nu=3/8$, a value smaller than the mean-field one. These results are in sharp contrast with the $\mathcal{PT}$-symmetric case where only one fixed point arises for $2<d<4$ and in $d=1+1$ three lines of fixed points occur with a continuously varying critical exponent $\nu$.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 量子ダイヤモンド顕微鏡によるマイクロマグネットの極低交流感受性の観察

Observation of Ultra-low AC Susceptibility in Micro-magnets Using Quantum Diamond Microscope ( http://arxiv.org/abs/2404.17376v1 )

ライセンス: Link先を確認
Dasika Shishir, Kasturi Saha, (参考訳) 静電気サセプティメトリーとは異なり、交流サセプティメトリーは磁気材料について深い洞察を与える。 交流感受性測定を利用することで、磁気力学に関する重要な詳細を把握できる。 それにもかかわらず、従来の交流感受性計は、テラあたり数ナノジュールの範囲内の磁気モーメントの変化を測定することに制約されている。 さらに、空間分解能は著しく制限されており、バルクサンプルのみに適用できる。 本研究では,NV中心型量子ダイヤモンド顕微鏡を用いて,ミクロンスケールの強磁性試料の交流感受性をマッピングする手法を提案する。 我々はコヒーレントパルスシーケンスを用いて,70マイクロメートルの視野内の試料から,その大きさと位相を抽出し,分解能を1マイクロメートルとした。 さらに,数百kヘルツに達する周波数での励起によって誘発されるテラ毎のフェムトジュールの順序による双極子モーメントの変化を定量化する。

AC susceptometry, unlike static susceptometry, offers a deeper insight into magnetic materials. By employing AC susceptibility measurements, one can glean into crucial details regarding magnetic dynamics. Nevertheless, traditional AC susceptometers are constrained to measuring changes in magnetic moments within the range of a few nano-joules per tesla. Additionally, their spatial resolution is severely limited, confining their application to bulk samples only. In this study, we introduce the utilization of a Nitrogen Vacancy (NV) center-based quantum diamond microscope for mapping the AC susceptibility of micron-scale ferromagnetic specimens. By employing coherent pulse sequences, we extract both magnitude and the phase of the field from samples within a field of view spanning 70 micro-meters while achieving a resolution of 1 micro-meter. Furthermore, we quantify changes in dipole moment on the order of a femto-joules per tesla induced by excitations at frequencies reaching several hundred kilohertz.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 有効データ表現のための量子共役畳み込み層

Quantum Adjoint Convolutional Layers for Effective Data Representation ( http://arxiv.org/abs/2404.17378v1 )

ライセンス: Link先を確認
Ren-Xin Zhao, Shi Wang, Yaonan Wang, (参考訳) 量子畳み込み層(QCL)はその効率的なデータ特徴抽出能力のため、量子畳み込みニューラルネットワーク(QCNN)のコアの1つと考えられている。 しかし、現在のQCLの原理はブラックボックス構造のため古典的畳み込み層(CCL)ほど数学的には理解できない。 さらに、多くのQCLにおける古典的なデータマッピングは非効率である。 この目的のために、まず量子振幅エンコーディングとその逆数からなる量子共役畳み込み演算(QACO)は、フロベニウス内部積に基づく畳み込み演算の量子正規化と理論的に等価であることが示され、データの効率的なキャラクタリゼーションが達成される。 その後、QACOは量子位相推定(QPE)により量子随伴畳み込み層(QACL)に拡張され、全てのフロベニウス内部積を並列に計算する。 最後に、PennyLaneとTensorFlowプラットフォームで比較シミュレーション実験が行われ、主にQACLで修正および修正されていないカーネルの2つのケースを対象としている。 その結果、同じ画像に対する特別な量子特性の洞察を持つQACLは、MNISTとFashion MNISTの分類実験において、より高いトレーニング精度を提供するが、ある程度の学習性能を犠牲にすることを示した。 我々の研究は、効率的かつ解釈可能な量子畳み込みネットワークの開発の基礎を築き、量子マシンビジョンの分野も前進させた。

Quantum Convolutional Layer (QCL) is considered as one of the core of Quantum Convolutional Neural Networks (QCNNs) due to its efficient data feature extraction capability. However, the current principle of QCL is not as mathematically understandable as Classical Convolutional Layer (CCL) due to its black-box structure. Moreover, classical data mapping in many QCLs is inefficient. To this end, firstly, the Quantum Adjoint Convolution Operation (QACO) consisting of a quantum amplitude encoding and its inverse is theoretically shown to be equivalent to the quantum normalization of the convolution operation based on the Frobenius inner product while achieving an efficient characterization of the data. Subsequently, QACO is extended into a Quantum Adjoint Convolutional Layer (QACL) by Quantum Phase Estimation (QPE) to compute all Frobenius inner products in parallel. At last, comparative simulation experiments are carried out on PennyLane and TensorFlow platforms, mainly for the two cases of kernel fixed and unfixed in QACL. The results demonstrate that QACL with the insight of special quantum properties for the same images, provides higher training accuracy in MNIST and Fashion MNIST classification experiments, but sacrifices the learning performance to some extent. Predictably, our research lays the foundation for the development of efficient and interpretable quantum convolutional networks and also advances the field of quantum machine vision.
翻訳日:2024-04-29 13:15:01 公開日:2024-04-26
# 正規化流を用いた周波数誘導多層動作異常検出

Frequency-Guided Multi-Level Human Action Anomaly Detection with Normalizing Flows ( http://arxiv.org/abs/2404.17381v1 )

ライセンス: Link先を確認
Shun Maeda, Chunzhi Gu, Jun Yu, Shogo Tokai, Shangce Gao, Chao Zhang, (参考訳) 本研究では,ヒト行動異常検出(HAAD, Human Action Anomaly Detection)の課題について紹介する。 ビデオからの異常な出来事に主に焦点をあてる以前の人間関係の異常検出タスクと比較して、HAADは、意味的に異常な人間の行動を認識するために、特定のアクションラベルを学習する。 この課題に対処するために,サンプル確率を有効活用して異常を示す正規化フロー(NF)に基づく検出フレームワークを提案する。 動作異常が特定の身体部分でしばしば発生するため、フルボディの動作特徴学習に加えて、ボディサブセットのよりきめ細かなモデリングのために、余分なエンコーディングストリームを私たちのフレームワークに組み込む。 したがって,我々のフレームワークは,グローバルな動作異常と局所的な動作異常を共同で発見するためのマルチレベルである。 さらに、記録中の潜在的ジッタイデータの認識を示すために、時間領域から周波数領域へのアクションサンプルの変換による離散コサイン変換を活用して、データの不安定性を緩和する。 2つの人間の行動データセットの大規模な実験結果から、我々の手法は、最先端の人間の行動ADアプローチをHAADのタスクに適応させることで、ベースラインを上回ります。

We introduce the task of human action anomaly detection (HAAD), which aims to identify anomalous motions in an unsupervised manner given only the pre-determined normal category of training action samples. Compared to prior human-related anomaly detection tasks which primarily focus on unusual events from videos, HAAD involves the learning of specific action labels to recognize semantically anomalous human behaviors. To address this task, we propose a normalizing flow (NF)-based detection framework where the sample likelihood is effectively leveraged to indicate anomalies. As action anomalies often occur in some specific body parts, in addition to the full-body action feature learning, we incorporate extra encoding streams into our framework for a finer modeling of body subsets. Our framework is thus multi-level to jointly discover global and local motion anomalies. Furthermore, to show awareness of the potentially jittery data during recording, we resort to discrete cosine transformation by converting the action samples from the temporal to the frequency domain to mitigate the issue of data instability. Extensive experimental results on two human action datasets demonstrate that our method outperforms the baselines formed by adapting state-of-the-art human activity AD approaches to our task of HAAD.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# AIはデザイン教育をどのようにサポートするのか?

How Could AI Support Design Education? A Study Across Fields Fuels Situating Analytics ( http://arxiv.org/abs/2404.17390v1 )

ライセンス: Link先を確認
Ajit Jain, Andruid Kerne, Hannah Fowler, Jinsil Seo, Galen Newman, Nic Lupfer, Aaron Perrine, (参考訳) 我々は、デザイン教育者の評価とフィードバックの実践に関するケーススタディから得られたプロセスと研究結果を用いて、AIを人間の体験に役立てるためにどのように役立つかを理論化する。 我々はS suchmanの位置行動理論に基づいて構築する。 我々は、プロジェクトベースの学習コンテキストにある設計プロセスを教える5つの分野の11人の教育者の質的研究を行う。 定性的なデータ収集と分析を通じて、設計プロセス、評価とフィードバックの課題、そして計算支援というコードを導出します。 創造的認知の家族類似性原理を2回導入する。 第一に、デザインインストラクターがアセスメントルーブリックと第二に、デザインクリエイティビティ分析の類似した役割を説明するために、デザインインストラクターがいかにしてアセスメントルーブリックを使っているかを説明する。 人間の教師は依然として不可欠である。 我々は,学生にオンデマンドで学習目標に基づく評価とフィードバックを提供することで,学生の努力を支援するために,設計の創造的分析の集合であるFluency, Flexibility, Visual Consistency, Multiscale Organization, Legible Contrastを開発した。 まず、AIが人間の活動をサポートするようにすることは、どの分析指標と位置するプラクティスを整合させることに依存します。 さらに、ユーザにとって分析は、それらの使用の物質的コンテキストに統合するインターフェースを通じて、ユーザにとって最も重要なものになり得ることに気付きました。 これは、デザインの創造性分析を実際のデザイン環境に配置することを意味します。 このケーススタディを通じて、シチュレート分析を、ユーザに対して分析を説明する方法論として認識する。なぜなら、実践と協調する反復的なプロセスは、データ科学者が、位置する人間の経験の一部として意味のある分析を導出し、サポートできる可能性があるからである。

We use the process and findings from a case study of design educators' practices of assessment and feedback to fuel theorizing about how to make AI useful in service of human experience. We build on Suchman's theory of situated actions. We perform a qualitative study of 11 educators in 5 fields, who teach design processes situated in project-based learning contexts. Through qualitative data gathering and analysis, we derive codes: design process; assessment and feedback challenges; and computational support. We twice invoke creative cognition's family resemblance principle. First, to explain how design instructors already use assessment rubrics and second, to explain the analogous role for design creativity analytics: no particular trait is necessary or sufficient; each only tends to indicate good design work. Human teachers remain essential. We develop a set of situated design creativity analytics--Fluency, Flexibility, Visual Consistency, Multiscale Organization, and Legible Contrast--to support instructors' efforts, by providing on-demand, learning objectives-based assessment and feedback to students. We theorize a methodology, which we call situating analytics, firstly because making AI support living human activity depends on aligning what analytics measure with situated practices. Further, we realize that analytics can become most significant to users by situating them through interfaces that integrate them into the material contexts of their use. Here, this means situating design creativity analytics into actual design environments. Through the case study, we identify situating analytics as a methodology for explaining analytics to users, because the iterative process of alignment with practice has the potential to enable data scientists to derive analytics that make sense as part of and support situated human experiences.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# M3BAT:マルチブランチ適応学習によるマルチモーダルモバイルセンシングのための教師なしドメイン適応

M3BAT: Unsupervised Domain Adaptation for Multimodal Mobile Sensing with Multi-Branch Adversarial Training ( http://arxiv.org/abs/2404.17391v1 )

ライセンス: Link先を確認
Lakmal Meegahapola, Hamza Hassoune, Daniel Gatica-Perez, (参考訳) 長年にわたり、マルチモーダルモバイルセンシングは、健康、健康、行動、文脈に関する推論に広く使われてきた。 しかし、そのようなモデルを現実世界のシナリオに広く展開することを妨げる重要な課題は、分散シフトの問題である。 これは、トレーニングセット内のデータの分布が、実世界のデータの分布、配置環境と異なる現象である。 コンピュータビジョンと自然言語処理の分野で広く研究されている一方で、モバイルセンシングの先行研究では、主にオーディオや加速度計の読み取りのような単一のデータモダリティを扱うモデルに焦点を当てているため、マルチモーダルセンサデータを扱う際には、教師なし領域適応についてはほとんど研究されていない。 このギャップに対処するため、我々はドメイン敵ニューラルネット(DANN)で広範な実験を行い、マルチモーダルセンサデータの分散シフトを効果的に処理できることを示しました。 さらに,M3BAT(M3BAT)と呼ばれるDANNを改良し,マルチブランチ・逆行訓練によるマルチモーダル・モバイルセンシングのための教師なしドメイン適応を提案し,複数のブランチによるドメイン適応におけるセンサデータのマルチモーダル性を考慮した。 2つのマルチモーダルなモバイルセンシングデータセット、3つの推論タスク、14のソースターゲットドメインペアに対して、回帰と分類の両方を含む広範な実験を行い、本手法が目に見えない領域で効果的に機能することを実証した。 ソースドメインでトレーニングされたモデルをターゲットドメインに直接デプロイするのに対し、モデルでは、分類タスクで最大12%のAUC(受信操作特性曲線の下での領域)、回帰タスクで最大0.13のMAE(絶対誤差)のパフォーマンスが向上する。

Over the years, multimodal mobile sensing has been used extensively for inferences regarding health and well being, behavior, and context. However, a significant challenge hindering the widespread deployment of such models in real world scenarios is the issue of distribution shift. This is the phenomenon where the distribution of data in the training set differs from the distribution of data in the real world, the deployment environment. While extensively explored in computer vision and natural language processing, and while prior research in mobile sensing briefly addresses this concern, current work primarily focuses on models dealing with a single modality of data, such as audio or accelerometer readings, and consequently, there is little research on unsupervised domain adaptation when dealing with multimodal sensor data. To address this gap, we did extensive experiments with domain adversarial neural networks (DANN) showing that they can effectively handle distribution shifts in multimodal sensor data. Moreover, we proposed a novel improvement over DANN, called M3BAT, unsupervised domain adaptation for multimodal mobile sensing with multi-branch adversarial training, to account for the multimodality of sensor data during domain adaptation with multiple branches. Through extensive experiments conducted on two multimodal mobile sensing datasets, three inference tasks, and 14 source-target domain pairs, including both regression and classification, we demonstrate that our approach performs effectively on unseen domains. Compared to directly deploying a model trained in the source domain to the target domain, the model shows performance increases up to 12% AUC (area under the receiver operating characteristics curves) on classification tasks, and up to 0.13 MAE (mean absolute error) on regression tasks.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 人間とロボットのインタラクションにおける子どもの音声認識:課題解決は?

Child Speech Recognition in Human-Robot Interaction: Problem Solved? ( http://arxiv.org/abs/2404.17394v1 )

ライセンス: Link先を確認
Ruben Janssens, Eva Verhelst, Giulio Antonio Abbo, Qiaoqiao Ren, Maria Jose Pinto Bernal, Tony Belpaeme, (参考訳) 自動音声認識は、成人英語の音声に対して、様々なベンチマークで超人的パフォーマンスを示すが、子供の音声を流すと失望する。 これは長い間、子供とロボットの相互作用の仕方で行われてきた。 トランスフォーマーアーキテクチャや前例のない量のトレーニングデータなど、データ駆動型音声認識の最近の進化は、子供向け音声認識とソーシャルロボット応用のブレークスルーを意味する可能性がある。 我々は2017年からの児童音声認識の研究を再考し、実際にパフォーマンスが向上し、新参のOpenAI Whisperは、主要な商用クラウドサービスよりも大幅に向上したことを示している。 書き起こしはまだ完璧ではないが、最良のモデルは60.3%の文が文法的差異を正しく保っていることを認識しており、ローカルGPU上で2秒以下の書き起こし時間が実行され、使用可能な自律的な子ロボット音声対話の可能性を示している。

Automated Speech Recognition shows superhuman performance for adult English speech on a range of benchmarks, but disappoints when fed children's speech. This has long sat in the way of child-robot interaction. Recent evolutions in data-driven speech recognition, including the availability of Transformer architectures and unprecedented volumes of training data, might mean a breakthrough for child speech recognition and social robot applications aimed at children. We revisit a study on child speech recognition from 2017 and show that indeed performance has increased, with newcomer OpenAI Whisper doing markedly better than leading commercial cloud services. While transcription is not perfect yet, the best model recognises 60.3% of sentences correctly barring small grammatical differences, with sub-second transcription time running on a local GPU, showing potential for usable autonomous child-robot speech interactions.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 行列補完によるオンライン政策学習と推論

Online Policy Learning and Inference by Matrix Completion ( http://arxiv.org/abs/2404.17398v1 )

ライセンス: Link先を確認
Congyuan Duan, Jingyang Li, Dong Xia, (参考訳) オンライン意思決定は、特にコラボレーティブなフィルタリングを通じて最適なポリシーが学習された場合に、機能が重要で、歴史的に直交する場合には困難である。 この問題をMCB (Matrix completion bandit) として定式化し, 各アームに期待される報酬は未知の低ランク行列によって特徴づけられる。 $\epsilon$-greedy banditとオンライン勾配降下アルゴリズムについて検討した。 政策学習と後悔のパフォーマンスは、探索確率とステップサイズに関する特定のスケジュールの下で研究される。 より早く崩壊する探索確率は、より小さな後悔をもたらすが、最適なポリシーをより正確に学習する。 Inverse propensity weighting (IPW) に基づくオンラインデバイアス法と、オンラインポリシー推論のための一般的な枠組みについて検討する。 IPWに基づく推定器は、軽度腕の最適条件下で漸近的に正常である。 数値シミュレーションは我々の理論的な結果を裏付ける。 当社の手法はサンフランシスコの駐車料金プロジェクトデータに適用され、興味深い発見とベンチマークポリシーを上回ります。

Making online decisions can be challenging when features are sparse and orthogonal to historical ones, especially when the optimal policy is learned through collaborative filtering. We formulate the problem as a matrix completion bandit (MCB), where the expected reward under each arm is characterized by an unknown low-rank matrix. The $\epsilon$-greedy bandit and the online gradient descent algorithm are explored. Policy learning and regret performance are studied under a specific schedule for exploration probabilities and step sizes. A faster decaying exploration probability yields smaller regret but learns the optimal policy less accurately. We investigate an online debiasing method based on inverse propensity weighting (IPW) and a general framework for online policy inference. The IPW-based estimators are asymptotically normal under mild arm-optimality conditions. Numerical simulations corroborate our theoretical findings. Our methods are applied to the San Francisco parking pricing project data, revealing intriguing discoveries and outperforming the benchmark policy.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 機械学習プライバシ防衛の評価は誤解を招く

Evaluations of Machine Learning Privacy Defenses are Misleading ( http://arxiv.org/abs/2404.17399v1 )

ライセンス: Link先を確認
Michael Aerni, Jie Zhang, Florian Tramèr, (参考訳) 機械学習プライバシに対する実証的な防御は、現実的な敵に抵抗しながら高いユーティリティを達成するために、差分プライバシの証明可能な保証を禁止します。 既存の経験的プライバシー評価(メンバーシップ推論攻撃に基づく)における深刻な落とし穴が、誤った結論をもたらす。 特に、事前評価では、最も脆弱なサンプルのプライバシー漏洩を特徴付けることができず、弱い攻撃を使用し、実用的な差分プライバシーベースラインとの比較を避けることができる。 経験的プライバシー保護に関する5つのケーススタディでは、事前評価がプライバシー漏洩を桁違いに過小評価していることが判明した。 より強力な評価の下では、我々が研究している実証的防御はいずれも、適切に調整された高実用性DP-SGDベースラインと競合するものではありません。

Empirical defenses for machine learning privacy forgo the provable guarantees of differential privacy in the hope of achieving higher utility while resisting realistic adversaries. We identify severe pitfalls in existing empirical privacy evaluations (based on membership inference attacks) that result in misleading conclusions. In particular, we show that prior evaluations fail to characterize the privacy leakage of the most vulnerable samples, use weak attacks, and avoid comparisons with practical differential privacy baselines. In 5 case studies of empirical privacy defenses, we find that prior evaluations underestimate privacy leakage by an order of magnitude. Under our stronger evaluation, none of the empirical defenses we study are competitive with a properly tuned, high-utility DP-SGD baseline (with vacuous provable guarantees).
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 低照度リモートセンシング画像強調のための空間周波数デュアルドメイン特徴核融合ネットワーク

Spatial-frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement ( http://arxiv.org/abs/2404.17400v1 )

ライセンス: Link先を確認
Zishu Yao, Guodong Fan, Jinfu Fan, Min Gan, C. L. Philip Chen, (参考訳) 低照度リモートセンシング画像は一般的に高解像度で空間的な複雑さがあり、空間に連続的に分散した表面的特徴がある。 この連続性は、リモートセンシング画像内の空間領域において広範な長距離相関をもたらす。 畳み込みニューラルネットワークは、長距離モデリングの局所的相関に依存するが、そのような画像に長距離相関を確立するのに苦労する。 一方,大域的な情報に焦点をあてる変換器ベースの手法は,高解像度のリモートセンシング画像を処理する際に,高い計算複雑性に直面している。 別の観点からは、フーリエ変換は多数のパラメータを導入することなくグローバル情報を計算することができ、ネットワークが全体の画像構造をより効率的に把握し、長距離相関を確立することができる。 そこで本稿では,低照度リモートセンシング画像強調のためのDFFN(Dual-Domain Feature Fusion Network)を提案する。 具体的には、この低照度化の課題を、2つのより管理可能なサブタスクに分割する:第1のフェーズは振幅情報を学習し、画像の明るさを回復し、第2のフェーズは位相情報を学習して詳細を洗練する。 両フェーズ間の情報交換を容易にするため,異なるフェーズとスケールのデータを組み合わせた情報融合アフィンブロックを設計した。 さらに,2つのダークライトリモートセンシングデータセットを構築し,現在のダークライトリモートセンシング画像強調におけるデータセットの欠如に対処した。 大規模評価の結果,本手法は既存の最先端手法よりも優れていた。 コードはhttps://github.com/iijjlk/DFFN.comで公開されている。

Low-light remote sensing images generally feature high resolution and high spatial complexity, with continuously distributed surface features in space. This continuity in scenes leads to extensive long-range correlations in spatial domains within remote sensing images. Convolutional Neural Networks, which rely on local correlations for long-distance modeling, struggle to establish long-range correlations in such images. On the other hand, transformer-based methods that focus on global information face high computational complexities when processing high-resolution remote sensing images. From another perspective, Fourier transform can compute global information without introducing a large number of parameters, enabling the network to more efficiently capture the overall image structure and establish long-range correlations. Therefore, we propose a Dual-Domain Feature Fusion Network (DFFN) for low-light remote sensing image enhancement. Specifically, this challenging task of low-light enhancement is divided into two more manageable sub-tasks: the first phase learns amplitude information to restore image brightness, and the second phase learns phase information to refine details. To facilitate information exchange between the two phases, we designed an information fusion affine block that combines data from different phases and scales. Additionally, we have constructed two dark light remote sensing datasets to address the current lack of datasets in dark light remote sensing image enhancement. Extensive evaluations show that our method outperforms existing state-of-the-art methods. The code is available at https://github.com/iijjlk/DFFN.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 言語モデルにおける地理的歪みの評価 : 等価表現に向けての重要なステップ

Evaluation of Geographical Distortions in Language Models: A Crucial Step Towards Equitable Representations ( http://arxiv.org/abs/2404.17401v1 )

ライセンス: Link先を確認
Rémy Decoupes, Roberto Interdonato, Mathieu Roche, Maguelonne Teisseire, Sarah Valentin, (参考訳) 言語モデルは、筆記、コーディング、学習といった多くの専門的なタスクの効率性を改善するために不可欠なツールとなっている。 そのため、本質的な偏見を特定することが不可欠である。 自然言語処理の分野では、データ、アノテーション、表現、モデル、研究設計という5つのバイアス源が明確に識別されている。 本研究は地理的知識に関するバイアスに焦点を当てる。 地理モデルと言語モデルの関連性について検討し,空間情報を誤表現する傾向を強調し,地理的距離の表現に歪みをもたらす。 本研究では、地理的距離と意味的距離を比較することにより、これらの歪みを評価するための4つの指標を紹介する。 この4つの指標から10種類の広く使われている言語モデルを用いて実験を行った。 その結果, 言語モデルにおける空間バイアスの検査と修正が, 正確かつ公平な表現を確実にするための重要な必要性を浮き彫りにした。

Language models now constitute essential tools for improving efficiency for many professional tasks such as writing, coding, or learning. For this reason, it is imperative to identify inherent biases. In the field of Natural Language Processing, five sources of bias are well-identified: data, annotation, representation, models, and research design. This study focuses on biases related to geographical knowledge. We explore the connection between geography and language models by highlighting their tendency to misrepresent spatial information, thus leading to distortions in the representation of geographical distances. This study introduces four indicators to assess these distortions, by comparing geographical and semantic distances. Experiments are conducted from these four indicators with ten widely used language models. Results underscore the critical necessity of inspecting and rectifying spatial biases in language models to ensure accurate and equitable representations.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# PyPIとNPMライブラリ用のGitHubリポジトリのアクセシビリティの分析

Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries ( http://arxiv.org/abs/2404.17403v1 )

ライセンス: Link先を確認
Alexandros Tsakpinis, Alexander Pretschner, (参考訳) 産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。 しかし、脆弱性や攻撃が発生し、コミュニティが問題に迅速に対処し、不活性なために修正をリリースできなければ、重大なリスクも生じる可能性がある。 このようなコミュニティの活動を監視するためには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。 これらのリポジトリに基づいて、アプリケーションの統合ライブラリを監視して、それらが適切にメンテナンスされているかどうかを監視できる。 本稿では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。 すべての利用可能なライブラリに対して、割り当てられたリポジトリURL、直接的な依存関係を抽出し、ページランクアルゴリズムを使用して、ライブラリと依存関係チェーンの観点からエコシステムを包括的に分析する。 無効なリポジトリURLについては、潜在的な理由を導き出します。 どちらのエコシステムも、分析されたライブラリのページランクスコアに応じて、GitHubリポジトリURLへのアクセシビリティが変化している。 個々のライブラリでは、PyPIの73.8%、NPMライブラリの69.4%がリポジトリURLを持っている。 依存関係チェーン内では、最大80.1%のPyPIライブラリがURLを持ち、81.1%がNPMである。 つまり、ほとんどのライブラリ、特に重要性が増しているライブラリは、GitHubで監視できる。 無効なリポジトリURLの最も一般的な理由は、URLが割り当てられていないことであり、これはPyPIが17.9%、NPMが39.6%である。 パッケージメンテナはこの問題に対処し、ライブラリの監視を可能にするためにリポジトリ情報を更新する必要がある。

Industrial applications heavily rely on open-source software (OSS) libraries, which provide various benefits. But, they can also present a substantial risk if a vulnerability or attack arises and the community fails to promptly address the issue and release a fix due to inactivity. To be able to monitor the activities of such communities, a comprehensive list of repositories for the libraries of an ecosystem must be accessible. Based on these repositories, integrated libraries of an application can be monitored to observe whether they are adequately maintained. In this descriptive study, we analyze the accessibility of GitHub repositories for PyPI and NPM libraries. For all available libraries, we extract assigned repository URLs, direct dependencies and use the page rank algorithm to comprehensively analyze the ecosystems from a library and dependency chain perspective. For invalid repository URLs, we derive potential reasons. Both ecosystems show varying accessibility to GitHub repository URLs, depending on the page rank score of the analyzed libraries. For individual libraries, up to 73.8% of PyPI and up to 69.4% of NPM libraries have repository URLs. Within dependency chains, up to 80.1% of PyPI libraries have URLs, while up to 81.1% for NPM. That means, most libraries, especially the ones of increasing importance, can be monitored on GitHub. Among the most common reasons for invalid repository URLs is no URLs being assigned at all, which amounts up to 17.9% for PyPI and up to 39.6% for NPM. Package maintainers should address this issue and update the repository information to enable monitoring of their libraries.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 識別不能光子対を用いたギャラリーモード位相シフトの強化

Enhanced Whispering Gallery Mode Phase Shift using Indistinguishable Photon Pairs ( http://arxiv.org/abs/2404.17409v1 )

ライセンス: Link先を確認
Callum Jones, Antonio Vidiella-Barranco, Jolly Xavier, Frank Vollmer, (参考訳) 本稿では,マッハ・ツェンダー干渉計(MZI)に結合したWGM共振器について理論的検討を行い,入力状態が区別できない光子対である場合に,バイモーダル同時伝送スペクトルを示す。 これは、干渉計における経路絡み合った状態によって経験される2倍のWGM位相シフトによるものである。 さらに、光子対をコヒーレント状態と比較したWGM共鳴シフト測定のノイズをモデル化する。 信号対雑音比(SNR)の少なくとも4倍の改善が可能であり、量子化WGMセンシングに明確な意味を持つ。

We present a theoretical investigation of a whispering gallery mode (WGM) resonator coupled to a Mach-Zehnder interferometer (MZI) and show a bimodal coincidence transmission spectrum when the input state is an indistinguishable photon pair. This is due to the doubled WGM phase shift experienced by the path-entangled state in the interferometer. Further, we model the noise in a WGM resonance shift measurement comparing photon pairs with a coherent state. At least a four-fold improvement in the signal-to-noise ratio (SNR) is possible, with clear implications for quantum-enhanced WGM sensing.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# アノテーションはJavaコードの可読性にどのように影響しますか?

How do annotations affect Java code readability? ( http://arxiv.org/abs/2404.17417v1 )

ライセンス: Link先を確認
Eduardo Guerra, Everaldo Gomes, Jeferson Ferreira, Igor Wiese, Phyllipe Lima, Marco Gerosa, Paulo Meirelles, (参考訳) コンテキスト: コードアノテーションはプログラミング言語で広く普及し、開発者がカスタムの振る舞いを定義するためにコード要素にメタデータを付加する機能を提供する。 多くのモダンなフレームワークやAPIは、アノテーションを使用して、統合を冗長にし、対応するコード要素に近い位置を維持する。 これらの利点にもかかわらず、実践者の逸話的証拠は、アノテーションがコードの可読性に悪影響を及ぼす可能性を示唆している。 目的: この効果をよりよく理解するために,コードアノテーションとコード可読性との関係を系統的に検討する。 メソッド: ソフトウェア開発者による調査(n=332)では、コードアノテーションなしで15対のJavaコードスニペットを提示します。 これらのペアは、現実世界のJavaフレームワークとAPIで使用されるアノテーションの5つのカテゴリを考慮して設計されました。 調査参加者は、各ペアに対してより読みやすいと思われるコードスニペットを選択し、アノテーションがコードの可読性に与える影響についてオープンな質問に答えた。 結果: アノテーション使用のすべてのカテゴリにおいて, 評価は散在し, 参加者間での合意が得られなかった。 参加者のプログラミングやアノテーション関連の経験から分離しても回答は広まっていた。 それにもかかわらず、一部の参加者は、すべてのカテゴリーで、一貫した好意や、アノテーションに反対する傾向を示しており、これは個人的な好意を示す可能性がある。 オープンエンドの質問に対する質的な分析から、参加者はデザイン、保守性、生産性に影響を及ぼすアノテーションを賞賛することが多いが、理解可能性やコードの明確さについては対照的な見解を示した。 結論: ソフトウェア開発者とAPIデザイナは、アノテーションを使用するかどうかを決める際に、アノテーションがコード可読性に与える影響について、対照的な見解を開発者が表現しているという洞察を備えた結果を検討することができます。

Context: Code annotations have gained widespread popularity in programming languages, offering developers the ability to attach metadata to code elements to define custom behaviors. Many modern frameworks and APIs use annotations to keep integration less verbose and located nearer to the corresponding code element. Despite these advantages, practitioners' anecdotal evidence suggests that annotations might negatively affect code readability. Objective: To better understand this effect, this paper systematically investigates the relationship between code annotations and code readability. Method: In a survey with software developers (n=332), we present 15 pairs of Java code snippets with and without code annotations. These pairs were designed considering five categories of annotation used in real-world Java frameworks and APIs. Survey participants selected the code snippet they considered more readable for each pair and answered an open question about how annotations affect the code's readability. Results: Preferences were scattered for all categories of annotation usage, revealing no consensus among participants. The answers were spread even when segregated by participants' programming or annotation-related experience. Nevertheless, some participants showed a consistent preference in favor or against annotations across all categories, which may indicate a personal preference. Our qualitative analysis of the open-ended questions revealed that participants often praise annotation impacts on design, maintainability, and productivity but expressed contrasting views on understandability and code clarity. Conclusions: Software developers and API designers can consider our results when deciding whether to use annotations, equipped with the insight that developers express contrasting views of the annotations' impact on code readability.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# マルチビュー画像のマルチビュー拡散による3次元生成の高速化

Multi-view Image Prompted Multi-view Diffusion for Improved 3D Generation ( http://arxiv.org/abs/2404.17419v1 )

ライセンス: Link先を確認
Seungwook Kim, Yichun Shi, Kejie Li, Minsu Cho, Peng Wang, (参考訳) 3D生成のプロンプトとして画像を使用することは、テキストプロンプトのみを使用する場合と比較して特に強力なパフォーマンスを示し、画像は3D生成プロセスに対してより直感的なガイダンスを提供する。 本研究では,1つの画像プロンプトではなく,複数の画像プロンプトを使用する可能性を探究する。 具体的には、入力プロンプトとしてマルチビュー画像をサポートするために、新しい画像プロンプト多視点拡散モデルであるImageDreamを構築した。 提案手法はMultiImageDreamと呼ばれ,複数画像のプロンプトから複数画像のプロンプトへの遷移により,様々な定量的評価指標と定性評価に基づいて,多視点・3次元オブジェクト生成の性能が向上することを明らかにする。 この進歩は、事前訓練されたImageDreamマルチビュー拡散モデルを微調整する必要なく達成される。

Using image as prompts for 3D generation demonstrate particularly strong performances compared to using text prompts alone, for images provide a more intuitive guidance for the 3D generation process. In this work, we delve into the potential of using multiple image prompts, instead of a single image prompt, for 3D generation. Specifically, we build on ImageDream, a novel image-prompt multi-view diffusion model, to support multi-view images as the input prompt. Our method, dubbed MultiImageDream, reveals that transitioning from a single-image prompt to multiple-image prompts enhances the performance of multi-view and 3D object generation according to various quantitative evaluation metrics and qualitative assessments. This advancement is achieved without the necessity of fine-tuning the pre-trained ImageDream multi-view diffusion model.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 信頼性の高いノードネットワークの有限鍵セキュリティ

Finite Key Security of Simplified Trusted Node Networks ( http://arxiv.org/abs/2404.17420v1 )

ライセンス: Link先を確認
Walter O. Krawec, Bing Wang, Ryan Brown, (参考訳) 単純化された信頼ノード(STNs)は、量子鍵分布(QKD)ネットワークのための信頼ノードの一種で、全てのインスタンスで完全なQKDスタックを実行する必要がない(つまり、各セッションごとにエラー修正とプライバシの増幅を行う必要がない)。 このようなシステムには、通常のTNよりも弱い計算能力で実装できるという利点がある。 欠点は、耐雑音性が低いことだ。 しかし、様々なシナリオにおいてそれらの適合性をよりよく理解するためには、STNネットワークの実用的な有限キーセキュリティ境界が必要である。 今のところ、理論的な漸近的境界のみが知られている。 本研究では、有限鍵設定におけるSTN鎖の安全性の新たな証明を導出する。 また、通常のTNネットワークと比較して、STNが計算コストの観点から有益であるかどうかを評価できる新しいコスト関数を導出する。

Simplified trusted nodes (STNs) are a form of trusted node for quantum key distribution (QKD) networks which do not require running a full QKD stack every instance (i.e., they do not need to run error correction and privacy amplification each session). Such systems hold the advantage that they may be implemented with weaker computational abilities, than regular TNs, while still keeping up with key generation rate demands. The downside is that noise tolerance is lower. However, to get a better understanding of their suitability in various scenarios, one requires practical, finite-key security bounds for STN networks. So far, only theoretical asymptotic bounds are known. In this work we derive a new proof of security for STN chains in the finite key setting. We also derive a novel cost function allowing us to evaluate when STNs would be beneficial from a computational cost perspective, compared with regular TN networks.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# ワンショット画像復元

One-Shot Image Restoration ( http://arxiv.org/abs/2404.17426v1 )

ライセンス: Link先を確認
Deborah Pereg, (参考訳) 画像処理における逆問題である画像復元は、長い間広く研究されてきたトピックである。 近年,この課題に対処する上で,教師付き学習アプローチが一般的な戦略となっている。 残念ながら、ほとんどの教師付き学習ベースの手法は、計算資源と訓練データ(サンプルの複雑さ)の点で非常に要求が高い。 さらに、訓練されたモデルは、様々な取得システム、信号サンプリングレート、解像度とコントラストなどのドメインの変更に敏感である。 教師付き学習モデルは、ある画像や画像の一部から学習することでのみ、うまく一般化できるだろうか? もしそうなら、許容できる一般化を達成するのに必要な最小限のパッチ量は? この目的のために我々は,単一イメージの入出力ペアを必要とする,効率的なパッチベースの学習フレームワークに焦点をあてる。 提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。 その結果,学習モデルのサンプル効率,一般化,時間複雑性が大幅に向上し,将来のリアルタイムアプリケーションに活用でき,他の信号やモダリティにも応用できることが示唆された。

Image restoration, or inverse problems in image processing, has long been an extensively studied topic. In recent years supervised learning approaches have become a popular strategy attempting to tackle this task. Unfortunately, most supervised learning-based methods are highly demanding in terms of computational resources and training data (sample complexity). In addition, trained models are sensitive to domain changes, such as varying acquisition systems, signal sampling rates, resolution and contrast. In this work, we try to answer a fundamental question: Can supervised learning models generalize well solely by learning from one image or even part of an image? If so, then what is the minimal amount of patches required to achieve acceptable generalization? To this end, we focus on an efficient patch-based learning framework that requires a single image input-output pair for training. Experimental results demonstrate the applicability, robustness and computational efficiency of the proposed approach for supervised image deblurring and super-resolution. Our results showcase significant improvement of learning models' sample efficiency, generalization and time complexity, that can hopefully be leveraged for future real-time applications, and applied to other signals and modalities.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# 物体検出のためのコスト感性不確実性に基づく故障認識

Cost-Sensitive Uncertainty-Based Failure Recognition for Object Detection ( http://arxiv.org/abs/2404.17427v1 )

ライセンス: Link先を確認
Moussa Kassem Sbeyti, Michelle Karg, Christian Wirth, Nadja Klein, Sahin Albayrak, (参考訳) 現実の応用における物体検出器は、気象条件やノイズ入力などの様々な要因により、物体を検知できないことが多い。 したがって、偽検出を緩和するプロセスは、安全性と正確性の両方に不可欠である。 不確実性に基づくしきい値設定は有望であるが、以前の研究は不確実性と検出誤差の間に不完全な相関を示す。 これにより、理想的なしきい値設定が妨げられ、異なるタイプの不確実性による相関と関連するコストのさらなる調査が促される。 そこで本稿では,2種類のエラー,欠落,誤検出に関するユーザ定義予算に合わせて,オブジェクト検出のためのコスト感受性フレームワークを提案する。 性能劣化を防止するための最小限のしきい値要件を導出し、障害認識に対する不確実性の適用性を評価するためのメトリクスを定義します。 さらに,特定予算の故障認識率を最大化するために,しきい値処理の自動化と最適化を行う。 3つの自律走行データセットの評価は、我々のアプローチが特に挑戦的なシナリオにおいて、安全性を大幅に向上させることを示している。 局所化アレタリック不確実性とソフトマックスに基づくエントロピーのみを活用することで,従来の手法と比較して,故障認識率を36~60倍に向上させる。 コードはhttps://mos-ks.github.io/publications.comで公開されている。

Object detectors in real-world applications often fail to detect objects due to varying factors such as weather conditions and noisy input. Therefore, a process that mitigates false detections is crucial for both safety and accuracy. While uncertainty-based thresholding shows promise, previous works demonstrate an imperfect correlation between uncertainty and detection errors. This hinders ideal thresholding, prompting us to further investigate the correlation and associated cost with different types of uncertainty. We therefore propose a cost-sensitive framework for object detection tailored to user-defined budgets on the two types of errors, missing and false detections. We derive minimum thresholding requirements to prevent performance degradation and define metrics to assess the applicability of uncertainty for failure recognition. Furthermore, we automate and optimize the thresholding process to maximize the failure recognition rate w.r.t. the specified budget. Evaluation on three autonomous driving datasets demonstrates that our approach significantly enhances safety, particularly in challenging scenarios. Leveraging localization aleatoric uncertainty and softmax-based entropy only, our method boosts the failure recognition rate by 36-60\% compared to conventional approaches. Code is available at https://mos-ks.github.io/publications.
翻訳日:2024-04-29 13:05:13 公開日:2024-04-26
# ランダム接続行列を用いた線形貯水池の分離容量

Separation capacity of linear reservoirs with random connectivity matrix ( http://arxiv.org/abs/2404.17429v1 )

ライセンス: Link先を確認
Youness Boutaib, (参考訳) 貯水池計算の成功は貯水池の分離能力の内にあると論じ、ランダムな線形貯水池の分離能力は、モーメントの一般化行列のスペクトル分解によって完全に特徴づけられることを示す。 特に興味深いのは、対称的であるか、全ての成分が独立であるガウス行列を持つ貯水池である。 対称的な場合、分離能力は常に時間とともに劣化することが証明され、短い入力では、行列のエントリが$\rho_T/\sqrt{N}$でスケールされると、大きな貯水池との分離が最善である。 i.d.の場合、貯水池行列の成分が1/\sqrt{N}$の正確な係数でスケールされたときに、大きな貯水池との最適分離が一貫して達成されることを確かめる。 さらに、時系列の長さの関数における分離の質について上限を与える。 この分析を補完し、この分離の可能性と、選択したアーキテクチャが分離整合性に与える影響について検討する。

We argue that the success of reservoir computing lies within the separation capacity of the reservoirs and show that the expected separation capacity of random linear reservoirs is fully characterised by the spectral decomposition of an associated generalised matrix of moments. Of particular interest are reservoirs with Gaussian matrices that are either symmetric or whose entries are all independent. In the symmetric case, we prove that the separation capacity always deteriorates with time; while for short inputs, separation with large reservoirs is best achieved when the entries of the matrix are scaled with a factor $\rho_T/\sqrt{N}$, where $N$ is the dimension of the reservoir and $\rho_T$ depends on the maximum length of the input time series. In the i.i.d. case, we establish that optimal separation with large reservoirs is consistently achieved when the entries of the reservoir matrix are scaled with the exact factor $1/\sqrt{N}$. We further give upper bounds on the quality of separation in function of the length of the time series. We complement this analysis with an investigation of the likelihood of this separation and the impact of the chosen architecture on separation consistency.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 量子境界条件の古典的エコー

Classical echoes of quantum boundary conditions ( http://arxiv.org/abs/2404.17430v1 )

ライセンス: Link先を確認
Giuliano Angelone, Paolo Facchi, Marilena Ligabò, (参考訳) 運動エネルギー作用素を自己随伴させる全ての量子境界条件を持つ1次元箱内の非相対論的粒子を考える。 対応する固有関数のウィグナー関数を決定し、高エネルギー状態における古典的極限を詳細に解析する。 量子境界条件は、すべての局所境界条件と正則境界条件が同じ古典境界条件に崩壊するのに対し、特異な非局所境界条件は古典的極限にわずかに持続する。

We consider a non-relativistic particle in a one-dimensional box with all possible quantum boundary conditions that make the kinetic-energy operator selfadjoint. We determine the Wigner functions of the corresponding eigenfunctions and analyze in detail their classical limit in the high-energy regime. We show that the quantum boundary conditions split into two classes: all local and regular boundary conditions collapse to the same classical boundary condition, while singular non-local boundary conditions slightly persist in the classical limit.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 量子情報エンジン: 時間、コスト、パフォーマンスの基準を評価する

Quantum Information Engines: Assessing Time, Cost and Performance Criteria ( http://arxiv.org/abs/2404.17431v1 )

ライセンス: Link先を確認
Henning Kirchberg, Abraham Nitzan, (参考訳) 本研究では,フォン・ノイマン測定モデルを用いた情報エンジン(IE)における計測時間(t_m$),情報ゲイン,エネルギー消費の重要要因について検討した。 これらの重要な測定パラメータは、これらのデバイスの効率と出力を分析することができる。 測定時間が増加するにつれて、情報ゲイン、次いで抽出された作業も増加する。 しかし、それに伴うエネルギーコストの増加がある。 情報を自由エネルギーに変換する効率は、$t_m$が0とinfinityの両方に近づき、$t_m$の中間値がピークとなるにつれて低下する。 出力(時間毎に抽出される作業)も特定の運用時間帯で最大に達する。 性能指標として効率と電力の積を考えることにより、IEの最適動作条件を特定できる。

In this study, we investigate the crucial role of measurement time ($t_m$), information gain and energy consumption in information engines (IEs) utilizing a von-Neumann measurement model. These important measurement parameters allow us to analyze the efficiency and power output of these devices. As the measurement time increases, the information gain and subsequently the extracted work also increase. However, there is a corresponding increase in the energetic cost. The efficiency of converting information into free energy diminishes as $t_m$ approaches both 0 and infinity, peaking at intermediate values of $t_m$. The power output (work extracted per times) also reaches a maximum at specific operational time regimes. By considering the product of efficiency and power as a performance metric, we can identify the optimal operating conditions for the IE.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# PromptCIR: Prompt Learningによるブラインド圧縮画像復元

PromptCIR: Blind Compressed Image Restoration with Prompt Learning ( http://arxiv.org/abs/2404.17433v1 )

ライセンス: Link先を確認
Bingchen Li, Xin Li, Yiting Lu, Ruoyu Feng, Mengxi Guo, Shijie Zhao, Li Zhang, Zhibo Chen, (参考訳) Blind Compressed Image Restoration (CIR) はその実用性から注目されている。 これは、未知の品質要因、特にJPEGコーデックによる圧縮アーティファクトの緩和を目的としている。 ブラインドCIRの既存の作業は、圧縮画像の復元を容易にするために、品質因子予測ネットワークからの助けを求めることが多い。 しかし、予測された数値品質係数は空間情報に欠けており、画像コンテンツに対するネットワーク適応性を妨げている。 近年, 画像修復の進歩により, 様々な劣化タイプや度合いにまたがって, 一般化の可能性が示された。 これにより、様々な圧縮レベルから画像を効果的に復元できるPromptCIRと呼ばれる、素早い学習に基づく圧縮画像復元ネットワークを設計する動機となった。 具体的には、PromptCIRは圧縮情報を暗黙的にエンコードするプロンプトを利用して、画像の特徴から生じるソフトウェイトと直接対話する。 軽量なプロンプトにより,パラメータのオーバーヘッドを最小限に抑えながら,異なる圧縮レベルに適応することができる。 全体としてPromptCIRは、ダイナミックプロンプトモジュールを備えた強力なトランスフォーマーベースのバックボーンを活用してブラインドCIRタスクを巧みに処理し、ブラインド圧縮画像強調トラックのNTIRE 2024チャレンジで1位を獲得した。 提案した PromptCIR の有効性を検証した。 コードはhttps://github.com/lbc12345/PromptCIR-NTIRE24で公開されている。

Blind Compressed Image Restoration (CIR) has garnered significant attention due to its practical applications. It aims to mitigate compression artifacts caused by unknown quality factors, particularly with JPEG codecs. Existing works on blind CIR often seek assistance from a quality factor prediction network to facilitate their network to restore compressed images. However, the predicted numerical quality factor lacks spatial information, preventing network adaptability toward image contents. Recent studies in prompt-learning-based image restoration have showcased the potential of prompts to generalize across varied degradation types and degrees. This motivated us to design a prompt-learning-based compressed image restoration network, dubbed PromptCIR, which can effectively restore images from various compress levels. Specifically, PromptCIR exploits prompts to encode compression information implicitly, where prompts directly interact with soft weights generated from image features, thus providing dynamic content-aware and distortion-aware guidance for the restoration process. The light-weight prompts enable our method to adapt to different compression levels, while introducing minimal parameter overhead. Overall, PromptCIR leverages the powerful transformer-based backbone with the dynamic prompt module to proficiently handle blind CIR tasks, winning first place in the NTIRE 2024 challenge of blind compressed image enhancement track. Extensive experiments have validated the effectiveness of our proposed PromptCIR. The code is available at https://github.com/lbc12345/PromptCIR-NTIRE24.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 階層的不確実性を考慮した協調型マルチエージェント計画システムの実世界展開

Real-World Deployment of a Hierarchical Uncertainty-Aware Collaborative Multiagent Planning System ( http://arxiv.org/abs/2404.17438v1 )

ライセンス: Link先を確認
Martina Stadler Kurtz, Samuel Prentice, Yasmin Veys, Long Quang, Carlos Nieto-Granda, Michael Novitzky, Ethan Stump, Nicholas Roy, (参考訳) 私たちは、協調的なマルチエージェントチームが、現実世界の環境で長いスケールで、不確実性の下でナビゲートできるようにしたいと思っています。 実際には、計画の複雑さは、チーム内のエージェントの数、環境の長さのスケール、環境の不確実性によってスケールする。 抽出可能な計画を実現するには、複雑で高品質な計画を表現する抽象モデルを開発する必要がある。 しかし、そのようなモデルはしばしば、現実世界のエージェントの直接実行可能な計画を生成するのに必要な情報を抽象化する。 本稿では,計画立案者の階層構造を利用して,現実の未知環境において協調的なマルチエージェントナビゲーションタスクを実行する計画システムの展開について述べる。 計画階層のあらゆるレベルで障害に対して堅牢な計画システムを開発することで、不完全な計画抽象化と現実の不確実性が存在する場合でも、チームが協調的なナビゲーションタスクを完了できるようにしました。 私たちはClearpath Husky-Jackalチームに対して,構造化屋外環境をナビゲートするアプローチを展開させた。

We would like to enable a collaborative multiagent team to navigate at long length scales and under uncertainty in real-world environments. In practice, planning complexity scales with the number of agents in the team, with the length scale of the environment, and with environmental uncertainty. Enabling tractable planning requires developing abstract models that can represent complex, high-quality plans. However, such models often abstract away information needed to generate directly-executable plans for real-world agents in real-world environments, as planning in such detail, especially in the presence of real-world uncertainty, would be computationally intractable. In this paper, we describe the deployment of a planning system that used a hierarchy of planners to execute collaborative multiagent navigation tasks in real-world, unknown environments. By developing a planning system that was robust to failures at every level of the planning hierarchy, we enabled the team to complete collaborative navigation tasks, even in the presence of imperfect planning abstractions and real-world uncertainty. We deployed our approach on a Clearpath Husky-Jackal team navigating in a structured outdoor environment, and demonstrated that the system enabled the agents to successfully execute collaborative plans.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# ランダム集合に関するPAC-ベイズ理論によるデータ依存仮説集合上の一様一般化境界

Uniform Generalization Bounds on Data-Dependent Hypothesis Sets via PAC-Bayesian Theory on Random Sets ( http://arxiv.org/abs/2404.17442v1 )

ライセンス: Link先を確認
Benjamin Dupuis, Paul Viallard, George Deligiannidis, Umut Simsekli, (参考訳) PAC-ベイジアンの観点から問題にアプローチすることで、データ依存の一様一般化境界を提案する。 まず「ランダム集合」に関するPAC-Bayesianフレームワークを厳密な方法で適用し、トレーニングアルゴリズムはトレーニングデータを観察した後のデータ依存仮説を出力すると仮定する。 このアプローチにより、多くのコンテキストに適用可能な、データ依存のバウンダリを証明できます。 このアプローチのパワーを強調するために、我々は2つの主要な応用を検討します。 まず、最近開発されたフラクタル次元に基づく一般化境界のPAC-ベイジアン定式化を提案する。 得られた結果はより厳密であることが示され、1つの簡単な証明手法で既存の結果を統一する。 第二に、連続ランゲヴィン力学と確率勾配ランゲヴィン力学の軌道上の一様境界を証明する。 これらの結果は、ノイズアルゴリズムの一般化特性に関する新しい情報を提供する。

We propose data-dependent uniform generalization bounds by approaching the problem from a PAC-Bayesian perspective. We first apply the PAC-Bayesian framework on `random sets' in a rigorous way, where the training algorithm is assumed to output a data-dependent hypothesis set after observing the training data. This approach allows us to prove data-dependent bounds, which can be applicable in numerous contexts. To highlight the power of our approach, we consider two main applications. First, we propose a PAC-Bayesian formulation of the recently developed fractal-dimension-based generalization bounds. The derived results are shown to be tighter and they unify the existing results around one simple proof technique. Second, we prove uniform bounds over the trajectories of continuous Langevin dynamics and stochastic gradient Langevin dynamics. These results provide novel information about the generalization properties of noisy algorithms.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# ChatGPTは、誰にでも取って代わるのではなく助ける」-CSコースにおけるChatGPTの統合に対する学生の意見の評価

"ChatGPT Is Here to Help, Not to Replace Anybody" -- An Evaluation of Students' Opinions On Integrating ChatGPT In CS Courses ( http://arxiv.org/abs/2404.17443v1 )

ライセンス: Link先を確認
Bruno Pereira Cipriano, Pedro Alves, (参考訳) GPTやBardのような大規模言語モデル(LLM)は、テキスト記述に基づいたコードを生成することができる。 このような技術は、コンピュータ教育に深く影響し、不正行為や過度な依存、計算思考能力の低下などへの懸念を高めます。 教師がこの課題にどう対処すべきかについて、幅広い研究がなされてきたが、学生がこのパラダイムシフトに対してどのように感じているかを理解することも重要である。 本研究は,52人のCS学生を対象に,学術的・専門的な視点から,コード生成能力を有する技術に対する視点を評価するために調査を行った。 以上の結果から,学生はGPTの学術的利用を好んではいるものの,その支援を軽度に求めているに過ぎないことが示唆された。 ほとんどの学生はGPTの恩恵を受けているが、特定のGPTトレーニングの必要性を訴える学生もいる。 GPTの職業的生活への影響に対する意見は異なるが、学術的実践におけるその重要性には意見の一致がある。

Large Language Models (LLMs) like GPT and Bard are capable of producing code based on textual descriptions, with remarkable efficacy. Such technology will have profound implications for computing education, raising concerns about cheating, excessive dependence, and a decline in computational thinking skills, among others. There has been extensive research on how teachers should handle this challenge but it is also important to understand how students feel about this paradigm shift. In this research, 52 first-year CS students were surveyed in order to assess their views on technologies with code-generation capabilities, both from academic and professional perspectives. Our findings indicate that while students generally favor the academic use of GPT, they don't over rely on it, only mildly asking for its help. Although most students benefit from GPT, some struggle to use it effectively, urging the need for specific GPT training. Opinions on GPT's impact on their professional lives vary, but there is a consensus on its importance in academic practice.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# コールドRydberg原子を用いたトラップロス分光に基づくマイクロ波場のメトロロジー

Metrology of microwave fields based on trap-loss spectroscopy with cold Rydberg atoms ( http://arxiv.org/abs/2404.17445v1 )

ライセンス: Link先を確認
Romain Duverger, Alexis Bonnin, Romain Granier, Quentin Marolleau, Cédric Blanchard, Nassim Zahzam, Yannick Bidel, Malo Cadoret, Alexandre Bresson, Sylvain Schwartz, (参考訳) 磁気光学トラップにおけるコールド・ライドバーグ原子のトラップロス分光に基づくマイクロ波場のメトロジーの新しいアプローチを示す。 室温蒸気を用いた最先端のセンサーと比較すると、コールド原子は相互作用時間が長く、環境からの隔離性が良く、ドップラー効果が低下する。 検出は蛍光測定のみに依存するため,本手法は特に単純である。 さらに, マイクロ波の振幅と周波数を外部基準場を必要とせずに同時に再構成することが可能である。 我々は,2時間以上のドリフトを伴わないスケール係数の線形性について報告し,最先端の光学時計におけるブラックボディシフトの校正,宇宙からの地球低温圏の監視,宇宙マイクロ波背景の測定,ダークマターの探索など,気象学におけるコールド・ライドバーグ原子の新しい応用への道を開いた。

We demonstrate a new approach for the metrology of microwave fields based on the trap-loss-spectroscopy of cold Rydberg atoms in a magneto-optical trap. Compared to state-of-the-art sensors using room-temperature vapors, cold atoms allow longer interaction times, better isolation from the environment and a reduced Doppler effect. Our approach is particularly simple as the detection relies on fluorescence measurements only. Moreover, our signal is well described by a two-level model across a broad measurement range, allowing in principle to reconstruct the amplitude and the frequency of the microwave field simultaneously without the need for an external reference field. We report on a scale factor linearity at the percent level and no noticeable drifts over two hours, paving the way for new applications of cold Rydberg atoms in metrology such as calibrating blackbody shifts in state-of-the-art optical clocks, monitoring the Earth cryosphere from space, measuring the cosmic microwave background or searching for dark matter.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# エネルギー遮断を伴う量子クォート振動子のスパイラル流

Spiral flow of quantum quartic oscillator with energy cutoff ( http://arxiv.org/abs/2404.17446v1 )

ライセンス: Link先を確認
M. Girguś, S. D. Głazek, (参考訳) 量子クォート振動子の理論は、有限サイズの行列を対角化することにより、ハミルトンの最小固有値と対応する固有状態を近似するために、システムに課すエネルギー遮断に密接に注意して展開される。 行列は、関連する調和振動子固有状態間のハミルトニアンの行列要素を評価し、Wilsonian renormalization-group procedure を用いて計算された行列を補正してその有限次元を補うことによって得られる。 補正行列のカットオフ依存性は三次元ベクトルのスパイラル運動によって説明できる。 この振舞いは、極限サイクルと浮動小数点挙動の組み合わせによって引き起こされる。 4次以上の多項式相互作用の正規化に関する研究の方向性について、凝縮物質と量子場理論で知られている近傍のカップリングを通して、1つ以上の発振子の自発的対称性の破れとカップリングについて、簡単な議論がなされている。

Theory of the quantum quartic oscillator is developed with close attention to the energy cutoff one needs to impose on the system in order to approximate the smallest eigenvalues and corresponding eigenstates of its Hamiltonian by diagonalizing matrices of limited size. The matrices are obtained by evaluating matrix elements of the Hamiltonian between the associated harmonic-oscillator eigenstates and by correcting the computed matrices to compensate for their limited dimension, using the Wilsonian renormalization-group procedure. The cutoff dependence of the corrected matrices is found to be described by a spiral motion of a three-dimensional vector. This behavior is shown to result from a combination of a limit-cycle and a floating fixed-point behaviors, a distinct feature of the foundational quantum system that warrants further study. A brief discussion of the research directions concerning renormalization of polynomial interactions of degree higher than four, spontaneous symmetry breaking and coupling of more than one oscillator through the near neighbor couplings known in condensed matter and quantum field theory, is included.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 短期電力需要の非定常確率予測

Any-Quantile Probabilistic Forecasting of Short-Term Electricity Demand ( http://arxiv.org/abs/2404.17451v1 )

ライセンス: Link先を確認
Slawek Smyl, Boris N. Oreshkin, Paweł Pełka, Grzegorz Dudek, (参考訳) 電力システムは、決定論的に説明できない複数の要因から生じる不確実性の下で運用される。 分布予測は、この不確実性に関連するリスクを制御・緩和するために用いられる。 近年のディープラーニングの進歩は点予測の精度を大幅に向上させるのに役立っているが、正確な分布予測は依然として重要な課題である。 本稿では,任意の量子を予測できる分布予測手法を提案する。 我々の一般的なアプローチは、短期的な電力需要予測タスクの文脈において、最先端の分散予測結果につながる2つの異なるニューラルネットワークアーキテクチャにシームレスに適用可能であることを示す。 ヨーロッパ諸国の電力需要の35時間時系列を実証的に検証した。 私たちのコードは、https://github.com/boreshkinai/any-quantile.comで利用可能です。

Power systems operate under uncertainty originating from multiple factors that are impossible to account for deterministically. Distributional forecasting is used to control and mitigate risks associated with this uncertainty. Recent progress in deep learning has helped to significantly improve the accuracy of point forecasts, while accurate distributional forecasting still presents a significant challenge. In this paper, we propose a novel general approach for distributional forecasting capable of predicting arbitrary quantiles. We show that our general approach can be seamlessly applied to two distinct neural architectures leading to the state-of-the-art distributional forecasting results in the context of short-term electricity demand forecasting task. We empirically validate our method on 35 hourly electricity demand time-series for European countries. Our code is available here: https://github.com/boreshkinai/any-quantile.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 離散ベイズ最適化のための連続緩和法

A Continuous Relaxation for Discrete Bayesian Optimization ( http://arxiv.org/abs/2404.17452v1 )

ライセンス: Link先を確認
Richard Michael, Simon Bartels, Miguel González-Duque, Yevgen Zainchkovskyy, Jes Frellsen, Søren Hauberg, Wouter Boomsma, (参考訳) 離散データに対して効率よく最適化し、利用可能な目標観測を少なく抑えることがベイズ最適化の課題である。 目的関数の連続的な緩和を提案し、推論と最適化が計算的に抽出可能であることを示す。 特に,生物化学的特性を評価するためにタンパク質配列を最適化することで,極めて少ない観測と厳格な予算が存在する最適化領域を考える。 この手法の利点は2つある:問題は連続的な設定で扱われ、シーケンス上の事前知識を直接組み込むことができる。 より具体的には、問題領域上の可利用分布と学習分布を、共分散関数を生成するヘルリンガー距離の重み付けに利用する。 得られた取得関数は, 連続的あるいは離散的な最適化アルゴリズムを用いて最適化し, 2つの生物化学的シーケンス最適化タスクにおいて, 実験的に評価できることを示す。

To optimize efficiently over discrete data and with only few available target observations is a challenge in Bayesian optimization. We propose a continuous relaxation of the objective function and show that inference and optimization can be computationally tractable. We consider in particular the optimization domain where very few observations and strict budgets exist; motivated by optimizing protein sequences for expensive to evaluate bio-chemical properties. The advantages of our approach are two-fold: the problem is treated in the continuous setting, and available prior knowledge over sequences can be incorporated directly. More specifically, we utilize available and learned distributions over the problem domain for a weighting of the Hellinger distance which yields a covariance function. We show that the resulting acquisition function can be optimized with both continuous or discrete optimization algorithms and empirically assess our method on two bio-chemical sequence optimization tasks.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 単一セルシークエンシングデータのドメイン適応的・きめ細かい異常検出

Domain Adaptive and Fine-grained Anomaly Detection for Single-cell Sequencing Data and Beyond ( http://arxiv.org/abs/2404.17454v1 )

ライセンス: Link先を確認
Kaichen Xu, Yueyang Ding, Suyang Hou, Weiqiang Zhan, Nisang Chen, Jun Wang, Xiaobo Sun, (参考訳) 臨床診断と病理研究において, 病変組織からの顆粒状異常細胞の検出が重要である。 シングルセルシークエンシングデータは、このタスクに前例のない機会を提供する。 しかし、現在の異常検出手法は、マルチサンプルとマルチドメインの単一セルシークエンシングデータでよく見られるドメインシフトの処理に苦慮し、亜最適性能をもたらす。 さらに、これらの手法は異常細胞を病理学的に異なるサブタイプに区別することができない。 そこで本研究では, 異常細胞の検出, ドメイン適応, 微粒化アノテートを方法論的に結合したワークフローに統合する新規な再構成偏差誘導型生成フレームワーク ACSleuth を提案する。 特に、生成モデルにより出力される再構成偏差をドメインシフトの代わりに異常検出に利用した最初の理論的解析について述べる。 この分析により, ACSleuth における新規かつ優れた平均誤差に基づく異常スコアリングの開発が可能となった。 様々な単一セルデータやその他の表型データに対する広範囲なベンチマークは、マルチサンプルおよびマルチドメインコンテキストにおける異常の特定とサブタイピングにおいて、最先端の手法よりもACSleuthの方が優れていることを示している。 私たちのコードはhttps://github.com/Catchxu/ACsleuth.comで公開されています。

Fined-grained anomalous cell detection from affected tissues is critical for clinical diagnosis and pathological research. Single-cell sequencing data provide unprecedented opportunities for this task. However, current anomaly detection methods struggle to handle domain shifts prevalent in multi-sample and multi-domain single-cell sequencing data, leading to suboptimal performance. Moreover, these methods fall short of distinguishing anomalous cells into pathologically distinct subtypes. In response, we propose ACSleuth, a novel, reconstruction deviation-guided generative framework that integrates the detection, domain adaptation, and fine-grained annotating of anomalous cells into a methodologically cohesive workflow. Notably, we present the first theoretical analysis of using reconstruction deviations output by generative models for anomaly detection in lieu of domain shifts. This analysis informs us to develop a novel and superior maximum mean discrepancy-based anomaly scorer in ACSleuth. Extensive benchmarks over various single-cell data and other types of tabular data demonstrate ACSleuth's superiority over the state-of-the-art methods in identifying and subtyping anomalies in multi-sample and multi-domain contexts. Our code is available at https://github.com/Catchxu/ACsleuth.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# ANNにおける残差の明示的モデリングによる高性能・低レイテンシSNNの変換

Converting High-Performance and Low-Latency SNNs through Explicit Modelling of Residual Error in ANNs ( http://arxiv.org/abs/2404.17456v1 )

ライセンス: Link先を確認
Zhipeng Huang, Jianhao Ding, Zhiyu Pan, Haoran Li, Ying Fang, Zhaofei Yu, Jian K. Liu, (参考訳) スパイキングニューラルネットワーク(SNN)は、従来の人工ニューラルネットワーク(ANN)と比較して、エネルギー効率とニューロモルフィックチップの優れた有効性のために関心を集めている。 ディープSNNの実装における主要なアプローチの1つは、ANNの効率的なトレーニング戦略とSNNの省エネポテンシャルと高速推論能力を統合するANN-SNN変換である。 しかし、極端に低遅延条件下では、既存の変換理論は、SNNの残留膜電位の誤表現の問題、すなわち、リセット・バイ・サブトラクション機構を持つIFニューロンが残留膜電位に反応できないことが、元のANNと比較して変換されたSNNの性能差をもたらすことを示唆している。 これにより、遅延感度エッジデバイスにSNNを実用的に適用する可能性を大幅に制限する。 この問題に対処する既存の変換方法は、通常、変換スパイクニューロンの状態を変更することである。 しかし、これらの手法はニューロモルフィックチップへの適応性と適合性を考慮していない。 本稿では,残差を付加雑音として明示的にモデル化した新しい手法を提案する。 音源ANNの活性化機能にノイズを組み込み、残差を効果的に低減する。 CIFAR10/100データセットを用いた実験により,提案手法がANN-SNN変換法とSNNを直接訓練し,精度と必要な時間ステップについて検証した。 提案手法は,超低レイテンシ条件下でのSNN性能向上のための新しいアイデアを提供するとともに,さらなる発展に向けた実用的なニューロモルフィックハードウェア応用を促進することが期待されている。

Spiking neural networks (SNNs) have garnered interest due to their energy efficiency and superior effectiveness on neuromorphic chips compared with traditional artificial neural networks (ANNs). One of the mainstream approaches to implementing deep SNNs is the ANN-SNN conversion, which integrates the efficient training strategy of ANNs with the energy-saving potential and fast inference capability of SNNs. However, under extreme low-latency conditions, the existing conversion theory suggests that the problem of misrepresentation of residual membrane potentials in SNNs, i.e., the inability of IF neurons with a reset-by-subtraction mechanism to respond to residual membrane potentials beyond the range from resting potential to threshold, leads to a performance gap in the converted SNNs compared to the original ANNs. This severely limits the possibility of practical application of SNNs on delay-sensitive edge devices. Existing conversion methods addressing this problem usually involve modifying the state of the conversion spiking neurons. However, these methods do not consider their adaptability and compatibility with neuromorphic chips. We propose a new approach based on explicit modeling of residual errors as additive noise. The noise is incorporated into the activation function of the source ANN, which effectively reduces the residual error. Our experiments on the CIFAR10/100 dataset verify that our approach exceeds the prevailing ANN-SNN conversion methods and directly trained SNNs concerning accuracy and the required time steps. Overall, our method provides new ideas for improving SNN performance under ultra-low-latency conditions and is expected to promote practical neuromorphic hardware applications for further development.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# Ruffle&Riley: 大規模言語モデルに基づく会話学習システムの設計と評価から

Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational Tutoring System ( http://arxiv.org/abs/2404.17460v1 )

ライセンス: Link先を確認
Robin Schmucker, Meng Xia, Amos Azaria, Tom Mitchell, (参考訳) 会話学習システム(CTS)は、自然言語に基づく対話を通じて学習体験を提供する。 認知的エンゲージメントを促進し、特に推論タスクにおいて学習結果を改善することが認められている。 それにもかかわらず、CTSコンテンツのオーサリングに伴うコストは、広く普及し、効果的な教育設計を研究する上で大きな障害となる。 本稿では,大規模言語モデル(LLM)の最近の進歩を活用する新しいタイプのCTSについて,2つの方法で論じ,評価する。 第2に、このシステムは、学生と教授として働く2つのLCMベースのエージェント(Ruffle&Riley)を介して、学習教育形式のスクリプトオーケストレーションを自動化する。 このシステムは、ITSの典型的な内ループ構造と外ループ構造に従う自由形式の会話を可能にする。 我々は,Ruffle&Rileyの2つのオンラインユーザ研究(N=200)における生物学の授業を支援する能力を評価し,より簡単なQAチャットボットと読書活動と比較した。 システム利用パターン、テスト前/テスト後のスコア、ユーザエクスペリエンス調査を分析してみると、Ruffle&Rileyのユーザは、提供されたサポートを役に立ち、高いレベルのエンゲージメント、理解、知覚を報告している。 Ruffle&Rileyのユーザは、アクティビティを完了するのにより多くの時間を必要とするが、読み込みアクティビティよりも短期学習の方が大きな違いは見つからなかった。 システムアーキテクチャとユーザスタディは、将来のCTSの設計者に様々な洞察を与えます。 また,LLMに基づく学習技術の効果的な教育設計に関する継続的な研究を支援するために,我々のシステムをオープンソースとして公開する。

Conversational tutoring systems (CTSs) offer learning experiences through interactions based on natural language. They are recognized for promoting cognitive engagement and improving learning outcomes, especially in reasoning tasks. Nonetheless, the cost associated with authoring CTS content is a major obstacle to widespread adoption and to research on effective instructional design. In this paper, we discuss and evaluate a novel type of CTS that leverages recent advances in large language models (LLMs) in two ways: First, the system enables AI-assisted content authoring by inducing an easily editable tutoring script automatically from a lesson text. Second, the system automates the script orchestration in a learning-by-teaching format via two LLM-based agents (Ruffle&Riley) acting as a student and a professor. The system allows for free-form conversations that follow the ITS-typical inner and outer loop structure. We evaluate Ruffle&Riley's ability to support biology lessons in two between-subject online user studies (N = 200) comparing the system to simpler QA chatbots and reading activity. Analyzing system usage patterns, pre/post-test scores and user experience surveys, we find that Ruffle&Riley users report high levels of engagement, understanding and perceive the offered support as helpful. Even though Ruffle&Riley users require more time to complete the activity, we did not find significant differences in short-term learning gains over the reading activity. Our system architecture and user study provide various insights for designers of future CTSs. We further open-source our system to support ongoing research on effective instructional design of LLM-based learning technologies.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# ニューラルネットワークの多層ランダム特性と近似パワー

Multi-layer random features and the approximation power of neural networks ( http://arxiv.org/abs/2404.17461v1 )

ライセンス: Link先を確認
Rustem Takhanov, (参考訳) 無限幅制限でランダムに初期化された重みを持つニューラルネットワークアーキテクチャは、共分散関数がいわゆるニューラル・ニューラルネットワーク・ガウス・プロセス・カーネル(NNGP)であるガウスランダム場と等価である。 NNGPによって定義される再生カーネルヒルベルト空間(RKHS)は、アーキテクチャによって近似できる関数のみを含むことを証明している。 特定の近似誤差を達成するために、各層における所要のニューロン数は、目標関数のRKHSノルムによって定義される。 さらに、この近似は、最終層の重みのトレーニングとともに、入力ベクトルのランダムな多層表現によって教師付きデータセットから構築することができる。 2層NNと${\mathbb R}^n$の次元球面に等しい領域に対して、バロンの定理と多層特徴構成によって要求されるニューロンの数を比較する。 NNGP の積分作用素の固有値が $k^{-n-\frac{2}{3}}$ よりも遅く、$k$ が固有値の順序であれば、この定理はバロンの定理よりも簡潔なニューラルネットワーク近似を保証する。 また、理論的な結果を検証するために、いくつかの計算実験を行っている。 実験の結果,両定理が保証を与えなくても,現実的なニューラルネットワークは容易に対象関数を学習できることがわかった。

A neural architecture with randomly initialized weights, in the infinite width limit, is equivalent to a Gaussian Random Field whose covariance function is the so-called Neural Network Gaussian Process kernel (NNGP). We prove that a reproducing kernel Hilbert space (RKHS) defined by the NNGP contains only functions that can be approximated by the architecture. To achieve a certain approximation error the required number of neurons in each layer is defined by the RKHS norm of the target function. Moreover, the approximation can be constructed from a supervised dataset by a random multi-layer representation of an input vector, together with training of the last layer's weights. For a 2-layer NN and a domain equal to an $n-1$-dimensional sphere in ${\mathbb R}^n$, we compare the number of neurons required by Barron's theorem and by the multi-layer features construction. We show that if eigenvalues of the integral operator of the NNGP decay slower than $k^{-n-\frac{2}{3}}$ where $k$ is an order of an eigenvalue, then our theorem guarantees a more succinct neural network approximation than Barron's theorem. We also make some computational experiments to verify our theoretical findings. Our experiments show that realistic neural networks easily learn target functions even when both theorems do not give any guarantees.
翻訳日:2024-04-29 12:55:05 公開日:2024-04-26
# 不均一輝度を持つ2つの非コヒーレント光源の超解像イメージング

Superresolution imaging of two incoherent optical sources with unequal brightnesses ( http://arxiv.org/abs/2404.17463v1 )

ライセンス: Link先を確認
Jian-Dong Zhang, Yiwen Fu, Lili Hou, Shuai Wang, (参考訳) 高精度で2つの非コヒーレントな光源の分離を解消することは、蛍光イメージングと天文学的な観測において非常に重要である。 本稿では,2つの光源の輝度が等しくない,より一般的なシナリオに焦点をあてる。 我々は、量子フィッシャー情報を用いて、分離に関する最終的な精度限界を与える。 従来のフィッシャー情報の計算を通じて,直接測定,ガウスモード計測,ゼロ光子計測など,いくつかの具体的な計測手法を解析・比較する。 その結果、ガウスモードの測定は小さな分離にほぼ最適であることが示唆された。 我々の研究は、非コヒーレントソースの超分解能イメージングの側面を肯定的に補完するものである。

Resolving the separation between two incoherent optical sources with high precision is of great significance for fluorescence imaging and astronomical observations. In this paper, we focus on a more general scenario where two sources have unequal brightnesses. We give the ultimate precision limit with respect to separation by using the quantum Fisher information. Through the calculation of the classical Fisher information, we analyze and compare several specific measurement schemes including direct measurement, Gaussian mode measurement and zero-photon measurement. The results indicate that Gaussian mode measurement is the nearly optimal for a small separation. Our work provides a positive complement to the aspect of superresolution imaging of incoherent sources.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 生存モデルに対するベイズ連邦推論

Bayesian Federated Inference for Survival Models ( http://arxiv.org/abs/2404.17464v1 )

ライセンス: Link先を確認
Hassan Pazira, Emanuele Massa, Jetty AM Weijers, Anthony CC Coolen, Marianne A Jonker, (参考訳) がん研究において、全体的な生存と進行の自由生存は、しばしばコックスモデルで分析される。 モデル内のパラメータを正確に見積もるためには、十分なデータ、さらに重要なことは、十分なイベントを観測する必要がある。 実際には、これはしばしば問題です。 異なる医療センターのデータセットをマージすることは役に立つかもしれないが、厳格なプライバシー法とロジスティックな困難のために、これは必ずしも可能ではない。 近年,一般化線形モデルに対するベイズ連邦推論(BFI)戦略が提案されている。 この戦略により、データを収集した(または保存した)ローカルセンターで統計分析を行い、推測結果のみを単一の推定モデルに組み合わせる。 BFIの手法は、分析が統合されたデータセットに基づいていた場合の、局所的な中心における別の推論結果から得られるものを計算することを目的としている。 本稿では,一般線形モデルから生存モデルへのBFI手法の一般化について述べる。 シミュレーション研究と実データ解析は優れた性能を示し、すなわち、BFI法で得られた結果は、合併したデータを解析した結果と非常によく似ている。 分析を行うためのRパッケージが利用可能だ。

In cancer research, overall survival and progression free survival are often analyzed with the Cox model. To estimate accurately the parameters in the model, sufficient data and, more importantly, sufficient events need to be observed. In practice, this is often a problem. Merging data sets from different medical centers may help, but this is not always possible due to strict privacy legislation and logistic difficulties. Recently, the Bayesian Federated Inference (BFI) strategy for generalized linear models was proposed. With this strategy the statistical analyses are performed in the local centers where the data were collected (or stored) and only the inference results are combined to a single estimated model; merging data is not necessary. The BFI methodology aims to compute from the separate inference results in the local centers what would have been obtained if the analysis had been based on the merged data sets. In this paper we generalize the BFI methodology as initially developed for generalized linear models to survival models. Simulation studies and real data analyses show excellent performance; i.e., the results obtained with the BFI methodology are very similar to the results obtained by analyzing the merged data. An R package for doing the analyses is available.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference

Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference ( http://arxiv.org/abs/2404.17465v1 )

ライセンス: Link先を確認
Simona Bernardi, Tommaso Zoppi, (参考訳) Fast Abstractsトラックの目標は、研究者や実践者が信頼性の高いコンピューティングに取り組むことで、進捗や意見の断片について議論することである。 学業や産業界からの貢献を歓迎する。 Fast Abstractsは、迅速で柔軟なメカニズムとして機能することを目指している。 一 完了又は未完了の可能性のある現在の業務の報告 (二)地域社会に新しい考えを導入すること。 三 物議を醸す問題又は公開問題に関する国家の立場 四 実語信頼性工学から学んだ教訓の共有 五 反表示に基づく他の書類による取消し又は質問結果 学生フォーラムは、学生が自分の仕事を発表し、議論し、他の学生、研究者、産業とアイデアと経験を交換できる活気ある友好的な環境を作ることを目標としている。 このフォーラムの重要な目標の1つは、将来の研究の方向性に役立つであろう予備的な結果について学生にフィードバックを提供することである。

The goal of the Fast Abstracts track is to bring together researchers and practitioners working on dependable computing to discuss work in progress or opinion pieces. Contributions are welcome from academia and industry. Fast Abstracts aim to serve as a rapid and flexible mechanism to: (i) Report on current work that may or may not be complete; (ii) Introduce new ideas to the community; (iii) State positions on controversial issues or open problems; (iv) Share lessons learnt from real-word dependability engineering; and (v) Debunk or question results from other papers based on contra-indications. The Student Forum aims at creating a vibrant and friendly environment where students can present and discuss their work, and exchange ideas and experiences with other students, researchers and industry. One of the key goals of the Forum is to provide students with feedback on their preliminary results that might help with their future research directions.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# FTL: ディープニューラルネットワークを用いた低次元埋め込みにおける非線形プラズマ動的遷移の伝達学習

FTL: Transfer Learning Nonlinear Plasma Dynamic Transitions in Low Dimensional Embeddings via Deep Neural Networks ( http://arxiv.org/abs/2404.17466v1 )

ライセンス: Link先を確認
Zhe Bai, Xishuo Wei, William Tang, Leonid Oliker, Zhihong Lin, Samuel Williams, (参考訳) 深層学習アルゴリズムは、核融合プラズマシステムのような高次元の動的挙動を研究するための新しいパラダイムを提供する。 プラズマ物理による異常モードの検出と組み合わせた新しいモデル縮小手法の開発は、リアルタイム制御のためのプラズマ不安定性を特定するための効率的なモデルを構築するためのユニークな機会を開く。 我々のFusion Transfer Learning (FTL) モデルは, 限られた非線形シミュレーションデータから学習することで, 非線形キンクモード構造を再構築することに成功した。 知識伝達プロセスは、線形シミュレーションに基づいて訓練された事前訓練されたニューラルエンコーダデコーダネットワークを利用して、非線形ダイナミクスを効果的に捉える。 低次元埋め込みは、複素系の固有の力学を保ちながら、利害のコヒーレントな構造を抽出する。 実験結果は、FTLがプラズマ力学の遷移挙動や動的特徴を捉える能力を強調している。 本研究で開発されたモデルは一般化可能であり, 様々な磁気流体力学(MHD)モードに対処するために伝達学習により広範囲に拡張することができる。

Deep learning algorithms provide a new paradigm to study high-dimensional dynamical behaviors, such as those in fusion plasma systems. Development of novel model reduction methods, coupled with detection of abnormal modes with plasma physics, opens a unique opportunity for building efficient models to identify plasma instabilities for real-time control. Our Fusion Transfer Learning (FTL) model demonstrates success in reconstructing nonlinear kink mode structures by learning from a limited amount of nonlinear simulation data. The knowledge transfer process leverages a pre-trained neural encoder-decoder network, initially trained on linear simulations, to effectively capture nonlinear dynamics. The low-dimensional embeddings extract the coherent structures of interest, while preserving the inherent dynamics of the complex system. Experimental results highlight FTL's capacity to capture transitional behaviors and dynamical features in plasma dynamics -- a task often challenging for conventional methods. The model developed in this study is generalizable and can be extended broadly through transfer learning to address various magnetohydrodynamics (MHD) modes.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# CEval: 対実テキスト生成の評価ベンチマーク

CEval: A Benchmark for Evaluating Counterfactual Text Generation ( http://arxiv.org/abs/2404.17475v1 )

ライセンス: Link先を確認
Van Bach Nguyen, Jörg Schlötterer, Christin Seifert, (参考訳) 偽造テキスト生成は、テキストを最小限に変更することを目的としており、異なる分類がなされている。 対実テキスト生成のための手法開発における判断の進歩は、関連する作業におけるデータセットとメトリクスの統一的使用によって妨げられる。 本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。 CEvalは、ヒューマンアノテーション、標準ベースライン(MICE、GDBA、CREST)、オープンソースの言語モデルであるLAMA-2を含む、反ファクトおよびテキスト品質のメトリクスを統一する。 我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。 反ファクトの指標で優れた手法は、しばしば低品質のテキストを生成するが、単純なプロンプトを持つLCMは高品質のテキストを生成するが、反ファクトの基準に苦しむ。 CEvalをオープンソースPythonライブラリとして利用可能にすることで、コミュニティはより多くのメソッドを提供し、今後の作業で一貫した評価を維持することを奨励します。

Counterfactual text generation aims to minimally change a text, such that it is classified differently. Judging advancements in method development for counterfactual text generation is hindered by a non-uniform usage of data sets and metrics in related work. We propose CEval, a benchmark for comparing counterfactual text generation methods. CEval unifies counterfactual and text quality metrics, includes common counterfactual datasets with human annotations, standard baselines (MICE, GDBA, CREST) and the open-source language model LLAMA-2. Our experiments found no perfect method for generating counterfactual text. Methods that excel at counterfactual metrics often produce lower-quality text while LLMs with simple prompts generate high-quality text but struggle with counterfactual criteria. By making CEval available as an open-source Python library, we encourage the community to contribute more methods and maintain consistent evaluation in future work.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 2量子Mølmer-Sørensenゲートの補正公式

Correction formulas for the two-qubit Mølmer-Sørensen gate ( http://arxiv.org/abs/2404.17478v1 )

ライセンス: Link先を確認
Susanna Kirchhoff, Frank K. Wilhelm, Felix Motzoi, (参考訳) M{\o}lmer-S{\o}rensenゲートは、イオンプラットフォームに広く使われているエンタングリングゲートであり、加熱をトラップするために本質的に堅牢である。 ゲート性能は、Lamb-Dicke (LD)近似とサイドバンド誤差から生じるコヒーレントエラーによって制限される。 そこで我々は,Magnus拡張を用いて,LDパラメータの最大4次誤差の明示的な解析式を提供する。 第4次マグナス拡大項は、実際にはLDにおいて第1次であり、典型的ターゲットゲート忠実度に含めることが重要であることを示す。 本研究では, 駆動強度の解析的再正規化, Lamb-Dickeパラメータの校正, 滑らかなパルス整形により, これらの誤差を部分的に補償できることを示す。

The M{\o}lmer-S{\o}rensen gate is a widely used entangling gate for ion platforms with inherent robustness to trap heating. The gate performance is limited by coherent errors, arising from the Lamb-Dicke (LD) approximation and sideband errors. Here, we provide explicit analytical formulas for errors up to fourth order in the LD parameter, by using the Magnus expansion to match numerical precision. We show that fourth order Magnus expansion terms are unavoidable, being in fact leading order in LD, and are therefore critical to include for typical target gate fidelities. We show how these errors can be partially compensated using analytical renormalization of the drive strength, by calibration of the Lamb-Dicke parameter, and by the use of smooth pulse shaping.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# ReproHum #0087-01: Human Evaluation Re production Report for Generating Fact Checking Explanations

ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations ( http://arxiv.org/abs/2404.17481v1 )

ライセンス: Link先を確認
Tyler Loakman, Chenghua Lin, (参考訳) 本稿では、ReproNLP共有タスクのReproHum要素の一部として、Anatanasova et al (2020)によるFact Checking Explanationsの生成の一部を再現し、人間の評価に関するNLP研究の成果を再現する。 この共有タスクは、フィールドとしてのNLPが、時間とともに多かれ少なかれ再現可能であるかを調べることを目的としている。 タスクオーガナイザと原作者の指示に従えば,40入力に対して3つのファクトチェック説明(ゴールド標準と2モデルのアウトプットを含む)の相対的なランキングを,カバレッジの基準に基づいて収集する。 原著の原著の再現と再分析の結果は,原著と原著の再現に類似したパターンを呈し,原著の原著の原著の発見を裏付けるものである。 結果から若干の変動が見られたが,本研究の結果は,提案モデルの有効性に関する原著者の結論を裏付けるものである。

This paper presents a partial reproduction of Generating Fact Checking Explanations by Anatanasova et al (2020) as part of the ReproHum element of the ReproNLP shared task to reproduce the findings of NLP research regarding human evaluation. This shared task aims to investigate the extent to which NLP as a field is becoming more or less reproducible over time. Following the instructions provided by the task organisers and the original authors, we collect relative rankings of 3 fact-checking explanations (comprising a gold standard and the outputs of 2 models) for 40 inputs on the criteria of Coverage. The results of our reproduction and reanalysis of the original work's raw results lend support to the original findings, with similar patterns seen between the original work and our reproduction. Whilst we observe slight variation from the original results, our findings support the main conclusions drawn by the original authors pertaining to the efficacy of their proposed models.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 高次元不均一処理効果評価のためのPareto-Smoothed Weighting

Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2404.17483v1 )

ライセンス: Link先を確認
Yoichi Chikahara, Kansei Ushiyama, (参考訳) 高次元の特徴属性を用いて、個人間での不均一な治療効果を推定することへの関心が高まっている。 このような高次元不均一処理効果推定における高い性能を達成することは、この設定では、一部の特徴がサンプル選択バイアスを誘導するのに対し、他の特徴は潜在的な結果の予測をしないため、通常である。 このような予測的特徴情報を失うのを避けるため、既存の手法では確率重み付け(IPW)を用いて特徴表現を個別に学習する。 しかし、数値的に不安定なIPW重みのため、有限サンプル設定下では推定バイアスに悩まされる。 重み付き表現学習による数値的ロバストな推定器を開発するために,極度の重み値をエンドツーエンドに置き換える微分可能なパレート平滑化フレームワークを提案する。 実験結果から, 従来の重み付け方式を含む既存手法よりも, 効果的に重み付けを補正できることが示唆された。

There is a growing interest in estimating heterogeneous treatment effects across individuals using their high-dimensional feature attributes. Achieving high performance in such high-dimensional heterogeneous treatment effect estimation is challenging because in this setup, it is usual that some features induce sample selection bias while others do not but are predictive of potential outcomes. To avoid losing such predictive feature information, existing methods learn separate feature representations using the inverse of probability weighting (IPW). However, due to the numerically unstable IPW weights, they suffer from estimation bias under a finite sample setup. To develop a numerically robust estimator via weighted representation learning, we propose a differentiable Pareto-smoothed weighting framework that replaces extreme weight values in an end-to-end fashion. Experimental results show that by effectively correcting the weight values, our method outperforms the existing ones, including traditional weighting schemes.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 状態空間モデルに基づくオプティカルドプラトモグラフィーのスパース再構成

Sparse Reconstruction of Optical Doppler Tomography Based on State Space Model ( http://arxiv.org/abs/2404.17484v1 )

ライセンス: Link先を確認
Zhenghong Li, Jiaxiang Ren, Wensheng Cheng, Congwu Du, Yingtian Pan, Haibin Ling, (参考訳) 光ドップラートモグラフィー (ODT) は、バイオエンジニアリングの分野で広く用いられている血流イメージング技術である。 ODTの基本単位はA線に沿った1次元周波数応答であり、A線は生のA線である。 2D ODT画像(Bスキャン)は、まずB線(幅)に沿って生のAスキャンを検知し、次いで、等級解析および後処理によりこれらの生のAスキャンからBスキャンを構築する。 高精度なフローマップを有する高解像度のBスキャンを得るには、現在の方法では高密度サンプルAスキャンが必要であり、計算と記憶の双方の負担が生じる。 この問題に対処するために,本論文では,4つの主要なステップを持つ新しいスパース再構築フレームワークを提案する。 1) 相・相の相補的情報のリッチな相互作用を促進する初期等級核融合 2) 状態空間モデル(SSM)に基づく表現学習は,近年のMambaとVMambaの成功に触発され,Aスキャン内シーケンシャル情報とAスキャン間相互作用の両方を自然に捉えている。 3) インセプションベースのFeedforward Networkモジュール(IncFFN)により、SSMモジュールをさらに強化し、 4)最終結果を効果的に再構築するBラインのPixel Shuffle(BPS)層。 実世界の動物データを用いた実験では,再現精度が明らかに向上した。 画像再構成タスクにおけるSSMの第一の応用として,ODTイメージング技術だけでなく,汎用的な画像強調にも関連した探索のインスピレーションが期待できる。

Optical Doppler Tomography (ODT) is a blood flow imaging technique popularly used in bioengineering applications. The fundamental unit of ODT is the 1D frequency response along the A-line (depth), named raw A-scan. A 2D ODT image (B-scan) is obtained by first sensing raw A-scans along the B-line (width), and then constructing the B-scan from these raw A-scans via magnitude-phase analysis and post-processing. To obtain a high-resolution B-scan with a precise flow map, densely sampled A-scans are required in current methods, causing both computational and storage burdens. To address this issue, in this paper we propose a novel sparse reconstruction framework with four main sequential steps: 1) early magnitude-phase fusion that encourages rich interaction of the complementary information in magnitude and phase, 2) State Space Model (SSM)-based representation learning, inspired by recent successes in Mamba and VMamba, to naturally capture both the intra-A-scan sequential information and between-A-scan interactions, 3) an Inception-based Feedforward Network module (IncFFN) to further boost the SSM-module, and 4) a B-line Pixel Shuffle (BPS) layer to effectively reconstruct the final results. In the experiments on real-world animal data, our method shows clear effectiveness in reconstruction accuracy. As the first application of SSM for image reconstruction tasks, we expect our work to inspire related explorations in not only efficient ODT imaging techniques but also generic image enhancement.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# TextGaze: 自然言語による視線制御可能な顔生成

TextGaze: Gaze-Controllable Face Generation with Natural Language ( http://arxiv.org/abs/2404.17486v1 )

ライセンス: Link先を確認
Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang, (参考訳) 特定の視線情報による顔画像の生成は注目されている。 既存のアプローチは、通常、顔生成のために直接視線値を入力し、これは非自然であり、トレーニングのために注釈付き視線データセットを必要とするため、その応用は制限される。 本稿では,新しい視線制御可能な顔生成タスクを提案する。 本稿では,人間の視線と頭の動きを記述したテキスト記述を入力し,対応する顔画像を生成する。 我々の研究はまず、視線と頭ポーズの密集した分布にまたがる90万以上のテキスト記述を含む、迷路のテキストデータセットを紹介した。 さらに,視線制御可能なテキスト・ツー・フェイス方式を提案する。 本手法は,スケッチ条件付き顔拡散モジュールとモデルに基づくスケッチ拡散モジュールを含む。 顔のランドマークとアイセグメンテーションマップに基づいて顔スケッチを定義する。 顔拡散モジュールは、顔スケッチから顔画像を生成し、スケッチ拡散モジュールは、3D顔モデルを用いて、テキスト記述から顔スケッチを生成する。 FFHQデータセットを用いた実験により,本手法の有効性が示された。 今後の研究のために、データセットとコードを公開します。

Generating face image with specific gaze information has attracted considerable attention. Existing approaches typically input gaze values directly for face generation, which is unnatural and requires annotated gaze datasets for training, thereby limiting its application. In this paper, we present a novel gaze-controllable face generation task. Our approach inputs textual descriptions that describe human gaze and head behavior and generates corresponding face images. Our work first introduces a text-of-gaze dataset containing over 90k text descriptions spanning a dense distribution of gaze and head poses. We further propose a gaze-controllable text-to-face method. Our method contains a sketch-conditioned face diffusion module and a model-based sketch diffusion module. We define a face sketch based on facial landmarks and eye segmentation map. The face diffusion module generates face images from the face sketch, and the sketch diffusion module employs a 3D face model to generate face sketch from text description. Experiments on the FFHQ dataset show the effectiveness of our method. We will release our dataset and code for future research.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 学習した特徴を用いたコンフォーマル予測

Conformal Prediction with Learned Features ( http://arxiv.org/abs/2404.17487v1 )

ライセンス: Link先を確認
Shayan Kiyani, George Pappas, Hamed Hassani, (参考訳) 本稿では,条件付き保証付き共形予測の問題に焦点をあてる。 以前の研究では、完全な条件付きカバレッジを保証する非自明な予測セットを構築することは不可能であることが示されている。 多くの研究は、事前定義された不確実性構造に依存して、完全な条件付き保証の緩和を検討した。 このような考え方を別として,キャリブレーションデータから不確実性誘導特徴を学習することにより,予測セットの条件付き妥当性を向上させるためのPLCP(Partition Learning Conformal Prediction)を提案する。 市販の機械学習モデルを用いて, PLCP を逐次勾配勾配勾配で効率的に実装する。 さらに、PLCPを理論的に解析し、無限標本サイズと有限標本サイズに対する条件付き保証を提供する。 最後に,4つの実世界および合成データセットに対する実験結果から,分類シナリオと回帰シナリオの両方において,最先端手法と比較してPLCPの優れた性能を示した。

In this paper, we focus on the problem of conformal prediction with conditional guarantees. Prior work has shown that it is impossible to construct nontrivial prediction sets with full conditional coverage guarantees. A wealth of research has considered relaxations of full conditional guarantees, relying on some predefined uncertainty structures. Departing from this line of thinking, we propose Partition Learning Conformal Prediction (PLCP), a framework to improve conditional validity of prediction sets through learning uncertainty-guided features from the calibration data. We implement PLCP efficiently with alternating gradient descent, utilizing off-the-shelf machine learning models. We further analyze PLCP theoretically and provide conditional guarantees for infinite and finite sample sizes. Finally, our experimental results over four real-world and synthetic datasets show the superior performance of PLCP compared to state-of-the-art methods in terms of coverage and length in both classification and regression scenarios.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 昆虫分類のための低コスト機械ビジョン

Low Cost Machine Vision for Insect Classification ( http://arxiv.org/abs/2404.17488v1 )

ライセンス: Link先を確認
Danja Brandt, Martin Tschaikner, Teodor Chiaburu, Henning Schmidt, Ilona Schrimpf, Alexandra Stadel, Ingeborg E. Beckers, Frank Haußer, (参考訳) 昆虫の数と多様性を維持することは、環境の持続可能性の領域において、我々の社会の最も重要な目標の1つです。 このための前提条件は、相関を検知し、対策を識別するために、体系的かつ大規模に監視することである。 そのため、ライブトラップを用いた自動監視が重要であるが、今のところ、昆虫学的分類に十分な詳細な情報の画像データを提供するシステムは存在しない。 本研究では,従来のトラップ型に適応可能な低コストでスケーラブルなオープンソースシステムとして開発されたマルチセンサシステムの一部として,イメージング手法を提案する。 画像の品質は分類木における分類に必要な要件を満たす。 そのため、照明と解像度が最適化され、運動人工物が抑制されている。 本システムは、同種の昆虫種16種と、異なる属、属、および順序からなるデータセット上で、模範的に評価される。 我々は、ResNet50(iNaturalistデータに基づく)やMobileNetのような標準CNNアーキテクチャが、再トレーニング後の予測タスクに非常によく機能することを示した。 より小さなカスタムCNNも有望な結果をもたらす。 96\%$の分類精度が達成されている。 さらに, 種間類似度の高い種分類には, 昆虫のイメージトリミングが必要であることが証明された。

Preserving the number and diversity of insects is one of our society's most important goals in the area of environmental sustainability. A prerequisite for this is a systematic and up-scaled monitoring in order to detect correlations and identify countermeasures. Therefore, automatized monitoring using live traps is important, but so far there is no system that provides image data of sufficient detailed information for entomological classification. In this work, we present an imaging method as part of a multisensor system developed as a low-cost, scalable, open-source system that is adaptable to classical trap types. The image quality meets the requirements needed for classification in the taxonomic tree. Therefore, illumination and resolution have been optimized and motion artefacts have been suppressed. The system is evaluated exemplarily on a dataset consisting of 16 insect species of the same as well as different genus, family and order. We demonstrate that standard CNN-architectures like ResNet50 (pretrained on iNaturalist data) or MobileNet perform very well for the prediction task after re-training. Smaller custom made CNNs also lead to promising results. Classification accuracy of $>96\%$ has been achieved. Moreover, it was proved that image cropping of insects is necessary for classification of species with high inter-class similarity.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# クラス定義と特徴相関に基づく拡張によるタブラルデータコントラスト学習

Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation ( http://arxiv.org/abs/2404.17489v1 )

ライセンス: Link先を確認
Wei Cui, Rasa Hosseinzadeh, Junwei Ma, Tongzi Wu, Yi Sui, Keyvan Golestan, (参考訳) コントラスト学習(Contrastive Learning)は、最初に元のデータの類似したビューを作成し、次にデータとその対応するビューを埋め込み空間に近接させるモデル事前学習技術である。 対照的な学習は、直感的で効果的なドメイン固有の拡張技術のおかげで、画像と自然言語のデータで成功している。 それにもかかわらず、表領域では、ビューを作成するための主要な拡張テクニックは、値のスワップによって表領域のエントリを破損させることである。 本稿では,この拡張手法の簡易かつ強力な改善法を提案する。 具体的には、テーブル全体から同じ特徴列の値をランダムにサンプリングする代わりに、アンカー行から特定の表のエントリを破損させる場合、アンカー行と同じクラスに属すると認識される行からのみサンプリングする。 半教師付き学習環境を仮定し,すべてのテーブル列上のクラスIDを取得するための擬似ラベル手法を採用する。 また,特徴相関構造に基づく特徴選択の新たな考え方についても検討する。 大規模な実験により,提案手法は従来の表型データ分類タスクの汚職手法よりも一貫して優れていた。 私たちのコードはhttps://github.com/willtop/Tabular-Class-Conditioned-SSLで利用可能です。

Contrastive learning is a model pre-training technique by first creating similar views of the original data, and then encouraging the data and its corresponding views to be close in the embedding space. Contrastive learning has witnessed success in image and natural language data, thanks to the domain-specific augmentation techniques that are both intuitive and effective. Nonetheless, in tabular domain, the predominant augmentation technique for creating views is through corrupting tabular entries via swapping values, which is not as sound or effective. We propose a simple yet powerful improvement to this augmentation technique: corrupting tabular data conditioned on class identity. Specifically, when corrupting a specific tabular entry from an anchor row, instead of randomly sampling a value in the same feature column from the entire table uniformly, we only sample from rows that are identified to be within the same class as the anchor row. We assume the semi-supervised learning setting, and adopt the pseudo labeling technique for obtaining class identities over all table rows. We also explore the novel idea of selecting features to be corrupted based on feature correlation structures. Extensive experiments show that the proposed approach consistently outperforms the conventional corruption method for tabular data classification tasks. Our code is available at https://github.com/willtop/Tabular-Class-Conditioned-SSL.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 因果的抽象化マルチアームバンド

Causally Abstracted Multi-armed Bandits ( http://arxiv.org/abs/2404.17493v1 )

ライセンス: Link先を確認
Fabio Massimo Zennaro, Nicholas Bishop, Joel Dyer, Yorgos Felekis, Anisoara Calinescu, Michael Wooldridge, Theodoros Damoulas, (参考訳) マルチアームバンディット (MAB) と因果MAB (CMAB) は意思決定問題の枠組みとして確立されている。 先行研究の大部分は、通常、与えられた問題と関連するデータに対して、個別のMABとCMABを分離して研究し、解決する。 しかし、意思決定者は、問題構造やデータ依存関係を効率的に活用するために、複数の関連する問題や共同定式化が必要なマルチスケールな観察に直面していることが多い。 CMABの転送学習は、因果関係が異なるとしても、モデルが同一変数上で定義される状況に対処する。 本研究は,変換学習を,多種多様な変数に対して定義したCMABを含む設定に拡張する。 本稿では,因果的抽象マップを表現するために因果的抽象理論に頼って因果的抽象MAB(CAMAB)の問題を導入する。 本稿では,CAMABで学習するアルゴリズムを提案し,その後悔について検討する。 オンライン広告に関連する現実のシナリオにおいて、アルゴリズムの限界と強みについて説明する。

Multi-armed bandits (MAB) and causal MABs (CMAB) are established frameworks for decision-making problems. The majority of prior work typically studies and solves individual MAB and CMAB in isolation for a given problem and associated data. However, decision-makers are often faced with multiple related problems and multi-scale observations where joint formulations are needed in order to efficiently exploit the problem structures and data dependencies. Transfer learning for CMABs addresses the situation where models are defined on identical variables, although causal connections may differ. In this work, we extend transfer learning to setups involving CMABs defined on potentially different variables, with varying degrees of granularity, and related via an abstraction map. Formally, we introduce the problem of causally abstracted MABs (CAMABs) by relying on the theory of causal abstraction in order to express a rigorous abstraction map. We propose algorithms to learn in a CAMAB, and study their regret. We illustrate the limitations and the strengths of our algorithms on a real-world scenario related to online advertising.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 地図を使わずに乱流をナビゲートするQ-Learning

Q-Learning to navigate turbulence without a map ( http://arxiv.org/abs/2404.17495v1 )

ライセンス: Link先を確認
Marco Rando, Martin James, Alessandro Verri, Lorenzo Rosasco, Agnese Seminara, (参考訳) 乱流環境における嗅覚探索の問題点を考察する。 我々は,嗅覚刺激にのみ反応するエージェントに焦点をあてる。 逐次的意思決定フレームワーク内で、目標へのナビゲーション戦略が堅牢に学習できるかどうかを問う。 そこで我々は,解釈可能な嗅覚状態の小さなセットを用いて強化学習アルゴリズムを開発し,それを現実的な乱気流で訓練する。 時間記憶を導入することで、嗅覚の少ない状態で識別される2つの臭気トレースの特徴が、現実的な臭気プルームでナビゲーションを学ぶのに十分であることを示す。 性能は乱気流の希薄な性質によって規定される。 プラム内の空白を無視し、プラムの外の回復戦略を活性化する最適なメモリが存在する。 本研究は, 作業員が回復戦略を学習させ, 飛来する昆虫の行動と同様, 主に横風を流していることを示すことで, 最高の性能を得る。 最適戦略は臭気管の実質的な変化に対して堅牢であり、小さなパラメータチューニングは異なる環境に適応するのに十分かもしれないことを示唆している。

We consider the problem of olfactory searches in a turbulent environment. We focus on agents that respond solely to odor stimuli, with no access to spatial perception nor prior information about the odor location. We ask whether navigation strategies to a target can be learned robustly within a sequential decision making framework. We develop a reinforcement learning algorithm using a small set of interpretable olfactory states and train it with realistic turbulent odor cues. By introducing a temporal memory, we demonstrate that two salient features of odor traces, discretized in few olfactory states, are sufficient to learn navigation in a realistic odor plume. Performance is dictated by the sparse nature of turbulent plumes. An optimal memory exists which ignores blanks within the plume and activates a recovery strategy outside the plume. We obtain the best performance by letting agents learn their recovery strategy and show that it is mostly casting cross wind, similar to behavior observed in flying insects. The optimal strategy is robust to substantial changes in the odor plumes, suggesting minor parameter tuning may be sufficient to adapt to different environments.
翻訳日:2024-04-29 12:45:10 公開日:2024-04-26
# 脆弱性のマーチャント:バグ報奨金プログラムがソフトウェアベンダに相応しい方法

Merchants of Vulnerabilities: How Bug Bounty Programs Benefit Software Vendors ( http://arxiv.org/abs/2404.17497v1 )

ライセンス: Link先を確認
Esther Gal-Or, Muhammad Zia Hydari, Rahul Telang, (参考訳) ソフトウェア脆弱性は、悪意のあるハッカーによる搾取、システムの妥協、データセキュリティを可能にする。 本稿では、倫理的ハッカーにソフトウェアベンダーに脆弱性を発見して責任を負うようインセンティブを与えるバグ報奨プログラム(BBP)について検討する。 ゲーム理論モデルを使用して、ソフトウェアベンダ、倫理的ハッカー、悪意のあるハッカー間の戦略的相互作用をキャプチャします。 まず,ソフトウェアベンダがBBPに参加することで,BBPプラットフォームの採用拡大と,BBPプラットフォームの成功を説明することによって,期待される利益を増大させることができることを示す。 第二に、BBPのベンダーは、より潜在的な脆弱性があるにもかかわらず、早期にソフトウェアをリリースする。 第三に、BBPに招待する倫理的ハッカーの最適な数は、搾取を求める悪意のあるハッカーの予想数にのみ依存する。 この倫理的ハッカーの最適な数は、予想される悪意のあるハッカー数より少ないが、増加する。 最後に、高い報奨金は倫理的ハッカーにより多くの努力を奨励し、悪質なハッカーの成功確率を下げながら、まず深刻な脆弱性を発見する可能性を高める。 これらの調査結果は、BBPsが収益性を超えたベンダーにもたらす潜在的な利益を浮き彫りにした。 初期のソフトウェアリリースは、調整された開示を通じてリスクを管理することで有効になる。 サイバーセキュリティの脅威が進化するにつれて、BBPの採用は勢いを増し、ベンダーにセキュリティ姿勢とステークホルダー信頼を高める貴重なツールを提供するだろう。 さらに、BBPは脆弱性の識別と新たな市場関係と取引への開示を包含し、リリースタイミングのような製品セキュリティの選択に関するソフトウェアベンダのインセンティブに影響を与える。

Software vulnerabilities enable exploitation by malicious hackers, compromising systems and data security. This paper examines bug bounty programs (BBPs) that incentivize ethical hackers to discover and responsibly disclose vulnerabilities to software vendors. Using game-theoretic models, we capture the strategic interactions between software vendors, ethical hackers, and malicious hackers. First, our analysis shows that software vendors can increase expected profits by participating in BBPs, explaining their growing adoption and the success of BBP platforms. Second, we find that vendors with BBPs will release software earlier, albeit with more potential vulnerabilities, as BBPs enable coordinated vulnerability disclosure and mitigation. Third, the optimal number of ethical hackers to invite to a BBP depends solely on the expected number of malicious hackers seeking exploitation. This optimal number of ethical hackers is lower than but increases with the expected malicious hacker count. Finally, higher bounties incentivize ethical hackers to exert more effort, thereby increasing the probability that they will discover severe vulnerabilities first while reducing the success probability of malicious hackers. These findings highlight BBPs' potential benefits for vendors beyond profitability. Earlier software releases are enabled by managing risks through coordinated disclosure. As cybersecurity threats evolve, BBP adoption will likely gain momentum, providing vendors with a valuable tool for enhancing security posture and stakeholder trust. Moreover, BBPs envelop vulnerability identification and disclosure into new market relationships and transactions, impacting software vendors' incentives regarding product security choices like release timing.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 画像キャプションによるテキスト・ビデオ検索の学習

Learning text-to-video retrieval from image captioning ( http://arxiv.org/abs/2404.17498v1 )

ライセンス: Link先を確認
Lucas Ventura, Cordelia Schmid, Gül Varol, (参考訳) 未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 (i)ビデオのラベルへのアクセス、すなわち、接頭辞のセットへのアクセスは行わないが、 (ii)テキスト形式でラベル付き画像にアクセスする。 画像エキスパートモデルを使用することは、高価なビデオラベリング方式とは対照的に、アノテート画像がより安価でスケーラブルであることを考えると、現実的なシナリオである。 近年、CLIPのようなゼロショット画像の専門家は、ビデオ理解タスクのための新しい強力なベースラインを確立している。 本稿では、この進歩を利用して、初期バックボーンを提供するテキスト・ツー・イメージ検索モデルと、ラベルなしビデオに監視信号を提供する画像キャプションモデルという、2種類のモデルから画像専門家をインスタンス化する。 画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。 このプロセスは、手動のアノテーションコストなしでターゲットドメインに機能を適用するため、強いゼロショットCLIPベースラインよりも優れています。 トレーニング中、複数のビデオフレームから、視覚的内容に最もよくマッチするキャプションをサンプリングし、各キャプションとの関連性に応じてフレームをスコアリングすることで、フレーム表現上の時間プーリングを行う。 我々は,3つの標準データセット(ActivityNet, MSR-VTT, MSVD)において,CLIPゼロショットベースラインよりも高い精度でテキストとビデオの検索を行うことにより,この単純なフレームワークの有効性を実証し,洞察を提供する。

We describe a protocol to study text-to-video retrieval training with unlabeled videos, where we assume (i) no access to labels for any videos, i.e., no access to the set of ground-truth captions, but (ii) access to labeled images in the form of text. Using image expert models is a realistic scenario given that annotating images is cheaper therefore scalable, in contrast to expensive video labeling schemes. Recently, zero-shot image experts such as CLIP have established a new strong baseline for video understanding tasks. In this paper, we make use of this progress and instantiate the image experts from two types of models: a text-to-image retrieval model to provide an initial backbone, and image captioning models to provide supervision signal into unlabeled videos. We show that automatically labeling video frames with image captioning allows text-to-video retrieval training. This process adapts the features to the target domain at no manual annotation cost, consequently outperforming the strong zero-shot CLIP baseline. During training, we sample captions from multiple video frames that best match the visual content, and perform a temporal pooling over frame representations by scoring frames according to their relevance to each caption. We conduct extensive ablations to provide insights and demonstrate the effectiveness of this simple framework by outperforming the CLIP zero-shot baselines on text-to-video retrieval on three standard datasets, namely ActivityNet, MSR-VTT, and MSVD.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 空中アドホックネットワークのための量子マルチエージェント強化学習

Quantum Multi-Agent Reinforcement Learning for Aerial Ad-hoc Networks ( http://arxiv.org/abs/2404.17499v1 )

ライセンス: Link先を確認
Theodora-Augustina Drăgan, Akshat Tandon, Carsten Strobel, Jasper Simon Krauser, Jeanette Miriam Lorenz, (参考訳) 量子コンピューティングと機械学習(ML)の組み合わせとしての量子機械学習(QML)は、特に量子コンピュータの実現の進歩と期待されている量子優位性のために、探索する上で有望な方向である。 量子マルチエージェント強化学習(QMARL、quantum multi-agent reinforcement learning)は、工場管理やセルラーアクセス、モビリティ協力といった産業用途に対処する上で、潜在的に魅力的な分野である。 本稿では,航空通信のユースケースを提示し,それを解くためのハイブリッド量子古典型MLアルゴリズムを提案する。 このユースケースは、空飛ぶアドホックネットワークの接続性を高めることを目的としており、HQCのマルチエージェント近似ポリシー最適化アルゴリズムによって解決され、中央の批評家のコアがデータ再ロードされた変動量子回路に置き換えられる。 その結果、古典的アルゴリズムに匹敵する量子化解の性能向上、収束の早さ、およびそのような解のスケーラビリティ、すなわち、アンザッツのサイズの増大、従ってトレーニング可能なパラメータの数の増加が示され、より良い結果がもたらされる。 これらの有望な結果は、産業関連複雑なユースケースに対するQMARLの可能性を示している。

Quantum machine learning (QML) as combination of quantum computing with machine learning (ML) is a promising direction to explore, in particular due to the advances in realizing quantum computers and the hoped-for quantum advantage. A field within QML that is only little approached is quantum multi-agent reinforcement learning (QMARL), despite having shown to be potentially attractive for addressing industrial applications such as factory management, cellular access and mobility cooperation. This paper presents an aerial communication use case and introduces a hybrid quantum-classical (HQC) ML algorithm to solve it. This use case intends to increase the connectivity of flying ad-hoc networks and is solved by an HQC multi-agent proximal policy optimization algorithm in which the core of the centralized critic is replaced with a data reuploading variational quantum circuit. Results show a slight increase in performance for the quantum-enhanced solution with respect to a comparable classical algorithm, earlier reaching convergence, as well as the scalability of such a solution: an increase in the size of the ansatz, and thus also in the number of trainable parameters, leading to better outcomes. These promising results show the potential of QMARL to industrially-relevant complex use cases.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 極低視認性条件下における不均一照明画像強調

Inhomogeneous illuminated image enhancement under extremely low visibility condition ( http://arxiv.org/abs/2404.17503v1 )

ライセンス: Link先を確認
Libang Chen, Yikun Liu, Jianying Zhou, (参考訳) 霧を通してのイメージングは、物体の検出や認識などの分野に大きな影響を及ぼす。 可視性が極端に低い場合、必須画像情報は隠蔽され、標準抽出法は効果がない。 ヒストグラムストレッチのような従来のデジタル処理技術は、大気散乱によって減少する物体光のコントラストを高めることにより、霧の影響を軽減することを目的としている。 しかし、これらの方法は不均一照明下で効果を低下させることが多い。 本稿では,背景照明を極めて低視認性で適応的にフィルタし,重要な信号情報のみを保存する手法を提案する。 さらに、画像勾配に基づく視覚的最適化手法を用いて、グレースケールバンドリングを除去する。 最後に、画像は、最大ヒストグラム等化により、高コントラストを実現し、元の情報に対する忠実性を維持するように変換される。 提案手法は,可視性が非常に低い条件下で信号の明瞭度を著しく向上し,既存のアルゴリズムよりも優れる。

Imaging through fog significantly impacts fields such as object detection and recognition. In conditions of extremely low visibility, essential image information can be obscured, rendering standard extraction methods ineffective. Traditional digital processing techniques, such as histogram stretching, aim to mitigate fog effects by enhancing object light contrast diminished by atmospheric scattering. However, these methods often experience reduce effectiveness under inhomogeneous illumination. This paper introduces a novel approach that adaptively filters background illumination under extremely low visibility and preserve only the essential signal information. Additionally, we employ a visual optimization strategy based on image gradients to eliminate grayscale banding. Finally, the image is transformed to achieve high contrast and maintain fidelity to the original information through maximum histogram equalization. Our proposed method significantly enhances signal clarity in conditions of extremely low visibility and outperforms existing algorithms.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# HYPE:未特定画像とテキストのためのハイパーボリックエンターメントフィルタ

HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts ( http://arxiv.org/abs/2404.17507v1 )

ライセンス: Link先を確認
Wonjae Kim, Sanghyuk Chun, Taekyung Kim, Dongyoon Han, Sangdoo Yun, (参考訳) データ量によって自己教師付き学習の有効性が促進される時代において、データセマンティクスの特異性と明確性はモデルトレーニングにおいて重要な役割を担っている。 そこで, HYPerbolic Entailment Filtering (HYPE) を導入し, 広範でノイズの多い画像とテキストのペアのデータセットから, モダリティに有意かつ整合性のあるデータを正確に抽出する手法を提案する。 提案手法は, ハイパーボリックな埋め込みとエンテーメント・コーンの概念を利用して, サンプルを無意味あるいは不特定なセマンティクスで評価・フィルタリングし, サンプルの特異性の向上に重点を置いている。 HYPEは、フィルタリング効率を大幅に改善するだけでなく、既存のフィルタリング技術と組み合わせることで、DataCompベンチマークの最先端を新たに設定する。 このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。 さらに、画像特異性$\epsilon_{i}$は、画像テキストまたは画像のみのデータプールから画像のみのデータセットをインジェクションして、画像のみの自己教師付きモデルをトレーニングし、CLIPスコアによって誘導されたデータセットと比較して優れたパフォーマンスを示すために独立して適用することができる。

In an era where the volume of data drives the effectiveness of self-supervised learning, the specificity and clarity of data semantics play a crucial role in model training. Addressing this, we introduce HYPerbolic Entailment filtering (HYPE), a novel methodology designed to meticulously extract modality-wise meaningful and well-aligned data from extensive, noisy image-text pair datasets. Our approach leverages hyperbolic embeddings and the concept of entailment cones to evaluate and filter out samples with meaningless or underspecified semantics, focusing on enhancing the specificity of each data sample. HYPE not only demonstrates a significant improvement in filtering efficiency but also sets a new state-of-the-art in the DataComp benchmark when combined with existing filtering techniques. This breakthrough showcases the potential of HYPE to refine the data selection process, thereby contributing to the development of more accurate and efficient self-supervised learning models. Additionally, the image specificity $\epsilon_{i}$ can be independently applied to induce an image-only dataset from an image-text or image-only data pool for training image-only self-supervised models and showed superior performance when compared to the dataset induced by CLIP score.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# コンピュータ代数システム最適化のための解釈可能なヒューリスティック創造のための制約付きニューラルネットワーク

Constrained Neural Networks for Interpretable Heuristic Creation to Optimise Computer Algebra Systems ( http://arxiv.org/abs/2404.17508v1 )

ライセンス: Link先を確認
Dorian Florescu, Matthew England, (参考訳) 本稿では,記号計算研究における機械学習技術を活用した新しい手法を提案する。 筒状代数分解における可変次数の選択を制約ニューラルネットワークとして表すための、よく知られた人間設計のヒューリスティックについて説明する。 これにより、機械学習メソッドを使用してヒューリスティックをさらに最適化し、同じサイズの新しいネットワークが生まれ、オリジナルの人間設計のものと類似した複雑さの新たなヒューリスティックを表現します。 我々はこれを,計算機代数開発に使用するアンテホックな説明可能性の一形態として提示する。

We present a new methodology for utilising machine learning technology in symbolic computation research. We explain how a well known human-designed heuristic to make the choice of variable ordering in cylindrical algebraic decomposition may be represented as a constrained neural network. This allows us to then use machine learning methods to further optimise the heuristic, leading to new networks of similar size, representing new heuristics of similar complexity as the original human-designed one. We present this as a form of ante-hoc explainability for use in computer algebra development.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# フェアネスディバイドのブリッジ:グラフニューラルネットワークにおけるグループ達成と個人フェアネス

Bridging the Fairness Divide: Achieving Group and Individual Fairness in Graph Neural Networks ( http://arxiv.org/abs/2404.17511v1 )

ライセンス: Link先を確認
Duna Zhan, Dongliang Guo, Pengsheng Ji, Sheng Li, (参考訳) グラフニューラルネットワーク(GNN)は、グラフとして構造化された複雑なデータから分析および学習するための強力なツールとして登場し、ソーシャルネットワーク分析、レコメンデーションシステム、薬物発見など、さまざまなアプリケーションにおいて顕著な効果を示している。 しかし、その見事なパフォーマンスにもかかわらず、公平性の問題が考慮すべき重要な側面として注目を集めている。 グラフ学習における既存の研究は、グループフェアネスまたは個人フェアネスに焦点を当てている。 しかしながら、それぞれの概念は、異なる視点から公正性に関するユニークな洞察を提供するため、それらを公正なグラフニューラルネットワークシステムに統合することが不可欠である。 我々の知る限りでは、個人と集団の公平性の両方を同時に包括的に取り組んだ研究はまだ行われていない。 本稿では,グループ内個性の概念と,グループ内個性とグループ内個性の両方を考慮したFairGI(Fairness for Group and Individual)というフレームワークを提案する。 FairGIは、グループ内の個々の公正を達成するために個人の類似性マトリックスを使用し、対人学習を活用して、平等機会と統計的パリティの両方の観点からグループフェアネスに対処する。 実験結果から,本手法はグループフェアネスやグループ内の個人フェアネスにおいて,他の最先端モデルよりも優れるだけでなく,集団レベルの個人フェアネスにおいても優れた性能を示しながら,同等の予測精度を維持していることが示された。

Graph neural networks (GNNs) have emerged as a powerful tool for analyzing and learning from complex data structured as graphs, demonstrating remarkable effectiveness in various applications, such as social network analysis, recommendation systems, and drug discovery. However, despite their impressive performance, the fairness problem has increasingly gained attention as a crucial aspect to consider. Existing research in graph learning focuses on either group fairness or individual fairness. However, since each concept provides unique insights into fairness from distinct perspectives, integrating them into a fair graph neural network system is crucial. To the best of our knowledge, no study has yet to comprehensively tackle both individual and group fairness simultaneously. In this paper, we propose a new concept of individual fairness within groups and a novel framework named Fairness for Group and Individual (FairGI), which considers both group fairness and individual fairness within groups in the context of graph learning. FairGI employs the similarity matrix of individuals to achieve individual fairness within groups, while leveraging adversarial learning to address group fairness in terms of both Equal Opportunity and Statistical Parity. The experimental results demonstrate that our approach not only outperforms other state-of-the-art models in terms of group fairness and individual fairness within groups, but also exhibits excellent performance in population-level individual fairness, while maintaining comparable prediction accuracy.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 大規模言語モデルのイベント推論に関する総合的評価

A Comprehensive Evaluation on Event Reasoning of Large Language Models ( http://arxiv.org/abs/2404.17513v1 )

ライセンス: Link先を確認
Zhengwei Tao, Zhi Jin, Yifan Zhang, Xiancai Chen, Xiaoying Bai, Yue Fang, Haiyan Zhao, Jia Li, Chongyang Tao, (参考訳) イベント推論は多くのアプリケーションの基礎となる基本的な能力です。 グローバルな推論を行うにはイベントスキーマの知識が必要であり、イベント間の関係や推論パラダイムの多様性を扱う必要がある。 LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。 この格差を緩和するため,LLMの事象推論能力について総合的に評価した。 本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。 EV2はスキーマとインスタンスの評価の2つのレベルから構成されており、関係性や推論のパラダイムにおいて包括的である。 EV2について広範な実験を行った。 LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。 また,LLMにおける事象推論能力の不均衡にも気付く。 LLMにはイベントスキーマの知識もありますが、その知識の活用方法については、人間と一致していません。 これらの知見に基づき、イベントスキーマの知識を活用するために、LSMをガイドする2つの方法を紹介した。 どちらの方法も改善される。

Event reasoning is a fundamental ability that underlies many applications. It requires event schema knowledge to perform global reasoning and needs to deal with the diversity of the inter-event relations and the reasoning paradigms. How well LLMs accomplish event reasoning on various relations and reasoning paradigms remains unknown. To mitigate this disparity, we comprehensively evaluate the abilities of event reasoning of LLMs. We introduce a novel benchmark EV2 for EValuation of EVent reasoning. EV2 consists of two levels of evaluation of schema and instance and is comprehensive in relations and reasoning paradigms. We conduct extensive experiments on EV2. We find that LLMs have abilities to accomplish event reasoning but their performances are far from satisfactory. We also notice the imbalance of event reasoning abilities in LLMs. Besides, LLMs have event schema knowledge, however, they're not aligned with humans on how to utilize the knowledge. Based on these findings, we introduce two methods to guide the LLMs to utilize the event schema knowledge. Both methods achieve improvements.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# Ag2Manip: エージェントに依存しない視覚と行動表現による新しい操作スキルの学習

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations ( http://arxiv.org/abs/2404.17521v1 )

ライセンス: Link先を確認
Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang, (参考訳) 新規な操作タスクを学習できる自律ロボットシステムは、産業を製造業からサービス自動化に転換する。 しかし、現代の手法(例えば、VIP、R3M)は依然として大きなハードルに直面しており、特にロボットのエンボディメント間のドメインギャップと特定のアクション空間内でのタスク実行の成功の空間は不一致であいまいなタスク表現をもたらす。 本稿では,これらの課題を克服するためのフレームワークであるAg2Manipを紹介した。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現と,一般化性を高めるための具体化の具体化,ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化するエージェント非依存の動作表現,エンドエフェクタとオブジェクト間の重要な相互作用を強調する。 FrankaKitchen、ManiSkill、PartManipといったシミュレーションベンチマークによるAg2Manipの実証検証では、ドメイン固有のデモなしで達成されたパフォーマンスが325%向上している。 アブレーション研究は、この成功に対する視覚的および行動的表現の本質的な貢献を根拠にしている。 Ag2Manipは実世界での評価を拡大し、模倣学習の成功率を50%から77.5%に大幅に改善し、シミュレーション環境と物理環境の両方でその効果と一般化性を示す。

Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 大規模言語モデルによる法的コンプライアンスと規制分析の強化

Enhancing Legal Compliance and Regulation Analysis with Large Language Models ( http://arxiv.org/abs/2404.17522v1 )

ライセンス: Link先を確認
Shabnam Hassani, (参考訳) 本研究は,食品安全領域における要件関連法的内容の自動抽出と規制事項の法的コンプライアンスの検証に,Large Language Models (LLMs) の適用について検討する。 産業4.0が食品産業に革命をもたらし、プライバシーポリシーとデータ処理契約を改定する一般データ保護規則(GDPR)により、規制分析と最近の技術進歩の間にはギャップが拡大している。 本研究は, BERT と GPT のモデルである LLM を利用して, 法的規定を正確に分類し, コンプライアンスチェックを自動化することにより, このギャップを埋めることを目的とする。 以上より, LLMsは, 法的コンプライアンスと規制分析の効率化, 特に手作業量を削減し, 適正な時間・財務制約下での精度向上に寄与する可能性が示唆された。

This research explores the application of Large Language Models (LLMs) for automating the extraction of requirement-related legal content in the food safety domain and checking legal compliance of regulatory artifacts. With Industry 4.0 revolutionizing the food industry and with the General Data Protection Regulation (GDPR) reshaping privacy policies and data processing agreements, there is a growing gap between regulatory analysis and recent technological advancements. This study aims to bridge this gap by leveraging LLMs, namely BERT and GPT models, to accurately classify legal provisions and automate compliance checks. Our findings demonstrate promising results, indicating LLMs' significant potential to enhance legal compliance and regulatory analysis efficiency, notably by reducing manual workload and improving accuracy within reasonable time and financial constraints.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 大規模言語モデルを用いた機能オントロジーの生成について

On the Use of Large Language Models to Generate Capability Ontologies ( http://arxiv.org/abs/2404.17524v1 )

ライセンス: Link先を確認
Luis Miguel Vieira da Silva, Aljosha Köcher, Felix Gehlhoff, Alexander Fay, (参考訳) 機能オントロジーは、システムやマシンの機能のモデル化にますます利用されている。 あらゆる性質と能力の制約を持つそのような存在論的モデルの作成は非常に複雑であり、オントロジーの専門家によってのみ可能である。 しかし、Large Language Models (LLMs) は、自然言語テキスト入力から機械解釈可能なモデルを生成することができ、したがってエンジニアやオントロジーの専門家をサポートすることを示した。 そこで本研究では,LLMを用いて機能オントロジーを創出する方法について検討する。 本稿では、異なるプロンプト技術と異なるLLMを用いて、様々な複雑さを持つ能力を生成する一連の実験について述べる。 生成されたオントロジーのエラーを記録し、比較する。 生成されたオントロジーの品質を分析するために、RDF構文チェック、OWL推論、SHACL制約に基づく半自動アプローチを用いる。 この研究結果は、複雑な能力であっても生成したオントロジにはほとんど誤りがないため、非常に有望である。

Capability ontologies are increasingly used to model functionalities of systems or machines. The creation of such ontological models with all properties and constraints of capabilities is very complex and can only be done by ontology experts. However, Large Language Models (LLMs) have shown that they can generate machine-interpretable models from natural language text input and thus support engineers / ontology experts. Therefore, this paper investigates how LLMs can be used to create capability ontologies. We present a study with a series of experiments in which capabilities with varying complexities are generated using different prompting techniques and with different LLMs. Errors in the generated ontologies are recorded and compared. To analyze the quality of the generated ontologies, a semi-automated approach based on RDF syntax checking, OWL reasoning, and SHACL constraints is used. The results of this study are very promising because even for complex capabilities, the generated ontologies are almost free of errors.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 機械設計者としての大言語モデルエージェント

Large Language Model Agent as a Mechanical Designer ( http://arxiv.org/abs/2404.17525v1 )

ライセンス: Link先を確認
Yayati Jadhav, Amir Barati Farimani, (参考訳) 従来の機械設計パラダイムは、特定の要件を満たすために経験誘導的な修正とFAAを通じて、概念を体系的に洗練する専門家に依存している。 しかし、このアプローチは時間がかかり、事前の知識や経験に大きく依存する可能性がある。 この集中的で専門家主導の反復的なプロセスの合理化のために、多くの機械学習モデルが開発されているが、これらの手法は通常、広範なトレーニングデータと相当な計算資源を必要とする。 さらに、ディープラーニングに基づく手法は通常、訓練された特定のドメインやタスクに限定され、異なるタスクに適用性を制限する。 これにより、自動化の効率性とリソースの需要との間にトレードオフが生じます。 本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。 FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。 トラス構造を反復的に最適化する上で,提案手法の有効性を実証し,構造的フィードバックと基準に従って設計を推論・洗練する能力を示す。 その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。 プロンプトベースの最適化手法を用いることで, LLM をベースとしたエージェントは, 仕様を満たすために反復的に設計を洗練するための解スコアペアを備えると, 最適化動作を示すことを示す。 LLMエージェントが実行可能な設計を作成し、それら固有の推論能力に基づいて最適化する能力は、効果的な設計戦略を自律的に開発し実装する可能性を強調している。

Conventional mechanical design paradigms rely on experts systematically refining concepts through experience-guided modification and FEA to meet specific requirements. However, this approach can be time-consuming and heavily dependent on prior knowledge and experience. While numerous machine learning models have been developed to streamline this intensive and expert-driven iterative process, these methods typically demand extensive training data and considerable computational resources. Furthermore, methods based on deep learning are usually restricted to the specific domains and tasks for which they were trained, limiting their applicability across different tasks. This creates a trade-off between the efficiency of automation and the demand for resources. In this study, we present a novel approach that integrates pre-trained LLMs with a FEM module. The FEM module evaluates each design and provides essential feedback, guiding the LLMs to continuously learn, plan, generate, and optimize designs without the need for domain-specific training. We demonstrate the effectiveness of our proposed framework in managing the iterative optimization of truss structures, showcasing its capability to reason about and refine designs according to structured feedback and criteria. Our results reveal that these LLM-based agents can successfully generate truss designs that comply with natural language specifications with a success rate of up to 90%, which varies according to the applied constraints. By employing prompt-based optimization techniques we show that LLM based agents exhibit optimization behavior when provided with solution-score pairs to iteratively refine designs to meet specifications. This ability of LLM agents to produce viable designs and optimize them based on their inherent reasoning capabilities highlights their potential to develop and implement effective design strategies autonomously.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 一般化可能なニューラルラジアンスフィールドのための幾何認識再構成と核融合精製レンダリング

Geometry-aware Reconstruction and Fusion-refined Rendering for Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2404.17528v1 )

ライセンス: Link先を確認
Tianqi Liu, Xinyi Ye, Min Shi, Zihao Huang, Zhiyu Pan, Zhan Peng, Zhiguo Cao, (参考訳) Generalizable NeRFは、目に見えないシーンのための新しいビューを合成することを目的としている。 一般的なプラクティスは、幾何学的再構成のための分散ベースのコストボリュームの構築と、新しいビューをデコードするための3Dディスクリプタの符号化である。 しかし,既存の手法では,不正確な幾何学,準最適記述子,復号化戦略などの問題条件下での一般化能力が限られている。 これらの問題はポイントごとに解決する。 まず,同じ点に対応する画素の特徴が,オクルージョンやリフレクションによって異なる視点で不整合であることから,分散に基づくコスト容積は故障パターンを示す。 我々は、一貫したピクセル対の寄与を増幅し、一貫性のないものを抑制するために、適応コスト集約(ACA)アプローチを導入する。 従来の2D機能のみをディスクリプタに融合させる手法とは違って,本手法では,空間とビュー間の相互作用を通じて3Dコンテキストをディスクリプタに組み込むSVA(Spatial-View Aggregator)を導入している。 ディスクリプタをデコードする場合,既存の2つのデコード戦略が相補的な異なる領域で優れているのを観察する。 両者の利点を活用するために,CAF(Consistency-Aware Fusion)戦略が提案されている。 上記のACA, SVA, CAFを, Geometry-aware Reconstruction and Fusion-refined Rendering (GeFu) と呼ばれる粗粒度フレームワークに組み込んだ。 GeFuは、複数のデータセットにわたる最先端のパフォーマンスを実現する。 コードはhttps://github.com/TQTQliu/GeFuで入手できる。

Generalizable NeRF aims to synthesize novel views for unseen scenes. Common practices involve constructing variance-based cost volumes for geometry reconstruction and encoding 3D descriptors for decoding novel views. However, existing methods show limited generalization ability in challenging conditions due to inaccurate geometry, sub-optimal descriptors, and decoding strategies. We address these issues point by point. First, we find the variance-based cost volume exhibits failure patterns as the features of pixels corresponding to the same point can be inconsistent across different views due to occlusions or reflections. We introduce an Adaptive Cost Aggregation (ACA) approach to amplify the contribution of consistent pixel pairs and suppress inconsistent ones. Unlike previous methods that solely fuse 2D features into descriptors, our approach introduces a Spatial-View Aggregator (SVA) to incorporate 3D context into descriptors through spatial and inter-view interaction. When decoding the descriptors, we observe the two existing decoding strategies excel in different areas, which are complementary. A Consistency-Aware Fusion (CAF) strategy is proposed to leverage the advantages of both. We incorporate the above ACA, SVA, and CAF into a coarse-to-fine framework, termed Geometry-aware Reconstruction and Fusion-refined Rendering (GeFu). GeFu attains state-of-the-art performance across multiple datasets. Code is available at https://github.com/TQTQliu/GeFu .
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# 大規模視覚言語モデルによる記述の識別性と忠実さの探索

Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models ( http://arxiv.org/abs/2404.17534v1 )

ライセンス: Link先を確認
Yuhang Huang, Zihan Wu, Chongyang Gao, Jiawei Peng, Xu Yang, (参考訳) LVLM(Large Vision-Language Models)は、視覚的およびテキストデータの処理と統合に際し、注目を浴びている。 それらの人気にもかかわらず、精密できめ細かいテキスト記述を生成するLVLMの能力は、完全には解明されていない。 本研究は,Open-FlamingoやIDEFICS,MiniGPT-4といったモデルが類似したオブジェクトを識別し,視覚的特徴を正確に記述する方法を評価することによって,このギャップを解消する。 テキスト検索・拡張分類(TRAC)フレームワークを提案し,その生成能力を活用し,より詳細な視覚的記述生成を深く研究する。 本研究は,LVLMの生成品質に関する貴重な知見を提供し,マルチモーダル言語モデルの理解を深める。 特に、MiniGPT-4は細かな記述を生成する能力が優れており、他の2つのモデルよりも優れています。 コードは \url{https://anonymous.4open.science/r/Explore_FGVDs-E277} で提供されている。

Large Vision-Language Models (LVLMs) are gaining traction for their remarkable ability to process and integrate visual and textual data. Despite their popularity, the capacity of LVLMs to generate precise, fine-grained textual descriptions has not been fully explored. This study addresses this gap by focusing on \textit{distinctiveness} and \textit{fidelity}, assessing how models like Open-Flamingo, IDEFICS, and MiniGPT-4 can distinguish between similar objects and accurately describe visual features. We proposed the Textual Retrieval-Augmented Classification (TRAC) framework, which, by leveraging its generative capabilities, allows us to delve deeper into analyzing fine-grained visual description generation. This research provides valuable insights into the generation quality of LVLMs, enhancing the understanding of multimodal language models. Notably, MiniGPT-4 stands out for its better ability to generate fine-grained descriptions, outperforming the other two models in this aspect. The code is provided at \url{https://anonymous.4open.science/r/Explore_FGVDs-E277}.
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# ニューラルインプリシトフローを用いた正準系の潜時ダイナミクスの表現

Using Neural Implicit Flow To Represent Latent Dynamics Of Canonical Systems ( http://arxiv.org/abs/2404.17535v1 )

ライセンス: Link先を確認
Imran Nasim, Joaõ Lucas de Sousa Almeida, (参考訳) 最近導入されたNeural Operatorsとして知られるアーキテクチャのクラスは、データ表現や予測を含むSciML(SciML)分野の幅広いタスクに適用可能な、非常に汎用性の高いツールとして登場した。 本研究では,最近開発されたメッシュに依存しないニューラルインプリシット・フロー (NIF) を用いて,倉本・シヴァシンスキー (KS) や強制コルテフ・ド・ヴリー (fKdV) やシン・ゴルドン (SG) 方程式などの正準系の潜在力学を表現し,それらから動的に関連する情報を抽出する機能について検討した。 最後に,NIFの適用性を次元還元アルゴリズムとして評価し,Deep Operator Networks (DeepONets) として知られる他のニューラルネットワーク群と比較分析を行った。

The recently introduced class of architectures known as Neural Operators has emerged as highly versatile tools applicable to a wide range of tasks in the field of Scientific Machine Learning (SciML), including data representation and forecasting. In this study, we investigate the capabilities of Neural Implicit Flow (NIF), a recently developed mesh-agnostic neural operator, for representing the latent dynamics of canonical systems such as the Kuramoto-Sivashinsky (KS), forced Korteweg-de Vries (fKdV), and Sine-Gordon (SG) equations, as well as for extracting dynamically relevant information from them. Finally we assess the applicability of NIF as a dimensionality reduction algorithm and conduct a comparative analysis with another widely recognized family of neural operators, known as Deep Operator Networks (DeepONets).
翻訳日:2024-04-29 12:35:26 公開日:2024-04-26
# モンテカルロと量子計算法を結合した(2+1)次元量子力学の定式化に向けて

Towards determining the (2+1)-dimensional Quantum Electrodynamics running coupling with Monte Carlo and quantum computing methods ( http://arxiv.org/abs/2404.17545v1 )

ライセンス: Link先を確認
Arianna Crippa, Simone Romiti, Lena Funcke, Karl Jansen, Stefan Kühn, Paolo Stornati, Carsten Urbach, (参考訳) 本稿では,2+1$次元のコンパクトな$U(1)$格子ゲージ理論を検証し,ランニングカップリングの研究と非摂動的な$\Lambda$-parameterの抽出戦略を示す。 この目的のために、モンテカルロのシミュレーションと量子コンピューティングを組み合わせて、前者は$a$の格子の数値を決定できるし、後者はベアカップリングの非常に小さな値で摂動状態に到達することができ、従って$a$の小さな値を得ることができる。 この手法は、小さな格子間隔から非摂動的な大規模格子計算への結果をブリッジする一連のステップ(ステップスケーリング関数)を含む。 現在および近未来の量子デバイス上でのモデルに対処するために、自由度を測る可変アンザッツ回路を提案する。 純粋ゲージの場合に着目して、これらの量子回路は、対応するモンテカルロシミュレーションと一致するように、プラケット演算子の期待値を研究することによって、関連する物理学を捉えることができることを示す。 また、再正規化結合に関係のある静的ポテンシャルと静的力の結果も提示する。 この研究で概説された手順は、物質場を持つアベリア格子ゲージ理論や非アベリア格子ゲージ理論にまで拡張することができ、量子的および古典的手法の両方を用いて格子量子色力学を研究する方法を与えることができる。

In this paper, we examine a compact $U(1)$ lattice gauge theory in $(2+1)$ dimensions and present a strategy for studying the running coupling and extracting the non-perturbative $\Lambda$-parameter. To this end, we combine Monte Carlo simulations and quantum computing, where the former can be used to determine the numerical value of the lattice spacing $a$, and the latter allows for reaching the perturbative regime at very small values of the bare coupling and, correspondingly, small values of $a$. The methodology involves a series of sequential steps (i.e., the step scaling function) to bridge results from small lattice spacings to non-perturbative large-scale lattice calculations. To address the model on current and near-future quantum devices, we propose variational Ansatz circuits adapted to gauge degrees of freedom. Focusing on the pure gauge case, we demonstrate that these quantum circuits are able to capture the relevant physics by studying the expectation value of the plaquette operator, for matching with corresponding Monte Carlo simulations. We also present results for the static potential and static force, which can be related to the renormalized coupling. The procedure outlined in this work can be extended to Abelian and non-Abelian lattice gauge theories with matter fields and might provide a way towards studying lattice quantum chromodynamics utilizing both quantum and classical methods.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# ツイスト列モンテカルロによる言語モデルの確率的推論

Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo ( http://arxiv.org/abs/2404.17546v1 )

ライセンス: Link先を確認
Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse, (参考訳) RLHF, 自動リピート, プロンプトエンジニアリング, インフィルなど, 大規模言語モデル (LLM) の多くの機能と安全性技術は, 与えられた報酬やポテンシャル関数によって定義された正規化対象分布からのサンプリングとして, フルシーケンス上でのサンプリングとして利用することができる。 本研究では、これらの確率論的推論問題に対して、Sequential Monte Carlo (SMC) のリッチツールキットを利用する。 特に,学習されたツイスト関数を用いて各時刻におけるポテンシャルの将来的価値を推定し,予測された部分列に推論時間計算を集中させることができる。 本稿では、ツイスト関数を学習するための新しいコントラスト法を提案し、ソフト強化学習の豊かな文献との結びつきを確立する。 本稿では, 対数分割関数上の新たな双方向SMC境界を用いて, 言語モデル推論手法の精度を評価する手法を提案する。 これらの境界は、両方の方向における推定と目標分布の間のKLのばらつきを推定するために用いられる。 予測評価手法を適用し, 予め訓練したモデルから望ましくない出力(無害トレーニングや自動リピートに有用な要素)を抽出し, 様々な感情でレビューを生成し, 入力タスクを実行するのに有効であることを示す。

Numerous capability and safety techniques of Large Language Models (LLMs), including RLHF, automated red-teaming, prompt engineering, and infilling, can be cast as sampling from an unnormalized target distribution defined by a given reward or potential function over the full sequence. In this work, we leverage the rich toolkit of Sequential Monte Carlo (SMC) for these probabilistic inference problems. In particular, we use learned twist functions to estimate the expected future value of the potential at each timestep, which enables us to focus inference-time computation on promising partial sequences. We propose a novel contrastive method for learning the twist functions, and establish connections with the rich literature of soft reinforcement learning. As a complementary application of our twisted SMC framework, we present methods for evaluating the accuracy of language model inference techniques using novel bidirectional SMC bounds on the log partition function. These bounds can be used to estimate the KL divergence between the inference and target distributions in both directions. We apply our inference evaluation techniques to show that twisted SMC is effective for sampling undesirable outputs from a pretrained model (a useful component of harmlessness training and automated red-teaming), generating reviews with varied sentiment, and performing infilling tasks.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# NISQコンピュータにおけるNMR量子シミュレーションのための量子ユーティリティ

Towards quantum utility for NMR quantum simulation on a NISQ computer ( http://arxiv.org/abs/2404.17548v1 )

ライセンス: Link先を確認
Artemiy Burov, Oliver Nagl, Clément Javerzac-Galy, (参考訳) 最近のノイズ量子プロセッサにおける古典的に難解なシミュレーションの正確な計算の実証は、量子優位性に近づきつつあるが、実際的な問題に対してそれを実証することは依然として困難である。 本稿では、高磁場状態下での核磁気共鳴(NMR)実験をシミュレーションするためのノイズのある中間スケール量子デバイスの適用について検討する。 この研究では、NMR相互作用は最小のリソースオーバーヘッドを持つ積公式によって量子デバイスにマッピングされる。 このアプローチを用いて、最大11個のスピンを持つ関連分子と47個の原子からなる液体プロトンNMRスペクトルのシミュレーション結果を示し、実際のNMR実験と比較する。 現在の制限にもかかわらず、同様のアプローチが最終的に量子ユーティリティーのケースに繋がることを示す。これは、実際に関連する計算問題を量子コンピュータによって解決できるが、従来の方法では解決できないシナリオである。 本稿では,提案手法を用いて,より大規模な問題を解くのに必要な量子リソースの量を実験的に推定する。 私たちが実プロセッサで示した多項式スケーリングは、実用的な量子計算を現実に近づける基本的なステップである。

While the recent demonstration of accurate computations of classically intractable simulations on noisy quantum processors brings quantum advantage closer, there is still the challenge of demonstrating it for practical problems. Here we investigate the application of noisy intermediate-scale quantum devices for simulating nuclear magnetic resonance (NMR) experiments in the high-field regime. In this work, the NMR interactions are mapped to a quantum device via a product formula with minimal resource overhead, an approach that we discuss in detail. Using this approach, we show the results of simulations of liquid-state proton NMR spectra on relevant molecules with up to 11 spins, and up to a total of 47 atoms, and compare them with real NMR experiments. Despite current limitations, we show that a similar approach will eventually lead to a case of quantum utility, a scenario where a practically relevant computational problem can be solved by a quantum computer but not by conventional means. We provide an experimental estimation of the amount of quantum resources needed for solving larger instances of the problem with the presented approach. The polynomial scaling we demonstrate on real processors is a foundational step in bringing practical quantum computation closer to reality.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# ジェンダーと年齢別話者コーパス作成のための半自動的アプローチ:話者ダイアリゼーションと識別の有用性

A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification ( http://arxiv.org/abs/2404.17552v1 )

ライセンス: Link先を確認
Rémi Uro, David Doukhan, Albert Rilliard, Laëtitia Larcher, Anissa-Claire Adgharouamane, Marie Tahon, Antoine Laurent, (参考訳) 本稿では,32カテゴリー(性別2つ,年齢4つ,録音期間4つ)に応じて,話者の年齢,性別,録音期間のバランスを保ったダイアクロニックコーパスを作成するための半自動アプローチを提案する。 コーパスはフランス国立オーディオヴィジュアル研究所 (INA) に選ばれ、少なくとも30の話者(計960人の話者がいた。 各話者に対して, 音声検出, 背景音楽, 重なり合う音声除去, 話者ダイアリゼーションからなる自動パイプラインを用いて, 対象話者を特定するアノテータにクリーンな話者セグメントを提示する。 このパイプラインは非常に効果的で、手作業の処理を10倍に削減した。 自動処理の品質と最終出力の評価を行う。 自動処理を最新の処理と比較し,抽出した抽出語の大部分に対して高品質な音声を提供する。 この方法は、既知のターゲット話者の大きなコーパスを作成することを約束する。

This paper presents a semi-automatic approach to create a diachronic corpus of voices balanced for speaker's age, gender, and recording period, according to 32 categories (2 genders, 4 age ranges and 4 recording periods). Corpora were selected at French National Institute of Audiovisual (INA) to obtain at least 30 speakers per category (a total of 960 speakers; only 874 have be found yet). For each speaker, speech excerpts were extracted from audiovisual documents using an automatic pipeline consisting of speech detection, background music and overlapped speech removal and speaker diarization, used to present clean speaker segments to human annotators identifying target speakers. This pipeline proved highly effective, cutting down manual processing by a factor of ten. Evaluation of the quality of the automatic processing and of the final output is provided. It shows the automatic processing compare to up-to-date process, and that the output provides high quality speech for most of the selected excerpts. This method shows promise for creating large corpora of known target speakers.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 効率的なVNFプロファイリングに向けたフェデレート転送成分分析

Federated Transfer Component Analysis Towards Effective VNF Profiling ( http://arxiv.org/abs/2404.17553v1 )

ライセンス: Link先を確認
Xunzheng ZhangB, Shadi Moazzeni, Juan Marcelo Parra-Ullauri, Reza Nejabati, Dimitra Simeonidou, (参考訳) 知識伝達とデータプライバシに関する懸念の高まりは、ネットワークにおける従来の収集と分析のパラダイムに挑戦する。 具体的には、仮想ネットワーク関数(VNF)のインテリジェントなオーケストレーションには、リソース消費の理解とプロファイリングが必要である。 しかし、あらゆる種類のVNFのプロファイリングには時間がかかる。 データの非公開性を維持しながら、よく知られたVNF知識を他の注目されていないVNFタイプに転送することを検討することが重要である。 そこで本研究では,ソースとターゲットVNF間のFederated Transfer Component Analysis(FTCA)手法を提案する。 FTCAは、まずソースVNFプロファイリングデータに基づいてGAN(Generative Adversarial Networks)を訓練し、トレーニングされたGANsモデルをターゲットVNFドメインに送信する。 そして、FTCAは、生成されたソースVNFデータを使用して、生データをローカルに保持しつつ、ターゲットVNFプロファイリングデータを少なくすることで、フェデレートされたドメイン適応を実現する。 実験により、提案されたFTCAは、ターゲットVNFに必要なリソースを効果的に予測できることが示されている。 具体的には、回帰モデルのRMSE指数は38.5%減少し、R2乗計量は68.6%上昇する。

The increasing concerns of knowledge transfer and data privacy challenge the traditional gather-and-analyse paradigm in networks. Specifically, the intelligent orchestration of Virtual Network Functions (VNFs) requires understanding and profiling the resource consumption. However, profiling all kinds of VNFs is time-consuming. It is important to consider transferring the well-profiled VNF knowledge to other lack-profiled VNF types while keeping data private. To this end, this paper proposes a Federated Transfer Component Analysis (FTCA) method between the source and target VNFs. FTCA first trains Generative Adversarial Networks (GANs) based on the source VNF profiling data, and the trained GANs model is sent to the target VNF domain. Then, FTCA realizes federated domain adaptation by using the generated source VNF data and less target VNF profiling data, while keeping the raw data locally. Experiments show that the proposed FTCA can effectively predict the required resources for the target VNF. Specifically, the RMSE index of the regression model decreases by 38.5% and the R-squared metric advances up to 68.6%.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# マルチバンドハバード系における超低温フェルミオンの強磁性

Ferrimagnetism of ultracold fermions in a multi-band Hubbard system ( http://arxiv.org/abs/2404.17555v1 )

ライセンス: Link先を確認
Martin Lebrat, Anant Kale, Lev Haldar Kendrick, Muqing Xu, Youqi Gang, Alexander Nikolaenko, Subir Sachdev, Markus Greiner, (参考訳) 強い相関を持つ物質は複数の電子軌道を特徴とし、カップレート材料からツイストした二層グラフェンまで、その多体特性を正確に理解することが重要である。 このようなマルチバンドモデルでは、量子干渉は分散のないバンドにつながり、その大きな縮退は弱い相互作用であっても反復磁性を引き起こす。 ここでは, 反強磁性相関を持つ反強磁性モーメントと有限スピン偏極を持つ反強磁性モーメントを特徴とする, リーブ格子で実現された強磁性状態のシグネチャについて報告する。 本研究では,非相互作用系からハイゼンベルク系への反発相互作用を増大させるときの強靭性を示すとともに,格子単位セルを正方形からリーブ幾何学へ連続的にチューニングする場合の出現について検討する。 我々の研究は、カゴメ格子の量子スピン液体や近藤模型の重いフェルミオン挙動など、関連する多軌道モデルにおけるエキゾチック相の探索への道を開いた。

Strongly correlated materials feature multiple electronic orbitals which are crucial to accurately understand their many-body properties, from cuprate materials to twisted bilayer graphene. In such multi-band models, quantum interference can lead to dispersionless bands whose large degeneracy gives rise to itinerant magnetism even with weak interactions. Here, we report on signatures of a ferrimagnetic state realized in a Lieb lattice at half-filling, characterized by antialigned magnetic moments with antiferromagnetic correlations, concomitant with a finite spin polarization. We demonstrate its robustness when increasing repulsive interactions from the non-interacting to the Heisenberg regime, and study its emergence when continuously tuning the lattice unit cell from a square to a Lieb geometry. Our work paves the way towards exploring exotic phases in related multi-orbital models such as quantum spin liquids in kagome lattices and heavy fermion behavior in Kondo models.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 希釈1次元$XX$模型におけるスピンヘリスのダイナミクス

Dynamics of spin helices in the diluted one-dimensional $XX$ model ( http://arxiv.org/abs/2404.17558v1 )

ライセンス: Link先を確認
Darren Pereira, Erich J. Mueller, (参考訳) 最近のコールド原子実験と関連する理論の相違により、我々は1次元の$XX$モデルのスピンヘリックスの量子力学に対するインモービルホールの効果を探求した。 我々は、相互作用しないフェルミオンの系にマッピングして正確なスピンダイナミクスを計算し、ホールの分布を平均化する。 小孔密度では、ヘリカルスピンパターンは指数関数的に崩壊し、ピッチ依存は実験に一致する。 大きな穴密度では、持続的な振動が見つかる。 解析的アプローチは任意の異方性を持つ$XXZ$モデルには一般化しないが、これらの設定で実験をモデル化するために用いられる行列積状態技術を検証する。

Motivated by discrepancies between recent cold atom experiments and the associated theory, we explore the effect of immobile holes on the quantum dynamics of $x$-$z$ spin helices in the one-dimensional $XX$ model. We calculate the exact spin dynamics by mapping onto a system of non-interacting fermions, averaging over the distribution of holes. At small hole densities we find that the helical spin pattern decays exponentially, with a pitch dependence that agrees with the experiments. At large hole densities we instead find persistent oscillations. While our analytic approach does not generalize to the $XXZ$ model with arbitrary anisotropies, we validate a matrix product state technique which might be used to model the experiments in those settings.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# スケーラブルな変動量子シミュレーションのための多体ローカライゼーション

Exploiting many-body localization for scalable variational quantum simulation ( http://arxiv.org/abs/2404.17560v1 )

ライセンス: Link先を確認
Chenfeng Cao, Yeqing Zhou, Swamit Tannu, Nic Shannon, Robert Joynt, (参考訳) 変分量子アルゴリズムは、短期量子デバイスを用いた実用的な量子アドバンテージを達成するための有望なアプローチとして登場した。 その可能性にもかかわらず、これらのアルゴリズムのスケーラビリティは大きな課題となる。 これは、ノイズがなくても持続する「不規則な高原」現象に大きく起因している。 本研究では,Floquet-initialized variational quantum circuitsの枠組み内での多体局在化(MBL)熱化相転移について検討し,MBLがバレンプラトーを回避するためにどのように使用できるかを検討する。 位相遷移は、逆参加比、エンタングルメントエントロピー、および計量として「text{low-weight stabilityr R\'enyi entropy}」の計算によって観測される。 本研究の重要な要素は、127量子ビットのIBMQ Brisbane量子プロセッサを用いた相転移の実験的検証である。 MBL相の回路を初期化し、容易に準備可能な初期状態を用いることで、ユニタリな2-設計の形成を防止でき、その結果、体積法ではなく領域を絡み合う出力状態となり、最適化を通してバレンプラトーを回避できる。 この手法を用いることで、異なるフェーズにわたる様々なモデルハミルトンの基底状態の判定に成功し、最適化に必要なリソースが大幅に削減されることを示す。 これらの結果は、MBLと量子コンピューティングの相互作用に関する新たな洞察を与え、量子アルゴリズムの設計において、MBL状態の役割を考慮するべきであることを示唆している。

Variational quantum algorithms have emerged as a promising approach to achieving practical quantum advantages using near-term quantum devices. Despite their potential, the scalability of these algorithms poses a significant challenge. This is largely attributed to the "barren plateau" phenomenon, which persists even in the absence of noise. In this work, we explore the many-body localization (MBL)-thermalization phase transitions within a framework of Floquet-initialized variational quantum circuits and investigate how MBL could be used to avoid barren plateaus. The phase transitions are observed through calculations of the inverse participation ratio, the entanglement entropy, and a metric termed \text{low-weight stabilizer R\'enyi entropy}. A critical element of our study involves the experimental validation of the phase transitions using the 127-qubit IBMQ Brisbane quantum processor. By initializing the circuit in the MBL phase and employing an easily preparable initial state, we find it is possible to prevent the formation of a unitary 2-design, resulting in an output state with entanglement that follows an area- rather than a volume-law, and which circumvents barren plateaus throughout the optimization. Utilizing this methodology, we successfully determine the ground states of various model Hamiltonians across different phases and show that the resources required for the optimization are significantly reduced. These results provide new insights into the interplay between MBL and quantum computing and suggest that the role of MBL states should be considered in the design of quantum algorithms.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 行列補完に対する構造的等角的推論と群 Recommender システムへの応用

Structured Conformal Inference for Matrix Completion with Applications to Group Recommender Systems ( http://arxiv.org/abs/2404.17561v1 )

ライセンス: Link先を確認
Ziyi Liang, Tianmin Xie, Xin Tong, Matteo Sesia, (参考訳) 本手法は, スパースマトリクス内において, 欠落したエントリの構造群に対する共形信頼領域を構築するための共形推論法を開発した。 本手法は,グループレベルの協調フィルタリングにおける確実な不確実性推定に有用であり,例えば,友人同士が一緒に見る映画の提案に役立てることができる。 本手法は,1個ずつの推論を行う標準共形手法とは違って,テストグループ間で期待されるパターンを模倣した構造的キャリブレーションデータセットを慎重に組み立てることで,より強力なグループレベルの保証を実現する。 本稿では、そのような構造的キャリブレーションによる交換可能性の欠如に対処する一般化された重み付き共形化フレームワークを提案する。 本手法の実用性と有効性は,広範囲な数値実験とMovieLens 100Kデータセットの解析により実証された。

We develop a conformal inference method to construct joint confidence regions for structured groups of missing entries within a sparsely observed matrix. This method is useful to provide reliable uncertainty estimation for group-level collaborative filtering; for example, it can be applied to help suggest a movie for a group of friends to watch together. Unlike standard conformal techniques, which make inferences for one individual at a time, our method achieves stronger group-level guarantees by carefully assembling a structured calibration data set mimicking the patterns expected among the test group of interest. We propose a generalized weighted conformalization framework to deal with the lack of exchangeability arising from such structured calibration, and in this process we introduce several innovations to overcome computational challenges. The practicality and effectiveness of our method are demonstrated through extensive numerical experiments and an analysis of the MovieLens 100K data set.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 出現法則とスケーリング法則を正確に解けるモデル

An exactly solvable model for emergence and scaling laws ( http://arxiv.org/abs/2404.17563v1 )

ライセンス: Link先を確認
Yoonsoo Nam, Nayara Fonseca, Seok Hyeong Lee, Ard Louis, (参考訳) ディープラーニングモデルは、トレーニング時間(T$)、トレーニングデータ(D$)、モデルサイズ(N$)が増加するにつれて、新しい問題を解決する突然の能力を示す。 本稿では,新たな能力(スキル)を基礎関数として表現する枠組みを提案する。 このスキルベイジでは,新たなスキルの出現に関する解析式と,トレーニング時間,データサイズ,モデルサイズ,最適計算(C$)による損失の法則のスケーリングという,シンプルなマルチ線形モデルを解く。 我々は、詳細な計算結果をマルチタスクスパースパリティに基づいてトレーニングされた2層ニューラルネットワークの直接シミュレーションと比較する。 私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。

Deep learning models can exhibit what appears to be a sudden ability to solve a new problem as training time ($T$), training data ($D$), or model size ($N$) increases, a phenomenon known as emergence. In this paper, we present a framework where each new ability (a skill) is represented as a basis function. We solve a simple multi-linear model in this skill-basis, finding analytic expressions for the emergence of new skills, as well as for scaling laws of the loss with training time, data size, model size, and optimal compute ($C$). We compare our detailed calculations to direct simulations of a two-layer neural network trained on multitask sparse parity, where the tasks in the dataset are distributed according to a power-law. Our simple model captures, using a single fit parameter, the sigmoidal emergence of multiple new skills as training time, data size or model size increases in the neural network.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# ChangeBind: リモートセンシングによる変更検出のためのハイブリッドな変更エンコーダ

ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection ( http://arxiv.org/abs/2404.17565v1 )

ライセンス: Link先を確認
Mubashir Noman, Mustansar Fiaz, Hisham Cholakkal, (参考訳) 変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。 既存の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、しばしば長距離依存関係をキャプチャするのに苦労する。 しかし、最近のトランスフォーマーベースの手法は、大域的な表現が支配的になりがちであり、シーン内のオブジェクトの複雑さのために微妙な変化領域をキャプチャする能力を制限する可能性がある。 これらの制約に対処するため、両時間RS画像に生じる意味変化を符号化する効果的なシームズベースのフレームワークを提案する。 我々の設計の主な焦点は、ローカルおよびグローバルな特徴表現を利用して、マルチスケールの特徴から微妙かつ大規模な特徴情報を捕捉し、変化領域を正確に推定する変更エンコーダの導入である。 2つの挑戦CDデータセットに関する実験的研究は、我々のアプローチの利点を明らかにし、最先端のパフォーマンスを得る。

Change detection (CD) is a fundamental task in remote sensing (RS) which aims to detect the semantic changes between the same geographical regions at different time stamps. Existing convolutional neural networks (CNNs) based approaches often struggle to capture long-range dependencies. Whereas recent transformer-based methods are prone to the dominant global representation and may limit their capabilities to capture the subtle change regions due to the complexity of the objects in the scene. To address these limitations, we propose an effective Siamese-based framework to encode the semantic changes occurring in the bi-temporal RS images. The main focus of our design is to introduce a change encoder that leverages local and global feature representations to capture both subtle and large change feature information from multi-scale features to precisely estimate the change regions. Our experimental study on two challenging CD datasets reveals the merits of our approach and obtains state-of-the-art performance.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# MaPa:3次元形状のためのテキスト駆動フォトリアリスティックマテリアルペイント

MaPa: Text-driven Photorealistic Material Painting for 3D Shapes ( http://arxiv.org/abs/2404.17569v1 )

ライセンス: Link先を確認
Shangzhan Zhang, Sida Peng, Tao Xu, Yuanbo Yang, Tianrun Chen, Nan Xue, Yujun Shen, Hujun Bao, Ruizhen Hu, Xiaowei Zhou, (参考訳) 本稿では,テキスト記述から3次元メッシュの材料を作成することを目的とする。 テクスチャマップを合成する既存の方法とは違って,高品質なレンダリングをサポートし,編集の柔軟性に優れる外観表現として,セグメントワイズプロシージャ素材グラフを生成することを提案する。 物質グラフとそれに対応するテキスト記述を含む3次元メッシュを併用して,物質グラフ生成モデルをトレーニングする代わりに,既学習の2次元拡散モデルをブリッジとして活用し,テキストと物質グラフを接続する手法を提案する。 具体的には,形状をセグメントの集合に分解し,メッシュ部品に整列した2次元画像を合成するためのセグメント制御拡散モデルを設計する。 生成した画像に基づいて、材料グラフのパラメータを初期化し、それを微分可能なレンダリングモジュールを通して微調整し、テキスト記述に従って材料を生成する。 大規模な実験は、既存の方法よりもフォトリアリズム、解像度、編集性において、我々のフレームワークの優れた性能を示す。 プロジェクトページ: https://zhanghe3z.github.io/MaPa/

This paper aims to generate materials for 3D meshes from text descriptions. Unlike existing methods that synthesize texture maps, we propose to generate segment-wise procedural material graphs as the appearance representation, which supports high-quality rendering and provides substantial flexibility in editing. Instead of relying on extensive paired data, i.e., 3D meshes with material graphs and corresponding text descriptions, to train a material graph generative model, we propose to leverage the pre-trained 2D diffusion model as a bridge to connect the text and material graphs. Specifically, our approach decomposes a shape into a set of segments and designs a segment-controlled diffusion model to synthesize 2D images that are aligned with mesh parts. Based on generated images, we initialize parameters of material graphs and fine-tune them through the differentiable rendering module to produce materials in accordance with the textual description. Extensive experiments demonstrate the superior performance of our framework in photorealism, resolution, and editability over existing methods. Project page: https://zhanghe3z.github.io/MaPa/
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 光量子コンピューティングのための製造可能なプラットフォーム

A manufacturable platform for photonic quantum computing ( http://arxiv.org/abs/2404.17570v1 )

ライセンス: Link先を確認
Koen Alexander, Andrea Bahgat, Avishai Benyamini, Dylan Black, Damien Bonneau, Stanley Burgos, Ben Burridge, Geoff Campbell, Gabriel Catalano, Alex Ceballos, Chia-Ming Chang, CJ Chung, Fariba Danesh, Tom Dauer, Michael Davis, Eric Dudley, Ping Er-Xuan, Josep Fargas, Alessandro Farsi, Colleen Fenrich, Jonathan Frazer, Masaya Fukami, Yogeeswaran Ganesan, Gary Gibson, Mercedes Gimeno-Segovia, Sebastian Goeldi, Patrick Goley, Ryan Haislmaier, Sami Halimi, Paul Hansen, Sam Hardy, Jason Horng, Matthew House, Hong Hu, Mehdi Jadidi, Henrik Johansson, Thomas Jones, Vimal Kamineni, Nicholas Kelez, Ravi Koustuban, George Kovall, Peter Krogen, Nikhil Kumar, Yong Liang, Nicholas LiCausi, Dan Llewellyn, Kimberly Lokovic, Michael Lovelady, Vitor Manfrinato, Ann Melnichuk, Mario Souza, Gabriel Mendoza, Brad Moores, Shaunak Mukherjee, Joseph Munns, Francois-Xavier Musalem, Faraz Najafi, Jeremy L. O'Brien, J. Elliott Ortmann, Sunil Pai, Bryan Park, Hsuan-Tung Peng, Nicholas Penthorn, Brennan Peterson, Matt Poush, Geoff J. Pryde, Tarun Ramprasad, Gareth Ray, Angelita Rodriguez, Brian Roxworthy, Terry Rudolph, Dylan J. Saunders, Pete Shadbolt, Deesha Shah, Hyungki Shin, Jake Smith, Ben Sohn, Young-Ik Sohn, Gyeongho Son, Chris Sparrow, Matteo Staffaroni, Camille Stavrakas, Vijay Sukumaran, Davide Tamborini, Mark G. Thompson, Khanh Tran, Mark Triplet, Maryann Tung, Alexey Vert, Mihai D. Vidrighin, Ilya Vorobeichik, Peter Weigel, Mathhew Wingert, Jamie Wooding, Xinran Zhou, (参考訳) 低いノイズ、操作の容易さ、ネットワークに対する大きな期待にもかかわらず、数百万人が製造する最先端のコンポーネントの必要性により、有用なフォトニック量子コンピューティングは妨げられている。 ここでは、光子を用いた量子コンピューティングのための製造可能なプラットフォームを紹介する。 我々は、モノリシックに集積されたシリコンフォトニクスベースのモジュールのセットをベンチマークし、フォトニック量子ビットの生成、操作、検出、デュアルレールフォトニック量子ビットの99.98\% \pm 0.01\%$状態準備と測定フィリティ、香港・マンデル量子干渉の99.50\%\pm0.25\%$可視性、99.22\%\pm0.12\%$フィリティの2量子ビット融合、チップとチップの量子ビットの99.72\%\pm0.04\%$フィディティの相互接続を検証した。 さらに, 次世代技術として, 低損失窒化ケイ素導波路および成分, 耐光性光子源, 高効率光子数分解検出器, 低損失チップ-ファイバーカップリング, チタン酸バリウム相変圧器を試作した。

Whilst holding great promise for low noise, ease of operation and networking, useful photonic quantum computing has been precluded by the need for beyond-state-of-the-art components, manufactured by the millions. Here we introduce a manufacturable platform for quantum computing with photons. We benchmark a set of monolithically-integrated silicon photonics-based modules to generate, manipulate, network, and detect photonic qubits, demonstrating dual-rail photonic qubits with $99.98\% \pm 0.01\%$ state preparation and measurement fidelity, Hong-Ou-Mandel quantum interference between independent photon sources with $99.50\%\pm0.25\%$ visibility, two-qubit fusion with $99.22\%\pm0.12\%$ fidelity, and a chip-to-chip qubit interconnect with $99.72\%\pm0.04\%$ fidelity, not accounting for loss. In addition, we preview a selection of next generation technologies, demonstrating low-loss silicon nitride waveguides and components, fabrication-tolerant photon sources, high-efficiency photon-number-resolving detectors, low-loss chip-to-fiber coupling, and barium titanate electro-optic phase shifters.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# トンネル試行:高品位仮想試行のための時空間トンネル掘削

Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos ( http://arxiv.org/abs/2404.17571v1 )

ライセンス: Link先を確認
Zhengze Xu, Mengting Chen, Zhao Wang, Linyu Xing, Zhonghua Zhai, Nong Sang, Jinsong Lan, Shuai Xiao, Changxin Gao, (参考訳) ビデオの試行は難しい作業であり、以前の作品ではうまく取り組んでいない。 主な障害は、衣服の詳細を保存し、コヒーレントな動きを同時にモデル化することである。 このような困難に直面して,拡散型フレームワークであるTunnel Try-onを提案することで,ビデオトライオンに対処する。 中心となるアイデアは、入力ビデオで「フォーカストンネル」を発掘し、衣服の周辺をクローズアップすることです。 われわれはトンネル内の地域を拡大して、衣服の細部をよりよく保存する。 コヒーレントな動きを生成するために、まずカルマンフィルタを利用してフォーカストンネル内の滑らかな作物を構築し、トンネルの位置埋め込みを注意層に注入し、生成したビデオの連続性を改善する。 さらに,トンネル外の文脈情報を補足手段として抽出する環境エンコーダを開発した。 これらのテクニックを取り入れたTunnel Try-onは、衣服の細部を保存し、安定したスムーズなビデオを合成する。 トンネルトライオンは、重要な進歩を示すものとして、ビデオにおける仮想トライオンの商業レベルの応用に向けた最初の試みと見なすことができる。

Video try-on is a challenging task and has not been well tackled in previous works. The main obstacle lies in preserving the details of the clothing and modeling the coherent motions simultaneously. Faced with those difficulties, we address video try-on by proposing a diffusion-based framework named "Tunnel Try-on." The core idea is excavating a "focus tunnel" in the input video that gives close-up shots around the clothing regions. We zoom in on the region in the tunnel to better preserve the fine details of the clothing. To generate coherent motions, we first leverage the Kalman filter to construct smooth crops in the focus tunnel and inject the position embedding of the tunnel into attention layers to improve the continuity of the generated videos. In addition, we develop an environment encoder to extract the context information outside the tunnels as supplementary cues. Equipped with these techniques, Tunnel Try-on keeps the fine details of the clothing and synthesizes stable and smooth videos. Demonstrating significant advancements, Tunnel Try-on could be regarded as the first attempt toward the commercial-level application of virtual try-on in videos.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 超電導量子コンピュータにおける最大カット問題に対する量子最適化

Quantum Optimization for the Maximum Cut Problem on a Superconducting Quantum Computer ( http://arxiv.org/abs/2404.17579v1 )

ライセンス: Link先を確認
Maxime Dupont, Bhuvanesh Sundar, Bram Evert, David E. Bernal Neira, Zedong Peng, Stephen Jeffrey, Mark J. Hodson, (参考訳) 計算的に難しい問題に対する古典的解法よりも高速に高品質な解を得ることは、実用性を実現するための量子最適化の課題である。 超伝導量子コンピュータを用いて,数千変数までの3つの正則グラフ上の最大カット問題を解くための半定値プログラミング手法に着想を得たハイブリッド量子古典アルゴリズムの性能を実験的に検討した。 入力問題の構造を利用して、現在の量子マシンがナビゲートで扱える範囲を超えて、サイズに対処します。 何千もの問題インスタンスのランダムアンサンブルに対して平均99%のパフォーマンスを達成した。 我々は、グロビオプティマイザ、シミュレートされたアニーリング、ブラー・モンティロアルゴリズムなど、同様に高性能な古典的ヒューリスティックスに対して量子解法をベンチマークする。 実行時解析により、大規模問題における量子解法は、グロビと競合するが、他の問題には劣ることを示した。 ギャップを埋めるために複数の手がかりを探索し、実用的な量子スピードアップの可能性について議論する。

Achieving high-quality solutions faster than classical solvers on computationally hard problems is a challenge for quantum optimization to deliver utility. Using a superconducting quantum computer, we experimentally investigate the performance of a hybrid quantum-classical algorithm inspired by semidefinite programming approaches for solving the maximum cut problem on 3-regular graphs up to several thousand variables. We leverage the structure of the input problems to address sizes beyond what current quantum machines can naively handle. We attain an average performance of 99% over a random ensemble of thousands of problem instances. We benchmark the quantum solver against similarly high-performing classical heuristics, including the Gurobi optimizer, simulated annealing, and the Burer-Monteiro algorithm. A runtime analysis shows that the quantum solver on large-scale problems is competitive against Gurobi but short of others. We explore multiple leads to close the gap and discuss prospects for a practical quantum speedup.
翻訳日:2024-04-29 12:25:41 公開日:2024-04-26
# 自律走行におけるニューラル・ラジアンス・フィールド:サーベイ

Neural Radiance Field in Autonomous Driving: A Survey ( http://arxiv.org/abs/2404.13816v2 )

ライセンス: Link先を確認
Lei He, Leheng Li, Wenchao Sun, Zeyu Han, Yichen Liu, Sifa Zheng, Jianqiang Wang, Keqiang Li, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、その固有の利点、特に暗黙の表現と新しいビュー合成能力によって、学術と産業の両方から大きな注目を集めている。 ディープラーニングの急速な進歩に伴い、自律運転(AD)分野におけるNeRFの潜在的な応用を探求する様々な手法が出現している。 しかし、現在の文献には明らかな空白がある。 このギャップを埋めるために,本論文では,AD の文脈における NeRF の応用を包括的に調査する。 本調査は,知覚,3次元再構成,同時局所化とマッピング(SLAM),シミュレーションなど,NeRFの自律運転(AD)への応用を分類するために構成されている。 我々は、詳細な分析を掘り下げ、各アプリケーションカテゴリの調査結果をまとめ、この分野の今後の方向性についての洞察と議論を提供することで結論付ける。 この論文が、この分野の研究者の包括的な参考になることを期待している。 私たちの知る限りでは、自動運転分野におけるNeRFの適用に特に焦点を絞った調査としては、これが初めてです。

Neural Radiance Field (NeRF) has garnered significant attention from both academia and industry due to its intrinsic advantages, particularly its implicit representation and novel view synthesis capabilities. With the rapid advancements in deep learning, a multitude of methods have emerged to explore the potential applications of NeRF in the domain of Autonomous Driving (AD). However, a conspicuous void is apparent within the current literature. To bridge this gap, this paper conducts a comprehensive survey of NeRF's applications in the context of AD. Our survey is structured to categorize NeRF's applications in Autonomous Driving (AD), specifically encompassing perception, 3D reconstruction, simultaneous localization and mapping (SLAM), and simulation. We delve into in-depth analysis and summarize the findings for each application category, and conclude by providing insights and discussions on future directions in this field. We hope this paper serves as a comprehensive reference for researchers in this domain. To the best of our knowledge, this is the first survey specifically focused on the applications of NeRF in the Autonomous Driving domain.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# 死へのボレドム:人工知能研究が自殺行動におけるボレドムの役割を明らかに

Bored to Death: Artificial Intelligence Research Reveals the Role of Boredom in Suicide Behavior ( http://arxiv.org/abs/2404.14057v2 )

ライセンス: Link先を確認
Shir Lissak, Yaakov Ophir, Refael Tikochinski, Anat Brunstein Klomek, Itay Sisso, Eyal Fruchter, Roi Reichart, (参考訳) 背景: 人工知能(AI)の最近の進歩は自殺評価に大きく貢献しているが, この複雑な行動に関する理論的理解はいまだに限られている。 目的: この研究は、自殺行為を誘発または悪化させる隠れた危険因子を明らかにするために、AI方法論を活用することを目的としている。 メソッド: 主要なデータセットは、228,052人のFacebook投稿で1006人のユーザーが参加し、ゴールドスタンダードのColumbia Suicide Severity Rating Scaleを完了した。 このデータセットは、予備仮説のないボトムアップ研究パイプラインを用いて分析され、新しいデータセットのトップダウン分析を用いてその結果が検証された。 このセカンダリデータセットには、同じ自殺尺度に対する1,062人の参加者の反応と、うつ病と退屈をよく測定した尺度が含まれていた。 結果: ほぼ完全に自動化されたAI誘導研究パイプラインは、自殺のリスクを予測するFacebookのトピック4つに結実した。 APA PsycInfoを用いた総合的な文献レビューでは、退屈は自殺のユニークな危険因子として認識されることは滅多にないことがわかった。 二次データセットの相補的なトップダウンパス解析により、うつ病を介する退屈と自殺の間接的関係が明らかになった。 メインのFacebookデータセットでも、同等の媒介関係が観察された。 しかし、ここでは、退屈と自殺リスクの直接的な関係も観察された。 結論: AIメソッドを統合することで、未調査の自殺リスクファクタの発見が可能になった。 この研究は、抑うつによらず自殺行為を引き起こす可能性のある、不適応な「不注意」として退屈を示唆している。 さらなる研究は、この重荷、時には実存的な経験に臨床医の注意を向けるよう推奨されている。

Background: Recent advancements in Artificial Intelligence (AI) contributed significantly to suicide assessment, however, our theoretical understanding of this complex behavior is still limited. Objective: This study aimed to harness AI methodologies to uncover hidden risk factors that trigger or aggravate suicide behaviors. Method: The primary dataset included 228,052 Facebook postings by 1,006 users who completed the gold-standard Columbia Suicide Severity Rating Scale. This dataset was analyzed using a bottom-up research pipeline without a-priory hypotheses and its findings were validated using a top-down analysis of a new dataset. This secondary dataset included responses by 1,062 participants to the same suicide scale as well as to well-validated scales measuring depression and boredom. Results: An almost fully automated, AI-guided research pipeline resulted in four Facebook topics that predicted the risk of suicide, of which the strongest predictor was boredom. A comprehensive literature review using APA PsycInfo revealed that boredom is rarely perceived as a unique risk factor of suicide. A complementing top-down path analysis of the secondary dataset uncovered an indirect relationship between boredom and suicide, which was mediated by depression. An equivalent mediated relationship was observed in the primary Facebook dataset as well. However, here, a direct relationship between boredom and suicide risk was also observed. Conclusions: Integrating AI methods allowed the discovery of an under-researched risk factor of suicide. The study signals boredom as a maladaptive 'ingredient' that might trigger suicide behaviors, regardless of depression. Further studies are recommended to direct clinicians' attention to this burdening, and sometimes existential experience.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# リカレントニューラルネットワークを用いた土地表面モデルにおける河川水のルーティングに向けて

Toward Routing River Water in Land Surface Models with Recurrent Neural Networks ( http://arxiv.org/abs/2404.14212v2 )

ライセンス: Link先を確認
Mauricio Lima, Katherine Deck, Oliver R. A. Dunbar, Tapio Schneider, (参考訳) 機械学習は、物理ベースのモデルを補う、または置き換えるなど、水文学においてますます重要な役割を担っている。 注目すべき例として、観測された降水量と地理的特性からストリームフローを予測するために、リカレントニューラルネットワーク(RNN)を使用することが挙げられる。 アメリカ合衆国大陸でのそのようなモデルの訓練は、独立した捕食者間で1組のモデルパラメータを使用できること、RNNが物理学に基づくモデルより優れていることを証明している。 本研究では,ランドサーフェスモデル(LSM)における河川ルーティングのためのRNNの性能について検討する。 観測された降水の代わりに、LSM-RNNは物理モデルから計算された瞬時流出を入力として使用する。 我々は、地球にまたがる河川流域のデータを用いてモデルを訓練し、流れのヒンドキャストでテストする。 このモデルは、盆地(目に見えないキャッチメントにおけるストリームフローの予測)と時間(トレーニングに使用されていない数年間のストリームフローの予測)をまたいだ一般化のスキルを示す。 LSM-RNNの予測と、類似したデータセットで校正された既存の物理モデルを比較し、LSM-RNNが物理モデルより優れていることを確認する。 以上の結果から,RNNはアウトオブインプットからグローバルなストリームフロー予測に有効であることを示すとともに,ネストしたサブバス接続を捕捉可能な完全なルーティングモデルの開発を動機付けている。

Machine learning is playing an increasing role in hydrology, supplementing or replacing physics-based models. One notable example is the use of recurrent neural networks (RNNs) for forecasting streamflow given observed precipitation and geographic characteristics. Training of such a model over the continental United States has demonstrated that a single set of model parameters can be used across independent catchments, and that RNNs can outperform physics-based models. In this work, we take a next step and study the performance of RNNs for river routing in land surface models (LSMs). Instead of observed precipitation, the LSM-RNN uses instantaneous runoff calculated from physics-based models as an input. We train the model with data from river basins spanning the globe and test it in streamflow hindcasts. The model demonstrates skill at generalization across basins (predicting streamflow in unseen catchments) and across time (predicting streamflow during years not used in training). We compare the predictions from the LSM-RNN to an existing physics-based model calibrated with a similar dataset and find that the LSM-RNN outperforms the physics-based model. Our results give further evidence that RNNs are effective for global streamflow prediction from runoff inputs and motivate the development of complete routing models that can capture nested sub-basis connections.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# Prompt-Guided Multimodal Interaction を用いた物語行動評価

Narrative Action Evaluation with Prompt-Guided Multimodal Interaction ( http://arxiv.org/abs/2404.14471v2 )

ライセンス: Link先を確認
Shiyi Zhang, Sule Bai, Guangyi Chen, Lei Chen, Jiwen Lu, Junle Wang, Yansong Tang, (参考訳) 本稿では,ナラティブ・アクション・アセスメント(NAE)と呼ばれる新たな課題について検討する。 NAEは、行動の実行を評価する専門家のコメントを作成することを目的としている。 スコアベースのアクション品質評価や、表面的な文を含むビデオキャプションといった従来のタスクとは異なり、NAEは自然言語で詳細な物語を作成することに焦点を当てている。 これらの物語は、客観的評価とともに、行動の複雑な記述を提供する。 NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。 既存の解決策の1つは、物語言語と評価情報を別々に予測するマルチタスク学習を使用することである。 しかし,本手法では,タスク間の差異や言語情報と評価情報とのモダリティの違いにより,個々のタスクのパフォーマンスが低下する。 そこで本研究では,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。 このフレームワークは、情報モダリティの異なる相互作用を容易にするために、一対のトランスフォーマーを利用する。 また、スコア回帰タスクをビデオテキストマッチングタスクに変換するプロンプトを使用して、タスクの対話を可能にする。 この分野でさらなる研究を支援するため、我々は、高品質で包括的なアクションナレーションを備えたMTL-AQAとFinGymデータセットを再注釈する。 また,NAEのベンチマークも確立した。 大規模な実験結果から,本手法は学習方法とナイーブなマルチタスク学習法より優れていたことが証明された。 データとコードはhttps://github.com/shiyi-zh0408/NAE_CVPR2024で公開されている。

In this paper, we investigate a new problem called narrative action evaluation (NAE). NAE aims to generate professional commentary that evaluates the execution of an action. Unlike traditional tasks such as score-based action quality assessment and video captioning involving superficial sentences, NAE focuses on creating detailed narratives in natural language. These narratives provide intricate descriptions of actions along with objective evaluations. NAE is a more challenging task because it requires both narrative flexibility and evaluation rigor. One existing possible solution is to use multi-task learning, where narrative language and evaluative information are predicted separately. However, this approach results in reduced performance for individual tasks because of variations between tasks and differences in modality between language information and evaluation information. To address this, we propose a prompt-guided multimodal interaction framework. This framework utilizes a pair of transformers to facilitate the interaction between different modalities of information. It also uses prompts to transform the score regression task into a video-text matching task, thus enabling task interactivity. To support further research in this field, we re-annotate the MTL-AQA and FineGym datasets with high-quality and comprehensive action narration. Additionally, we establish benchmarks for NAE. Extensive experiment results prove that our method outperforms separate learning methods and naive multi-task learning methods. Data and code are released at https://github.com/shiyi-zh0408/NAE_CVPR2024.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# Describe-then-Reason: Visual Comprehension Training によるマルチモーダル数学的推論の改善

Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training ( http://arxiv.org/abs/2404.14604v3 )

ライセンス: Link先を確認
Mengzhao Jia, Zhihan Zhang, Wenhao Yu, Fangkai Jiao, Meng Jiang, (参考訳) オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れていますが、GPT-4V(ision)やGemini-Proといったプロプライエタリなモデルに遅れを取っている複雑なマルチモーダル数学的推論に苦戦しています。 中間段階(すなわち理性)による微調整は、いくつかの数学的推論スキルを引き出すが、結果として得られるモデルは、まだ視覚中心の監督が不十分なため、視覚的理解に乏しく、数学の数字の正確な解釈に繋がる。 この問題に対処するために,2段階のトレーニングパイプラインVCARを提案する。 まず、視覚的記述生成タスクを通じてMLLMの視覚的理解能力を向上し、次に、説明の助けを借りて合理性を生成するための別の訓練ステップを行う。 2つの人気のあるベンチマーク実験の結果、VCARは、特に高い視覚的要求のある問題において、合理的な監督にのみ依存するベースライン手法を大幅に上回っていることが示された。

Open-source multimodal large language models (MLLMs) excel in various tasks involving textual and visual inputs but still struggle with complex multimodal mathematical reasoning, lagging behind proprietary models like GPT-4V(ision) and Gemini-Pro. Although fine-tuning with intermediate steps (i.e., rationales) elicits some mathematical reasoning skills, the resulting models still fall short in visual comprehension due to inadequate visual-centric supervision, which leads to inaccurate interpretation of math figures. To address this issue, we propose a two-step training pipeline VCAR, which emphasizes the Visual Comprehension training in Addition to mathematical Reasoning learning. It first improves the visual comprehension ability of MLLMs through the visual description generation task, followed by another training step on generating rationales with the assistance of descriptions. Experimental results on two popular benchmarks demonstrate that VCAR substantially outperforms baseline methods solely relying on rationale supervision, especially on problems with high visual demands.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# LEAF: 半教師付き顔表情認識における同一符号の2つの側面の展開

LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition ( http://arxiv.org/abs/2404.15041v2 )

ライセンス: Link先を確認
Fan Zhang, Zhi-Qi Cheng, Jian Zhao, Xiaojiang Peng, Xuelong Li, (参考訳) 半教師付き学習は、表情認識(FER)タスクにおけるラベル不足への挑戦として、有望なアプローチとして現れてきた。 しかし、現在の最先端の手法は、主にコインの片面、すなわち高品質な擬似ラベルを生成することに焦点を当てている。 本稿では,表現関連表現と擬似ラベルを半教師付きFERにコーディネートするために,階層型dEcoupling And Fusing (LEAF) という統一的な枠組みを提案する。 LEAFは階層的な表現認識集約戦略を導入し、セマンティック、インスタンス、カテゴリの3つのレベルで動作する。 1)意味的および事例レベルでは,LEAFは表現を表現に依存しない表現関連成分と表現関連成分に分解し,学習可能なゲーティングウェイトを用いてそれらを適応的に融合させる。 2)カテゴリレベルでは,予測を正と負の部分に分離することで曖昧な擬似ラベルを割り当て,同じ画像の2つの拡張ビューの一致を確保するために一貫性損失を用いる。 ベンチマークデータセットに関する大規模な実験により、LEAFはコインの両側を公表し調和させることで、最先端の半教師付きFERメソッドより優れ、ラベル付きデータとラベルなしデータの両方を効果的に活用できることが示されている。 さらに、提案した式対応アグリゲーション戦略を既存の半教師付きフレームワークにシームレスに統合することで、大幅なパフォーマンス向上を実現している。 私たちのコードはhttps://anonymous.4open.science/r/LEAF-BC57/で利用可能です。

Semi-supervised learning has emerged as a promising approach to tackle the challenge of label scarcity in facial expression recognition (FER) task. However, current state-of-the-art methods primarily focus on one side of the coin, i.e., generating high-quality pseudo-labels, while overlooking the other side: enhancing expression-relevant representations. In this paper, we unveil both sides of the coin by proposing a unified framework termed hierarchicaL dEcoupling And Fusing (LEAF) to coordinate expression-relevant representations and pseudo-labels for semi-supervised FER. LEAF introduces a hierarchical expression-aware aggregation strategy that operates at three levels: semantic, instance, and category. (1) At the semantic and instance levels, LEAF decouples representations into expression-agnostic and expression-relevant components, and adaptively fuses them using learnable gating weights. (2) At the category level, LEAF assigns ambiguous pseudo-labels by decoupling predictions into positive and negative parts, and employs a consistency loss to ensure agreement between two augmented views of the same image. Extensive experiments on benchmark datasets demonstrate that by unveiling and harmonizing both sides of the coin, LEAF outperforms state-of-the-art semi-supervised FER methods, effectively leveraging both labeled and unlabeled data. Moreover, the proposed expression-aware aggregation strategy can be seamlessly integrated into existing semi-supervised frameworks, leading to significant performance gains. Our code is available at https://anonymous.4open.science/r/LEAF-BC57/.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# 抵抗は必要なこと--グラフ上での有効抵抗と最適輸送問題の等価性について

All You Need is Resistance: On the Equivalence of Effective Resistance and Certain Optimal Transport Problems on Graphs ( http://arxiv.org/abs/2404.15261v2 )

ライセンス: Link先を確認
Sawyer Robertson, Zhengchao Wan, Alexander Cloninger, (参考訳) グラフ上の効果的な抵抗と最適な輸送の分野は、組合せ論、幾何学、機械学習などへの豊富な接続で満たされている。 この記事では、大胆な主張を述べた: 2つの体は1つと同一であり、$p$を選択するまで理解されるべきである。 この主張は、グラフ上の確率測度に対して$p$-ベックマン距離のパラメータ化された族を導入し、それをワッサーシュタイン距離と鋭く関連付けることによって、正確にする。 次に、最適停止時間への明示的な接続、グラフ上のランダムウォーク、グラフソボレフ空間、ベナモ・ブレニエ型式を2ドルベックマン距離に分割する。 さらに、グラフデータに対する教師なし学習の世界における経験的意味を探求し、ワッサーシュタイン距離が計算ボトルネックを生み出す可能性のあるこれらの指標の利用について、さらなる研究を提案する。

The fields of effective resistance and optimal transport on graphs are filled with rich connections to combinatorics, geometry, machine learning, and beyond. In this article we put forth a bold claim: that the two fields should be understood as one and the same, up to a choice of $p$. We make this claim precise by introducing the parameterized family of $p$-Beckmann distances for probability measures on graphs and relate them sharply to certain Wasserstein distances. Then, we break open a suite of results including explicit connections to optimal stopping times and random walks on graphs, graph Sobolev spaces, and a Benamou-Brenier type formula for $2$-Beckmann distance. We further explore empirical implications in the world of unsupervised learning for graph data and propose further study of the usage of these metrics where Wasserstein distance may produce computational bottlenecks.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# CT-GLIP:3Dグラウンドド言語--CTスキャンによる事前訓練と全身性シナリオに対する放射線検査報告

CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios ( http://arxiv.org/abs/2404.15272v2 )

ライセンス: Link先を確認
Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang, (参考訳) Medical Vision-Language Pretraining (Med-VLP)は、医用画像からの視覚コンテンツと関連するテキスト記述との関連性を確立する。 既存のMed-VLP法は主に1つの身体部分、特に胸部X線を描いた2D画像に焦点を当てている。 本稿では,Med-VLPの範囲を,CT画像とレポートのマルチモーダルデータセットを用いて,特に全身シナリオを対象とする3次元画像に拡張する。 2Dと比較すると、3D VLPは3D画像において非常にスペーサー表現から重要な意味を効果的に捉えるのに必要である。 本稿では,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を提案する。 さらに,多種多様なコントラッシブペアによるコントラスト学習を増強する異常辞書を開発した。 本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。 CT-GLIPの成績は,7臓器で最も頻度の高い16症例を対象に,1,130例の別検体で検証した。 実験の結果、CNNとViTアーキテクチャの両方を用いて、ゼロショットおよび微調整シナリオにおける標準CLIPフレームワークよりも優れた性能を示した。

Medical Vision-Language Pretraining (Med-VLP) establishes a connection between visual content from medical images and the relevant textual descriptions. Existing Med-VLP methods primarily focus on 2D images depicting a single body part, notably chest X-rays. In this paper, we extend the scope of Med-VLP to encompass 3D images, specifically targeting full-body scenarios, by using a multimodal dataset of CT images and reports. Compared with the 2D counterpart, 3D VLP is required to effectively capture essential semantics from significantly sparser representation in 3D imaging. In this paper, we introduce CT-GLIP (Grounded Language-Image Pretraining with CT scans), a novel method that constructs organ-level image-text pairs to enhance multimodal contrastive learning, aligning grounded visual features with precise diagnostic text. Additionally, we developed an abnormality dictionary to augment contrastive learning with diverse contrastive pairs. Our method, trained on a multimodal CT dataset comprising 44,011 organ-level vision-text pairs from 17,702 patients across 104 organs, demonstrates it can identify organs and abnormalities in a zero-shot manner using natural languages. The performance of CT-GLIP is validated on a separate test set of 1,130 patients, focusing on the 16 most frequent abnormalities across 7 organs. The experimental results show our model's superior performance over the standard CLIP framework across zero-shot and fine-tuning scenarios, using both CNN and ViT architectures.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# オンライン強化学習におけるリセットの力

The Power of Resets in Online Reinforcement Learning ( http://arxiv.org/abs/2404.15417v2 )

ライセンス: Link先を確認
Zakaria Mhammedi, Dylan J. Foster, Alexander Rakhlin, (参考訳) シミュレータは強化学習において普及するツールであるが、既存のアルゴリズムのほとんどはシミュレータアクセスを効率的に活用することはできない。 エージェントが以前に観測された状態にリセットし、トレーニング中にそのダイナミクスに従うことができるRLプロトコルであるローカルシミュレータアクセス(またはローカルプランニング)を用いて、オンライン強化学習を通じてシミュレータのパワーを探索する。 我々は、以前到達できなかった新しい統計的保証をアンロックするために、ローカルシミュレーターアクセスを使用します。 - カバー可能性の低いMDP(Xie et al 2023) -- Block MDPとLow-Rank MDPを仮定する一般的な構造条件 -- が、Q^{\star}$-realizability(最適状態値関数の実現可能性)でサンプル効率のよい方法で学習できることを示します。 その結果, ローカルシミュレータアクセスにおいて, 悪名高い外因性ブロック MDP 問題 (Efroni et al 2022) がトラクタブルであることが判明した。 上記の結果は計算的に非効率なアルゴリズムによって達成される。 本稿では,より計算効率のよい RVFS (Recursive Value Function Search) を用いて補足する。 RVFSは、再帰的探索(例えばMCTS)と値関数近似を組み合わせた経験的パラダイムの原則であり、証明可能なものであると見なすことができる。

Simulators are a pervasive tool in reinforcement learning, but most existing algorithms cannot efficiently exploit simulator access -- particularly in high-dimensional domains that require general function approximation. We explore the power of simulators through online reinforcement learning with {local simulator access} (or, local planning), an RL protocol where the agent is allowed to reset to previously observed states and follow their dynamics during training. We use local simulator access to unlock new statistical guarantees that were previously out of reach: - We show that MDPs with low coverability (Xie et al. 2023) -- a general structural condition that subsumes Block MDPs and Low-Rank MDPs -- can be learned in a sample-efficient fashion with only $Q^{\star}$-realizability (realizability of the optimal state-value function); existing online RL algorithms require significantly stronger representation conditions. - As a consequence, we show that the notorious Exogenous Block MDP problem (Efroni et al. 2022) is tractable under local simulator access. The results above are achieved through a computationally inefficient algorithm. We complement them with a more computationally efficient algorithm, RVFS (Recursive Value Function Search), which achieves provable sample complexity guarantees under a strengthened statistical assumption known as pushforward coverability. RVFS can be viewed as a principled, provable counterpart to a successful empirical paradigm that combines recursive search (e.g., MCTS) with value function approximation.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# システムレビューのスクリーニングプロセスの高速化に向けたLCMの利用の約束と課題

The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews ( http://arxiv.org/abs/2404.15667v3 )

ライセンス: Link先を確認
Aleksi Huotala, Miikka Kuutila, Paul Ralph, Mika Mäntylä, (参考訳) システムレビュー (SR) は、ソフトウェア工学(SE)における一般的な研究手法である。 しかし、SRの実施には平均67週間を要する。 したがって、SRプロセスの任意のステップを自動化することで、SRに関連する労力を減らすことができる。 本研究の目的は,Large Language Models (LLMs) がヒューマンスクリーニングの抽象化を簡素化し,タイトル抽出スクリーニングを自動化することでタイトル抽出スクリーニングを高速化できるかどうかを検討することである。 我々は,従来のSRからオリジナルと簡易の両方の抽象化を用いて,人間が20論文のタイトルや要約をスクリーニングする実験を行った。 GPT-3.5とGPT-4 LLMでヒトスクリーニング実験を再現し、同じスクリーニング作業を行った。 また,異なるプロンプト技術 (Zero-shot (ZS), One-shot (OS), Few-shot (FS), Few-shot with Chain-of-Thought (FS-CoT)) がLCMのスクリーニング性能を向上させるかを検討した。 最後に,LLM再生におけるプロンプトの再設計が性能改善につながるかを検討した。 テキストの単純化はスクリーニング性能を向上させるには至らなかったが、スクリーニングに使用される時間を短縮した。 審査員の科学的識字能力と研究者の地位はスクリーニング性能を予測する。 いくつかのLDMとプロンプトの組み合わせは、スクリーニングタスクにおいて人間のスクリーニングと同様に機能する。 以上の結果から, GPT-4 LLM は従来の GPT-3.5 よりも優れていたことが示唆された。 さらに、Few-shotとOne-shotのプロンプトはZero-shotのプロンプトを上回っている。 スクリーニングプロセスにおけるLLMによるテキストの簡易化は,人間のパフォーマンスを著しく向上させるものではない。 LLMをタイトル抽出スクリーニングの自動化に利用することは有望と思われるが、現在のLLMは人間のスクリーニングよりもはるかに正確ではない。 SRのスクリーニングプロセスにおけるLLMの使用を推奨するためには、さらなる研究が必要である。 将来のSR研究は、LLMスクリーニングによるより包括的な実験を可能にするために、スクリーニングデータ付き複製パッケージを公開することを推奨する。

Systematic review (SR) is a popular research method in software engineering (SE). However, conducting an SR takes an average of 67 weeks. Thus, automating any step of the SR process could reduce the effort associated with SRs. Our objective is to investigate if Large Language Models (LLMs) can accelerate title-abstract screening by simplifying abstracts for human screeners, and automating title-abstract screening. We performed an experiment where humans screened titles and abstracts for 20 papers with both original and simplified abstracts from a prior SR. The experiment with human screeners was reproduced with GPT-3.5 and GPT-4 LLMs to perform the same screening tasks. We also studied if different prompting techniques (Zero-shot (ZS), One-shot (OS), Few-shot (FS), and Few-shot with Chain-of-Thought (FS-CoT)) improve the screening performance of LLMs. Lastly, we studied if redesigning the prompt used in the LLM reproduction of screening leads to improved performance. Text simplification did not increase the screeners' screening performance, but reduced the time used in screening. Screeners' scientific literacy skills and researcher status predict screening performance. Some LLM and prompt combinations perform as well as human screeners in the screening tasks. Our results indicate that the GPT-4 LLM is better than its predecessor, GPT-3.5. Additionally, Few-shot and One-shot prompting outperforms Zero-shot prompting. Using LLMs for text simplification in the screening process does not significantly improve human performance. Using LLMs to automate title-abstract screening seems promising, but current LLMs are not significantly more accurate than human screeners. To recommend the use of LLMs in the screening process of SRs, more research is needed. We recommend future SR studies publish replication packages with screening data to enable more conclusive experimenting with LLM screening.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# Retrieval and Distill: オンラインレコメンデーションシステムのための一時データシフトフリーパラダイム

Retrieval and Distill: A Temporal Data Shift-Free Paradigm for Online Recommendation System ( http://arxiv.org/abs/2404.15678v3 )

ライセンス: Link先を確認
Lei Zheng, Ning Li, Weinan Zhang, Yong Yu, (参考訳) 現在のレコメンデーションシステムは、歴史的データの配信とオンラインデータの配信との不整合である時間的データシフトの深刻な問題の影響を著しく受けている。 既存のモデルのほとんどは、データのシフトから学ぶことのできる、転送可能な一時的なデータシフトのない情報を見渡すことで、更新データの利用に重点を置いている。 本稿では,ある固定探索空間が与えられた場合,検索空間内のデータとデータとの関係が時間とともに不変であることを示す,時間不変なアソシエーション定理を提案する。 この原理を応用して、我々は、シフトデータを用いてデータシフトフリーのレコメンデーションネットワークをトレーニングできる検索ベースのレコメンデーションシステムフレームワークを設計し、リコメンデーションシステムにおける元のモデルの予測性能を大幅に向上させた。 しかし、検索ベースのレコメンデーションモデルは、オンラインにデプロイする際、かなりの推論時間コストに直面している。 これを解決するため,我々は,関連するネットワークからの情報をシフトデータを用いてパラメータ化モジュールに抽出できる蒸留フレームワークをさらに設計した。 蒸留されたモデルはオリジナルのモデルと並んでオンラインに展開でき、推論時間は最小限に抑えられる。 複数の実データセットに対する大規模な実験により、我々のフレームワークはシフトデータを利用することで、元のモデルの性能を大幅に改善することを示した。

Current recommendation systems are significantly affected by a serious issue of temporal data shift, which is the inconsistency between the distribution of historical data and that of online data. Most existing models focus on utilizing updated data, overlooking the transferable, temporal data shift-free information that can be learned from shifting data. We propose the Temporal Invariance of Association theorem, which suggests that given a fixed search space, the relationship between the data and the data in the search space keeps invariant over time. Leveraging this principle, we designed a retrieval-based recommendation system framework that can train a data shift-free relevance network using shifting data, significantly enhancing the predictive performance of the original model in the recommendation system. However, retrieval-based recommendation models face substantial inference time costs when deployed online. To address this, we further designed a distill framework that can distill information from the relevance network into a parameterized module using shifting data. The distilled model can be deployed online alongside the original model, with only a minimal increase in inference time. Extensive experiments on multiple real datasets demonstrate that our framework significantly improves the performance of the original model by utilizing shifting data.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# グラフベースフェイクニュース検出器に対する一般ブラックボックス攻撃

A General Black-box Adversarial Attack on Graph-based Fake News Detectors ( http://arxiv.org/abs/2404.15744v2 )

ライセンス: Link先を確認
Peican Zhu, Zechen Pan, Yang Liu, Jiwei Tian, Keke Tang, Zhen Wang, (参考訳) グラフニューラルネットワーク(GNN)をベースとした偽ニュース検出装置は,グラフ構築に様々な手法を適用し,識別のための特徴あるニュース埋め込みを学習することを目的とした。 ブラックボックスのシナリオでは、建設の詳細は分かっていないため、特定の隣接行列を必要とする古典的な敵攻撃を実行することは現実的ではない。 本稿では,異なるグラフ構造に基づく検出器に対する一般攻撃(GAFSI)を初めて提案する。 特に、共有はグラフを構築するためにGNNベースのフェイクニュース検出器にとって重要な社会的相互作用であるので、我々は共有行動をシミュレートして検出器を騙す。 まず,ローカルおよびグローバルな情報を活用するユーザを選別するための不正選択モジュールを提案する。 さらに、ポストインジェクションモジュールは、選択したユーザに対して、投稿を送信して共有関係を作成するようにガイドする。 共有記録はソーシャルコンテキストに追加され、さまざまな検出器に対する一般的な攻撃につながる。 実験データを用いた実験の結果,GAFSIの有効性が示された。

Graph Neural Network (GNN)-based fake news detectors apply various methods to construct graphs, aiming to learn distinctive news embeddings for classification. Since the construction details are unknown for attackers in a black-box scenario, it is unrealistic to conduct the classical adversarial attacks that require a specific adjacency matrix. In this paper, we propose the first general black-box adversarial attack framework, i.e., General Attack via Fake Social Interaction (GAFSI), against detectors based on different graph structures. Specifically, as sharing is an important social interaction for GNN-based fake news detectors to construct the graph, we simulate sharing behaviors to fool the detectors. Firstly, we propose a fraudster selection module to select engaged users leveraging local and global information. In addition, a post injection module guides the selected users to create shared relations by sending posts. The sharing records will be added to the social context, leading to a general attack against different detectors. Experimental results on empirical datasets demonstrate the effectiveness of GAFSI.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# 量子ゲートのロバストな複雑さ:基礎

Robust Quantum Gate Complexity: Foundations ( http://arxiv.org/abs/2404.15828v2 )

ライセンス: Link先を確認
Johannes Aspman, Vyacheslav Kungurtsev, Jakub Marecek, (参考訳) クローズド量子システムの最適制御は、量子コンピュータの実装と理解において重要な役割を担っている、幾何学的にエレガントな計算理論と技法の集合である。 回路自体の設計は、初期的かつ容易に準備された状態から、ある意味でユーザに対して通知されるもの、例えば、評価が回路の一部であるオラクルへ、キュービットを操るために、適切なゲートセット(制御オペランドとして現れる)を選択する最適制御問題に対応する。 しかし、現代のデバイスはノイズが多いことが知られており、回路が意図した動作をするかどうかは定かではない。 しかし、より広範な最適制御理論には計算ツールが存在するが、不確実性や誤りに関して量子制御系の適切な操作の堅牢性はまだ研究されていない。 本稿では,閉量子最適制御とその幾何学的解釈への関連性から着想を得た新しいアプローチを提案する。 この目的のために、量子制御の文脈におけるロバストネスの適切な問題定義を示し、ゲート複雑性に対するより広範な影響に焦点を当てる。

Optimal control of closed quantum systems is a well studied geometrically elegant set of computational theory and techniques that have proven pivotal in the implementation and understanding of quantum computers. The design of a circuit itself corresponds to an optimal control problem of choosing the appropriate set of gates (which appear as control operands) in order to steer a qubit from an initial, easily prepared state, to one that is informative to the user in some sense, for e.g., an oracle whose evaluation is part of the circuit. However, contemporary devices are known to be noisy, and it is not certain that a circuit will behave as intended. Yet, although the computational tools exist in broader optimal control theory, robustness of adequate operation of a quantum control system with respect to uncertainty and errors has not yet been broadly studied in the literature. In this paper, we propose a new approach inspired by the closed quantum optimal control and its connection to geometric interpretations. To this end, we present the appropriate problem definitions of robustness in the context of quantum control, focusing on its broader implications for gate complexity.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-26
# ST-MambaSync: 降雨量予測のためのマンバ構造と時空間変圧器の対応

ST-MambaSync: The Confluence of Mamba Structure and Spatio-Temporal Transformers for Precipitous Traffic Prediction ( http://arxiv.org/abs/2404.15899v2 )

ライセンス: Link先を確認
Zhiqi Shao, Xusheng Yao, Ze Wang, Junbin Gao, (参考訳) 計算効率と精度のバランスをとることは、特に時空間データセットのような高次元データを扱う場合、機械学習において最重要である。 本研究はST-MambaSyncについて紹介する。ST-MambaSyncは、合理化された注意層と単純化された状態空間層を統合する革新的なフレームワークである。 このモデルは時空間予測タスクにおける競合精度を実現する。 我々は、注意機構とマンバ成分の関係を掘り下げ、マンバ関数が残留ネットワーク構造内の注意に類似していることを明らかにする。 この比較分析により、状態空間モデルの効率が向上し、計算コストの削減による優れた性能を実現する能力が解明される。

Balancing accuracy with computational efficiency is paramount in machine learning, particularly when dealing with high-dimensional data, such as spatial-temporal datasets. This study introduces ST-MambaSync, an innovative framework that integrates a streamlined attention layer with a simplified state-space layer. The model achieves competitive accuracy in spatial-temporal prediction tasks. We delve into the relationship between attention mechanisms and the Mamba component, revealing that Mamba functions akin to attention within a residual network structure. This comparative analysis underpins the efficiency of state-space models, elucidating their capability to deliver superior performance at reduced computational costs.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 視覚マンバに関する調査

A Survey on Visual Mamba ( http://arxiv.org/abs/2404.15956v2 )

ライセンス: Link先を確認
Hanwei Zhang, Ying Zhu, Dan Wang, Lijun Zhang, Tianxiang Chen, Zi Ye, (参考訳) 選択機構とハードウェア対応アーキテクチャを備えた状態空間モデル(SSM)、すなわちMambaは、最近、長いシーケンスモデリングにおいて大きな可能性を証明している。 トランスにおける自己注意機構は、画像サイズと計算要求の増加と2次複雑さを持つため、研究者らは現在、コンピュータビジョンタスクにMambaを適用する方法を模索している。 本稿では,コンピュータビジョン分野におけるMambaモデルの詳細分析を目的とした,初めての総合的な調査である。 これは、状態空間モデルフレームワーク、選択メカニズム、ハードウェア対応設計など、Mambaの成功に寄与する基本的な概念を探求することから始まる。 次に、これらの視覚マンバモデルについて、基礎的なモデルに分類し、その高度化を図るために、畳み込み、再発、注意などのテクニックで強化することでレビューする。 さらに、様々な視覚処理におけるバックボーンとしての利用を含む、視覚タスクにおけるMambaの幅広い応用を掘り下げる。 これには、一般的な視覚タスク、医療視覚タスク(例えば、2D/3Dセグメンテーション、分類、画像登録など)、リモートセンシング視覚タスクが含まれる。 本稿では,高次視覚(オブジェクト検出,セグメンテーション,ビデオ分類など)と低次視覚(画像超解像,画像復元,視覚生成など)の2段階から一般的な視覚タスクを紹介する。 この取り組みが、現在の課題に対処し、さらにマンバモデルをコンピュータビジョンに適用するために、コミュニティ内でさらなる関心を喚起することを期待しています。

State space models (SSMs) with selection mechanisms and hardware-aware architectures, namely Mamba, have recently demonstrated significant promise in long-sequence modeling. Since the self-attention mechanism in transformers has quadratic complexity with image size and increasing computational demands, the researchers are now exploring how to adapt Mamba for computer vision tasks. This paper is the first comprehensive survey aiming to provide an in-depth analysis of Mamba models in the field of computer vision. It begins by exploring the foundational concepts contributing to Mamba's success, including the state space model framework, selection mechanisms, and hardware-aware design. Next, we review these vision mamba models by categorizing them into foundational ones and enhancing them with techniques such as convolution, recurrence, and attention to improve their sophistication. We further delve into the widespread applications of Mamba in vision tasks, which include their use as a backbone in various levels of vision processing. This encompasses general visual tasks, Medical visual tasks (e.g., 2D / 3D segmentation, classification, and image registration, etc.), and Remote Sensing visual tasks. We specially introduce general visual tasks from two levels: High/Mid-level vision (e.g., Object detection, Segmentation, Video classification, etc.) and Low-level vision (e.g., Image super-resolution, Image restoration, Visual generation, etc.). We hope this endeavor will spark additional interest within the community to address current challenges and further apply Mamba models in computer vision.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 階層的時間的抽象化による世界モデル学習:確率論的視点

Learning World Models With Hierarchical Temporal Abstractions: A Probabilistic Perspective ( http://arxiv.org/abs/2404.16078v2 )

ライセンス: Link先を確認
Vaisakh Shaj, (参考訳) ヒューマンインテリジェンスを2種類の推論能力で再現できるマシンは、複数のレベルの時空間的抽象化とスケールを内部世界モデルを使って推論できるべきである。 現実世界のダイナミクスに固有の因果的階層を正確に反映した、そのような内的世界モデルを開発するための形式主義を考案することは、人工知能と機械学習の分野における重要な研究課題である。 この論文は、状態空間モデル(SSM)を内部世界モデルとして広く使われることによるいくつかの制限を特定し、これらの欠点に対処するために、Hidden-Parameter SSMとMulti-Time Scale SSMという2つの新しい確率形式を提案する。 両方の形式主義におけるグラフィカルモデルの構造は、信念の伝播を用いたスケーラブルな正確な確率的推論と、時間を通してのバックプロパゲーションによるエンドツーエンドの学習を促進する。 このアプローチは、複数の時間的抽象化とスケールにわたる非定常力学を表現することができるスケーラブルで適応的な階層的世界モデルの開発を可能にする。 さらに、これらの確率論的形式主義は世界状態の不確実性の概念を統合し、現実世界の確率的性質をエミュレートし、その予測に対する自信を定量化する能力を向上させる。 論文はまた、これらの形式主義がベイズ脳仮説と述語処理に関する関連する神経科学の文献とどのように一致しているかについても論じている。 様々な実・模擬ロボットを用いた実験により,我々のフォーマリズムが一致し,多くの場合において,長距離将来の予測を行う上で,現代の変圧器変圧器の性能を上回ることが実証された。 論文の結論は、現在のモデルの限界を反映し、今後の研究の方向性を示唆することである。

Machines that can replicate human intelligence with type 2 reasoning capabilities should be able to reason at multiple levels of spatio-temporal abstractions and scales using internal world models. Devising formalisms to develop such internal world models, which accurately reflect the causal hierarchies inherent in the dynamics of the real world, is a critical research challenge in the domains of artificial intelligence and machine learning. This thesis identifies several limitations with the prevalent use of state space models (SSMs) as internal world models and propose two new probabilistic formalisms namely Hidden-Parameter SSMs and Multi-Time Scale SSMs to address these drawbacks. The structure of graphical models in both formalisms facilitates scalable exact probabilistic inference using belief propagation, as well as end-to-end learning via backpropagation through time. This approach permits the development of scalable, adaptive hierarchical world models capable of representing nonstationary dynamics across multiple temporal abstractions and scales. Moreover, these probabilistic formalisms integrate the concept of uncertainty in world states, thus improving the system's capacity to emulate the stochastic nature of the real world and quantify the confidence in its predictions. The thesis also discuss how these formalisms are in line with related neuroscience literature on Bayesian brain hypothesis and predicitive processing. Our experiments on various real and simulated robots demonstrate that our formalisms can match and in many cases exceed the performance of contemporary transformer variants in making long-range future predictions. We conclude the thesis by reflecting on the limitations of our current models and suggesting directions for future research.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# ソーシャルメディアにおける人間生成とAI生成の選挙宣言の分類

Classifying Human-Generated and AI-Generated Election Claims in Social Media ( http://arxiv.org/abs/2404.16116v2 )

ライセンス: Link先を確認
Alphaeus Dmonte, Marcos Zampieri, Kevin Lybarger, Massimiliano Albanese, Genya Coulter, (参考訳) 政治は、ソーシャルメディアプラットフォーム上で議論される最も一般的なトピックの1つであり、特に主要な選挙サイクルでは、ユーザーが候補者や選挙プロセスについて会話する。 悪意ある俳優はこの機会を利用して誤報を広め、選挙プロセスへの信頼を損なうかもしれない。 LLM(Large Language Models)の出現は、悪質なアクターが前例のない規模で誤情報を生成できるようにすることによって、この問題を悪化させる。 人工知能(AI)が生成するコンテンツは、真正なユーザーコンテンツとは区別できないことが多く、ソーシャルネットワーク上の情報の完全性に関する懸念を提起する。 本稿では,選挙関連主張を特徴付ける新しい分類法を提案する。 この分類法は、司法、機器、プロセス、およびクレームの性質に関する粒度のカテゴリを含む選挙関連のクレームを分析するための手段を提供する。 ElectAIは9,900のツイートからなる新しいベンチマークデータセットで、それぞれが人間またはAI生成とラベル付けされている。 AI生成ツイートでは、生成した特定のLLM変種が指定される。 我々は提案した分類法を用いて1,550のツイートのサブセットに注釈を付け、選挙関連クレームの特徴を捉えた。 分類属性を抽出するLLMの能力について検討し、ElectAIを用いて機械学習モデルを訓練し、人間とAIが生成するポストを識別し、特定のLLM変種を特定する。

Politics is one of the most prevalent topics discussed on social media platforms, particularly during major election cycles, where users engage in conversations about candidates and electoral processes. Malicious actors may use this opportunity to disseminate misinformation to undermine trust in the electoral process. The emergence of Large Language Models (LLMs) exacerbates this issue by enabling malicious actors to generate misinformation at an unprecedented scale. Artificial intelligence (AI)-generated content is often indistinguishable from authentic user content, raising concerns about the integrity of information on social networks. In this paper, we present a novel taxonomy for characterizing election-related claims. This taxonomy provides an instrument for analyzing election-related claims, with granular categories related to jurisdiction, equipment, processes, and the nature of claims. We introduce ElectAI, a novel benchmark dataset that consists of 9,900 tweets, each labeled as human- or AI-generated. For AI-generated tweets, the specific LLM variant that produced them is specified. We annotated a subset of 1,550 tweets using the proposed taxonomy to capture the characteristics of election-related claims. We explored the capabilities of LLMs in extracting the taxonomy attributes and trained various machine learning models using ElectAI to distinguish between human- and AI-generated posts and identify the specific LLM variant.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 量子ガンのガーディアン

Guardians of the Quantum GAN ( http://arxiv.org/abs/2404.16156v2 )

ライセンス: Link先を確認
Archisman Ghosh, Debarshi Kundu, Avimita Chatterjee, Swaroop Ghosh, (参考訳) Quantum Generative Adversarial Networks (qGANs)は、画像生成量子機械学習モデルの最前線にある。 量子機械学習モデルをトレーニングし、推論するためのNISQ(Noisy Intermediate-Scale Quantum)デバイスへの需要の増加に対応するため、量子ハードウェアをサービスとして提供するサードパーティベンダの数は増加すると予想されている。 この拡張は、信頼できないベンダーが量子機械学習モデルからプロプライエタリな情報を盗むリスクをもたらす。 そこで本研究では,qGANsのトレーニングフェーズに埋め込まれたノイズシグネチャを非侵襲的な透かしとして活用する新しい透かし手法を提案する。 透かしは、qGANが生成した画像の中で識別可能であり、トレーニング中に使用する特定の量子ハードウェアをトレースすることで、所有権の強い証明を提供する。 セキュリティの堅牢性をさらに高めるため、複数の量子ハードウェアのシーケンス上でqGANのトレーニングを提案し、敵が複製し難い全てのトレーニングハードウェアのノイズシグネチャを含む複雑な透かしを埋め込む。 また、この透かしを頑健に抽出する機械学習分類器を開発し、モデルの真正性を検証したqGANによって生成された画像からトレーニングハードウェア(またはハードウェアスイート)を識別する。 ウォーターマークの署名は、トレーニングに使用されたハードウェアとは異なるハードウェアの推論に対して堅牢である点に注意が必要だ。 個別の量子ハードウェア上でのQGANのトレーニングには,それぞれ100%と90%の透かし抽出精度が得られた(異なるハードウェア上での参照)。 トレーニング中のパラメータの進化は量子ノイズによって強く変調されるため、提案された透かしは他の量子機械学習モデルにも拡張することができる。

Quantum Generative Adversarial Networks (qGANs) are at the forefront of image-generating quantum machine learning models. To accommodate the growing demand for Noisy Intermediate-Scale Quantum (NISQ) devices to train and infer quantum machine learning models, the number of third-party vendors offering quantum hardware as a service is expected to rise. This expansion introduces the risk of untrusted vendors potentially stealing proprietary information from the quantum machine learning models. To address this concern we propose a novel watermarking technique that exploits the noise signature embedded during the training phase of qGANs as a non-invasive watermark. The watermark is identifiable in the images generated by the qGAN allowing us to trace the specific quantum hardware used during training hence providing strong proof of ownership. To further enhance the security robustness, we propose the training of qGANs on a sequence of multiple quantum hardware, embedding a complex watermark comprising the noise signatures of all the training hardware that is difficult for adversaries to replicate. We also develop a machine learning classifier to extract this watermark robustly, thereby identifying the training hardware (or the suite of hardware) from the images generated by the qGAN validating the authenticity of the model. We note that the watermark signature is robust against inferencing on hardware different than the hardware that was used for training. We obtain watermark extraction accuracy of 100% and ~90% for training the qGAN on individual and multiple quantum hardware setups (and inferencing on different hardware), respectively. Since parameter evolution during training is strongly modulated by quantum noise, the proposed watermark can be extended to other quantum machine learning models as well.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# マルチターンLDM相互作用における急速漏洩効果とブラックボックス防御の検討

Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions ( http://arxiv.org/abs/2404.16251v2 )

ライセンス: Link先を確認
Divyansh Agarwal, Alexander R. Fabbri, Philippe Laban, Ben Risher, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu, (参考訳) 大規模言語モデル(LLM)のプロンプトリークは、特に検索強化世代(RAG)システムにおいて、重大なセキュリティとプライバシの脅威を引き起こす。 しかし, マルチターンLDM相互作用と緩和戦略のリークは, 標準化された方法では研究されていない。 本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。 我々のユニークなマルチターン脅威モデルでは, LLMのサイコファンシー効果を活用し, LLM応答におけるタスク命令と知識リークを識別する。 マルチターン環境では,GPT-4およびclaude-1.3による99%のリークを含む平均攻撃成功率(ASR)が86.2%に上昇する。 GeminiのようなブラックボックスのLCMの中には、ドメイン間のリークに対する様々な感受性を示すものもあります - 医療ドメインと比較して、ニュースドメインのコンテキスト知識をリークする傾向があります。 実験では,RAGシナリオにおけるクエリリライタを含む6つのブラックボックス防衛戦略の具体的な効果を測定した。 提案する多層防御の組み合わせは, ブラックボックスLLMのASRは5.3%であり, LLMセキュリティ研究の強化と今後の方向性を示す余地がある。

Prompt leakage in large language models (LLMs) poses a significant security and privacy threat, particularly in retrieval-augmented generation (RAG) systems. However, leakage in multi-turn LLM interactions along with mitigation strategies has not been studied in a standardized manner. This paper investigates LLM vulnerabilities against prompt leakage across 4 diverse domains and 10 closed- and open-source LLMs. Our unique multi-turn threat model leverages the LLM's sycophancy effect and our analysis dissects task instruction and knowledge leakage in the LLM response. In a multi-turn setting, our threat model elevates the average attack success rate (ASR) to 86.2%, including a 99% leakage with GPT-4 and claude-1.3. We find that some black-box LLMs like Gemini show variable susceptibility to leakage across domains - they are more likely to leak contextual knowledge in the news domain compared to the medical domain. Our experiments measure specific effects of 6 black-box defense strategies, including a query-rewriter in the RAG scenario. Our proposed multi-tier combination of defenses still has an ASR of 5.3% for black-box LLMs, indicating room for enhancement and future direction for LLM security research.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 自然画像統計特性に基づくスプリシング画像検出アルゴリズムに関する研究

Research on Splicing Image Detection Algorithms Based on Natural Image Statistical Characteristics ( http://arxiv.org/abs/2404.16296v2 )

ライセンス: Link先を確認
Ao Xiang, Jingyu Zhang, Qin Yang, Liyang Wang, Yu Cheng, (参考訳) デジタル画像処理技術の発展と普及により、画像スプライシングは画像操作の一般的な方法となり、多くのセキュリティや法的問題を提起している。 本稿では,自然画像の統計的特徴に基づく新しいスプライシング画像検出アルゴリズムを提案し,スプライシング画像検出の精度と効率を向上させることを目的とした。 従来の手法の限界を解析することにより,高度な統計解析手法と機械学習手法を統合した検出フレームワークを開発した。 このアルゴリズムは、複数の公開データセットを用いて検証され、スプライシングエッジの検出と、改ざんされた領域の位置の特定に高い精度と、優れたロバスト性を示す。 さらに,実世界のシナリオにおいて,アルゴリズムが直面する潜在的な応用と課題についても検討する。 本研究は、画像改ざん検出の分野で有効な技術手段を提供するだけでなく、将来的な研究のための新しいアイデアや方法も提供する。

With the development and widespread application of digital image processing technology, image splicing has become a common method of image manipulation, raising numerous security and legal issues. This paper introduces a new splicing image detection algorithm based on the statistical characteristics of natural images, aimed at improving the accuracy and efficiency of splicing image detection. By analyzing the limitations of traditional methods, we have developed a detection framework that integrates advanced statistical analysis techniques and machine learning methods. The algorithm has been validated using multiple public datasets, showing high accuracy in detecting spliced edges and locating tampered areas, as well as good robustness. Additionally, we explore the potential applications and challenges faced by the algorithm in real-world scenarios. This research not only provides an effective technological means for the field of image tampering detection but also offers new ideas and methods for future related research.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 若年者向けオンラインフォーラムにおけるメンタルヘルス要因の特定を専門とする大規模言語モデル

Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums ( http://arxiv.org/abs/2404.16461v2 )

ライセンス: Link先を確認
Isabelle Lorge, Dan W. Joyce, Andrey Kormilitzin, (参考訳) 子どもや青年のメンタルヘルスはここ数年着実に悪化している。 近年のLarge Language Models (LLMs) の出現は、モニタリングと介入の費用と時間効率のスケーリングを大いに期待するが、学校いじめや摂食障害といった特に一般的な問題にもかかわらず、これまでの研究では、この領域のパフォーマンスや、回答の集合が定まっていないオープン情報抽出についての研究は行われていない。 TRAUMA, PreCARITY, CONDITION, SYMPTOMS, SUICIDALITY and Treatment, 専門家ラベルと2つのトップパフォーマンスLDM(GPT3.5, GPT4)のアノテーションを比較した。 さらに,2つの合成データセットを作成し,LLMが生成するデータにアノテートする際の性能を評価する。 GPT4は人間間のアノテータの合意と合成データの性能が大幅に向上するが、このモデルでは否定や事実性の問題や、合成データの高パフォーマンスが本質的に有利というよりも実際のデータの複雑さによって引き起こされることがある。

Mental health in children and adolescents has been steadily deteriorating over the past few years. The recent advent of Large Language Models (LLMs) offers much hope for cost and time efficient scaling of monitoring and intervention, yet despite specifically prevalent issues such as school bullying and eating disorders, previous studies on have not investigated performance in this domain or for open information extraction where the set of answers is not predetermined. We create a new dataset of Reddit posts from adolescents aged 12-19 annotated by expert psychiatrists for the following categories: TRAUMA, PRECARITY, CONDITION, SYMPTOMS, SUICIDALITY and TREATMENT and compare expert labels to annotations from two top performing LLMs (GPT3.5 and GPT4). In addition, we create two synthetic datasets to assess whether LLMs perform better when annotating data as they generate it. We find GPT4 to be on par with human inter-annotator agreement and performance on synthetic data to be substantially higher, however we find the model still occasionally errs on issues of negation and factuality and higher performance on synthetic data is driven by greater complexity of real data rather than inherent advantage.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# セマンティックセグメンテーションのためのウィンドウアテンション変動によるマルチスケール表現

Multi-Scale Representations by Varying Window Attention for Semantic Segmentation ( http://arxiv.org/abs/2404.16573v2 )

ライセンス: Link先を確認
Haotian Yan, Ming Wu, Chuang Zhang, (参考訳) マルチスケール学習はセマンティックセグメンテーションの中心である。 正準多スケール表現の有効受容場(ERF)を可視化し,学習における2つのリスクを指摘する。 これらの問題に対処するために、新しいマルチスケール学習者、可変ウィンドウアテンション(VWA)を提示する。 VWAはローカルウィンドウアテンション(LWA)を活用し、クエリウィンドウとコンテキストウインドウにLWAを巻き込み、クエリのスケールが複数のスケールで表現を学習できるようにする。 しかし、大規模ウィンドウ(拡大比R)へのコンテキスト変更は、メモリフットプリントと計算コスト(LWAの2倍)を大幅に向上させることができる。 性能を損なうことなく、余剰コストをゼロにするための単純だが専門的な再スケーリング戦略を提案する。 このため、VWAはLWAと同じコストでローカルウィンドウの受信制限を克服する。 さらに, VWA と様々な MLP を用いて, セマンティックセグメンテーションのためのマルチスケールデコーダ (MSD) である VWFormer を導入し, セマンティックセグメンテーションのマルチスケール表現を改善する。 VWFormerは、FPNやMLPデコーダのような最も計算にやさしいMSDと競合するが、他のMSDよりも性能が優れている。 例えば、UPerNetの計算のほぼ半分を使用して、VWFormerはADE20Kで1.0%-2.5% mIoUを上回っている。 10GのFLOPでは、VWFormerを搭載したMask2Formerは1.0%-1.3%向上した。 コードとモデルはhttps://github.com/yan-hao-tian/vwで公開されている。

Multi-scale learning is central to semantic segmentation. We visualize the effective receptive field (ERF) of canonical multi-scale representations and point out two risks in learning them: scale inadequacy and field inactivation. A novel multi-scale learner, varying window attention (VWA), is presented to address these issues. VWA leverages the local window attention (LWA) and disentangles LWA into the query window and context window, allowing the context's scale to vary for the query to learn representations at multiple scales. However, varying the context to large-scale windows (enlarging ratio R) can significantly increase the memory footprint and computation cost (R^2 times larger than LWA). We propose a simple but professional re-scaling strategy to zero the extra induced cost without compromising performance. Consequently, VWA uses the same cost as LWA to overcome the receptive limitation of the local window. Furthermore, depending on VWA and employing various MLPs, we introduce a multi-scale decoder (MSD), VWFormer, to improve multi-scale representations for semantic segmentation. VWFormer achieves efficiency competitive with the most compute-friendly MSDs, like FPN and MLP decoder, but performs much better than any MSDs. For instance, using nearly half of UPerNet's computation, VWFormer outperforms it by 1.0%-2.5% mIoU on ADE20K. With little extra overhead, ~10G FLOPs, Mask2Former armed with VWFormer improves by 1.0%-1.3%. The code and models are available at https://github.com/yan-hao-tian/vw
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 生成AIのためのフェアネスの形式的仕様、評価、実施

Formal Specification, Assessment, and Enforcement of Fairness for Generative AIs ( http://arxiv.org/abs/2404.16663v2 )

ライセンス: Link先を確認
Chih-Hong Cheng, Changshun Wu, Harald Ruess, Xingyu Zhao, Saddek Bensalem, (参考訳) 社会的偏見や不平等の強化や悪化は、生成的AIがテキストから画像に至るまで、現実の世界において有用なアーティファクトをますます生み出すにつれて、大幅に増加するだろう。 これらの課題に対処するために、生成AIの公正性の概念を、公正性を監視・強制するための基盤として公式に特徴づける。 テキストや画像などのAI生成アーティファクトの抽象化の無限列の概念を用いて、フェアネスの2つのレベルを定義する。 ひとつは、生成されたシーケンスで実証された公平さであり、出力でのみ評価され、使用するプロンプトやモデルに依存しない。 2つ目は、生成AIモデルの本質的公正性であり、入力プロンプトが中立であるときに公正性を示す必要がある。 また,複数カテゴリと遅延フェアネス法を併用して検討する場合,相対的交差フェアネスについて検討した。 最後に、フェアネスの監視と実施は、現在の生成AIモデルに対してテストされる。

Reinforcing or even exacerbating societal biases and inequalities will increase significantly as generative AI increasingly produces useful artifacts, from text to images and beyond, for the real world. We address these issues by formally characterizing the notion of fairness for generative AI as a basis for monitoring and enforcing fairness. We define two levels of fairness using the notion of infinite sequences of abstractions of AI-generated artifacts such as text or images. The first is the fairness demonstrated on the generated sequences, which is evaluated only on the outputs while agnostic to the prompts and models used. The second is the inherent fairness of the generative AI model, which requires that fairness be manifested when input prompts are neutral, that is, they do not explicitly instruct the generative AI to produce a particular type of output. We also study relative intersectional fairness to counteract the combinatorial explosion of fairness when considering multiple categories together with lazy fairness enforcement. Finally, fairness monitoring and enforcement are tested against some current generative AI models.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# クリフォードゲートによる任意の3次クビット木の相互変換

Mutual transformations of arbitrary ternary qubit trees by Clifford gates ( http://arxiv.org/abs/2404.16693v2 )

ライセンス: Link先を確認
Alexander Yu. Vlasov, (参考訳) 同じ数のノードを持つ3次キュービット木は、自然に定義されたクリフォードゲートの列によって互いに変換するか、ジョルダン・ウィグナー変換に対応する1D鎖として標準表現に変換することができる。

It is shown that ternary qubit trees with the same number of nodes can be transformed by the naturally defined sequence of Clifford gates into each other or into standard representation as 1D chain corresponding to Jordan-Wigner transform.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 音声認識システムに依存しない単語誤り率の自動推定

Automatic Speech Recognition System-Independent Word Error Rate Estimation ( http://arxiv.org/abs/2404.16743v2 )

ライセンス: Link先を確認
Chanho Park, Mingjie Chen, Thomas Hain, (参考訳) 単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。 多くの応用において、WERは音声の発声と書き起こしのペアを推定することに興味がある。 WER推定に関するこれまでの研究は、特定のASRシステム(ASRシステムに依存している)を念頭に置いて訓練されたモデルの構築に焦点を当てていた。 ドメイン依存であり、現実のアプリケーションでは非フレキシブルである。 本稿では, ASR System-Independent WER Estimation (SIWE) の仮説生成手法を提案する。 以前の作業とは対照的に、WER推定器はASRシステムの出力をシミュレートするデータを用いて訓練される。 仮説は、音声的に類似または言語的によりありそうな代替語を用いて生成される。 WER推定実験では、提案手法はドメイン内データ上でのASRシステム依存のWER推定器と同等の性能に達し、ドメイン外データ上で最先端の性能を達成する。 ドメイン外データでは、SIWEモデルは、SwitchboardとCALLHOMEでそれぞれ17.58%と18.21%の相関係数で、根平均平方誤差とピアソン相関係数でベースライン推定値を上回った。 トレーニングセットのWERが評価データセットのWERに近くなると、さらに性能が向上した。

Word error rate (WER) is a metric used to evaluate the quality of transcriptions produced by Automatic Speech Recognition (ASR) systems. In many applications, it is of interest to estimate WER given a pair of a speech utterance and a transcript. Previous work on WER estimation focused on building models that are trained with a specific ASR system in mind (referred to as ASR system-dependent). These are also domain-dependent and inflexible in real-world applications. In this paper, a hypothesis generation method for ASR System-Independent WER estimation (SIWE) is proposed. In contrast to prior work, the WER estimators are trained using data that simulates ASR system output. Hypotheses are generated using phonetically similar or linguistically more likely alternative words. In WER estimation experiments, the proposed method reaches a similar performance to ASR system-dependent WER estimators on in-domain data and achieves state-of-the-art performance on out-of-domain data. On the out-of-domain data, the SIWE model outperformed the baseline estimators in root mean square error and Pearson correlation coefficient by relative 17.58% and 18.21%, respectively, on Switchboard and CALLHOME. The performance was further improved when the WER of the training set was close to the WER of the evaluation dataset.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# 自動運転車の安全性の見直し

Redefining Safety for Autonomous Vehicles ( http://arxiv.org/abs/2404.16768v2 )

ライセンス: Link先を確認
Philip Koopman, William Widen, (参考訳) コンピュータベースのシステムの安全性に関する既存の定義と関連する概念的枠組みは、自動運転車の展開から現実の体験に照らして再考されるべきである。 業界安全基準で現在使用されている用語は、特定されたハザードからのリスクの軽減を強調し、人間の監督された車両操作に基づく仮定を実行している。 人間の運転者なしでの運転は、特にオープンワールド環境での運転、運用制限を自己強化する要件、アドホックな社会技術システムへの参加、法的および倫理的制約の両方に準拠する要件により、安全上の問題の範囲を劇的に拡大する。 既存の標準と用語は、これらの新しい課題に部分的に対処するだけである。 我々は、これらの新たな安全課題に対処するための安全なアプローチを進化させる出発点として、これらの追加考慮を含むコアシステム安全概念の更新定義を提案する。 これらの結果は、他の自律システムアプリケーションに対するフレーミング安全用語を通知する可能性がある。

Existing definitions and associated conceptual frameworks for computer-based system safety should be revisited in light of real-world experiences from deploying autonomous vehicles. Current terminology used by industry safety standards emphasizes mitigation of risk from specifically identified hazards, and carries assumptions based on human-supervised vehicle operation. Operation without a human driver dramatically increases the scope of safety concerns, especially due to operation in an open world environment, a requirement to self-enforce operational limits, participation in an ad hoc sociotechnical system of systems, and a requirement to conform to both legal and ethical constraints. Existing standards and terminology only partially address these new challenges. We propose updated definitions for core system safety concepts that encompass these additional considerations as a starting point for evolving safe-ty approaches to address these additional safety challenges. These results might additionally inform framing safety terminology for other autonomous system applications.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26
# LLMがコンテキストをフル活用する

Make Your LLM Fully Utilize the Context ( http://arxiv.org/abs/2404.16811v2 )

ライセンス: Link先を確認
Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, (参考訳) 多くの現代の大規模言語モデル(LLM)は長い入力を処理できるが、中途半端な課題として知られる長いコンテキスト内で情報の活用に苦慮している。 長い文脈におけるいかなる位置でも重要な情報を保持できることを強調できないような、長期のコンテキストトレーニングにおいて、明確な監督が不十分であることに起因する、という仮説を立てる。 この直感に基づいて,情報集約学習(Information-intensive training,IN2)を提案する。 特に、IN2トレーニングでは、(1)短いセグメント(〜128トークン)の細かな情報認識を合成された長いコンテキスト(4K-32Kトークン)内で行うこと、(2)2つ以上の短いセグメントからの情報の統合と推論を行う。 この情報集約トレーニングをMistral-7Bに適用し、FILM-7B(FILl-in-the-Middle)を提案する。 長いコンテキストを利用するためのFILM-7Bの能力を徹底的に評価するために、様々なコンテキストスタイル(文書、コード、構造化データコンテキスト)と情報検索パターン(前方、後方、双方向検索)を含む3つの探索タスクを設計する。 その結果、FILM-7Bは32Kコンテキストウィンドウ内の異なる位置から情報を取り出すことができることがわかった。 これらの探索タスク以外にも、FILM-7Bは実世界の長文タスク(NarrativeQAでは23.5->26.9スコア)のパフォーマンスを大幅に改善し、短文タスク(MMLUでは59.3->59.2精度)では同等のパフォーマンスを維持している。 Githubリンク:https://github.com/microsoft/FILM

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-26