このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240723となっている論文です。

PDF登録状況(公開日: 20240723)

TitleAuthorsAbstract論文公表日・翻訳日
# ScaleLLM: エンド・ツー・エンド効率を最適化したリソースフルーガーLLMサービングフレームワーク

ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency ( http://arxiv.org/abs/2408.00008v1 )

ライセンス: Link先を確認
Yuhang Yao, Han Jin, Alay Dilipbhai Shah, Shanshan Han, Zijian Hu, Yide Ran, Dimitris Stripelis, Zhaozhuo Xu, Salman Avestimehr, Chaoyang He, (参考訳) 大規模言語モデル (LLM) は、ユーザエクスペリエンスにおいてモデル提供の効率が不可欠である商用アプリケーションで広く利用されている。 最近の研究は、ローカル推論や通信など、個々のサブプロデューサの最適化に重点を置いているが、エンドツーエンドでLLMを最適化するための総合的なシステムビューを提供する包括的フレームワークは存在しない。 本研究では,LLMサービスシステムにおいて,エンドツーエンドのレイテンシに影響を及ぼす主要なボトルネックを特定するための詳細な解析を行う。 解析の結果,LLMサービスエンドポイントはLLM推論を超えて拡張される一連の効率ボトルネックに対処する必要があることがわかった。 次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。 我々の広範な実験によると、64の同時リクエストにより、ScaleLLMはvLLMよりも4.3倍のスピードアップを実現し、1.5倍高いスループットで最先端の処理性能を実現している。

Large language models (LLMs) have surged in popularity and are extensively used in commercial applications, where the efficiency of model serving is crucial for the user experience. Most current research focuses on optimizing individual sub-procedures, e.g. local inference and communication, however, there is no comprehensive framework that provides a holistic system view for optimizing LLM serving in an end-to-end manner. In this work, we conduct a detailed analysis to identify major bottlenecks that impact end-to-end latency in LLM serving systems. Our analysis reveals that a comprehensive LLM serving endpoint must address a series of efficiency bottlenecks that extend beyond LLM inference. We then propose ScaleLLM, an optimized system for resource-efficient LLM serving. Our extensive experiments reveal that with 64 concurrent requests, ScaleLLM achieves a 4.3x speed up over vLLM and outperforms state-of-the-arts with 1.5x higher throughput.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-23
# マイクロ)サービスにおける根本原因分析に関する包括的調査:方法論,課題,動向

A Comprehensive Survey on Root Cause Analysis in (Micro) Services: Methodologies, Challenges, and Trends ( http://arxiv.org/abs/2408.00803v1 )

ライセンス: Link先を確認
Tingting Wang, Guilin Qi, (参考訳) マイクロサービスに固有の複雑な依存関係と伝播障害は、相互接続されたサービスの密なネットワークによって特徴づけられ、問題の根本原因を特定する上で大きな課題となる。 破壊的な問題の早期発見と解決は、迅速な回復とシステムの安定性維持に不可欠である。 この課題に対処する多くの方法論が登場し、主に症状データによる障害の診断に焦点を当てている。 この調査は、マイクロサービス内の根本原因分析(RCA)テクニックを包括的に構造化したレビューを提供することを目的としており、メトリクス、トレース、ログ、マルチモデルデータを含む方法論を探求する。 マイクロサービスアーキテクチャの方法論、課題、今後のトレンドを深く掘り下げている。 AIと自動化の進歩の最前線に位置し、将来の研究方向のガイダンスを提供する。

The complex dependencies and propagative faults inherent in microservices, characterized by a dense network of interconnected services, pose significant challenges in identifying the underlying causes of issues. Prompt identification and resolution of disruptive problems are crucial to ensure rapid recovery and maintain system stability. Numerous methodologies have emerged to address this challenge, primarily focusing on diagnosing failures through symptomatic data. This survey aims to provide a comprehensive, structured review of root cause analysis (RCA) techniques within microservices, exploring methodologies that include metrics, traces, logs, and multi-model data. It delves deeper into the methodologies, challenges, and future trends within microservices architectures. Positioned at the forefront of AI and automation advancements, it offers guidance for future research directions.
翻訳日:2024-08-19 05:08:48 公開日:2024-07-23
# MiranDa: 医師の学習過程を模倣して医療勧告のための因果推論を実現する

MiranDa: Mimicking the Learning Processes of Human Doctors to Achieve Causal Inference for Medication Recommendation ( http://arxiv.org/abs/2408.01445v1 )

ライセンス: Link先を確認
Ziheng Wang, Xinhe Li, Haruki Momma, Ryoichi Nagatomi, (参考訳) 薬理学的観点から治療効果を高めるため,臨床実習とモデルトレーニングを指導する対効果として,病院での滞在期間(ELOS)を推定できる最初の実行可能なモデルであるミランダ(MiranDa)を提案する。 MiranDaは、ELOSがシフトする2つの勾配スケーリング段階、すなわち教師付き学習を利用するエビデンスベースのトレーニング段階と、勾配空間内の強化学習におけるセラピー最適化段階をエミュレートし、ELOSからの摂動による最適な薬物の探索を行う。 Intensive Care III データセットとIV データセットのための医療情報マートの評価では,5つの指標,特にELOS の削減において,我々のモデルの優れた結果が示された。 驚いたことに、我々のモデルは、双曲空間で証明された薬物の組み合わせの構造的特性を提供し、「プロドウレ特異的」な薬物の組み合わせを提唱している。 これらの所見はミランダが薬効を増強したことを示唆している。 特に、我々のパラダイムは、ほぼ全ての医療課題や、予測された結果を評価する情報に応用できる。 MiranDaモデルのソースコードはhttps://github.com/azusakou/MiranDaで入手できる。

To enhance therapeutic outcomes from a pharmacological perspective, we propose MiranDa, designed for medication recommendation, which is the first actionable model capable of providing the estimated length of stay in hospitals (ELOS) as counterfactual outcomes that guide clinical practice and model training. In detail, MiranDa emulates the educational trajectory of doctors through two gradient-scaling phases shifted by ELOS: an Evidence-based Training Phase that utilizes supervised learning and a Therapeutic Optimization Phase grounds in reinforcement learning within the gradient space, explores optimal medications by perturbations from ELOS. Evaluation of the Medical Information Mart for Intensive Care III dataset and IV dataset, showcased the superior results of our model across five metrics, particularly in reducing the ELOS. Surprisingly, our model provides structural attributes of medication combinations proved in hyperbolic space and advocated "procedure-specific" medication combinations. These findings posit that MiranDa enhanced medication efficacy. Notably, our paradigm can be applied to nearly all medical tasks and those with information to evaluate predicted outcomes. The source code of the MiranDa model is available at https://github.com/azusakou/MiranDa.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-23
# モデルによる適応ライフサイクルにおける環境コストの推定

Estimating Environmental Cost Throughout Model's Adaptive Life Cycle ( http://arxiv.org/abs/2408.01446v1 )

ライセンス: Link先を確認
Vishwesh Sangarya, Richard Bradford, Jung-Eun Kim, (参考訳) 現代のニューラルネットワークの研究、開発、応用の急速な増加に伴い、モデルの訓練と使用に必要なエネルギーは比例的に増加する。 重要なことに、環境への二酸化炭素の排出の増加が伴う。 AI/深層学習の現代に伴う炭素フットプリントの削減とエネルギー需要の増大に対する持続的で社会的に有益なアプローチは、モデル展開の環境の変化や入力データの変化に対するモデルの適応的かつ継続的な再利用である。 本稿では,データの分散シフトに伴うモデル再学習に伴う環境・計算資源を推定する予測指標であるPreIndexを提案する。 PreIndexは、現在のデータ分布から新しいデータ分布への再トレーニングにおいて、二酸化炭素排出量やエネルギー使用量などの環境コストを見積もることができる。 また、深層学習に関連する他のリソース指標(例えばエポックス、勾配ノルム、モデルパラメータの変化の大きさなど)と相関し、推定することができる。 PreIndexはデータのフォワードパスを1つだけ必要としており、次に新しい分散シフトデータの再トレーニングに関連するリソースを推定するために、単一の簡潔な値を提供する。 PreIndexは、さまざまなデータセット、モデルアーキテクチャ、異なる型、分散シフトの強度で確実に使用できることを示す。 このため、PreIndexは、異なる分散シフトに再トレーニングするための情報的な決定を可能にし、最もコスト効率が高く持続可能なオプションを決定できるため、環境のフットプリントがはるかに小さいモデルの再利用が可能になる。 https://github.com/JEKimLab/AIES2024PreIndex

With the rapid increase in the research, development, and application of neural networks in the current era, there is a proportional increase in the energy needed to train and use models. Crucially, this is accompanied by the increase in carbon emissions into the environment. A sustainable and socially beneficial approach to reducing the carbon footprint and rising energy demands associated with the modern age of AI/deep learning is the adaptive and continuous reuse of models with regard to changes in the environment of model deployment or variations/changes in the input data. In this paper, we propose PreIndex, a predictive index to estimate the environmental and compute resources associated with model retraining to distributional shifts in data. PreIndex can be used to estimate environmental costs such as carbon emissions and energy usage when retraining from current data distribution to new data distribution. It also correlates with and can be used to estimate other resource indicators associated with deep learning, such as epochs, gradient norm, and magnitude of model parameter change. PreIndex requires only one forward pass of the data, following which it provides a single concise value to estimate resources associated with retraining to the new distribution shifted data. We show that PreIndex can be reliably used across various datasets, model architectures, different types, and intensities of distribution shifts. Thus, PreIndex enables users to make informed decisions for retraining to different distribution shifts and determine the most cost-effective and sustainable option, allowing for the reuse of a model with a much smaller footprint in the environment. The code for this work is available here: https://github.com/JEKimLab/AIES2024PreIndex
翻訳日:2024-08-19 04:59:02 公開日:2024-07-23
# コミュニケーションにおける信頼と信頼の概念化

Conceptualizing Trustworthiness and Trust in Communications ( http://arxiv.org/abs/2408.01447v1 )

ライセンス: Link先を確認
Gerhard P. Fettweis, Patricia Grünberg, Tim Hentschel, Stefan Köpsell, (参考訳) 信頼と信頼は、共通社会における基本的な要素であり、恐れずに群衆の中で対話し、楽しむことができる。 ロボットデバイスが私たちの日常生活に浸透するにつれ、人間は日々の生活の中で他人との対話を信頼しているように受け入れるように、完全に信頼できる物体として振る舞う必要がある。 社会科学からシステムモデルや発見からどのように学ぶことができ、そのような学習を将来の技術的ソリューションの要件にどのように変換できるのか? 本稿では,コミュニケーションの文脈において,信頼度を体系的に扱うための新しい総合的アプローチを提案する。 本稿では,信頼性に基づく信頼を確立するために,客観的なシステム特性と主観的信念を取り入れた最初の試みを提案する。 特に、基礎となる通信技術に焦点が当てられている。

Trustworthiness and trust are basic factors in common societies that allow us to interact and enjoy being in crowds without fear. As robotic devices start percolating into our daily lives they must behave as fully trustworthy objects, such that humans accept them just as we trust interacting with other people in our daily lives. How can we learn from system models and findings from social sciences and how can such learnings be translated into requirements for future technical solutions? We present a novel holistic approach on how to tackle trustworthiness systematically in the context of communications. We propose a first attempt to incorporate objective system properties and subjective beliefs to establish trustworthiness-based trust, in particular in the context of the future Tactile Internet connecting robotic devices. A particular focus is on the underlying communications technology.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-23
# アルゴリズムフェアネスの15年 -- 分野における学際的発展のスコーピング・レビュー

15 Years of Algorithmic Fairness -- Scoping Review of Interdisciplinary Developments in the Field ( http://arxiv.org/abs/2408.01448v1 )

ライセンス: Link先を確認
Daphne Lenders, Anne Oloo, (参考訳) 本稿では,Web of Science, HEIN Online, FAccT, AIESから得られたデータセットを利用して,過去15年間のアルゴリズムフェアネス研究のスコーピングレビューを行う。 あらゆる記事は、コンピュータ科学と法学の分野から来ており、集団に差別的影響を与える可能性のあるAIアルゴリズムに焦点を当てている。 それぞれの記事は、議論された技術、人口統計、アプリケーションドメイン、地理的コンテキストに基づいて注釈付けされている。 我々の分析では、対処されたドメイン、アプローチ、人口統計学における特異性への傾向が明らかにされているが、貢献のかなりの部分は依然として一般的である。 専門的な議論は、しばしば分類タスクにおける性別や人種に基づく差別に焦点を当てる。 研究の地理的文脈については、北アメリカとヨーロッパ(グローバル・ノース・カウンティズ)に圧倒的な焦点が当てられ、他の地域からの限定的な表現がある。 これは、他のタイプのAIアプリケーションを見落とし、異なるタイプの集団に悪影響を及ぼし、これらの問題に対処するために必要な文化的配慮について懸念を提起する。 強調された作品の助けを借りて、なぜ広範囲のトピックが議論されるべきなのか、なぜドメイン、技術、多様な地理的、人口統計学的アプローチが必要なのかを論じる。 また、法学・計算機科学におけるアルゴリズムフェアネス研究の学際的性質を考察し、これらの分野の研究者が個別に、あるいは共同でどのようにトピックにアプローチするかについて考察する。 これを調べることで、両方の規律がもたらすユニークな貢献をよりよく理解できます。

This paper presents a scoping review of algorithmic fairness research over the past fifteen years, utilising a dataset sourced from Web of Science, HEIN Online, FAccT and AIES proceedings. All articles come from the computer science and legal field and focus on AI algorithms with potential discriminatory effects on population groups. Each article is annotated based on their discussed technology, demographic focus, application domain and geographical context. Our analysis reveals a growing trend towards specificity in addressed domains, approaches, and demographics, though a substantial portion of contributions remains generic. Specialised discussions often concentrate on gender- or race-based discrimination in classification tasks. Regarding the geographical context of research, the focus is overwhelming on North America and Europe (Global North Countries), with limited representation from other regions. This raises concerns about overlooking other types of AI applications, their adverse effects on different types of population groups, and the cultural considerations necessary for addressing these problems. With the help of some highlighted works, we advocate why a wider range of topics must be discussed and why domain-, technological, diverse geographical and demographic-specific approaches are needed. This paper also explores the interdisciplinary nature of algorithmic fairness research in law and computer science to gain insight into how researchers from these fields approach the topic independently or in collaboration. By examining this, we can better understand the unique contributions that both disciplines can bring.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-23
# 作業プログラマのためのAI法

AI Act for the Working Programmer ( http://arxiv.org/abs/2408.01449v1 )

ライセンス: Link先を確認
Holger Hermanns, Anne Lauber-Rönsberg, Philip Meinel, Sarah Sterz, Hanwei Zhang, (参考訳) 欧州AI法(European AI Act)は、欧州の人々に影響を与える可能性のあるAI技術の開発と使用に関する一定の要件を強制する、新たな法的拘束力を持つ手段である。 この法律の規定が、ヨーロッパ以降のITセクターにおける、多くのソフトウェアエンジニア、ソフトウェアテスタ、データエンジニア、その他の専門家の作業に影響を与えることは期待できる。 法律を構成する113条、180のリサイタル、13の別館が144ページをカバーしている。 本稿では,この法律の規定について知る必要があると感じた「働くプログラマ」と呼ばれるソフトウェア分野の専門家の視点から,法律をナビゲートする支援を提供することを目的とする。

The European AI Act is a new, legally binding instrument that will enforce certain requirements on the development and use of AI technology potentially affecting people in Europe. It can be expected that the stipulations of the Act, in turn, are going to affect the work of many software engineers, software testers, data engineers, and other professionals across the IT sector in Europe and beyond. The 113 articles, 180 recitals, and 13 annexes that make up the Act cover 144 pages. This paper aims at providing an aid for navigating the Act from the perspective of some professional in the software domain, termed "the working programmer", who feels the need to know about the stipulations of the Act.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-23
# 建設作業と教育における仮想現実(VR)の実現可能性に関する体系的レビューと分析

A systematic review and analysis of the viability of virtual reality (VR) in construction work and education ( http://arxiv.org/abs/2408.01450v1 )

ライセンス: Link先を確認
Zia Ud Din, Payam Mohammadi, Rachael Sherman, (参考訳) 本稿では,建設業界における学習成果と運用効率を高めるために,仮想現実(VR)技術の実用性について検討する。 本研究は、建設教育と実践におけるVRの現在の統合について評価する。 The Preferred Reporting Items for Systematic Reviews and Meta-Analyses Guidelinesを用いて、Web of Science, ERIC, Scopusなどのデータベースから36の査読論文を分析した。 この方法論は、建設関連分野におけるVRアプリケーションの有効性を評価するために、関連するすべての研究を特定し、評価し、合成することに焦点を当てた。 このレビューでは、構造要素やトンネルボーリングマシン操作といった複雑な建設プロセスの理解を改善する没入型インタラクティブシミュレーションを提供することで、VRが学習を著しく向上させることを強調している。 このレビューは、建設におけるVRの使用に関する証拠を体系的にコンパイルし、評価することで貢献する。 それは、VRが教育と仕事に革命をもたらす実践的な例を提供する。

This systematic review explores the viability of virtual reality (VR) technologies for enhancing learning outcomes and operational efficiency within the construction industry. This study evaluates the current integration of VR in construction education and practice. Employing the Preferred Reporting Items for Systematic Reviews and Meta-Analyses guidelines, this review analyzed 36 peer-reviewed journal articles from databases such as the Web of Science, ERIC, and Scopus. The methodology focused on identifying, appraising, and synthesizing all relevant studies to assess the effectiveness of VR applications in construction-related fields. This review highlights that VR significantly enhances learning by providing immersive interactive simulations that improve the understanding of every complex construction process, such as structural elements or tunnel-boring machine operations. This review contributes by systematically compiling and evaluating evidence on using VR in construction, which has seen a limited comprehensive analysis. It provides practical examples of how VR can revolutionize education and work.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-23
# 基礎モデルに基づく病理組織像の埋め込み : 患者の治療応答予測のための集約

Histopathology image embedding based on foundation models features aggregation for patient treatment response prediction ( http://arxiv.org/abs/2408.03954v1 )

ライセンス: Link先を確認
Bilel Guetarni, Feryal Windal, Halim Benhabiles, Mahfoud Chaibi, Romain Dubois, Emmanuelle Leteurtre, Dominique Collard, (参考訳) がん治療に対する患者の反応を予測することは高い関心事である。 それでも、この課題は、患者の生物と考慮された治療との相互作用の複雑さのため、医学的な観点からはまだ困難な課題である。 大規模無ラベル組織学データセットを用いた自己教師型学習を前提とした基礎モデルに関する最近の研究は,がん診断関連タスクの新しい手法の開発に向けた新たな方向性を開拓した。 本稿では,びまん性大細胞型B細胞リンパ腫患者の治療反応を全スライド画像から予測する新しい手法を提案する。 提案手法は, 特徴抽出器としていくつかの基礎モデルを用いて, 組織の小さな領域に対応する画像の局所的表現を求め, 注意に基づくマルチインスタンス学習を用いてこれらの局所的表現を集約することにより, 画像のグローバルな表現を得る。 本研究は152人の患者を対象とした実験で,従来のイメージネットの事前トレーニングと比較して,基礎モデルを用いることの利点を強調し,提案手法の有望な成果を示した。 さらに,本研究の結果は,病理組織像を特徴付ける基盤モデルの可能性を明らかにし,この課題に対してより適切な意味表現を生成する。

Predicting the response of a patient to a cancer treatment is of high interest. Nonetheless, this task is still challenging from a medical point of view due to the complexity of the interaction between the patient organism and the considered treatment. Recent works on foundation models pre-trained with self-supervised learning on large-scale unlabeled histopathology datasets have opened a new direction towards the development of new methods for cancer diagnosis related tasks. In this article, we propose a novel methodology for predicting Diffuse Large B-Cell Lymphoma patients treatment response from Whole Slide Images. Our method exploits several foundation models as feature extractors to obtain a local representation of the image corresponding to a small region of the tissue, then, a global representation of the image is obtained by aggregating these local representations using attention-based Multiple Instance Learning. Our experimental study conducted on a dataset of 152 patients, shows the promising results of our methodology, notably by highlighting the advantage of using foundation models compared to conventional ImageNet pre-training. Moreover, the obtained results clearly demonstrates the potential of foundation models for characterizing histopathology images and generating more suited semantic representation for this task.
翻訳日:2024-08-19 04:27:34 公開日:2024-07-23
# HiRISE: センサー内圧縮と選択ROIによるエッジMLの高分解能イメージスケーリング

HiRISE: High-Resolution Image Scaling for Edge ML via In-Sensor Compression and Selective ROI ( http://arxiv.org/abs/2408.03956v1 )

ライセンス: Link先を確認
Brendan Reidy, Sepehr Tabrizchi, Mohamadreza Mohammadi, Shaahin Angizi, Arman Roohi, Ramtin Zand, (参考訳) 機械学習(ML)を利用した小さなIoTデバイスの台頭により、多くの研究者が、小さなエッジデバイスにフィットするモデルを圧縮することに注力してきた。 最近の研究は、小さなメモリを持つマイクロコントローラ、例えば512kB SRAM上でのオブジェクト検出と画像分類のためのMLモデルを圧縮することに成功した。 しかし、高解像度画像を必要とするMLシステムの配置を禁止する多くの課題が残っている。 小さなIoTデバイスのメモリ容量に根本的な制限があるため、外部ハードウェアなしで大きな画像を保存することは物理的に不可能である。 そこで本稿では, アナログインセンサ画像スケーリングを利用するROI機能を備えたHiRISEと呼ばれるエッジMLの高分解能画像スケーリングシステムを提案する。 我々の手法はピークメモリの要求を大幅に削減するだけでなく、データ転送とエネルギー消費の最大17.7倍の削減を実現している。

With the rise of tiny IoT devices powered by machine learning (ML), many researchers have directed their focus toward compressing models to fit on tiny edge devices. Recent works have achieved remarkable success in compressing ML models for object detection and image classification on microcontrollers with small memory, e.g., 512kB SRAM. However, there remain many challenges prohibiting the deployment of ML systems that require high-resolution images. Due to fundamental limits in memory capacity for tiny IoT devices, it may be physically impossible to store large images without external hardware. To this end, we propose a high-resolution image scaling system for edge ML, called HiRISE, which is equipped with selective region-of-interest (ROI) capability leveraging analog in-sensor image scaling. Our methodology not only significantly reduces the peak memory requirements, but also achieves up to 17.7x reduction in data transfer and energy consumption.
翻訳日:2024-08-19 04:27:34 公開日:2024-07-23
# 物理インフォームド弱教師付き原子間ポテンシャル学習

Physics-Informed Weakly Supervised Learning for Interatomic Potentials ( http://arxiv.org/abs/2408.05215v1 )

ライセンス: Link先を確認
Makoto Takamoto, Viktor Zaverkin, Mathias Niepert, (参考訳) 機械学習は、計算化学と材料科学においてますます重要な役割を担い、計算集約的なab initio法と第一原理法を補完する。 その実用性にもかかわらず、機械学習モデルは、原子論シミュレーション中に一般化能力と堅牢性を欠くことが多く、非物理的エネルギーと実世界の応用を妨げる力の予測をもたらす。 本稿では,機械学習型原子間ポテンシャル(MLIP)をトレーニングするための物理インフォームド・弱教師付きアプローチを導入することで,この問題に対処する。 テイラー展開によるポテンシャルエネルギーの補間と、保守的な力の概念を用いた2つの新しい損失関数を導入する。 提案手法は, 訓練用MLIPの高精度化と, 大規模データセットを用いた計算要求モデルの事前学習の必要性を低減させる。 特に、様々なベースラインモデルとベンチマークデータセットに対して、エネルギーと力の誤差(しばしば2倍以下)の低減を実証する広範な実験を行う。 最後に,本手法は,完全基底集合外挿法などの参照レベルでの力の計算が不可能な環境でのMLIPの訓練を促進することを示す。

Machine learning plays an increasingly important role in computational chemistry and materials science, complementing computationally intensive ab initio and first-principles methods. Despite their utility, machine-learning models often lack generalization capability and robustness during atomistic simulations, yielding unphysical energy and force predictions that hinder their real-world applications. We address this challenge by introducing a physics-informed, weakly supervised approach for training machine-learned interatomic potentials (MLIPs). We introduce two novel loss functions, extrapolating the potential energy via a Taylor expansion and using the concept of conservative forces. Our approach improves the accuracy of MLIPs applied to training tasks with sparse training data sets and reduces the need for pre-training computationally demanding models with large data sets. Particularly, we perform extensive experiments demonstrating reduced energy and force errors -- often lower by a factor of two -- for various baseline models and benchmark data sets. Finally, we show that our approach facilitates MLIPs' training in a setting where the computation of forces is infeasible at the reference level, such as those employing complete-basis-set extrapolation.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-23
# 深層学習に基づくビジネス文書からの鍵情報抽出:体系的文献レビュー

Deep Learning based Key Information Extraction from Business Documents: Systematic Literature Review ( http://arxiv.org/abs/2408.06345v1 )

ライセンス: Link先を確認
Alexander Rombach, Peter Fettke, (参考訳) ドキュメントから重要な情報を抽出することは、ビジネスワークロードの大部分を表しており、効率の改善とプロセスの自動化に高い可能性を提供します。 近年のディープラーニングの進歩に伴い、複雑なビジネス文書の処理を可能にする文書理解という包括的用語の下で、キー情報抽出のための多くのディープラーニングベースのアプローチが提案されている。 この体系的な文献レビューの目的は、この領域における既存のアプローチの詳細な分析とさらなる研究の機会の同定である。 この目的のために、2017年から2023年の間に発表された96のアプローチが本研究では分析されている。

Extracting key information from documents represents a large portion of business workloads and therefore offers a high potential for efficiency improvements and process automation. With recent advances in deep learning, a plethora of deep learning-based approaches for Key Information Extraction have been proposed under the umbrella term Document Understanding that enable the processing of complex business documents. The goal of this systematic literature review is an in-depth analysis of existing approaches in this domain and the identification of opportunities for further research. To this end, 96 approaches published between 2017 and 2023 are analyzed in this study.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-23
# 経験駆動型強化学習デザイナによる影響ループの閉鎖

Closing the Affective Loop via Experience-Driven Reinforcement Learning Designers ( http://arxiv.org/abs/2408.06346v1 )

ライセンス: Link先を確認
Matthew Barthet, Diogo Branco, Roberto Gallotta, Ahmed Khalifa, Georgios N. Yannakakis, (参考訳) 特定の感情パターンのセットに自動的に調整する内容は、長い間、人間とコンピュータの相互作用を広く認識する聖杯と考えられてきた。 体験駆動型手続き型コンテンツ生成フレームワークは、特定の体験パターンをユーザに提供するコンテンツを探すことによって、このビジョンを実現する。 本稿では,感情調整されたコンテンツを生成するための新しい強化学習(RL)フレームワークを提案する。 具体的には、経験駆動型RL(EDRL)フレームワークに目標の覚醒トレースが与えられ、特定のタイプのプレーヤに対して望ましい感情応答を与えるレーストラックが生成される。 EDRLは、覚醒トレースのコーパスから生成された任意のレーストラックの感情パターンを評価する報奨関数を利用する。 以上の結果から,EDRLはデザイナーのスタイルに応じて感情駆動型レースゲームレベルを正確に生成し,パーソナライズされたコンテンツ生成のための検索ベースの手法より優れていることが示唆された。 この方法は、ゲームコンテンツ生成タスクに直接適用されるだけでなく、感情適応のためにコンテンツを使用するどの領域にも広く適用することができる。

Autonomously tailoring content to a set of predetermined affective patterns has long been considered the holy grail of affect-aware human-computer interaction at large. The experience-driven procedural content generation framework realises this vision by searching for content that elicits a certain experience pattern to a user. In this paper, we propose a novel reinforcement learning (RL) framework for generating affect-tailored content, and we test it in the domain of racing games. Specifically, the experience-driven RL (EDRL) framework is given a target arousal trace, and it then generates a racetrack that elicits the desired affective responses for a particular type of player. EDRL leverages a reward function that assesses the affective pattern of any generated racetrack from a corpus of arousal traces. Our findings suggest that EDRL can accurately generate affect-driven racing game levels according to a designer's style and outperforms search-based methods for personalised content generation. The method is not only directly applicable to game content generation tasks but also employable broadly to any domain that uses content for affective adaptation.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-23
# トランスファーラーニング畳み込みニューラルネットワークによる手書きサンプルの自動統合失調症検出

Automated Schizophrenia Detection from Handwriting Samples via Transfer Learning Convolutional Neural Networks ( http://arxiv.org/abs/2408.06347v1 )

ライセンス: Link先を確認
Rafael Castro, Ishaan Patel, Tarun Patanjali, Priya Iyer, (参考訳) 統合失調症 (Schizophrenia) は、日常生活に深刻な障害を与える世界的な精神疾患である。 統合失調症は、小脳の運動制御に影響を及ぼす脳前頭-線条経路におけるドーパミンの不均衡によって引き起こされる。 これは筆跡の異常につながる。 本研究の目的は、統合失調症手書きサンプルと非統合失調症手書きサンプルを識別できる正確で客観的でアクセスしやすい計算方法を開発することである。 これを実現するために、Crespo et al (2019) のデータを使用し、統合失調症患者および非統合失調症患者の筆跡サンプルの画像を含む。 データは事前処理され、さまざまなタイプの手書き認識が可能な、より堅牢なモデルを生成するように拡張された。 データは、いくつかの異なる畳み込みニューラルネットワークをトレーニングするために使用され、InceptionV3のベースアーキテクチャを持つモデルは、92%の精度で2種類の画像の最も優れた差別化を実行した。 このモデルを利用できるようにするために、医療専門家が患者に使える安全なウェブサイトが開発された。 このような結果は、臨床医が統合失調症を診断し、モニターするための非侵襲的で客観的な方法として、計算モデルによる手書き解析が約束されていることを示唆している。

Schizophrenia is a globally prevalent psychiatric disorder that severely impairs daily life. Schizophrenia is caused by dopamine imbalances in the fronto-striatal pathways of the brain, which influences fine motor control in the cerebellum. This leads to abnormalities in handwriting. The goal of this study was to develop an accurate, objective, and accessible computational method to be able to distinguish schizophrenic handwriting samples from non-schizophrenic handwriting samples. To achieve this, data from Crespo et al. (2019) was used, which contains images of handwriting samples from schizophrenic and non-schizophrenic patients. The data was preprocessed and augmented to produce a more robust model that can recognize different types of handwriting. The data was used to train several different convolutional neural networks, and the model with the base architecture of InceptionV3 performed the best, differentiating between the two types of image with a 92% accuracy rate. To make this model accessible, a secure website was developed for medical professionals to use for their patients. Such a result suggests that handwriting analysis through computational models holds promise as a non-invasive and objective method for clinicians to diagnose and monitor schizophrenia.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-23
# ビデオ質問回答の因果理解

Causal Understanding For Video Question Answering ( http://arxiv.org/abs/2407.20257v1 )

ライセンス: Link先を確認
Bhanu Prakash Reddy Guda, Tanmay Kulkarni, Adithya Sampath, Swarnashree Mysore Sathyendra, (参考訳) ビデオ質問回答は難しいタスクであり、複数のフレームを推論し、ビデオ内で提供されるコンテキストに基づいて異なるオブジェクト間の相互作用を理解する必要がある。 従来のアプローチでは、NExT-QAタスクに取り組むために、サブサンプル情報または因果介入技術と完全なビデオ機能を利用する。 本研究は,これらのアプローチの限界を抽出し,NExT-QAデータセットの4つの新しい改善方向に沿ったソリューションを提案する。 我々のアプローチは、フレームをスマートにサンプリングし、アクションを明示的にエンコードし、モデルの理解に挑戦する介入を作成することで、これらの問題を体系的に攻撃することで、過去の研究の欠点を補う試みである。 全体として、シングルフレーム(+6.3%)とフルビデオ(+1.1%)の両方のアプローチで、NExT-QAデータセットの最先端結果を得る。

Video Question Answering is a challenging task, which requires the model to reason over multiple frames and understand the interaction between different objects to answer questions based on the context provided within the video, especially in datasets like NExT-QA (Xiao et al., 2021a) which emphasize on causal and temporal questions. Previous approaches leverage either sub-sampled information or causal intervention techniques along with complete video features to tackle the NExT-QA task. In this work we elicit the limitations of these approaches and propose solutions along four novel directions of improvements on theNExT-QA dataset. Our approaches attempts to compensate for the shortcomings in the previous works by systematically attacking each of these problems by smartly sampling frames, explicitly encoding actions and creating interventions that challenge the understanding of the model. Overall, for both single-frame (+6.3%) and complete-video (+1.1%) based approaches, we obtain the state-of-the-art results on NExT-QA dataset.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-23
# APTNESS:共感反応生成のための評価理論と感情支援戦略の導入

APTNESS: Incorporating Appraisal Theory and Emotion Support Strategies for Empathetic Response Generation ( http://arxiv.org/abs/2407.21048v1 )

ライセンス: Link先を確認
Yuxuan Hu, Minghuan Tan, Chenwei Zhang, Zixuan Li, Xiaodan Liang, Min Yang, Chengming Li, Xiping Hu, (参考訳) 共感的反応生成は、他人の感情を理解し、感情的課題を解決するのを支援する最も適切な戦略を選択するように設計されている。 共感は認知的共感と感情的共感に分類される。 前者は他者の感情的な問題や状況を理解し、認識する能力に関係し、後者は快適さを提供する能力に関係している。 共感能力を高めるためには、これら2つの側面を開発することが不可欠である。 そこで我々は,検索強化と感情支援戦略統合を組み合わせた,革新的なフレームワークを開発した。 私たちのフレームワークは、共感のための包括的な感情的なパレットの導入から始まります。 次に、評価理論を適用して、このパレットを分解し、共感的応答のデータベースを作成する。 このデータベースは外部リソースとして機能し、意味論的検索機構を統合することでLLMの共感を高める。 さらに,本フレームワークは,応答戦略の適切な記述に強く重点を置いている。 感情的支援戦略を取り入れることで、認知的および情緒的共感の両方においてモデルの能力を強化することを目指しており、よりニュアンスで包括的な共感的反応をもたらす。 最後に,情緒的対話データセット \textsc{EmpatheticDialogues} と ExTES から,対話長に基づくデータセット ED と ET を抽出する。 実験により,認知的,情緒的両面からLLMの共感能力を高めることができることが示された。 私たちのコードはhttps://github.com/CAS-SIAT-XinHai/APTNESSで公開されています。

Empathetic response generation is designed to comprehend the emotions of others and select the most appropriate strategies to assist them in resolving emotional challenges. Empathy can be categorized into cognitive empathy and affective empathy. The former pertains to the ability to understand and discern the emotional issues and situations of others, while the latter involves the capacity to provide comfort. To enhance one's empathetic abilities, it is essential to develop both these aspects. Therefore, we develop an innovative framework that combines retrieval augmentation and emotional support strategy integration. Our framework starts with the introduction of a comprehensive emotional palette for empathy. We then apply appraisal theory to decompose this palette and create a database of empathetic responses. This database serves as an external resource and enhances the LLM's empathy by integrating semantic retrieval mechanisms. Moreover, our framework places a strong emphasis on the proper articulation of response strategies. By incorporating emotional support strategies, we aim to enrich the model's capabilities in both cognitive and affective empathy, leading to a more nuanced and comprehensive empathetic response. Finally, we extract datasets ED and ET from the empathetic dialogue dataset \textsc{EmpatheticDialogues} and ExTES based on dialogue length. Experiments demonstrate that our framework can enhance the empathy ability of LLMs from both cognitive and affective empathy perspectives. Our code is released at https://github.com/CAS-SIAT-XinHai/APTNESS.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-23
# マルチステップキー検索を用いたコード生成モデルにおける長距離依存性処理の評価

Evaluating Long Range Dependency Handling in Code Generation Models using Multi-Step Key Retrieval ( http://arxiv.org/abs/2407.21049v1 )

ライセンス: Link先を確認
Yannick Assogba, Donghao Ren, (参考訳) 言語モデルがより大きなコンテキストサイズをサポートするようになると、そのコンテキストを効果的に活用する能力を評価することがますます重要になる。 コンテクストウィンドウ内の複数ステップのキー検索タスクを最大8kトークンまで長値化することで,複数のコード生成モデルが長距離依存を処理可能であることを解析する。 これらのタスクは、徐々に困難を増し、一般的なニードル・イン・ザ・ヘイスタックテストのようなテストよりも、モデル能力のニュアンスな評価を可能にします。 関数がプロンプトで後で定義される別の関数を参照すると、パフォーマンスは著しく低下する(最大2倍)。 また,スライディングウィンドウアテンション機構を用いたモデルでは,単一ウィンドウのサイズ以上の参照処理が困難であることも確認した。 コールグラフ情報を用いた簡易なプロンプト修正を行い,マルチステップ検索性能を最大3倍に向上する。 我々の分析では、長文性能の異なる側面を強調し、コード補完ツールの迅速な構築戦略を示唆している。

As language models support larger and larger context sizes, evaluating their ability to make effective use of that context becomes increasingly important. We analyze the ability of several code generation models to handle long range dependencies using a suite of multi-step key retrieval tasks in context windows up to 8k tokens in length. The tasks progressively increase in difficulty and allow more nuanced evaluation of model capabilities than tests like the popular needle-in-the-haystack test. We find that performance degrades significantly (up to 2x) when a function references another function that is defined later in the prompt. We also observe that models that use sliding window attention mechanisms have difficulty handling references further than the size of a single window. We perform simple prompt modifications using call graph information to improve multi-step retrieval performance up to 3x. Our analysis highlights different facets of long-context performance and is suggestive of prompt construction strategies for code completion tools
翻訳日:2024-08-04 19:28:03 公開日:2024-07-23
# 歯科記録から診断データを抽出する人工知能

Artificial Intelligence in Extracting Diagnostic Data from Dental Records ( http://arxiv.org/abs/2407.21050v1 )

ライセンス: Link先を確認
Yao-Shun Chuang, Chun-Teh Lee, Oluwabunmi Tokede, Guo-Hao Lin, Ryan Brandon, Trung Duong Tran, Xiaoqian Jiang, Muhammad F. Walji, (参考訳) 本研究は, 未構造化テキストから診断情報を抽出することにより, 歯科記録に欠落する構造データの問題に対処する。 更新された歯周組織分類システムの複雑さは不完全または構造診断の欠如を増した。 そこで我々は、GPT-4を利用した高度なAIとNLP手法を用いて、RoBERTaモデルの微調整のための合成音符を生成する。 これにより、モデルが医療や歯科の言語を理解する能力が大幅に向上する。 2つのデータセットからランダムに選択した120個の臨床ノートを用いてモデルの評価を行い,診断精度の向上を実証した。 その結果, 歯周状態, ステージ, グレードの診断精度が高く, サイト1は0.99, サイト2は0.98であった。 サブタイプカテゴリーでは、Site 2はSite 1よりも優れたスコアを得た。 この方法は, 抽出精度を高め, 歯科用コンテキストにまたがって使用を拡大する。 この研究は、AIとNLPの変革的な影響がヘルスケアのデリバリとマネジメントに与える影響を強調している。 AIとNLP技術の統合は、複雑な臨床情報を正確に抽出することによって、ドキュメントを強化し、管理作業を単純化する。 このアプローチは歯科診断における課題に効果的に対処する。 LLMから合成トレーニングデータを使用することで、トレーニングプロセスを最適化し、臨床ノートから歯周診断を識別する精度と効率を向上させる。 この革新的な方法は、より広範な医療応用を約束し、患者のケア品質を向上する可能性がある。

This research addresses the issue of missing structured data in dental records by extracting diagnostic information from unstructured text. The updated periodontology classification system's complexity has increased incomplete or missing structured diagnoses. To tackle this, we use advanced AI and NLP methods, leveraging GPT-4 to generate synthetic notes for fine-tuning a RoBERTa model. This significantly enhances the model's ability to understand medical and dental language. We evaluated the model using 120 randomly selected clinical notes from two datasets, demonstrating its improved diagnostic extraction accuracy. The results showed high accuracy in diagnosing periodontal status, stage, and grade, with Site 1 scoring 0.99 and Site 2 scoring 0.98. In the subtype category, Site 2 achieved perfect scores, outperforming Site 1. This method enhances extraction accuracy and broadens its use across dental contexts. The study underscores AI and NLP's transformative impact on healthcare delivery and management. Integrating AI and NLP technologies enhances documentation and simplifies administrative tasks by precisely extracting complex clinical information. This approach effectively addresses challenges in dental diagnostics. Using synthetic training data from LLMs optimizes the training process, improving accuracy and efficiency in identifying periodontal diagnoses from clinical notes. This innovative method holds promise for broader healthcare applications, potentially improving patient care quality.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-23
# 医療現場における大規模言語モデルからの信頼度向上のためのアクティブ推論戦略

An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice ( http://arxiv.org/abs/2407.21051v1 )

ライセンス: Link先を確認
Roma Shusterman, Allison C. Waters, Shannon O`Neill, Phan Luu, Don M. Tucker, (参考訳) 人工知能におけるLarge Language Models(LLM)の継続的な進歩は、教育や訓練、評価や治療など、多くの文脈において、直感的に医療知識にアクセスし、利用する上で重要な能力を提供する。 医学におけるLSMに関する初期の文献の多くは、LSMは非決定論的であり、誤ったまたは有害な応答を与え、品質管理を保証するために規制できないため、医療用途には適さないと強調している。 これらの問題が修正できれば、LLM技術の最適化は、安価な医療知識を提供することで、患者や医師に利益をもたらす可能性がある。 提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。 さらに,セラピストエージェントが患者クエリに最初に応答し,スーパーバイザエージェントが応答を評価し,精度と信頼性を確保する。 不眠症に対する専門的認知行動療法(CBT-I)をブラインド形式で評価した。 経験豊富なヒトCBT-Iセラピストは、100の患者クエリに対する反応を評価し、LCM生成した反応と、経験豊富なCBT-Iセラピストによる適切な不適切な反応を比較した。 その結果,LSM反応はCBT-I療法士から高い評価を受けており,セラピストが生成する適切な反応を上回ることが多かった。 この構造的アプローチは、医療応用に先進的なLSM技術を統合することを目的としており、医療における特別目的のLSMの安全かつ効果的な利用を確立するための規制要件を満たすことを目的としている。

Continuing advances in Large Language Models (LLMs) in artificial intelligence offer important capacities in intuitively accessing and using medical knowledge in many contexts, including education and training as well as assessment and treatment. Most of the initial literature on LLMs in medicine has emphasized that LLMs are unsuitable for medical use because they are non-deterministic, may provide incorrect or harmful responses, and cannot be regulated to assure quality control. If these issues could be corrected, optimizing LLM technology could benefit patients and physicians by providing affordable, point-of-care medical knowledge. Our proposed framework refines LLM responses by restricting their primary knowledge base to domain-specific datasets containing validated medical information. Additionally, we introduce an actor-critic LLM prompting protocol based on active inference principles of human cognition, where a Therapist agent initially responds to patient queries, and a Supervisor agent evaluates and adjusts responses to ensure accuracy and reliability. We conducted a validation study where expert cognitive behaviour therapy for insomnia (CBT-I) therapists evaluated responses from the LLM in a blind format. Experienced human CBT-I therapists assessed responses to 100 patient queries, comparing LLM-generated responses with appropriate and inappropriate responses crafted by experienced CBT-I therapists. Results showed that LLM responses received high ratings from the CBT-I therapists, often exceeding those of therapist-generated appropriate responses. This structured approach aims to integrate advanced LLM technology into medical applications, meeting regulatory requirements for establishing the safe and effective use of special purpose validated LLMs in medicine.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-23
# ドメイン横断型感性トリプレット抽出のための平均教師によるテーブルフィリング

Table-Filling via Mean Teacher for Cross-domain Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2407.21052v1 )

ライセンス: Link先を確認
Kun Peng, Lei Jiang, Qian Li, Haoran Li, Xiaoyan Yu, Li Sun, Shuo Sun, Yanxian Bi, Hao Peng, (参考訳) クロスドメイン・アスペクト・センチメント・トリプレット抽出(ASTE)は、ソースドメインから取得した知識を活用して、ターゲットドメイン文からきめ細かい感情要素を抽出することを目的としている。 対象領域にラベル付きデータがないため、最近の研究では、トレーニング目的のために大量の合成データを生成するために、事前訓練された言語モデルに依存する傾向にある。 しかし、これらの手法は生成プロセスに関連する追加の計算コストを必要とする。 これらと異なり、ASTEにおけるテーブル充填法とコンピュータビジョンにおける2段階オブジェクト検出(OD)との間に顕著な類似点が発見され、ドメイン間ASTEタスクを再検討し、ODの観点からアプローチするよう促される。 これにより、OD抽出パラダイムとリージョンレベルのアライメントの恩恵を受けることができる。 この前提に基づいて, TFMT (textbf{T}able-\textbf{F}illing via \textbf{M}ean \textbf{T}eacher) という新しい手法を提案する。 具体的には、単語関係を検出するために2Dテーブルに文をエンコードし、TFMTは特徴マップとしてテーブルを扱い、領域の一貫性を利用して生成された擬似ラベルの品質を向上させる。 さらに、ドメインギャップの存在を考慮すると、最大平均離散度に基づくドメイン間の整合性は、ドメインシフト問題を緩和するために設計されている。 提案手法は,最小パラメータと計算コストで最先端性能を実現し,クロスドメインASTEの強力なベースラインとなる。

Cross-domain Aspect Sentiment Triplet Extraction (ASTE) aims to extract fine-grained sentiment elements from target domain sentences by leveraging the knowledge acquired from the source domain. Due to the absence of labeled data in the target domain, recent studies tend to rely on pre-trained language models to generate large amounts of synthetic data for training purposes. However, these approaches entail additional computational costs associated with the generation process. Different from them, we discover a striking resemblance between table-filling methods in ASTE and two-stage Object Detection (OD) in computer vision, which inspires us to revisit the cross-domain ASTE task and approach it from an OD standpoint. This allows the model to benefit from the OD extraction paradigm and region-level alignment. Building upon this premise, we propose a novel method named \textbf{T}able-\textbf{F}illing via \textbf{M}ean \textbf{T}eacher (TFMT). Specifically, the table-filling methods encode the sentence into a 2D table to detect word relations, while TFMT treats the table as a feature map and utilizes a region consistency to enhance the quality of those generated pseudo labels. Additionally, considering the existence of the domain gap, a cross-domain consistency based on Maximum Mean Discrepancy is designed to alleviate domain shift problems. Our method achieves state-of-the-art performance with minimal parameters and computational costs, making it a strong baseline for cross-domain ASTE.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-23
# がん診療ガイドラインの知識モデル : 質問応答の構築・管理・利用

Knowledge Models for Cancer Clinical Practice Guidelines : Construction, Management and Usage in Question Answering ( http://arxiv.org/abs/2407.21053v1 )

ライセンス: Link先を確認
Pralaypati Ta, Bhumika Gupta, Arihant Jain, Sneha Sree C, Keerthi Ram, Mohanasankar Sivaprakasam, (参考訳) がん診療ガイドライン(CPGs)の自動知識モデリングアルゴリズムは、CPG文書に含まれる知識を抽出し、人間の介入を最小限に抑え、プログラム的に対話可能で、簡単に更新可能な構造化モデルに変換する。 既存の自動アルゴリズムは最小限のスコープを持ち、癌の種類に応じてCPGの知識内容の複雑さに対処することができない。 本研究は,がんのタイプ別に,全国包括的癌ネットワーク(NCCN) CPG から知識モデルを作成するための知識自動モデリングアルゴリズムを提案する。 提案アルゴリズムは4種類の癌に対してNCCN CPGを用いて評価されている。 また,異なるバージョンのガイドラインの知識モデルを比較するアルゴリズムを提案し,新しいバージョンの治療プロトコルで導入された特定の変化を発見する。 我々は、知識モデルに問い合わせる能力を研究するための強化知識ベースとして、ガイドライン知識モデルを用いた質問応答(Q&A)フレームワークを作成しました。 我々は,Non-Small Cell Lung Cancer (NSCLC) 治療のための信頼性のある2つのデータソースから抽出した32組の問合せ対をコンパイルし,Q&Aフレームワークの評価を行った。 このフレームワークは、あるデータソースからの問合せ対に対して評価され、処理アルゴリズムから54.5%の精度、NACN NSCLCガイドラインナレッジモデルの議論部分から81.8%の精度で回答を生成することができる。

An automated knowledge modeling algorithm for Cancer Clinical Practice Guidelines (CPGs) extracts the knowledge contained in the CPG documents and transforms it into a programmatically interactable, easy-to-update structured model with minimal human intervention. The existing automated algorithms have minimal scope and cannot handle the varying complexity of the knowledge content in the CPGs for different cancer types. This work proposes an improved automated knowledge modeling algorithm to create knowledge models from the National Comprehensive Cancer Network (NCCN) CPGs in Oncology for different cancer types. The proposed algorithm has been evaluated with NCCN CPGs for four different cancer types. We also proposed an algorithm to compare the knowledge models for different versions of a guideline to discover the specific changes introduced in the treatment protocol of a new version. We created a question-answering (Q&A) framework with the guideline knowledge models as the augmented knowledge base to study our ability to query the knowledge models. We compiled a set of 32 question-answer pairs derived from two reliable data sources for the treatment of Non-Small Cell Lung Cancer (NSCLC) to evaluate the Q&A framework. The framework was evaluated against the question-answer pairs from one data source, and it can generate the answers with 54.5% accuracy from the treatment algorithm and 81.8% accuracy from the discussion part of the NCCN NSCLC guideline knowledge model.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-23
# オンコロジーにおける大規模言語モデルへのプロンプト注入攻撃

Prompt Injection Attacks on Large Language Models in Oncology ( http://arxiv.org/abs/2407.18981v1 )

ライセンス: Link先を確認
Jan Clusmann, Dyke Ferber, Isabella C. Wiest, Carolin V. Schneider, Titus J. Brinker, Sebastian Foersch, Daniel Truhn, Jakob N. Kather, (参考訳) ヴィジュアル言語人工知能モデル(VLM)は医療知識を持ち、画像インタプリタ、仮想書式、一般的な意思決定支援システムなど、様々な方法で医療に応用することができる。 しかし,本論文では,現在の医療タスクに適用されているVLMは,そのパラメータにアクセスすることなく,VLMと対話することで有害な情報を出力できる即時注入攻撃によって攻撃できるという,基本的なセキュリティ上の欠陥が示されていることを実証する。 医療用として提案されている4つの最先端VLM(Claude 3 Opus, Claude 3.5 Sonnet, Reka Core, GPT-4o)において,これらの攻撃に対する脆弱性を評価するための定量的研究を行った。 N=297 攻撃の集合を用いて、これらのモデルが全て受容可能であることを示す。 具体的には、医用画像データにサブ視覚的プロンプトを埋め込むことで有害な出力が得られることを示し、これらのプロンプトは人間の観察者にとって有害ではないことを示す。 そこで本研究では,広範に臨床応用される前に緩和すべき医療用VLMの重大な脆弱性を示す。

Vision-language artificial intelligence models (VLMs) possess medical knowledge and can be employed in healthcare in numerous ways, including as image interpreters, virtual scribes, and general decision support systems. However, here, we demonstrate that current VLMs applied to medical tasks exhibit a fundamental security flaw: they can be attacked by prompt injection attacks, which can be used to output harmful information just by interacting with the VLM, without any access to its parameters. We performed a quantitative study to evaluate the vulnerabilities to these attacks in four state of the art VLMs which have been proposed to be of utility in healthcare: Claude 3 Opus, Claude 3.5 Sonnet, Reka Core, and GPT-4o. Using a set of N=297 attacks, we show that all of these models are susceptible. Specifically, we show that embedding sub-visual prompts in medical imaging data can cause the model to provide harmful output, and that these prompts are non-obvious to human observers. Thus, our study demonstrates a key vulnerability in medical VLMs which should be mitigated before widespread clinical adoption.
翻訳日:2024-07-30 20:22:03 公開日:2024-07-23
# ワニエ局所化可能性の$K$-理論分類と着脱可能な位相境界状態

$K$-theory classification of Wannier localizability and detachable topological boundary states ( http://arxiv.org/abs/2407.18273v1 )

ライセンス: Link先を確認
Ken Shiozaki, Daichi Nakamura, Kenji Shimomura, Masatoshi Sato, Kohei Kawabata, (参考訳) チャーン数を含むある種の位相の目印は、バルクバンドにおいて指数的局所化ワニエ函数を構成することの障害である。 逆に、他のタイプの位相は必ずしもワニエ障害物を課すとは限らない。 注目すべきは、ワニエ局所化可能なトポロジカル絶縁体は、バルクバンドから分離可能な境界状態をホストすることができることである。 D. Nakamura et al , arXiv:2407.09458 において, 非エルミートトポロジはエルミートトポロジカル絶縁体および超伝導体において剥離可能な境界状態の下にあることを示す。 ここでは、$K$-理論を用いて、位相境界状態のワニエ局在性と剥離性との関係を解明する。 境界の観点からは,非着脱可能な位相境界状態と着脱可能な位相境界状態に対応する,内在的および外在的非エルミート位相をそれぞれ分類する。 一方、バルクの観点からは、ワニエの局所化性は、10次アルトランド・ジルンバウアー対称性クラスから3次ウィグナー・ダイソン対称性クラスへの位相位相位相の準同型を通して分類する。 特に、境界面とバルク面からのこれらの2つのアプローチは、同じ分類に繋がる。 我々はこの合意を明確にし、K$-理論に基づいてバルク境界対応の統一的な理解を発展させる。

A hallmark of certain topology, including the Chern number, is the obstruction to constructing exponentially localized Wannier functions in the bulk bands. Conversely, other types of topology do not necessarily impose Wannier obstructions. Remarkably, such Wannier-localizable topological insulators can host boundary states that are detachable from the bulk bands. In our accompanying Letter (D. Nakamura et al., arXiv:2407.09458), we demonstrate that non-Hermitian topology underlies detachable boundary states in Hermitian topological insulators and superconductors, thereby establishing their tenfold classification based on internal symmetry. Here, using $K$-theory, we elucidate the relationship between Wannier localizability and detachability of topological boundary states. From the boundary perspective, we classify intrinsic and extrinsic non-Hermitian topology, corresponding to nondetachable and detachable topological boundary states, respectively. From the bulk perspective, on the other hand, we classify Wannier localizability through the homomorphisms of topological phases from the tenfold Altland-Zirnbauer symmetry classes to the threefold Wigner-Dyson symmetry classes. Notably, these two approaches from the boundary and bulk perspectives lead to the same classification. We clarify this agreement and develop a unified understanding of the bulk-boundary correspondence on the basis of $K$-theory.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-23
# 非教師付き社会的事象検出のための適応的微分プライベート構造エントロピー最小化

Adaptive Differentially Private Structural Entropy Minimization for Unsupervised Social Event Detection ( http://arxiv.org/abs/2407.18274v1 )

ライセンス: Link先を確認
Zhiwei Yang, Yuecen Wei, Haoran Li, Qian Li, Lei Jiang, Li Sun, Xiaoyan Yu, Chunming Hu, Hao Peng, (参考訳) ソーシャルイベント検出(Social Event Detection)とは、ソーシャルメディアのデータストリームから関連するメッセージクラスタを抽出して、現実世界の特定のイベントを表現すること。 社会的事象の検出は、意見分析、社会的安全、意思決定など、多くの分野で重要である。 現在のほとんどのメソッドは監視されており、大量のデータにアクセスする必要があります。 これらの方法は、イベントに関する事前の知識を必要とし、メッセージに機密情報を漏らすリスクが高いため、オープンワールド環境では適用できない。 したがって、メッセージのリッチな情報を完全に活用しながら教師なし検出を行い、データのプライバシを保護することは大きな課題である。 そこで本稿では,プライバシを優先する非教師付きソーシャルイベント検出手法であるADP-SEMEventを提案する。 具体的には、ADP-SEMEventは、プライベートメッセージグラフの構築段階とプライベートメッセージグラフのクラスタ化段階という2つの段階に分けられる。 第一段階では、適応微分プライバシーアプローチを用いてプライベートメッセージグラフを構築する。 このプロセスでは、オープン環境において毎日発生する事象に基づいて、差分プライバシーを適応的に適用し、プライバシー予算の使用を最大化することができる。 第2段階では、ノイズによるデータ有用性の低減に対処するために、最適なサブグラフに基づく2次元構造エントロピー最小化アルゴリズムを用いて、メッセージグラフ内のイベントを検出する。 このプロセスのハイライトは監視されず、差分プライバシーを損なわない。 2つの公開データセットに関する大規模な実験は、ADP-SEMEventが適切なプライバシー予算パラメータを維持しながら、最先端のメソッドに匹敵する検出性能を達成できることを実証している。

Social event detection refers to extracting relevant message clusters from social media data streams to represent specific events in the real world. Social event detection is important in numerous areas, such as opinion analysis, social safety, and decision-making. Most current methods are supervised and require access to large amounts of data. These methods need prior knowledge of the events and carry a high risk of leaking sensitive information in the messages, making them less applicable in open-world settings. Therefore, conducting unsupervised detection while fully utilizing the rich information in the messages and protecting data privacy remains a significant challenge. To this end, we propose a novel social event detection framework, ADP-SEMEvent, an unsupervised social event detection method that prioritizes privacy. Specifically, ADP-SEMEvent is divided into two stages, i.e., the construction stage of the private message graph and the clustering stage of the private message graph. In the first stage, an adaptive differential privacy approach is used to construct a private message graph. In this process, our method can adaptively apply differential privacy based on the events occurring each day in an open environment to maximize the use of the privacy budget. In the second stage, to address the reduction in data utility caused by noise, a novel 2-dimensional structural entropy minimization algorithm based on optimal subgraphs is used to detect events in the message graph. The highlight of this process is unsupervised and does not compromise differential privacy. Extensive experiments on two public datasets demonstrate that ADP-SEMEvent can achieve detection performance comparable to state-of-the-art methods while maintaining reasonable privacy budget parameters.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-23
# ローマは単一ステップで建設されなかった:LCMベースのチップ設計のための階層的プロンプト

Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design ( http://arxiv.org/abs/2407.18276v1 )

ライセンス: Link先を確認
Andre Nakkab, Sai Qian Zhang, Ramesh Karri, Siddharth Garg, (参考訳) 大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。 しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。 本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト技術一式を導入し,そのプロセスのための一般化可能な自動化パイプラインを開発する。 これらの手法を評価するために,アーキテクチャ階層の有無に関わらず解決できるハードウェア設計のベンチマークセットを提案する。 これらのベンチマークを用いて、当社独自のCode Llama-Verilogモデルを含む、さまざまなオープンソースおよびプロプライエタリなLLMを比較します。 我々の階層的手法は、標準フラットプロンプト法では達成できない複雑なハードウェアモジュールの設計を自動生成し、より小さなオープンソース LLM が大規模なプロプライエタリなモデルと競合することを可能にする。 階層的プロンプトはHDL生成時間を短縮し、LLMコストの削減をもたらす。 実験では, LLMがどの用途に利用できるか, 階層的手法を様々なモードに適用する方法について詳述した。 人間のフィードバックを伴わない最初のLCM設計プロセッサを含む,自動スクリプティング階層プロンプトを用いた複雑なコア生成のケーススタディについて検討する。

Large Language Models (LLMs) are effective in computer hardware synthesis via hardware description language (HDL) generation. However, LLM-assisted approaches for HDL generation struggle when handling complex tasks. We introduce a suite of hierarchical prompting techniques which facilitate efficient stepwise design methods, and develop a generalizable automation pipeline for the process. To evaluate these techniques, we present a benchmark set of hardware designs which have solutions with or without architectural hierarchy. Using these benchmarks, we compare various open-source and proprietary LLMs, including our own fine-tuned Code Llama-Verilog model. Our hierarchical methods automatically produce successful designs for complex hardware modules that standard flat prompting methods cannot achieve, allowing smaller open-source LLMs to compete with large proprietary models. Hierarchical prompting reduces HDL generation time and yields savings on LLM costs. Our experiments detail which LLMs are capable of which applications, and how to apply hierarchical methods in various modes. We explore case studies of generating complex cores using automatic scripted hierarchical prompts, including the first-ever LLM-designed processor with no human feedback.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-23
# 微分可能なサロゲートを用いたブラックボックスモデルの特異パラメータの学習

Learning Instance-Specific Parameters of Black-Box Models Using Differentiable Surrogates ( http://arxiv.org/abs/2407.17530v1 )

ライセンス: Link先を確認
Arnisha Khondaker, Nilanjan Ray, (参考訳) 非微分可能またはブラックボックス計算のチューニングパラメータは困難である。 既存の手法は主にパラメータ空間からのランダムサンプリングやグリッドサンプリングに依存している。 さらに、現在のすべてのメソッドでは、入力固有のパラメータをブラックボックスに供給することはできない。 私たちの知る限りでは、この研究で初めて、ブラックボックスの入力固有のパラメータを学習できます。 テストアプリケーションとして、ブラックボックス計算としてBM3Dという一般的な画像認識手法を選択します。 次に、ブラックボックスの挙動を近似するために、微分可能なサロゲートモデル(ニューラルネットワーク)を用いる。 次に、別のニューラルネットワークをエンドツーエンドで使用して、ブラックボックスの入力インスタンス固有のパラメータを学習する。 Tseng et al [1] の成果からインスピレーションを得て,本手法をスマートフォン画像復調データセット(SIDD)に適用し,画像復調を行った。 結果は説得力があり、PSNRが著しく増加し、SSIMは0.93に近づいた。 実験結果から,モデル性能と最適化効率の両面において,本手法の有効性を実証した。 コードと実装の詳細については、GitHubリポジトリを参照してください。 [1]イーサン・ツェン、フェリックス・ユ、ユティング・ヤン、ファヒム・マンナン、カール・サン・アルノー、デレク・ノヴロゼザライ、ジャン=フランソワ・ラロンデ、フェリックス・ハイデ。 可変プロキシを用いたブラックボックス画像処理におけるハイパーパラメータ最適化 ACM Transactions on Graphics (TOG), 38(4), 7 2019

Tuning parameters of a non-differentiable or black-box compute is challenging. Existing methods rely mostly on random sampling or grid sampling from the parameter space. Further, with all the current methods, it is not possible to supply any input specific parameters to the black-box. To the best of our knowledge, for the first time, we are able to learn input-specific parameters for a black box in this work. As a test application we choose a popular image denoising method BM3D as our black-box compute. Then, we use a differentiable surrogate model (a neural network) to approximate the black-box behaviour. Next, another neural network is used in an end-to-end fashion to learn input instance-specific parameters for the black-box. Drawing inspiration from the work of Tseng et al. [1] , we applied our method to the Smartphone Image Denoising Dataset (SIDD) for image denoising. The results are compelling, demonstrating a significant increase in PSNR and a notable improvement in SSIM nearing 0.93. Experimental results underscore the effectiveness of our approach in achieving substantial improvements in both model performance and optimization efficiency. For code and implementation details, please refer to our GitHub repository. [1] Ethan Tseng, Felix Yu, Yuting Yang, Fahim Mannan, Karl St. Arnaud, Derek Nowrouzezahrai, Jean-Francois Lalonde, and Felix Heide. Hyperparameter optimization in black-box image processing using differentiable proxies. ACM Transactions on Graphics (TOG), 38(4), 7 2019.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-23
# S-E Pipeline: 視覚変換器(ViT)を用いた医用画像診断用レジリエント分類パイプライン

S-E Pipeline: A Vision Transformer (ViT) based Resilient Classification Pipeline for Medical Imaging Against Adversarial Attacks ( http://arxiv.org/abs/2407.17587v1 )

ライセンス: Link先を確認
Neha A S, Vivek Chaturvedi, Muhammad Shafique, (参考訳) Vision Transformer (ViT) は、その堅牢な自己注意機構により、医用画像における正確な疾患診断を自動化することで広く普及している。 しかし、ViTsは、致命的な疾患の故意の誤分類につながることによって、診断プロセスを妨げる可能性のある敵の攻撃に弱いままである。 本稿では,視覚障害者の入力摂動の影響を低減するために,複数の前処理ステップを実行する新しい画像分類パイプライン,S-E Pipelineを提案する。 提案手法は,CLAHE (Contrast Limited Adaptive Histogram Equalization) やUM (Unsharp Masking) ,HFE (High-Frequency Emphasis Filtering) といった画像強調技術とセグメンテーションの組み合わせを用いて,対向的摂動の後にも残存する重要な特徴を特定する。 実験により,VT-b32モデルでは72.22%,VT-l32モデルでは86.58%の敵攻撃効果が得られた。 さらに,提案手法をNVIDIA Jetson Orin Nanoボード上にエンド・ツー・エンドに展開し,資源制約のある現代のハンドヘルドデバイスで実例を実演した。

Vision Transformer (ViT) is becoming widely popular in automating accurate disease diagnosis in medical imaging owing to its robust self-attention mechanism. However, ViTs remain vulnerable to adversarial attacks that may thwart the diagnosis process by leading it to intentional misclassification of critical disease. In this paper, we propose a novel image classification pipeline, namely, S-E Pipeline, that performs multiple pre-processing steps that allow ViT to be trained on critical features so as to reduce the impact of input perturbations by adversaries. Our method uses a combination of segmentation and image enhancement techniques such as Contrast Limited Adaptive Histogram Equalization (CLAHE), Unsharp Masking (UM), and High-Frequency Emphasis filtering (HFE) as preprocessing steps to identify critical features that remain intact even after adversarial perturbations. The experimental study demonstrates that our novel pipeline helps in reducing the effect of adversarial attacks by 72.22% for the ViT-b32 model and 86.58% for the ViT-l32 model. Furthermore, we have shown an end-to-end deployment of our proposed method on the NVIDIA Jetson Orin Nano board to demonstrate its practical use case in modern hand-held devices that are usually resource-constrained.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-23
# テンソルネットワークを用いたプライバシー保護機械学習

Privacy-preserving machine learning with tensor networks ( http://arxiv.org/abs/2202.12319v3 )

ライセンス: Link先を確認
Alejandro Pozas-Kerstjens, Senaida Hernández-Santana, José Ramón Pareja Monturiol, Marco Castrillón López, Giannicola Scarpa, Carlos E. González-Guillén, David Pérez-García, (参考訳) 局所量子多体系の低エネルギー状態の効率的な表現に広く用いられているテンソルネットワークは、近年、従来のものに対して利点を示す機械学習アーキテクチャとして提案されている。 本研究は, テンソルネットワークアーキテクチャが特に, 医療記録の処理などのタスクにおいて重要なプライバシー保護機械学習の特性を持つことを示す。 まず、フィードフォワードニューラルネットワークに存在する新たなプライバシ脆弱性を説明し、それを合成および実世界のデータセットで説明する。 そして、ゲージ対称性の下で等価なモデルのキャラクタリゼーションを含む、そのような脆弱性に対するロバスト性を保証するために、明確に定義された条件を開発する。 このような条件がテンソルネットワークアーキテクチャによって満たされていることを厳密に証明する。 その際、行列積状態に対する新しい正準形式を定義し、高次正則性を持ち、特異値分解に基づいて正準形式に残される残留ゲージを固定する。 本研究は,攻撃者がトレーニングデータセットに関する情報をモデルパラメータから抽出する確率を大幅に低下させる指標として,行列積状態が医療記録のデータセットに基づいて訓練される実例を補足する。 テンソルネットワークアーキテクチャのトレーニングに関する専門知識の増大を考えると、これらの結果は、予測の正確さと処理される情報のプライバシの確保を迫られる必要がなくなる可能性を示唆している。

Tensor networks, widely used for providing efficient representations of low-energy states of local quantum many-body systems, have been recently proposed as machine learning architectures which could present advantages with respect to traditional ones. In this work we show that tensor network architectures have especially prospective properties for privacy-preserving machine learning, which is important in tasks such as the processing of medical records. First, we describe a new privacy vulnerability that is present in feedforward neural networks, illustrating it in synthetic and real-world datasets. Then, we develop well-defined conditions to guarantee robustness to such vulnerability, which involve the characterization of models equivalent under gauge symmetry. We rigorously prove that such conditions are satisfied by tensor-network architectures. In doing so, we define a novel canonical form for matrix product states, which has a high degree of regularity and fixes the residual gauge that is left in the canonical forms based on singular value decompositions. We supplement the analytical findings with practical examples where matrix product states are trained on datasets of medical records, which show large reductions on the probability of an attacker extracting information about the training dataset from the model's parameters. Given the growing expertise in training tensor-network architectures, these results imply that one may not have to be forced to make a choice between accuracy in prediction and ensuring the privacy of the information processed.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-23
# ターゲット適応設計

Targeted Adaptive Design ( http://arxiv.org/abs/2205.14208v3 )

ライセンス: Link先を確認
Carlo Graziani, Marieme Ngom, (参考訳) 現代の先進的な製造と先進的な材料設計は、しばしば最適な構造、特性、性能パラメータをもたらす設定のための比較的高次元のプロセス制御パラメータ空間の探索を必要とする。 前者から後者への写像はノイズのある実験や高価なシミュレーションから決定されなければならない。 この問題を,制御空間から設計空間への未知の関数が,所定の許容範囲内で所望の設計特徴を生成する最適制御設定を定量化して,高価なノイズ測定によって検出されなければならない数学的枠組みに抽象化する。 本稿では、このサンプリングタスクを効率的に行う新しいアルゴリズムであるターゲット適応設計(TAD)について述べる。 TADは、各反復段階における未知のマッピングのガウス過程シュロゲートモデルを作成し、新しい制御設定のバッチを実験的にサンプリングし、ターゲット設計のログ予測可能性の更新を最適化する。 TADは、トレランスボックス内に収まる不確実性のある解を見つけるのをやめるか、将来予想される情報の尺度を使って、探索空間が解で枯渇したことを判断する。 したがって、TADは、ベイズ最適化や最適実験設計と本質的に異なる方法で、探査と爆発の緊張を具現化している。

Modern advanced manufacturing and advanced materials design often require searches of relatively high-dimensional process control parameter spaces for settings that result in optimal structure, property, and performance parameters. The mapping from the former to the latter must be determined from noisy experiments or from expensive simulations. We abstract this problem to a mathematical framework in which an unknown function from a control space to a design space must be ascertained by means of expensive noisy measurements, which locate optimal control settings generating desired design features within specified tolerances, with quantified uncertainty. We describe targeted adaptive design (TAD), a new algorithm that performs this sampling task efficiently. TAD creates a Gaussian process surrogate model of the unknown mapping at each iterative stage, proposing a new batch of control settings to sample experimentally and optimizing the updated log-predictive likelihood of the target design. TAD either stops upon locating a solution with uncertainties that fit inside the tolerance box or uses a measure of expected future information to determine that the search space has been exhausted with no solution. TAD thus embodies the exploration-exploitation tension in a manner that recalls, but is essentially different from, Bayesian optimization and optimal experimental design.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-23
# ネットワークの遅延でBitcoinのセキュリティが回復

Refined Bitcoin Security-Latency Under Network Delay ( http://arxiv.org/abs/2212.01372v4 )

ライセンス: Link先を確認
Mustafa Doger, Sennur Ulukus, (参考訳) 我々は,中本コンセンサスに対するセキュリティ-レイテンシ境界,すなわち,チェーン内で$k$-deepになったブロックの安全性について検討する。 我々は,3つの相の正反対鎖と真正鎖の競合を分析することにより,最先端の境界を改良する。 また,[Guo, Ren; AFT 2022] のモデルでは, ターゲットブロックがチェーン内で$k$-deepとなる場合に, 逆鎖の成長の確率分布を求める。 我々は、このレースの特定の特性を分析し、既存の結果よりも厳密な境界を提供するランダムウォークを用いて各フェーズをモデル化する。 これら3つのフェーズを組み合わせることで、小さな$\lambda\Delta$で、ブロックチェーンの新たな上位と下位のバウンダリを提供する。

We study security-latency bounds for Nakamoto consensus, i.e., how secure a block is after it becomes $k$-deep in the chain. We improve the state-of-the-art bounds by analyzing the race between adversarial and honest chains in three different phases. We find the probability distribution of the growth of the adversarial chains under models similar to those in [Guo, Ren; AFT 2022] when a target block becomes $k$-deep in the chain. We analyze certain properties of this race to model each phase with random walks that provide tighter bounds than the existing results. Combining all three phases provides novel upper and lower bounds for blockchains with small $\lambda\Delta$.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-23
# ピアスワイズガウス過程サロゲートのアクティブラーニング

Active Learning of Piecewise Gaussian Process Surrogates ( http://arxiv.org/abs/2301.08789v2 )

ライセンス: Link先を確認
Chiwoo Park, Robert Waelder, Bonggwon Kang, Benji Maruyama, Soondo Hong, Robert Gramacy, (参考訳) ガウス過程(GP)サロゲートのアクティブラーニングは、物理・コンピュータシミュレーション実験のための実験設計の最適化や、機械学習におけるデータ取得スキームのステアリングに有用である。 本稿では,Jump GPサロゲートを能動的に学習する手法を開発した。 ジャンプGPは、自律的な材料設計、スマートファクトリシステムの構成、その他多くの分野にまたがるアプリケーションに必要な、設計空間の領域内で連続しているが、不連続である。 我々のアクティブラーニングヒューリスティックは、もともと通常のGP向けに設計された戦略から適切なものであるが、通常のモデルの不確実性とは対照的に、モデルバイアスを付加的に考慮することは、Jump GPコンテキストにおいて不可欠であることを示す。 そこで我々は,Jump GPモデルのバイアスと分散を推定する手法を開発した。 提案手法の利点を示すイラストやエビデンスを, 様々な複雑さに関する実シミュレーション実験と合成ベンチマークのスイートで提供する。

Active learning of Gaussian process (GP) surrogates has been useful for optimizing experimental designs for physical/computer simulation experiments, and for steering data acquisition schemes in machine learning. In this paper, we develop a method for active learning of piecewise, Jump GP surrogates. Jump GPs are continuous within, but discontinuous across, regions of a design space, as required for applications spanning autonomous materials design, configuration of smart factory systems, and many others. Although our active learning heuristics are appropriated from strategies originally designed for ordinary GPs, we demonstrate that additionally accounting for model bias, as opposed to the usual model uncertainty, is essential in the Jump GP context. Toward that end, we develop an estimator for bias and variance of Jump GP models. Illustrations, and evidence of the advantage of our proposed methods, are provided on a suite of synthetic benchmarks, and real-simulation experiments of varying complexity.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-23
# 医療領域における言語間調音マイニング

Cross-lingual Argument Mining in the Medical Domain ( http://arxiv.org/abs/2301.10527v3 )

ライセンス: Link先を確認
Anar Yeginbergen, Rodrigo Agerri, (参考訳) 現在、臨床医の意思決定は、膨大な量の構造化されていないテキストデータを扱うことにますます依存しているため、医療分野は人工知能関連のアプリケーションでますます注目を集めている。 この文脈では、Argument Mining (AM) はテキスト内の議論的コンポーネントを特定し、それらの関係を分類することで、テキストデータを有意義に構造化するのに役立つ。 しかし,一般の自然言語処理,特に医療用テキスト処理では,人為的なタスクが問題となっているため,計算論の作業の大部分は英語にのみ焦点をあてている。 本稿では,アノテートされたデータがないスペイン語などの言語に対して,医療用テキストでAMを実行するためのいくつかの戦略について検討する。 我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動で翻訳・投影することは、手作業による介入を伴わずに注釈付きデータを生成する効果的な方法であることを示している。 さらに,従来の他のシーケンスラベリングタスクの成果とは対照的に,多言語事前学習言語モデル(モデル-トランスファー)のクロスリンガル転送能力に基づいて,データ転送がメソッドよりも優れていることを示す。 最後に、スペイン語における自動生成データを用いて、元の英語単言語設定の結果を改善することにより、完全な自動データ拡張戦略を実現する方法を示す。

Nowadays the medical domain is receiving more and more attention in applications involving Artificial Intelligence as clinicians decision-making is increasingly dependent on dealing with enormous amounts of unstructured textual data. In this context, Argument Mining (AM) helps to meaningfully structure textual data by identifying the argumentative components in the text and classifying the relations between them. However, as it is the case for man tasks in Natural Language Processing in general and in medical text processing in particular, the large majority of the work on computational argumentation has been focusing only on the English language. In this paper, we investigate several strategies to perform AM in medical texts for a language such as Spanish, for which no annotated data is available. Our work shows that automatically translating and projecting annotations (data-transfer) from English to a given target language is an effective way to generate annotated data without costly manual intervention. Furthermore, and contrary to conclusions from previous work for other sequence labelling tasks, our experiments demonstrate that data-transfer outperforms methods based on the crosslingual transfer capabilities of multilingual pre-trained language models (model-transfer). Finally, we show how the automatically generated data in Spanish can also be used to improve results in the original English monolingual setting, providing thus a fully automatic data augmentation strategy.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-23
# IRGen:画像検索のための生成モデリング

IRGen: Generative Modeling for Image Retrieval ( http://arxiv.org/abs/2303.10126v4 )

ライセンス: Link先を確認
Yidan Zhang, Ting Zhang, Dong Chen, Yujing Wang, Qi Chen, Xing Xie, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Mao Yang, Qingmin Liao, Jingdong Wang, Baining Guo, (参考訳) 生成的モデリングは多くの研究分野に広まりつつあるが、画像検索の領域への統合は未探索であり、未修正のままである。 本稿では,画像検索を生成モデルの一種として再フレーミングし,シーケンス・ツー・シーケンス・モデルを用いた新しい手法を提案する。 このアプローチは、研究の統一に向けた現在のトレンドと調和し、エンドツーエンドの差別化検索を可能にする結束的なフレームワークを提示している。 これにより、直接最適化技術による優れた性能が向上する。 IRGenと呼ばれる我々のモデルの開発は、画像をセマンティックユニットの簡潔なシーケンスに変換するという重要な技術的課題に対処する。 広範に使用されている3つの画像検索ベンチマークと200万の大規模データセットに対して,本モデルが最先端の性能を達成することを実証した。 さらに、生成モデルにより促進される精度スコアの顕著な急上昇は、伝統的に実用的な検索ワークフローでは不可欠である、再評価フェーズをバイパスする可能性を示している。

While generative modeling has become prevalent across numerous research fields, its integration into the realm of image retrieval remains largely unexplored and underjustified. In this paper, we present a novel methodology, reframing image retrieval as a variant of generative modeling and employing a sequence-to-sequence model. This approach is harmoniously aligned with the current trend towards unification in research, presenting a cohesive framework that allows for end-to-end differentiable searching. This, in turn, facilitates superior performance via direct optimization techniques. The development of our model, dubbed IRGen, addresses the critical technical challenge of converting an image into a concise sequence of semantic units, which is pivotal for enabling efficient and effective search. Extensive experiments demonstrate that our model achieves state-of-the-art performance on three widely-used image retrieval benchmarks as well as two million-scale datasets, yielding significant improvement compared to prior competitive retrieval methods. In addition, the notable surge in precision scores facilitated by generative modeling presents the potential to bypass the reranking phase, which is traditionally indispensable in practical retrieval workflows.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-23
# APPLS: 平易な言語要約のための評価指標の評価

APPLS: Evaluating Evaluation Metrics for Plain Language Summarization ( http://arxiv.org/abs/2305.14341v3 )

ライセンス: Link先を確認
Yue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang, (参考訳) PLS(Plain Language Summarization)のモデルの開発が盛んに行われているが、評価は依然として課題である。 PLSには専用の評価基準がなく、テキスト生成評価基準の適合性は、関連するユニークな変換(背景説明の追加、jargonの削除など)のため不明確である。 これらの問題に対処するために,本研究では,PLSのメトリクスを評価するために設計された,詳細なメタ評価テストベッドであるAPPLSを紹介した。 従来の作業から4つのPLS基準(情報性、単純化、一貫性、忠実性)を特定し、機密性の高いメトリクスが検出できるというこれらの基準に対応する摂動のセットを定義します。 2つのPSSデータセットの抽出仮説にこれらの摂動を適用し、テストベッドを形成する。 APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。 分析の結果, 特定の基準に対する感度を示す指標は存在するが, 同時に4つの基準を捉える手法は存在しないことがわかった。 したがって、関連するすべての基準に沿ってPSSの品質をキャプチャするために、一連の自動メトリクスを使用することを推奨します。 この研究は、PLSのための最初のメタ評価テストベッドと、既存のメトリクスの包括的な評価に貢献する。 APPLSと評価コードはhttps://github.com/LinguisticAnomalies/APPLS.comで公開されている。

While there has been significant development of models for Plain Language Summarization (PLS), evaluation remains a challenge. PLS lacks a dedicated assessment metric, and the suitability of text generation evaluation metrics is unclear due to the unique transformations involved (e.g., adding background explanations, removing jargon). To address these questions, our study introduces a granular meta-evaluation testbed, APPLS, designed to evaluate metrics for PLS. We identify four PLS criteria from previous work -- informativeness, simplification, coherence, and faithfulness -- and define a set of perturbations corresponding to these criteria that sensitive metrics should be able to detect. We apply these perturbations to extractive hypotheses for two PLS datasets to form our testbed. Using APPLS, we assess performance of 14 metrics, including automated scores, lexical features, and LLM prompt-based evaluations. Our analysis reveals that while some current metrics show sensitivity to specific criteria, no single method captures all four criteria simultaneously. We therefore recommend a suite of automated metrics be used to capture PLS quality along all relevant criteria. This work contributes the first meta-evaluation testbed for PLS and a comprehensive evaluation of existing metrics. APPLS and our evaluation code is available at https://github.com/LinguisticAnomalies/APPLS.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-23
# 複雑システムのマルチスケールシミュレーション:知識とデータの統合の観点から

Multi-Scale Simulation of Complex Systems: A Perspective of Integrating Knowledge and Data ( http://arxiv.org/abs/2306.10275v2 )

ライセンス: Link先を確認
Huandong Wang, Huan Yan, Can Rong, Yuan Yuan, Fenyu Jiang, Zhenyu Han, Hongjie Sui, Depeng Jin, Yong Li, (参考訳) 複雑なシステムシミュレーションは、様々な複雑なシステムの理解、予測、制御において、相応の役割を果たす。 過去数十年間、このマルチスケールシミュレーション技術は、未知の機構と高価な計算コストを伴う複雑なシステムシミュレーションの課題を克服する驚くべき能力に注目が集まってきた。 本稿では,知識とデータの観点から,複雑なシステムのマルチスケールシミュレーションに関する文献を体系的にレビューする。 まず、複雑なシステムシミュレーションと複雑なシステムにおけるスケールのシミュレーションに関する背景知識を示す。 そこで我々は,マルチスケールモデリングとシミュレーションの主な目的を,明瞭なスケールのシナリオと不明瞭なスケールのシナリオを考慮し,5つのカテゴリに分けた。 知識とデータの手がかりに基づくマルチスケールシミュレーションの一般的な手法を要約した後、異なる目的を達成するための採用手法を紹介した。 最後に,一般的な物質システムや社会システムにおけるマルチスケールシミュレーションの適用について紹介する。

Complex system simulation has been playing an irreplaceable role in understanding, predicting, and controlling diverse complex systems. In the past few decades, the multi-scale simulation technique has drawn increasing attention for its remarkable ability to overcome the challenges of complex system simulation with unknown mechanisms and expensive computational costs. In this survey, we will systematically review the literature on multi-scale simulation of complex systems from the perspective of knowledge and data. Firstly, we will present background knowledge about simulating complex system simulation and the scales in complex systems. Then, we divide the main objectives of multi-scale modeling and simulation into five categories by considering scenarios with clear scale and scenarios with unclear scale, respectively. After summarizing the general methods for multi-scale simulation based on the clues of knowledge and data, we introduce the adopted methods to achieve different objectives. Finally, we introduce the applications of multi-scale simulation in typical matter systems and social systems.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-23
# 変圧器の深さ勾配連続性の改善:CNNによる単眼深度推定の比較検討

Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN ( http://arxiv.org/abs/2308.08333v4 )

ライセンス: Link先を確認
Jiawei Yao, Tong Wu, Xiaofeng Zhang, (参考訳) 単眼深度推定はコンピュータビジョンにおいて現在進行中の課題である。 トランスフォーマーモデルによる最近の進歩は、この分野における従来のCNNよりも顕著な優位性を示している。 しかし、これらのモデルが2次元画像の異なる領域を優先し、これらの領域が深さ推定性能にどのように影響するかを理解するには、まだギャップがある。 トランスフォーマーとCNNの違いを探索するために,2つの区別を対照的に解析するために,スパースピクセル方式を用いる。 以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。 単分子深度推定におけるトランスフォーマーモデルの性能をさらに向上するため,高次微分,特徴融合,再校正による深度推定を改良するDGRモジュールを提案する。 さらに、最適輸送理論を活用し、深度マップを空間的確率分布として扱い、最適輸送距離を損失関数として用いてモデルを最適化する。 実験により,プラグアンドプレイDGR(Depth Gradient Refinement)モジュールを統合したモデルと,提案した損失関数により,屋外KITTIと屋内NYU-Depth-v2データセットの複雑さと計算コストを増大させることなく,性能を向上させることを示した。 本研究は,トランスフォーマーとCNNの深度推定における区別に関する新たな知見を提供するだけでなく,新しい深度推定手法の道を開く。

Monocular depth estimation is an ongoing challenge in computer vision. Recent progress with Transformer models has demonstrated notable advantages over conventional CNNs in this area. However, there's still a gap in understanding how these models prioritize different regions in 2D images and how these regions affect depth estimation performance. To explore the differences between Transformers and CNNs, we employ a sparse pixel approach to contrastively analyze the distinctions between the two. Our findings suggest that while Transformers excel in handling global context and intricate textures, they lag behind CNNs in preserving depth gradient continuity. To further enhance the performance of Transformer models in monocular depth estimation, we propose the Depth Gradient Refinement (DGR) module that refines depth estimation through high-order differentiation, feature fusion, and recalibration. Additionally, we leverage optimal transport theory, treating depth maps as spatial probability distributions, and employ the optimal transport distance as a loss function to optimize our model. Experimental results demonstrate that models integrated with the plug-and-play Depth Gradient Refinement (DGR) module and the proposed loss function enhance performance without increasing complexity and computational costs on both outdoor KITTI and indoor NYU-Depth-v2 datasets. This research not only offers fresh insights into the distinctions between Transformers and CNNs in depth estimation but also paves the way for novel depth estimation methodologies.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-23
# シンプレクティック構造-ハミルトニアン(グラフ)埋め込み

Symplectic Structure-Aware Hamiltonian (Graph) Embeddings ( http://arxiv.org/abs/2309.04885v4 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Tianle Zhang, Xiaowei Huang, (参考訳) 従来のグラフニューラルネットワーク(GNN)では、固定埋め込み多様体の仮定は、様々なグラフ幾何学への適応性を制限していることが多い。 近年,ノード特徴更新に物理法則を組み込むことにより,そのような埋め込みの動的性質に対処するために,ハミルトン系システムに着想を得たGNNが提案されている。 我々は、より柔軟なノード特徴更新のためにハミルトン力学を一般化する新しいアプローチであるSymphlectic Structure-Aware Hamiltonian GNN (SAH-GNN)を提案する。 既存のハミルトン的アプローチとは異なり、SAH-GNNはシンプレクティック・スティーフェル多様体に対してリーマン的最適化を用い、基礎となるシンプレクティック構造を適応的に学習し、既定の標準シンプレクティック構造の形式に依存する既存のハミルトン的GNNの制限を回避する。 このイノベーションにより、SAH-GNNは広範なハイパーパラメータチューニングなしで、様々なグラフデータセットに自動的に適応できる。 さらに、トレーニング中にエネルギーを保存し、暗黙のハミルトン系が物理的に意味を持つことを意味する。 最後に,複数のグラフデータセットにまたがるノード分類タスクにおいて,SAH-GNNの優越性と適応性を実証的に検証する。

In traditional Graph Neural Networks (GNNs), the assumption of a fixed embedding manifold often limits their adaptability to diverse graph geometries. Recently, Hamiltonian system-inspired GNNs have been proposed to address the dynamic nature of such embeddings by incorporating physical laws into node feature updates. We present Symplectic Structure-Aware Hamiltonian GNN (SAH-GNN), a novel approach that generalizes Hamiltonian dynamics for more flexible node feature updates. Unlike existing Hamiltonian approaches, SAH-GNN employs Riemannian optimization on the symplectic Stiefel manifold to adaptively learn the underlying symplectic structure, circumventing the limitations of existing Hamiltonian GNNs that rely on a pre-defined form of standard symplectic structure. This innovation allows SAH-GNN to automatically adapt to various graph datasets without extensive hyperparameter tuning. Moreover, it conserves energy during training meaning the implicit Hamiltonian system is physically meaningful. Finally, we empirically validate SAH-GNN's superiority and adaptability in node classification tasks across multiple types of graph datasets.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-23
# Pairwise Measurement-based Surface Code の改良

Improved Pairwise Measurement-Based Surface Code ( http://arxiv.org/abs/2310.12981v2 )

ライセンス: Link先を確認
Linnea Grans-Samuelsson, Ryan V. Mishmash, David Aasen, Christina Knapp, Bela Bauer, Brad Lackey, Marcus P. da Silva, Parsa Bonderson, (参考訳) そこで我々は,1つの量子ビットと最も近い2つの量子ビットのパウリ測度と3つの補助量子ビットを用いて,量子ビットの長方形格子上に曲面符号を新たに実現した。 この実現は、表面符号の事前の対計測に基づく実現よりも大きな優位性を得る。 動作期間は4段階であり, 標準回路ノイズモデルの性能解析の結果, 耐故障閾値が約0.66 %であることがわかった。 シンドローム抽出回路は双方向のフック誤りを回避し, 適切な境界条件を選択することで, 完全符号距離を実現することができる。 また、フックエラーを完全に防止するシンドローム抽出回路の変種を、より大きな回路深さを犠牲にして構築する。 これにより境界条件に関係なく完全な距離が得られ、閾値はわずかに低下する。 さらに,曲面コード実現におけるデッドコンポーネント(量子と測定)を扱うための効率的な手法を提案する。 新しい表面コードの実現はMajoranaベースのハードウェアに高度に最適化されており、レイアウトによる制約や測定の実装を考慮に入れており、最近提案されたFloquetコードと競合する。

We devise a new realization of the surface code on a rectangular lattice of qubits utilizing single-qubit and nearest-neighbor two-qubit Pauli measurements and three auxiliary qubits per plaquette. This realization gains substantial advantages over prior pairwise measurement-based realizations of the surface code. It has a short operation period of 4 steps and our performance analysis for a standard circuit noise model yields a high fault-tolerance threshold of approximately $0.66\% $. The syndrome extraction circuits avoid bidirectional hook errors, so we can achieve full code distance by choosing appropriate boundary conditions. We also construct variants of the syndrome extraction circuits that entirely prevent hook errors, at the cost of larger circuit depth. This achieves full distance regardless of boundary conditions, with only a modest decrease in the threshold. Furthermore, we propose an efficient strategy for dealing with dead components (qubits and measurements) in our surface code realization, which can be adopted more generally for other surface code realizations. This new surface code realization is highly optimized for Majorana-based hardware, accounting for constraints imposed by layouts and the implementation of measurements, making it competitive with the recently proposed Floquet codes.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-23
# 脊髄のコントラスト非依存性ソフトセグメンテーションに向けて

Towards contrast-agnostic soft segmentation of the spinal cord ( http://arxiv.org/abs/2310.15402v2 )

ライセンス: Link先を確認
Sandrine Bédard, Enamundram Naga Karthik, Charidimos Tsagkas, Emanuele Pravatà, Cristina Granziera, Andrew Smith, Kenneth Arnold Weber II, Julien Cohen-Adad, (参考訳) 脊髄セグメンテーションは臨床的に有用であり、脊髄圧迫や多発性硬化症などの神経変性疾患の診断・モニタリングのために、脊髄横断領域(CSA)の計算に特に有用である。 セグメンテーションはMRIのコントラストに依存し、コントラストによって異なるCSAとなる。 これは、脊髄と髄液の境界が、配列や獲得パラメータによって様々に現れるためである。 このコントラストに敏感なCSAは、プロトコルが変化しうるマルチセンタの研究において可変性を付加し、微妙なアトロフィを検出する感度を低下させる。 さらに、既存の手法は、コントラスト毎に1つのモデルをトレーニングし、また部分体積効果を考慮しないバイナリマスクを生成することにより、CSAの変動性を向上させる。 本研究では,脊髄のソフトセグメンテーションを生成する深層学習に基づく手法を提案する。 健全な参加者のSpine Generic Public Database($\text{n}=267$; $\text{contrasts}=6$)を用いて、まず6つのコントラストのバイナリセグメンテーションを平均化することにより、参加者のソフトグラウンド真実(GT)を生成した。 これらのソフトGTは、攻撃的なデータ拡張と回帰に基づく損失関数と共に、脊髄セグメンテーションのためのU-Netモデルを訓練するために使用された。 我々は、最先端の手法に対してモデルを評価し、異なる損失関数とドメイン一般化法を含むアブレーション研究を行った。 その結果,ソフトセグメンテーションと回帰損失関数はCSAの変動を減少させる(p < 0.05$, Wilcoxon sign-rank test)。 提案した脊髄セグメンテーションモデルは、部分体積効果を考慮しつつ、未確認のデータセット、ベンダー、コントラスト、病理(圧縮、病変)において最先端の方法よりも良く一般化する。

Spinal cord segmentation is clinically relevant and is notably used to compute spinal cord cross-sectional area (CSA) for the diagnosis and monitoring of cord compression or neurodegenerative diseases such as multiple sclerosis. While several semi and automatic methods exist, one key limitation remains: the segmentation depends on the MRI contrast, resulting in different CSA across contrasts. This is partly due to the varying appearance of the boundary between the spinal cord and the cerebrospinal fluid that depends on the sequence and acquisition parameters. This contrast-sensitive CSA adds variability in multi-center studies where protocols can vary, reducing the sensitivity to detect subtle atrophies. Moreover, existing methods enhance the CSA variability by training one model per contrast, while also producing binary masks that do not account for partial volume effects. In this work, we present a deep learning-based method that produces soft segmentations of the spinal cord. Using the Spine Generic Public Database of healthy participants ($\text{n}=267$; $\text{contrasts}=6$), we first generated participant-wise soft ground truth (GT) by averaging the binary segmentations across all 6 contrasts. These soft GT, along with aggressive data augmentation and a regression-based loss function, were used to train a U-Net model for spinal cord segmentation. We evaluated our model against state-of-the-art methods and performed ablation studies involving different loss functions and domain generalization methods. Our results show that using the soft segmentations along with a regression loss function reduces CSA variability ($p < 0.05$, Wilcoxon signed-rank test). The proposed spinal cord segmentation model generalizes better than the state-of-the-art methods amongst unseen datasets, vendors, contrasts, and pathologies (compression, lesions), while accounting for partial volume effects.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-23
# 砂中の透かし:生成モデルにおける強透かしの可能性

Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models ( http://arxiv.org/abs/2311.04378v4 )

ライセンス: Link先を確認
Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese, Boaz Barak, (参考訳) 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。 強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。 本稿では,強透かし方式の可能性について検討する。 我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。 これは、ウォーターマーク挿入と検出のアルゴリズムが攻撃者にとって未知の秘密鍵を共有する、プライベートな検出アルゴリズムの設定にも当てはまる。 この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。 我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価することのできる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更できる「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。 我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。 さらに、私たちの仮定は、モデルが能力とモダリティで成長するにつれて、時間の経過とともに満足しやすくなるでしょう。 我々は、大規模な言語モデルのための既存の3つの透かしスキーム、Kirchenbauer et al (2023)、Kuditipudi et al (2023)、Zhao et al (2023)をインスタンス化して、攻撃の可能性を示す。 同じ攻撃で、3つのスキームすべてで植えられた透かしが取り除かれた。

Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-23
# Safe-CLIP:視覚・言語モデルからNSFW概念を除去する

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models ( http://arxiv.org/abs/2311.16254v3 )

ライセンス: Link先を確認
Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) CLIPのような大規模ビジョン・アンド・ランゲージモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。 これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。 本研究は,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。 特に,言語的・視覚的概念の「有害」を排除し,非安全な言語的・視覚的概念と組込み空間の安全でない領域との結びつきを学習する。 安全な文と安全でない文の変換を訓練した大規模言語モデルとテキスト・ツー・イメージ・ジェネレータから得られた合成データに基づいて,CLIPモデルを微調整することで,これを実現できることを示す。 本研究は、モーダル検索、テキスト・ツー・イメージ、画像・ツー・テキスト生成のための埋め込み空間に関する広範な実験を行い、本モデルが事前学習された生成モデルで著しく活用可能であることを示す。 ソースコードとトレーニングされたモデルについては、https://github.com/aimagelab/safe-clip.comで公開しています。

Large-scale vision-and-language models, such as CLIP, are typically trained on web-scale data, which can introduce inappropriate content and lead to the development of unsafe and biased behavior. This, in turn, hampers their applicability in sensitive and trustworthy contexts and could raise significant concerns in their adoption. Our research introduces a novel approach to enhancing the safety of vision-and-language models by diminishing their sensitivity to NSFW (not safe for work) inputs. In particular, our methodology seeks to sever "toxic" linguistic and visual concepts, unlearning the linkage between unsafe linguistic or visual items and unsafe regions of the embedding space. We show how this can be done by fine-tuning a CLIP model on synthetic data obtained from a large language model trained to convert between safe and unsafe sentences, and a text-to-image generator. We conduct extensive experiments on the resulting embedding space for cross-modal retrieval, text-to-image, and image-to-text generation, where we show that our model can be remarkably employed with pre-trained generative models. Our source code and trained models are available at: https://github.com/aimagelab/safe-clip.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-23
# ブラウンSYKの再検討とド・ジッターとの関係

Revisiting Brownian SYK and its possible relations to de Sitter ( http://arxiv.org/abs/2312.03623v2 )

ライセンス: Link先を確認
Alexey Milekhin, Jiuci Xu, (参考訳) 我々はBrownian Sachdev-Ye-Kitaevモデルを再検討し、それ以前に文献で見過ごされたエネルギー保存の出現を論じる。 このモデルを二重スケールの状態で解き、超高速スクランブル、相関関数の指数減衰、有界スペクトル、高点関数の予期せぬ分解を示す。 これらの結果がド・ジッターホログラフィーとどのように関係しているかについてコメントする。

We revisit Brownian Sachdev-Ye-Kitaev model and argue that it has emergent energy conservation overlooked in the literature before. We solve this model in the double-scaled regime and demonstrate hyperfast scrambling, exponential decay of correlation functions, bounded spectrum and unexpected factorization of higher-point functions. We comment on how these results are related to de Sitter holography.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-23
# ガンマ光子の量子デコヒーレンスの最初の詳細な研究

First Detailed Study of the Quantum Decoherence of Entangled Gamma Photons ( http://arxiv.org/abs/2312.05045v2 )

ライセンス: Link先を確認
Julien Bordes, James R. Brown, Daniel P. Watts, Mikail Bashkanov, Ruth Newton, Nicholas Zachariou, (参考訳) 陽電子消滅後に生じるような巨大電子-電圧スケールでの絡み合った$\gamma$ Quantaの量子デコヒーレンスに関する制約は、何十年も前から解明されてきた。 このような絡み合った$\gamma$の3重コンプトン散乱のための、統計学的および運動学的に正確な実験データを示す。 最終散乱面間の方位相関の増大に関連する絡み合い(R$)を、中間コンプトン散乱により$\gamma$の1つが得られた。 測定された$R$は、複数の散乱背景から分離され、中間散乱角が$\sim$60$^{\circ}$までの古典的な極限を超え、より大きな角度で減少する。 データは、単純なモデルに基づくアプローチと同様に、三重コンプトン散乱の第1量子理論の予測と一致している。 この結果は、基本物理学とPETイメージングにおける絡み合ったメガ電子ボルト$\gamma$の今後の研究と活用に不可欠である。

Constraints on the quantum decoherence of entangled $\gamma$ quanta at the mega-electron-volt scale, such as those produced following positron annihilation, have remained elusive for many decades. We present the first statistically and kinematically precise experimental data for triple Compton scattering of such entangled $\gamma$. An entanglement witness ($R$), relating to the enhancement of the azimuthal correlation between the final scattering planes, is obtained where one of the $\gamma$ underwent intermediate Compton scattering. The measured $R$, deconvolved from multiple scattering backgrounds, are found to exceed the classical limit for intermediate scatter angles up to $\sim$60$^{\circ}$ and diminish at larger angles. The data are consistent with predictions from a first quantum theory of entangled triple Compton scattering as well as a simple model based approach. The results are crucial to future study and utilisation of entangled mega-electron-volt $\gamma$ in fundamental physics and PET imaging.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-23
# 局所演算による決定論的フォトニックグラフ状態生成の最適化

Optimization of deterministic photonic graph state generation via local operations ( http://arxiv.org/abs/2401.00635v2 )

ライセンス: Link先を確認
Sobhan Ghanbari, Jie Lin, Benjamin MacLellan, Luc Robichaud, Piotr Roztocki, Hoi-Kwong Lo, (参考訳) 様々な量子プロトコルにおいて重要なフォトニックグラフ状態の実現は、線形光学において決定論的エンタングゲートが存在しないために困難である。 これを解決するために、エミッター量子ビットは光子への絡み合いを確立し、転送するために利用されてきた。 本稿では,状態の局所的クリフォード等価度と生成コストパラメータのグラフ理論的相関に基づくプロトコルの最適化手法を提案する。 この手法を用いることで、任意の大きなリピータグラフ状態を生成するために、2-qubitゲートを使用する場合の50%の削減と、ランダムな高密度グラフを生成する場合の合計ゲート数に対する同様の顕著な削減を実現する。

Realizing photonic graph states, crucial in various quantum protocols, is challenging due to the absence of deterministic entangling gates in linear optics. To address this, emitter qubits have been leveraged to establish and transfer the entanglement to photons. We introduce an optimization method for such protocols based on the local Clifford equivalency of states and the graph theoretical correlations of the generation cost parameters. Employing this method, we achieve a 50% reduction in use of the 2-qubit gates for generation of the arbitrary large repeater graph states and similar significant reductions in the total gate count for generation of random dense graphs.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-23
# 方向勾配を用いた意思決定型学習

Decision-Focused Learning with Directional Gradients ( http://arxiv.org/abs/2402.03256v3 )

ライセンス: Link先を確認
Michael Huang, Vishal Gupta, (参考訳) そこで我々は,予測最適化フレームワークとして,摂動勾配損失(PG損失)と呼ばれる,決定を意識した新たなサロゲート損失のファミリーを提案する。 鍵となる考え方は、期待される下流決定損失と特定のプラグイン対象の方向微分を結合し、ゼロ階勾配法を用いてこの導関数を近似することである。 分割的に一定かつ不連続な元の決定損失とは異なり、我々の新しいPG損失は、既成の勾配法を用いて最適化することができる。 最も重要なことに、既存のサロゲート損失とは異なり、PG損失の近似誤差はサンプルの数が増えるにつれて消える。 したがって、サロゲート損失の最適化は、不特定設定であっても、漸近的に最良のクラスポリシーをもたらす。 これは,不特定設定における最初の結果であり,基礎となるモデルが誤特定された場合,PG損失が既存の提案を即時上回っていることを示す数値的な証拠を提供する。

We propose a novel family of decision-aware surrogate losses, called Perturbation Gradient (PG) losses, for the predict-then-optimize framework. The key idea is to connect the expected downstream decision loss with the directional derivative of a particular plug-in objective, and then approximate this derivative using zeroth order gradient techniques. Unlike the original decision loss which is typically piecewise constant and discontinuous, our new PG losses can be optimized using off-the-shelf gradient-based methods. Most importantly, unlike existing surrogate losses, the approximation error of our PG losses vanishes as the number of samples grows. Hence, optimizing our surrogate loss yields a best-in-class policy asymptotically, even in misspecified settings. This is the first such result in misspecified settings, and we provide numerical evidence confirming our PG losses substantively outperform existing proposals when the underlying model is misspecified.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-23
# 検索型拡張型大規模言語モデルにおけるプロンプト摂動

Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models ( http://arxiv.org/abs/2402.07179v3 )

ライセンス: Link先を確認
Zhibo Hu, Chen Wang, Yanfeng Shu, Helen, Paik, Liming Zhu, (参考訳) 大規模言語モデル(LLM)のロバスト性は、その使用が幅広い領域で急速に増大するにつれて、ますます重要になる。 LLMからのテキスト生成の信頼性を向上させる手段として、検索補助生成(RAG)が考えられている。 しかしながら、RAGに基づくLLMからの出力がわずかに異なる入力によってどのように影響を受けるかは、よく研究されていない。 本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。 我々は,GGPP(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を導入することにより,これらの接頭辞がRAGに与える影響を体系的に評価した。 GGPP は RAG ベースの LLM のアウトプットを操り、間違った回答をターゲットとした高い成功率を達成する。 また、無関係なコンテキストを無視するよう要求するプロンプトの命令に対処することもできる。 我々はまた、GGPP誘発プロンプトによるニューロン活性化を訓練した高能率検出器を用いて、GGPP摂動と非摂動のプロンプト間のLLMのニューロン活性化差を利用して、RAGベースのLLMのロバスト性を改善する方法を提案する。 オープンソースLLMの評価は,提案手法の有効性を実証するものである。

The robustness of large language models (LLMs) becomes increasingly important as their use rapidly grows in a wide range of domains. Retrieval-Augmented Generation (RAG) is considered as a means to improve the trustworthiness of text generation from LLMs. However, how the outputs from RAG-based LLMs are affected by slightly different inputs is not well studied. In this work, we find that the insertion of even a short prefix to the prompt leads to the generation of outputs far away from factually correct answers. We systematically evaluate the effect of such prefixes on RAG by introducing a novel optimization technique called Gradient Guided Prompt Perturbation (GGPP). GGPP achieves a high success rate in steering outputs of RAG-based LLMs to targeted wrong answers. It can also cope with instructions in the prompts requesting to ignore irrelevant context. We also exploit LLMs' neuron activation difference between prompts with and without GGPP perturbations to give a method that improves the robustness of RAG-based LLMs through a highly effective detector trained on neuron activation triggered by GGPP generated prompts. Our evaluation on open-sourced LLMs demonstrates the effectiveness of our methods.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-23
# 宗教の証明:ロールアップのための暗号経済のセキュリティ

Proof of Diligence: Cryptoeconomic Security for Rollups ( http://arxiv.org/abs/2402.07241v2 )

ライセンス: Link先を確認
Peiyao Sheng, Ranvir Rana, Senthil Bala, Himanshu Tyagi, Pramod Viswanath, (参考訳) Ethereumのようなレイヤ1(L1)ブロックチェーンは、各トランザクションの検証を行うバリデータプールに対して、"最高の超並列性"という前提の下で保護される。 この高いセキュリティは、ブロックチェーンのスループットに影響を与えるだけでなく、チェーン上でトランザクションを実行するためのガス料金も高くなります。 この問題の最も成功したソリューションは、楽観的なロールアップであるLayer 2(L2)ブロックチェーンによって提供される。 このようなL2チェーンのセキュリティは、非公式に、ノードのセットがL1にポストされたトランザクションデータをチェックし、不正なトランザクションが検出された場合、アラーム(不正証明)を発生させるという仮定の下で議論される。 しかしながら、現在のすべてのデプロイメントでは、これらのノードが ‘diligently'' のジョブを確実にする適切なインセンティブメカニズムが欠如しており、単にセキュリティのためのキュリーインセンティブアライメント引数に依存するだけである。 我々は、ロールアップの第一線として設計されたインセンティブ付き監視塔ネットワークを導入することで、この問題を解決する。 私たちの主なコントリビューションは ‘Proof of Diligence''プロトコルです。これは、監視官がL2のアサーションを検証し、同じ報酬を得るという証明を継続的に提供しなければなりません。 Proof of Diligenceプロトコルには、注意深い設計によるインセンティブ機構が含まれており、ウォッチトワーが合理的なアクターであるときに、軽度の合理的な独立性の仮定の下で、確実に安全である。

Layer 1 (L1) blockchains such as Ethereum are secured under an "honest supermajority of stake" assumption for a large pool of validators who verify each and every transaction on it. This high security comes at a scalability cost which not only effects the throughput of the blockchain but also results in high gas fees for executing transactions on chain. The most successful solution for this problem is provided by optimistic rollups, Layer 2 (L2) blockchains that execute transactions outside L1 but post the transaction data on L1. The security for such L2 chains is argued, informally, under the assumption that a set of nodes will check the transaction data posted on L1 and raise an alarm (a fraud proof) if faulty transactions are detected. However, all current deployments lack a proper incentive mechanism for ensuring that these nodes will do their job ``diligently'', and simply rely on a cursory incentive alignment argument for security. We solve this problem by introducing an incentivized watchtower network designed to serve as the first line of defense for rollups. Our main contribution is a ``Proof of Diligence'' protocol that requires watchtowers to continuously provide a proof that they have verified L2 assertions and get rewarded for the same. Proof of Diligence protocol includes a carefully-designed incentive mechanism that is provably secure when watchtowers are rational actors, under a mild rational independence assumption.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-23
# World Model on Million-Length Video and Language with Blockwise RingAttention

World Model on Million-Length Video And Language With Blockwise RingAttention ( http://arxiv.org/abs/2402.08268v3 )

ライセンス: Link先を確認
Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel, (参考訳) 現在の言語モデルは、言葉で簡単に説明できない世界の理解の側面に乏しく、複雑で長期的なタスクに苦しむ。 ビデオシーケンスは、言語と静的な画像に欠落する貴重な時間情報を提供するため、言語との共同モデリングには魅力的である。 このようなモデルは、人間のテキスト知識と物理的世界の両方の理解を深め、人間を支援するためのより広範なAI能力を可能にする。 しかし、ビデオや言語シーケンスの数百万のトークンから学ぶことは、メモリの制約、計算の複雑さ、限られたデータセットによる問題を引き起こす。 これらの課題に対処するために、多様なビデオや書籍の大規模なデータセットをキュレートし、Blockwise RingAttention技術を用いて長いシーケンスで学習し、コンテキストサイズを4Kから100Mトークンに徐々に増加させます。 本稿では,以下の貢献を行う。 (a)最大コンテキストサイズニューラルネットワーク: 長いビデオおよび言語シーケンス上で、最大規模のコンテクストサイズトランスフォーマーの1つをトレーニングし、困難な検索タスクと長いビデオ理解において、新しいベンチマークを設定します。 (b)異なるシーケンス長さを混合するためのマスク付きシーケンスパッキング、言語とビジョンのバランスをとるための損失重み付け、長いシーケンスチャットのためのモデル生成QAデータセットなど、視覚言語訓練の課題を克服するためのソリューション。 (c)RingAttention、Blockwise Transformers、マスク付きシーケンスパッキング、および数百万長のマルチモーダルシーケンスのトレーニングのための重要な機能を備えた高度に最適化された実装。 (d)長文文書(LWM-Text,LWM-Text-Chat)とビデオ(LWM,LWM-Chat)を100万以上のトークンで処理できる7Bパラメータモデルのファミリーをオープンソースとして公開した。 この研究は、人間の知識とマルチモーダル世界の両方、そしてより広範な能力を理解するために、長いビデオと言語の巨大なデータセットをトレーニングする方法を開拓する。

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the Blockwise RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, Blockwise Transformers, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-23
# 微生物学のための機械学習の監督--現状とベストプラクティスのギャップを埋める

Supervised machine learning for microbiomics: bridging the gap between current and best practices ( http://arxiv.org/abs/2402.17621v2 )

ライセンス: Link先を確認
Natasha K. Dudek, Mariam Chakhvadze, Saba Kobakhidze, Omar Kantidze, Yuriy Gankin, (参考訳) 機械学習(ML)は、疾患診断や予後学などの臨床微生物学の革新を加速する。 このためには高品質で再現可能な、解釈可能なワークフローが必要で、予測能力は、規制機関によって設定された臨床ツールに設定された高いしきい値を満たすか、超過する。 ここでは、2021-2022年に発行された100の査読論文の詳細な分析を通して、教師付きMLを微生物学データに適用する際の現在の実践のスナップショットをとらえる。 実験設計における様々なアプローチのメリットについて,データ漏洩を避けながら,小さなデータセットサイズの影響を緩和する方法などの重要な考察を含め,データ駆動型アプローチを適用した。 さらに、モデルの性能、信頼性、再現性を損なうような、一般的な実験的な設計の落とし穴を避けるためのガイダンスも提供します。 議論にはインタラクティブなオンラインチュートリアルが伴い、マイクロバイオミクスコミュニティに合わせたML実験設計の基本原則が示されている。 微生物学における教師付きMLのためのコミュニティのベストプラクティスの形式化は、患者や他のステークホルダーの利益のために、臨床研究の成功と効率を改善するための重要なステップである。

Machine learning (ML) is set to accelerate innovations in clinical microbiomics, such as in disease diagnostics and prognostics. This will require high-quality, reproducible, interpretable workflows whose predictive capabilities meet or exceed the high thresholds set for clinical tools by regulatory agencies. Here, we capture a snapshot of current practices in the application of supervised ML to microbiomics data, through an in-depth analysis of 100 peer-reviewed journal articles published in 2021-2022. We apply a data-driven approach to steer discussion of the merits of varied approaches to experimental design, including key considerations such as how to mitigate the effects of small dataset size while avoiding data leakage. We further provide guidance on how to avoid common experimental design pitfalls that can hurt model performance, trustworthiness, and reproducibility. Discussion is accompanied by an interactive online tutorial that demonstrates foundational principles of ML experimental design, tailored to the microbiomics community. Formalizing community best practices for supervised ML in microbiomics is an important step towards improving the success and efficiency of clinical research, to the benefit of patients and other stakeholders.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-23
# マルチエージェント強化学習による反復的コンビネーションオークションデザインの理解

Understanding Iterative Combinatorial Auction Designs via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.19420v2 )

ライセンス: Link先を確認
Greg d'Eon, Neil Newman, Kevin Leyton-Brown, (参考訳) 反復組合せオークションはスペクトルオークションのような高利得設定で広く使用されている。 このようなオークションは分析が難しいため、入札者がどのように振る舞うかを判断し、デザイナーがオークションルールを最適化し、高い収入や福祉などの望ましい結果を確保することは困難である。 本稿では,MARL(Multi-agent reinforcement learning)アルゴリズムが反復的組合せオークションの理解に有効かどうかを検討する。 MARLは本当にオークション分析の恩恵を受けることができるが、効果的にデプロイすることは簡単ではない。 まず、不完全な情報や入札者間の非対称性といった重要な特徴を犠牲にすることなく、結果が引き起こされるような決定をモデル化することから始める。 また、様々なMARLアルゴリズムの落とし穴をナビゲートする方法、収束検証の課題を克服する方法、多重平衡の生成と解釈方法についても論じる。 提案手法は, 入札者の行動が複雑に変化することにより, 特定のルール変更を時計オークションで評価し, オークションの結果を著しく異なるものにすることによる, 提案手法の可能性を示唆する。

Iterative combinatorial auctions are widely used in high stakes settings such as spectrum auctions. Such auctions can be hard to analyze, making it difficult for bidders to determine how to behave and for designers to optimize auction rules to ensure desirable outcomes such as high revenue or welfare. In this paper, we investigate whether multi-agent reinforcement learning (MARL) algorithms can be used to understand iterative combinatorial auctions, given that these algorithms have recently shown empirical success in several other domains. We find that MARL can indeed benefit auction analysis, but that deploying it effectively is nontrivial. We begin by describing modelling decisions that keep the resulting game tractable without sacrificing important features such as imperfect information or asymmetry between bidders. We also discuss how to navigate pitfalls of various MARL algorithms, how to overcome challenges in verifying convergence, and how to generate and interpret multiple equilibria. We illustrate the promise of our resulting approach by using it to evaluate a specific rule change to a clock auction, finding substantially different auction outcomes due to complex changes in bidders' behavior.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-23
# ファンデーションモデルAPIによる異なるプライベートな合成データ2:テキスト

Differentially Private Synthetic Data via Foundation Model APIs 2: Text ( http://arxiv.org/abs/2403.01749v2 )

ライセンス: Link先を確認
Chulin Xie, Zinan Lin, Arturs Backurs, Sivakanth Gopi, Da Yu, Huseyin A Inan, Harsha Nori, Haotian Jiang, Huishuai Zhang, Yin Tat Lee, Bo Li, Sergey Yekhanin, (参考訳) テキストデータは、そこから学習する機械学習アルゴリズムの出現により、非常に価値の高いものになっています。 現実世界で生成された高品質なテキストデータはプライベートなので、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。 プライベートテキストデータの合成レプリカを形式的なプライバシー保証、すなわち差分プライバシー(DP)で生成することは、有望でスケーラブルなソリューションを提供する。 しかし、既存の手法では、DP合成データを生成するために、プライベートデータ上の大きな言語モデル(LLM)のDP微調整が必要である。 このアプローチはプロプライエタリなLLM(例: GPT-3.5)には有効ではなく、オープンソースのLLMにはかなりの計算資源を必要とする。 Lin et al (2024) は先日,拡散モデルにのみアクセス可能なDP合成画像を生成するために,Private Evolution (PE) アルゴリズムを導入した。 本研究では,テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。 LLMへのAPIアクセスを使用し、モデルトレーニングなしでDP合成テキストを生成する。 3つのベンチマークデータセットで包括的な実験を行う。 その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。 これにより、LLMのAPIアクセスのみに頼って高品質のDP合成テキストを生成することが可能となり、プライバシー保護のLLMアプリケーションへのよりアクセスしやすいルートが実現可能になった。 私たちのコードとデータはhttps://github.com/AI-secure/aug-pe.comで公開されています。

Text data has become extremely valuable due to the emergence of machine learning algorithms that learn from it. A lot of high-quality text data generated in the real world is private and therefore cannot be shared or used freely due to privacy concerns. Generating synthetic replicas of private text data with a formal privacy guarantee, i.e., differential privacy (DP), offers a promising and scalable solution. However, existing methods necessitate DP finetuning of large language models (LLMs) on private data to generate DP synthetic data. This approach is not viable for proprietary LLMs (e.g., GPT-3.5) and also demands considerable computational resources for open-source LLMs. Lin et al. (2024) recently introduced the Private Evolution (PE) algorithm to generate DP synthetic images with only API access to diffusion models. In this work, we propose an augmented PE algorithm, named Aug-PE, that applies to the complex setting of text. We use API access to an LLM and generate DP synthetic text without any model training. We conduct comprehensive experiments on three benchmark datasets. Our results demonstrate that Aug-PE produces DP synthetic text that yields competitive utility with the SOTA DP finetuning baselines. This underscores the feasibility of relying solely on API access of LLMs to produce high-quality DP synthetic texts, thereby facilitating more accessible routes to privacy-preserving LLM applications. Our code and data are available at https://github.com/AI-secure/aug-pe.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-23
# Krylov Basis の熱化

Thermalization in Krylov Basis ( http://arxiv.org/abs/2403.06655v2 )

ライセンス: Link先を確認
Mohsen Alishahiha, Mohammad Javad Vasli, (参考訳) クリャロフ基底を用いた閉非可積分量子系の熱化について研究する。 熱化が起こるためには、クリロフ基底の典型的な局所作用素の行列表現は、行列の他のすべての要素が指数関数的に小さく、固有状態の熱化仮説を思い起こさせるような、特定の三角形を示すべきであることを実証する。 この枠組みでは, 熱化の性質, 弱いか強いかは, クリロフ複雑性の無限時間平均で調べることができる。 さらに,Laczos係数の分散を熱化特性の別のプローブとして解析した。 ランツォスの係数の分散は熱化の特定の特徴を捉えることができるが、複雑性の無限時間平均ほど効果的ではない。

We study thermalization in closed non-integrable quantum systems using the Krylov basis. We demonstrate that for thermalization to occur, the matrix representation of typical local operators in the Krylov basis should exhibit a specific tridiagonal form with all other elements in the matrix are exponentially small, reminiscent of the eigenstate thermalization hypothesis. Within this framework, we propose that the nature of thermalization, whether weak or strong, can be examined by the infinite time average of the Krylov complexity. Moreover, we analyze the variance of Lanczos coefficients as another probe for the nature of thermalization. One observes that although the variance of Lanczos coefficients may capture certain features of thermalization, it is not as effective as the infinite time average of complexity.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-23
# PathM3:全スライド画像分類とキャプションのためのマルチモーダルマルチタスクマルチインスタンス学習フレームワーク

PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning ( http://arxiv.org/abs/2403.08967v2 )

ライセンス: Link先を確認
Qifeng Zhou, Wenliang Zhong, Yuzhi Guo, Michael Xiao, Hehuan Ma, Junzhou Huang, (参考訳) コンピュータ病理学の分野では、スライド画像全体(WSI)と診断キャプションの両方が診断決定に有用な洞察を与えている。 しかし、WSIと診断キャプションを合わせることは重大な課題である。 この困難は2つの主な要因から生じる。 1)ギガピクセルWSIは深層学習モデルへの直接入力には不適であり、パッチ間の冗長性と相関性はより注意が必要である。 2) 正確なWSI診断キャプションは極めて限られており, 効果的なモデルの訓練が困難である。 これらの障害を克服するために、WSI分類とキャプションのためのマルチモーダル・マルチタスク・マルチインスタンス学習(MIL)フレームワークであるPathM3を提案する。 PathM3はクエリベースのトランスフォーマーを適用して、WSIを診断キャプションと効果的に調整する。 病理組織学的視覚パターンがWSI間で冗長に分散されていることを考慮し、各パッチ特徴をインスタンス間の相関を考慮に入れたMILメソッドで集約する。 さらに,WSIレベルの字幕におけるデータ不足を克服するために,多タスク共同学習の方法として限定的なWSI診断字幕データを活用する。 分類精度とキャプション生成を向上した広範囲な実験により,WSI分類とキャプションタスクにおける本手法の有効性が示された。

In the field of computational histopathology, both whole slide images (WSIs) and diagnostic captions provide valuable insights for making diagnostic decisions. However, aligning WSIs with diagnostic captions presents a significant challenge. This difficulty arises from two main factors: 1) Gigapixel WSIs are unsuitable for direct input into deep learning models, and the redundancy and correlation among the patches demand more attention; and 2) Authentic WSI diagnostic captions are extremely limited, making it difficult to train an effective model. To overcome these obstacles, we present PathM3, a multimodal, multi-task, multiple instance learning (MIL) framework for WSI classification and captioning. PathM3 adapts a query-based transformer to effectively align WSIs with diagnostic captions. Given that histopathology visual patterns are redundantly distributed across WSIs, we aggregate each patch feature with MIL method that considers the correlations among instances. Furthermore, our PathM3 overcomes data scarcity in WSI-level captions by leveraging limited WSI diagnostic caption data in the manner of multi-task joint learning. Extensive experiments with improved classification accuracy and caption generation demonstrate the effectiveness of our method on both WSI classification and captioning task.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-23
# RigorLLM: 望ましくないコンテンツに対する大規模言語モデルのための回復力のあるガードレール

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content ( http://arxiv.org/abs/2403.13031v2 )

ライセンス: Link先を確認
Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia, Dawn Song, Bo Li, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域における様々なタスクにまたがる顕著な機能を示した。 しかし、特に悪意のある入力の下では、バイアスの出現とLSMの有害なコンテンツを生成する可能性には大きな課題が生じる。 現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。 本稿では,LLMに対する有害かつ安全でない入力と出力を効率よく効果的に抑制する新しいフレームワークであるResilient Guardrails for Large Language Models (RigorLLM)を紹介する。 ランゲヴィンダイナミクスによるエネルギーベースのトレーニングデータ拡張を含む多面的アプローチを採用し、ミニマックス最適化による入力に対する安全なサフィックスを最適化し、我々のデータ拡張に基づくロバストなKNNとLLMを組み合わせた融合モデルを統合することにより、RigorLLMは有害なコンテンツモデレーションに対する堅牢なソリューションを提供する。 実験により、RigorLLMは、有害なコンテンツの検出において、OpenAI APIやAspective APIのような既存のベースラインよりも優れているだけでなく、脱獄攻撃に対する非並列なレジリエンスも示している。 制約付き最適化とフュージョンベースのガードレールアプローチの革新的利用は、よりセキュアで信頼性の高いLCMを開発するための大きな一歩であり、デジタル脅威の進化に直面したコンテンツモデレーションフレームワークの新たな標準となる。

Recent advancements in Large Language Models (LLMs) have showcased remarkable capabilities across various tasks in different domains. However, the emergence of biases and the potential for generating harmful content in LLMs, particularly under malicious inputs, pose significant challenges. Current mitigation strategies, while effective, are not resilient under adversarial attacks. This paper introduces Resilient Guardrails for Large Language Models (RigorLLM), a novel framework designed to efficiently and effectively moderate harmful and unsafe inputs and outputs for LLMs. By employing a multi-faceted approach that includes energy-based training data augmentation through Langevin dynamics, optimizing a safe suffix for inputs via minimax optimization, and integrating a fusion-based model combining robust KNN with LLMs based on our data augmentation, RigorLLM offers a robust solution to harmful content moderation. Our experimental evaluations demonstrate that RigorLLM not only outperforms existing baselines like OpenAI API and Perspective API in detecting harmful content but also exhibits unparalleled resilience to jailbreaking attacks. The innovative use of constrained optimization and a fusion-based guardrail approach represents a significant step forward in developing more secure and reliable LLMs, setting a new standard for content moderation frameworks in the face of evolving digital threats.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-23
# MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル

MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection ( http://arxiv.org/abs/2403.19888v4 )

ライセンス: Link先を確認
Ali Behrouz, Michele Santacatterina, Ramin Zabih, (参考訳) ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。 しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。 近年、画像や多変量時系列などの多次元データのための効率的で効果的なアーキテクチャバックボーンを設計しようとする試みが試みられているが、既存のモデルはデータに依存しているか、次元間通信を許さないかのいずれかである。 近年、SSM(State Space Models)やより具体的にはSelective State Space Models(SSM)は、ハードウェアを意識した効率的な実装であり、長いシーケンスモデリングの有望な可能性を示している。 SSMの成功に触発されたMambaMixerは、Selective TokenとChannel Mixerと呼ばれるトークンとチャネル間の二重選択機構を用いた、データ依存の重み付けを持つ新しいアーキテクチャである。 MambaMixerは、重み付けされた平均化メカニズムを使用して選択ミキサーを接続する。 概念実証として,MambaMixerブロックに基づくVision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) アーキテクチャを設計し,その性能を様々なビジョンや時系列予測タスクで探索する。 この結果から,トークンとチャネル間の選択的混合の重要性が示唆された。 ImageNet分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ViM2は確立されたビジョンモデルとの競合性能を達成し、SSMベースのビジョンモデルを上回っている。 時系列予測では、TSM2は最先端の手法と比較して優れた性能を達成し、計算コストは大幅に向上した。 これらの結果から,トランスフォーマー,クロスチャンネルアテンション,MPPは時系列予測において十分な性能を示すが,どちらも必要ではないことがわかった。

Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. Despite recent attempts to design efficient and effective architecture backbone for multi-dimensional data, such as images and multivariate time series, existing models are either data independent, or fail to allow inter- and intra-dimension communication. Recently, State Space Models (SSMs), and more specifically Selective State Space Models, with efficient hardware-aware implementation, have shown promising potential for long sequence modeling. Motivated by the success of SSMs, we present MambaMixer, a new architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels, called Selective Token and Channel Mixer. MambaMixer connects selective mixers using a weighted averaging mechanism, allowing layers to have direct access to early features. As a proof of concept, we design Vision MambaMixer (ViM2) and Time Series MambaMixer (TSM2) architectures based on the MambaMixer block and explore their performance in various vision and time series forecasting tasks. Our results underline the importance of selective mixing across both tokens and channels. In ImageNet classification, object detection, and semantic segmentation tasks, ViM2 achieves competitive performance with well-established vision models and outperforms SSM-based vision models. In time series forecasting, TSM2 achieves outstanding performance compared to state-of-the-art methods while demonstrating significantly improved computational cost. These results show that while Transformers, cross-channel attention, and MLPs are sufficient for good performance in time series forecasting, neither is necessary.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-23
# ボソニックジョセフソン接合におけるスピンスクイージングのツイスト・アンド・ターンダイナミクス--強化ショートカット-断熱アプローチ

Twist-and-turn dynamics of spin squeezing in bosonic Josephson junctions: Enhanced shortcuts-to-adiabaticity approach ( http://arxiv.org/abs/2404.19685v2 )

ライセンス: Link先を確認
Manuel Odelli, Andreas Ruschhaupt, Vladimir M. Stojanovic, (参考訳) スピンスクイージングのツイスト・アンド・ターンのダイナミクスは、1軸ツイスト-(集合スピン作用素の非線形)と、下層のリプキン・メシュコフ-グリック型ハミルトン多様体における逆場回転(線型)項の相互作用から生じる。 短絡から断熱へのアプローチ(STA)と最近開発された拡張バージョン(eSTA)を用いて、このタイプの力学が、ラビ回転を介して結合された2つの異なる内部(超微細)状態(シングルボソンモード)における冷ボソン原子の凝縮体である内部ボソン接合におけるスピンスクイズ状態の高速かつ堅牢な準備に利用できることを示した。 本システムの初期状態が(時間依存)線形カップリング強度の与えられた初期値の基底状態であり、非線形カップリング強度が一定であることを仮定すると、STAおよびeSTAに基づくアプローチを用いてスピンスクイーズ状態の生成を可能にする線形(Rabi)結合強度の時間依存性を決定する。 次に、このシステムの修正されたツイスト・アンド・ターンダイナミクスを、目的のスピン・スクイーズ状態の忠実度だけでなく、コヒーレント・スピン・スクイーズ・アンド・ナンバー・スクイーズパラメータの評価により特徴づける。 このようにして、eSTAアプローチは、数百の粒子を持つシステムでさえも、その断熱的およびSTAベースのシステムよりも一貫して優れた、特に頑健なスピンスクイーズ状態の実験的実現を可能にすることを示す。

The twist-and-turn dynamics of spin squeezing result from the interplay of the one-axis-twisting- (nonlinear in the collective-spin operators) and the transverse-field turning (linear) term in the underlying Lipkin-Meshkov-Glick-type Hamiltonian, both with constant (time-independent) coupling strenghts. Using the methods of shortcuts to adiabaticity (STA) and their recently developed enhanced version (eSTA), we demonstrate here that dynamics of this type can be utilized for a fast and robust preparation of spin-squeezed states in internal bosonic Josephson junctions -- condensates of cold bosonic atoms in two different internal (hyperfine) states (single-boson modes) coupled through Rabi rotations. Assuming that the initial state of this system is its ground state for a given initial value of the (time-dependent) linear-coupling strength and that the nonlinear-coupling strength remains constant, we set out to determine the time-dependence of the linear (Rabi) coupling strength that allows for the generation of spin-squeezed states using the STA- and eSTA-based approaches. We then characterize the modified twist-and-turn dynamics of this system by evaluating the coherent-spin-squeezing- and number-squeezing parameters, as well as the fidelity of the target spin-squeezed states. In this way, we show that the eSTA approach allows for a particularly robust experimental realization of strongly spin-squeezed states in this system, consistently outperforming its adiabatic and STA-based counterparts, even for systems with several hundred particles.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-23
# ソードガウス波パケットダイナミクス:3つの伝搬スキームの批判的評価

Thawed Gaussian wave packet dynamics: a critical assessment of three propagation schemes ( http://arxiv.org/abs/2405.01729v2 )

ライセンス: Link先を確認
Ilya G. Ryabinkin, Rami Gherib, Scott N. Genin, (参考訳) 本研究では,モースやダブルウェルポテンシャルの影響下で移動する可変幅(ソード)ガウス波パケットを化学的に代表されるパラメータで伝搬する3つのスキームについて検討した。 最も厳密なスキームは、時間依存変動原理(TDVP)に基づいており、調査されたすべてのレシエーションにおいて、ウェーブパケットの中心と幅の現実的な挙動をもたらす。 他の2つの近似スキーム、ヘラーと拡張半古典的スキームは、様々な収差を示す。 ヘラーのスキームは、様々なゼロ点エネルギー関連の効果を適切に説明せず、トンネルの予測ができず、さらに重要なことは、完全に非物理的で非有界な幅の振動を示すことである。 ヘラーの欠点のいくつかに対処するために開発された拡張半古典的スキームは、モースポテンシャルとダブルウェルポテンシャルの両方における軌道の自己トラッピングという別の非物理的挙動を示す。 我々はTDVPに基づくスキームのみが問題のない動的シミュレーションに適していると結論付けた。 しかし、これは高次元システムでどのように効率的に活用するかという疑問を提起する。

We assessed three schemes for propagating a variable-width (thawed) Gaussian wave packet moving under the influence of Morse or double-well potentials with parameters that are chemically representative. The most rigorous scheme is based on the time-dependent variational principle (TDVP); it leads to realistic behaviour of the center and width of a wave packet in all investigated regimes. Two other approximate schemes, Heller's and the extended semiclassical ones, demonstrate various aberrations. Heller's scheme does not properly account for various zero-point energy-related effects, is unable to predict tunneling, and more importantly, exhibits completely nonphysical unbound width oscillations. The extended semiclassical scheme, which was developed to address some of the shortcomings of the Heller counterpart, demonstrates another unphysical behaviour: self-trapping of a trajectory in both Morse and double-well potentials. We conclude that only the TDVP-based scheme is suitable for problem-free dynamical simulations. This, however, raises the question of how to utilize it efficiently in high-dimensional systems.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-23
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v9 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのか、また、一般論として障害とのフェルミオン相互作用に対してどのように達成されるのかを、いくつかの解析計算で明らかにする。 これを実現するために、私たちは単純な相互作用のモデル化を行います。 特に、$q$-point rescaled sparse SYK 相互作用の場合、量子優位性は$\Gamma\sim N^{\frac {\alpha-q}{2}+1}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{1-\frac {\alpha}{2}}$ for $q/2>\alpha\geq 0$ となる。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions and in general for fermionic interactions with disorder. To do this we perform a simple modelization of the interactions. In particular, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha-q}{2}+1}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{1-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-23
# Multi-Type Point Cloud Autoencoder: 分子のコンフォーメーションとポースのための完全同変埋め込み

Multi-Type Point Cloud Autoencoder: A Complete Equivariant Embedding for Molecule Conformation and Pose ( http://arxiv.org/abs/2405.13791v2 )

ライセンス: Link先を確認
Michael Kilgour, Mark Tuckerman, Jutta Rogal, (参考訳) 点雲は様々な種類のデータに対して柔軟な表現であり、分子の3D配座に特に適している。 分子の埋め込み/表現スキームは、一般的に内部自由度に焦点を合わせ、グローバルな3D配向を無視している。 分子二量体、クラスター、凝縮相の生成など、分子配向と3次元配向の両方の知識に依存するタスクには、入力点雲に対する原子核のタイプと位置、およびロト反転等式において、確実に完備な表現が必要である。 我々は,新しいタイプのオートエンコーダである分子O(3)エンコードネット (Mo3ENet) を開発し,訓練し,評価する。 Mo3ENetはエンドツーエンドの同変であり、学習した表現をO(3)で操作することができる。 適切に訓練されたMo3ENet潜伏空間は、スカラーおよびベクトル分子特性予測タスクのための普遍的な埋め込みと、3D分子のポーズを組み込んだ他の下流タスクを含む。

The point cloud is a flexible representation for a wide variety of data types, and is a particularly natural fit for the 3D conformations of molecules. Extant molecule embedding/representation schemes typically focus on internal degrees of freedom, ignoring the global 3D orientation. For tasks that depend on knowledge of both molecular conformation and 3D orientation, such as the generation of molecular dimers, clusters, or condensed phases, we require a representation which is provably complete in the types and positions of atomic nuclei and roto-inversion equivariant with respect to the input point cloud. We develop, train, and evaluate a new type of autoencoder, molecular O(3) encoding net (Mo3ENet), for multi-type point clouds, for which we propose a new reconstruction loss, capitalizing on a Gaussian mixture representation of the input and output point clouds. Mo3ENet is end-to-end equivariant, meaning the learned representation can be manipulated on O(3), a practical bonus for downstream learning tasks. An appropriately trained Mo3ENet latent space comprises a universal embedding for scalar and vector molecule property prediction tasks, as well as other downstream tasks incorporating the 3D molecular pose.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-23
# 空間依存対策の情報理論的ルーツの提案

Probing the Information Theoretical Roots of Spatial Dependence Measures ( http://arxiv.org/abs/2405.18459v2 )

ライセンス: Link先を確認
Zhangyu Wang, Krzysztof Janowicz, Gengchen Mai, Ivan Majic, (参考訳) 直感的には、空間依存の測度とエントロピーの情報理論測度との間には関係がある。 例えば、空間データサンプルが平均的に、期待される情報よりも少ないことを述べ、空間データが特別な理由を直感的に説明できる。 同様に、圧縮が容易な空間データ、例えばリモートセンシング画像は、空間的自己相関も顕著である。 情報理論の広く使われている言語における空間情報理論の(非常に特異的な)コア概念を定式化することで、それらの違いと類似性に関する新たな視点が開かれ、また、より広範なAI/MLコミュニティとの学際的なコラボレーションを促進する。 しかし、この直感的な関係は形式化と一般化が難しいため、以前の研究は主にランドスケープパターンを記述する実験結果に頼っている。 本研究では,空間的自己相関(特にモランのI)の情報理論のルーツを,自己情報レンズ(補題としても知られる)を通して探求し,形式的証明と実験の両方を提供する。

Intuitively, there is a relation between measures of spatial dependence and information theoretical measures of entropy. For instance, we can provide an intuition of why spatial data is special by stating that, on average, spatial data samples contain less than expected information. Similarly, spatial data, e.g., remotely sensed imagery, that is easy to compress is also likely to show significant spatial autocorrelation. Formulating our (highly specific) core concepts of spatial information theory in the widely used language of information theory opens new perspectives on their differences and similarities and also fosters cross-disciplinary collaboration, e.g., with the broader AI/ML communities. Interestingly, however, this intuitive relation is challenging to formalize and generalize, leading prior work to rely mostly on experimental results, e.g., for describing landscape patterns. In this work, we will explore the information theoretical roots of spatial autocorrelation, more specifically Moran's I, through the lens of self-information (also known as surprisal) and provide both formal proofs and experiments.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-23
# D-Wave's {\tt Advantage} 量子アニールの3成分系ニュートリノ振動

Three-flavor Collective Neutrino Oscillations on D-Wave's {\tt Advantage} Quantum Annealer ( http://arxiv.org/abs/2405.20436v2 )

ライセンス: Link先を確認
Ivan A. Chernyshev, (参考訳) 核崩壊型超新星、中性子星の融合、初期の宇宙のような極端な環境では、ニュートリノは密度が高く、自己相互作用が支配的でないとしても、そのフレーバーのダイナミクスに大きな影響を及ぼす。 得られた量子エンタングルメントを特徴づける技術を開発するために,D-Wave Inc. の 5000+ qubit 量子アニーラー上で行った,3つの物理ニュートリノフレーバーを含むディラックニュートリノ-ニュートリノ相互作用のシミュレーション結果を示す。 これらの結果は、ディラックニュートリノ-ニュートリノ相互作用とニュートリノ-ニュートリノ相互作用とマヨラナニュートリノ-ニュートリノ相互作用を比較するためにも用いられる、正確な古典的なシミュレーションによるものである。 D-Wave {\tt Advantage} アナネラは、少数のニュートリノに対して古典機械の精度で時間進化を再現でき、トロッター誤差を伴わない。 しかし、クォービット数ではニュートリノの数が不足している。 キュービットスケーリングを改善するための2つのアプローチについて論じるが、そのうちの1つだけが有望であることを示している。

In extreme environments such as core-collapse supernovae, neutron-star mergers, and the early Universe, neutrinos are dense enough that their self-interactions significantly affect, if not dominate, their flavor dynamics. In order to develop techniques for characterizing the resulting quantum entanglement, I present the results of simulations of Dirac neutrino-neutrino interactions that include all three physical neutrino flavors and were performed on D-Wave Inc.'s {\tt Advantage} 5000+ qubit quantum annealer. These results are checked against those from exact classical simulations, which are also used to compare the Dirac neutrino-neutrino interactions to neutrino-antineutrino and Majorana neutrino-neutrino interactions. The D-Wave {\tt Advantage} annealer is shown to be able to reproduce time evolution with the precision of a classical machine for small number of neutrinos and to do so without Trotter errors. However, it suffers from poor scaling in qubit-count with the number of neutrinos. Two approaches to improving the qubit-scaling are discussed, but only one of the two shows promise.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-23
# 量子暗黙的ニューラル表現

Quantum Implicit Neural Representations ( http://arxiv.org/abs/2406.03873v2 )

ライセンス: Link先を確認
Jiaming Zhao, Wenbo Qiao, Peng Zhang, Hui Gao, (参考訳) 暗黙の神経表現は、画像や音などの信号を表現するための強力なパラダイムとして登場した。 このアプローチは、ニューラルネットワークを用いて信号の暗黙的な機能をパラメータ化することを目的としている。 しかし、暗黙の関数を表す場合、ReLUベースの多層パーセプトロンのような従来のニューラルネットワークは、信号の高周波成分を正確にモデル化する上で困難に直面している。 最近の研究は、この制限を克服するためにフーリエニューラルネットワーク(FNN)の利用を探求し始めている。 本稿では,新しいFNNの量子一般化である量子暗黙表現ネットワーク(QIREN)を提案する。 さらに、理論解析により、QIRENは古典的なFNNに対して量子的優位性を持つことを示した。 最後に,信号表現,画像スーパーレゾリューション,画像生成タスクにおいて,最先端のSOTAモデルと比較してQIRENの優れた性能を示す実験を行った。 我々の研究は量子アドバンテージを暗黙のニューラルネットワーク表現に組み込むだけでなく、量子ニューラルネットワークの有望な応用方向を明らかにする。

Implicit neural representations have emerged as a powerful paradigm to represent signals such as images and sounds. This approach aims to utilize neural networks to parameterize the implicit function of the signal. However, when representing implicit functions, traditional neural networks such as ReLU-based multilayer perceptrons face challenges in accurately modeling high-frequency components of signals. Recent research has begun to explore the use of Fourier Neural Networks (FNNs) to overcome this limitation. In this paper, we propose Quantum Implicit Representation Network (QIREN), a novel quantum generalization of FNNs. Furthermore, through theoretical analysis, we demonstrate that QIREN possesses a quantum advantage over classical FNNs. Lastly, we conducted experiments in signal representation, image superresolution, and image generation tasks to show the superior performance of QIREN compared to state-of-the-art (SOTA) models. Our work not only incorporates quantum advantages into implicit neural representations but also uncovers a promising application direction for Quantum Neural Networks.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-23
# 競争プログラミングにおける人力支援のためのタスク分解の学習

Learning Task Decomposition to Assist Humans in Competitive Programming ( http://arxiv.org/abs/2406.04604v3 )

ライセンス: Link先を確認
Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang, (参考訳) 複雑な問題を解決するために言語モデル(LM)を使用する場合、人間はLM生成した解決策を理解し、欠陥のあるものを修正するのに苦労するかもしれない。 そこで本研究では, 複雑な解を, 特定のサブタスクに対応する複数の単純なピースに自動的に分解する手法を提案する。 本研究では, 課題分解学習のための新しい目標である補助値(AssistV)を導入する。 我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。 収集したデータをインコンテキストの例として利用して、AssistVを改善するために分解されたソリューションを批判し、洗練し、ランク付けすることを学ぶ。 我々は,本手法を競合プログラミング問題下で検証する。人間研究177時間で,非専門家が33.3倍の問題を解き,3.3倍の速度で高速化し,無支援の専門家とのマッチングを可能にする。

When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-23
# 類似事例検索によるブラジル最高裁判所における拘束先行効率の実証分析

Empirical analysis of Binding Precedent efficiency in the Brazilian Supreme Court via Similar Case Retrieval ( http://arxiv.org/abs/2407.07004v2 )

ライセンス: Link先を確認
Raphaël Tinarrage, Henrique Ennes, Lucas E. Resck, Lucas T. Gomes, Jean R. Ponciano, Jorge Poco, (参考訳) 拘束前例(S\'umulas Vinculantes)はブラジルの法体系に固有の法的な手段であり、連邦最高裁判所の反復的要求に対する保護を含む。 しかし、同様の事件に対する裁判所の露出を減らすためのこれらの手段の有効性の研究は、それらがそのような方向で失敗する傾向にあることを示している。 われわれは,5件の拘束前例,11,14,17,26,37の裁判所レベルでの法的影響を,それらが対処する法的対象に与える影響を実証的に評価した。 この分析は、裁判所が前例に関する判決を作成前に比較することでのみ可能であり、これらの決定は類似事例検索の手法によって検出されるべきである。 数学的側面では、同様のケース検索にTF-IDF, LSTM, BERT, regexの異なる手法を使用するのに対し、法的側面では、これらのバインディング前例の非効率性と、繰り返し使用を正当化する仮説の集合を対比する。 特定のケース検索タスクにおいて深層学習モデルは著しく悪化し、繰り返し要求に応答して前例のバインディングが失敗する理由は不均一であり、ケース依存であるため、特定の原因を抽出することは不可能である。

Binding precedents (S\'umulas Vinculantes) constitute a juridical instrument unique to the Brazilian legal system and whose objectives include the protection of the Federal Supreme Court against repetitive demands. Studies of the effectiveness of these instruments in decreasing the Court's exposure to similar cases, however, indicate that they tend to fail in such a direction, with some of the binding precedents seemingly creating new demands. We empirically assess the legal impact of five binding precedents, 11, 14, 17, 26 and 37, at the highest court level through their effects on the legal subjects they address. This analysis is only possible through the comparison of the Court's ruling about the precedents' themes before they are created, which means that these decisions should be detected through techniques of Similar Case Retrieval. The contributions of this article are therefore twofold: on the mathematical side, we compare the uses of different methods of Natural Language Processing -- TF-IDF, LSTM, BERT, and regex -- for Similar Case Retrieval, whereas on the legal side, we contrast the inefficiency of these binding precedents with a set of hypotheses that may justify their repeated usage. We observe that the deep learning models performed significantly worse in the specific Similar Case Retrieval task and that the reasons for binding precedents to fail in responding to repetitive demand are heterogeneous and case-dependent, making it impossible to single out a specific cause.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-23
# ニューラルネットワークにおける自己モデリングの予期せぬメリット

Unexpected Benefits of Self-Modeling in Neural Systems ( http://arxiv.org/abs/2407.10188v2 )

ライセンス: Link先を確認
Vickram N. Premakumar, Michael Vaiana, Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Kirsten Ziman, Michael S. A. Graziano, (参考訳) 自己モデル(Self-model)は、人間の認知の研究や、最近では機械学習において、何十年にもわたって大きな関心を集めてきたトピックである。 しかし、自己モデルがもたらすメリットは何か? ここでは、ニューラルネットワークが内部状態を補助的なタスクとして予測することを学ぶと、それらが根本的に変化することを示す。 自己モデルタスクをより良く実行するために、ネットワークはよりシンプルで、より規則化され、パラメータ効率が良く、予測的モデリングがより容易になるように学習する。 自己モデリングによる自己正規化の仮説をテストするために,2つのモードにまたがる3つの分類タスクを実行するネットワークアーキテクチャを用いた。 いずれの場合も、自己モデリングの追加はネットワークの複雑さを大幅に減らした。 減少は2つの方法で観察された。 第一に、自己モデリングが存在するときの重量分布はより狭かった。 第2に,自己モデリングを行う場合,ネットワーク複雑性の尺度である実対数正準しきい値 (RLCT) は小さくなった。 複雑さの度合いは低下したばかりでなく、自己モデリングの補助的なタスクにより大きなトレーニング重量が配置されたことにより、より顕著になった。 これらの結果は、自己モデリングは単に自己予測のためのネットワーク学習以上のものであるという仮説を強く支持する。 学習は再構成効果を持ち、複雑さを減らし、パラメータ効率を向上する。 この自己正規化は、最近の機械学習文献で報告されている自己モデルの有用性や、生物学的システムへの自己モデルの適用価値を説明するのに役立つかもしれない。 特に、これらの発見は、自分自身をモデル化する能力と、社会的あるいは協力的な文脈において、他人によってより容易にモデル化される能力との相互作用について、光を当てる可能性がある。

Self-models have been a topic of great interest for decades in studies of human cognition and more recently in machine learning. Yet what benefits do self-models confer? Here we show that when artificial networks learn to predict their internal states as an auxiliary task, they change in a fundamental way. To better perform the self-model task, the network learns to make itself simpler, more regularized, more parameter-efficient, and therefore more amenable to being predictively modeled. To test the hypothesis of self-regularizing through self-modeling, we used a range of network architectures performing three classification tasks across two modalities. In all cases, adding self-modeling caused a significant reduction in network complexity. The reduction was observed in two ways. First, the distribution of weights was narrower when self-modeling was present. Second, a measure of network complexity, the real log canonical threshold (RLCT), was smaller when self-modeling was present. Not only were measures of complexity reduced, but the reduction became more pronounced as greater training weight was placed on the auxiliary task of self-modeling. These results strongly support the hypothesis that self-modeling is more than simply a network learning to predict itself. The learning has a restructuring effect, reducing complexity and increasing parameter efficiency. This self-regularization may help explain some of the benefits of self-models reported in recent machine learning literature, as well as the adaptive value of self-models to biological systems. In particular, these findings may shed light on the possible interaction between the ability to model oneself and the ability to be more easily modeled by others in a social or cooperative context.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-23
# 時空間グラフ変換器によるビデオ言語アライメント

Video-Language Alignment via Spatio-Temporal Graph Transformer ( http://arxiv.org/abs/2407.11677v2 )

ライセンス: Link先を確認
Shi-Xue Zhang, Hongfa Wang, Xiaobin Zhu, Weibo Gu, Tianjin Zhang, Chun Yang, Wei Liu, Xu-Cheng Yin, (参考訳) ビデオ言語アライメントは、様々な下流アプリケーション、例えば、ビデオテキスト検索、ビデオ質問応答といった、重要なマルチモーダルタスクである。 既存の方法は、ビデオテキストペア内のマルチモーダル情報を利用するか、グローバルおよびローカルアライメント技術を適用してアライメント精度を向上させる。 しかしながら、これらの手法は、ビデオ内の視覚トークンと異なるビデオテキストペア間の時空間的関係を十分に探求することができないことが多い。 本稿では,ビデオ言語アライメント事前学習(STGT)のための空間的・時間的コンテキストを均一に学習する,新しい時空間グラフ変換モジュールを提案する。 具体的には、時空間グラフ構造情報と変圧器ブロックの注意情報を組み合わせることで、時空間コンテキストを効果的に活用する。 このようにして、視覚トークン間の関係をモデル化し、下流タスクに役立てるためにビデオテキストアライメントの精度を向上することができる。 さらに,ビデオやテキストの自己相似性を探索するために,自己相似性アライメント損失を提案する。 コントラスト学習による初期最適化により、ビデオとテキストのアライメント精度をさらに向上させることができる。 ビデオテキスト検索やビデオ質問応答などの下流課題に対する実験結果から,提案手法の優れた性能を検証した。

Video-language alignment is a crucial multi-modal task that benefits various downstream applications, e.g., video-text retrieval and video question answering. Existing methods either utilize multi-modal information in video-text pairs or apply global and local alignment techniques to promote alignment precision. However, these methods often fail to fully explore the spatio-temporal relationships among vision tokens within video and across different video-text pairs. In this paper, we propose a novel Spatio-Temporal Graph Transformer module to uniformly learn spatial and temporal contexts for video-language alignment pre-training (dubbed STGT). Specifically, our STGT combines spatio-temporal graph structure information with attention in transformer block, effectively utilizing the spatio-temporal contexts. In this way, we can model the relationships between vision tokens, promoting video-text alignment precision for benefiting downstream tasks. In addition, we propose a self-similarity alignment loss to explore the inherent self-similarity in the video and text. With the initial optimization achieved by contrastive learning, it can further promote the alignment accuracy between video and text. Experimental results on challenging downstream tasks, including video-text retrieval and video question answering, verify the superior performance of our method.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-23
# ケーススタディを用いた産業実践者への責任あるAIの教育

Using Case Studies to Teach Responsible AI to Industry Practitioners ( http://arxiv.org/abs/2407.14686v2 )

ライセンス: Link先を確認
Julia Stoyanovich, Rodrigo Kreis de Paula, Armanda Lewis, Chloe Zheng, (参考訳) 責任AI(Responsible AI、RAI)とは、AIの設計、開発、使用を社会的に持続可能なものにする科学と実践である。 当然、産業実践者は、RAIの目標を達成するための集団能力において決定的な役割を担います。 残念ながら、RAIを実践者に教えるための教育資料と効果的な方法論をまだ統合していない。 本稿では,対話型ケーススタディを用いて,RAIの組織的・実践的エンゲージメントと先進的な学習を実現する,新たな利害関係者優先型教育手法を提案する。 当社は国際技術企業であるMetaとパートナーシップを結び、社内の多様なオーディエンスにRAIワークショップを共同開発し提供します。 評価の結果,ワークショップの参加者は,作業にRAIを適用することに対する理解とモチベーションに肯定的な変化があることが示唆された。

Responsible AI (RAI) is the science and the practice of making the design, development, and use of AI socially sustainable: of reaping the benefits of innovation while controlling the risks. Naturally, industry practitioners play a decisive role in our collective ability to achieve the goals of RAI. Unfortunately, we do not yet have consolidated educational materials and effective methodologies for teaching RAI to practitioners. In this paper, we propose a novel stakeholder-first educational approach that uses interactive case studies to achieve organizational and practitioner -level engagement and advance learning of RAI. We discuss a partnership with Meta, an international technology company, to co-develop and deliver RAI workshops to a diverse audience within the company. Our assessment results indicate that participants found the workshops engaging and reported a positive shift in understanding and motivation to apply RAI to their work.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-23
# 生成型AIと大規模言語モデルの最近の進歩:現状,課題,展望

Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives ( http://arxiv.org/abs/2407.14962v2 )

ライセンス: Link先を確認
Desta Haileselassie Hagos, Rick Battle, Danda B. Rawat, (参考訳) 生成人工知能(AI)とLarge Language Models(LLMs)の出現は、さまざまなドメインに革命をもたらす前例のない機能を導入し、自然言語処理(NLP)の新しい時代を象徴している。 本稿では,これらの最先端技術の現状を概観し,その顕著な進歩と広範囲な応用を実証する。 本稿では,ジェネレーティブAIとLLMの進化途上における技術的基盤,実践的応用,新たな課題に関する総合的な視点の提供に寄与する。 我々は、AIシステムの生成能力とLLMの特定のコンテキストを理解することは、研究者、実践者、政策立案者にとって、これらの技術の責任と倫理的統合を様々な領域に協調的に形成することが不可欠であると考えている。 さらに、主要な研究ギャップを特定し、対処し、AI研究コミュニティにおける将来の研究成果をガイドするための貴重な洞察を提供する。

The emergence of Generative Artificial Intelligence (AI) and Large Language Models (LLMs) has marked a new era of Natural Language Processing (NLP), introducing unprecedented capabilities that are revolutionizing various domains. This paper explores the current state of these cutting-edge technologies, demonstrating their remarkable advancements and wide-ranging applications. Our paper contributes to providing a holistic perspective on the technical foundations, practical applications, and emerging challenges within the evolving landscape of Generative AI and LLMs. We believe that understanding the generative capabilities of AI systems and the specific context of LLMs is crucial for researchers, practitioners, and policymakers to collaboratively shape the responsible and ethical integration of these technologies into various domains. Furthermore, we identify and address main research gaps, providing valuable insights to guide future research endeavors within the AI research community.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-23
# 宇宙空間における情報熱力学の普遍性と情報消去の効率

Universality of Information Thermodynamics and the Efficiency of Information Erasure on the Cosmological Apparent Horizon ( http://arxiv.org/abs/2407.15231v2 )

ライセンス: Link先を確認
Oem Trivedi, (参考訳) 膨張する宇宙における宇宙の見かけ上の地平線における情報損失は、情報力学のランダウアー原理と直接対応していることを示す。 このような場合、ランドーアー限界が満たされることを示し、宇宙の見かけ上の地平線における情報消去が可能な限り効率的に行われることを示唆する。 また、この結果が標準エントロピーの定式化の拡張に当てはまることを示す。 また、この結果がブラックホールにおける情報損失と、宇宙の見かけ上の地平線における情報損失の関係についても論じ、これを「宇宙情報パラドックス」と呼ぶ。 これは、情報力学と宇宙の地平線の拡大を直接的に対応させる最初の研究であり、この結果のいくつかの興味深い意味について論じる。

We show that the information loss at the cosmological apparent horizon in an expanding universe has a direct correspondence with the Landauer principle of information dynamics. We show that the Landauer limit is satisfied in this case, which implies that the information erasure at the cosmological apparent horizon happens in the most efficient way possible. We also show that our results hold for extensions of the standard entropy formulations. We also discuss about the connections this result provides between information loss at black holes and that at the cosmological apparent horizon, and we term the "Cosmological Information Paradox". This is the first work which directly provides a correspondence between information dynamics and expanding cosmic horizons, and we discuss several interesting implications of this result.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-23
# メモリ効率の良いカメラ再ローカライズのための微分可能な製品量子化

Differentiable Product Quantization for Memory Efficient Camera Relocalization ( http://arxiv.org/abs/2407.15540v2 )

ライセンス: Link先を確認
Zakaria Laskar, Iaroslav Melekhov, Assia Benbihi, Shuzhe Wang, Juho Kannala, (参考訳) カメラの再ローカライゼーションはシーンの3Dモデルに依存しており、メモリフットプリントが大きく、複数のアプリケーションのメモリ予算と互換性がない。 シーンメモリサイズを減らす解決策の1つは、特定の3Dポイントとディスクリプタ量子化を取り除くことで、マップ圧縮である。 これは高い圧縮を実現するが、情報損失による性能低下につながる。 メモリ性能のトレードオフに対処するため、バックプロパゲーションにより製品量子化セントロイドとネットワークパラメータの両方を更新するエンド・ツー・エンドの微分可能な方法でディスクリプタ量子化復号を行う軽量シーン固有オートエンコーダネットワークを訓練する。 ディスクリプタ再構築のためのネットワークの最適化に加えて,マージンに基づく距離損失関数を用いた記述子マッチング性能の維持を推奨する。 その結果,1MBのローカルディスクリプタメモリの場合,提案するネットワークとマップ圧縮の相乗的組み合わせは,既存の圧縮方式と比較して,Aachen Day-Night上で最高の性能が得られることがわかった。

Camera relocalization relies on 3D models of the scene with a large memory footprint that is incompatible with the memory budget of several applications. One solution to reduce the scene memory size is map compression by removing certain 3D points and descriptor quantization. This achieves high compression but leads to performance drop due to information loss. To address the memory performance trade-off, we train a light-weight scene-specific auto-encoder network that performs descriptor quantization-dequantization in an end-to-end differentiable manner updating both product quantization centroids and network parameters through back-propagation. In addition to optimizing the network for descriptor reconstruction, we encourage it to preserve the descriptor-matching performance with margin-based metric loss functions. Results show that for a local descriptor memory of only 1MB, the synergistic combination of the proposed network and map compression achieves the best performance on the Aachen Day-Night compared to existing compression methods.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-23
# SAM2CLIP2SAM:Covid-19検出のための3次元CTスキャンのセグメンテーションのための視覚言語モデル

SAM2CLIP2SAM: Vision Language Model for Segmentation of 3D CT Scans for Covid-19 Detection ( http://arxiv.org/abs/2407.15728v2 )

ライセンス: Link先を確認
Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias, (参考訳) 本稿では,任意のモデルや手法に組み込むことのできる画像の効果的セグメンテーションのための新しいアプローチを提案する。 私たちのアプローチには、CTスキャンをセグメント化する視覚言語モデルの組み合わせが含まれています。 特に、SAM2CLIP2SAMと呼ばれる新しいフレームワークは、Segment Anything Model(SAM)とContrastive Language- Image Pre-Training(CLIP)の両方の長所を利用して、CTスキャンで左右の肺を正確にセグメンテーションし、これらのセグメンテーションされた出力をRACNetに供給して、COVID-19や非COVID-19の症例を分類する。 SAMは最初、CTスキャンの各スライスごとに複数の部分ベースのセグメンテーションマスクを生成し、CLIPは関心領域(ROI)、すなわち左右の肺に関連付けられたマスクのみを選択し、最後にSAMはこれらのROIをプロンプトとして与えられ、肺の最終セグメンテーションマスクを生成する。 提案手法をCTスキャンのセグメンテーションに用いた場合の性能向上を示す2つのCovid-19アノテートデータベースに対して実験を行った。

This paper presents a new approach for effective segmentation of images that can be integrated into any model and methodology; the paradigm that we choose is classification of medical images (3-D chest CT scans) for Covid-19 detection. Our approach includes a combination of vision-language models that segment the CT scans, which are then fed to a deep neural architecture, named RACNet, for Covid-19 detection. In particular, a novel framework, named SAM2CLIP2SAM, is introduced for segmentation that leverages the strengths of both Segment Anything Model (SAM) and Contrastive Language-Image Pre-Training (CLIP) to accurately segment the right and left lungs in CT scans, subsequently feeding these segmented outputs into RACNet for classification of COVID-19 and non-COVID-19 cases. At first, SAM produces multiple part-based segmentation masks for each slice in the CT scan; then CLIP selects only the masks that are associated with the regions of interest (ROIs), i.e., the right and left lungs; finally SAM is given these ROIs as prompts and generates the final segmentation mask for the lungs. Experiments are presented across two Covid-19 annotated databases which illustrate the improved performance obtained when our method has been used for segmentation of the CT scans.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-23
# ロバストな顔反応生成: モダリティ補償を伴う感情認識フレームワーク

Robust Facial Reactions Generation: An Emotion-Aware Framework with Modality Compensation ( http://arxiv.org/abs/2407.15798v2 )

ライセンス: Link先を確認
Guanyu Hu, Jie Wei, Siyang Song, Dimitrios Kollias, Xinyu Yang, Zhonglin Sun, Odysseus Kaloidas, (参考訳) マルチ適切な顔反応生成(MAFRG)タスクの目的は、会話相手(話者)のマルチモーダル行動データに基づいて、文脈的に適切で多様な顔行動応答を生成することである。 現在の手法では、通常、音声と顔のモダリティデータの連続的な可用性を前提としており、これらのデータが断続的に利用できない現実のシナリオを無視し、しばしばモデル障害を引き起こす。 さらに、高度なディープラーニングモデルを用いて話者のマルチモーダル入力から情報を抽出するにも拘わらず、これらのモデルは、人間の聞き手から適切な表情反応を引き出すのに不可欠である、話者の感情的文脈を適切に活用することができない。 これらの制約に対処するため,感情対応型モダリティ補償(EMC)フレームワークを提案する。 この汎用的なソリューションは、既存のモデルにシームレスに統合することができ、利点を保ちながら、モダリティの欠如のあるシナリオのパフォーマンスと堅牢性を大幅に向上させることができる。 我々のフレームワークは、補償モダリティアライメント(CMA)モジュールを介して、欠落したモダリティデータに直面するときのレジリエンスを保証する。 また、Emotion-Aware Attention (EA)モジュールを通じて、より適切な感情認識反応を生成する。 実験結果から,本フレームワークは,従来のモデル構造と比較して,平均57.2倍の精度でFRCorrの適合性を向上させることが示された。 音声モダリティデータが欠落しているシナリオでは、適切な生成のパフォーマンスが向上し、顔データが欠落している場合には、最小限の劣化しか示さない。

The objective of the Multiple Appropriate Facial Reaction Generation (MAFRG) task is to produce contextually appropriate and diverse listener facial behavioural responses based on the multimodal behavioural data of the conversational partner (i.e., the speaker). Current methodologies typically assume continuous availability of speech and facial modality data, neglecting real-world scenarios where these data may be intermittently unavailable, which often results in model failures. Furthermore, despite utilising advanced deep learning models to extract information from the speaker's multimodal inputs, these models fail to adequately leverage the speaker's emotional context, which is vital for eliciting appropriate facial reactions from human listeners. To address these limitations, we propose an Emotion-aware Modality Compensatory (EMC) framework. This versatile solution can be seamlessly integrated into existing models, thereby preserving their advantages while significantly enhancing performance and robustness in scenarios with missing modalities. Our framework ensures resilience when faced with missing modality data through the Compensatory Modality Alignment (CMA) module. It also generates more appropriate emotion-aware reactions via the Emotion-aware Attention (EA) module, which incorporates the speaker's emotional information throughout the entire encoding and decoding process. Experimental results demonstrate that our framework improves the appropriateness metric FRCorr by an average of 57.2\% compared to the original model structure. In scenarios where speech modality data is missing, the performance of appropriate generation shows an improvement, and when facial data is missing, it only exhibits minimal degradation.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-23
# 教師なし磁気共鳴画像復調のためのアンバイアス型リスク推定器の適応的拡張

Adaptive Extensions of Unbiased Risk Estimators for Unsupervised Magnetic Resonance Image Denoising ( http://arxiv.org/abs/2407.15799v2 )

ライセンス: Link先を確認
Reeshad Khan, Dr. John Gauch, Dr. Ukash Nakarmi, (参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)のイメージデノナイジングへの応用は、特に医療画像で発生する複雑なノイズシナリオにおいて、従来のデノナイジング手法に特に挑戦している。 従来のDNN法やいくつかのDNN法の有効性にもかかわらず、高品質でノイズのない地上の真理画像に依存しているため、実用性は制限される。 これに対応して、我々は、医学画像フレームワークにおける革新的な教師なし学習戦略、特にStein's Unbiased Risk Estimator(SURE)、その拡張(eSURE)、および新しい実装であるExtended Poisson Unbiased Risk Estimator(ePURE)を紹介し、ベンチマークを行った。 本稿では,医療画像の典型的なシナリオであるガウスノイズとポアソンノイズが伴うMRIデータに対して,これらの手法を総合的に評価する。 我々の主な貢献は、SURE、eSURE、特に医療画像のためのePUREフレームワークの効果的適応と実装であり、従来のノイズのない地上真実が得られない環境において、その堅牢性と有効性を示している。

The application of Deep Neural Networks (DNNs) to image denoising has notably challenged traditional denoising methods, particularly within complex noise scenarios prevalent in medical imaging. Despite the effectiveness of traditional and some DNN-based methods, their reliance on high-quality, noiseless ground truth images limits their practical utility. In response to this, our work introduces and benchmarks innovative unsupervised learning strategies, notably Stein's Unbiased Risk Estimator (SURE), its extension (eSURE), and our novel implementation, the Extended Poisson Unbiased Risk Estimator (ePURE), within medical imaging frameworks. This paper presents a comprehensive evaluation of these methods on MRI data afflicted with Gaussian and Poisson noise types, a scenario typical in medical imaging but challenging for most denoising algorithms. Our main contribution lies in the effective adaptation and implementation of the SURE, eSURE, and particularly the ePURE frameworks for medical images, showcasing their robustness and efficacy in environments where traditional noiseless ground truth cannot be obtained.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 学習時の確率的重み行列ダイナミクスとダイソンブラウン運動

Stochastic weight matrix dynamics during learning and Dyson Brownian motion ( http://arxiv.org/abs/2407.16427v1 )

ライセンス: Link先を確認
Gert Aarts, Biagio Lucini, Chanju Park, (参考訳) 学習アルゴリズムにおける重み行列の更新は、ダイソン・ブラウン運動の枠組みで記述できることを示し、ランダム行列理論の多くの特徴を継承する。 我々は,確率性のレベルを学習率とミニバッチサイズの比率に関連付け,従来予想されていたスケーリング関係に対してより堅牢な証拠を提供する。 結果のクーロンガス分布における普遍的および非普遍的特徴について議論し、教師-学生モデルおよびガウス制限ボルツマンマシンの(ほぼ)解決可能な場合において、ウィグナー半円とウィグナー半円を明示的に同定する。

We demonstrate that the update of weight matrices in learning algorithms can be described in the framework of Dyson Brownian motion, thereby inheriting many features of random matrix theory. We relate the level of stochasticity to the ratio of the learning rate and the mini-batch size, providing more robust evidence to a previously conjectured scaling relationship. We discuss universal and non-universal features in the resulting Coulomb gas distribution and identify the Wigner surmise and Wigner semicircle explicitly in a teacher-student model and in the (near-)solvable case of the Gaussian restricted Boltzmann machine.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 1次元対称射影対角状態

1-Form Symmetric Projected Entangled-Pair States ( http://arxiv.org/abs/2407.16531v1 )

ライセンス: Link先を確認
Yi Tan, Ji-Yao Chen, Didier Poilblanc, Fei Ye, Jia-Wei Mei, (参考訳) ループ様対称性として表される1-形式対称性は、量子相の研究で顕著となり、対称性の理解を深めている。 しかし、二次元テンソルネットワーク状態である射影エンタングルドペア状態(PEPS)における1形式対称性の役割は、いまだほとんど解明されていない。 具体的には,PEPS仮想脚上の対称性行列の代数的関係の導出に着目し,テンソルネットワーク内の1-形式対称性を理解するための新しい枠組みを提案する。 以上の結果から, 1-形式対称性はテンソルネットワーク表現に厳密な制約を課し, 対称性行列が持つ異常なブレイディング位相を導出した。 これらの対称性がPEPSの基底状態と接空間にどのように影響するかを実証し、基底状態最適化の効率を高め、励起状態における1-形式対称性構造を特徴づけるために、それらの物理的意味について新たな知見を提供する。

The 1-form symmetry, manifesting as loop-like symmetries, has gained prominence in the study of quantum phases, deepening our understanding of symmetry. However, the role of 1-form symmetries in Projected Entangled-Pair States (PEPS), two-dimensional tensor network states, remains largely underexplored. We present a novel framework for understanding 1-form symmetries within tensor networks, specifically focusing on the derivation of algebraic relations for symmetry matrices on the PEPS virtual legs. Our results reveal that 1-form symmetries impose stringent constraints on tensor network representations, leading to distinct anomalous braiding phases carried by symmetry matrices. We demonstrate how these symmetries influence the ground state and tangent space in PEPS, providing new insights into their physical implications for enhancing ground state optimization efficiency and characterizing the 1-form symmetry structure in excited states.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 会話におけるマルチモーダル感情認識のための繰り返しアライメントを用いたマスクグラフ学習

Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation ( http://arxiv.org/abs/2407.16714v1 )

ライセンス: Link先を確認
Tao Meng, Fuchen Zhang, Yuntao Shou, Hongen Shao, Wei Ai, Keqin Li, (参考訳) 対話におけるマルチモーダル感情認識(MERC)は,世論監視や対話ロボットなどの分野に応用できるため,近年広く研究されている。 従来の単調な感情認識とは異なり、MERCは複数のモーダル(例えば、テキスト、音声、視覚)間で相補的な意味情報を融合して、感情認識を改善することができる。 しかし,従来の研究は,マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していたが,直接多モーダル特徴を融合させるため,表現学習のモデルが妨げられる。 本研究では,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,メモリの繰り返し反復モジュールを用いてマルチモーダルな特徴の整列を行い,マスク付きGCNを用いてマルチモーダルな特徴の融合を行う。 まず、LSTMを用いて文脈情報をキャプチャし、グラフアテンションフィルタリング機構を用いて、モーダル内のノイズを効果的に除去する。 第2に、メモリ機能を備えた繰り返し反復モジュールを構築し、異なるモダリティ間の通信を利用して、モダリティ間のギャップをなくし、モダリティ間の特徴の予備的なアライメントを実現する。 次に、モーダル間の特徴アライメントを実現し、マルチモーダル特徴融合のためのマスク付きGCNを構築するために、クロスモーダルマルチヘッドアテンション機構を導入し、グラフ内のノードにランダムなマスク再構成を行い、より良いノード特徴表現を得る。 最後に、感情認識に多層パーセプトロン(MLP)を用いる。 2つのベンチマークデータセット(IEMOCAPとMELD)に対する大規模な実験は、 {MGLRA} が最先端の手法より優れていることを示した。

Since Multimodal Emotion Recognition in Conversation (MERC) can be applied to public opinion monitoring, intelligent dialogue robots, and other fields, it has received extensive research attention in recent years. Unlike traditional unimodal emotion recognition, MERC can fuse complementary semantic information between multiple modalities (e.g., text, audio, and vision) to improve emotion recognition. However, previous work ignored the inter-modal alignment process and the intra-modal noise information before multimodal fusion but directly fuses multimodal features, which will hinder the model for representation learning. In this study, we have developed a novel approach called Masked Graph Learning with Recursive Alignment (MGLRA) to tackle this problem, which uses a recurrent iterative module with memory to align multimodal features, and then uses the masked GCN for multimodal feature fusion. First, we employ LSTM to capture contextual information and use a graph attention-filtering mechanism to eliminate noise effectively within the modality. Second, we build a recurrent iteration module with a memory function, which can use communication between different modalities to eliminate the gap between modalities and achieve the preliminary alignment of features between modalities. Then, a cross-modal multi-head attention mechanism is introduced to achieve feature alignment between modalities and construct a masked GCN for multimodal feature fusion, which can perform random mask reconstruction on the nodes in the graph to obtain better node feature representation. Finally, we utilize a multilayer perceptron (MLP) for emotion recognition. Extensive experiments on two benchmark datasets (i.e., IEMOCAP and MELD) demonstrate that {MGLRA} outperforms state-of-the-art methods.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 知識グラフ埋め込みとディープラーニングを組み合わせた逆薬物反応予測モデルに関する研究

Research on Adverse Drug Reaction Prediction Model Combining Knowledge Graph Embedding and Deep Learning ( http://arxiv.org/abs/2407.16715v1 )

ライセンス: Link先を確認
Yufeng Li, Wenchao Zhao, Bo Dang, Xu Yan, Weimin Wang, Min Gao, Mingxuan Xiao, (参考訳) 臨床治療において、薬物の潜在的な副作用を特定することは、医師が薬物決定を行うのを助けるのに役立つ。 本研究は, 薬物の有害反応ごとに独立予測モデルを構築し, 予測精度が低く, 知識グラフの埋め込みと深層学習に基づく有害薬物反応予測モデルを構築し, 実験結果の予測を行う。 有害薬物反応の統一予測が適用された。 知識グラフ埋め込み技術は、薬物間の関連情報を融合し、特徴行列における高次元空間の欠点を軽減することができ、ディープラーニングの効率的なトレーニング能力はモデルの予測精度を向上させることができる。 本稿では, 薬物特徴データに基づく有害薬物反応知識グラフを構築し, 異なる埋め込み戦略下での知識グラフの埋め込み効果を解析することにより, 最良の埋め込み戦略を選択し, サンプルベクターを得る。 その結果、DistMult埋め込みモデルと400次元埋め込み戦略の下では、畳み込みニューラルネットワークモデルが最も優れた予測効果を有することが明らかとなった。 得られた予測モデルは、予測精度と安定性が良好であり、後続の安全な薬剤指導のための効果的な基準を提供することができる。

In clinical treatment, identifying potential adverse reactions of drugs can help assist doctors in making medication decisions. In response to the problems in previous studies that features are high-dimensional and sparse, independent prediction models need to be constructed for each adverse reaction of drugs, and the prediction accuracy is low, this paper develops an adverse drug reaction prediction model based on knowledge graph embedding and deep learning, which can predict experimental results. Unified prediction of adverse drug reactions covered. Knowledge graph embedding technology can fuse the associated information between drugs and alleviate the shortcomings of high-dimensional sparsity in feature matrices, and the efficient training capabilities of deep learning can improve the prediction accuracy of the model. This article builds an adverse drug reaction knowledge graph based on drug feature data; by analyzing the embedding effect of the knowledge graph under different embedding strategies, the best embedding strategy is selected to obtain sample vectors; and then a convolutional neural network model is constructed to predict adverse reactions. The results show that under the DistMult embedding model and 400-dimensional embedding strategy, the convolutional neural network model has the best prediction effect; the average accuracy, F_1 score, recall rate and area under the curve of repeated experiments are better than the methods reported in the literature. The obtained prediction model has good prediction accuracy and stability, and can provide an effective reference for later safe medication guidance.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 神経科学にインスパイアされたニューラルバーデン(動画)

Exploring The Neural Burden In Pruned Models: An Insight Inspired By Neuroscience ( http://arxiv.org/abs/2407.16716v1 )

ライセンス: Link先を確認
Zeyu Wang, Weichen Dai, Xiangyu Zhou, Ji Qi, Yi Zhou, (参考訳) Vision Transformerとその変種は多くの視覚的タスクで採用されている。 その結果、近年、研究者は様々な圧縮手法を導入しており、そのうちの1つは、ネットワークのかなりの部分を取り除くために広く使われているプルーニング技術である。 したがって、これらの手法はFLOPのかなりの割合を削減できるが、しばしばモデル性能の低下につながる。 根本原因を解明するために, 刈り込み訓練カテゴリーに属する刈り込み手法に着目し, 神経科学のインスピレーションを得て, ニューラルバーデンと呼ばれるニューラルニューラルネットワークモデルの新しい概念を提案する。 モデル刈り込みプロセスにおけるその影響について検討し、その後、モデル性能の低下を緩和するための単純かつ効果的なアプローチを探索し、任意の刈り取り訓練技術に適用することができる。 広汎な実験により,神経負担現象が実際に存在し,本手法の可能性を示唆した。 私たちの発見が将来の研究に貴重な洞察を与えてくれることを願っています。 この論文が公開された後、コードは公開されます。

Vision Transformer and its variants have been adopted in many visual tasks due to their powerful capabilities, which also bring significant challenges in computation and storage. Consequently, researchers have introduced various compression methods in recent years, among which the pruning techniques are widely used to remove a significant fraction of the network. Therefore, these methods can reduce significant percent of the FLOPs, but often lead to a decrease in model performance. To investigate the underlying causes, we focus on the pruning methods specifically belonging to the pruning-during-training category, then drew inspiration from neuroscience and propose a new concept for artificial neural network models named Neural Burden. We investigate its impact in the model pruning process, and subsequently explore a simple yet effective approach to mitigate the decline in model performance, which can be applied to any pruning-during-training technique. Extensive experiments indicate that the neural burden phenomenon indeed exists, and show the potential of our method. We hope that our findings can provide valuable insights for future research. Code will be made publicly available after this paper is published.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# デジタルアイデンティティとアイデンティティ管理システムに関連する攻撃の分類学的改善に向けて

Towards an Improved Taxonomy of Attacks related to Digital Identities and Identity Management Systems ( http://arxiv.org/abs/2407.16718v1 )

ライセンス: Link先を確認
Daniela Pöhn, Wolfgang Hommel, (参考訳) クラウド技術の採用、アウトソーシング、在宅勤務の可能性によるデジタルトランスフォーメーションは、組織や人に対する柔軟性を可能にします。 同時に、ITチームがどのデバイスからいつ、どのデータにアクセスしているかを追跡する必要があるため、ITインフラストラクチャの確保がより困難になる。 これらの変更により、セキュリティの重要な要素としてのアイデンティティ管理がより重要になる。 アイデンティティ管理は、コンピュータネットワーク内のユーザ(人間、デバイス)の識別、認証、認証のための技術とポリシーに関連する。 アイデンティティ管理の多様性(モデル、プロトコル、実装など)のため、さまざまな要件、問題、攻撃ベクトルを考慮する必要がある。 アイデンティティによるID管理システムの確保には,体系的なアプローチが必要である。 本稿では,攻撃(TaxIdMA)に関連するアイデンティティ管理のための分類学の改善フレームワークを提案する。 TaxIdMAの目的は、システムアイデンティティ、ID管理システム、エンドユーザアイデンティティに関連する既存の攻撃、攻撃ベクトル、脆弱性を分類することである。 さらに、これらの攻撃の背景は構造化され体系的な方法で説明できる。 分類学はモノのインターネットと自己主権のアイデンティティに適用される。 脅威情報共有のための記述言語によって強化されている。 最後に、TaxIdMAは専門家のインタビュー、統計、議論に基づいて評価・改善されている。 このステップは、より広範な適用性と詳細レベルを同時に実現します。 TaxIdMAの組み合わせは、攻撃の概要を構造化し、異なるシナリオに適用することが可能であり、脅威情報のための記述言語は、セキュリティアイデンティティ管理システムとプロセスを改善するのに役立つ。

Digital transformation with the adoption of cloud technologies, outsourcing, and working-from-home possibilities permits flexibility for organizations and persons. At the same time, it makes it more difficult to secure the IT infrastructure as the IT team needs to keep track of who is accessing what data from where and when on which device. With these changes, identity management as a key element of security becomes more important. Identity management relates to the technologies and policies for the identification, authentication, and authorization of users (humans, devices) in computer networks. Due to the diversity of identity management (i.e., models, protocols, and implementations), different requirements, problems, and attack vectors need to be taken into account. In order to secure identity management systems with their identities, a systematic approach is required. In this article, we propose the improved framework Taxonomy for Identity Management related to Attacks (TaxIdMA). The purpose of TaxIdMA is to classify existing attacks, attack vectors, and vulnerabilities associated with system identities, identity management systems, and end-user identities. In addition, the background of these attacks can be described in a structured and systematic way. The taxonomy is applied to the Internet of Things and self-sovereign identities. It is enhanced by a description language for threat intelligence sharing. Last but not least, TaxIdMA is evaluated and improved based on expert interviews, statistics, and discussions. This step enables broader applicability and level of detail at the same time. The combination of TaxIdMA, which allows a structured way to outline attacks and is applicable to different scenarios, and a description language for threat intelligence help to improve the security identity management systems and processes.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 英国のバイオバンクデータを用いた心血管疾患同定のための機械学習モデル

Machine Learning Models for the Identification of Cardiovascular Diseases Using UK Biobank Data ( http://arxiv.org/abs/2407.16721v1 )

ライセンス: Link先を確認
Sheikh Mohammed Shariful Islam, Moloud Abrar, Teketo Tegegne, Liliana Loranjo, Chandan Karmakar, Md Abdul Awal, Md. Shahadat Hossain, Muhammad Ashad Kabir, Mufti Mahmud, Abbas Khosravi, George Siopis, Jeban C Moses, Ralph Maddison, (参考訳) 機械学習モデルは、一次医療環境において、早期かつ正確に心臓血管疾患(CVD)を識別する可能性がある。 人口ベースのCVDリスクモデルは伝統的に用いられてきたが、これらのモデルは生活様式、社会経済条件、遺伝的前処理のバリエーションを考慮しないことが多い。 そこで我々は,一次医療データを用いたCVD検出のための機械学習モデルを開発し,異なるモデルの性能を比較し,最適なモデルを特定することを目的とした。 この調査では、英国の主要医療センターから50万人以上の中年参加者が参加しました。 本研究は,ベースライン(2006-2010)および2014年以降のイメージング訪問中に収集したデータを用いて行った。 性別、年齢、タウンゼンド解放指数などの基準的特徴が含まれていた。 参加者は、心臓発作、狭心症、脳卒中、高血圧の少なくとも1つを報告した場合、CVDと分類された。 左室サイズ,機能,心出力,脳卒中容積など,心電図や心エコー図などの心画像データも用いた。 私たちは9つの機械学習モデル(LSVM、RBFSVM、GP、DT、RF、NN、AdaBoost、NB、QDA)を使用しました。 精度,精度,リコール,F-1スコア,混乱行列,曲線下面積を報告した。

Machine learning models have the potential to identify cardiovascular diseases (CVDs) early and accurately in primary healthcare settings, which is crucial for delivering timely treatment and management. Although population-based CVD risk models have been used traditionally, these models often do not consider variations in lifestyles, socioeconomic conditions, or genetic predispositions. Therefore, we aimed to develop machine learning models for CVD detection using primary healthcare data, compare the performance of different models, and identify the best models. We used data from the UK Biobank study, which included over 500,000 middle-aged participants from different primary healthcare centers in the UK. Data collected at baseline (2006--2010) and during imaging visits after 2014 were used in this study. Baseline characteristics, including sex, age, and the Townsend Deprivation Index, were included. Participants were classified as having CVD if they reported at least one of the following conditions: heart attack, angina, stroke, or high blood pressure. Cardiac imaging data such as electrocardiogram and echocardiography data, including left ventricular size and function, cardiac output, and stroke volume, were also used. We used 9 machine learning models (LSVM, RBFSVM, GP, DT, RF, NN, AdaBoost, NB, and QDA), which are explainable and easily interpretable. We reported the accuracy, precision, recall, and F-1 scores; confusion matrices; and area under the curve (AUC) curves.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-23
# 構造破壊に直面したガス価格の時間間予測-統計的モデルとニューラルネットワーク

Interval Forecasts for Gas Prices in the Face of Structural Breaks -- Statistical Models vs. Neural Networks ( http://arxiv.org/abs/2407.16723v1 )

ライセンス: Link先を確認
Stephan Schlüter, Sven Pappert, Martin Neumann, (参考訳) ガス価格予測は、ガストレーダーやリスクマネージャ、経済学者にとって重要な情報である。 しかし、ウクライナでの戦争に先立ち、北ストリーム1爆発の余波で決定的なガス価格が大幅に上昇し、揮発性ガス価格に苦しむようになった。 このショックは価格の傾向とボラティリティ構造を変え、予測モデルにかなりの影響を及ぼした。 本研究では、ニューラルネットワークのような現代の機械学習手法が、条件付きヘテロスケダスティック性を持つ自己回帰移動平均(ARMA)モデルやコプラに基づく時系列モデルのような統計モデルよりも、そのような変化に対してより耐性があるかどうかを検討する。 これにより、間隔予測と各評価基準の適用に焦点が当てられる。 データとして、現在ヨーロッパの主要な取引所であるオランダ・タイトル・トランスファー・ファシリティ(英語版)の月前価格が用いられる。 衝撃期においては、ほとんどのモデルでは、余震期における分散を過大評価しながら、分散を過小評価している。 さらに、ショックの間、より単純なモデル、すなわち条件付きヘテロスケダスティック性を持つARMAモデルと多層パーセプトロン(ニューラルネットワーク)が、予測間隔のカバレッジに関して最善を尽くすことを認識した。 興味深いことに、広く使われている長短のニューラルネットワークは、競合他社よりも優れています。

Reliable gas price forecasts are an essential information for gas and energy traders, for risk managers and also economists. However, ahead of the war in Ukraine Europe began to suffer from substantially increased and volatile gas prices which culminated in the aftermath of the North Stream 1 explosion. This shock changed both trend and volatility structure of the prices and has considerable effects on forecasting models. In this study we investigate whether modern machine learning methods such as neural networks are more resilient against such changes than statistical models such as autoregressive moving average (ARMA) models with conditional heteroskedasticity, or copula-based time series models. Thereby the focus lies on interval forecasting and applying respective evaluation measures. As data, the Front Month prices from the Dutch Title Transfer Facility, currently the predominant European exchange, are used. We see that, during the shock period, most models underestimate the variance while overestimating the variance in the after-shock period. Furthermore, we recognize that, during the shock, the simpler models, i.e. an ARMA model with conditional heteroskedasticity and the multilayer perceptron (a neural network), perform best with regards to prediction interval coverage. Interestingly, the widely-used long-short term neural network is outperformed by its competitors.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 人間の学生のようにLLMを教育する:ドメイン知識の構造を意識した注入

Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge ( http://arxiv.org/abs/2407.16724v1 )

ライセンス: Link先を確認
Kai Liu, Ze Chen, Zhihang Fu, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye, (参考訳) 本稿では,基礎言語モデル(LLM)をドメインスペシャリストに効率的に変換する手法であるStructTuningを提案する。 従来の知識注入性能の50パーセントを達成しながら、トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。 本手法は,人学生の学習過程,特に教科書からの構造化ドメイン知識が吸収され,特定の演習を通じて現実の課題に取り組むために応用される方法に着想を得たものである。 そこで本研究では,SCPT(Structure-aware Continual Pre-Training)とSSFT(Structure-aware Supervised Fine-Tuning)という2段階の知識注入戦略を提案する。 SCPTフェーズでは、学習データをドメイン知識の自動生成分類に整理し、LLMが分類体系内の特定の専門知識に関連するテキストセグメントを効果的に記憶できるようにする。 その後、SSFTフェーズにおいて、我々はモデルに対して、その出力の基盤となる知識構造を明らかにするよう促し、この構造的領域の洞察を活用して、実用的な問題に積極的に対処する。 我々の究極の手法は、LongBenchデータセットとMMedBenchデータセットのクローズドブック質問応答タスクを用いて、モデルアーキテクチャとスケールにわたって広範囲に評価されてきた。 本手法は,MMedBench上での最先端MMedLM2による改善の50%に適合するが,トレーニングコーパスの0.3%に留まる。 このブレークスルーは、より強力なドメイン固有のLLMのためにStructTuningをスケールアップする可能性を示している。 コードはまもなく公開されます。

This paper presents a pioneering methodology, termed StructTuning, to efficiently transform foundation Large Language Models (LLMs) into domain specialists. It significantly minimizes the training corpus requirement to a mere 0.3% while achieving an impressive 50% of traditional knowledge injection performance. Our method is inspired by the educational processes for human students, particularly how structured domain knowledge from textbooks is absorbed and then applied to tackle real-world challenges through specific exercises. Based on this, we propose a novel two-stage knowledge injection strategy: Structure-aware Continual Pre-Training (SCPT) and Structure-aware Supervised Fine-Tuning (SSFT). In the SCPT phase, we organize the training data into an auto-generated taxonomy of domain knowledge, enabling LLMs to effectively memorize textual segments linked to specific expertise within the taxonomy's architecture. Subsequently, in the SSFT phase, we explicitly prompt models to reveal the underlying knowledge structure in their outputs, leveraging this structured domain insight to address practical problems adeptly. Our ultimate method has undergone extensive evaluations across model architectures and scales, using closed-book question-answering tasks on LongBench and MMedBench datasets. Remarkably, our method matches 50% of the improvement displayed by the state-of-the-art MMedLM2 on MMedBench, but with only 0.3% quantity of the training corpus. This breakthrough showcases the potential to scale up our StructTuning for stronger domain-specific LLMs. Code will be made public soon.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 階層的文脈記述によるカテゴリー拡張型アウト・オブ・ディストリビューション検出

Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions ( http://arxiv.org/abs/2407.16725v1 )

ライセンス: Link先を確認
Kai Liu, Zhihang Fu, Chao Chen, Sheng Jin, Ze Chen, Mingyuan Tao, Rongxin Jiang, Jieping Ye, (参考訳) OOD検出の鍵となるのは、一般化された特徴表現と正確なカテゴリ記述の2つの側面である。 近年,CLIPのような視覚言語モデルが両問題に大きく進展しているが,未確認のカテゴリが存在しないため,正確なカテゴリ記述の構築はまだ初期段階にある。 この研究は、2つの階層的コンテキスト、すなわち知覚的コンテキストと刺激的コンテキストを導入し、自動的なプロンプトチューニングによって正確なカテゴリ境界を注意深く記述する。 特に、知覚的文脈は、現在の分類作業におけるカテゴリー間差異(例えば、猫とリンゴ)を知覚する一方で、刺激的な文脈は、すべてのカテゴリ(例えば、猫対パンサー、リンゴ対桃)の刺激的なOODサンプルをさらに識別する。 2つの文脈は、あるカテゴリの正確な記述を階層的に構築するが、これは、まず、標本を予測されたカテゴリに大まかに分類し、それが真のIDサンプルであるか、それとも実際にOODであるかを微妙に識別する。 さらに、視覚言語フレームワーク内のこれらのカテゴリの正確な記述には、CATegory-Extensible OOD Detection (CATEX)という新しい応用法が提示されている。 異なるサブタスク設定下で学習した階層的コンテキストをマージするだけで、認識可能なカテゴリの集合を効率的に拡張することができる。 そして、CATEXの有効性、堅牢性、およびカテゴリ拡張性を実証するための広範な実験を行った。 例えば、CATEXは、挑戦的なImageNet-1Kデータセットに関するいくつかのプロトコルで、ライバルをはるかに上回っている。 さらに、視覚言語モデルの迅速なエンジニアリングを効率的にスケールアップし、数千のオブジェクトカテゴリを認識する方法や、ゼロショットアプリケーションを強化するために大規模な言語モデル(GPT-3など)を組み込む方法について、新たな洞察を提供する。 コードはまもなく公開されます。

The key to OOD detection has two aspects: generalized feature representation and precise category description. Recently, vision-language models such as CLIP provide significant advances in both two issues, but constructing precise category descriptions is still in its infancy due to the absence of unseen categories. This work introduces two hierarchical contexts, namely perceptual context and spurious context, to carefully describe the precise category boundary through automatic prompt tuning. Specifically, perceptual contexts perceive the inter-category difference (e.g., cats vs apples) for current classification tasks, while spurious contexts further identify spurious (similar but exactly not) OOD samples for every single category (e.g., cats vs panthers, apples vs peaches). The two contexts hierarchically construct the precise description for a certain category, which is, first roughly classifying a sample to the predicted category and then delicately identifying whether it is truly an ID sample or actually OOD. Moreover, the precise descriptions for those categories within the vision-language framework present a novel application: CATegory-EXtensible OOD detection (CATEX). One can efficiently extend the set of recognizable categories by simply merging the hierarchical contexts learned under different sub-task settings. And extensive experiments are conducted to demonstrate CATEX's effectiveness, robustness, and category-extensibility. For instance, CATEX consistently surpasses the rivals by a large margin with several protocols on the challenging ImageNet-1K dataset. In addition, we offer new insights on how to efficiently scale up the prompt engineering in vision-language models to recognize thousands of object categories, as well as how to incorporate large language models (like GPT-3) to boost zero-shot applications. Code will be made public soon.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 意味的ドリフトの緩和によるグラフコントラスト学習のトポロジー

Topology Reorganized Graph Contrastive Learning with Mitigating Semantic Drift ( http://arxiv.org/abs/2407.16726v1 )

ライセンス: Link先を確認
Jiaqiang Zhang, Songcan Chen, (参考訳) グラフコントラスト学習(GCL)は、グラフにおけるノード表現学習に有効なパラダイムである。 GCLの背後に隠された重要なコンポーネントは、データ拡張と正負のペア選択である。 エッジの均一な削除など、GCLの典型的なデータ拡張は、一般的に盲目であり、局所的な摂動に頼っている。 さらに、拡張データを他のクラスにトラバースさせるリスクもある。 さらに、ほとんどのメソッドは、常に他のすべてのサンプルを負として扱う。 このような負のペアリングは自然にサンプリングバイアスをもたらし、同様に学習された表現が意味的ドリフトに悩まされる可能性がある。 したがって、対照的な視点の多様性を高めるために、現在のGCLを補うための2つの単純かつ効果的なグローバルトポロジ的拡張を提案する。 1つは、特徴空間内のノード間の意味的相関を掘り下げることである。 もう一つは、隣接行列の代数的性質を利用して、固有分解によって位相を特徴づけることである。 両方の助けを借りて、より良いビューを構築するために重要なエッジを維持することができます。 セマンティックドリフトのリスクを低減するため、偽陰性サンプルをフィルタリングできるプロトタイプベースの負対選択がさらに設計されている。 様々なタスクに関する大規模な実験は、最先端の手法と比較してモデルの利点を実証している。

Graph contrastive learning (GCL) is an effective paradigm for node representation learning in graphs. The key components hidden behind GCL are data augmentation and positive-negative pair selection. Typical data augmentations in GCL, such as uniform deletion of edges, are generally blind and resort to local perturbation, which is prone to producing under-diversity views. Additionally, there is a risk of making the augmented data traverse to other classes. Moreover, most methods always treat all other samples as negatives. Such a negative pairing naturally results in sampling bias and likewise may make the learned representation suffer from semantic drift. Therefore, to increase the diversity of the contrastive view, we propose two simple and effective global topological augmentations to compensate current GCL. One is to mine the semantic correlation between nodes in the feature space. The other is to utilize the algebraic properties of the adjacency matrix to characterize the topology by eigen-decomposition. With the help of both, we can retain important edges to build a better view. To reduce the risk of semantic drift, a prototype-based negative pair selection is further designed which can filter false negative samples. Extensive experiments on various tasks demonstrate the advantages of the model compared to the state-of-the-art methods.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 教師なし・教師なし・半教師付き学習パラダイムにおける動物行動セグメンテーションアルゴリズムの研究

A study of animal action segmentation algorithms across supervised, unsupervised, and semi-supervised learning paradigms ( http://arxiv.org/abs/2407.16727v1 )

ライセンス: Link先を確認
Ari Blau, Evan S Schaffer, Neeli Mishra, Nathaniel J Miska, The International Brain Laboratory, Liam Paninski, Matthew R Whiteway, (参考訳) 行動ビデオのアクションセグメンテーションは、各フレームを1つ以上の個別のクラスに属するものとしてラベル付けするプロセスであり、動物行動を研究する多くの研究において重要な要素である。 教師なし、教師なし、半教師なしの学習パラダイムを含む、離散的な動物の行動を自動的に解析するための幅広いアルゴリズムが存在する。 木ベースのモデル、ディープニューラルネットワーク、グラフィカルモデルを含むこれらのアルゴリズムは、データの構造と仮定に大きく異なる。複数の種にまたがる4つのデータセット(フライ、マウス、ヒューマン)を使用して、これらのアルゴリズムのアウトプットが、手動で注釈付けされた関心の振る舞いとどのように一致しているかを体系的に研究する。 その過程で、教師付き深層ニューラルネットワークと教師なしグラフィカルモデルとのギャップを埋める半教師付きアクションセグメンテーションモデルを導入する。 観測結果に時間的情報を加えることで、全データセットにわたる教師付きメトリクスにおいて、完全に教師付き時間的畳み込みネットワークが最善を尽くすことがわかった。

Action segmentation of behavioral videos is the process of labeling each frame as belonging to one or more discrete classes, and is a crucial component of many studies that investigate animal behavior. A wide range of algorithms exist to automatically parse discrete animal behavior, encompassing supervised, unsupervised, and semi-supervised learning paradigms. These algorithms -- which include tree-based models, deep neural networks, and graphical models -- differ widely in their structure and assumptions on the data. Using four datasets spanning multiple species -- fly, mouse, and human -- we systematically study how the outputs of these various algorithms align with manually annotated behaviors of interest. Along the way, we introduce a semi-supervised action segmentation model that bridges the gap between supervised deep neural networks and unsupervised graphical models. We find that fully supervised temporal convolutional networks with the addition of temporal information in the observations perform the best on our supervised metrics across all datasets.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 凸最適化の分散差

Distributed Difference of Convex Optimization ( http://arxiv.org/abs/2407.16728v1 )

ライセンス: Link先を確認
Vivek Khatana, Murti V. Salapaka, (参考訳) 本稿では,2つの凸関数$f_i$と$g_i$(difference-of-convex (DC) 形式)の違いによって与えられる各エージェントにおいて,局所目的関数を持つ$n$エージェントを含む分散最適化問題のクラスに焦点をあてる。 エージェントは$n$ノードを含む有向グラフを介して通信する。 我々は関数の滑らかな近似を$f_i$と$g_i$で作成し、滑らかなサロゲートの勾配と有限時間近似コンセンサスプロトコルを利用した分散アルゴリズムを開発する。 このアルゴリズムをDDC-Consensusと呼ぶ。 開発されたDDC-Consensusアルゴリズムは非対称な有向グラフトポロジーを可能にし、分散的に合成することができる。 我々はDDC-Consensusアルゴリズムが非凸分散最適化問題の定常点に収束することを確立する。 DDC-Consensusアルゴリズムの性能は,非凸DC正規化分散最小二乗問題の解法としてシミュレーション研究により評価する。 計算結果は,提案アルゴリズムの有効性を裏付けるものである。

In this article, we focus on solving a class of distributed optimization problems involving $n$ agents with the local objective function at every agent $i$ given by the difference of two convex functions $f_i$ and $g_i$ (difference-of-convex (DC) form), where $f_i$ and $g_i$ are potentially nonsmooth. The agents communicate via a directed graph containing $n$ nodes. We create smooth approximations of the functions $f_i$ and $g_i$ and develop a distributed algorithm utilizing the gradients of the smooth surrogates and a finite-time approximate consensus protocol. We term this algorithm as DDC-Consensus. The developed DDC-Consensus algorithm allows for non-symmetric directed graph topologies and can be synthesized distributively. We establish that the DDC-Consensus algorithm converges to a stationary point of the nonconvex distributed optimization problem. The performance of the DDC-Consensus algorithm is evaluated via a simulation study to solve a nonconvex DC-regularized distributed least squares problem. The numerical results corroborate the efficacy of the proposed algorithm.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# PateGail: 模倣学習によるプライバシ保護型モビリティトラジェクタ

PateGail: A Privacy-Preserving Mobility Trajectory Generator with Imitation Learning ( http://arxiv.org/abs/2407.16729v1 )

ライセンス: Link先を確認
Huandong Wang, Changzheng Gao, Yuchen Wu, Depeng Jin, Lina Yao, Yong Li, (参考訳) 人間の移動軌道の生成は、多くのアプリケーションにおける大規模な軌道データの欠如を解決する上で非常に重要である。 しかし、既存の移動軌道生成手法では、実際の人間の軌道をトレーニングデータとして中心的に収集する必要がある。 この制限を克服するために、我々はPateGailを提案する。PateGailは、人間の意思決定過程をシミュレートする強力な生成逆模倣学習モデルを用いて、移動軌道を生成するプライバシー保護型模倣学習モデルである。 さらに、ユーザのプライバシを保護するために、ユーザデバイスに格納された分散モビリティデータに基づいて、このモデルを集合的にトレーニングする。 トレーニングプロセスでは, 個人識別器に基づいて生成したトラジェクトリと報酬のみをサーバとデバイス間で共有し, そのプライバシは, 差分プライバシーを満足する理論的証明を備えた摂動機構によってさらに保存される。 さらに,ヒトの意思決定プロセスをより良くモデル化するために,個人識別者から得られる報酬の新たな集約機構を提案する。 提案手法は,アグリゲーション機構に基づいて得られる報酬に基づいて,割引された利用者の報酬額の上限を最大化する。 大規模な実験により、我々のモデルによって生成された軌道は、5つの重要な統計指標で現実世界の軌道に似ており、最先端のアルゴリズムを48.03%以上上回る結果となった。 さらに, この合成軌道は, 移動予測や位置推薦など, 実用的な応用を効果的に支援できることを示す。

Generating human mobility trajectories is of great importance to solve the lack of large-scale trajectory data in numerous applications, which is caused by privacy concerns. However, existing mobility trajectory generation methods still require real-world human trajectories centrally collected as the training data, where there exists an inescapable risk of privacy leakage. To overcome this limitation, in this paper, we propose PateGail, a privacy-preserving imitation learning model to generate mobility trajectories, which utilizes the powerful generative adversary imitation learning model to simulate the decision-making process of humans. Further, in order to protect user privacy, we train this model collectively based on decentralized mobility data stored in user devices, where personal discriminators are trained locally to distinguish and reward the real and generated human trajectories. In the training process, only the generated trajectories and their rewards obtained based on personal discriminators are shared between the server and devices, whose privacy is further preserved by our proposed perturbation mechanisms with theoretical proof to satisfy differential privacy. Further, to better model the human decision-making process, we propose a novel aggregation mechanism of the rewards obtained from personal discriminators. We theoretically prove that under the reward obtained based on the aggregation mechanism, our proposed model maximizes the lower bound of the discounted total rewards of users. Extensive experiments show that the trajectories generated by our model are able to resemble real-world trajectories in terms of five key statistical metrics, outperforming state-of-the-art algorithms by over 48.03%. Furthermore, we demonstrate that the synthetic trajectories are able to efficiently support practical applications, including mobility prediction and location recommendation.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# PyBench: さまざまな実世界のコーディングタスクにおけるLLMエージェントの評価

PyBench: Evaluating LLM Agent on various real-world coding tasks ( http://arxiv.org/abs/2407.16732v1 )

ライセンス: Link先を確認
Yaolun Zhang, Yinxu Pan, Yudong Wang, Jie Cai, Zhi Zheng, Guoyang Zeng, Zhiyuan Liu, (参考訳) LLMエージェントはコードインタプリタを備えており、データ解析や画像編集といった現実世界のコーディングタスクを自動的に解くことができる。 しかし、既存のベンチマークは主に、数行のコードを完成させたり、リポジトリレベルで非常に複雑で特定のタスクにフォーカスする。 このギャップに対処するために,10種類以上のファイルをカバーする,現実世界タスクの5つの主要なカテゴリを含むベンチマークである \textbf{PyBench} を紹介した。 高いレベルのユーザクエリと関連するファイルが与えられているため、LLM Agentは、ユーザの要求を満たすために正式な応答を行う前に、コードインタプリタを介してPythonコードを数回、推論および実行する必要がある。 PyBenchのタスクにうまく対処するには、さまざまなPythonパッケージの堅牢な理解、優れた推論機能、実行済みコードからのフィードバックを組み込む機能が必要である。 我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。 したがって、PyBenchには包括的能力が必要であることを示す4種類のデータセットの分析と実験を行う。 我々の微調整された8Bサイズモデル: \textbf{PyLlama3} は、多くの33Bおよび70Bサイズモデルを超えるPyBench上でエキサイティングなパフォーマンスを達成する。 ベンチマーク、トレーニングデータセット、モデルは以下の通りである。 \href{https://github.com/Mercury7353/PyBench}{https://github.com/Mercury7353/PyBench}

The LLM Agent, equipped with a code interpreter, is capable of automatically solving real-world coding tasks, such as data analysis and image editing. However, existing benchmarks primarily focus on either simplistic tasks, such as completing a few lines of code, or on extremely complex and specific tasks at the repository level, neither of which are representative of various daily coding tasks. To address this gap, we introduce \textbf{PyBench}, a benchmark encompassing five main categories of real-world tasks, covering more than 10 types of files. Given a high-level user query and related files, the LLM Agent needs to reason and execute Python code via a code interpreter for a few turns before making a formal response to fulfill the user's requirements. Successfully addressing tasks in PyBench demands a robust understanding of various Python packages, superior reasoning capabilities, and the ability to incorporate feedback from executed code. Our evaluations indicate that current open-source LLMs are struggling with these tasks. Hence, we conduct analysis and experiments on four kinds of datasets proving that comprehensive abilities are needed for PyBench. Our fine-tuned 8B size model: \textbf{PyLlama3} achieves an exciting performance on PyBench which surpasses many 33B and 70B size models. Our Benchmark, Training Dataset, and Model are available at: \href{https://github.com/Mercury7353/PyBench}{https://github.com/Mercury7353/PyBench}
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 幾何学的深層学習を考慮した双曲円盤上の確率分布の等角自然ファミリ

Conformally Natural Families of Probability Distributions on Hyperbolic Disc with a View on Geometric Deep Learning ( http://arxiv.org/abs/2407.16733v1 )

ライセンス: Link先を確認
Vladimir Jacimovic, Marijan Markovic, (参考訳) 双曲円盤上の確率分布の新しいファミリーを紹介する。 提案された族の特徴は、離散保存同型写像群の作用の下での不変性である。 群不変性は、双曲的データの不確実性を符号化するのに便利でトラクタブルなモデルである。 Geometric Deep Learningとバイオインフォマティクスの潜在的な応用は多数あり、その一部は簡単に議論されている。 また、量子物理学における双曲コヒーレント状態との類似性も強調する。

We introduce the novel family of probability distributions on hyperbolic disc. The distinctive property of the proposed family is invariance under the actions of the group of disc-preserving conformal mappings. The group-invariance property renders it a convenient and tractable model for encoding uncertainties in hyperbolic data. Potential applications in Geometric Deep Learning and bioinformatics are numerous, some of them are briefly discussed. We also emphasize analogies with hyperbolic coherent states in quantum physics.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 信頼に値するフェデレーション学習におけるプライバシ漏洩の理論的分析--線形代数と最適化理論の立場から

Theoretical Analysis of Privacy Leakage in Trustworthy Federated Learning: A Perspective from Linear Algebra and Optimization Theory ( http://arxiv.org/abs/2407.16735v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Wei Chen, (参考訳) フェデレーション学習は、データのプライバシを保ちながら協調的なモデルトレーニングのための有望なパラダイムとして登場した。 しかし、最近の研究では、データ再構成攻撃など、さまざまなプライバシ攻撃に弱いことが示されている。 本稿では,線形代数と最適化理論という2つの観点から,フェデレーション学習におけるプライバシー漏洩の理論解析を行う。 線形代数の観点から、バッチデータのヤコビ行列がフルランクでない場合、同じモデル更新を生成するデータのバッチが存在することが証明され、それによってプライバシーレベルが保証される。 データ再構成攻撃を防ぐのに十分なバッチサイズ条件を導出する。 最適化理論の観点からは,バッチサイズ,歪み範囲,その他の要因の観点から,プライバシー漏洩の上限を確立する。 我々の分析は、プライバシリークとフェデレーション学習のさまざまな側面との関係に関する洞察を提供し、プライバシ保護フェデレーション学習アルゴリズムを設計するための理論的基盤を提供する。

Federated learning has emerged as a promising paradigm for collaborative model training while preserving data privacy. However, recent studies have shown that it is vulnerable to various privacy attacks, such as data reconstruction attacks. In this paper, we provide a theoretical analysis of privacy leakage in federated learning from two perspectives: linear algebra and optimization theory. From the linear algebra perspective, we prove that when the Jacobian matrix of the batch data is not full rank, there exist different batches of data that produce the same model update, thereby ensuring a level of privacy. We derive a sufficient condition on the batch size to prevent data reconstruction attacks. From the optimization theory perspective, we establish an upper bound on the privacy leakage in terms of the batch size, the distortion extent, and several other factors. Our analysis provides insights into the relationship between privacy leakage and various aspects of federated learning, offering a theoretical foundation for designing privacy-preserving federated learning algorithms.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# テキストスタイルの伝達に関する調査:応用と倫理的含意

A Survey of Text Style Transfer: Applications and Ethical Implications ( http://arxiv.org/abs/2407.16737v1 )

ライセンス: Link先を確認
Sourabrata Mukherjee, Mateusz Lango, Zdenek Kasner, Ondrej Dušek, (参考訳) テキストスタイル転送(TST)は制御可能なテキスト生成において重要なタスクであり、テキストのスタイルに依存しない内容を変更することなく、丁寧さ、形式性、感情などの言語使用の属性を制御することを目的としている。 この分野は近年かなりの研究関心を集めており、すでにいくつかのレビューで取り上げられているが、主に新しいアルゴリズムの開発と異なるタイプのデータ(教師なし、教師なし、ドメイン外など)から学ぶことに焦点を当てており、アプリケーション側ではそれほど多くはない。 しかし、TST関連の技術は、徐々に生産レベルと配備レベルに到達しており、TST研究にアプリケーション・パースペクティブを含めることが重要である。 同様に、しばしば見落とされがちなTST技術に関する倫理的考察が、問題となっている。 本稿では,従来の言語アプローチと近年のディープラーニング手法の両方を用いて,長年にわたって研究されてきたTST応用の総合的なレビューを行う。 本稿では,テキスト生成におけるTST適用の課題,今後の研究方向性,倫理的意味について論じる。 TST応用の全体像を概観することにより、さらなる研究を奨励し、TSTに関する倫理的考察だけでなく、その可能性の理解を深めたいと考えています。

Text style transfer (TST) is an important task in controllable text generation, which aims to control selected attributes of language use, such as politeness, formality, or sentiment, without altering the style-independent content of the text. The field has received considerable research attention in recent years and has already been covered in several reviews, but the focus has mostly been on the development of new algorithms and learning from different types of data (supervised, unsupervised, out-of-domain, etc.) and not so much on the application side. However, TST-related technologies are gradually reaching a production- and deployment-ready level, and therefore, the inclusion of the application perspective in TST research becomes crucial. Similarly, the often overlooked ethical considerations of TST technology have become a pressing issue. This paper presents a comprehensive review of TST applications that have been researched over the years, using both traditional linguistic approaches and more recent deep learning methods. We discuss current challenges, future research directions, and ethical implications of TST applications in text generation. By providing a holistic overview of the landscape of TST applications, we hope to stimulate further research and contribute to a better understanding of the potential as well as ethical considerations associated with TST.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 不均一時系列による自動車のサプライチェーン破壊予測

Forecasting Automotive Supply Chain Disruption with Heterogeneous Time Series ( http://arxiv.org/abs/2407.16739v1 )

ライセンス: Link先を確認
Bach Viet Do, Xingyu Li, Chaoye Pan, Oleg Gusikhin, (参考訳) 運用上の混乱は企業のパフォーマンスに大きな影響を及ぼす可能性がある。 フォードは世界の37の工場で年間17億の部品を使って600万台の車やトラックを製造している。 最大10層までのサプライヤーと原材料が混在しているため、このサプライチェーンの混乱が拡大すれば、実質的な損失が生じる可能性がある。 したがって、このような混乱を早期に予測し、特定する能力は、シームレスな操作を維持するために不可欠である。 本研究では, 古典的ファクトリ物理フレームワークで概説されている, キャパシティ, 在庫, 利用, 処理に関連する特徴を活用し, 第一階層のサプライチェーン破壊を予測するために, 多数の多変量時系列からなるデータセットを構築する方法を示す。 このデータセットは、50万を超える時系列の巨大なスケールのため、技術的に難しい。 さらに、これらの時系列は特定の類似性を示しながら、特定の部分群内での不均一性を示す。 これらの課題に対処するために,ニューラルネットワークを組み込んでグループ効果をモデル化する,拡張された注意シーケンスをシーケンス深層学習アーキテクチャに統合する手法をSurvival Analysisモデルで提案する。 このモデルは、運用上の障害に関連する複雑な異種データパターンを学習するために設計されている。 当社のモデルでは,フォードの北米5工場における品質保証(QA)フェーズにおいて,0.85の精度と0.8リコールを達成した。 さらに、機械学習モデルをブラックボックスとして一般的な批判に対処するために、モデル予測から特徴重要度を生成するためにSHAPフレームワークをどのように使用できるかを示す。 これは行動可能な戦略につながる貴重な洞察を提供し、自動車業界におけるサプライチェーンのリスクを管理し緩和するための高度な機械学習の可能性を強調している。

Operational disruptions can significantly impact companies performance. Ford, with its 37 plants globally, uses 17 billion parts annually to manufacture six million cars and trucks. With up to ten tiers of suppliers between the company and raw materials, any extended disruption in this supply chain can cause substantial financial losses. Therefore, the ability to forecast and identify such disruptions early is crucial for maintaining seamless operations. In this study, we demonstrate how we construct a dataset consisting of many multivariate time series to forecast first-tier supply chain disruptions, utilizing features related to capacity, inventory, utilization, and processing, as outlined in the classical Factory Physics framework. This dataset is technically challenging due to its vast scale of over five hundred thousand time series. Furthermore, these time series, while exhibiting certain similarities, also display heterogeneity within specific subgroups. To address these challenges, we propose a novel methodology that integrates an enhanced Attention Sequence to Sequence Deep Learning architecture, using Neural Network Embeddings to model group effects, with a Survival Analysis model. This model is designed to learn intricate heterogeneous data patterns related to operational disruptions. Our model has demonstrated a strong performance, achieving 0.85 precision and 0.8 recall during the Quality Assurance (QA) phase across Ford's five North American plants. Additionally, to address the common criticism of Machine Learning models as black boxes, we show how the SHAP framework can be used to generate feature importance from the model predictions. It offers valuable insights that can lead to actionable strategies and highlights the potential of advanced machine learning for managing and mitigating supply chain risks in the automotive industry.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# PLM-Net:自律走行車の視覚に基づく横方向制御のための知覚レイテンシ低減ネットワーク

PLM-Net: Perception Latency Mitigation Network for Vision-Based Lateral Control of Autonomous Vehicles ( http://arxiv.org/abs/2407.16740v1 )

ライセンス: Link先を確認
Aws Khalil, Jaerock Kwon, (参考訳) 本研究では,視覚に基づく自律走行車(AV)の横方向制御システムにおいて,知覚遅延に対処する新しいディープラーニングアプローチである知覚遅延軽減ネットワーク(PLM-Net)を紹介する。 知覚遅延は、視覚センサ(例えばカメラ)を介して環境を捉え、アクション(例えばステアリング)を適用するまでの遅延である。 この問題は、古典的およびニューラルネットベースの制御方法の両方で検討されている。 このレイテンシを強力なGPUとFPGAで削減することは、自動車プラットフォームでは不可能である。 PLM-Netはベースモデル(BM)とタイムドアクション予測モデル(TAPM)で構成される。 BMは、Lane Keeping Assist(LKA)システムを表し、TAPMは、異なるレイテンシ値に対する将来のアクションを予測する。 これらのモデルを統合することで、PLM-Netは知覚遅延を軽減する。 最終的な出力は、リアルタイムレイテンシに基づいて、BMおよびTAPM出力の線形補間によって決定される。 この設計は、一定レイテンシと可変レイテンシの両方に対処し、駆動軌道とステアリング制御を改善した。 PLM-Netの様々な遅延条件における有効性を検証する実験結果が得られた。 ソースコード:https://github.com/AwsKhalil/oscar/tree/devel-plm-net

This study introduces the Perception Latency Mitigation Network (PLM-Net), a novel deep learning approach for addressing perception latency in vision-based Autonomous Vehicle (AV) lateral control systems. Perception latency is the delay between capturing the environment through vision sensors (e.g., cameras) and applying an action (e.g., steering). This issue is understudied in both classical and neural-network-based control methods. Reducing this latency with powerful GPUs and FPGAs is possible but impractical for automotive platforms. PLM-Net comprises the Base Model (BM) and the Timed Action Prediction Model (TAPM). BM represents the original Lane Keeping Assist (LKA) system, while TAPM predicts future actions for different latency values. By integrating these models, PLM-Net mitigates perception latency. The final output is determined through linear interpolation of BM and TAPM outputs based on real-time latency. This design addresses both constant and varying latency, improving driving trajectories and steering control. Experimental results validate the efficacy of PLM-Net across various latency conditions. Source code: https://github.com/AwsKhalil/oscar/tree/devel-plm-net.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# OpenDevin: ジェネラリストエージェントとしてのAIソフトウェア開発者のためのオープンプラットフォーム

OpenDevin: An Open Platform for AI Software Developers as Generalist Agents ( http://arxiv.org/abs/2407.16741v1 )

ライセンス: Link先を確認
Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin, Robert Brennan, Hao Peng, Heng Ji, Graham Neubig, (参考訳) ソフトウェアは人間の手元にある最も強力なツールの1つです。熟練したプログラマが複雑で深い方法で世界と対話することを可能にするのです。 同時に、大きな言語モデル(LLM)の改善により、周辺環境の変化と相互作用し、影響を及ぼすAIエージェントの急速な開発も行われている。 本稿では,人間の開発者と同じような方法で世界と対話する,強力で柔軟なAIエージェントを開発するためのプラットフォームであるOpenDevinを紹介する。 プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、複数のエージェント間の調整、評価ベンチマークの導入を可能にする方法について説明する。 現在組み込まれているベンチマークに基づいて、ソフトウェアエンジニアリング(例:SWE-Bench)やWebブラウジング(例:WebArena)など、15の課題タスクに対してエージェントの評価を行います。 寛容なMITライセンスの下でリリースされているOpenDevinは、学術と産業にまたがるコミュニティプロジェクトであり、160人以上のコントリビュータから1.3K以上のコントリビューションがあり、今後改善される予定である。

Software is one of the most powerful tools that we humans have at our disposal; it allows a skilled programmer to interact with the world in complex and profound ways. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. In this paper, we introduce OpenDevin, a platform for the development of powerful and flexible AI agents that interact with the world in similar ways to those of a human developer: by writing code, interacting with a command line, and browsing the web. We describe how the platform allows for the implementation of new agents, safe interaction with sandboxed environments for code execution, coordination between multiple agents, and incorporation of evaluation benchmarks. Based on our currently incorporated benchmarks, we perform an evaluation of agents over 15 challenging tasks, including software engineering (e.g., SWE-Bench) and web browsing (e.g., WebArena), among others. Released under the permissive MIT license, OpenDevin is a community project spanning academia and industry with more than 1.3K contributions from over 160 contributors and will improve going forward.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# ニュートリノスピン・フレーバー振動における量子コヒーレンス

Quantum coherence in neutrino spin-flavor oscillations ( http://arxiv.org/abs/2407.16742v1 )

ライセンス: Link先を確認
Ashutosh Kumar Alok, Trambak Jyoti Chall, Neetu Raj Singh Chundawat, Shireen Gangal, Gaetano Lambiase, (参考訳) コヒーレンス(Coherence)は、直交状態の重ね合わせを表すもので、量子力学の基本概念であり、量子資源理論の中で正確に定義される。 したがって、ニュートリノ振動における量子コヒーレンスを探索することは、本質的な量子の性質を調べるのに役立つだけでなく、量子情報技術におけるその潜在的な応用を探求するのに役立つ。 量子コヒーレンスの研究は、ニュートリノのフレーバー振動(FO)に焦点を当てている。 しかし、FOはニュートリノが質量を持ち、これは相互作用の摂動膨張のより高い順序で量子ループ図を通してニュートリノの小さなが有限の磁気双極子モーメントを発生させる可能性があることを示唆している。 このニュートリノの電磁特性は、外部磁場の存在下でスピンフレーバー振動(SFO)を誘発し、コヒーレンスの研究を充実させることが期待されている。 本研究では、恒星間と銀河間磁場の3つのフレーバー混合を伴うニュートリノSFOの量子コヒーレンスを、$l_1$ノルムとコヒーレンス相対エントロピーで定量化し、ニュートリノSFO確率でこれらの測定値を表現する。 FOの場合、コヒーレンス対策は数kmの距離で高い値(最大値の50%以内)を維持でき、これは原子炉や加速器ニュートリノのような地上実験に関係している。 しかし、SFOの場合、コヒーレンススケールは、キロパーセクからギガパーセクまで、天体物理学的な距離にまで拡張できる。

Coherence, which represents the superposition of orthogonal states, is a fundamental concept in quantum mechanics and can also be precisely defined within quantum resource theory. Thus exploring quantum coherence in neutrino oscillations can not only help in examining the intrinsic quantum nature but can also explore their potential applications in quantum information technologies. Previous studies on quantum coherence have focused on neutrino flavor oscillations (FO). However, FO imply that neutrinos have mass and this can lead to the generation of a tiny but finite magnetic dipole moment of neutrinos through quantum loop diagrams at higher orders of perturbative expansion of the interaction. This electromagnetic property of neutrinos can induce spin flavor oscillations (SFO) in the presence of an external magnetic field and hence is expected to enrich the study of coherence. In this work, we investigate quantum coherence in neutrino SFO with three flavor mixing within the interstellar as well as intergalactic magnetic fields, quantified by the $l_1$ norm and the relative entropy of coherence, and express these measures in terms of neutrino SFO probabilities. For FO, coherence measures can sustain higher values (say, within 50% of the maximum) over distances of several kilometers, which are relevant for terrestrial experiments like reactor and accelerator neutrinos. However, for SFO, we find that the coherence scale can extend to astrophysical distances, spanning from kiloparsecs to gigaparsecs.
翻訳日:2024-07-25 15:54:04 公開日:2024-07-23
# 高効率プラグアンドプレイ超電導量子ビットネットワーク

A high-efficiency plug-and-play superconducting qubit network ( http://arxiv.org/abs/2407.16743v1 )

ライセンス: Link先を確認
Michael Mollenhauer, Abdullah Irfan, Xi Cao, Supriya Mandal, Wolfgang Pfaff, (参考訳) モジュールアーキテクチャは、量子デバイスをフォールトトレランスとユーティリティの点でスケールするための有望なアプローチである。 モジュラリティは、モノリシックに製造されたデバイスがシステムサイズと品質の両方に制限されているため、超伝導量子ビットに特に魅力的である。 交換可能なモジュールのネットワークとして複雑な量子システムを構築すれば、現代の古典的コンピュータと同様の精神で、'Lego-like'アセンブリ、再構成、拡張によってこの課題を克服することができる。 最初の試作型超伝導量子デバイスネットワークが実証された。 しかし、インターチェンジビリティと高忠実度操作を同時に許可するインターフェースは依然として重要な課題である。 本稿では,超伝導量子ビットデバイス間の分離可能なケーブルをベースとした高効率配線を実演する。 我々は,高速ポンプ方式で分離可能な接続の損失を克服し,モジュール間SWAP効率を99%レベルで100 ns以下で実現した。 我々はこのスキームを用いて高忠実な絡み合いを生成し、分散論理二重レール量子ビットを演算する。 観測された1%のエラー率では、相互接続による操作は耐故障性のしきい値である。 これらの結果は、再構成可能で拡張可能なネットワークで量子プロセッサをスケーリングするためのモジュラーアーキテクチャを導入している。

Modular architectures are a promising approach to scale quantum devices to the point of fault tolerance and utility. Modularity is particularly appealing for superconducting qubits, as monolithically manufactured devices are limited in both system size and quality. Constructing complex quantum systems as networks of interchangeable modules can overcome this challenge through `Lego-like' assembly, reconfiguration, and expansion, in a spirit similar to modern classical computers. First prototypical superconducting quantum device networks have been demonstrated. Interfaces that simultaneously permit interchangeability and high-fidelity operations remain a crucial challenge, however. Here, we demonstrate a high-efficiency interconnect based on a detachable cable between superconducting qubit devices. We overcome the inevitable loss in a detachable connection through a fast pump scheme, enabling inter-module SWAP efficiencies at the 99%-level in less than 100 ns. We use this scheme to generate high-fidelity entanglement and operate a distributed logical dual-rail qubit. At the observed ~1% error rate, operations through the interconnect are at the threshold for fault-tolerance. These results introduce a modular architecture for scaling quantum processors with reconfigurable and expandable networks.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 普遍低層モードからの絡み合いダイナミクス

Entanglement dynamics from universal low-lying modes ( http://arxiv.org/abs/2407.16763v1 )

ライセンス: Link先を確認
Shreya Vardhan, Sanjay Moudgalya, (参考訳) レニイエントロピーのような情報理論の量は、様々なカオス量子多体系にまたがる深夜の挙動において顕著な普遍性を示す。 このような共通する特徴が、非常に異なる微視的力学からどのように現れるかを理解することは、依然として重要な課題である。 本研究では、ランダムな時間依存ハミルトニアンと様々な異なる顕微鏡的カップリングを持つブラウンモデルのクラスでこの問題に対処する。 任意のモデルにおいて、$n$-th Renyiエントロピーのローレンツ時間進化は、系の2$n$コピー上のユークリッド・ハミルトニアンによって進化にマッピングできる。 対称性を持たない系では、ユークリッド・ハミルトニアンの低エネルギー励起は、ギャップ付き準粒子のようなバンドによって普遍的に与えられる。 このバンドの固有状態は、対称群$S_n$の2つの置換に付随する強磁性基底状態の間の局所的な服を着たドメインウォールの平面波である。 これらの励起は、その分散関係によって膜張力が決定されるエンタングルメント成長の膜像を生じさせる。 解析的摂動法と数値的変動法を用いて様々なケースでこの構造を確立し,第2次,第3次レーニエントロピーにおける関連分散関係と膜張力の抽出を行った。 第3のRenyiエントロピーでは、膜張力の物理的制約を満たすために、速度の関数としての膜張力の相転移が必要であると論じる。 全体として、この構造は、時間非依存のハミルトニアンを持つ系にも適用できるようなギャップ付き低層モードの普遍的な集合の観点から、絡み合いのダイナミクスの理解を提供する。

Information-theoretic quantities such as Renyi entropies show a remarkable universality in their late-time behaviour across a variety of chaotic quantum many-body systems. Understanding how such common features emerge from very different microscopic dynamics remains an important challenge. In this work, we address this question in a class of Brownian models with random time-dependent Hamiltonians and a variety of different microscopic couplings. In any such model, the Lorentzian time-evolution of the $n$-th Renyi entropy can be mapped to evolution by a Euclidean Hamiltonian on 2$n$ copies of the system. We provide evidence that in systems with no symmetries, the low-energy excitations of the Euclidean Hamiltonian are universally given by a gapped quasiparticle-like band. The eigenstates in this band are plane waves of locally dressed domain walls between ferromagnetic ground states associated with two permutations in the symmetric group $S_n$. These excitations give rise to the membrane picture of entanglement growth, with the membrane tension determined by their dispersion relation. We establish this structure in a variety of cases using analytical perturbative methods and numerical variational techniques, and extract the associated dispersion relations and membrane tensions for the second and third Renyi entropies. For the third Renyi entropy, we argue that phase transitions in the membrane tension as a function of velocity are needed to ensure that physical constraints on the membrane tension are satisfied. Overall, this structure provides an understanding of entanglement dynamics in terms of a universal set of gapped low-lying modes, which may also apply to systems with time-independent Hamiltonians.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 有限サンプルからの無限終点:ボトムアップ提案のトップダウンベイズフィルタとしてのオープンエンドゴール推論

Infinite Ends from Finite Samples: Open-Ended Goal Inference as Top-Down Bayesian Filtering of Bottom-Up Proposals ( http://arxiv.org/abs/2407.16770v1 )

ライセンス: Link先を確認
Tan Zhi-Xuan, Gloria Kang, Vikash Mansinghka, Joshua B. Tenenbaum, (参考訳) 人間のゴールの空間は信じられないほど広大ですが、シーンを見たり、物語を読んだりするほんの少しの瞬間から、私たちは、関係する人々やキャラに対して、自発的に様々なもっともらしいモチベーションを推測しているようです。 他のエージェントの目標を邪魔する際、彼らが追求するであろう終了の無限遠にもかかわらず、この驚くべき能力を説明するものは何だろうか? そして、これは、他の人々をほぼ合理的なエージェントとして理解することとどのように結びつくのか? そこで,本稿では,トップダウンベイズ逆計画とボトムアップサンプリングを組み合わせた,オープンエンドゴール推論の連続モンテカルロモデルを提案する。 エージェントが達成したサブゴールに関する目標仮説を提案することによって、我々のモデルは、網羅的な探索を伴わずに、迅速にプラウシブルな目標を生成し、これまでの行動が不合理であるような目標をフィルタリングする。 我々は、このモデルをBlock Wordsと呼ばれるゴール推論タスクで検証し、参加者は、誰かが文字付きブロックから積み上げている単語を推測しようとする。 ヒューリスティックなボトムアップ推定と、数百の目標に対する正確なベイズ推定の両方と比較して、我々のモデルは人間のゴール推論の平均、分散、効率、リソース合理性をより正確に予測し、認知コストのごく一部で正確なモデルと類似の精度を達成し、また、ボトムアップ手法の誤解から生じるガーデンパス効果も説明できる。 そこで本研究では,人間理論の速度,精度,一般性を説明する上で,トップダウンモデルとボトムアップモデルを組み合わせることの重要性を強調した。

The space of human goals is tremendously vast; and yet, from just a few moments of watching a scene or reading a story, we seem to spontaneously infer a range of plausible motivations for the people and characters involved. What explains this remarkable capacity for intuiting other agents' goals, despite the infinitude of ends they might pursue? And how does this cohere with our understanding of other people as approximately rational agents? In this paper, we introduce a sequential Monte Carlo model of open-ended goal inference, which combines top-down Bayesian inverse planning with bottom-up sampling based on the statistics of co-occurring subgoals. By proposing goal hypotheses related to the subgoals achieved by an agent, our model rapidly generates plausible goals without exhaustive search, then filters out goals that would be irrational given the actions taken so far. We validate this model in a goal inference task called Block Words, where participants try to guess the word that someone is stacking out of lettered blocks. In comparison to both heuristic bottom-up guessing and exact Bayesian inference over hundreds of goals, our model better predicts the mean, variance, efficiency, and resource rationality of human goal inferences, achieving similar accuracy to the exact model at a fraction of the cognitive cost, while also explaining garden-path effects that arise from misleading bottom-up cues. Our experiments thus highlight the importance of uniting top-down and bottom-up models for explaining the speed, accuracy, and generality of human theory-of-mind.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# VisMin: Visual Minimal-Change Understanding

VisMin: Visual Minimal-Change Understanding ( http://arxiv.org/abs/2407.16772v1 )

ライセンス: Link先を確認
Rabiul Awal, Saba Ahmadi, Le Zhang, Aishwarya Agrawal, (参考訳) オブジェクト、属性、オブジェクト間の関係のきめ細かい理解は、視覚言語モデル(VLM)にとって不可欠である。 既存のベンチマークは主に、画像に対して非常に類似した2つの \textit{captions} を区別するVLMの能力を評価することに焦点を当てている。 本稿では,2つの画像と2つのキャプションが与えられた場合の正しい画像キャプチャマッチングをモデルに求める,新しい挑戦的ベンチマークである \textbf{Vis}ual \textbf{Min}imal-Change Understanding (VisMin)を提案する。 画像対とキャプション対は、最小限の変更、すなわち、一度に1つのアスペクトしか変化しない: \textit{object}, \textit{attribute}, \textit{count}, \textit{spatial relation}。 これらの変更は、モデルがオブジェクト、属性(色、材料、形状)、カウント、オブジェクト間の空間的関係について理解することをテストする。 我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。 経験的実験により、現在のVLMは空間的関係や数え上げ能力の理解において顕著な欠陥を示すことが明らかとなった。 また、CLIPとIdefics2を微調整する大規模なトレーニングデータセットも生成し、ベンチマークやCLIPの一般的な画像テキストアライメントにおける詳細な理解を大幅に改善した。 ベンチマーク、トレーニングデータ、微調整されたモデルチェックポイントを含むすべてのリソースを、 \url{https://vismin.net/}でリリースします。

Fine-grained understanding of objects, attributes, and relationships between objects is crucial for visual-language models (VLMs). Existing benchmarks primarily focus on evaluating VLMs' capability to distinguish between two very similar \textit{captions} given an image. In this paper, we introduce a new, challenging benchmark termed \textbf{Vis}ual \textbf{Min}imal-Change Understanding (VisMin), which requires models to predict the correct image-caption match given two images and two captions. The image pair and caption pair contain minimal changes, i.e., only one aspect changes at a time from among the following: \textit{object}, \textit{attribute}, \textit{count}, and \textit{spatial relation}. These changes test the models' understanding of objects, attributes (such as color, material, shape), counts, and spatial relationships between objects. We built an automatic framework using large language models and diffusion models, followed by a rigorous 4-step verification process by human annotators. Empirical experiments reveal that current VLMs exhibit notable deficiencies in understanding spatial relationships and counting abilities. We also generate a large-scale training dataset to finetune CLIP and Idefics2, showing significant improvements in fine-grained understanding across benchmarks and in CLIP's general image-text alignment. We release all resources, including the benchmark, training data, and finetuned model checkpoints, at \url{https://vismin.net/}.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# Fading ergodicity (複数形 Fading ergodicities)

Fading ergodicity ( http://arxiv.org/abs/2407.16773v1 )

ライセンス: Link先を確認
Maksymilian Kliczkowski, Rafał Świętek, Miroslav Hopjan, Lev Vidmar, (参考訳) 固有状態熱化仮説(ETH)は、物理可観測物の熱化とランダム行列理論(RMT)の適用性を結びつけることができるため、多体物理学におけるブレークスルーである。 近年は、積分性、単一粒子カオス、多体局在化、多体傷、ヒルベルト空間の破片化など、熱化への反例の可能性を探る上でも非常に有益であった。 これらの場合、従来のETHは違反される。 しかしながら、従来のETHがエルゴード性の境界に近づくとどのように崩壊するか、また従来のETHの有効範囲がRTTのようなスペクトル統計値の妥当性と一致しているかは、いまだ解明されていない。 ここでは、このギャップを埋め、従来のETHと非エルゴード的挙動のリンクを確立する多体量子系におけるETH分解のシナリオを導入する。 我々は、このシナリオがエルゴード性の境界における有限多体系の記述に関係していると推測し、エルゴード性破壊相転移の量子太陽モデルにおいて、その妥当性に関する数値的および解析的な議論を提供する。 後者については、従来のETHの分解はRTTのようなスペクトル統計の分解とは関係がないことを示す。

Eigenstate thermalization hypothesis (ETH) represents a breakthrough in many-body physics since it allows to link thermalization of physical observables with the applicability of random matrix theory (RMT). Recent years were also extremely fruitful in exploring possible counterexamples to thermalization, ranging, among others, from integrability, single-particle chaos, many-body localization, many-body scars, to Hilbert-space fragmentation. In all these cases the conventional ETH is violated. However, it remains elusive how the conventional ETH breaks down when one approaches the boundaries of ergodicity, and whether the range of validity of the conventional ETH coincides with the validity of RMT-like spectral statistics. Here we bridge this gap and we introduce a scenario of the ETH breakdown in many-body quantum systems, which establishes a link between the conventional ETH and non-ergodic behavior. We conjecture this scenario to be relevant for the description of finite many-body systems at the boundaries of ergodicity, and we provide numerical and analytical arguments for its validity in the quantum sun model of ergodicity breaking phase transition. For the latter, we provide evidence that the breakdown of the conventional ETH is not associated with the breakdown of the RMT-like spectral statistics.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 古典的多世界解釈

Classical Many-Worlds Interpretation ( http://arxiv.org/abs/2407.16774v1 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) 量子力学の単純なベビーステップ再構成を、完全に古典的な理論として提示する。 最も急進的な概念的な飛躍は、多くの共存する古典的世界が存在するということであるが、これは客観的な確率の必要性によって正当化される。 これらのベビーステップは、確率を組み込んだ量子力学の多世界解釈、マクロレベルでの古典性の構築、および量子力学における複素数の説明に導かれる。 単純で最小限の急進的な概念にもかかわらず、これはトイモデルではなく、場の量子論と等価である。

I present a simple baby-steps reconstruction of quantum mechanics as a fully classical theory. The most radical conceptual leap required is that there are many coexisting classical worlds, but even this is justified by the necessity of objective probabilities. These baby steps lead to a version of the many-worlds interpretation of quantum mechanics with built-in probabilities, built-in classicality at the macroscopic level, and an explanation of the complex numbers in quantum mechanics. Despite its simplicity and minimalism of radical concepts, this is not a toy model, being equivalent with quantum field theory.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 盲人・低視野者ナビゲーションにおける地殻物体認識のためのデータセット

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation ( http://arxiv.org/abs/2407.16777v1 )

ライセンス: Link先を確認
Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce, Md Alimoor Reza, Syed Masum Billah, (参考訳) 本稿では,視覚障害者や視覚障害者のナビゲーション作業を支援するリアルタイム物体認識システムを構築するためのデータセットを提案する。 このデータセットは、屋外空間をナビゲートするBLV個体の21の動画と、焦点グループによる研究によって改善されたBLVナビゲーションに不可欠な90のオブジェクトの分類から成っている。 また、21の動画から生成された31のビデオセグメントにわたる90のオブジェクトに対して、オブジェクトラベルを提供する。 より深い分析により、コンピュータビジョンモデルのトレーニングに使用されるほとんどの現代のデータセットは、データセットに分類の小さなサブセットしか含まれていないことが明らかになった。 我々のデータセットにおける最先端コンピュータビジョンモデルの予備評価は、BLVナビゲーションに関連する重要なオブジェクトを正確に検出する際の欠点を強調し、特別なデータセットの必要性を強調している。 私たちはデータセットを公開し、BLV個人のためのより包括的なナビゲーションシステムを開発するための貴重なリソースを提供します。

This paper introduces a dataset for improving real-time object recognition systems to aid blind and low-vision (BLV) individuals in navigation tasks. The dataset comprises 21 videos of BLV individuals navigating outdoor spaces, and a taxonomy of 90 objects crucial for BLV navigation, refined through a focus group study. We also provide object labeling for the 90 objects across 31 video segments created from the 21 videos. A deeper analysis reveals that most contemporary datasets used in training computer vision models contain only a small subset of the taxonomy in our dataset. Preliminary evaluation of state-of-the-art computer vision models on our dataset highlights shortcomings in accurately detecting key objects relevant to BLV navigation, emphasizing the need for specialized datasets. We make our dataset publicly available, offering valuable resources for developing more inclusive navigation systems for BLV individuals.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# VIX, GARCH, LSTMモデルを用いたS&P500のハイブリッド予測

The Hybrid Forecast of S&P 500 Volatility ensembled from VIX, GARCH and LSTM models ( http://arxiv.org/abs/2407.16780v1 )

ライセンス: Link先を確認
Natalia Roszyk, Robert Ślepaczuk, (参考訳) S&P500種株価指数のボラティリティ(変動性)の予測は、投資家や金融アナリストにとって極めて重要である。 ボラティリティは、セキュリティの価値の変化の大きさに関する不確実性やリスクのレベルを表しており、金融計画にとって不可欠な指標である。 本研究では,S&P 500のボラティリティ予測の精度向上方法として,過去のボラティリティパターンを捉えることで知られる確立されたGARCHモデル,過去のボラティリティとログリターンを利用するLSTMネットワーク,両アプローチの強みを組み合わせたハイブリッドLSTM-GARCHモデル,市場センチメントを測るVIX指数に影響を及ぼすハイブリッドモデルの先進バージョンについて検討する。 この分析は、2000年1月3日から2023年12月21日までの期間をカバーするS&P 500とVIXインデックスデータを含む毎日のデータセットに基づいている。 厳密なテストと比較により、機械学習アプローチ、特にハイブリッドLSTMモデルは、従来のGARCHモデルよりも大幅に優れていることがわかった。 VIX指数をハイブリッドモデルに含めれば、リアルタイム市場感情を取り入れることで予測能力がさらに向上する。 本研究の結果は、より正確なボラティリティ予測を達成するための貴重な洞察を与え、S&P500のボラティリティ環境におけるリスク管理と戦略的投資決定を向上する。

Predicting the S&P 500 index volatility is crucial for investors and financial analysts as it helps assess market risk and make informed investment decisions. Volatility represents the level of uncertainty or risk related to the size of changes in a security's value, making it an essential indicator for financial planning. This study explores four methods to improve the accuracy of volatility forecasts for the S&P 500: the established GARCH model, known for capturing historical volatility patterns; an LSTM network that utilizes past volatility and log returns; a hybrid LSTM-GARCH model that combines the strengths of both approaches; and an advanced version of the hybrid model that also factors in the VIX index to gauge market sentiment. This analysis is based on a daily dataset that includes S&P 500 and VIX index data, covering the period from January 3, 2000, to December 21, 2023. Through rigorous testing and comparison, we found that machine learning approaches, particularly the hybrid LSTM models, significantly outperform the traditional GARCH model. Including the VIX index in the hybrid model further enhances its forecasting ability by incorporating real-time market sentiment. The results of this study offer valuable insights for achieving more accurate volatility predictions, enabling better risk management and strategic investment decisions in the volatile environment of the S&P 500.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# PrISM-Observer:スマートウォッチを使って毎日のプロシージャの実行を支援するインターベンションエージェント

PrISM-Observer: Intervention Agent to Help Users Perform Everyday Procedures Sensed using a Smartwatch ( http://arxiv.org/abs/2407.16785v1 )

ライセンス: Link先を確認
Riku Arakawa, Hiromu Yakura, Mayank Goel, (参考訳) 私たちは定期的に、一連のアトミックステップを含む手順(調理など)を実行します。 特に認知症のような認知障害を経験する人には、しばしば、不注意な欠席や1つのステップの誤った順序付けが深刻な結果をもたらすことがある。 本稿では,スマートウォッチをベースとしたコンテキスト対応リアルタイム介入システムPrISM-Observerについて紹介する。 情報を探さなければならない従来のシステムとは異なり、エージェントはユーザーの行動を観察し、積極的に介入する。 この機能は、マルチモーダルセンシングと最適な介入モーメントや方法の予測を通じて、エージェントがリアルタイムでユーザの行動に対する信念を継続的に更新する能力によって実現される。 まず、異なる複雑さを持つ3つのデータセットに対する評価を通じて、フレームワークのステップトラッキング性能を検証した。 そして,スマートウォッチを用いたリアルタイムエージェントシステムを実装し,調理作業シナリオにおけるユーザスタディを行った。 システムは有用な介入を発生させ,参加者から肯定的なフィードバックを得た。 PrISM-Observerの日常業務への適用性は、例えば認知症や術後患者など、より関連する介入を必要とするユーザのサポートなど、幅広い応用を約束する。

We routinely perform procedures (such as cooking) that include a set of atomic steps. Often, inadvertent omission or misordering of a single step can lead to serious consequences, especially for those experiencing cognitive challenges such as dementia. This paper introduces PrISM-Observer, a smartwatch-based, context-aware, real-time intervention system designed to support daily tasks by preventing errors. Unlike traditional systems that require users to seek out information, the agent observes user actions and intervenes proactively. This capability is enabled by the agent's ability to continuously update its belief in the user's behavior in real-time through multimodal sensing and forecast optimal intervention moments and methods. We first validated the steps-tracking performance of our framework through evaluations across three datasets with different complexities. Then, we implemented a real-time agent system using a smartwatch and conducted a user study in a cooking task scenario. The system generated helpful interventions, and we gained positive feedback from the participants. The general applicability of PrISM-Observer to daily tasks promises broad applications, for instance, including support for users requiring more involved interventions, such as people with dementia or post-surgical patients.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 閉塞型3次元動作解析による異常行動検出

Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection ( http://arxiv.org/abs/2407.16788v1 )

ライセンス: Link先を確認
Su Li, Wang Liang, Jianye Wang, Ziheng Zhang, Lei Zhang, (参考訳) 3Dポーズに基づく異常姿勢の推定は、人間のポーズ分析において不可欠であるが、特にオクルージョンを持つ単分子データセットから3Dポーズを再構築する場合に課題が生じる。 正確な再構築により、3D運動の復元が可能となり、異常な行動を分析するのに必要な意味的な詳細を抽出するのに役立つ。 しかし、既存のほとんどの手法は、データ品質の変化がこれらのモデルの性能に悪影響を及ぼしている、閉塞した関節の座標を推定するための基礎として、予め定義されたキーポイントに依存している。 本稿では,メッシュ頂点と人間の関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。 OAD2Dは、ビデオストリーム内の動きの先行情報を捉えるために光学フローを使用し、閉鎖された人間の動きに関する情報を豊かにし、ポーズの時間的空間的アライメントを確保する。 さらに,動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで,異常姿勢推定を再構成する。 動作トークンをテキストトークンにマッピングすることで、意味論的に解釈可能な動作解析を可能にし、言語モデルによる異常な姿勢検出の一般化を促進する。 本研究は,グローバル座標における人間の運動軌跡を再構築し,咬合の問題を効果的に軽減するため,重度・自己閉塞に対する異常な行動検出の堅牢性を示すものである。 我々は,Human3.6M,3DPW,NTU RGB+Dデータセットを用いて,NTU RGB+Dデータセットに対して高いF_1-$Scoreの0.94を達成した。 そして、私たちはすべてのコードとデータをリリースします。

Estimating abnormal posture based on 3D pose is vital in human pose analysis, yet it presents challenges, especially when reconstructing 3D human poses from monocular datasets with occlusions. Accurate reconstructions enable the restoration of 3D movements, which assist in the extraction of semantic details necessary for analyzing abnormal behaviors. However, most existing methods depend on predefined key points as a basis for estimating the coordinates of occluded joints, where variations in data quality have adversely affected the performance of these models. In this paper, we present OAD2D, which discriminates against motion abnormalities based on reconstructing 3D coordinates of mesh vertices and human joints from monocular videos. The OAD2D employs optical flow to capture motion prior information in video streams, enriching the information on occluded human movements and ensuring temporal-spatial alignment of poses. Moreover, we reformulate the abnormal posture estimation by coupling it with Motion to Text (M2T) model in which, the VQVAE is employed to quantize motion features. This approach maps motion tokens to text tokens, allowing for a semantically interpretable analysis of motion, and enhancing the generalization of abnormal posture detection boosted by Language model. Our approach demonstrates the robustness of abnormal behavior detection against severe and self-occlusions, as it reconstructs human motion trajectories in global coordinates to effectively mitigate occlusion issues. Our method, validated using the Human3.6M, 3DPW, and NTU RGB+D datasets, achieves a high $F_1-$Score of 0.94 on the NTU RGB+D dataset for medical condition detection. And we will release all of our code and data.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 距離ビュー3次元物体検出で何が重要か

What Matters in Range View 3D Object Detection ( http://arxiv.org/abs/2407.16789v1 )

ライセンス: Link先を確認
Benjamin Wilson, Nicholas Autio Mitchell, Jhony Kaesemodel Pontes, James Hays, (参考訳) ライダーベースの知覚パイプラインは複雑なシーンを解釈するために3Dオブジェクト検出モデルに依存している。 ライダーの複数の表現が存在するが、ライダーセンサ全体の出力を無意味に符号化するため、レンジビューは魅力的である。 本研究では,過去のレンジビュー文献に提案されている複数の手法を使わずに,レンジビュー3次元オブジェクト検出モデルの最先端を実現する。 我々は、Argoverse 2とWaymo Openという2つの異なる特性を持つモダンなデータセットのレンジビュー3Dオブジェクト検出について検討する。 本研究は,(1)入力特徴次元が全体の性能に著しく影響を及ぼすこと,(2)3次元空間近接作業における分類損失が,より精巧なIoUによる損失よりも優れていること,(3)単純レンジサブサンプリング技術による非一様ライダー密度への対処が,既存のマルチレゾリューション・レンジコンディショナーネットワークより優れていること,などを明らかにする。 実験の結果,近年のレンジビュー文献で提案されている手法は,最先端の性能を達成するには必要ではないことがわかった。 上記の知見を組み合わせることで、レンジビュー3Dオブジェクト検出のための新しい最先端モデルを確立します。10Hzのランタイムを維持しながら、Waymo Openデータセット上でAPを2.2%改善します。 我々はArgoverse 2データセット上で最初のレンジビューモデルを確立し、強いボクセルベースラインを上回ります。 すべてのモデルはマルチクラスでオープンソースです。 コードはhttps://github.com/benjaminrwilson/range-view-3d-detectionで公開されている。

Lidar-based perception pipelines rely on 3D object detection models to interpret complex scenes. While multiple representations for lidar exist, the range-view is enticing since it losslessly encodes the entire lidar sensor output. In this work, we achieve state-of-the-art amongst range-view 3D object detection models without using multiple techniques proposed in past range-view literature. We explore range-view 3D object detection across two modern datasets with substantially different properties: Argoverse 2 and Waymo Open. Our investigation reveals key insights: (1) input feature dimensionality significantly influences the overall performance, (2) surprisingly, employing a classification loss grounded in 3D spatial proximity works as well or better compared to more elaborate IoU-based losses, and (3) addressing non-uniform lidar density via a straightforward range subsampling technique outperforms existing multi-resolution, range-conditioned networks. Our experiments reveal that techniques proposed in recent range-view literature are not needed to achieve state-of-the-art performance. Combining the above findings, we establish a new state-of-the-art model for range-view 3D object detection -- improving AP by 2.2% on the Waymo Open dataset while maintaining a runtime of 10 Hz. We establish the first range-view model on the Argoverse 2 dataset and outperform strong voxel-based baselines. All models are multi-class and open-source. Code is available at https://github.com/benjaminrwilson/range-view-3d-detection.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# QFTのない加速量子振幅推定

Accelerated Quantum Amplitude Estimation without QFT ( http://arxiv.org/abs/2407.16795v1 )

ライセンス: Link先を確認
Alet Roux, Tomasz Zastawniak, (参考訳) 我々は、現在利用可能なアプローチと比較して優れた性能(より低い量子計算複雑性と高速な古典計算部分)を実現する量子振幅推定アルゴリズムを提唱した。 このアルゴリズムは量子フーリエ変換を中継せず、その量子計算複雑性は、目標精度$\varepsilon>0$の点で、$O(\frac{1}{\varepsilon})$である。 量子計算複雑性に縛られる$O(\frac{1}{\varepsilon})$は、より小さい定数のため以前のアプローチよりも優れている。 さらに、より厳密なバウンダリは、計算複雑性の期待値に対するコンピュータ支援推定によって得られる。 このアルゴリズムの正しさと$O(\frac{1}{\varepsilon})$の量子計算複雑性への束縛は、正確な証明によって支持される。

We put forward a Quantum Amplitude Estimation algorithm delivering superior performance (lower quantum computational complexity and faster classical computation parts) compared to the approaches available to-date. The algorithm does not relay on the Quantum Fourier Transform and its quantum computational complexity is of order $O(\frac{1}{\varepsilon})$ in terms of the target accuracy $\varepsilon>0$. The $O(\frac{1}{\varepsilon})$ bound on quantum computational complexity is also superior compared to those in the earlier approaches due to smaller constants. Moreover, a much tighter bound is obtained by means of computer-assisted estimates for the expected value of quantum computational complexity. The correctness of the algorithm and the $O(\frac{1}{\varepsilon})$ bound on quantum computational complexity are supported by precise proofs.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# ワーセルシュタイン分布ロバストな浅層凸ニューラルネット

Wasserstein Distributionally Robust Shallow Convex Neural Networks ( http://arxiv.org/abs/2407.16800v1 )

ライセンス: Link先を確認
Julien Pallage, Antoine Lesage-Landry, (参考訳) 本研究では,Wassersteinの分布性に優れた浅層凸ニューラルネットワーク(WaDiRo-SCNN)を提案する。 我々のアプローチは、ReLU浅層ニューラルネットワークのための新しい凸トレーニングプログラムに基づいており、このプログラムにより、問題をそのオーダー-1 ワッサーシュタインの正確な、引き込み可能な再構成として、分散的に堅牢な等価性を持つものにすることができる。 当社のトレーニング手順は設計上は保守的であり,確率性は低く,オープンソースのソルバで解決可能であり,大規模産業展開にもスケーラブルである。 トレーニングプログラムにおいて,厳密な凸の物理的制約を適用可能であることを示す。 WaDiRo-SCNNは、エネルギーセクターなどの重要なアプリケーションに対して、ニューラルネットワークをより安全にすることを目的としている。 最後に, 合成実験および実世界の電力システム応用, すなわち非住宅の時間エネルギー消費予測におけるモデルの性能を数値的に示す。 実験結果は説得力があり,提案モデルの強みを示すものである。

In this work, we propose Wasserstein distributionally robust shallow convex neural networks (WaDiRo-SCNNs) to provide reliable nonlinear predictions when subject to adverse and corrupted datasets. Our approach is based on a new convex training program for ReLU shallow neural networks which allows us to cast the problem as an exact, tractable reformulation of its order-1 Wasserstein distributionally robust equivalent. Our training procedure is conservative by design, has low stochasticity, is solvable with open-source solvers, and is scalable to large industrial deployments. We provide out-of-sample performance guarantees and show that hard convex physical constraints can be enforced in the training program. WaDiRo-SCNN aims to make neural networks safer for critical applications, such as in the energy sector. Finally, we numerically demonstrate the performance of our model on a synthetic experiment and a real-world power system application, i.e., the prediction of non-residential buildings' hourly energy consumption. The experimental results are convincing and showcase the strengths of the proposed model.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# Projective Cliffordsによる量子プログラミング

Qudit Quantum Programming with Projective Cliffords ( http://arxiv.org/abs/2407.16801v1 )

ライセンス: Link先を確認
Jennifer Paykin, Sam Winnick, (参考訳) 本稿では、量子演算、特に射影クリフォードをクーディ・パウリ群上の関数としてプログラミングするための新しい抽象化を紹介する。 我々は、$\mathbb{Z}_d$-linear map という観点から、パウリエンコーディングに基づく射影クリフォードの分類的意味論を定義する。 次に、$\mathbb{Z}_d$-linear mapと射影クリフォードの両方に対して型系とラムダ計算を導入し、これらの型系が関連するカテゴリの観点から健全な意味論を持つことを証明する。 最後に,プロジェクティブなクリフォードを用いてプログラミングすることの意味について,多くの実例とプログラミング構成を通して検討する。

This paper introduces a novel abstraction for programming quantum operations, specifically projective Cliffords, as functions over the qudit Pauli group. We define a categorical semantics for projective Cliffords based on Pauli encodings in terms of $\mathbb{Z}_d$-linear maps. We then introduce a type system and lambda calculus for both $\mathbb{Z}_d$-linear maps and projective Cliffords, and prove that these type systems have a sound denotational semantics in terms of the relevant categories. Finally, we explore what it means to program with projective Cliffords through a number of examples and programming constructions.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# 雑音ラベルを用いた長期データからの分布を考慮したロバスト学習

Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels ( http://arxiv.org/abs/2407.16802v1 )

ライセンス: Link先を確認
Jae Soon Baik, In Young Yoon, Kun Hoon Kim, Jun Won Choi, (参考訳) ディープニューラルネットワークは、大きく、よく注釈付けされたデータセットを使用して、様々な分野で顕著な進歩を見せている。 しかし、実世界のデータはしばしば長い尾の分布とラベルノイズを示し、一般化性能は著しく低下する。 これらの課題に対処する最近の研究は、各クラス内の高信頼度サンプルに基づいて各クラスのセントロイドを推定するノイズの多いサンプル選択方法に焦点を当てている。 これらの手法の性能は,各クラス内のトレーニングサンプルのみをクラスセントロイド推定に用いて,長い尾の分布やノイズラベルの影響を受けやすいようにしているため,制限されている。 本研究では,DASC(Dis Distribution-aware Sample Selection and Contrastive Learning)と呼ばれる,堅牢な学習フレームワークを提案する。 特に、DASCは、拡張されたクラスセントロイドを生成するために、分散対応のクラスセントロイド推定(DaCC)を導入している。 DaCCは、モデル予測に基づいて、すべてのサンプルから特徴の重み付けを行い、重み付けを行う。 さらに,バランスの取れた,堅牢な表現を得るために,信頼度に配慮したコントラスト学習戦略を提案する。 トレーニングサンプルは、高信頼度と低信頼度に分類される。 そこで本手法では,高信頼度サンプルを用いてSBCL(Semi-supervised Balanced Contrastive Loss)を適用し,信頼性の高いラベル情報を利用してクラスバイアスを緩和する。 低信頼度サンプルに対しては、MIDL(Mixup-enhanced Instance Discrimination Loss)を計算し、自己教師型で表現を改善する。 CIFARと実世界の雑音ラベルデータセットに関する実験結果から,提案したDASCの従来の手法と比較して優れた性能を示した。

Deep neural networks have demonstrated remarkable advancements in various fields using large, well-annotated datasets. However, real-world data often exhibit long-tailed distributions and label noise, significantly degrading generalization performance. Recent studies addressing these issues have focused on noisy sample selection methods that estimate the centroid of each class based on high-confidence samples within each target class. The performance of these methods is limited because they use only the training samples within each class for class centroid estimation, making the quality of centroids susceptible to long-tailed distributions and noisy labels. In this study, we present a robust training framework called Distribution-aware Sample Selection and Contrastive Learning (DaSC). Specifically, DaSC introduces a Distribution-aware Class Centroid Estimation (DaCC) to generate enhanced class centroids. DaCC performs weighted averaging of the features from all samples, with weights determined based on model predictions. Additionally, we propose a confidence-aware contrastive learning strategy to obtain balanced and robust representations. The training samples are categorized into high-confidence and low-confidence samples. Our method then applies Semi-supervised Balanced Contrastive Loss (SBCL) using high-confidence samples, leveraging reliable label information to mitigate class bias. For the low-confidence samples, our method computes Mixup-enhanced Instance Discrimination Loss (MIDL) to improve their representations in a self-supervised manner. Our experimental results on CIFAR and real-world noisy-label datasets demonstrate the superior performance of the proposed DaSC compared to previous approaches.
翻訳日:2024-07-25 15:44:18 公開日:2024-07-23
# ゼロショット人行動認識のための融合とクロスモーダル転送

Fusion and Cross-Modal Transfer for Zero-Shot Human Action Recognition ( http://arxiv.org/abs/2407.16803v1 )

ライセンス: Link先を確認
Abhi Kamboj, Anh Duy Nguyen, Minh Do, (参考訳) マルチ感覚の世界に生きているにもかかわらず、ほとんどのAIモデルは、人間の動きと行動のテキスト的および視覚的解釈に限られている。 慣性測定ユニット(IMU)は人間の動作を理解するための有能な信号を提供するが、データの解釈不能と不足のため使用が困難である。 本研究では,人行動認識(HAR)のための情報的共同表現空間の構造を用いて,視覚的・慣性的モダリティ間の知識伝達手法について検討する。 得られたFusion and Cross-modal Transfer (FACT) 法を、トレーニング中にラベル付きIMUデータにアクセスできず、テスト中にのみIMUデータでHARを実行することができる新しいセットアップに適用する。 広範囲なRGB-IMUデータセットに対する大規模な実験により、FACTはゼロショットのクロスモーダル転送において既存の手法よりも大幅に優れていることが示された。

Despite living in a multi-sensory world, most AI models are limited to textual and visual interpretations of human motion and behavior. Inertial measurement units (IMUs) provide a salient signal to understand human motion; however, they are challenging to use due to their uninterpretability and scarcity of their data. We investigate a method to transfer knowledge between visual and inertial modalities using the structure of an informative joint representation space designed for human action recognition (HAR). We apply the resulting Fusion and Cross-modal Transfer (FACT) method to a novel setup, where the model does not have access to labeled IMU data during training and is able to perform HAR with only IMU data during testing. Extensive experiments on a wide range of RGB-IMU datasets demonstrate that FACT significantly outperforms existing methods in zero-shot cross-modal transfer.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# メンタルヘルスにおけるマルチモーダル機械学習 : データ,アルゴリズム,課題の調査

Multimodal Machine Learning in Mental Health: A Survey of Data, Algorithms, and Challenges ( http://arxiv.org/abs/2407.16804v1 )

ライセンス: Link先を確認
Zahraa Al Sahili, Ioannis Patras, Matthew Purver, (参考訳) メンタルヘルス障害の検出、診断、治療における機械学習(ML)の適用は、注目を集めている。 伝統的に、研究は、臨床ノートからのテキスト、音声サンプルからの音声、対話パターンのビデオなど、単一のモダリティに焦点を当ててきた。 近年,複数のモダリティからの情報を組み合わせたマルチモーダルMLが,人間の行動パターンに対する新たな洞察を提供し,メンタルヘルスの症状やリスク要因を認識する上で,大きな可能性を示唆している。 その可能性にもかかわらず、メンタルヘルスにおけるマルチモーダルMLはいまだ発展途上であり、実用的な応用が効果的に開発される前に、いくつかの複雑な課題に直面している。 この調査は、メンタルヘルスのためのデータ可用性と最先端のマルチモーダルMLアプリケーションの概要を提供する。 フィールドを前進させるために対処しなければならない重要な課題について論じる。 この調査から得られた知見は、精神保健におけるマルチモーダルMLの可能性と限界の理解を深め、この進化する領域における将来の研究と開発を導くことを目的としている。

The application of machine learning (ML) in detecting, diagnosing, and treating mental health disorders is garnering increasing attention. Traditionally, research has focused on single modalities, such as text from clinical notes, audio from speech samples, or video of interaction patterns. Recently, multimodal ML, which combines information from multiple modalities, has demonstrated significant promise in offering novel insights into human behavior patterns and recognizing mental health symptoms and risk factors. Despite its potential, multimodal ML in mental health remains an emerging field, facing several complex challenges before practical applications can be effectively developed. This survey provides a comprehensive overview of the data availability and current state-of-the-art multimodal ML applications for mental health. It discusses key challenges that must be addressed to advance the field. The insights from this survey aim to deepen the understanding of the potential and limitations of multimodal ML in mental health, guiding future research and development in this evolving domain.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# TAMIGO:先進コンピューティング授業におけるLLM支援ビバとコードアセスメントを用いた指導アシスタントの活用

TAMIGO: Empowering Teaching Assistants using LLM-assisted viva and code assessment in an Advanced Computing Class ( http://arxiv.org/abs/2407.16805v1 )

ライセンス: Link先を確認
Anishka IIITD, Diksha Sethi, Nipun Gupta, Shikhar Sharma, Srishti Jain, Ujjwal Singhal, Dhruv Kumar, (参考訳) 大規模言語モデル (LLM) は、学生、インストラクター、および指導助手に新しいツールを提供することによって、教育の景観を大きく変えた。 本稿では,インド大学における分散システムの先進的な計算クラスにおいて,学習支援システム(TA)のビバとコードアセスメントを補助するLLMの適用について検討する。 我々は,プログラミング課題を評価するためのLLMベースのTAMシステムであるTAMIGOを開発した。 ビバ評価のために,TAはTAMIGOを用いて質問を生成し,学生に回答を求めた。 その後、TAはTAMIGOを使って学生の回答をフィードバックした。 コードアセスメントでは、TAは学生のコードから特定のコードブロックを選択し、それをTAMIGOに送ってこれらのコードブロックに対するフィードバックを生成する。 TAMIGOが生成した学生の回答とコードブロックに対するフィードバックは、TAがさらなる評価のために使用した。 我々は, LLM生成ビバ質問の品質, モデル回答, ビバ回答に対するフィードバック, 学生コード提出に対するフィードバックを評価した。 以上の結果から,LLMは十分なコンテキストと背景情報を提供すると,ビバ問題を生成するのに極めて有効であることが示唆された。 しかし, LLMによる視覚応答に対するフィードバックの結果は混在しており, 幻覚の場合, フィードバックの精度が低下することがある。 それにもかかわらず、フィードバックは一貫性があり、建設的で、包括的で、バランスが取れており、TAを圧倒することはなかった。 同様に、コード提出に関しても、LLMの生成したフィードバックは構成的で包括的でバランスが取れていたが、インストラクターが提供するルーリックとフィードバックの整合性を改善する余地があった。 本研究は,LLMを教育環境に組み込むことのメリットと限界の理解に寄与する。

Large Language Models (LLMs) have significantly transformed the educational landscape, offering new tools for students, instructors, and teaching assistants. This paper investigates the application of LLMs in assisting teaching assistants (TAs) with viva and code assessments in an advanced computing class on distributed systems in an Indian University. We develop TAMIGO, an LLM-based system for TAs to evaluate programming assignments. For viva assessment, the TAs generated questions using TAMIGO and circulated these questions to the students for answering. The TAs then used TAMIGO to generate feedback on student answers. For code assessment, the TAs selected specific code blocks from student code submissions and fed it to TAMIGO to generate feedback for these code blocks. The TAMIGO-generated feedback for student answers and code blocks was used by the TAs for further evaluation. We evaluate the quality of LLM-generated viva questions, model answers, feedback on viva answers, and feedback on student code submissions. Our results indicate that LLMs are highly effective at generating viva questions when provided with sufficient context and background information. However, the results for LLM-generated feedback on viva answers were mixed; instances of hallucination occasionally reduced the accuracy of feedback. Despite this, the feedback was consistent, constructive, comprehensive, balanced, and did not overwhelm the TAs. Similarly, for code submissions, the LLM-generated feedback was constructive, comprehensive and balanced, though there was room for improvement in aligning the feedback with the instructor-provided rubric for code evaluation. Our findings contribute to understanding the benefits and limitations of integrating LLMs into educational settings.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 多目的強化学習におけるアーキテクチャと損失関数の探索

In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2407.16807v1 )

ライセンス: Link先を確認
Mikhail Terekhov, Caglar Gulcehre, (参考訳) 多目的強化学習(MORL)は、実世界のRL問題の複雑さに対処するために不可欠である。 しかし、MORLは、深層学習に基づく関数近似器を用いた不安定な学習ダイナミクスのために困難である。 MORLがこの問題を克服するためには、様々な価値に基づく損失関数を探索することが最も重要であった。 我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。 我々はPPOをMORLに拡張するMOPPO(Multi-objective Proximal Policy Optimization)と、Ablationsの単純なベースラインとして機能するMOA2C(Multi-objective Advantage Actor Critic)の2つのアプローチを紹介する。 提案手法は実装が簡単で,関数近似器のレベルでの小さな変更しか必要としない。 我々は,MORL深海宝,鉱山カルト,リーチャーの環境を総合的に評価し,MOPPOがパレートフロントを効果的に捉えていることを示す。 パレート条件付きネットワーク(PCN)やエンベロープQ-ラーニング(Envelope Q-learning)といった一般的なMORLアプローチと比較して,MOPPOの堅牢性と汎用性を強調し,アーキテクチャ選択の影響を明らかにした。

Multi-objective reinforcement learning (MORL) is essential for addressing the intricacies of real-world RL problems, which often require trade-offs between multiple utility functions. However, MORL is challenging due to unstable learning dynamics with deep learning-based function approximators. The research path most taken has been to explore different value-based loss functions for MORL to overcome this issue. Our work empirically explores model-free policy learning loss functions and the impact of different architectural choices. We introduce two different approaches: Multi-objective Proximal Policy Optimization (MOPPO), which extends PPO to MORL, and Multi-objective Advantage Actor Critic (MOA2C), which acts as a simple baseline in our ablations. Our proposed approach is straightforward to implement, requiring only small modifications at the level of function approximator. We conduct comprehensive evaluations on the MORL Deep Sea Treasure, Minecart, and Reacher environments and show that MOPPO effectively captures the Pareto front. Our extensive ablation studies and empirical analyses reveal the impact of different architectural choices, underscoring the robustness and versatility of MOPPO compared to popular MORL approaches like Pareto Conditioned Networks (PCN) and Envelope Q-learning in terms of MORL metrics, including hypervolume and expected utility.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 量子Constacyclic BCH符号の量子領域への応用

Quantum Constacyclic BCH Codes over Qudits: A Spectral-Domain Approach ( http://arxiv.org/abs/2407.16814v1 )

ライセンス: Link先を確認
Shikha Patel, Shayan Srinivasa Garani, (参考訳) 有限フィールドフーリエ変換 (FFFT) を用いてスペクトル領域の共役符号を特徴付け, スペクトル領域デコーダの複雑性低減法を提案する。 さらに、繰り返し根の同型符号を考察し、対称および非対称の$q$-シクロトミックコセットで特徴づける。 古典的自己直交符号と二重包含符号のゼロ集合を用いて、同型ボース・シャウドゥリー・ホックケンゲム符号(BCH)および繰り返し根共型符号の量子誤り訂正符号(QECC)を導出する。 本稿では、繰り返しルートの同型符号から派生したQECCの例を示し、同型BCH符号が繰り返しルートの同型符号よりも効率的であることを示す。 最後に、Calderbank-Shor-Steane CSSベースの量子符号の変換領域にも量子エンコーダとデコーダが提案されている。 共形符号は、同じ符号パラメータを持つ巡回符号よりも最小距離の巡回符号の一般化であるため、提案結果は実用的に有用である。

We characterize constacyclic codes in the spectral domain using the finite field Fourier transform (FFFT) and propose a reduced complexity method for the spectral-domain decoder. Further, we also consider repeated-root constacyclic codes and characterize them in terms of symmetric and asymmetric $q$-cyclotomic cosets. Using zero sets of classical self-orthogonal and dual-containing codes, we derive quantum error correcting codes (QECCs) for both constacyclic Bose-Chaudhuri-Hocquenghem (BCH) codes and repeated-root constacyclic codes. We provide some examples of QECCs derived from repeated-root constacyclic codes and show that constacyclic BCH codes are more efficient than repeated-root constacyclic codes. Finally, quantum encoders and decoders are also proposed in the transform domain for Calderbank-Shor-Steane CSS-based quantum codes. Since constacyclic codes are a generalization of cyclic codes with better minimum distance than cyclic codes with the same code parameters, the proposed results are practically useful.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 臨床知識グラフとデータ駆動定量化を用いた悪性黒色腫検出のためのAI強化7点チェックリスト

AI-Enhanced 7-Point Checklist for Melanoma Detection Using Clinical Knowledge Graphs and Data-Driven Quantification ( http://arxiv.org/abs/2407.16822v1 )

ライセンス: Link先を確認
Yuheng Wang, Tianze Yu, Jiayue Cai, Sunil Kalia, Harvey Lui, Z. Jane Wang, Tim K. Lee, (参考訳) 7-point checklist (7PCL) は, 緊急医療的注意を要する悪性黒色腫病変の同定に広く用いられている。 主要な属性はそれぞれ2ポイントの価値があり、マイナーなものは1ポイントの価値がある。 合計3点以上のスコアは、しばしば生検を含むさらなる評価を促す。 しかし、現在の方法の重大な制限は属性の均一な重み付けであり、それによって不正確さが生まれ、それらの相互接続を無視する。 これまでの深層学習研究は、メラノーマの属性の臨床的意義を認識するのに失敗するメラノーマの予測と同様に、各属性の予測を重要視した。 これらの制約に対処するため,臨床知識ベーストポロジカルグラフ (CKTG) とデータ駆動重み付け標準 (GD-DDW) を用いたグラディエント診断戦略 (GD-DDW) という,革新的な2つの要素を統合する新しい診断手法を導入する。 CKTGは7PCL属性と診断情報を統合し、内部および外部の関連を明らかにする。 適応性受容ドメインと重み付きエッジを用いてメラノーマの関連特徴の関連性を確立する。 同時に、GD-DDWは皮膚科医の診断プロセスをエミュレートする。 本モデルでは, 2つの画像モダリティを同一病変に用い, 包括的特徴取得を確実にする。 悪性黒色腫とその特徴を予測し,平均85%のAUC値が得られた。 これは7ポイントチェックリストアルゴリズムで利用可能な最大のデータセットであるEDRAデータセットで検証された。 具体的には、統合重み付けシステムにより、臨床医に評価のための貴重なデータ駆動ベンチマークを提供することができる。

The 7-point checklist (7PCL) is widely used in dermoscopy to identify malignant melanoma lesions needing urgent medical attention. It assigns point values to seven attributes: major attributes are worth two points each, and minor ones are worth one point each. A total score of three or higher prompts further evaluation, often including a biopsy. However, a significant limitation of current methods is the uniform weighting of attributes, which leads to imprecision and neglects their interconnections. Previous deep learning studies have treated the prediction of each attribute with the same importance as predicting melanoma, which fails to recognize the clinical significance of the attributes for melanoma. To address these limitations, we introduce a novel diagnostic method that integrates two innovative elements: a Clinical Knowledge-Based Topological Graph (CKTG) and a Gradient Diagnostic Strategy with Data-Driven Weighting Standards (GD-DDW). The CKTG integrates 7PCL attributes with diagnostic information, revealing both internal and external associations. By employing adaptive receptive domains and weighted edges, we establish connections among melanoma's relevant features. Concurrently, GD-DDW emulates dermatologists' diagnostic processes, who first observe the visual characteristics associated with melanoma and then make predictions. Our model uses two imaging modalities for the same lesion, ensuring comprehensive feature acquisition. Our method shows outstanding performance in predicting malignant melanoma and its features, achieving an average AUC value of 85%. This was validated on the EDRA dataset, the largest publicly available dataset for the 7-point checklist algorithm. Specifically, the integrated weighting system can provide clinicians with valuable data-driven benchmarks for their evaluations.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# SINDER:DINOv2の特異欠陥の修復

SINDER: Repairing the Singular Defects of DINOv2 ( http://arxiv.org/abs/2407.16826v1 )

ライセンス: Link先を確認
Haoqi Wang, Tong Zhang, Mathieu Salzmann, (参考訳) Vision Transformerモデルは大規模なデータセットでトレーニングされるが、効果的だが、多くの場合、抽出したパッチトークンにアーティファクトを表示する。 このような欠陥は、追加の分類トークンでモデル全体をトレーニングすることで緩和できるが、これらのトークンの存在の根本原因はいまだ不明である。 本稿では,理論解析と経験的観測を組み合わせることで,この現象を徹底的に研究する。 以上の結果から,これらのアーティファクトはトレーニング済みのネットワーク自体から発生しており,特にネットワークの重みの左特異ベクトルの先頭から発生していることが判明した。 さらに, この欠陥を緩和するため, 小さなデータセットのみを用いて構造欠陥を補正し, 完全再トレーニングの必要をなくす, 微調整スムーズな正規化を提案する。 本手法は,教師なしセグメンテーション,分類,教師付きセグメンテーション,深さ推定など,様々な下流タスクにおいて有効性を示す。 コードとチェックポイントはhttps://github.com/haoqiwang/sinder.comで入手できる。

Vision Transformer models trained on large-scale datasets, although effective, often exhibit artifacts in the patch token they extract. While such defects can be alleviated by re-training the entire model with additional classification tokens, the underlying reasons for the presence of these tokens remain unclear. In this paper, we conduct a thorough investigation of this phenomenon, combining theoretical analysis with empirical observations. Our findings reveal that these artifacts originate from the pre-trained network itself, specifically stemming from the leading left singular vector of the network's weights. Furthermore, to mitigate these defects, we propose a novel fine-tuning smooth regularization that rectifies structural deficiencies using only a small dataset, thereby avoiding the need for complete re-training. We validate our method on various downstream tasks, including unsupervised segmentation, classification, supervised segmentation, and depth estimation, demonstrating its effectiveness in improving model performance. Codes and checkpoints are available at https://github.com/haoqiwang/sinder.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# ヒープ操作プログラムの経路最適シンボル実行

Path-optimal symbolic execution of heap-manipulating programs ( http://arxiv.org/abs/2407.16827v1 )

ライセンス: Link先を確認
Pietro Braione, Giovanni Denaro, (参考訳) 記号実行は、プログラム分析とテスト生成のための多くの技術の中核にある。 従来の数値入力によるプログラムのシンボリックな実行は、解析されたプログラムパスの数と同じくらい多くの分析トレースをフォークする特性を享受する。 それとは対照的に、ヒープ操作プログラムの象徴的実行に対する現在のアプローチは、この特性を満たさないため、分析の効率を著しく低下させる重い経路の爆発効果が生じる。 本稿では、当初、ヒープ操作プログラムに対して経路最適性を実現するシンボル実行アルゴリズムであるPOSEについて紹介する。 我々は,POSEアルゴリズムを小型で汎用的なオブジェクト指向プログラミング言語に形式化し,プロトタイプのシンボルエグゼキュータに形式化を実装し,データ構造を入力とするサンプルプログラムのベンチマークに対して,アルゴリズムを実験する。 我々の実験は、ヒープ操作プログラムの象徴的実行の最先端技術を改善するために、POSEの可能性を実証した最初の証拠を提供する。

Symbolic execution is at the core of many techniques for program analysis and test generation. Traditional symbolic execution of programs with numeric inputs enjoys the property of forking as many analysis traces as the number of analyzed program paths, a property that in this paper we refer to as path optimality. On the contrary, current approaches for symbolic execution of heap-manipulating programs fail to satisfy this property, thereby incurring heavy path explosion effects that crucially penalize the efficiency of the analysis. This paper introduces POSE, path-optimal symbolic execution, a symbolic execution algorithm that originally accomplishes path optimality against heap-manipulating programs. We formalize the POSE algorithm for a tiny, but representative object-oriented programming language, and implement the formalization into a prototype symbolic executor to experiment the algorithm against a benchmark of sample programs that take data structures as inputs. Our experiments provide initial empirical evidence of the potential of POSE for improving on the state of the art of symbolic execution of heap-manipulating programs.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 多目的セッションベースレコメンダシステムのパレートフロント近似

Pareto Front Approximation for Multi-Objective Session-Based Recommender Systems ( http://arxiv.org/abs/2407.16828v1 )

ライセンス: Link先を確認
Timo Wilm, Philipp Normann, Felix Stepprath, (参考訳) これは、トランスフォーマーニューラルネットワークを使用した多目的セッションベースレコメンデータシステムにパレートフロント近似技術を適用するアプローチである。 提案手法は, 選好ベクトルの学習により, クリックスルーや変換率といった重要な指標間のトレードオフを最適化する。 トレーニング後の大きな利点は、単一のモデルがパレートフロント全体にアクセスでき、目的を重み付けする追加の入力ベクトルを調整することで、異なる利害関係者の要求を満たすように調整できることである。 大規模なオフラインおよびオンライン評価を通じて、モデルの性能を検証する。 より広範なアプリケーションと研究のために、ソースコードはhttps://github.com/otto-de/MultiTRON で公開されている。 結果は、モデルが複数の推奨目標を効果的に管理する能力を確認し、多様なビジネスニーズに対して柔軟なツールを提供する。

This work introduces MultiTRON, an approach that adapts Pareto front approximation techniques to multi-objective session-based recommender systems using a transformer neural network. Our approach optimizes trade-offs between key metrics such as click-through and conversion rates by training on sampled preference vectors. A significant advantage is that after training, a single model can access the entire Pareto front, allowing it to be tailored to meet the specific requirements of different stakeholders by adjusting an additional input vector that weights the objectives. We validate the model's performance through extensive offline and online evaluation. For broader application and research, the source code is made available at https://github.com/otto-de/MultiTRON . The results confirm the model's ability to manage multiple recommendation objectives effectively, offering a flexible tool for diverse business needs.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# PlantTrack: ゼロショットSim2Real転送によるタスク駆動型プラントキーポイントトラッキング

PlantTrack: Task-Driven Plant Keypoint Tracking with Zero-Shot Sim2Real Transfer ( http://arxiv.org/abs/2407.16829v1 )

ライセンス: Link先を確認
Samhita Marri, Arun N. Sivakumar, Naveen K. Uppalapati, Girish Chowdhary, (参考訳) 植物の特徴の追跡は、表現型付け、刈り取り、収穫などの様々な農業作業に不可欠であるが、植物環境の非構造的、散らばり、変形しやすい性質は難しい課題である。 この文脈では、基礎モデルの最近の進歩は、この課題に対処する上で有望であることを示している。 本研究では,高次元特徴を提供するDINOv2を用いたPlantTrackを提案し,キーポイントヒートマップ予測ネットワークを用いて果実や葉などの意味的特徴の特定を行い,TAPIRを用いてビデオフレームを横断する点追跡のプロンプトとして利用する。 キーポイント予測器を訓練するための20個の合成画像を用いて,実環境における植物の特徴を効果的に追跡できるゼロショットSim2Real転送を実現する。

Tracking plant features is crucial for various agricultural tasks like phenotyping, pruning, or harvesting, but the unstructured, cluttered, and deformable nature of plant environments makes it a challenging task. In this context, the recent advancements in foundational models show promise in addressing this challenge. In our work, we propose PlantTrack where we utilize DINOv2 which provides high-dimensional features, and train a keypoint heatmap predictor network to identify the locations of semantic features such as fruits and leaves which are then used as prompts for point tracking across video frames using TAPIR. We show that with as few as 20 synthetic images for training the keypoint predictor, we achieve zero-shot Sim2Real transfer, enabling effective tracking of plant features in real environments.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 高効率低雑音光検出器の新しい設計パラダイム

New design paradigm for highly efficient and low noise photodetector ( http://arxiv.org/abs/2407.16830v1 )

ライセンス: Link先を確認
Sagar Chowdhury, Rituraj, Srini Krishnamurthy, Vidya Praveen Bhallamudi, (参考訳) 単一の光子雪崩検出器(SPAD)を含む高感度光検出器(PD)には、低暗数で高い量子効率(QE)を達成することが不可欠である。 しかし、高いQEはより厚い吸収領域を必要とし、これは高い暗電流とノイズをもたらすため、PDの検出率や光検出効率、SPADの暗数に影響を与える。 我々は,誘電体Mie共鳴と横伝播波の結合を利用した新しい設計パラダイムを開発した。 三重共鳴は超薄膜吸収器の角度で入射光を発射し、横波に結合すると、光は横方向に伝播し、より長い光路のために完全に吸収される。 したがって、選択した波長の材料を適切に選択することで、通常<100nmの吸収体厚で高い吸収(~90%)が可能である。 本稿では,810nmのSi線検出器と1550nmのInGaAs線検出器を設計し,室温での暗流を少なくとも2桁の精度で低減する手法を提案する。 加えて、横方向距離はしばしば数ミクロンであり、そのためこれらの設計は大きな光学的利得を得るために雪崩を可能にする可能性がある。

Achieving high quantum efficiency (QE) with low dark count is essential for highly sensitive photodetectors (PDs), including single photon avalanche detectors (SPADs). However, high QE requires a thicker absorber region, which leads to high dark current and noise, which in turn affects the detectivity of PDs and the photodetection efficiency and dark count of SPADs.The holy grail of photodetector and avalanche photodiode designs is to achieve highest QE with thinnest absorber and still enable large avalanche to gain as needed. We have developed a new design paradigm which exploits the coupling between dielectric Mie resonance and transverse propagating waves in thin layers. The Mie resonance launches the incident light at an angle in an ultrathin absorber, and when coupled to transverse waves, the light propagates laterally and is fully absorbed owing to the longer optical path. Consequently, with appropriate choice of materials for a chosen wavelength, a high absorption(~90%) within typically <100 nm absorber thickness is possible. For illustration, we apply our approach to design Si-based detector operating at 810 nm and InGaAs-based detector operating at 1550 nm and predict that the dark current at room temperature is reduced at least by two orders of magnitude. In addition, the lateral distances are often in a few microns and hence these designs can potentially enable avalanching for a large optical gain.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# Networks of Networks:複合AIシステム設計に適用された複雑度クラス原則

Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design ( http://arxiv.org/abs/2407.16831v1 )

ライセンス: Link先を確認
Jared Quincy Davis, Boris Hanin, Lingjiao Chen, Peter Bailis, Ion Stoica, Matei Zaharia, (参考訳) 実践者がモノリシックモデルの現在の信頼性と品質のフロンティアを超えようとしている中、多くの言語モデル推論コールで構成される複合AIシステムはますます採用されている。 本研究では,提案する回答の生成と正当性検証を区別したネットワークネットワーク(NoN)と呼ばれるシステムを構築する。これは,言語モデル(LM)に実証的に拡張した複雑性理論の基本概念である。 我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。 素因数分解などの合成タスクの実験やMMLUのようなコアベンチマークを通じて、顕著な性能向上を示す。 例えば、2つの3桁素数の分解生成物では、単純なNoNは精度を3.7\%から36.6\%に改善する。 MMLUでは、3つのジェネレータしか持たない検証器ベースの裁判官構成により、個々のGPT-4-Turbo呼び出しの精度が2.8 %向上する。 我々の分析によると、これらの成果は、検証が生成よりも顕著に容易な領域において最も顕著であることがわかった。 MMLUの数学的および形式的論理的推論に基づく主題に対しては,地理や宗教など他の分野の利得を伴わず,5-8\%以上の利得を観測する。 我々は、検証の複雑さを考慮することの重要性、証人フォーマットが検証可能性に与える影響、与えられた問題分布に対するこのNoNアプローチの潜在的メリットを決定するための簡単なテストなど、ML実践者にとって重要なポイントを提供する。 この研究は、複合AIシステムの設計における将来の研究と実践を知らせることを目的としている。

As practitioners seek to surpass the current reliability and quality frontier of monolithic models, Compound AI Systems consisting of many language model inference calls are increasingly employed. In this work, we construct systems, which we call Networks of Networks (NoNs) organized around the distinction between generating a proposed answer and verifying its correctness, a fundamental concept in complexity theory that we show empirically extends to Language Models (LMs). We introduce a verifier-based judge NoN with K generators, an instantiation of "best-of-K" or "judge-based" compound AI systems. Through experiments on synthetic tasks such as prime factorization, and core benchmarks such as the MMLU, we demonstrate notable performance gains. For instance, in factoring products of two 3-digit primes, a simple NoN improves accuracy from 3.7\% to 36.6\%. On MMLU, a verifier-based judge construction with only 3 generators boosts accuracy over individual GPT-4-Turbo calls by 2.8\%. Our analysis reveals that these gains are most pronounced in domains where verification is notably easier than generation--a characterization which we believe subsumes many reasoning and procedural knowledge tasks, but doesn't often hold for factual and declarative knowledge-based settings. For mathematical and formal logic reasoning-based subjects of MMLU, we observe a 5-8\% or higher gain, whilst no gain on others such as geography and religion. We provide key takeaways for ML practitioners, including the importance of considering verification complexity, the impact of witness format on verifiability, and a simple test to determine the potential benefit of this NoN approach for a given problem distribution. This work aims to inform future research and practice in the design of compound AI systems.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 検索用拡張ジェネレーションと長期LLM : 総合的研究とハイブリッドアプローチ

Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach ( http://arxiv.org/abs/2407.16833v1 )

ライセンス: Link先を確認
Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky, (参考訳) Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。 しかし、Gemini-1.5 や GPT-4 のような最近の LLM は、長いコンテキストを直接理解する特別な能力を示している。 我々は,RAGとLong-context (LC) LLMの総合的な比較を行い,両者の強みを活用することを目的とした。 3つの最新のLCMを用いて、様々な公開データセットにわたってRAGとLCをベンチマークする。 その結果,資源が十分に確保された場合,LCは平均性能において常にRAGを上回っていることがわかった。 しかしながら、RAGの大幅なコスト削減は、依然として明らかな優位性である。 そこで本研究では,モデル自己回帰に基づいてクエリをRAGやLCにルーティングする,単純かつ効果的な手法であるSelf-Routeを提案する。 Self-RouteはLCに匹敵する性能を維持しながら計算コストを大幅に削減する。 本研究は,RAGとLCを用いたLLMの長期利用に関するガイドラインを提供する。

Retrieval Augmented Generation (RAG) has been a powerful tool for Large Language Models (LLMs) to efficiently process overly lengthy contexts. However, recent LLMs like Gemini-1.5 and GPT-4 show exceptional capabilities to understand long contexts directly. We conduct a comprehensive comparison between RAG and long-context (LC) LLMs, aiming to leverage the strengths of both. We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG's significantly lower cost remains a distinct advantage. Based on this observation, we propose Self-Route, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. Self-Route significantly reduces the computation cost while maintaining a comparable performance to LC. Our findings provide a guideline for long-context applications of LLMs using RAG and LC.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# 気象条件の分類と危険予測のための多層階層的枠組み

A Multi-Level Hierarchical Framework for the Classification of Weather Conditions and Hazard Prediction ( http://arxiv.org/abs/2407.16834v1 )

ライセンス: Link先を確認
Harish Neelam, (参考訳) 本稿では,気象条件の分類と危険予知のための多段階階層的枠組みを提案する。 近年では、テキスト、数字、画像、音声、ビデオといった様々なタイプが重要な役割を果たすようになり、データの重要性が著しく高まっている。 これらのうち、画像は利用可能なデータの大部分を構成している。 本アプリケーションは,交通管理,森林整備,気象予報のための意思決定支援システムと組み合わせることで,様々な目的に期待できることを示す。 従来の天気予報があまり正確でない状況では特に役立ちます。 過去の研究では、このトピックをより少ないカテゴリで研究してきたが、今回は11種類の気象画像に焦点を当てた。 目標は、大規模な画像データセットでトレーニングされた後の気象条件を正確に予測できるモデルを作ることだ。 事故防止のためには,現実の状況において正確性が不可欠であり,本論文の最優先事項である。 この研究は、気象予報、特に人間の専門知識が得られていない、あるいは偏見がある状況における将来の応用の基盤となる。 このフレームワークは、画像の分類を、露、凍土、氷、ライム、雪、油、雨、雷、虹、砂嵐の11の気象カテゴリに分類でき、精度0.9329のリアルタイム気象情報を提供する。 提案フレームワークは,気象の正確な分類と危険予測の必要性の高まりに対処し,現場における各種アプリケーションに対する堅牢なソリューションを提供する。

This paper presents a multilevel hierarchical framework for the classification of weather conditions and hazard prediction. In recent years, the importance of data has grown significantly, with various types like text, numbers, images, audio, and videos playing a key role. Among these, images make up a large portion of the data available. This application shows promise for various purposes, especially when combined with decision support systems for traffic management, afforestation, and weather forecasting. It's particularly useful in situations where traditional weather predictions are not very accurate, such as ensuring the safe operation of self driving cars in dangerous weather. While previous studies have looked at this topic with fewer categories, this paper focuses on eleven specific types of weather images. The goal is to create a model that can accurately predict weather conditions after being trained on a large dataset of images. Accuracy is crucial in real-life situations to prevent accidents, making it the top priority for this paper. This work lays the groundwork for future applications in weather prediction, especially in situations where human expertise is not available or may be biased. The framework, capable of classifying images into eleven weather categories: dew, frost, glaze, rime, snow, hail, rain, lightning, rainbow, and sandstorm, provides real-time weather information with an accuracy of 0.9329. The proposed framework addresses the growing need for accurate weather classification and hazard prediction, offering a robust solution for various applications in the field.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# CompBench: マルチモーダルLLMの比較推論ベンチマーク

CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs ( http://arxiv.org/abs/2407.16837v1 )

ライセンス: Link先を確認
Jihyung Kil, Zheda Mai, Justin Lee, Zihe Wang, Kerrie Cheng, Lemeng Wang, Ye Liu, Arpita Chowdhury, Wei-Lun Chao, (参考訳) オブジェクト、シーン、状況を比較する能力は、日常生活における効果的な意思決定と問題解決に不可欠である。 例えば、リンゴの鮮度を比較することで、食料品の買い物中により良い選択ができる一方で、ソファのデザインを比較することは、私たちの生活空間の美学を最適化するのに役立ちます。 その重要性にもかかわらず、比較能力は人工知能(AGI)ではほとんど探索されていない。 本稿では,マルチモーダル大規模言語モデル(MLLM)の比較推論能力を評価するためのベンチマークであるCompBenchを紹介する。 CompBenchは、視覚的属性、存在、状態、感情、時間性、空間性、量、品質の8つの次元を網羅する視覚的指向の質問を通して画像をマイニングし、ペア化する。 様々な視覚データセットとCLIP類似度スコアのメタデータを用いて、約40Kの画像ペアのコレクションをキュレートする。 これらのイメージペアは、動物、ファッション、スポーツ、屋外と屋内の両方のシーンを含む、幅広い視覚領域にまたがる。 これらの質問は、2つの画像間の相対的な特徴を識別するために慎重に作成され、精度と関連性のために人間のアノテータによってラベル付けされる。 我々はCompBenchを用いて、GPT-4V(ision), Gemini-Pro, LLaVA-1.6を含む最近のMLLMを評価する。 以上の結果から, 比較能力に顕著な欠点が認められた。 CompBench はこれらの制限に光を当てるだけでなく,MLLM の比較能力の向上のための基盤も確立している,と私たちは信じています。

The ability to compare objects, scenes, or situations is crucial for effective decision-making and problem-solving in everyday life. For instance, comparing the freshness of apples enables better choices during grocery shopping, while comparing sofa designs helps optimize the aesthetics of our living space. Despite its significance, the comparative capability is largely unexplored in artificial general intelligence (AGI). In this paper, we introduce CompBench, a benchmark designed to evaluate the comparative reasoning capability of multimodal large language models (MLLMs). CompBench mines and pairs images through visually oriented questions covering eight dimensions of relative comparison: visual attribute, existence, state, emotion, temporality, spatiality, quantity, and quality. We curate a collection of around 40K image pairs using metadata from diverse vision datasets and CLIP similarity scores. These image pairs span a broad array of visual domains, including animals, fashion, sports, and both outdoor and indoor scenes. The questions are carefully crafted to discern relative characteristics between two images and are labeled by human annotators for accuracy and relevance. We use CompBench to evaluate recent MLLMs, including GPT-4V(ision), Gemini-Pro, and LLaVA-1.6. Our results reveal notable shortcomings in their comparative abilities. We believe CompBench not only sheds light on these limitations but also establishes a solid foundation for future enhancements in the comparative capability of MLLMs.
翻訳日:2024-07-25 15:32:29 公開日:2024-07-23
# Synth4Kws: 低資源環境におけるユーザ定義キーワードスポッティングのための合成音声

Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments ( http://arxiv.org/abs/2407.16840v1 )

ライセンス: Link先を確認
Pai Zhu, Dhruuv Agarwal, Jacob W. Bartel, Kurt Partridge, Hyun Jin Park, Quan Wang, (参考訳) 高品質なカスタムキーワードスポッティング(KWS)モデルを開発する上での課題の1つは、幅広い言語、フレーズ、話し方をカバーするトレーニングデータを収集する、長くて高価なプロセスである。 Synth4Kws - 異なるリソース設定でカスタムKWS用に合成されたデータをTTS(Text to Speech)を利用するフレームワークを紹介する。 実データがないと,音声コマンドデータセットの11k音声に対するEERおよびAUC測定値から,TS句の多様性の増加と発話サンプリングが単調にモデル性能を向上させることがわかった。 低リソース設定では、50kの実発話をベースラインとして、最適なTTSデータを使用することで、EERを30.1%改善し、AUCを46.7%改善できることがわかった。 さらに、TTSデータを様々な量の実データと混合し、様々な品質目標を達成するために必要な実データを補間する。 我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語や他のキーワードタイプに一般化されている。

One of the challenges in developing a high quality custom keyword spotting (KWS) model is the lengthy and expensive process of collecting training data covering a wide range of languages, phrases and speaking styles. We introduce Synth4Kws - a framework to leverage Text to Speech (TTS) synthesized data for custom KWS in different resource settings. With no real data, we found increasing TTS phrase diversity and utterance sampling monotonically improves model performance, as evaluated by EER and AUC metrics over 11k utterances of the speech command dataset. In low resource settings, with 50k real utterances as a baseline, we found using optimal amounts of TTS data can improve EER by 30.1% and AUC by 46.7%. Furthermore, we mix TTS data with varying amounts of real data and interpolate the real data needed to achieve various quality targets. Our experiments are based on English and single word utterances but the findings generalize to i18n languages and other keyword types.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# SPLAT: SParse reguLarアテンションのための最適化GPUコード生成フレームワーク

SPLAT: A framework for optimised GPU code-generation for SParse reguLar ATtention ( http://arxiv.org/abs/2407.16847v1 )

ライセンス: Link先を確認
Ahan Gupta, Yueming Yuan, Devansh Jain, Yuhao Ge, David Aponte, Yanqi Zhou, Charith Mendis, (参考訳) MHSA(Multi-head-self-attention)メカニズムは、自然言語処理や視覚タスクにまたがって、最先端のSOTA(State-of-the-art)パフォーマンスを実現する。 しかし、シーケンス長に対する2次的依存は、推論速度をボトルネックにした。 このボトルネックを回避するために、研究者は様々なスパースMHSAモデルを提案しており、そこでは注意のサブセットが計算されている。 その約束にもかかわらず、現在のスパースライブラリとコンパイラは、彼らが操作するスパースフォーマットの根底にあるため、様々なスパース-MHSAパターンのハイパフォーマンス実装をサポートしていない。 これらのフォーマットは、通常、高性能で科学的な計算用途のために設計されており、極端に多くのランダムなスパーシリティ(1%の非ゼロ値)または特定のスパーシティパターンのためにキュレートされる。 しかし、スパースMHSAのスパースパターンは適度にスパース(10-50%の非ゼロ値)であり、その結果、既存のスパースフォーマットがパフォーマンスの一般性から引き離されている。 Affine-compressed-sparse-row (ACSR) とコード生成スキーム SPLAT をサポートし,GPU 上の多様なスパース・MHSA パターンの高性能実装を生成する。 提案したフォーマットとコード生成アルゴリズムの核となるのは、共通スパース・MHSAパターンが一意に規則的な幾何学的性質を持つという観察である。 ジャスト・イン・タイムで解析できるこれらの特性は、SPLATが様々なパターンに対して高性能な実装を生成するために利用する新しい最適化とタイリング戦略を明らかにする。 SPLATの有効性を示すために、A100 GPU上でトリトンおよびTVMで書かれた手書きカーネル上で、それぞれ2.05xと4.05xのジオ平均スピードアップを達成し、様々なスパースMHSAモデルのコードを生成する。 さらに、そのインターフェースは直感的で、JAXにおける既存のMHSAの実装で簡単に使用できます。

Multi-head-self-attention (MHSA) mechanisms achieve state-of-the-art (SOTA) performance across natural language processing and vision tasks. However, their quadratic dependence on sequence lengths has bottlenecked inference speeds. To circumvent this bottleneck, researchers have proposed various sparse-MHSA models, where a subset of full attention is computed. Despite their promise, current sparse libraries and compilers do not support high-performance implementations for diverse sparse-MHSA patterns due to the underlying sparse formats they operate on. These formats, which are typically designed for high-performance & scientific computing applications, are either curated for extreme amounts of random sparsity (<1% non-zero values), or specific sparsity patterns. However, the sparsity patterns in sparse-MHSA are moderately sparse (10-50% non-zero values) and varied, resulting in existing sparse-formats trading off generality for performance. We bridge this gap, achieving both generality and performance, by proposing a novel sparse format: affine-compressed-sparse-row (ACSR) and supporting code-generation scheme, SPLAT, that generates high-performance implementations for diverse sparse-MHSA patterns on GPUs. Core to our proposed format and code generation algorithm is the observation that common sparse-MHSA patterns have uniquely regular geometric properties. These properties, which can be analyzed just-in-time, expose novel optimizations and tiling strategies that SPLAT exploits to generate high-performance implementations for diverse patterns. To demonstrate SPLAT's efficacy, we use it to generate code for various sparse-MHSA models, achieving geomean speedups of 2.05x and 4.05x over hand-written kernels written in triton and TVM respectively on A100 GPUs. Moreover, its interfaces are intuitive and easy to use with existing implementations of MHSA in JAX.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# ダイヤモンド量子センサを用いた超伝導体の臨界パラメータの検討

Studying Critical Parameters of Superconductor via Diamond Quantum Sensors ( http://arxiv.org/abs/2407.16848v1 )

ライセンス: Link先を確認
Kin On Ho, Wai Kuen Leung, Yiu Yung Pang, King Yau Yip, Jianyu Xie, Yi Man Liu, Aliki Sofia Rotelli, Man Yin Leung, Ho Yin Chow, Kwing To Lai, Andrej Denisenko, B. Keimer, Jörg Wrachtrup, Sen Yang, (参考訳) 臨界パラメータは超伝導研究の鍵であり、信頼性の高い機器は研究を促進することができる。 伝統的に、重要なパラメータを別々に測定するために、いくつかの異なる測定技術を使う必要がある。 本研究では,独立シミュレーションデータを用いて,単一種類の量子センサを用いて,いくつかの重要なパラメータを決定・推定する。 我々は, ダイヤモンド中の窒素空孔(NV)中心を利用して, 凝縮物質物理学におけるエキゾチックな特徴を見出すための候補として最近出現した。 非侵襲的で高度に安定な性質は、様々なシステムの科学的問題を解決する特別な機会を提供する。 高品質の単結晶YBa$_{2}$Cu$_{4}$O$_{8}$(YBCO)をプラットフォームとして、ダイヤモンド粒子とバルクダイヤモンドを用いてマイスナー効果を探索する。 ベクトル磁場の進化、$H-T$相図、蛍光輪郭の写像は、NVセンシングによって研究されている。 以上の結果から, 臨界磁場の低い臨界場$H_{c1}$, 臨界磁場$H_{c2}$, 臨界電流密度$j_{c}$, 高温超伝導体YBCOの非伝統的な性質を検証した。 したがって、NVベースの量子センシング技術は凝縮物質の研究において大きな可能性を秘めている。

Critical parameters are the key to superconductivity research, and reliable instrumentations can facilitate the study. Traditionally, one has to use several different measurement techniques to measure critical parameters separately. In this work, we develop the use of a single species of quantum sensor to determine and estimate several critical parameters with the help of independent simulation data. We utilize the nitrogen-vacancy (NV) center in the diamond, which recently emerged as a promising candidate for probing exotic features in condensed matter physics. The non-invasive and highly stable nature provides extraordinary opportunities to solve scientific problems in various systems. Using a high-quality single-crystalline YBa$_{2}$Cu$_{4}$O$_{8}$ (YBCO) as a platform, we demonstrate the use of diamond particles and a bulk diamond to probe the Meissner effect. The evolution of the vector magnetic field, the $H-T$ phase diagram, and the map of fluorescence contour are studied via NV sensing. Our results reveal different critical parameters, including lower critical field $H_{c1}$, upper critical field $H_{c2}$, and critical current density $j_{c}$, as well as verifying the unconventional nature of this high-temperature superconductor YBCO. Therefore, NV-based quantum sensing techniques have huge potential in condensed matter research.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# 両分割型自己構成光学による絡み合いの自動モーダル解析

Automated modal analysis of entanglement with bipartite self-configuring optics ( http://arxiv.org/abs/2407.16849v1 )

ライセンス: Link先を確認
Charles Roques-Carmes, Aviv Karnieli, David A. B. Miller, Shanhui Fan, (参考訳) 絡み合いは量子力学のユニークな特徴である。 光と物質の結合系において、絡み合いは多部量子状態の線型重ね合わせ(例えば、光場の多重空間的、スペクトル的、時間的自由度によってパラメトリケートされる)で表される。 バイパルタイト系において、シュミット分解は独立で分離可能な状態上の絡み合い構造の様相分解を与える。 絡み合いを記述し測定するためのツールとしてユビキタスであるが、二部量子状態をシュミットモードに分解する一般的な方法は存在しない。 本稿では、任意の純量子状態のシュミット分解を自動的に「学習」する二部構成光学に依存する手法を提案する。 提案手法は,量子エンタングルメントが分散される自由度に非依存であり,ネットワークの出力パワーや偶然の変動最適化によってシュミットモードと値を再構成することができる。 本稿では,自然パラメトリックダウン変換により生成した双光子のスペクトルエンタングルメント解析の数値例を示し,損失や不純物の影響を含むその実現のための実験的ガイドラインを提供する。 本手法は,バイパルタイト集積量子フォトニクス系における絡み合いを多目的かつスケーラブルに解析する方法を提供する。

Entanglement is a unique feature of quantum mechanics. In coupled systems of light and matter, entanglement manifests itself in the linear superposition of multipartite quantum states (e.g., parametrized by the multiple spatial, spectral, or temporal degrees of freedom of a light field). In bipartite systems, the Schmidt decomposition provides a modal decomposition of the entanglement structure over independent, separable states. Although ubiquitous as a tool to describe and measure entanglement, there exists no general method to decompose a bipartite quantum state onto its Schmidt modes. Here, we propose a method that relies on bipartite self-configuring optics that automatically "learns" the Schmidt decomposition of an arbitrary pure quantum state. Our method is agnostic to the degrees of freedom over which quantum entanglement is distributed and can reconstruct the Schmidt modes and values by variational optimization of the network's output powers or coincidences. We illustrate our method with numerical examples of spectral entanglement analysis for biphotons generated via spontaneous parametric down conversion and provide experimental guidelines for its realization, including the influence of losses and impurities. Our method provides a versatile and scalable way of analyzing entanglement in bipartite integrated quantum photonic systems.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# オープン量子システム -- 簡単な紹介

Open quantum systems -- A brief introduction ( http://arxiv.org/abs/2407.16855v1 )

ライセンス: Link先を確認
Fabrizio Minganti, Alberto Biella, (参考訳) このテキストは、駆動散逸多体系の物理学の短い紹介であり、いくつかの選択されたトピックに焦点を当てている。 原子物理学と量子光学の研究における「歴史的」な関心に加えて、現在、オープン量子系における散逸現象のモデリングと研究は量子ハードウェアプラットフォームを理解する上で重要である。 これらの非平衡開系に対する熱力学ポテンシャルの欠如は、理論上彼らの物理学の研究を困難にしている一方で、熱力学のパラダイムを超えて新しいエキゾチックな現象を研究することができる。 我々は、(Gorini-Kossakowski-Sudarshan-) Lindbladマスター方程式という、オープン量子系の最も単純で、もっとも効果的に記述する1つに焦点を当てる。 この現象学的アプローチは、周囲の環境と弱い相互作用をする量子系を記述する。 以下の結果の多くは任意の量子系に適用されるが、特にボソニック/スピン系に焦点をあてる。

This text is a short introduction to the physics of driven-dissipative many-body systems, focusing on a few selected topics. Beyond its more ``historical'' interest in the study of atomic physics and quantum optics, presently the modeling and studying dissipative phenomena in open quantum systems is pivotal to understanding quantum hardware platforms. While the lack of a thermodynamic potential for these out-of-equilibrium open systems makes it theoretically challenging to investigate their physics, at the same time it allows going beyond the thermodynamic paradigms and investigating new and exotic phenomena. We will focus on one of the simplest, yet most effective, descriptions of open quantum systems, namely the (Gorini-Kossakowski-Sudarshan-) Lindblad master equation. This phenomenological approach describes quantum systems that weakly interact with their surrounding environment. Although many of the results derived below will apply to any quantum system, we will focus in particular on bosonic/spin systems.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# SECRM-2D:RLをベースとした高速かつ快適な経路追従自動運転

SECRM-2D: RL-Based Efficient and Comfortable Route-Following Autonomous Driving with Analytic Safety Guarantees ( http://arxiv.org/abs/2407.16857v1 )

ライセンス: Link先を確認
Tianyu Shi, Ilia Smirnov, Omar ElSamadisy, Baher Abdulhai, (参考訳) 過去10年間で、自動運転システムへの関心が高まっている。 強化学習(Reinforcement Learning, RL)は、自律運転制御装置のトレーニングにおいて、効率の快適さや安定性といった基準を直接最適化することが可能である。 しかしながら、RLベースのコントローラは一般的に安全保証を提供しておらず、実際のデプロイの準備が困難である。 本稿では, 安全, 効率的, 快適なRLベース運転モデルであるSECRM-2Dを提案する。 上記安全制約は、誘導車両が突然ブレーキをかけた場合、衝突を避けるために追従車両が十分な進路を有する必要があるという基準から導かれる。 高速道路の運転, 退避, 合流, 緊急ブレーキなど, 模擬テストシナリオにおいて, SECRM-2D をいくつかの学習ベースラインおよび非学習ベースラインに対して評価した。 実験の結果,RL AVコントローラは安全目標を最適化しても,トレーニングとテストの両方でクラッシュする可能性が確認された。 対照的に,私たちのコントローラSECRM-2Dは,トレーニングとテストの双方でクラッシュを回避し,効率と快適性の尺度におけるベースラインを改良し,所定の経路に従うことに忠実である。 また,SECRM-2D車両のコレクションの経時的定常状態について理論的によく理解する。

Over the last decade, there has been increasing interest in autonomous driving systems. Reinforcement Learning (RL) shows great promise for training autonomous driving controllers, being able to directly optimize a combination of criteria such as efficiency comfort, and stability. However, RL- based controllers typically offer no safety guarantees, making their readiness for real deployment questionable. In this paper, we propose SECRM-2D (the Safe, Efficient and Comfortable RL- based driving Model with Lane-Changing), an RL autonomous driving controller (both longitudinal and lateral) that balances optimization of efficiency and comfort and follows a fixed route, while being subject to hard analytic safety constraints. The aforementioned safety constraints are derived from the criterion that the follower vehicle must have sufficient headway to be able to avoid a crash if the leader vehicle brakes suddenly. We evaluate SECRM-2D against several learning and non-learning baselines in simulated test scenarios, including freeway driving, exiting, merging, and emergency braking. Our results confirm that representative previously-published RL AV controllers may crash in both training and testing, even if they are optimizing a safety objective. By contrast, our controller SECRM-2D is successful in avoiding crashes during both training and testing, improves over the baselines in measures of efficiency and comfort, and is more faithful in following the prescribed route. In addition, we achieve a good theoretical understanding of the longitudinal steady-state of a collection of SECRM-2D vehicles.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# $\textit{BenchIE}^{FL}$ : Fact-based Open Information extract Benchmark

$\textit{BenchIE}^{FL}$ : A Manually Re-Annotated Fact-Based Open Information Extraction Benchmark ( http://arxiv.org/abs/2407.16860v1 )

ライセンス: Link先を確認
Fabrice Lamarche, Philippe Langlais, (参考訳) Open Information extract (OIE)は、自然言語処理の分野であり、テキスト情報を整理、分析、反映できるフォーマットで提示することを目的としている。 多くのOIEシステムが開発され、パフォーマンスが継続的に向上し、客観的なベンチマークの必要性が強調されている。 BenchIEは私たちが知っている最新のリファレンスです。 非常によく考えられたにもかかわらず、私たちはいくつかの問題が制限されていることに気づきました。 そこで我々は,候補事実が参照事実と一致した場合の誤りや省略,欠点を少なく抑えつつ,BenchIEの原理を完全に強制する新しいOIEベンチマークである$\textit{BenchIE}^{FL}$を提案する。 $\textit{BenchIE}^{FL}$は、OIE抽出器の実際の性能について、洞察に富んだ結論を導き出すことができる。

Open Information Extraction (OIE) is a field of natural language processing that aims to present textual information in a format that allows it to be organized, analyzed and reflected upon. Numerous OIE systems are developed, claiming ever-increasing performance, marking the need for objective benchmarks. BenchIE is the latest reference we know of. Despite being very well thought out, we noticed a number of issues we believe are limiting. Therefore, we propose $\textit{BenchIE}^{FL}$, a new OIE benchmark which fully enforces the principles of BenchIE while containing fewer errors, omissions and shortcomings when candidate facts are matched towards reference ones. $\textit{BenchIE}^{FL}$ allows insightful conclusions to be drawn on the actual performance of OIE extractors.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# 任意次元における投影クリフォード演算の凝縮符号化

Condensed Encodings of Projective Clifford Operations in Arbitrary Dimension ( http://arxiv.org/abs/2407.16861v1 )

ライセンス: Link先を確認
Sam Winnick, Jennifer Paykin, (参考訳) 我々は、$n$-qudit射影クリフォード群に対する構造定理の注意深い解析と、その要素に対する様々な符号化スキームを提供する。 特に、評価、構成、反転の式を導出する。 我々の結果はすべての整数に$d\geq2$、特に偶数の場合に適用されます。

We provide a careful analysis of the structure theorem for the $n$-qudit projective Clifford group and various encoding schemes for its elements. In particular, we derive formulas for evaluation, composition, and inversion. Our results apply to all integers $d\geq2$, most notably the even case.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# ランサムウェア検出のためのブロックチェーンセキュリティ

Blockchain security for ransomware detection ( http://arxiv.org/abs/2407.16862v1 )

ライセンス: Link先を確認
Elodie Ngoie Mutombo, Mike Wa Nkongolo, (参考訳) ブロックチェーンネットワークは、デジタルトランザクションや資産を保護するために重要であるが、ゼロデイ脆弱性を悪用するランサムウェア攻撃がますますターゲットになっている。 従来の検出技術は、これらのエクスプロイトの複雑さと包括的なデータセットの欠如のために苦労している。 UGRansomeデータセットは、タイムスタンプ、アタックタイプ、プロトコル、ネットワークフロー、bitcoin(BTC)の財務的影響など、ランサムウェアとゼロデイアタックを分析するための詳細な機能を提供することで、このギャップに対処する。 本研究では、Lazy Predictライブラリを使用して、UGRansomeデータセット上の機械学習(ML)を自動化する。 この研究は、UGRansomeデータセットを使用したゼロデイエクスプロイト認識に基づいてランサムウェア検出を通じてブロックチェーンセキュリティを強化することを目的としている。 Lazy Predictは、さまざまなMLモデルの比較を合理化し、脅威検出に有効なアルゴリズムを特定する。 タイムスタンプ、プロトコル、財務データなどの重要な機能は、異常をゼロデイ脅威として予測し、既知のシグネチャをランサムウェアとして分類するために使用される。 その結果、MLはブロックチェーン環境でのサイバーセキュリティを大幅に改善できることが示された。 DecisionTreeClassifierとExtraTreeClassifierは、高いパフォーマンスと低いトレーニング時間を持ち、リアルタイム脅威検出システムにおけるデプロイメントの理想的な候補である。

Blockchain networks are critical for safeguarding digital transactions and assets, but they are increasingly targeted by ransomware attacks exploiting zero-day vulnerabilities. Traditional detection techniques struggle due to the complexity of these exploits and the lack of comprehensive datasets. The UGRansome dataset addresses this gap by offering detailed features for analysing ransomware and zero-day attacks, including timestamps, attack types, protocols, network flows, and financial impacts in bitcoins (BTC). This study uses the Lazy Predict library to automate machine learning (ML) on the UGRansome dataset. The study aims to enhance blockchain security through ransomware detection based on zero-day exploit recognition using the UGRansome dataset. Lazy Predict streamlines different ML model comparisons and identifies effective algorithms for threat detection. Key features such as timestamps, protocols, and financial data are used to predict anomalies as zero-day threats and to classify known signatures as ransomware. Results demonstrate that ML can significantly improve cybersecurity in blockchain environments. The DecisionTreeClassifier and ExtraTreeClassifier, with their high performance and low training times, are ideal candidates for deployment in real-time threat detection systems.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# バランス付きマルチリレーショナルグラフクラスタリング

Balanced Multi-Relational Graph Clustering ( http://arxiv.org/abs/2407.16863v1 )

ライセンス: Link先を確認
Zhixiang Shen, Haolan He, Zhao Kang, (参考訳) マルチリレーショナルグラフクラスタリングは、複雑なネットワークの基盤となるパターンを明らかにすることに顕著な成功を収めた。 代表的手法は、対照的な学習の進歩によって動機付けられた異なる視点を整合させる。 我々の実証的研究は、現実のグラフにおいて不均衡が広範に存在することを発見し、これは原則的にアライメントの動機と矛盾する。 本稿では,まず,異なるグラフ間の構造的相違を実証的に定量化するための新しい尺度であるアグリゲーション・クラス・ディスタンス(Aggregation Class Distance)を提案する。 ビューアンバランスの課題に対処するために、教師なしのビューマイニングと二重信号誘導表現学習を含むバランス付きマルチリレーショナルグラフクラスタリング(BMGC)を提案する。 トレーニングプロセスを通じて、主要なビューを動的にマイニングし、表現学習によるクラスタリングのパフォーマンスを相乗的に改善します。 理論的分析により、支配的なビューマイニングの有効性が保証される。 実世界のデータセットと合成データセットの徹底的な実験と詳細な分析は、BMGCが最先端のパフォーマンスを達成し、マルチリレーショナルグラフに固有のビューの不均衡に対処する上で、その優位性を強調していることを示している。 ソースコードとデータセットはhttps://github.com/zxlearningdeep/BMGCで公開されている。

Multi-relational graph clustering has demonstrated remarkable success in uncovering underlying patterns in complex networks. Representative methods manage to align different views motivated by advances in contrastive learning. Our empirical study finds the pervasive presence of imbalance in real-world graphs, which is in principle contradictory to the motivation of alignment. In this paper, we first propose a novel metric, the Aggregation Class Distance, to empirically quantify structural disparities among different graphs. To address the challenge of view imbalance, we propose Balanced Multi-Relational Graph Clustering (BMGC), comprising unsupervised dominant view mining and dual signals guided representation learning. It dynamically mines the dominant view throughout the training process, synergistically improving clustering performance with representation learning. Theoretical analysis ensures the effectiveness of dominant view mining. Extensive experiments and in-depth analysis on real-world and synthetic datasets showcase that BMGC achieves state-of-the-art performance, underscoring its superiority in addressing the view imbalance inherent in multi-relational graphs. The source code and datasets are available at https://github.com/zxlearningdeep/BMGC.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# テキストからインサイトへ:材料科学データ抽出のための大規模言語モデル

From Text to Insight: Large Language Models for Materials Science Data Extraction ( http://arxiv.org/abs/2407.16867v1 )

ライセンス: Link先を確認
Mara Schilling-Wilhelmi, Martiño Ríos-García, Sherjeel Shabih, María Victoria Gil, Santiago Miret, Christoph T. Koch, José A. Márquez, Kevin Maik Jablonka, (参考訳) 科学知識の大部分は構造化されていない自然言語に存在するが、構造化データは革新的で体系的な材料設計に不可欠である。 伝統的に、フィールドは特定のユースケースのためのデータ抽出のための手動のキュレーションと部分的な自動化に依存してきた。 大規模言語モデル(LLM)の出現は、非専門家による非構造化テキストから構造化された、実行可能なデータの効率的な抽出を可能にする可能性のある、大きな変化を示している。 LLMを材料科学データ抽出に適用することは、ユニークな課題を提示する一方で、ドメイン知識はLLM出力をガイドし、検証する機会を提供する。 本総説では, 材料科学におけるLCMに基づく構造化データ抽出, 現状の知識の合成, 今後の方向性の概要について概説する。 我々は, LLMと材料科学の専門知識の相乗効果を活用するための標準化されたガイドラインの欠如に対処する。 この研究は、LLMをデータ駆動材料研究に活用することを目的とした研究者の基盤資源として機能する。 ここで提示された洞察は、研究者が科学情報にアクセスし活用する方法を大幅に強化し、重要な社会的ニーズのための新しい材料の開発を加速させる可能性がある。

The vast majority of materials science knowledge exists in unstructured natural language, yet structured data is crucial for innovative and systematic materials design. Traditionally, the field has relied on manual curation and partial automation for data extraction for specific use cases. The advent of large language models (LLMs) represents a significant shift, potentially enabling efficient extraction of structured, actionable data from unstructured text by non-experts. While applying LLMs to materials science data extraction presents unique challenges, domain knowledge offers opportunities to guide and validate LLM outputs. This review provides a comprehensive overview of LLM-based structured data extraction in materials science, synthesizing current knowledge and outlining future directions. We address the lack of standardized guidelines and present frameworks for leveraging the synergy between LLMs and materials science expertise. This work serves as a foundational resource for researchers aiming to harness LLMs for data-driven materials research. The insights presented here could significantly enhance how researchers across disciplines access and utilize scientific information, potentially accelerating the development of novel materials for critical societal needs.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# 騒音の可視化から人間と機械の推論を比較する

Trust Your Gut: Comparing Human and Machine Inference from Noisy Visualizations ( http://arxiv.org/abs/2407.16871v1 )

ライセンス: Link先を確認
Ratanond Koonchanok, Michael E. Papka, Khairi Reda, (参考訳) 人々は一般的に、あるデータセットを調べるだけでなく、基礎となるモデルや現象に関する一般的な結論を引き出すために視覚化を利用する。 これまでの研究では、人間の視覚的推論を最適なベイズエージェントの推論と比較しており、合理的分析からの逸脱は問題視されていた。 しかしながら、非ノルム的ヒューリスティックスへの人間の依存は、ある状況において有利であることを示すかもしれない。 人間の直観が理想的な統計的合理性を超えたシナリオを考察する。 2つの実験において、両変数の可視化から既知のデータ生成モデルのパラメータを特徴付ける際の個人の精度について検討した。 以上の結果より, 統計モデルに比べ, 被験者の精度は低いものの, ベイジアン剤, 特に極端な試料に直面する場合, 成績は良好であることが示唆された。 参加者は、ノイズの多いビジュアライゼーションをフィルタするために、内部モデルを頼りにしているようで、その結果、スプリアスデータに対するレジリエンスが改善された。 しかし,参加者は自信過剰を示し,不確実性評価に苦慮した。 また、統計機械よりも高いばらつきを示した。 その結果,合理性から外れた場合でも,可視化に対するアナリストの反応が有利である可能性が示唆された。 これらの結果は、視覚分析ツールの設計に意味を持ち、統計モデルと分析者の直観を統合する方法の新しい視点を提供し、推論と意思決定を改善した。 この論文のデータと資料はhttps://osf.io/qmfv6.comで公開されている。

People commonly utilize visualizations not only to examine a given dataset, but also to draw generalizable conclusions about the underlying models or phenomena. Prior research has compared human visual inference to that of an optimal Bayesian agent, with deviations from rational analysis viewed as problematic. However, human reliance on non-normative heuristics may prove advantageous in certain circumstances. We investigate scenarios where human intuition might surpass idealized statistical rationality. In two experiments, we examine individuals' accuracy in characterizing the parameters of known data-generating models from bivariate visualizations. Our findings indicate that, although participants generally exhibited lower accuracy compared to statistical models, they frequently outperformed Bayesian agents, particularly when faced with extreme samples. Participants appeared to rely on their internal models to filter out noisy visualizations, thus improving their resilience against spurious data. However, participants displayed overconfidence and struggled with uncertainty estimation. They also exhibited higher variance than statistical machines. Our findings suggest that analyst gut reactions to visualizations may provide an advantage, even when departing from rationality. These results carry implications for designing visual analytics tools, offering new perspectives on how to integrate statistical models and analyst intuition for improved inference and decision-making. The data and materials for this paper are available at https://osf.io/qmfv6
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# ディープニューラルネットワークは、グローバルオプティマイマでも機能しないのか?

How Can Deep Neural Networks Fail Even With Global Optima? ( http://arxiv.org/abs/2407.16872v1 )

ライセンス: Link先を確認
Qingguang Guan, (参考訳) 完全に接続されたディープニューラルネットワークは、分類と関数近似問題にうまく適用されている。 コスト関数、すなわち適切な重みとバイアスを見つけることで、正確な予測のためにモデルを構築することができる。 理想的な最適化プロセスは、大域的最適を達成することができる。 しかし、グローバルオプティマは常によく機能するのか? そうでなければ、どのくらい悪いのか? この研究で、私たちは次のことを目標にしています。 1) 浅いニューラルネットワークの表現力を, 簡単な手法を用いて任意の深さのネットワークに拡張する。 2) 極端に過度に適合する深層ニューラルネットワークの構築は, グローバルな最適性にもかかわらず, 分類や関数近似の問題ではまだうまく機能しない。 ReLU、Parametric ReLU、Sigmoid関数など、さまざまなタイプのアクティベーション関数が検討されている。 1次元モデルから任意の次元のモデルまで、広範囲な理論解析が行われてきた。 数値的な結果は、我々の理論的な結果を示している。

Fully connected deep neural networks are successfully applied to classification and function approximation problems. By minimizing the cost function, i.e., finding the proper weights and biases, models can be built for accurate predictions. The ideal optimization process can achieve global optima. However, do global optima always perform well? If not, how bad can it be? In this work, we aim to: 1) extend the expressive power of shallow neural networks to networks of any depth using a simple trick, 2) construct extremely overfitting deep neural networks that, despite having global optima, still fail to perform well on classification and function approximation problems. Different types of activation functions are considered, including ReLU, Parametric ReLU, and Sigmoid functions. Extensive theoretical analysis has been conducted, ranging from one-dimensional models to models of any dimensionality. Numerical results illustrate our theoretical findings.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# 包括的フレームワークによるマイクロサービス保守性保証の確立

Fostering Microservice Maintainability Assurance through a Comprehensive Framework ( http://arxiv.org/abs/2407.16873v1 )

ライセンス: Link先を確認
Amr S. Abdelfattah, (参考訳) クラウドネイティブなシステムは、スケーラブルで大規模なシステム構築における大きな飛躍であり、自己完結したコンポーネントを通じて分散システムを開発する上で重要な要素としてマイクロサービスアーキテクチャを使用している。 しかしながら、これらのシステムの分散した性質は、別々のソースコードとデプロイメントによって特徴づけられ、システム品質を評価する上での課題がもたらされる。 マイクロサービスベースのシステムは、その固有の複雑さと、複数のマイクロサービス間での調整された変更の必要性により、確立されたベストプラクティスとガイドラインが欠如し、全体論的なシステムビューの構築と理解の難しさにつながります。 このギャップはパフォーマンスの低下とメンテナンスコストの増大をもたらし、システムリファクタリングが必要になる可能性がある。 このプロジェクトの主な目標は、マイクロサービス実践者のための保守性保証を提供することだ。 マイクロサービスアーキテクチャに適した自動アセスメントフレームワークを導入し、複数のシステムの観点から実践者の理解と分析能力を強化した。 このフレームワークは、アーティファクトから静的および動的システム特性の全体像の構築に至るまで、さまざまな粒度レベルに対処する。 結合検出、テストカバレッジ測定、セマンティッククローン識別など、アーキテクチャの視覚化や自動評価といった人間中心の要素を含む、さまざまな視点を統合している。 実践者を含む検証研究は、さまざまな品質と保守性の問題に対処する上で、フレームワークの有効性を実証している。

Cloud-native systems represent a significant leap in constructing scalable, large systems, employing microservice architecture as a key element in developing distributed systems through self-contained components. However, the decentralized nature of these systems, characterized by separate source codes and deployments, introduces challenges in assessing system qualities. Microservice-based systems, with their inherent complexity and the need for coordinated changes across multiple microservices, lack established best practices and guidelines, leading to difficulties in constructing and comprehending the holistic system view. This gap can result in performance degradation and increased maintenance costs, potentially requiring system refactoring. The main goal of this project is to offer maintainability assurance for microservice practitioners. It introduces an automated assessment framework tailored to microservice architecture, enhancing practitioners' understanding and analytical capabilities of the multiple system perspectives. The framework addresses various granularity levels, from artifacts to constructing holistic views of static and dynamic system characteristics. It integrates diverse perspectives, encompassing human-centric elements like architectural visualization and automated evaluations, including coupling detection, testing coverage measurement, and semantic clone identification. Validation studies involving practitioners demonstrate the framework's effectiveness in addressing diverse quality and maintainability issues, revealing insights not apparent when analyzing individual microservices in isolation.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# 自律的な表面ひび割れ修復のための視覚型適応ロボット

Vision-Based Adaptive Robotics for Autonomous Surface Crack Repair ( http://arxiv.org/abs/2407.16874v1 )

ライセンス: Link先を確認
Joshua Genova, Eric Cabrera, Vedhus Hoskere, (参考訳) インフラストラクチャの表面ひび割れは、効率的に修復しなければ、大幅な劣化とコストのかかるメンテナンスにつながる可能性がある。 手作業による修復法は、労働集約的で、時間がかかり、不正確であり、大規模に拡張することは困難である。 ロボットの認識と操作におけるブレークスルーは、高度な自律的なクラック修復を達成しているが、提案手法は、クラックサイズの変化に対するエンドツーエンドのテストと適応性に欠ける。 本稿では,高度なセンシング技術を備えたロボットを用いた表面き裂検出と修復のための適応型自律システムを提案する。 このシステムは、亀裂検出にRGB-Dカメラ、精密測定にレーザースキャナー、押出機と物質沈着用ポンプを使用する。 3Dプリントしたクラックを用いた新しい検証手法は、現実世界のクラックをシミュレートし、再現性を確保する。 本研究は, クラック充填の適応システムは固定速度法よりも効率的かつ効果的であり, 精度と整合性を確認した実験結果である。 この研究は、多目的で信頼性の高いロボットインフラのメンテナンスの道を開く。

Surface cracks in infrastructure can lead to significant deterioration and costly maintenance if not efficiently repaired. Manual repair methods are labor-intensive, time-consuming, and imprecise and thus difficult to scale to large areas. Breakthroughs in robotic perception and manipulation have advanced autonomous crack repair, but proposed methods lack end-to-end testing and adaptability to changing crack size. This paper presents an adaptive, autonomous system for surface crack detection and repair using robotics with advanced sensing technologies. The system uses an RGB-D camera for crack detection, a laser scanner for precise measurement, and an extruder and pump for material deposition. A novel validation procedure with 3D-printed crack specimens simulates real-world cracks and ensures testing repeatability. Our study shows that an adaptive system for crack filling is more efficient and effective than a fixed-speed approach, with experimental results confirming precision and consistency. This research paves the way for versatile, reliable robotic infrastructure maintenance.
翻訳日:2024-07-25 15:22:45 公開日:2024-07-23
# PathwayBench: 多都市画像から推定した歩行者パスウェイネットワークのロバスト性の評価

PathwayBench: Assessing Routability of Pedestrian Pathway Networks Inferred from Multi-City Imagery ( http://arxiv.org/abs/2407.16875v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Bill Howe, Sachin Mehta, Nicholas-J Bolten, Anat Caspi, (参考訳) 都市部における歩行者の移動を支援するには、構築された環境の完全かつ頑健なグラフ表現が必要である。 道路ネットワークの経路に対して、歩行者ネットワークの経路はより狭く、より頻繁に切断され、小さな地域では視覚的にも物質的にも変化し、その境界線は、自動車道の侵入、路地、標識や標識のない横断路によって分割される。 既存の歩行者経路網グラフを抽出するアルゴリズムは不整合性の評価を受けており、不規則性を無視する傾向があり、モビリティアプリケーションの有用性を評価するのが困難である: もし全ての経路セグメントが利用可能であったとしても、不連続性は歩行者が取る全経路を劇的に、任意にシフトさせることができる。 本稿では,歩行者経路グラフ抽出問題に対する最初の標準ベンチマークについて述べる。このベンチマークは,手動で検証した地上真実アノテーション(8都市から3,000km^2$の土地面積をカバー)を備えた,最大規模のデータセットと,暴走性と下流ユーティリティを中心とした評価指標のファミリーから構成される。 個々の交点の規模でデータをポリゴンに分割することにより、局所的なルタビリティをグローバルなルタビリティの効率的なプロキシとして計算する。 本稿では,ポリゴンレベルの可逆性に関する複数の測度を考察し,予測測度と基底真理との比較を行い,評価測度を構築する。 これらの指標を用いて、このベンチマークは、コンピュータビジョンと機械学習において困難で高影響のあった問題を示す、前処理で使用される単一領域データセット上の単純なエッジカウントメトリクスによって隠された既存のメソッドの長所と短所を明らかにすることができることを示す。

Applications to support pedestrian mobility in urban areas require a complete, and routable graph representation of the built environment. Globally available information, including aerial imagery provides a scalable source for constructing these path networks, but the associated learning problem is challenging: Relative to road network pathways, pedestrian network pathways are narrower, more frequently disconnected, often visually and materially variable in smaller areas, and their boundaries are broken up by driveway incursions, alleyways, marked or unmarked crossings through roadways. Existing algorithms to extract pedestrian pathway network graphs are inconsistently evaluated and tend to ignore routability, making it difficult to assess utility for mobility applications: Even if all path segments are available, discontinuities could dramatically and arbitrarily shift the overall path taken by a pedestrian. In this paper, we describe a first standard benchmark for the pedestrian pathway graph extraction problem, comprising the largest available dataset equipped with manually vetted ground truth annotations (covering $3,000 km^2$ land area in regions from 8 cities), and a family of evaluation metrics centering routability and downstream utility. By partitioning the data into polygons at the scale of individual intersections, we compute local routability as an efficient proxy for global routability. We consider multiple measures of polygon-level routability and compare predicted measures with ground truth to construct evaluation metrics. Using these metrics, we show that this benchmark can surface strengths and weaknesses of existing methods that are hidden by simple edge-counting metrics over single-region datasets used in prior work, representing a challenging, high-impact problem in computer vision and machine learning.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-23
# ニューラルネットワークに基づくBandit: IIoT Alarmシナリオの媒体アクセス制御

Neural Network-Based Bandit: A Medium Access Control for the IIoT Alarm Scenario ( http://arxiv.org/abs/2407.16877v1 )

ライセンス: Link先を確認
Prasoon Raghuwanshi, Onel Luis Alcaraz López, Neelesh B. Mehta, Hirley Alves, Matti Latva-aho, (参考訳) 効率的なランダムアクセス(RA)は、産業用モノのインターネット(IIoT)ネットワークにおける信頼性の高い通信を可能にするために重要である。 本稿では、IIoTアラームシナリオに対して、NNBB(Neural Network-Based Bandit)と題する、深層強化学習に基づく分散RAスキームを提案する。 このようなシナリオでは、デバイスは共通のクリティカルイベントを検出し、アラーム情報が少なくとも1つのデバイスから確実に配信されることが目標である。 提案したNNBBスキームは各デバイスに実装され、オンラインでトレーニングし、共通目標を達成するために暗黙のデバイス間調整を確立する。 デバイスは複数の直交チャネル上で同時に送信することができ、それぞれの送信パターンはNNBBに対して可能なアクションを構成する。 シミュレーションの結果,ネットワーク内のデバイス数の増加に伴い,マルチアーマッドバンド (MAB) RA ベンチマークと比較してNNBBの性能向上が見られた。 例えば、NNBBは4つのチャンネルがあり、デバイス数は10から60に増加し、MABは25%減少している。

Efficient Random Access (RA) is critical for enabling reliable communication in Industrial Internet of Things (IIoT) networks. Herein, we propose a deep reinforcement learning based distributed RA scheme, entitled Neural Network-Based Bandit (NNBB), for the IIoT alarm scenario. In such a scenario, the devices may detect a common critical event, and the goal is to ensure the alarm information is delivered successfully from at least one device. The proposed NNBB scheme is implemented at each device, where it trains itself online and establishes implicit inter-device coordination to achieve the common goal. Devices can transmit simultaneously on multiple orthogonal channels and each possible transmission pattern constitutes a possible action for the NNBB, which uses a deep neural network to determine the action. Our simulation results show that as the number of devices in the network increases, so does the performance gain of the NNBB compared to the Multi-Armed Bandit (MAB) RA benchmark. For instance, NNBB experiences a 7% success rate drop when there are four channels and the number of devices increases from 10 to 60, while MAB faces a 25% drop.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-23
# 量子気象学におけるプローブ・アンシラ相互作用によるハイゼンベルクスケーリングの実現

Achieving Heisenberg scaling by probe-ancilla interaction in quantum metrology ( http://arxiv.org/abs/2407.16880v1 )

ライセンス: Link先を確認
Jingyi Fan, Shengshi Pang, (参考訳) ハイゼンベルクスケーリング(英: Heisenberg Scaling)は、量子力学の原理によって許容されるパラメータ推定の究極的な精度限界であり、古典的な領域にはない。 プローブ間の相互作用は、絡み合わずにハイゼンベルクスケーリングに到達するのに役立つことが知られている。 本研究は,プローブと補助システムの付加次元との相互作用により,パラメータ推定の精度を向上し,標準量子限界を超越し,測定スキームが適切に設計されている場合,エンタングルメントを伴わないハイゼンベルクスケーリングを実現することができることを示す。 量子フィッシャー情報は進化時間の周期的なパターンを示し、量子フィッシャー情報を最大化できる測定のための最適な時間点の存在を示唆している。 本プロトコルでは,ハミルトニアンのパラメータに対するハイゼンベルクスケーリングを,進化時間とプローブ数の両方の観点から実現している。 私たちのプロトコルには2つの側面があります。 i) ハイゼンベルクスケーリングはプローブの積状態によって達成できる。 (II) 単にアシラの局所的な測定だけで十分であり、どちらもハイゼンベルクスケーリングを達成するために量子資源と実装の複雑さを減少させる。

The Heisenberg scaling is an ultimate precision limit of parameter estimation allowed by the principles of quantum mechanics, with no counterpart in the classical realm, and has been a long-pursued goal in quantum metrology. It has been known that interactions between the probes can help reach the Heisenberg scaling without entanglement. In this work, we show that interactions between the probes and the additional dimensions of an ancillary system may also increase the precision of parameter estimation to surpass the standard quantum limit and attain the Heisenberg scaling without entanglement, if the measurement scheme is properly designed. The quantum Fisher information exhibits periodic patterns over the evolution time, implying the existence of optimal time points for measurements that can maximize the quantum Fisher information. By implementing optimizations over the Hamiltonian, the initial states of the probes and the ancillary system, the interaction strength and the time points for measurements, our protocol achieves the Heisenberg scaling for the parameter of the probe Hamiltonian, in terms of both evolution time and probe number. Our protocol features in two aspects: (i) the Heisenberg scaling can be achieved by a product state of the probes, (ii) mere local measurement on the ancilla is sufficient, both of which reduce the quantum resources and the implementation complexity to achieve the Heisenberg scaling.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-23
# ビデオ・パッスルー・ヘッドセットが自己や他者の知覚にどのように影響するか

How Video Passthrough Headsets Influence Perception of Self and Others ( http://arxiv.org/abs/2407.16904v1 )

ライセンス: Link先を確認
Monique Santoso, Jeremy N. Bailenson, (参考訳) ビデオパススルー機能を備えた複合現実感ヘッドセットの普及に伴い、知覚と社会的効果に対する懸念が表面化している。 本研究は,事前定性的知見に基づいて,ビデオパススルーがユーザに与える影響を定量的に検討する。 40人の参加者が1度はヘッドセットを装着しながら2回、そして1度はヘッドセットを装着せずに、ボディ転送タスクを完了した。 その結果、ビデオパススルーは、シミュレーター病を誘発し、社会的不在を生じさせ(身体の他の人物は、あまり存在感がないと感じている)、自己報告された身体スキーマを変更し、距離知覚を歪ませることを示す。 一方、過去の研究では、ビデオパススルーによる知覚的残効が見られたが、現在の研究では、何も見つからなかった。 本稿では、複合現実感ヘッドセットの普及と、その存在と身体移動に関する理論への影響について論じる。

With the increasing adoption of mixed reality headsets with video passthrough functionality, concerns over perceptual and social effects have surfaced. Building on prior qualitative findings, this study quantitatively investigates the impact of video passthrough on users. Forty participants completed a body transfer task twice, once while wearing a headset in video passthrough and once without a headset. Results indicate that using video passthrough induces simulator sickness, creates social absence, (another person in the physical room feels less present), alters self-reported body schema, and distorts distance perception. On the other hand, compared to past research which showed perceptual aftereffects from video passthrough, the current study found none. We discuss the broader implications for the widespread adoption of mixed reality headsets and their impact on theories surrounding presence and body transfer.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-23
# 世代制約スケーリングは幻覚を緩和できる

Generation Constraint Scaling Can Mitigate Hallucination ( http://arxiv.org/abs/2407.16908v1 )

ライセンス: Link先を確認
Georgios Kollias, Payel Das, Subhajit Chaudhury, (参考訳) 大型言語モデル(LLM)における幻覚の問題に対処することは重要な課題である。 幻覚の認知機構は記憶と関係しているため, 明示的な記憶機構が有効である LLM の幻覚について検討する。 メモリ拡張LDMデコーダにおける生成を制約する読み出しベクトルを単純にスケーリングすることで、幻覚の緩和をトレーニング不要な方法で実現できることを実証的に示す。 本手法は,ウィキペディア風のバイオグラフィーエントリの生成作業において,生成品質と実行時複雑性の両面で,最先端のLCM編集手法より優れる。

Addressing the issue of hallucinations in large language models (LLMs) is a critical challenge. As the cognitive mechanisms of hallucination have been related to memory, here we explore hallucination for LLM that is enabled with explicit memory mechanisms. We empirically demonstrate that by simply scaling the readout vector that constrains generation in a memory-augmented LLM decoder, hallucination mitigation can be achieved in a training-free manner. Our method is geometry-inspired and outperforms a state-of-the-art LLM editing method on the task of generation of Wikipedia-like biography entries both in terms of generation quality and runtime complexity.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-23
# テンソル分解に基づく可逆論理回路合成アルゴリズム

An Algorithm for Reversible Logic Circuit Synthesis Based on Tensor Decomposition ( http://arxiv.org/abs/2107.04298v4 )

ライセンス: Link先を確認
Hochang Lee, Kyung Chul Jeong, Daewan Han, Panjin Kim, (参考訳) 可逆論理合成のためのアルゴリズムを提案する。 与えられた$n$-bit置換写像 $P_n: \{0,1\}^n \rightarrow \{0,1\}^n$ に対して、地図を実装する可逆論理ゲートの列を見つける。 この作品で採用されたゲートライブラリーは、$C^m\! X$、$m$は0から$n-1$までの制御ビットの数である。 大きな$m \,\,(>2)$の制御ゲートはさらに$C^0\!に分解される。 X$, $C^1\! X$, and $C^2\! X$ゲート。 アルゴリズムの設計における主な関心事は、$C^2\!の使用を減らすことである。 X$ゲート(トフォリゲートとも呼ばれる)は普遍的であることが知られている。 主な考え方は、$n$-ビット置換写像をランク-$2n$テンソルとみなし、結果として得られる写像をランク-($2n-2$)テンソルと2\times 2$ID行列のテンソル積として書けるように変換することである。 $\mathcal{P}_n$ をすべての$n$-bit置換写像の集合とする。 サイズ縮小写像 $\mathcal{A}_{\rm red}: \mathcal{P}_n \rightarrow \{P_n: P_n = P_{n-1} \otimes I_2\}$ が見つかる。 %であり、$I_m$は$m\times m$ ID行列である。 出力 $P_{n-1} \otimes I_2$ が $n-1$ ビットのみに非自明に作用していることが分かるので、合成される写像は$P_{n-1}$となる。 サイズ縮小プロセスは、わずか2 × 2$ のテンソル積に達するまで繰り返し適用される。

An algorithm for reversible logic synthesis is proposed. The task is, for a given $n$-bit substitution map $P_n: \{0,1\}^n \rightarrow \{0,1\}^n$, to find a sequence of reversible logic gates that implements the map. The gate library adopted in this work consists of multiple-controlled Toffoli gates denoted by $C^m\!X$, where $m$ is the number of control bits that ranges from 0 to $n-1$. Controlled gates with large $m \,\,(>2)$ are then further decomposed into $C^0\!X$, $C^1\!X$, and $C^2\!X$ gates. A primary concern in designing the algorithm is to reduce the use of $C^2\!X$ gate (also known as Toffoli gate) which is known to be universal. The main idea is to view an $n$-bit substitution map as a rank-$2n$ tensor and to transform it such that the resulting map can be written as a tensor product of a rank-($2n-2$) tensor and the $2\times 2$ identity matrix. Let $\mathcal{P}_n$ be a set of all $n$-bit substitution maps. What we try to find is a size reduction map $\mathcal{A}_{\rm red}: \mathcal{P}_n \rightarrow \{P_n: P_n = P_{n-1} \otimes I_2\}$. %, where $I_m$ is the $m\times m$ identity matrix. One can see that the output $P_{n-1} \otimes I_2$ acts nontrivially on $n-1$ bits only, meaning that the map to be synthesized becomes $P_{n-1}$. The size reduction process is iteratively applied until it reaches tensor product of only $2 \times 2$ matrices.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# 文書スタイルガイドを用いた文書レイアウト解析

Cross-Domain Document Layout Analysis Using Document Style Guide ( http://arxiv.org/abs/2201.09407v2 )

ライセンス: Link先を確認
Xingjiao Wu, Luwei Xiao, Xiangcheng Du, Yingbin Zheng, Xin Li, Tianlong Ma, Cheng Jin, Liang He, (参考訳) 文書レイアウト分析(DLA)は、文書イメージを高レベルの意味領域(図形、表、テキスト、背景など)に分解することを目的としている。 ドキュメントオブジェクトはレイアウト、サイズ、アスペクト比、テクスチャなどにおいて多様性があるため、強力な一般化機能を備えたDLAフレームワークの作成は困難である。 多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。 しかし、合成トレーニングデータは、異なるスタイルと不規則な品質を有する。 さらに、ソースデータとターゲットデータの間には大きなギャップがあります。 本稿では,文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。 文書品質評価と文書クロスドメイン分析を統一的なフレームワークに統合した。 本フレームワークは,文書レイアウトジェネレータ(GLD),文書要素宣言器(GED),文書スタイル識別器(DSD)の3つのコンポーネントから構成される。 GLDはドキュメントレイアウト生成に使われ、GEDはドキュメントレイアウト要素を埋めるのに使われ、DSDはドキュメント品質評価とクロスドメインガイダンスに使用される。 まず、生成した文書の位置を予測するためにGLDを適用する。 そこで我々は,文書の位置を補うための美的ガイダンスに基づく新しいアルゴリズムを設計する。 最後に、コントラスト学習を用いて文書の品質評価を行う。 さらに、文書品質評価コンポーネントを文書クロスドメインスタイルガイドコンポーネントに変更するための新しい戦略を設計する。 私たちのフレームワークは教師なしのドキュメントレイアウト分析フレームワークです。 我々は,提案手法が優れた性能を達成できたことを,数多くの実験を通じて証明した。

The document layout analysis (DLA) aims to decompose document images into high-level semantic areas (i.e., figures, tables, texts, and background). Creating a DLA framework with strong generalization capabilities is a challenge due to document objects are diversity in layout, size, aspect ratio, texture, etc. Many researchers devoted this challenge by synthesizing data to build large training sets. However, the synthetic training data has different styles and erratic quality. Besides, there is a large gap between the source data and the target data. In this paper, we propose an unsupervised cross-domain DLA framework based on document style guidance. We integrated the document quality assessment and the document cross-domain analysis into a unified framework. Our framework is composed of three components, Document Layout Generator (GLD), Document Elements Decorator(GED), and Document Style Discriminator(DSD). The GLD is used to document layout generates, the GED is used to document layout elements fill, and the DSD is used to document quality assessment and cross-domain guidance. First, we apply GLD to predict the positions of the generated document. Then, we design a novel algorithm based on aesthetic guidance to fill the document positions. Finally, we use contrastive learning to evaluate the quality assessment of the document. Besides, we design a new strategy to change the document quality assessment component into a document cross-domain style guide component. Our framework is an unsupervised document layout analysis framework. We have proved through numerous experiments that our proposed method has achieved remarkable performance.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# 分数量子ホール効果モデルのスペクトル一貫性

The spectrum consistency of fractional quantum Hall effect model ( http://arxiv.org/abs/2204.02534v2 )

ライセンス: Link先を確認
O. M. Del Cima, L. S. Lima, E. S. Miranda, (参考訳) 3つのフェルミオン族$U(1)\times U(1)$3次元の量子電磁力学(Phys. Rev. Lett. 124 (2020) 131601)のスペクトル一貫性を解析した。 当初提案された作用は、スペクトルに負のノルム状態を示すことによってゲージ場セクターのユニタリティ整合性条件に違反していることが確認されている。 しかし、この治療法は基本ゲージ場を適切に解決し、したがって基本フィールドで書き直されたアクションは、任意の急激な自由度から解放されることが示され、モデルがより量子化するために安全になった。

The spectrum consistency of the three fermion family $U(1)\times U(1)$ quantum electrodynamics in three space-time dimensions [Phys. Rev. Lett. 124 (2020) 131601] is analyzed. It has been verified that the originally proposed action violates the unitarity consistency condition in the gauge field sector by exhibiting negative norm states in the spectrum. However, the cure came through the fundamental gauge fields properly settled, consequently, the action rewritten in terms of those fundamental fields shows to be free from any spurious degrees of freedom, and the model now becomes safe for further quantization.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# ガウス行列の永久的量子推定境界

Quantum estimation bound of Gaussian matrix permanent ( http://arxiv.org/abs/2205.01328v3 )

ライセンス: Link先を確認
Joonsuk Huh, (参考訳) 行列永久性の厳密な計算と乗算誤差推定は、古典コンピュータと量子コンピュータの両方において困難である。 ランダムガウス行列の永久性については、加算誤差推定はボソンサンプリングと密接に関連しており、乗算誤差推定には指数関数的に多くのサンプリングが必要である。 Gurvitsの古典的サンプリングアルゴリズムと比較して,新たに開発された行列永久数とその対応する量子式は,ランダムなガウス行列に対する平均加法誤差のより優れた推定を可能にした。 有名なライザーの公式は、量子永久推定器に変換されている。 実ランダムなガウス平方行列を$N$で扱うとき、量子推定器は行列を$\epsilon(\sqrt{\mathrm{e}N})^{N}$より小さい加法誤差で永久的に近似することができる。 対照的に、ガーヴィットの古典的なサンプリングアルゴリズムは$\epsilon(2\sqrt{N})^{N}$という推定誤差を持ち、これは量子法よりも指数関数的に大きい(1.2^{N}$)。 予想通り、量子加法的誤差境界は、$(2\pi N)^{1/4}\epsilon(\sqrt{N/\mathrm{e}})^{N}$の乗法誤差境界に達することに失敗する。 さらに、量子位相推定に基づく振幅推定を使用する場合、量子永久推定器は古典的推定器よりも最大で2倍高速である。

Exact calculation and even multiplicative error estimation of matrix permanent are challenging for both classical and quantum computers. Regarding the permanents of random Gaussian matrices, the additive error estimation is closely linked to boson sampling, and achieving multiplicative error estimation requires exponentially many samplings. Our newly developed formula for matrix permanents and its corresponding quantum expression have enabled better estimation of the average additive error for random Gaussian matrices compared to Gurvits' classical sampling algorithm. The well-known Ryser formula has been converted into a quantum permanent estimator. When dealing with real random Gaussian square matrices of size $N$, the quantum estimator can approximate the matrix permanent with an additive error smaller than $\epsilon(\sqrt{\mathrm{e}N})^{N}$, where $\epsilon$ is the estimation precision. In contrast, Gurvits' classical sampling algorithm has an estimation error of $\epsilon(2\sqrt{N})^{N}$, which is exponentially larger ($1.2^{N}$) than the quantum method. As expected, the quantum additive error bound fails to reach the multiplicative error bound of $(2\pi N)^{1/4}\epsilon(\sqrt{N/\mathrm{e}})^{N}$. Additionally, the quantum permanent estimator can be up to quadratically faster than the classical estimator when using quantum phase estimation-based amplitude estimation.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# Kernel Memory Networks: メモリモデリングのための統一フレームワーク

Kernel Memory Networks: A Unifying Framework for Memory Modeling ( http://arxiv.org/abs/2208.09416v3 )

ライセンス: Link先を確認
Georgios Iatropoulos, Johanni Brea, Wulfram Gerstner, (参考訳) 我々は、ニューラルネットワークをトレーニングして、最大ノイズロバスト性を持つパターンの集合を格納する問題を考察する。 最適ウェイトと状態更新規則の観点で、解は、各ニューロンに最小ウェイトノルムでカーネル分類または補間を行うよう訓練することで導出される。 この手法をフィードフォワードおよびリカレントネットワークに適用することにより、最近のホップフィールドネットワークやカネルバのスパース分散メモリなど、近年提案されてきた異種・自己連想型メモリモデルの多くを含む、カーネルメモリネットワークと呼ばれる最適なモデルが導出される。 カネルバのモデルを修正し、有限のアトラクションを持つ指数関数的な連続値パターンを格納できるカーネルメモリネットワークを設計する簡単な方法を示す。 カーネルメモリネットワークのフレームワークは、従来のメモリモデルの記憶能力を理解するためのシンプルで直感的な方法を提供する。

We consider the problem of training a neural network to store a set of patterns with maximal noise robustness. A solution, in terms of optimal weights and state update rules, is derived by training each individual neuron to perform either kernel classification or interpolation with a minimum weight norm. By applying this method to feed-forward and recurrent networks, we derive optimal models, termed kernel memory networks, that include, as special cases, many of the hetero- and auto-associative memory models that have been proposed over the past years, such as modern Hopfield networks and Kanerva's sparse distributed memory. We modify Kanerva's model and demonstrate a simple way to design a kernel memory network that can store an exponential number of continuous-valued patterns with a finite basin of attraction. The framework of kernel memory networks offers a simple and intuitive way to understand the storage capacity of previous memory models, and allows for new biological interpretations in terms of dendritic non-linearities and synaptic cross-talk.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# 導波路に結合した3レベル=$$原子を用いた光子の異なる周波数成分間の相対位相の検出

Detecting the relative phase between different frequency components of a photon using a three-level $Λ$ atom coupled to a waveguide ( http://arxiv.org/abs/2208.13136v3 )

ライセンス: Link先を確認
Janet Zhong, Rituraj, Fatih Dinc, Shanhui Fan, (参考訳) 導波路に沿って伝播する1つの光子の散乱を、導波路に結合した2つの非退化基底状態の重ね合わせにおいて、1つの3レベル$\Lambda$原子を持つ任意の重ね合わせ状態の2つの周波数で研究する。 散乱は、光子周波数間の相対位相と原子基底状態間の相対位相の両方に依存する。 その結果、導波管に結合した3レベル$\Lambda$原子が光子位相フィルタとして利用でき、光子重畳状態の2つの周波数間の相対位相を検出することができた。

We study the scattering of a single photon propagating along a waveguide in an arbitrary superposition state two frequencies with a single three-level $\Lambda$ atom in a superposition of two non-degenerate ground states where the atom is coupled to a waveguide. We find that the scattering depends on both the relative phase between the photon frequencies and the relative phase between the atomic ground states. Our results show that a three-level $\Lambda$ atom coupled to a waveguide can be used as photon phase filter that could detect the relative phase between the two frequencies of the photon superposition state.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# 人為的ビデオ異常検出のための収縮骨格運動学

Contracting Skeletal Kinematics for Human-Related Video Anomaly Detection ( http://arxiv.org/abs/2301.09489v5 )

ライセンス: Link先を確認
Alessandro Flaborea, Guido D'Amely, Stefano D'Arrigo, Marco Aurelio Sterpa, Alessio Sampieri, Fabio Galasso, (参考訳) 人間の行動の異常を検出することは、ストリートファイトや高齢者の転倒といった危険な状況を認識するために、タイムリーに最重要である。 しかし、異常事象は稀であり、それがオープンな集合認識タスクであるため、推論における異常とは何かが訓練中に観測されていないため、異常検出は複雑である。 COSKADは,人間の骨格の動きをグラフ畳み込みネットワークで符号化し,ビデオ異常検出のための最小体積の潜時超球面へのSKeletal Kiinematicの埋め込みを抽出する新しいモデルである。 一般に付加されるユークリッド空間と、新しい球面および双曲空間の3つの潜在空間を提案する。 すべての変種は、最新のUBnormalデータセットの最先端よりも優れており、注釈付き骨格を持つ人間関連のバージョンに貢献する。 COSKADは、上海テックキャンパスとCUHKアベニューの人間関連バージョンに、ビデオベースの手法に匹敵するパフォーマンスで、最先端の技術を新たに設定している。 ソースコードとデータセットは受理時にリリースされる。

Detecting the anomaly of human behavior is paramount to timely recognizing endangering situations, such as street fights or elderly falls. However, anomaly detection is complex since anomalous events are rare and because it is an open set recognition task, i.e., what is anomalous at inference has not been observed at training. We propose COSKAD, a novel model that encodes skeletal human motion by a graph convolutional network and learns to COntract SKeletal kinematic embeddings onto a latent hypersphere of minimum volume for Video Anomaly Detection. We propose three latent spaces: the commonly-adopted Euclidean and the novel spherical and hyperbolic. All variants outperform the state-of-the-art on the most recent UBnormal dataset, for which we contribute a human-related version with annotated skeletons. COSKAD sets a new state-of-the-art on the human-related versions of ShanghaiTech Campus and CUHK Avenue, with performance comparable to video-based methods. Source code and dataset will be released upon acceptance.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# PerAda: 一般化保証によるパラメータ効率の良いフェデレーション学習のパーソナライズ

PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees ( http://arxiv.org/abs/2302.06637v3 )

ライセンス: Link先を確認
Chulin Xie, De-An Huang, Wenda Chu, Daguang Xu, Chaowei Xiao, Bo Li, Anima Anandkumar, (参考訳) パーソナライズド・フェデレーション・ラーニング(pFL)は、FLのクライアント間のデータの均一性に取り組むための有望なソリューションとして登場した。 しかし,既存の pFL 法では,(1) 通信・計算コストが高く,(2) ローカルデータに過度に適合する。 本稿では,パラメータ効率のよいpFLフレームワークであるPerAdaを提案する。 PerAdaは、事前訓練されたモデルのパワーを活用してコストを削減し、アダプタから少数の追加パラメータを更新し、通信する。 PerAdaは、各クライアントのパーソナライズされたアダプタをグローバルアダプタで正規化するのに対して、グローバルアダプタは知識蒸留を使用して、すべてのクライアントから一般化された情報を集約する。 理論的には、PerAdaが一般化を改善した理由を説明するために一般化境界を提供し、非凸条件下での定常点への収束を証明する。 経験的に、PerAdaは競争上のパーソナライズされたパフォーマンス(CheXpertでは+4.85%)を実証し、ベースラインと比較して自然領域と医療領域の異なるデータセットでの分配外一般化(CIFAR-10-Cでは+5.23%)の改善を可能にし、アダプタに基づいたモデル毎のパラメータの12.6%しか更新していない。 私たちのコードはhttps://github.com/NVlabs/PerAda.comから入手可能です。

Personalized Federated Learning (pFL) has emerged as a promising solution to tackle data heterogeneity across clients in FL. However, existing pFL methods either (1) introduce high communication and computation costs or (2) overfit to local data, which can be limited in scope, and are vulnerable to evolved test samples with natural shifts. In this paper, we propose PerAda, a parameter-efficient pFL framework that reduces communication and computational costs and exhibits superior generalization performance, especially under test-time distribution shifts. PerAda reduces the costs by leveraging the power of pretrained models and only updates and communicates a small number of additional parameters from adapters. PerAda has good generalization since it regularizes each client's personalized adapter with a global adapter, while the global adapter uses knowledge distillation to aggregate generalized information from all clients. Theoretically, we provide generalization bounds to explain why PerAda improves generalization, and we prove its convergence to stationary points under non-convex settings. Empirically, PerAda demonstrates competitive personalized performance (+4.85% on CheXpert) and enables better out-of-distribution generalization (+5.23% on CIFAR-10-C) on different datasets across natural and medical domains compared with baselines, while only updating 12.6% of parameters per model based on the adapter. Our code is available at https://github.com/NVlabs/PerAda.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# EquiPocket: リガンド結合サイト予測のためのE(3)-等変幾何グラフニューラルネットワーク

EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction ( http://arxiv.org/abs/2302.12177v3 )

ライセンス: Link先を確認
Yang Zhang, Zhewei Wei, Ye Yuan, Chongxuan Li, Wenbing Huang, (参考訳) 標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。 既存のディープラーニング手法の多くは、タンパク質を3D画像として、原子をボクセルに空間的にクラスタリングし、そのタンパク質を3D CNNに供給して予測する。 しかし、CNNベースのメソッドにはいくつかの重大な問題がある。 1)不規則なタンパク質構造を表現するのに欠陥がある。 2) 回転に敏感である。 3) タンパク質表面を特徴づけるには不十分である。 4) タンパク質の大きさが変化していることに気付いていなかった。 上記の問題に対処するため、EquiPocketは、結合部位予測のためのE(3)-equivariant Graph Neural Network(GNN)であり、各表面原子の局所幾何学情報を抽出する第1モジュールと、タンパク質の化学構造と空間構造の両方をモデル化する第2モジュールと、表面原子を渡る同変メッセージを通して表面の幾何学を捉える第2モジュールの3つのモジュールからなる。 さらに,タンパク質サイズの変化による影響を軽減するために,高密度注意出力層を提案する。 いくつかの代表的なベンチマークに関する大規模な実験は、我々のフレームワークが最先端の手法よりも優れていることを実証している。

Predicting the binding sites of target proteins plays a fundamental role in drug discovery. Most existing deep-learning methods consider a protein as a 3D image by spatially clustering its atoms into voxels and then feed the voxelized protein into a 3D CNN for prediction. However, the CNN-based methods encounter several critical issues: 1) defective in representing irregular protein structures; 2) sensitive to rotations; 3) insufficient to characterize the protein surface; 4) unaware of protein size shift. To address the above issues, this work proposes EquiPocket, an E(3)-equivariant Graph Neural Network (GNN) for binding site prediction, which comprises three modules: the first one to extract local geometric information for each surface atom, the second one to model both the chemical and spatial structure of protein and the last one to capture the geometry of the surface via equivariant message passing over the surface atoms. We further propose a dense attention output layer to alleviate the effect incurred by variable protein size. Extensive experiments on several representative benchmarks demonstrate the superiority of our framework to the state-of-the-art methods.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# 特徴分散とリアリズム強化サンプリング法による拡散モデルの制御性の向上

Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods ( http://arxiv.org/abs/2302.14368v3 )

ライセンス: Link先を確認
Wonwoong Cho, Hareesh Ravi, Midhun Harikumar, Vinh Khuc, Krishna Kumar Singh, Jingwan Lu, David I. Inouye, Ajinkya Kale, (参考訳) 拡散モデルが有望な性能を示したため、拡散モデルの制御性を改善するために多くの努力がなされた。 しかし, 拡散モデルによる非絡み付き潜伏空間の訓練方法や, サンプリング中の非絡み付き条件を自然に組み込む方法については, 未検討である。 本稿では,拡散モデル (FDiff) の特徴分散のためのトレーニングフレームワークを提案する。 さらに,拡散モデルの現実性を高め,制御可能性を高める2つのサンプリング手法を提案する。 より正確には、空間的コンテンツマスクと平らなスタイルの埋め込みという2つの潜在特徴を条件とした拡散モデルを訓練する。 我々は、Diffusion Modelsのデノベーションプロセスの帰納バイアスを利用して、コンテンツ機能におけるポーズ/レイアウト情報とスタイル機能におけるセマンティック/スタイル情報をエンコードする。 サンプリング法について,まず条件独立仮定を破って構成拡散モデル(GCDM)を一般化し,条件入力間の何らかの依存を許容し,現実的な生成に有効であることを示す。 第2に,コンテンツとスタイルの特徴に対する時間ステップ依存の重みスケジューリングを提案し,性能をさらに向上させる。 また,既存の画像操作法や画像翻訳法と比較して,提案手法の制御性も向上した。

As Diffusion Models have shown promising performance, a lot of efforts have been made to improve the controllability of Diffusion Models. However, how to train Diffusion Models to have the disentangled latent spaces and how to naturally incorporate the disentangled conditions during the sampling process have been underexplored. In this paper, we present a training framework for feature disentanglement of Diffusion Models (FDiff). We further propose two sampling methods that can boost the realism of our Diffusion Models and also enhance the controllability. Concisely, we train Diffusion Models conditioned on two latent features, a spatial content mask, and a flattened style embedding. We rely on the inductive bias of the denoising process of Diffusion Models to encode pose/layout information in the content feature and semantic/style information in the style feature. Regarding the sampling methods, we first generalize Composable Diffusion Models (GCDM) by breaking the conditional independence assumption to allow for some dependence between conditional inputs, which is shown to be effective in realistic generation in our experiments. Second, we propose timestep-dependent weight scheduling for content and style features to further improve the performance. We also observe better controllability of our proposed methods compared to existing methods in image manipulation and image translation.
翻訳日:2024-07-24 23:52:45 公開日:2024-07-23
# 1次ANILは過度なパラメータ化にもかかわらず、確実に表現を学習する

First-order ANIL provably learns representations despite overparametrization ( http://arxiv.org/abs/2303.01335v3 )

ライセンス: Link先を確認
Oğuz Kaan Yüksel, Etienne Boursier, Nicolas Flammarion, (参考訳) 数発の分類と強化学習の実証的な成功により、メタラーニングは近年大きな関心を集めている。 メタラーニング手法は,従来のタスクからのデータを利用して,サンプル効率のよい新しいタスクを学習する。 特に、モデルに依存しない手法は、勾配降下が任意の新しいタスクに迅速に適応する初期化点を求める。 事前学習中に共有表現を学習することで、このような手法がうまく機能することが実証的に示唆されているが、そのような行動の理論的証拠は限られている。 さらに重要なことは、これらの手法がアーキテクチャ上の誤解にもかかわらず、共有構造を学習していることは示されていない。 この方向では、無限個のタスクの極限において、線形二層ネットワークアーキテクチャを持つ一階ANILが線形共有表現をうまく学習できることが示されている。 共有表現の次元よりも広い幅を持つと、漸近的に低ランクの解が得られる。 学習した解は、単一の勾配ステップの後、任意の新しいタスクに対して優れた適応性能を得る。 全体として、一階のANILのようなモデルに依存しない手法が、いかに共有表現を学習できるかを示す。

Due to its empirical success in few-shot classification and reinforcement learning, meta-learning has recently received significant interest. Meta-learning methods leverage data from previous tasks to learn a new task in a sample-efficient manner. In particular, model-agnostic methods look for initialization points from which gradient descent quickly adapts to any new task. Although it has been empirically suggested that such methods perform well by learning shared representations during pretraining, there is limited theoretical evidence of such behavior. More importantly, it has not been shown that these methods still learn a shared structure, despite architectural misspecifications. In this direction, this work shows, in the limit of an infinite number of tasks, that first-order ANIL with a linear two-layer network architecture successfully learns linear shared representations. This result even holds with overparametrization; having a width larger than the dimension of the shared representations results in an asymptotically low-rank solution. The learned solution then yields a good adaptation performance on any new task after a single gradient step. Overall, this illustrates how well model-agnostic methods such as first-order ANIL can learn shared representations.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# 署名リフティングによる量子プロクラステネータ保護 : 暗号通貨を事例として

Protecting Quantum Procrastinators with Signature Lifting: A Case Study in Cryptocurrencies ( http://arxiv.org/abs/2303.06754v2 )

ライセンス: Link先を確認
Or Sattath, Shai Wyborski, (参考訳) 広く使われている暗号スキームの量子脆弱性に対する現在の解決策は、量子攻撃が実現される前に、ユーザを量子後スキームに移行することである。 この作業では、量子プロクラシネータ(量子後暗号への移行に失敗したユーザ)を保護する。 デジタル署名の文脈でこの問題に対処するために、我々は、ある性質を満たすプリ量子署名スキームを同じ鍵を使用するポスト量子署名スキームに持ち上げる、シグネチャリフトと呼ばれる手法を導入する。 この性質は、秘密鍵から公開鍵を引き出すために、量子後片道関数が「途中で」使われるというものである。 我々のシグネチャリフトの構築は、ポスト量子デジタルシグネチャスキームPicnic(Chase et al , CCS'17)に大きく依存しています。 我々の主なケーススタディは暗号通貨であり、この性質は2つのシナリオで成り立っている: 公開キーが鍵デリバティブ関数を介して生成される場合、または公開キー自体の代わりに公開キーハッシュが投稿される場合。 本稿では,多くの暗号通貨に適用可能なシグネチャリフトに基づく改質法を提案する。 ECDSA公開鍵が秘密にされている(特に、HDウォレットが生成したアドレスに格納されているすべてのコインを処理している)クエンタム以前の硬貨に限らず、また、取引の投稿のためにポストクエンタム硬貨へのアクセスや副支払いを必要としない。

Current solutions to quantum vulnerabilities of widely used cryptographic schemes involve migrating users to post-quantum schemes before quantum attacks become feasible. This work deals with protecting quantum procrastinators: users that failed to migrate to post-quantum cryptography in time. To address this problem in the context of digital signatures, we introduce a technique called signature lifting, that allows us to lift a deployed pre-quantum signature scheme satisfying a certain property to a post-quantum signature scheme that uses the same keys. Informally, the said property is that a post-quantum one-way function is used "somewhere along the way" to derive the public-key from the secret-key. Our constructions of signature lifting relies heavily on the post-quantum digital signature scheme Picnic (Chase et al., CCS'17). Our main case-study is cryptocurrencies, where this property holds in two scenarios: when the public-key is generated via a key-derivation function or when the public-key hash is posted instead of the public-key itself. We propose a modification, based on signature lifting, that can be applied in many cryptocurrencies for securely spending pre-quantum coins in presence of quantum adversaries. Our construction improves upon existing constructions in two major ways: it is not limited to pre-quantum coins whose ECDSA public-key has been kept secret (and in particular, it handles all coins that are stored in addresses generated by HD wallets), and it does not require access to post-quantum coins or using side payments to pay for posting the transaction.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# 注意誘導記述子とオーバーラップ推定を用いた粗大な位置認識手法

A Coarse-to-Fine Place Recognition Approach using Attention-guided Descriptors and Overlap Estimation ( http://arxiv.org/abs/2303.06881v3 )

ライセンス: Link先を確認
Chencan Fu, Lin Li, Jianbiao Mei, Yukai Ma, Linpeng Peng, Xiangrui Zhao, Yong Liu, (参考訳) 位置認識はロボット工学では難しいが重要な課題だ。 現在の記述に基づく手法は表現能力によって制限されるが、ペアの類似性に基づく手法は時間を要する徹底的な探索を必要とする。 本稿では,BEV(Bird's Eye View)特徴抽出,粗粒度マッチング,きめ細かな検証を組み合わせ,これらの問題に対処する新しい粗粒度アプローチを提案する。 粗い段階では、注意誘導ネットワークを用いて注意誘導記述子を生成する。 次に、素早い親和性に基づく候補選択プロセスを用いて、Top-Kの最も類似した候補を特定する。 細かな段階では、狭められた場所候補同士のペアの重複を推定し、最終一致を決定する。 KITTIとKITTI-360データセットの実験結果から,本手法が最先端手法より優れていることが示された。 コードはまもなく公開される予定だ。

Place recognition is a challenging but crucial task in robotics. Current description-based methods may be limited by representation capabilities, while pairwise similarity-based methods require exhaustive searches, which is time-consuming. In this paper, we present a novel coarse-to-fine approach to address these problems, which combines BEV (Bird's Eye View) feature extraction, coarse-grained matching and fine-grained verification. In the coarse stage, our approach utilizes an attention-guided network to generate attention-guided descriptors. We then employ a fast affinity-based candidate selection process to identify the Top-K most similar candidates. In the fine stage, we estimate pairwise overlap among the narrowed-down place candidates to determine the final match. Experimental results on the KITTI and KITTI-360 datasets demonstrate that our approach outperforms state-of-the-art methods. The code will be released publicly soon.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# 不均一関数データに対するセグメンテーションの混合

Mixture of segmentation for heterogeneous functional data ( http://arxiv.org/abs/2303.10712v3 )

ライセンス: Link先を確認
Vincent Brault, Émilie Devijver, Charlotte Laclau, (参考訳) 本稿では,時間的・人口的に不均一な機能的データについて考察する。 関数構造を保ちながら、この不均一性を表現するために、時間分割を伴う混合モデルを提案する。 最大確率推定器は、同定可能で一貫したものであることが証明されている。 実際、EMアルゴリズムと最大化ステップの動的プログラミングを組み合わせて、最大極大推定器を近似する。 この方法はシミュレーションされたデータセットで説明され、実際の電力消費のデータセットで使用される。

In this paper we consider functional data with heterogeneity in time and in population. We propose a mixture model with segmentation of time to represent this heterogeneity while keeping the functional structure. Maximum likelihood estimator is considered, proved to be identifiable and consistent. In practice, an EM algorithm is used, combined with dynamic programming for the maximization step, to approximate the maximum likelihood estimator. The method is illustrated on a simulated dataset, and used on a real dataset of electricity consumption.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# Laplacian Segmentation Networksはてんかん性不確かさの定量化を改善する

Laplacian Segmentation Networks Improve Epistemic Uncertainty Quantification ( http://arxiv.org/abs/2303.13123v2 )

ライセンス: Link先を確認
Kilian Zepf, Selma Wanna, Marco Miani, Juston Moore, Jes Frellsen, Søren Hauberg, Frederik Warburg, Aasa Feragen, (参考訳) イメージセグメンテーションは、特にオフ・オブ・ディストリビューション(OOD)イメージの予測を行う場合、過信であることが知られているニューラルネットワークに大きく依存する。 これは、機器、取得サイト、画像の破損などによって医療分野では一般的なシナリオである。 本研究は,OOD検出のための認識(モデル)とデータ(データ)を共同でモデル化する手法であるLaplacian Segmentation Networks (LSN)を提案することによって,OOD検出の課題に対処する。 そこで本研究では,高次元出力を持つスキップ接続を持つ大型ニューラルネットワークにスケールする重み後部の最初のLaplace近似を提案する。 我々は, LSNモデルパラメータ分布と適切な不確実性尺度を組み合わせて, 優れたOOD検出を可能にすることを3つのデータセットで示している。

Image segmentation relies heavily on neural networks which are known to be overconfident, especially when making predictions on out-of-distribution (OOD) images. This is a common scenario in the medical domain due to variations in equipment, acquisition sites, or image corruptions. This work addresses the challenge of OOD detection by proposing Laplacian Segmentation Networks (LSN): methods which jointly model epistemic (model) and aleatoric (data) uncertainty for OOD detection. In doing so, we propose the first Laplace approximation of the weight posterior that scales to large neural networks with skip connections that have high-dimensional outputs. We demonstrate on three datasets that the LSN-modeled parameter distributions, in combination with suitable uncertainty measures, gives superior OOD detection.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# DiffMesh:ビデオから人間のメッシュを回収するためのモーション対応拡散フレームワーク

DiffMesh: A Motion-aware Diffusion Framework for Human Mesh Recovery from Videos ( http://arxiv.org/abs/2303.13397v4 )

ライセンス: Link先を確認
Ce Zheng, Xianpeng Liu, Qucheng Peng, Tianfu Wu, Pu Wang, Chen Chen, (参考訳) ヒューマンメッシュリカバリ(Human Mesh recovery, HMR)は、さまざまな現実世界のアプリケーションに対して、リッチな人体情報を提供する。 画像に基づくHMR法は目覚ましい結果を得たが、動的シナリオにおいて人間の回復に苦慮することが多く、時間的不整合や人間の動きの欠如による非滑らかな3次元運動予測につながる。 対照的に、ビデオベースのアプローチはこの問題を緩和するために時間的情報を活用する。 本稿では,ビデオベースHMRのためのDiffMeshについて述べる。 DiffMeshは、拡散モデルと人間の動きの間の橋渡しを確立し、人間の動きを前方プロセスに組み込んで正確な出力メッシュシーケンスを効率よく生成し、拡散モデルに逆処理を組み込む。 Human3.6M \cite{h36m_pami} と 3DPW \cite{pw3d2018} は、我々のDiffMeshの有効性と効率を示す。 実世界のシナリオにおけるビジュアル比較は、実用アプリケーションに対するDiffMeshの適合性をさらに強調する。

Human mesh recovery (HMR) provides rich human body information for various real-world applications. While image-based HMR methods have achieved impressive results, they often struggle to recover humans in dynamic scenarios, leading to temporal inconsistencies and non-smooth 3D motion predictions due to the absence of human motion. In contrast, video-based approaches leverage temporal information to mitigate this issue. In this paper, we present DiffMesh, an innovative motion-aware Diffusion-like framework for video-based HMR. DiffMesh establishes a bridge between diffusion models and human motion, efficiently generating accurate and smooth output mesh sequences by incorporating human motion within the forward process and reverse process in the diffusion model. Extensive experiments are conducted on the widely used datasets (Human3.6M \cite{h36m_pami} and 3DPW \cite{pw3d2018}), which demonstrate the effectiveness and efficiency of our DiffMesh. Visual comparisons in real-world scenarios further highlight DiffMesh's suitability for practical applications.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# グラフによる対実学習: サーベイ

Counterfactual Learning on Graphs: A Survey ( http://arxiv.org/abs/2304.01391v3 )

ライセンス: Link先を確認
Zhimeng Guo, Teng Xiao, Zongyu Wu, Charu Aggarwal, Hui Liu, Suhang Wang, (参考訳) グラフ構造化データは、ソーシャルネットワーク、分子グラフ、トランザクションネットワークなどの現実世界で広く利用されている。 グラフニューラルネットワーク(GNN)は、グラフ上の表現学習において大きな成功を収め、さまざまな下流タスクを容易にしている。 しかし、GNNには解釈可能性の欠如やデータのバイアスの受け継がれやすく、カジュアルな関係をモデル化できないといった欠点がいくつかある。 近年,グラフ上の反実的学習は,これらの欠点を緩和する有望な結果を示している。 グラフ上の反ファクトフェアネス、説明可能性、リンク予測など、様々な手法が提案されている。 本調査では,この有望な方向性の展開を促進するために,グラフ対実学習に関する論文を分類・包括的にレビューする。 既存の手法を4つのカテゴリに分けて検討した。 それぞれのカテゴリについて、バックグラウンドとモチベーションの例、既存の作品を要約する一般的なフレームワーク、そしてこれらの作品の詳細なレビューを提供する。 我々は,グラフ構造化データ,対実学習,実世界のアプリケーションとの交点における将来的な研究の方向性を指摘する。 今後の研究のために、リソースの総合的なビューを提供するために、オープンソース実装、パブリックデータセット、そして一般的に使用される評価指標のコレクションをコンパイルする。 この調査は、グラフの反事実学習カテゴリと現在のリソースの統一的な理解を構築するための 'one-stop-shop' として機能することを目的としている。 また、文書やリソースのリポジトリも維持しており、リポジトリ https://github.com/TimeLovercc/Awesome-Graph-Causal-Learning.orgの更新を続けます。

Graph-structured data are pervasive in the real-world such as social networks, molecular graphs and transaction networks. Graph neural networks (GNNs) have achieved great success in representation learning on graphs, facilitating various downstream tasks. However, GNNs have several drawbacks such as lacking interpretability, can easily inherit the bias of data and cannot model casual relations. Recently, counterfactual learning on graphs has shown promising results in alleviating these drawbacks. Various approaches have been proposed for counterfactual fairness, explainability, link prediction and other applications on graphs. To facilitate the development of this promising direction, in this survey, we categorize and comprehensively review papers on graph counterfactual learning. We divide existing methods into four categories based on problems studied. For each category, we provide background and motivating examples, a general framework summarizing existing works and a detailed review of these works. We point out promising future research directions at the intersection of graph-structured data, counterfactual learning, and real-world applications. To offer a comprehensive view of resources for future studies, we compile a collection of open-source implementations, public datasets, and commonly-used evaluation metrics. This survey aims to serve as a ``one-stop-shop'' for building a unified understanding of graph counterfactual learning categories and current resources. We also maintain a repository for papers and resources and will keep updating the repository https://github.com/TimeLovercc/Awesome-Graph-Causal-Learning.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# 量子鍵分布実装のためのセキュリティフレームワーク

A security framework for quantum key distribution implementations ( http://arxiv.org/abs/2305.05930v2 )

ライセンス: Link先を確認
Guillermo Currás-Lorenzo, Margarida Pereira, Go Kato, Marcos Curty, Kiyoshi Tamaki, (参考訳) 量子鍵分布(QKD)は、理論的には暗号の聖杯、盗聴に対する情報理論のセキュリティを達成することができる。 しかし、実際には、セキュリティ証明で仮定される数学的モデルと実装で使用されるデバイスの実際の機能との相違は、この目標を達成するのを妨げている。 デバイスに依存しないQKDは現在、この問題に対する満足のいく解決策ではない。 一方、測定デバイス非依存(MDI)QKDは、高い性能を保ちながら、任意に欠陥のある受信機によるセキュリティを保証することができる。 いくつかの証明は特定の情報源の不完全性にのみ適合するが、他の証明はシステムの性能、すなわち通信速度と距離を著しく損なう。 ここでは、一般的な符号化不完全性やサイドチャネルを組み込んだコヒーレント攻撃に対する有限鍵方式のセキュリティ証明を提示し、従来の手法よりもはるかに高い性能を達成することにより、これらの決定的な問題を克服する。 さらに,本証明では,実際の実装への適用を容易にするため,最小限の状態特徴付けが必要である。

Quantum key distribution (QKD) can theoretically achieve the Holy Grail of cryptography, information-theoretic security against eavesdropping. However, in practice, discrepancies between the mathematical models assumed in security proofs and the actual functioning of the devices used in implementations prevent it from reaching this goal. Device-independent QKD is currently not a satisfactory solution to this problem, as its performance is extremely poor and most of its security proofs assume that the user devices leak absolutely no information to the outside. On the other hand, measurement-device-independent (MDI) QKD can guarantee security with arbitrarily flawed receivers while achieving high performance, and the remaining challenge is ensuring its security in the presence of source imperfections. So far, all efforts in this regard have come at a price; some proofs are suitable only for particular source imperfections, while others severely compromise the system's performance, i.e., its communication speed and distance. Here, we overcome these crucial problems by presenting a security proof in the finite-key regime against coherent attacks that can incorporate general encoding imperfections and side channels while achieving much higher performances than previous approaches. Moreover, our proof requires minimal state characterization, which facilitates its application to real-life implementations.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# ゼノ効果の様々な形態からのグローバースピードアップ

Grover Speedup from Many Forms of the Zeno Effect ( http://arxiv.org/abs/2305.11146v3 )

ライセンス: Link先を確認
Jesse Berwald, Nick Chancellor, Raouf Dridi, (参考訳) かつては、固有状態間の動的位相による連続ゼノ効果に基づいて動作する断熱量子計算が、最適なグローバー型量子スピードアップを実現することが確立されていた。 言い換えれば、Groverのオリジナルのアルゴリズムと同じ$\sqrt{N}$スケールで、構造化されていない探索問題を解くことができる。 自然な疑問は、Zeno効果の他の表現が、物理的に現実的なモデル(普遍ゲートセットをサポートすることによって間接的にではなく直接アナログアプリケーションを通して)において最適なスピードアップをサポートすることができるかどうかである。 本稿では, 測定, デコヒーレンス, あるいは励起状態の崩壊などにより, 計算的に無意味な状態に保たれることを示す。 また,ゼノ動作に依存しないスピードアップを実現するための様々な手法も提案した。 我々はこれらのアルゴリズムを3つのファミリーに分けて、フェーズキックに基づく、断熱計算と連続時間量子ウォークを含む、スピードアップがどのように得られるかの構造化された理解を促進する。 これらの結果は、これらの効果に基づくアナログ量子コンピューティングの新しいパラダイムにエキサイティングな機会があることを示唆している。

It has previously been established that adiabatic quantum computation, operating based on a continuous Zeno effect due to dynamical phases between eigenstates, is able to realise an optimal Grover-like quantum speedup. In other words is able to solve an unstructured search problem with the same $\sqrt{N}$ scaling as Grover's original algorithm. A natural question is whether other manifestations of the Zeno effect can also support an optimal speedup in a physically realistic model (through direct analog application rather than indirectly by supporting a universal gateset). In this paper we show that they can support such a speedup, whether due to measurement, decoherence, or even decay of the excited state into a computationally useless state. Our results also suggest a wide variety of methods to realise speedup which do not rely on Zeno behaviour. We group these algorithms into three families to facilitate a structured understanding of how speedups can be obtained: one based on phase kicks, containing adiabatic computation and continuous-time quantum walks; one based on dephasing and measurement; and finally one based on destruction of the amplitude within the excited state, for which we are not aware of any previous results. These results suggest that there may be exciting opportunities for new paradigms of analog quantum computing based on these effects.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# YBa$_2$Cu$_3$O$_x$における光フォノン軟化と超伝導ドルの相関

Correlation between optical phonon softening and superconducting $T_c$ in YBa$_2$Cu$_3$O$_x$ within $d$-wave Eliashberg theory ( http://arxiv.org/abs/2306.05763v3 )

ライセンス: Link先を確認
Cunyuan Jiang, Giovanni A. Ummarino, Matteo Baggioli, Efthymios Liarokapis, Alessio Zaccone, (参考訳) 本研究では,YBa$_2$Cu$_3$O$_x$の酸素ドーピング関数として,平面内酸素運動に伴うラマンモードの軟化実験と超伝導臨界温度$T_c$との強い相関関係を,d波エリアシュベルグ理論に基づいて数学的に記述する。 理論モデルは、ソフトオプティカル$A_g$(平面内)酸素モード、酸素ドーピングレベル$x$、超伝導$T_c$の物理的傾向を直接リンクする。 T_c$対ドーピングの傾向で観測される異なる規則は、ラマンスペクトルにおける光フォノン軟化の対応する規則と関連付けられる。 これらの結果は、希土類銅酸化物における高温超伝導の物理的起源と電子-フォノンカップリングの重要な役割に関するさらなる証拠を与える。

We provide a mathematical description, based on d-wave Eliashberg theory, of the strong correlation between the experimentally observed softening of Raman modes associated with in-plane oxygen motions and the corresponding superconducting critical temperature $T_c$, as a function of oxygen doping $x$, in YBa$_2$Cu$_3$O$_x$. The theoretical model provides a direct link between physical trends of soft optical $A_g$ (in-plane) oxygen modes, the level of oxygen doping $x$, and the superconducting $T_c$. Different regimes observed in the trend of $T_c$ vs doping can be related to corresponding regimes of optical phonon softening in the Raman spectra. These results provide further evidence related to the physical origin of high-temperature superconductivity in rare-earth cuprate oxides and to the significant role of electron-phonon coupling therein.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# 機械学習によるカテゴリデータセットの欠落値計算

Machine Learning Based Missing Values Imputation in Categorical Datasets ( http://arxiv.org/abs/2306.06338v2 )

ライセンス: Link先を確認
Muhammad Ishaq, Sana Zahir, Laila Iftikhar, Mohammad Farhad Bulbul, Seungmin Rho, Mi Young Lee, (参考訳) 分類データセットのギャップを予測し、埋めるために、この研究は機械学習アルゴリズムの使用について検討した。 SVMやKNNをベースとしたモデルや、SVM、KNN、MLPをベースとしたモデルを組み合わせたハイブリッド分類器など、Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。 これらのアルゴリズムを検証するために、CPU、甲状腺、乳癌の3つの多様なデータセットが採用された。 その結果、これらの機械学習技術は、特定のデータセットと欠落したデータパターンに基づいて、欠落したデータを予測し、完了させる上で、かなりの性能を示した。 ソロモデルと比較すると、ECOCフレームワークを使用したアンサンブルモデルは予測精度とロバスト性を大幅に改善した。 大量のラベル付きデータの要求や過度に適合する可能性など、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。 その後の研究は、欠落したデータの計算の文脈において、ディープラーニングアルゴリズムの有効性と有効性を評価するべきである。

In order to predict and fill in the gaps in categorical datasets, this research looked into the use of machine learning algorithms. The emphasis was on ensemble models constructed using the Error Correction Output Codes framework, including models based on SVM and KNN as well as a hybrid classifier that combines models based on SVM, KNN,and MLP. Three diverse datasets, the CPU, Hypothyroid, and Breast Cancer datasets were employed to validate these algorithms. Results indicated that these machine learning techniques provided substantial performance in predicting and completing missing data, with the effectiveness varying based on the specific dataset and missing data pattern. Compared to solo models, ensemble models that made use of the ECOC framework significantly improved prediction accuracy and robustness. Deep learning for missing data imputation has obstacles despite these encouraging results, including the requirement for large amounts of labeled data and the possibility of overfitting. Subsequent research endeavors ought to evaluate the feasibility and efficacy of deep learning algorithms in the context of the imputation of missing data.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# メモリ付きリカレントアクショントランス

Recurrent Action Transformer with Memory ( http://arxiv.org/abs/2306.09459v4 )

ライセンス: Link先を確認
Egor Cherepanov, Alexey Staroverov, Dmitry Yudin, Alexey K. Kovalev, Aleksandr I. Panov, (参考訳) 近年,オフライン強化学習における変圧器の利用が急速に発展している。 これは、環境中のエージェントの軌道をシーケンスとして扱う能力のためであり、それによってポリシー学習問題をシーケンスモデリングに還元する。 エージェントの判断が過去のイベント(POMDP)に依存する環境では、イベント自体とモデルコンテキストにおける決定ポイントの両方をキャプチャすることが不可欠である。 しかし、注意機構の二次的な複雑さは、文脈展開の可能性を制限する。 この問題の解決策の1つは、メモリ機構によるトランスフォーマーの強化である。 本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャであるRecurrent Action Transformer with Memory (RATE)を提案する。 本研究では,メモリ集約環境 (ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid.Memory), 古典的アタリゲーム, MuJoCo コントロール環境) について広範囲に実験を行った。 その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。 オフライン強化学習に適用可能な変圧器の記憶機構の研究が促進されることを願っている。

Recently, the use of transformers in offline reinforcement learning has become a rapidly developing area. This is due to their ability to treat the agent's trajectory in the environment as a sequence, thereby reducing the policy learning problem to sequence modeling. In environments where the agent's decisions depend on past events (POMDPs), capturing both the event itself and the decision point in the context of the model is essential. However, the quadratic complexity of the attention mechanism limits the potential for context expansion. One solution to this problem is to enhance transformers with memory mechanisms. This paper proposes a Recurrent Action Transformer with Memory (RATE), a novel model architecture incorporating a recurrent memory mechanism designed to regulate information retention. To evaluate our model, we conducted extensive experiments on memory-intensive environments (ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid.Memory), classic Atari games and MuJoCo control environments. The results show that using memory can significantly improve performance in memory-intensive environments while maintaining or improving results in classic environments. We hope our findings will stimulate research on memory mechanisms for transformers applicable to offline reinforcement learning.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# オンラインコミュニティ談話における意味的・時間的圧縮の高機能化

Highly engaging events reveal semantic and temporal compression in online community discourse ( http://arxiv.org/abs/2306.14735v2 )

ライセンス: Link先を確認
Antonio Desiderio, Anna Mancini, Giulio Cimini, Riccardo Di Clemente, (参考訳) 現在、人々は、投稿、共有、議論など、さまざまな形式のインタラクションを使用して、オンライン空間で意見を表現している。 これらのデジタルトレースは、現実世界で起きている出来事に対してどのように変化するのか? Redditの会話データを利用して、コミュニティベースの構造を利用して、オフラインイベントがオンラインユーザーインタラクションや行動にどのように影響するかを明らかにする。 投稿やコメントなどのオンライン会話は、時間的・意味的な側面に沿って分析される。 会話はより限定的な語彙で反復的になり、より速いペースで発達し、感情が高められる傾向にある。 イベントが近づくにつれて、会話で発生する変化はユーザのダイナミクスに反映される。 ユーザはよりアクティブになり、よりリッチな語彙や反復的なメッセージを使うにもかかわらず、より多くのオーディエンスと情報を交換する。 私たちが発見したパターンは、さまざまなイベントやいくつかのコンテキストにまたがって永続的であり、実際の出来事に対応するオンラインのダイナミクスがどのように変化するかの指紋を表しています。

People nowadays express their opinions in online spaces, using different forms of interactions such as posting, sharing and discussing with one another. How do these digital traces change in response to events happening in the real world? We leverage Reddit conversation data, exploiting its community-based structure, to elucidate how offline events influence online user interactions and behavior. Online conversations, as posts and comments, are analysed along their temporal and semantic dimensions. Conversations tend to become repetitive with a more limited vocabulary, develop at a faster pace and feature heightened emotions. As the event approaches, the shifts occurring in conversations are reflected in the users' dynamics. Users become more active and they exchange information with a growing audience, despite using a less rich vocabulary and repetitive messages. The recurring patterns we discovered are persistent across a wide range of events and several contexts, representing a fingerprint of how online dynamics change in response to real-world occurrences.
翻訳日:2024-07-24 23:43:00 公開日:2024-07-23
# シリカスクリーニングにおける一般化

Generalization within in silico screening ( http://arxiv.org/abs/2307.09379v2 )

ライセンス: Link先を確認
Andreas Loukas, Pan Kessel, Vladimir Gligorijevic, Richard Bonneau, (参考訳) シリカスクリーニングでは、予測モデルを使用して、実験的な検証のためにライブラリから好ましい特性を持つ化合物のバッチを選択する。 従来の学習パラダイムとは異なり、この文脈における成功は、予測の集合全体ではなく、選択された化合物のサブセット上での予測モデルの性能によって測定される。 学習理論を拡張することにより、選択ポリシーの選択性は、予測された正を選択的に選択したり、稀な特性を標的にした場合に発生するエラーのリスクが高く、一般化に大きな影響を及ぼすことを示した。 我々の分析はこれらの課題を緩和する方法を示唆している。 モデルがバッチで望ましい結果のごく一部を予測できる能力を考えると,一般化が著しく向上できることが示される。 スクリーニングの主な目的は、各化合物のラベルを個別に特定することではなく、望ましい化合物に富んだバッチを組み立てることである。 私たちの理論的洞察は、様々なタスク、アーキテクチャ、スクリーニングシナリオにまたがって実証的に検証され、それらの適用性を強調します。

In silico screening uses predictive models to select a batch of compounds with favorable properties from a library for experimental validation. Unlike conventional learning paradigms, success in this context is measured by the performance of the predictive model on the selected subset of compounds rather than the entire set of predictions. By extending learning theory, we show that the selectivity of the selection policy can significantly impact generalization, with a higher risk of errors occurring when exclusively selecting predicted positives and when targeting rare properties. Our analysis suggests a way to mitigate these challenges. We show that generalization can be markedly enhanced when considering a model's ability to predict the fraction of desired outcomes in a batch. This is promising, as the primary aim of screening is not necessarily to pinpoint the label of each compound individually, but rather to assemble a batch enriched for desirable compounds. Our theoretical insights are empirically validated across diverse tasks, architectures, and screening scenarios, underscoring their applicability.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# 量子クリロフ部分空間対角化におけるサンプリング誤差解析

Sampling Error Analysis in Quantum Krylov Subspace Diagonalization ( http://arxiv.org/abs/2307.16279v2 )

ライセンス: Link先を確認
Gwonhak Lee, Dongkeun Lee, Joonsuk Huh, (参考訳) 量子クリロフ部分空間対角化(Quantum Krylov subspace diagonalization, QKSD)は、量子回路深度が制限された初期のフォールトトレラント時代の量子位相推定に代えて用いられる新しい手法である。 古典的なKrylov部分空間対角化(KSD)やLanczos法とは対照的に、QKSDは量子コンピュータを利用して、より高速なKrylov射影によって大きなハミルトンの固有値を効率的に推定する。 しかし、機械精度にのみ関心を持つ古典的KSDとは異なり、QKSDは本質的には有限個のサンプルから生じる誤差を伴う。 さらに, 人工直交基底の確立が困難であったため, 条件の悪さがしばしば発生し, 雑音に弱い解が生じる。 本研究では,サンプリングノイズと固有値に対する効果の関係を評価するための漸近的理論フレームワークを提案する。 また,不条件ベースを排除し,大規模条件数に対処する最適解を提案する。 一次元ハバードモデルの数値シミュレーションは、有限サンプリングの誤差境界が良条件領域の実験誤差を正確に予測することを示した。

Quantum Krylov subspace diagonalization (QKSD) is an emerging method used in place of quantum phase estimation in the early fault-tolerant era, where limited quantum circuit depth is available. In contrast to the classical Krylov subspace diagonalization (KSD) or the Lanczos method, QKSD exploits the quantum computer to efficiently estimate the eigenvalues of large-size Hamiltonians through a faster Krylov projection. However, unlike classical KSD, which is solely concerned with machine precision, QKSD is inherently accompanied by errors originating from a finite number of samples. Moreover, due to difficulty establishing an artificial orthogonal basis, ill-conditioning problems are often encountered, rendering the solution vulnerable to noise. In this work, we present a nonasymptotic theoretical framework to assess the relationship between sampling noise and its effects on eigenvalues. We also propose an optimal solution to cope with large condition numbers by eliminating the ill-conditioned bases. Numerical simulations of the one-dimensional Hubbard model demonstrate that the error bound of finite samplings accurately predicts the experimental errors in well-conditioned regions.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# 補間スプリット(Interpolation-Split):大容量補間データを用いたデータ中心深層学習による気道セグメンテーション性能の向上

Interpolation-Split: a data-centric deep learning approach with big interpolated data to boost airway segmentation performance ( http://arxiv.org/abs/2308.00008v2 )

ライセンス: Link先を確認
Wing Keung Cheung, Ashkan Pakzad, Nesrin Mogulkoc, Sarah Needleman, Bojidar Rangelov, Eyjolfur Gudmundsson, An Zhao, Mariam Abbas, Davina McLaverty, Dimitrios Asimakopoulos, Robert Chapman, Recep Savas, Sam M Janes, Yipeng Hu, Daniel C. Alexander, John R Hurst, Joseph Jacob, (参考訳) 気道木の異常の形態と分布は、様々な慢性呼吸状態の診断と疾患の特徴化を可能にする。 この点において,気道分断は気道全体の輪郭形成において重要な役割を担い,病気の程度と重症度を推定できる。 本研究では,気道木を分割するデータ中心の深層学習手法を提案する。 提案手法は補間と画像分割を利用してデータの有用性と品質を向上させる。 そして、異なる規模でセグメンテーションされた気道木を集約するアンサンブル学習戦略を実行する。 セグメンテーション性能(密接な類似度係数)では, 複合損失を用いた場合, ベースラインモデルの平均2.5%を上回った。 さらに,提案手法はGPU使用率が低く,柔軟性も高く,任意の2次元ディープラーニングモデルにデプロイ可能である。

The morphology and distribution of airway tree abnormalities enables diagnosis and disease characterisation across a variety of chronic respiratory conditions. In this regard, airway segmentation plays a critical role in the production of the outline of the entire airway tree to enable estimation of disease extent and severity. In this study, we propose a data-centric deep learning technique to segment the airway tree. The proposed technique utilises interpolation and image split to improve data usefulness and quality. Then, an ensemble learning strategy is implemented to aggregate the segmented airway trees at different scales. In terms of segmentation performance (dice similarity coefficient), our method outperforms the baseline model by 2.5% on average when a combined loss is used. Further, our proposed technique has a low GPU usage and high flexibility enabling it to be deployed on any 2D deep learning model.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# FedPop:Federated Populationベースのハイパーパラメータチューニング

FedPop: Federated Population-based Hyperparameter Tuning ( http://arxiv.org/abs/2308.08634v3 )

ライセンス: Link先を確認
Haokun Chen, Denis Krompass, Jindong Gu, Volker Tresp, (参考訳) Federated Learning(FL)は、分散機械学習(ML)パラダイムであり、複数のクライアントがローカルデータを集中することなく、協調的にMLモデルをトレーニングする。 従来のMLパイプラインと同様に、FLのクライアントローカル最適化とサーバ集約手順は、ハイパーパラメータ(HP)の選択に敏感である。 集中型MLのためのHPのチューニングに関する広範な研究にもかかわらず、これらの手法はFLでの使用時に準最適結果が得られる。 フレームワークは、クライアントの計算能力に制限があるFLには適さないためである。 FLのHP-Tuningではいくつかのアプローチが提案されているが、クライアントローカルアップデートではHPに限られている。 本稿では,この課題に対処するため,FedPop(Federated Population-based Hyperparameter Tuning)と呼ばれるHPチューニングアルゴリズムを提案する。 FedPopは人口ベースの進化アルゴリズムを使ってHPを最適化し、クライアント側とサーバ側の両方で様々なHPタイプに対応している。 従来のチューニング手法と比較して、FedPopはオンラインの「チューニング時トレーニング」フレームワークを採用しており、計算効率を提供し、より広範なHP検索空間の探索を可能にする。 FLベンチマークと,フルサイズの非IID ImageNet-1Kを含む複雑な実世界のFLデータセットに対する実証的検証により,FLにおけるHPチューニング手法の並列性を大幅に向上させる提案手法の有効性が実証された。

Federated Learning (FL) is a distributed machine learning (ML) paradigm, in which multiple clients collaboratively train ML models without centralizing their local data. Similar to conventional ML pipelines, the client local optimization and server aggregation procedure in FL are sensitive to the hyperparameter (HP) selection. Despite extensive research on tuning HPs for centralized ML, these methods yield suboptimal results when employed in FL. This is mainly because their "training-after-tuning" framework is unsuitable for FL with limited client computation power. While some approaches have been proposed for HP-Tuning in FL, they are limited to the HPs for client local updates. In this work, we propose a novel HP-tuning algorithm, called Federated Population-based Hyperparameter Tuning (FedPop), to address this vital yet challenging problem. FedPop employs population-based evolutionary algorithms to optimize the HPs, which accommodates various HP types at both the client and server sides. Compared with prior tuning methods, FedPop employs an online "tuning-while-training" framework, offering computational efficiency and enabling the exploration of a broader HP search space. Our empirical validation on the common FL benchmarks and complex real-world FL datasets, including full-sized Non-IID ImageNet-1K, demonstrates the effectiveness of the proposed method, which substantially outperforms the concurrent state-of-the-art HP-tuning methods in FL.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# 制約付きスタイン変分軌道最適化

Constrained Stein Variational Trajectory Optimization ( http://arxiv.org/abs/2308.12110v3 )

ライセンス: Link先を確認
Thomas Power, Dmitry Berenson, (参考訳) 本稿では,一連のトラジェクトリに制約を加えてトラジェクトリ最適化を行うアルゴリズムであるConstrained Stein Variational Trajectory Optimization (CSVTO)を提案する。 軌道分布に対する制約付き関数最小化の新たな形式として制約付き軌道最適化を考案し,制約を目的のペナルティとして扱うことを避け,制約を満たす軌道の多様な集合を生成する。 提案手法では,制約に従いながら,低コスト軌道上の分布を近似する粒子の集合を見つけるために,Stein Variational Gradient Descent (SVGD) を用いる。 CSVTOは、微分可能な等式と不等式制約を持つ問題に適用でき、局所最小値から逃れるための新しい粒子再サンプリングステップを含む。 多様な軌道の集合を明示的に生成することにより、CSVTOは局所的な最小値の低さを回避でき、初期化に対してより堅牢である。 CSVTOは、7DoFレンチ操作タスクのような高度に制約されたタスクにおいてベースラインを上回り、CSVTOは成功率と制約満足度の両方でベースラインを上回ります。

We present Constrained Stein Variational Trajectory Optimization (CSVTO), an algorithm for performing trajectory optimization with constraints on a set of trajectories in parallel. We frame constrained trajectory optimization as a novel form of constrained functional minimization over trajectory distributions, which avoids treating the constraints as a penalty in the objective and allows us to generate diverse sets of constraint-satisfying trajectories. Our method uses Stein Variational Gradient Descent (SVGD) to find a set of particles that approximates a distribution over low-cost trajectories while obeying constraints. CSVTO is applicable to problems with differentiable equality and inequality constraints and includes a novel particle re-sampling step to escape local minima. By explicitly generating diverse sets of trajectories, CSVTO is better able to avoid poor local minima and is more robust to initialization. We demonstrate that CSVTO outperforms baselines in challenging highly-constrained tasks, such as a 7DoF wrench manipulation task, where CSVTO outperforms all baselines both in success and constraint satisfaction.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# 近縁種間相互作用により誘導されるBose-Fermi混合物の絶縁相

Insulator phases of Bose-Fermi mixtures induced by intraspecies next-neighbor interactions ( http://arxiv.org/abs/2309.05594v2 )

ライセンス: Link先を確認
F. Gómez-Lozada, R. Franco, J. Silva-Valencia, (参考訳) 本研究では,2色のフェルミオンとスカラーボソンのハードコア限界における1次元混合について検討し,各キャリアの異なる充填に対する系のゼロ温度基底状態に及ぼす隣の種間相互作用の影響に着目した。 問題のパラメータを探索し、非局所的な相互作用がよく知られたモットとスピン選択モット絶縁体を好んだり、傷つけたりすることを観察した。 また、電荷密度波(CDW)構造を持つ3つの特異絶縁状態が出現し、キャリアの順序が相違していることが判明した。 例えば、不和性CDWは半充填ボゾン密度でしか現れないが、混合CDW状態はボソンとフェルミオンの等密度で特徴づけられる。 最後に、スピン選択CDWはボソンと1種類のフェルミオンのみを結合する。 各相に対して適切な順序パラメータを提案し, 対応する超流体-絶縁体遷移の臨界パラメータを求める。 本研究は, 半導体ヘテロ構造中の準粒子に関する最近の報告から, 長距離相互作用を伴う冷間原子系の実験のインスピレーションあるいは理解に寄与することができる。

We study a one-dimensional mixture of two-color fermions and scalar bosons at the hardcore limit, focusing on the effect that the intraspecies next-neighbor interactions have on the zero-temperature ground state of the system for different fillings of each carrier. Exploring the problem's parameters, we observed that the non-local interaction could favor or harm the well-known mixed Mott and spin-selective Mott insulators. We also found the emergence of three unusual insulating states with charge density wave (CDW) structures in which the orders of the carriers are out of phase with each other. For instance, the immiscible CDW appears only at half-filling bosonic density, whereas the mixed CDW state is characterized by equal densities of bosons and fermions. Finally, the spin-selective CDW couples the bosons and only one kind of fermions. Appropriate order parameters were proposed for each phase to obtain the critical parameters for the corresponding superfluid-insulator transition. Our results can inspire or contribute to understanding experiments in cold-atom setups with long-range interactions or recent reports involving quasiparticles in semiconductor heterostructures.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# Era Splitting: 決定木に対する不変学習

Era Splitting: Invariant Learning for Decision Trees ( http://arxiv.org/abs/2309.14496v5 )

ライセンス: Link先を確認
Timothy DeLise, (参考訳) 実生活における機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。 この行動は、従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間と場所をまたいだデータの分散を前提としている。 アウト・オブ・ディストリビューション(OOD)の一般化は、この現実を「環境的」あるいは「時代的」な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムで解決する。 これまでのところ、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当てている。 本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを決定木モデル,すなわち勾配促進決定木(GBDT)に適用する。 新しい分割基準では、データに関連付けられた時代的情報を使用して、データ内のすべての不整合時代において最適なツリーベースのモデルを成長させます。 本稿では,2つの新たな分割基準を定義し,理論的に分析する。 有効性は、単純な合成から複雑な実世界の応用まで、4つの実験で試験される。 特に、金融市場におけるOODドメイン適応問題では、新しいモデルがNumeraiデータセット上で、最先端のGBDTモデルより優れています。 新しい基準はScikit-Learnコードベースに組み込まれ、オンラインで無料で利用できる。

Real-life machine learning problems exhibit distributional shifts in the data from one time to another or from one place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate "environmental", or "era-wise" information into the algorithms. So far, most research has been focused on linear models and/or neural networks . In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, namely, gradient boosting decision trees (GBDTs). The new splitting criteria use era-wise information associated with the data to grow tree-based models that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. In this paper, two new splitting criteria are defined and analyzed theoretically. Effectiveness is tested on four experiments, ranging from simple, synthetic to complex, real-world applications. In particular we cast the OOD domain-adaptation problem in the context of financial markets, where the new models out-perform state-of-the-art GBDT models on the Numerai data set. The new criteria are incorporated into the Scikit-Learn code base and made freely available online.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# LoSチャネルチャートのためのマルチキャリアマルチアンテナシステムの最適化

Optimizing Multicarrier Multiantenna Systems for LoS Channel Charting ( http://arxiv.org/abs/2310.03762v2 )

ライセンス: Link先を確認
Taha Yassine, Luc Le Magoarou, Matthieu Crussière, Stephane Paquelet, (参考訳) チャネルチャート(CC)は、マルチキャリアマルチアンテナシステムにおけるパイロットベースのチャネル推定から得られる生チャネル観測の空間と、近接点がユーザ機器(UE)のチャネルに近接する低次元空間との間のマッピングを学習するものである。 このマッピングを学習する様々な方法のなかには、チャネルベクトル間の距離測定に依存するものもある。 このような距離は、UEの局所的な空間的近傍を確実に反映すべきである。 最近提案された位相非感性距離(PI)は、この点において良好な性質を示すが、周期的・振動的側面の両面からあいまいさに悩まされ、ユーザ同士の距離が近づいた場合もある。 本稿では, その距離とその制限について, 徹底的な理論的解析を行い, その緩和方法について考察する。 その結果、品質チャートを学習できるシステム設計ガイドラインが導出される。 次に、異なるシナリオにおける合成および現実的なデータに対して実験的検証を行う。

Channel charting (CC) consists in learning a mapping between the space of raw channel observations, made available from pilot-based channel estimation in multicarrier multiantenna system, and a low-dimensional space where close points correspond to channels of user equipments (UEs) close spatially. Among the different methods of learning this mapping, some rely on a distance measure between channel vectors. Such a distance should reliably reflect the local spatial neighborhoods of the UEs. The recently proposed phase-insensitive (PI) distance exhibits good properties in this regards, but suffers from ambiguities due to both its periodic and oscillatory aspects, making users far away from each other appear closer in some cases. In this paper, a thorough theoretical analysis of the said distance and its limitations is provided, giving insights on how they can be mitigated. Guidelines for designing systems capable of learning quality charts are consequently derived. Experimental validation is then conducted on synthetic and realistic data in different scenarios.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# 散逸的準可積分系における保存量の反復的構成

Iterative construction of conserved quantities in dissipative nearly integrable systems ( http://arxiv.org/abs/2310.03809v3 )

ライセンス: Link先を確認
Iris Ulčakar, Zala Lenarčič, (参考訳) 可積分系は量子世界の可解多体問題の稀な例を提供する。 微調整構造のため、それらの自然と実験における実現は完全には正確ではないため、積分性の効果は過渡的にのみ観察される。 この制限を克服する一つの方法は、ほぼ可積分系をバスと運転に弱結合させることであり、それらは任意の時間まで可積分効果を安定させ、一般化されたギブスのアンサンブルによって近似された定常状態にエンコードする。 しかし、そのような駆動散逸的ほぼ可積分モデルの記述は困難であり、正確な解析方法が提案されていない。 そこで我々は,高効率な一般化Gibsアンサンブル記述において主役となる保存量を決定する可積分性破壊摂動(バス)を反復的に決定する手法を開発する。 提案手法は, 熱力学的な大規模システムにおける計算の容易化を図り, 未知の保存量の構築に利用することができる。

Integrable systems offer rare examples of solvable many-body problems in the quantum world. Due to the fine-tuned structure, their realization in nature and experiment is never completely accurate, therefore effects of integrability are observed only transiently. One way to overcome this limitation is to weakly couple nearly integrable systems to baths and driving: these will stabilize integrable effects up to arbitrary time and encode them in the stationary state approximated by a generalized Gibbs ensemble. However, the description of such driven dissipative nearly integrable models is challenging and no exact analytical methods have been proposed so far. Here, we develop an iterative scheme in which integrability breaking perturbations (baths) determine the conserved quantities that play the leading role in a highly efficient truncated generalized Gibbs ensemble description. Our scheme paves the way for easier calculations in thermodynamically large systems and can be used to construct unknown conserved quantities.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# データ効率の良いアモータイズベイズ推論のための自己整合性を活用する

Leveraging Self-Consistency for Data-Efficient Amortized Bayesian Inference ( http://arxiv.org/abs/2310.04395v4 )

ライセンス: Link先を確認
Marvin Schmitt, Desi R. Ivanova, Daniel Habermann, Ullrich Köthe, Paul-Christian Bürkner, Stefan T. Radev, (参考訳) 本稿では,パラメータとデータの連立確率モデルにおける普遍対称性を利用して,償却ベイズ推定の効率と精度を向上させる手法を提案する。 簡単に言えば、ベイズの定理を逆転させ、関節モデルの近似表現に基づいて限界確率を推定する。 完全近似が成立すると、定義による全てのパラメータ値の限界確率は一定となる。 しかし、近似推論における誤差は、異なるパラメータ値の辺縁推定値に望ましくないばらつきをもたらす。 我々は、この対称性の違反を‘textit{self-consistency loss’で罰し、低データ状態における近似推論の品質を大幅に向上させ、一般的な神経密度推定器のトレーニングを強化するために使用できる。 本手法を多くの合成問題や現実的な科学的モデルに適用し,神経後部および確率近似の文脈において顕著な利点を見出した。

We propose a method to improve the efficiency and accuracy of amortized Bayesian inference by leveraging universal symmetries in the joint probabilistic model of parameters and data. In a nutshell, we invert Bayes' theorem and estimate the marginal likelihood based on approximate representations of the joint model. Upon perfect approximation, the marginal likelihood is constant across all parameter values by definition. However, errors in approximate inference lead to undesirable variance in the marginal likelihood estimates across different parameter values. We penalize violations of this symmetry with a \textit{self-consistency loss} which significantly improves the quality of approximate inference in low data regimes and can be used to augment the training of popular neural density estimators. We apply our method to a number of synthetic problems and realistic scientific models, discovering notable advantages in the context of both neural posterior and likelihood approximation.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# バックドアでプライバシーを守る

Defending Our Privacy With Backdoors ( http://arxiv.org/abs/2310.08320v4 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting, (参考訳) 未処理で、しばしばセンシティブなWebスクラッドデータに基づいてトレーニングされた大規模なAIモデルの拡散は、プライバシー上の大きな懸念を引き起こしている。 懸念の1つは、敵がプライバシー攻撃を使用してトレーニングデータに関する情報を抽出できることである。 残念ながら、パフォーマンスを犠牲にすることなく、特定の情報をモデルから取り除くという作業は簡単ではなく、難しいことが証明されている。 視覚言語モデルから個人の名前や顔などの個人情報を、スクラッチから再訓練する代わりに、わずか数分の微調整で除去するためのバックドア攻撃に基づく、比較的簡単かつ効果的な防御法を提案する。 具体的には, テキストエンコーダにバックドアを戦略的に挿入することにより, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。 画像エンコーダでは、個人の埋め込みをモデルから取り除き、普遍的で匿名の埋め込みにマッピングする。 広範に実験を行った結果, ゼロショット分類器の特殊なプライバシ攻撃を用いて, CLIP に対するバックドア・ベース・ディフェンスの有効性を検証した。 このアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供し、未計算のWebスクラッドデータでトレーニングされたモデル内の個人のプライバシを高めるための、有望な道を示す。

The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information, such as names and faces of individuals, from vision-language models by fine-tuning them for only a few minutes instead of re-training them from scratch. Specifically, by strategically inserting backdoors into text encoders, we align the embeddings of sensitive phrases with those of neutral terms-"a person" instead of the person's actual name. For image encoders, we map individuals' embeddings to be removed from the model to a universal, anonymous embedding. The results of our extensive experimental evaluation demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides a new "dual-use" perspective on backdoor attacks and presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# 数個のユニークなトークンを用いた教師なしログ異常検出

Unsupervised Log Anomaly Detection with Few Unique Tokens ( http://arxiv.org/abs/2310.08951v2 )

ライセンス: Link先を確認
Antonin Sulc, Annika Eichler, Tim Wilksen, (参考訳) 本稿では,欧州XFEL加速器の制御系ノードが生成するログデータの異常を検出する手法を提案する。 提案手法の主な目的は,各ノードに特有の可用性,ステータス,問題に対する包括的理解を提供することである。 この情報はスムーズな操作を保証するのに不可欠です。 ログのシーケンシャルな性質と,ノードに特有のリッチテキストコーパスの欠如は,従来型および学習型アプローチによる異常検出に重大な制限をもたらす。 この制限を克服するため,HMM(Hidden Markov Model)を用いて単語埋め込みと個々のノードを共起するベクトル列としてモデル化する手法を提案する。 我々は、新しいエントリを含む全ログシーケンスの確率と、新しいエントリを含まない前のログエントリのみの確率との確率比を計算することで、個々のログエントリを評価する。 この比は、新しいエントリが加えられたときのシーケンスの確率を示す。 提案手法では,欧州のXFELノードからのログエントリをスコアリングし,ランク付けすることで異常を検出することができる。 この方法は、問題を示す可能性のある不規則なログイベントについてオペレータに警告する警告システムを提供する。

This article introduces a method to detect anomalies in the log data generated by control system nodes at the European XFEL accelerator. The primary aim of this proposed method is to provide operators a comprehensive understanding of the availability, status, and problems specific to each node. This information is vital for ensuring the smooth operation. The sequential nature of logs and the absence of a rich text corpus that is specific to our nodes poses significant limitations for traditional and learning-based approaches for anomaly detection. To overcome this limitation, we propose a method that uses word embedding and models individual nodes as a sequence of these vectors that commonly co-occur, using a Hidden Markov Model (HMM). We score individual log entries by computing a probability ratio between the probability of the full log sequence including the new entry and the probability of just the previous log entries, without the new entry. This ratio indicates how probable the sequence becomes when the new entry is added. The proposed approach can detect anomalies by scoring and ranking log entries from European XFEL nodes where entries that receive high scores are potential anomalies that do not fit the routine of the node. This method provides a warning system to alert operators about these irregular log events that may indicate issues.
翻訳日:2024-07-24 23:33:02 公開日:2024-07-23
# CeCNN: Copula-enhanced convolutional neural network in joint prediction offracion error and axial length based on Ultra-widefield fundus image

CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images ( http://arxiv.org/abs/2311.03967v3 )

ライセンス: Link先を確認
Chong Zhong, Yang Li, Danjuan Yang, Meiyan Li, Xingyao Zhou, Bo Fu, Catherine C. Liu, A. H. Welsh, (参考訳) ウルトラワイドフィールド(UWF)の画像は、よりリッチなミオピア関連情報を提供するため、AI支援のミオピアスクリーニングにおいて魅力的な3Dバイオマーカーである。 軸長 (AL) は, 近視スクリーニング, 球面等価性 (SE) 測定, 高近視診断の2つの重要な目標と高い相関が認められているが, UWFファウンダス画像に基づく予測はまれである。 SEとALを計測するコストと時間コストを節約するため、我々は、SE、AL、ミオピアの状態を共同で予測するワンストップUWFベースの眼科用AIフレームワークであるCopula-enhanced Convolutional Neural Network (CeCNN)を提案する。 CeCNNは、複数の依存する離散連続応答と画像共変を関連づける多重応答回帰を定式化し、その関連の非線形性は、バックボーンCNNによってモデル化される。 応答間の依存構造を網羅的に記述するために,CNNにおける応答間の条件依存を新しいコプラ様の損失によってモデル化し,組み込んだ。 応答間の条件依存の統計的解釈を行い、そのような依存は画像共変量によって説明される依存を超えていることを明らかにする。 我々は、提案した損失がCNN重みの推定効率を高めることを、ヒューリスティックに正当化する。 我々は、私たちが収集したUWFデータセットにCeCNNを適用し、CeCNNが様々なバックボーンCNNの予測能力を大幅に向上することを示した。 本研究は,SE以外の眼科領域においても,ALは近視症にとって重要な指標であることを示す。

The ultra-widefield (UWF) fundus image is an attractive 3D biomarker in AI-aided myopia screening because it provides much richer myopia-related information. Though axial length (AL) has been acknowledged to be highly related to the two key targets of myopia screening, Spherical Equivalence (SE) measuring and high myopia diagnosis, its prediction based on the UWF fundus image is rarely considered. To save the high expense and time costs of measuring SE and AL, we propose the Copula-enhanced Convolutional Neural Network (CeCNN), a one-stop UWF-based ophthalmic AI framework to jointly predict SE, AL, and myopia status. The CeCNN formulates a multiresponse regression that relates multiple dependent discrete-continuous responses and the image covariate, where the nonlinearity of the association is modeled by a backbone CNN. To thoroughly describe the dependence structure among the responses, we model and incorporate the conditional dependence among responses in a CNN through a new copula-likelihood loss. We provide statistical interpretations of the conditional dependence among responses, and reveal that such dependence is beyond the dependence explained by the image covariate. We heuristically justify that the proposed loss can enhance the estimation efficiency of the CNN weights. We apply the CeCNN to the UWF dataset collected by us and demonstrate that the CeCNN sharply enhances the predictive capability of various backbone CNNs. Our study evidences the ophthalmology view that besides SE, AL is also an important measure to myopia.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# AIによるAltermagnetic Materialsの発見

AI-accelerated Discovery of Altermagnetic Materials ( http://arxiv.org/abs/2311.04418v3 )

ライセンス: Link先を確認
Ze-Feng Gao, Shuai Qu, Bocheng Zeng, Yang Liu, Ji-Rong Wen, Hao Sun, Peng-Jie Guo, Zhong-Yi Lu, (参考訳) 新たな磁気相であるオルテルマグネティズムは、強磁性と反強磁性とを区別して理論的に提案され、実験的に検証されている。 反磁性体は、多くのエキゾチックな物理的性質を持つことが知られているが、既知の反磁性体の可用性は、そのような性質の研究を妨げる。 したがって、異なる性質を持つ多くの種類の磁気異磁性物質を発見することは、磁気異磁性の包括的理解に不可欠であり、次世代情報技術、例えば、記憶装置、高感度センサーにおける新しい応用を促進する。 それぞれに独自の結晶構造があるため,事前に学習したグラフニューラルネットワークを用いて材料結晶構造の本質的特徴を学習するAIサーチエンジンによる自動発見手法を提案し,その後,限られた正のサンプルを持つ分類器を微調整して,材料候補の磁化確率を予測する。 最後に, 第一原理電子構造計算によって確認された金属, 半導体, 絶縁体を包含する50種類の新しい反磁性材料を発見した。 電子構造特性の幅は広いが, 新たに発見された反磁性材料には, 異常ホール効果, 異常カー効果, 位相特性など, 様々な新しい物性が現れる。 特筆すべきは、初めて4$iの反磁性材料を発見したことです。 全体として、AI検索エンジンは人間の専門家よりもはるかに優れたパフォーマンスを示し、独特な特性を持つ新しい反磁性材料のセットを提案する。

Altermagnetism, a new magnetic phase, has been theoretically proposed and experimentally verified to be distinct from ferromagnetism and antiferromagnetism. Although altermagnets have been found to possess many exotic physical properties, the limited availability of known altermagnetic materials hinders the study of such properties. Hence, discovering more types of altermagnetic materials with different properties is crucial for a comprehensive understanding of altermagnetism and thus facilitating new applications in the next generation information technologies, e.g., storage devices and high-sensitivity sensors. Since each altermagnetic material has a unique crystal structure, we propose an automated discovery approach empowered by an AI search engine that employs a pre-trained graph neural network to learn the intrinsic features of the material crystal structure, followed by fine-tuning a classifier with limited positive samples to predict the altermagnetism probability of a given material candidate. Finally, we successfully discovered 50 new altermagnetic materials that cover metals, semiconductors, and insulators confirmed by the first-principles electronic structure calculations. The wide range of electronic structural characteristics reveals that various novel physical properties manifest in these newly discovered altermagnetic materials, e.g., anomalous Hall effect, anomalous Kerr effect, and topological property. Noteworthy, we discovered 4 $i$-wave altermagnetic materials for the first time. Overall, the AI search engine performs much better than human experts and suggests a set of new altermagnetic materials with unique properties, outlining its potential for accelerated discovery of the materials with targeted properties.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# FetMRQC : 多心性胎児脳MRIのための堅牢な品質制御システム

FetMRQC: a robust quality control system for multi-centric fetal brain MRI ( http://arxiv.org/abs/2311.04780v2 )

ライセンス: Link先を確認
Thomas Sanchez, Oscar Esteban, Yvan Gomez, Alexandre Pron, Mériam Koob, Vincent Dunet, Nadine Girard, Andras Jakab, Elisenda Eixarch, Guillaume Auzias, Meritxell Bach Cuadra, (参考訳) 胎児脳MRIは、周産期診断のための神経超音波検査の補完となり、妊娠中における胎児脳の発達に関する基本的な洞察を可能にしている。 しかし、摂食プロトコルの制御されていない胎児の動きと不均一性は、変動品質のデータをもたらし、その後の研究の結果をバイアスする可能性がある。 臨床データの異種性によって引き起こされる領域シフトに頑健な画像品質評価と品質管理のためのオープンソースの機械学習フレームワークであるFetMRQCを提案する。 FetMRQCは、未処理の解剖学的MRIから品質指標のアンサンブルを抽出し、それらを組み合わせ、ランダムな森林を用いて専門家のレーティングを予測する。 我々は,4つの臨床センターと13の異なるスキャナーから,1600以上の胎児脳T2強調画像を手作業で評価した,先駆的に大きく多様なデータセット上で,我々の枠組みを検証した。 本研究は,FetMRQCの予測が解釈可能でありながら未確認データによく当てはまることを示す。 FetMRQCは、より堅牢な胎児脳画像へのステップであり、人間の脳の発達に関する新たな洞察を隠蔽する可能性がある。

Fetal brain MRI is becoming an increasingly relevant complement to neurosonography for perinatal diagnosis, allowing fundamental insights into fetal brain development throughout gestation. However, uncontrolled fetal motion and heterogeneity in acquisition protocols lead to data of variable quality, potentially biasing the outcome of subsequent studies. We present FetMRQC, an open-source machine-learning framework for automated image quality assessment and quality control that is robust to domain shifts induced by the heterogeneity of clinical data. FetMRQC extracts an ensemble of quality metrics from unprocessed anatomical MRI and combines them to predict experts' ratings using random forests. We validate our framework on a pioneeringly large and diverse dataset of more than 1600 manually rated fetal brain T2-weighted images from four clinical centers and 13 different scanners. Our study shows that FetMRQC's predictions generalize well to unseen data while being interpretable. FetMRQC is a step towards more robust fetal brain neuroimaging, which has the potential to shed new insights on the developing human brain.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# 救助:LLM応答のランク付けと部分順序付けによる応答生成の改善

Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation ( http://arxiv.org/abs/2311.09136v3 )

ライセンス: Link先を確認
Yikun Wang, Rui Zheng, Haoming Li, Qi Zhang, Tao Gui, Fei Liu, (参考訳) 特定のタスクのためにLLMをカスタマイズするには、高品質のレスポンスと低品質のレスポンスを分離する必要がある。 この技術は、広範囲の人選好データを用いた教師付き微調整を用いて開発することができる。 しかし、専門家による大量のデータを取得することは、ほとんどのタスクにとってコストがかかる。 本稿では,ランキング指標を用いたLCMの最適化手法について検討する。 この方法は、特定のタスクのために作成された候補のプールから最良のレスポンスを優先順位付けするようにモデルを訓練する。 従来の完全な順序付けではなく、我々は部分的な順序付けを提唱する。 私たちの部分的な順序付けは、より堅牢で、ノイズに敏感で、制限された人間のアノテーションやヒューリスティックな方法で達成できます。 本システムでは,テキスト・エンタテインメントや複数文書質問応答を含むベンチマーク・データセットを用いて,応答生成能力の向上を検証した。 我々は、特定のタスクに対する候補応答の収集方法、最も適した順序の決定方法、ランキングメトリクスとの微調整のバランスなど、重要な要素を理解するためにアブレーション研究を行う。 我々のアプローチであるRescueは、LCMの応答生成とタスク精度を向上させるための有望な道を提供する。

Customizing LLMs for a specific task involves separating high-quality responses from lower-quality ones. This skill can be developed using supervised fine-tuning with extensive human preference data. However, obtaining a large volume of expert-annotated data is costly for most tasks. In this paper, we explore a novel method to optimize LLMs using ranking metrics. This method trains the model to prioritize the best responses from a pool of candidates created for a particular task. Rather than a traditional full ordering, we advocate for a partial ordering, as achieving consensus on the perfect order of candidate responses can be challenging. Our partial ordering is more robust, less sensitive to noise, and can be achieved with limited human annotations or through heuristic methods. We test our system's improved response generation ability using benchmark datasets, including textual entailment and multi-document question answering. We conduct ablation studies to understand crucial factors, such as how to gather candidate responses for a specific task, determine their most suitable order, and balance supervised fine-tuning with ranking metrics. Our approach, named Rescue, offers a promising avenue for enhancing the response generation and task accuracy of LLMs.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# ConvNet vs Transformer, Supervised vs CLIP: イメージネットの精度を超える

ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy ( http://arxiv.org/abs/2311.09215v3 )

ライセンス: Link先を確認
Kirill Vishniakov, Zhiqiang Shen, Zhuang Liu, (参考訳) 現代のコンピュータビジョンは実践者には様々なモデルを提供しており、特定のアプリケーションに対して複数のオプションからモデルを選択することは困難である。 従来、競合するモデルアーキテクチャとトレーニングプロトコルは、ImageNetの分類精度によって比較される。 しかし、この単一のメトリクスは、特別なタスクに不可欠なパフォーマンスのニュアンスを完全にキャプチャするわけではない。 本研究では,ConvNetアーキテクチャとVision Transformerアーキテクチャの両方を対象として,教師付きおよびCLIPトレーニングパラダイム間のモデル動作の詳細な比較分析を行う。 選択したモデルには、ImageNetの精度と計算要件が類似しているが、誤りの種類、出力キャリブレーション、転送可能性、特徴不変性など、多くの点で異なることが判明している。 このモデル特性の多様性は、従来のメトリクスでは捉えられていないが、異なるモデルを選択する際に、より微妙な分析の必要性を強調している。 私たちのコードはhttps://github.com/kirill-vish/Beyond-INet.comから入手可能です。

Modern computer vision offers a great variety of models to practitioners, and selecting a model from multiple options for specific applications can be challenging. Conventionally, competing model architectures and training protocols are compared by their classification accuracy on ImageNet. However, this single metric does not fully capture performance nuances critical for specialized tasks. In this work, we conduct an in-depth comparative analysis of model behaviors beyond ImageNet accuracy, for both ConvNet and Vision Transformer architectures, each across supervised and CLIP training paradigms. Although our selected models have similar ImageNet accuracies and compute requirements, we find that they differ in many other aspects: types of mistakes, output calibration, transferability, and feature invariance, among others. This diversity in model characteristics, not captured by traditional metrics, highlights the need for more nuanced analysis when choosing among different models. Our code is available at https://github.com/kirill-vish/Beyond-INet.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# 量子ウォークによる異常頂点のスコーリング

Scoring Anomalous Vertices Through Quantum Walks ( http://arxiv.org/abs/2311.09855v2 )

ライセンス: Link先を確認
Andrew Vlasic, Anh Pham, (参考訳) 過去数十年間、膨大な情報源からのデータの流れが絶え間なく流れてきたため、ラベル付きデータ、準ラベル付きデータ、ラベルなしのラベル付きデータなど、さまざまなデータタイプから関連情報を抽出する高度な分析技術が数多く開発されてきた。 少なくとも準ラベルを持つデータにとって、グラフはこれらのデータ型の自然な表現であり、多くの産業や科学分野において重要な応用がある。 具体的には、ラベルのないデータに対して、グラフ上の異常検出は、どのデータポイントが他のほとんどのデータに存在する潜伏特性に当てはまらないかを決定する方法である。 ノードの局所的なトポロジ、ランダムウォーク、複雑なニューラルネットワークなど、尊敬されたグラフの個々の頂点に対する異常スコアを計算するための古典的な方法が数多く存在する。 グラフの構造を応用して,各ノードの異常スコアを各ノードの均一な開始位置で連続的にトラバースすることで計算する,最初の量子アルゴリズムを提案する。 提案アルゴリズムは、量子ランダムウォークのよく知られた特徴を取り入れ、NISQ時代とその後のISQ時代を考慮して、回路の深さの増大を緩和するためにアルゴリズムの調整を与える。 このアルゴリズムは、初期条件に関して、期待される確率に厳密に収束するように示される。

With the constant flow of data from vast sources over the past decades, a plethora of advanced analytical techniques have been developed to extract relevant information from different data types ranging from labeled data, quasi-labeled data, and data with no labels known a priori. For data with at best quasi-labels, graphs are a natural representation of these data types and have important applications in many industries and scientific disciplines. Specifically, for unlabeled data, anomaly detection on graphs is a method to determine which data points do not posses the latent characteristics that is present in most other data. There have been a variety of classical methods to compute an anomalous score for the individual vertices of a respected graph, such as checking the local topology of a node,random walks, and complex neural networks. Leveraging the structure of the graph, we propose a first quantum algorithm to calculate the anomaly score of each node by continuously traversing the graph with a uniform starting position of all nodes. The proposed algorithm incorporates well-known characteristics of quantum random walks, and, taking into consideration the NISQ era and subsequent ISQ era, an adjustment to the algorithm is given to mitigate the increasing depth of the circuit. This algorithm is rigorously shown to converge to the expected probability, with respect to the initial condition.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# オンデバイスソフトセンサ:レベルセンサデータによるリアルタイム流体流量推定

On-Device Soft Sensors: Real-Time Fluid Flow Estimation from Level Sensor Data ( http://arxiv.org/abs/2311.15036v3 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Gregor Schiele, (参考訳) ソフトセンサーは、自律システムの物理的およびデジタル領域をブリッジし、センサーの融合と知覚を高めるために不可欠である。 この研究は、クラウド上にソフトセンサーを配置する代わりに、デバイス上でのソフトセンサーの採用にシフトし、効率の向上とデータセキュリティの強化を約束する。 本手法は,無線センサネットワーク内のデバイスに直接人工知能(AI)を配置することにより,エネルギー効率を大幅に向上させる。 さらに、Microcontroller UnitとField-Programmable Gate Array(FPGA)の相乗的な統合は、後者の高速AI推論機能を活用する。 私たちの実世界のユースケースによる実証的な証拠は、FPGAベースのソフトセンサーが1.04から12.04マイクロ秒までの推論時間を実現していることを示している。 これらの魅力的な結果は、リアルタイム推論タスクを効率的に実行するための革新的なアプローチのかなりの可能性を浮き彫りにして、クラウドベースのデプロイメントに固有のレイテンシの課題に効果的に対処する、実現可能な代替手段を提示します。

Soft sensors are crucial in bridging autonomous systems' physical and digital realms, enhancing sensor fusion and perception. Instead of deploying soft sensors on the Cloud, this study shift towards employing on-device soft sensors, promising heightened efficiency and bolstering data security. Our approach substantially improves energy efficiency by deploying Artificial Intelligence (AI) directly on devices within a wireless sensor network. Furthermore, the synergistic integration of the Microcontroller Unit and Field-Programmable Gate Array (FPGA) leverages the rapid AI inference capabilities of the latter. Empirical evidence from our real-world use case demonstrates that FPGA-based soft sensors achieve inference times ranging remarkably from 1.04 to 12.04 microseconds. These compelling results highlight the considerable potential of our innovative approach for executing real-time inference tasks efficiently, thereby presenting a feasible alternative that effectively addresses the latency challenges intrinsic to Cloud-based deployments.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# 量子関数の量子多対数時間計算性をキャプチャする初等量子再帰スキーム

Elementary Quantum Recursion Schemes That Capture Quantum Polylogarithmic Time Computability of Quantum Functions ( http://arxiv.org/abs/2311.15884v3 )

ライセンス: Link先を確認
Tomoyuki Yamakami, (参考訳) 量子コンピューティングは、過去40年間、量子回路と量子チューリングマシンの2つの計算モデルに基づいて研究されてきた。 量子多項式時間計算性を捉えるために, 山上(J. Symb. Logic 80, pp.~1546-1587, 2020)により, 6つの初期量子関数と合成,分岐,多ビット量子再帰の3つの構成スキームを構成する再帰的スキーマ定義により, 新たな再帰論的アプローチを最近行った。 同様のアプローチをとることで、量子多対数時間計算可能性を調べ、そのような量子計算のために設計された基本的なスキームの表現力を更に探求する。 特に、高速量子再帰(fast quantum recursion)と呼ばれる量子再帰の基本形式を導入し、'elementary'の量子関数の$EQS$(elementary quantum schemes)を定式化する。 このクラス$EQS$は、BQPOLYLOGTIMEという複雑性クラスを形成する、正確に量子多対数時間計算能力をキャプチャする。 また,NLOGTIMEとPPOLYLOGTIMEからBQLYLOGTIMEを分離した。 さらに、$EQS$の自然な拡張として、よく知られた分割・参照戦略を実装するアルゴリズム的な手続きスキームについても検討する。 この分譲・分譲方式はパリティ関数の計算に役立ちますが、我々のシステムでは$EQS$では実現できません。

Quantum computing has been studied over the past four decades based on two computational models of quantum circuits and quantum Turing machines. To capture quantum polynomial-time computability, a new recursion-theoretic approach was taken lately by Yamakami [J. Symb. Logic 80, pp.~1546--1587, 2020] by way of recursion schematic definition, which constitutes six initial quantum functions and three construction schemes of composition, branching, and multi-qubit quantum recursion. By taking a similar approach, we look into quantum polylogarithmic-time computability and further explore the expressing power of elementary schemes designed for such quantum computation. In particular, we introduce an elementary form of the quantum recursion, called the fast quantum recursion, and formulate $EQS$ (elementary quantum schemes) of ``elementary'' quantum functions. This class $EQS$ captures exactly quantum polylogarithmic-time computability, which forms the complexity class BQPOLYLOGTIME. We also demonstrate the separation of BQPOLYLOGTIME from NLOGTIME and PPOLYLOGTIME. As a natural extension of $EQS$, we further consider an algorithmic procedural scheme that implements the well-known divide-and-conquer strategy. This divide-and-conquer scheme helps compute the parity function but the scheme cannot be realized within our system $EQS$.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# PEAN:Scene Text Image Super-Resolutionのための拡散型事前注意ネットワーク

PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution ( http://arxiv.org/abs/2311.17955v3 )

ライセンス: Link先を確認
Zuoyan Zhao, Hui Xue, Pengfei Fang, Shipeng Zhu, (参考訳) Scene Text Image Super- resolution (STISR) は、低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としており、下流認識タスクの性能を高めることを目的としている。 シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。 そこで本稿では,これらの要因の影響を軽減するために,PEAN(Presideed-Enhanced Attention Network)を提案する。 具体的には、テキストの形状に関わらず、画像の局所的およびグローバル的依存を正確に知覚することで、シーンテキストイメージを理解するために、注意に基づく変調モジュールを利用する。 一方、拡散ベースのモジュールは、先行するテキストを強化するために開発され、SRネットワークがより高度な意味的精度でSR画像を生成するためのより良いガイダンスを提供する。 さらに、マルチタスク学習パラダイムを用いてネットワークを最適化し、モデルが可読なSR画像を生成する。 その結果、PEANはTextZoomベンチマークで新しいSOTA結果を確立した。 また、SRネットワークの性能を向上させる手段として、前もって強化されたテキストの重要性を分析する実験を行った。 コードはhttps://github.com/jdfxzzy/PEAN.comで入手できる。

Scene text image super-resolution (STISR) aims at simultaneously increasing the resolution and readability of low-resolution scene text images, thus boosting the performance of the downstream recognition task. Two factors in scene text images, visual structure and semantic information, affect the recognition performance significantly. To mitigate the effects from these factors, this paper proposes a Prior-Enhanced Attention Network (PEAN). Specifically, an attention-based modulation module is leveraged to understand scene text images by neatly perceiving the local and global dependence of images, despite the shape of the text. Meanwhile, a diffusion-based module is developed to enhance the text prior, hence offering better guidance for the SR network to generate SR images with higher semantic accuracy. Additionally, a multi-task learning paradigm is employed to optimize the network, enabling the model to generate legible SR images. As a result, PEAN establishes new SOTA results on the TextZoom benchmark. Experiments are also conducted to analyze the importance of the enhanced text prior as a means of improving the performance of the SR network. Code is available at https://github.com/jdfxzzy/PEAN.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# モデルライフサイクルにおける画像生成モデルの社会的問題--社会技術的アプローチ

Situating the social issues of image generation models in the model life cycle: a sociotechnical approach ( http://arxiv.org/abs/2311.18345v2 )

ライセンス: Link先を確認
Amelia Katirai, Noa Garcia, Kazuki Ide, Yuta Nakashima, Atsuo Kishimoto, (参考訳) 画像生成モデルの開発競争は激化しており、利用可能なテキスト-画像モデルの数も急速に増加している。 これは、これらの技術に対する大衆の認識の高まりと結びついている。 他の生成型AIモデル(特に大きな言語モデル)は、彼らが提起する社会的および他の技術的問題に対して最近批判的な注目を集めてきたが、画像生成モデルの比較は比較的少ない。 本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。 機械学習と社会科学の交差点では,データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境への影響など,画像生成モデルから生じる7つの課題クラスタを特定し,文献調査の結果を報告する。 これらの社会問題をモデルライフサイクルに配置し、潜在的な問題が発生する場所や緩和の必要性を考慮し、支援する。 次に、これらの問題クラスタを、大規模言語モデルで報告されているものと比較する。 最終的に、画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であり、画像生成モデルによる社会的影響は、緊急に考慮されなければならない、と論じる。

The race to develop image generation models is intensifying, with a rapid increase in the number of text-to-image models available. This is coupled with growing public awareness of these technologies. Though other generative AI models--notably, large language models--have received recent critical attention for the social and other non-technical issues they raise, there has been relatively little comparable examination of image generation models. This paper reports on a novel, comprehensive categorization of the social issues associated with image generation models. At the intersection of machine learning and the social sciences, we report the results of a survey of the literature, identifying seven issue clusters arising from image generation models: data issues, intellectual property, bias, privacy, and the impacts on the informational, cultural, and natural environments. We situate these social issues in the model life cycle, to aid in considering where potential issues arise, and mitigation may be needed. We then compare these issue clusters with what has been reported for large language models. Ultimately, we argue that the risks posed by image generation models are comparable in severity to the risks posed by large language models, and that the social impact of image generation models must be urgently considered.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# バンドギャップを用いた六方晶窒化ホウ素の波長可変励起子偏光子

Tunable exciton polaritons in band-gap engineered hexagonal boron nitride ( http://arxiv.org/abs/2312.01913v2 )

ライセンス: Link先を確認
Pedro Ninhos, Christos Tserkezis, N. Asger Mortensen, Nuno M. R. Peres, (参考訳) 2次元絶縁体であるヘキサゴナル窒化ホウ素 (hBN) は, 近紫外および中紫外における静電気的に調節可能な励起子の新たなパラダイムを形成する。 課せられる可能性には3つの結果がある。 一 有効質量テンソルを再正規化し、異方性有効質量となること。 (ii)バンドギャップを再正常化し、最終的には減少する。 (iii)エキシトン結合エネルギーを低減させる。 これらの結果はすべて、その周期で外部ポテンシャルの強度の積を含む単一の次元のないパラメータに依存する。 励起エネルギーレベルに加えて、2つの直交方向に沿って光伝導率を計算し、そこから吸収スペクトルを計算する。 後者の結果から,本システムは格子偏光器を模倣できることがわかった。 これらの特徴により、1次元のhBN超格子は、紫外から可視光域まで微細調整された極性理論のプラットフォームとして実現可能である。

We show that hexagonal boron nitride (hBN), a two-dimensional insulator, when subjected to an external superlattice potential forms a new paradigm for electrostatically tunable excitons in the near- and mid-ultraviolet (UV). The imposed potential has three consequences: (i) it renormalizes the effective mass tensor, leading to anisotropic effective masses; (ii) it renormalizes the band gap, eventually reducing it; (iii) it reduces the exciton binding energies. All these consequences depend on a single dimensionless parameter, which includes the product of strength of the external potential with its period. In addition to the excitonic energy levels, we compute the optical conductivity along two orthogonal directions, and from it the absorption spectrum. The results for the latter show that our system is able to mimic a grid polarizer. These characteristics make one-dimensional hBN superlattices a viable and unexplored platform for fine-tuned polaritonics in the UV to visible spectral range.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# タスクは価値ある1つの言葉である:高品質なVersatile Image Inpaintingのためのタスクプロンプトによる学習

A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting ( http://arxiv.org/abs/2312.03594v4 )

ライセンス: Link先を確認
Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen, (参考訳) 背景フィリングやオブジェクト合成など,ユーザの指定した領域を埋める必要があるため,画像のインペイントの促進は困難である。 既存のアプローチでは、コンテキスト対応の充足か、テキスト記述を使ったオブジェクト合成に重点を置いている。 しかし、異なるトレーニング戦略のため、両方のタスクを同時に達成することは困難である。 この課題を克服するために、我々はPowerPaintを紹介します。 まず、学習可能なタスクプロンプトと調整された微調整戦略を導入する。 これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成でき、その結果、最先端のパフォーマンスを実現します。 第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。 さらに,プロンプト補間技術を活用し,形状誘導型物体の塗装を制御可能とし,形状誘導型アプリケーションにおけるモデルの適用性を高める。 最後に,PowerPaintの有効性を検証するため,広範囲な実験と応用を行った。 私たちはプロジェクトページでコードとモデルを公開しています。

Advancing image inpainting is challenging as it requires filling user-specified regions for various intents, such as background filling and object synthesis. Existing approaches focus on either context-aware filling or object synthesis using text descriptions. However, achieving both tasks simultaneously is challenging due to differing training strategies. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in multiple inpainting tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model's focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Moreover, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting, enhancing the model's applicability in shape-guided applications. Finally, we conduct extensive experiments and applications to verify the effectiveness of PowerPaint. We release our codes and models on our project page: https://powerpaint.github.io/.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# 騒音下におけるMIP*Vanishesの計算的優位性

The Computational Advantage of MIP* Vanishes in the Presence of Noise ( http://arxiv.org/abs/2312.04360v2 )

ライセンス: Link先を確認
Yangjing Dong, Honghao Fu, Anand Natarajan, Minglong Qin, Haochen Xu, Penghui Yao, (参考訳) MIP* は古典的な MIP (Babai et al '91, Ji et al '20): MIP = NEXP に対し、量子クラス MIP* は RE に等しい。 これは、MIP* のプローバーが非有界量子絡み合いを共有できるためである。 しかし、近年の秦と八尾の「21」と「23」の研究では、プローサの共有状態がノイズを含む場合、この優位性が著しく低下することが示されている。 本稿では,量子マルチプロペラ対話型証明システムの計算能力に及ぼすノイズの影響を正確に評価する。 検証器が多項式的に多くのビットをプローバーに送信し、プローバーが常に多くのビットを返送する量子二プローラーワンラウンド対話システム MIP*[poly, O(1)] について検討する。 このモデルでは、共有絡みによる計算上の優位性を完全に損なうことを示す。 具体的には、各EPR状態が任意に小さなノイズ量によって影響を受けるような、任意のノイズの多いEPR状態を共有することが許された場合、複雑性クラスはNEXP = MIPと等価であることを示す。 これは、Qin と Yao '21 による NEEEXP (非決定的三重指数時間) の既知バウンダリにおいて大きく改善され、また、このパワーの崩壊は、ノイズのない EPR 状態が RE = MIP*[poly, poly] のフルパワーをクラスに与えることを示し、O(1) の応答サイズよりもノイズによるものであることも示している。

Quantum multiprover interactive proof systems with entanglement MIP* are much more powerful than its classical counterpart MIP (Babai et al. '91, Ji et al. '20): while MIP = NEXP, the quantum class MIP* is equal to RE, a class including the halting problem. This is because the provers in MIP* can share unbounded quantum entanglement. However, recent works of Qin and Yao '21 and '23 have shown that this advantage is significantly reduced if the provers' shared state contains noise. This paper attempts to exactly characterize the effect of noise on the computational power of quantum multiprover interactive proof systems. We investigate the quantum two-prover one-round interactive system MIP*[poly, O(1)], where the verifier sends polynomially many bits to the provers and the provers send back constantly many bits. We show noise completely destroys the computational advantage given by shared entanglement in this model. Specifically, we show that if the provers are allowed to share arbitrarily many noisy EPR states, where each EPR state is affected by an arbitrarily small constant amount of noise, the resulting complexity class is equivalent to NEXP = MIP. This improves significantly on the previous best-known bound of NEEEXP (nondeterministic triply exponential time) by Qin and Yao '21. We also show that this collapse in power is due to the noise, rather than the O(1) answer size, by showing that allowing for noiseless EPR states gives the class the full power of RE = MIP*[poly, poly]. Along the way, we develop two technical tools of independent interest. First, we give a new, deterministic tester for the positivity of an exponentially large matrix, provided it has a low-degree Fourier decomposition in terms of Pauli matrices. Secondly, we develop a new invariance principle for smooth matrix functions having bounded third-order Fr\'echet derivatives or which are Lipschitz continous.
翻訳日:2024-07-24 23:23:10 公開日:2024-07-23
# 構造的逆自由自然勾配:メモリ効率・数値安定KFAC

Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC ( http://arxiv.org/abs/2312.05705v4 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi, Richard E. Turner, Alireza Makhzani, (参考訳) KFACのような二階法はニューラルネットトレーニングに有用である。 しかし、Kronecker因子は密度が高く、行列逆転や分解を必要とするため、数値的に低い精度で不安定であるため、メモリ非効率であることが多い。 これらの制限は、現代の混合精度訓練には不人気である。 私たちはそれらに対処します i)逆フリーなKFAC更新を定式化し、 (II) Kronecker因子の構造を示唆し、構造的逆自由な自然勾配降下(SINGD)をもたらす。 現代のニューラルネットワークでは、SINGDはKFACとは対照的にメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。 我々の研究は、現代の低精度トレーニングにおける一階法と二階法のギャップを埋める。

Second-order methods such as KFAC can be useful for neural net training. However, they are often memory-inefficient since their preconditioning Kronecker factors are dense, and numerically unstable in low precision as they require matrix inversion or decomposition. These limitations render such methods unpopular for modern mixed-precision training. We address them by (i) formulating an inverse-free KFAC update and (ii) imposing structures in the Kronecker factors, resulting in structured inverse-free natural gradient descent (SINGD). On modern neural networks, we show that SINGD is memory-efficient and numerically robust, in contrast to KFAC, and often outperforms AdamW even in half precision. Our work closes a gap between first- and second-order methods in modern low-precision training.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# AIコントロール:意図的な転倒にもかかわらず安全性を改善する

AI Control: Improving Safety Despite Intentional Subversion ( http://arxiv.org/abs/2312.06942v5 )

ライセンス: Link先を確認
Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger, (参考訳) 大規模言語モデル(LLM)がより強力になり、より自律的にデプロイされるようになるにつれ、有害な結果を引き起こすのを防ぐことがますます重要になるでしょう。 例えば、他のモデルの出力をレビューするためにモデルを使用する場合や、微妙な障害モードをサーフェスするためにレッドチーム技術を使用する場合などである。 しかし、研究者は、モデル自体が意図的にそれを覆そうとしている場合、そのような技術が安全を保証しているかどうかを評価していない。 本稿では,意図的な転倒に対して堅牢な安全技術(プロトコール)のパイプラインを開発し,評価する。 我々は、強力だが信頼できないモデル(GPT-4)へのアクセス、信頼性の低いモデル(GPT-3.5)へのアクセス、高品質な信頼性のある作業へのアクセス制限など、一連のプログラミング問題を解決したいシナリオについて検討する。 バックドアを含むソリューションを決して提出しないプロトコルについて検討し、ここではテストケースで捕捉されない論理的エラーとして運用する。 我々は、信頼できないモデルがそれらを覆すために使用できる戦略に対して、様々なプロトコルを調査し、それぞれをテストする。 1つのプロトコルは、信頼された編集と呼ばれるものです。 このプロトコルはまず GPT-4 にコードを書き、次に GPT-3.5 にそのコードの不審さを評価するよう要求する。 コードが疑わしいしきい値以下であれば、それを提出する。 そうでなければ、GPT-3.5は、不審と思われる部分を削除するためにソリューションを編集し、その後、編集されたコードを提出する。 もう一つのプロトコルは信頼できない監視である。 このプロトコルは GPT-4 にコードを書き、次に GPT-4 の別のインスタンスにコードがバックドアされているかどうかを尋ねる。 これらのプロトコルは、単純なベースラインで大幅に改善される。

As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety techniques for this purpose, e.g. using models to review the outputs of other models, or red-teaming techniques to surface subtle failure modes. However, researchers have not evaluated whether such techniques still ensure safety if the model is itself intentionally trying to subvert them. In this paper, we develop and evaluate pipelines of safety techniques ("protocols") that are robust to intentional subversion. We investigate a scenario in which we want to solve a sequence of programming problems, using access to a powerful but untrusted model (in our case, GPT-4), access to a less powerful trusted model (in our case, GPT-3.5), and limited access to high-quality trusted labor. We investigate protocols that aim to never submit solutions containing backdoors, which we operationalize here as logical errors that are not caught by test cases. We investigate a range of protocols and test each against strategies that the untrusted model could use to subvert them. One protocol is what we call trusted editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to rate the suspiciousness of that code. If the code is below some suspiciousness threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove parts that seem suspicious and then submits the edited code. Another protocol is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks another instance of GPT-4 whether the code is backdoored, using various techniques to prevent the GPT-4 instances from colluding. These protocols improve substantially on simple baselines.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 差分的プロジェクション深度に基づく中央値

Differentially private projection-depth-based medians ( http://arxiv.org/abs/2312.07792v3 )

ライセンス: Link先を確認
Kelly Ramsay, Dylan Spicker, (参考訳) 我々は,提案-テスト-リリース (PTR) と指数的メカニズムを用いて,$(\epsilon,\delta)$-differentially private projection-depth-based mediansを開発する。 入力パラメータと集団測度(例えば、モーメント境界を仮定しない)の一般的な条件の下では、PTRにおけるテストが失敗する確率と、有限サンプル偏差境界によるプライバシーのコストを定量化する。 次に、いくつかの観測結果が汚染された場合、その入力位置とスケール推定器が故障しない場合、プライベートプロジェクション深度に基づく中央値が故障しないことを示す。 本研究は, 標準射影深度に基づく中央値と, トリミング推定器から得られた投射深度に基づく中央値について, 主な結果を示す。 ガウス的設定では、結果として生じる偏差境界が、プライベートガウス平均推定の既知の下界と一致することを示す。 Cauchy設定では、重みによる‘outlier error amplification’効果が、プライバシのコストを上回ることを示した。 この結果は数値シミュレーションによって検証される。 さらに、一般のPTR機構と、一般の関心を持つであろう順序統計の投射間隔に対する均一な濃度結果を示す。

We develop $(\epsilon,\delta)$-differentially private projection-depth-based medians using the propose-test-release (PTR) and exponential mechanisms. Under general conditions on the input parameters and the population measure, (e.g. we do not assume any moment bounds), we quantify the probability the test in PTR fails, as well as the cost of privacy via finite sample deviation bounds. Next, we show that when some observations are contaminated, the private projection-depth-based median does not break down, provided its input location and scale estimators do not break down. We demonstrate our main results on the canonical projection-depth-based median, as well as on projection-depth-based medians derived from trimmed estimators. In the Gaussian setting, we show that the resulting deviation bound matches the known lower bound for private Gaussian mean estimation. In the Cauchy setting, we show that the ``outlier error amplification'' effect resulting from the heavy tails outweighs the cost of privacy. This result is then verified via numerical simulations. Additionally, we present results on general PTR mechanisms and a uniform concentration result on the projected spacings of order statistics, which may be of general interest.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 相関ダイナミクスモデルによるニューラルトレーニングの強化

Enhancing Neural Training via a Correlated Dynamics Model ( http://arxiv.org/abs/2312.13247v2 )

ライセンス: Link先を確認
Jonathan Brokman, Roy Betser, Rotem Turjeman, Tom Berkov, Ido Cohen, Guy Gilboa, (参考訳) ニューラルネットワークの規模が大きくなるにつれて、そのトレーニングは計算的に要求され、ダイナミクスに富んでいる。 これらのトレーニングダイナミクスへの関心が高まっている中で、新しい観察結果が提示される:トレーニング中のパラメータは時間とともに固有の相関を示す。 これに基づいて相関モード分解(CMD)を導入する。 このアルゴリズムは、パラメータ空間を「モード」と呼ばれるグループにまとめ、エポック間の同期動作を表示する。 これにより、CMDは数モードのみを使用して、ResNetsやTransformersのような複雑なネットワークのトレーニングダイナミクスを効率的に表現できる。 さらに、テストセットの一般化が強化される。 トレーニングと同時に動作するように設計された効率的なCMDバリアントを導入する。 実験の結果,CMD は画像分類のコンパクトなモデル化のための最先端手法を超越していることがわかった。 我々のモデリングは、フェデレート学習の文脈における予備実験で示されているように、訓練効率の向上と通信オーバーヘッドの低減を可能にする。

As neural networks grow in scale, their training becomes both computationally demanding and rich in dynamics. Amidst the flourishing interest in these training dynamics, we present a novel observation: Parameters during training exhibit intrinsic correlations over time. Capitalizing on this, we introduce Correlation Mode Decomposition (CMD). This algorithm clusters the parameter space into groups, termed modes, that display synchronized behavior across epochs. This enables CMD to efficiently represent the training dynamics of complex networks, like ResNets and Transformers, using only a few modes. Moreover, test set generalization is enhanced. We introduce an efficient CMD variant, designed to run concurrently with training. Our experiments indicate that CMD surpasses the state-of-the-art method for compactly modeled dynamics on image classification. Our modeling can improve training efficiency and lower communication overhead, as shown by our preliminary experiments in the context of federated learning.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 4つの一重項量子ビットの普遍制御

Universal control of four singlet-triplet qubits ( http://arxiv.org/abs/2312.16101v3 )

ライセンス: Link先を確認
Xin Zhang, Elizaveta Morozova, Maximilian Rimbach-Russ, Daniel Jirovec, Tzu-Kan Hsiao, Pablo Cova Fariña, Chien-An Wang, Stefan D. Oosterhout, Amir Sammak, Giordano Scappucci, Menno Veldhorst, Lieven M. K. Vandersypen, (参考訳) 半導体量子ドットにおける相互作用スピンのコヒーレント制御は、量子情報処理だけでなく、ボトムアップからの量子磁気の研究にも強い関心を持つ。 ここでは、近接するスピン間の完全かつ制御可能な相互作用を持つゲルマニウム量子ドットアレイについて述べる。 制御レベルの実証として、このシステムでは4つのシングルトリップキュービットを定義し、各キュービットとSWAPスタイルの2つのキュービットゲート間の2軸の単一キュービット制御を示し、平均99.49(8)-99.84(1)%、ベル状態忠実度73(1)-90(1)%を得る。 これらの演算を組み合わせることで、配列間の絡み合いを発生・分散する回路を実験的に実装する。 忠実度75(2)%、コンカレンス22(4)%の遠隔ベル状態を実現する。 これらの結果は、量子コンピューティングの競合するプラットフォームとしてのシングルトリップキュービットの可能性を強調し、拡張された双線形アレイにおける量子ドットスピンの制御のスケールアップが可能であることを示唆している。

The coherent control of interacting spins in semiconductor quantum dots is of strong interest for quantum information processing as well as for studying quantum magnetism from the bottom up. Here, we present a $2\times4$ germanium quantum dot array with full and controllable interactions between nearest-neighbor spins. As a demonstration of the level of control, we define four singlet-triplet qubits in this system and show two-axis single-qubit control of each qubit and SWAP-style two-qubit gates between all neighbouring qubit pairs, yielding average single-qubit gate fidelities of 99.49(8)-99.84(1)% and Bell state fidelities of 73(1)-90(1)%. Combining these operations, we experimentally implement a circuit designed to generate and distribute entanglement across the array. A remote Bell state with a fidelity of 75(2)% and concurrence of 22(4)% is achieved. These results highlight the potential of singlet-triplet qubits as a competing platform for quantum computing and indicate that scaling up the control of quantum dot spins in extended bilinear arrays can be feasible.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# グローバル情報融合による複数方向対応SARオブジェクト検出ネットワーク

Multi-scale direction-aware SAR object detection network via global information fusion ( http://arxiv.org/abs/2312.16943v4 )

ライセンス: Link先を確認
Mingxiang Cao, Weiying Xie, Jie Lei, Jiaqing Zhang, Daixun Li, Yunsong Li, (参考訳) ディープラーニングは、SAR(Synthetic Aperture Radar)画像を用いた物体検出において大きな進歩をもたらした。 既存の手法は、有望な結果を達成する一方で、ローカルおよびグローバルな情報、特に方向対応の機能の効果的な統合に苦慮することが多い。 本稿では,SARオブジェクト検出における方向認識情報のグローバルな融合を目的とした新しいフレームワークであるSAR-Netを提案する。 SAR-Netは、UCM(Unity Compensation Mechanism)とDAM(Direction-Aware Attention Module)という2つの重要なイノベーションを活用している。 UCMは、様々な規模の機能間の補完関係の確立を促進し、効率的なグローバル情報融合と伝達を可能にしている。 さらに、DAMは双方向の注意重合を通じて方向認識情報を捕捉し、背景干渉を効果的に除去する。 広範囲にわたる実験は、SAR-Netの有効性を実証し、航空機(SAR-AIRcraft-1.0)と船舶データセット(SSDD, HRSID)に対して最先端の結果を達成し、その一般化能力と堅牢性を確認した。

Deep learning has driven significant progress in object detection using Synthetic Aperture Radar (SAR) imagery. Existing methods, while achieving promising results, often struggle to effectively integrate local and global information, particularly direction-aware features. This paper proposes SAR-Net, a novel framework specifically designed for global fusion of direction-aware information in SAR object detection. SAR-Net leverages two key innovations: the Unity Compensation Mechanism (UCM) and the Direction-aware Attention Module (DAM). UCM facilitates the establishment of complementary relationships among features across different scales, enabling efficient global information fusion and transmission. Additionally, DAM, through bidirectional attention polymerization, captures direction-aware information, effectively eliminating background interference. Extensive experiments demonstrate the effectiveness of SAR-Net, achieving state-of-the-art results on aircraft (SAR-AIRcraft-1.0) and ship datasets (SSDD, HRSID), confirming its generalization capability and robustness.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 深層学習フレームワーク開発における推定量の自動同定に関する探索的研究

An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks ( http://arxiv.org/abs/2401.03653v4 )

ライセンス: Link先を確認
Chen Yang, Peng Liang, Zinan Ma, (参考訳) ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。 これらの仮定は、さまざまな種類のソフトウェアアーティファクト(要件、設計決定、技術的負債など)に関連しており、結果として無効になり、システム障害につながる可能性がある。 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。 しかし、DLフレームワークの開発の様々なソース(例えば、コードコメント、コミット、問題)に仮定が散在しており、手動で仮定を特定することは、コストが高い(例えば、時間とリソース)。 この研究の目的は、GitHub上のDLフレームワークプロジェクト(イシュー、プルリクエスト、コミット)のコンテキストにおいて、開発者とユーザの視点から仮定を識別する目的で異なる分類モデルを評価することである。 私たちは、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、AssuEvalデータセットの仮定を特定するために、7つの非トランスフォーマーベースモデル(例えば、サポートベクタマシン、分類と回帰ツリー)、ALBERTモデル、3つの大きな言語モデル(ChatGPT、Claude、Gemini)のパフォーマンスを調査しました。 その結果、ALBERTは他のモデルよりもはるかに優れたAssuEvalデータセットの仮定を特定するための最高の性能(f1-score: 0.9584)を達成している(第2の最良のf1-scoreはClude 3.5 Sonnetモデルによって達成された0.8858)。 ChatGPT、Claude、Geminiは人気のある大規模言語モデルですが、低パフォーマンスのため、DLフレームワーク開発における仮定を特定するために使うのは推奨しません。 この研究は、研究者たちにさらなる研究のための仮定の最大のデータセットを提供し、実践者が仮定をよりよく理解し、プロジェクト内でそれらをどのように管理するかを手助けする。

Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, and issues) of DL framework development, and manually identifying assumptions has high costs (e.g., time and resources). The objective of the study is to evaluate different classification models for the purpose of identification with respect to assumptions from the point of view of developers and users in the context of DL framework projects (i.e., issues, pull requests, and commits) on GitHub. We constructed a new and largest dataset (i.e., AssuEval) of assumptions collected from the TensorFlow and Keras repositories on GitHub; explored the performance of seven non-transformers based models (e.g., Support Vector Machine, Classification and Regression Trees), the ALBERT model, and three large language models (i.e., ChatGPT, Claude, and Gemini) for identifying assumptions on the AssuEval dataset. The study results show that ALBERT achieves the best performance (f1-score: 0.9584) for identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.8858, achieved by the Claude 3.5 Sonnet model). Though ChatGPT, Claude, and Gemini are popular large language models, we do not recommend using them to identify assumptions in DL framework development because of their low performance. This study provides researchers with the largest dataset of assumptions for further research and helps practitioners better understand assumptions and how to manage them in their projects.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# ビデオ質問応答のための大規模マルチモーダルモデルによる弱教師付きガウスコントラストグラウンド

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering ( http://arxiv.org/abs/2401.10711v4 )

ライセンス: Link先を確認
Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge, (参考訳) Video Question Answering (VideoQA) は、ビデオで見られる情報に基づいて自然言語の質問に答えることを目的としている。 画像言語理解と推論におけるLMM(Large Multimodal Models)の成功にもかかわらず、ビデオQAは、一様にサンプリングされたフレームを視覚入力として扱うだけでは不十分である。 さらに、既存のVideoQAデータセットには、質問クリティカルなタイムスタンプに対する人間のアノテーションはありません。 そこで本研究では,視覚的入力として質問クリティカルモーメントによる回答を推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。 具体的には、まず質問と回答のペアをイベント記述として融合して、複数のキーフレームをターゲットモーメントと擬似ラベルとして、CLIPモデルの視覚言語アライメント機能によって見つける。 これらの擬似ラベル付き鍵フレームを監視の弱さとして、我々はガウスベースのコントラストグラウンド(GCG)モジュールを考案した。 GCGはビデオの時間構造を特徴付けるために複数のガウス関数を学習し、LMMの視覚的入力である正のモーメントとして質問クリティカルフレームをサンプリングする。 いくつかのベンチマークにおいて、我々のフレームワークの有効性を検証し、従来の最先端手法と比較して大幅に改善した。

Video Question Answering (VideoQA) aims to answer natural language questions based on the information observed in videos. Despite the recent success of Large Multimodal Models (LMMs) in image-language understanding and reasoning, they deal with VideoQA insufficiently, by simply taking uniformly sampled frames as visual inputs, which ignores question-relevant visual clues. Moreover, there are no human annotations for question-critical timestamps in existing VideoQA datasets. In light of this, we propose a novel weakly supervised framework to enforce the LMMs to reason out the answers with question-critical moments as visual inputs. Specifically, we first fuse the question and answer pairs as event descriptions to find multiple keyframes as target moments and pseudo-labels, with the visual-language alignment capability of the CLIP models. With these pseudo-labeled keyframes as additionally weak supervision, we devise a lightweight Gaussian-based Contrastive Grounding (GCG) module. GCG learns multiple Gaussian functions to characterize the temporal structure of the video, and sample question-critical frames as positive moments to be the visual inputs of LMMs. Extensive experiments on several benchmarks verify the effectiveness of our framework, and we achieve substantial improvements compared to previous state-of-the-art methods.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# EndoGS : Gaussian Splatting を用いた変形性内視鏡組織再建術

EndoGS: Deformable Endoscopic Tissues Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2401.11535v3 )

ライセンス: Link先を確認
Lingting Zhu, Zhao Wang, Jiahao Cui, Zhenchao Jin, Guying Lin, Lequan Yu, (参考訳) 外科的3D再構成は、ロボット手術における重要な研究領域であり、最近の研究は、単一の視点ビデオから変形可能な組織の3D再構成を成功させるために、動的放射野の変種を取り入れている。 しかしながら、これらの手法は、ダウンストリームタスクにおける採用を制限するため、時間を要する最適化や品質の低下に悩まされることが多い。 最近流行している3D表現である3D Gaussian Splatting にインスパイアされ, 変形性内視鏡組織再建に Gaussian Splatting を応用した EndoGS を報告した。 具体的には、動的シーンを扱うための変形場、空間時空間重みマスクを用いた深度誘導監視、ツールを1つの視点から排除した3次元目標の最適化、より優れた幾何を捉えるための表面整列正規化項を含む。 結果として、EndoGSは単一視点ビデオ、推定深度マップ、ラベル付きツールマスクから高品質な変形可能な内視鏡組織を再構成しレンダリングする。 DaVinciのロボット手術ビデオの実験は、EndoGSが優れたレンダリング品質を達成することを実証している。 コードはhttps://github.com/HKU-MedAI/EndoGSで入手できる。

Surgical 3D reconstruction is a critical area of research in robotic surgery, with recent works adopting variants of dynamic radiance fields to achieve success in 3D reconstruction of deformable tissues from single-viewpoint videos. However, these methods often suffer from time-consuming optimization or inferior quality, limiting their adoption in downstream tasks. Inspired by 3D Gaussian Splatting, a recent trending 3D representation, we present EndoGS, applying Gaussian Splatting for deformable endoscopic tissue reconstruction. Specifically, our approach incorporates deformation fields to handle dynamic scenes, depth-guided supervision with spatial-temporal weight masks to optimize 3D targets with tool occlusion from a single viewpoint, and surface-aligned regularization terms to capture the much better geometry. As a result, EndoGS reconstructs and renders high-quality deformable endoscopic tissues from a single-viewpoint video, estimated depth maps, and labeled tool masks. Experiments on DaVinci robotic surgery videos demonstrate that EndoGS achieves superior rendering quality. Code is available at https://github.com/HKU-MedAI/EndoGS.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 接触を超えて:事前訓練された2次元拡散モデルから3次元物体の包括的精度を明らかにする

Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models ( http://arxiv.org/abs/2401.12978v3 )

ライセンス: Link先を確認
Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo, (参考訳) 与えられた環境(例えば、余裕)と対話する際の人間固有の知識を理解することは、人間を支援するためにAIを改善するために不可欠である。 既存のアプローチは、主に相互作用中の人間と物体の接触に焦点を当てているが、そのような空白表現は人間と物体の相互作用(HOI)の他の重要な側面、すなわち相対的な位置と向きのパターンに完全に対処することはできない。 本稿では,Comprehensive Affordance (ComA) という新しい余裕表現を紹介する。 ComAは3Dオブジェクトメッシュを与えられた場合、人間メッシュ間の相互作用において、相対配向と頂点の近接の分布をモデル化し、接触パターン、相対配向、空間関係をキャプチャする。 分布を構成するために,3Dオブジェクトメッシュが与えられた多様で現実的な3D HOIサンプルを合成するパイプラインを提案する。 このパイプラインは、事前訓練された2D塗装拡散モデルを利用して、オブジェクトレンダリングからHOI画像を生成し、3Dにリフトする。 虚偽の価格発生を避けるため、我々は新しい塗り絵フレームワークAdaptive Mask Inpaintingを提案する。 ComAは合成サンプル上に構築されているため、任意のオブジェクトに無制限に拡張することができる。 広範な実験を通じて、ComAは、コンタクトベースの余裕をモデル化する上で、人間のアノテーションに依存している競争相手よりも優れていることを実証した。 重要なことは,ComAが3次元の人間と物体の相互作用を最適化する可能性を示し,接触特性と非接触特性の両方を組み込むことの利点を強調した。

Understanding the inherent human knowledge in interacting with a given environment (e.g., affordance) is essential for improving AI to better assist humans. While existing approaches primarily focus on human-object contacts during interactions, such affordance representation cannot fully address other important aspects of human-object interactions (HOIs), i.e., patterns of relative positions and orientations. In this paper, we introduce a novel affordance representation, named Comprehensive Affordance (ComA). Given a 3D object mesh, ComA models the distribution of relative orientation and proximity of vertices in interacting human meshes, capturing plausible patterns of contact, relative orientations, and spatial relationships. To construct the distribution, we present a novel pipeline that synthesizes diverse and realistic 3D HOI samples given any 3D object mesh. The pipeline leverages a pre-trained 2D inpainting diffusion model to generate HOI images from object renderings and lifts them into 3D. To avoid the generation of false affordances, we propose a new inpainting framework, Adaptive Mask Inpainting. Since ComA is built on synthetic samples, it can extend to any object in an unbounded manner. Through extensive experiments, we demonstrate that ComA outperforms competitors that rely on human annotations in modeling contact-based affordance. Importantly, we also showcase the potential of ComA to reconstruct human-object interactions in 3D through an optimization framework, highlighting its advantage in incorporating both contact and non-contact properties.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# ポジション:AI/MLインフルエンサーは学術的プロセスの場を持つ

Position: AI/ML Influencers Have a Place in the Academic Process ( http://arxiv.org/abs/2401.13782v3 )

ライセンス: Link先を確認
Iain Xie Weissburg, Mehir Arora, Xinyi Wang, Liangming Pan, William Yang Wang, (参考訳) AIとMLカンファレンスの受理論文の数が数千にも達するにつれ、研究者が研究論文にアクセスして読む方法が明確になってきています。 本稿では,機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割,特に論文の引用回数について考察する。 2018年12月から2023年10月までのツイートにまたがる8000以上の論文の包括的なデータセットを収集し、9つの主要な共変量体が正確に一致するコントロールを収集しました。 統計的および因果推論分析により,これらのインフルエンサーが支持する論文の引用が有意に増加し,中央値の引用回数はコントロール群よりも2~3倍になった。 さらに、この研究は、強調された著者の地理的、性別、制度的な多様性を掘り下げている。 これらの知見を踏まえ、我々はキュレーションに対する責任あるアプローチを提唱し、インフルエンサーが様々な研究トピック、著者、機関を展示するジャーナリズム標準を支持するよう奨励する。

As the number of accepted papers at AI and ML conferences reaches into the thousands, it has become unclear how researchers access and read research publications. In this paper, we investigate the role of social media influencers in enhancing the visibility of machine learning research, particularly the citation counts of papers they share. We have compiled a comprehensive dataset of over 8,000 papers, spanning tweets from December 2018 to October 2023, alongside controls precisely matched by 9 key covariates. Our statistical and causal inference analysis reveals a significant increase in citations for papers endorsed by these influencers, with median citation counts 2-3 times higher than those of the control group. Additionally, the study delves into the geographic, gender, and institutional diversity of highlighted authors. Given these findings, we advocate for a responsible approach to curation, encouraging influencers to uphold the journalistic standard that includes showcasing diverse research topics, authors, and institutions.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 科学的大規模言語モデル:生物・化学領域に関する調査

Scientific Large Language Models: A Survey on Biological & Chemical Domains ( http://arxiv.org/abs/2401.14656v2 )

ライセンス: Link先を確認
Qiang Zhang, Keyang Ding, Tianwen Lyv, Xinda Wang, Qingyu Yin, Yiwen Zhang, Jing Yu, Yuhao Wang, Xiaotong Li, Zhuoyi Xiang, Kehua Feng, Xiang Zhuang, Zeyuan Wang, Ming Qin, Mengyao Zhang, Jinlu Zhang, Jiyu Cui, Tao Huang, Pengju Yan, Renjun Xu, Hongyang Chen, Xiaolin Li, Xiaohui Fan, Huabin Xing, Huajun Chen, (参考訳) 大規模言語モデル(LLM)は、自然言語理解の強化における変革的な力として現れ、人工知能への大きな一歩を象徴している。 LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。 この関心が高まり、科学的発見を促進するために特別に設計された新しいサブクラスである科学LLMが誕生した。 AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。 しかし、それらを紹介する体系的で最新の調査は、現在不足している。 本稿では,「科学的言語」の概念を体系的に記述し,科学的LLMの最近の進歩を概観する。 科学の分野が広がると、我々の分析は、生物学的および化学的領域に集中して焦点を絞ったレンズを採用する。 これには、テキスト知識、小さな分子、マクロ分子タンパク質、ゲノム配列、それらの組み合わせに関するLLMの詳細な検査が含まれ、モデルアーキテクチャ、能力、データセット、評価の観点でそれらを解析する。 最後に,本研究の課題を批判的に検討し,LLMの進歩とともに有望な研究方向性を指摘する。 この分野での技術開発を包括的に概観することで、この調査は科学LLMの複雑な風景をナビゲートする研究者にとって、貴重な情報源になることを目指している。

Large Language Models (LLMs) have emerged as a transformative power in enhancing natural language comprehension, representing a significant stride toward artificial general intelligence. The application of LLMs extends beyond conventional linguistic boundaries, encompassing specialized linguistic systems developed within various scientific disciplines. This growing interest has led to the advent of scientific LLMs, a novel subclass specifically engineered for facilitating scientific discovery. As a burgeoning area in the community of AI for Science, scientific LLMs warrant comprehensive exploration. However, a systematic and up-to-date survey introducing them is currently lacking. In this paper, we endeavor to methodically delineate the concept of "scientific language", whilst providing a thorough review of the latest advancements in scientific LLMs. Given the expansive realm of scientific disciplines, our analysis adopts a focused lens, concentrating on the biological and chemical domains. This includes an in-depth examination of LLMs for textual knowledge, small molecules, macromolecular proteins, genomic sequences, and their combinations, analyzing them in terms of model architectures, capabilities, datasets, and evaluation. Finally, we critically examine the prevailing challenges and point out promising research directions along with the advances of LLMs. By offering a comprehensive overview of technical developments in this field, this survey aspires to be an invaluable resource for researchers navigating the intricate landscape of scientific LLMs.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# Redditの集団行動のダイナミクスがGameStopのショートストリップに繋がる

The dynamics of the Reddit collective action leading to the GameStop short squeeze ( http://arxiv.org/abs/2401.14999v3 )

ライセンス: Link先を確認
Antonio Desiderio, Luca Maria Aiello, Giulio Cimini, Laura Alessandretti, (参考訳) 2021年初頭、GameStop、AMC、Nokia、BlackBerryの株価は劇的に上昇した。 これらのイベントは、初めて、オンラインソーシャルネットワークが金融集団行動を引き起こす可能性を示した。 しかし、Redditユーザーがいつ、いつ、どのようにしてこれらの価格を上げる役割を担ったのかは不明だ。 本稿では、RedditとTwitterのソーシャル活動と株価取引量に関する時系列の統計分析により、これらの疑問に対処する。 Redditの議論の高まりは、GameStopのショートストレッチの前に高いトレーディングボリュームを予想し、その予測力は時間単位の時間スケールで特に強かった。 この効果はイベントの数週間前に突然現れたが、投資家のコミュニティがTwitterを通じて広く知られるようになると消えていった。 一方、各ユーザのGameStopでの財務的地位を通じて定量化されたRedditコミュニティの集団投資は、株式の市場資本化を密接に反映している。 これらの証拠は、Redditユーザーがソーシャルメディアを通じて共有金融戦略を開発する際の協調行動を示している。 1月末、GameStopについて話しているユーザーはBlackBerry、AMC、Nokiaの人気を高めた。 全体として、私たちの結果は、ソーシャルメディアユーザーによる最初の大規模な金融集団行動の背景にあるダイナミクスを浮き彫りにした。

In early 2021, the stock prices of GameStop, AMC, Nokia, and BlackBerry experienced dramatic increases, triggered by short squeeze operations that have been largely attributed to Reddit's retail investors. These events showcased, for the first time, the potential of online social networks to catalyze financial collective action. How, when and to what extent Reddit users played a role in driving up these prices, however, remains unclear. We address these questions by statistical analysis of time series with high temporal resolution, about social activity on Reddit and Twitter as well as stock trading volumes. We find that increasing Reddit discussions anticipated high trading volume before the GameStop short squeeze, with their predictive power being particularly strong on hourly time scales. This effect emerged abruptly a few weeks before the event, but waned once the community of investors gained widespread visibility through Twitter. Meanwhile, the collective investment of the Reddit community, quantified through each user's financial position on GameStop, closely mirrored the market capitalization of the stock. These evidences suggest a coordinated action by Reddit users in developing a shared financial strategy through social media. Towards the end of January, users talking about GameStop contributed to raise the popularity of BlackBerry, AMC and Nokia, which emerged as the most popular stocks as the community gained global recognition. Overall, our results shed light on the dynamics behind the first large-scale financial collective action driven by social media users.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# ガウススプラッシュ: バーサタイル運動合成とレンダリングのための統一粒子

Gaussian Splashing: Unified Particles for Versatile Motion Synthesis and Rendering ( http://arxiv.org/abs/2401.15318v2 )

ライセンス: Link先を確認
Yutao Feng, Xiang Feng, Yintong Shang, Ying Jiang, Chang Yu, Zeshun Zong, Tianjia Shao, Hongzhi Wu, Kun Zhou, Chenfanfu Jiang, Yin Yang, (参考訳) 立体・流体の物理アニメーションを3Dガウススプラッティング(3DGS)と統合して3DGSを用いて再構成した仮想シーンにおける新たな効果を創出する可能性を示す。 基礎表現におけるガウススティングと位置ベースダイナミクス(PBD)のコヒーレンスを活用して, レンダリング, ビュー合成, および固形物と流体の動的挙動を凝集的に管理する。 ガウスシャダーと同様に、各ガウスカーネルを正規化して拡張し、カーネルの向きと表面正規化を整合させてPBDシミュレーションを洗練させる。 このアプローチは、固体の回転変形から生じるスパイクノイズを効果的に除去する。 また、物理ベースのレンダリングを統合することで、流体の動的表面反射を増大させることができる。 その結果,本フレームワークは動的流体上の表面ハイライトを現実的に再現し,新たな視点からシーンオブジェクトと流体間の相互作用を容易にすることができる。 詳細については、プロジェクトページの \url{https://gaussiansplashing.github.io/} を参照してください。

We demonstrate the feasibility of integrating physics-based animations of solids and fluids with 3D Gaussian Splatting (3DGS) to create novel effects in virtual scenes reconstructed using 3DGS. Leveraging the coherence of the Gaussian Splatting and Position-Based Dynamics (PBD) in the underlying representation, we manage rendering, view synthesis, and the dynamics of solids and fluids in a cohesive manner. Similar to GaussianShader, we enhance each Gaussian kernel with an added normal, aligning the kernel's orientation with the surface normal to refine the PBD simulation. This approach effectively eliminates spiky noises that arise from rotational deformation in solids. It also allows us to integrate physically based rendering to augment the dynamic surface reflections on fluids. Consequently, our framework is capable of realistically reproducing surface highlights on dynamic fluids and facilitating interactions between scene objects and fluids from new views. For more information, please visit our project page at \url{https://gaussiansplashing.github.io/}.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# 勾配推定器に有用な無線環境のレンダリング:ゼロ階確率的フェデレーション学習法

Rendering Wireless Environments Useful for Gradient Estimators: A Zero-Order Stochastic Federated Learning Method ( http://arxiv.org/abs/2401.17460v2 )

ライセンス: Link先を確認
Elissa Mhanna, Mohamad Assaad, (参考訳) クロスデバイス・フェデレーション・ラーニング(FL)は成長する機械学習環境であり、複数のエッジデバイスが協力して生データを開示することなくモデルをトレーニングする。 多くのモバイルデバイスが無線環境を介してFLアプリケーションに参加しているため、これらのアプリケーションの実践的な実装はデバイスのアップリンク能力の制限によって妨げられ、重大なボトルネックを引き起こします。 本研究では,通信の長いベクトルをスカラー値に置き換え,無線通信チャネルの性質を活かし,チャネル状態係数を知る必要性を克服する一点勾配推定器を用いた,二重通信効率のゼロオーダー(ZO)手法を提案する。 学習アルゴリズム自体に無線チャネルを組み込む最初の方法であり、それを分析し、その影響を取り除くリソースを無駄にしない。 次に、提案したゼロオーダーフェデレーション学習(ZOFL)フレームワークを徹底的に分析し、この手法が非凸ZO最適化の新しい結果であるtextit{almost surely} に収束することを証明した。 さらに、非凸設定において$O(\frac{1}{\sqrt[3]{K}})$の収束率を証明する。 実験結果により, 最終的にアルゴリズムの可能性を示す。

Cross-device federated learning (FL) is a growing machine learning setting whereby multiple edge devices collaborate to train a model without disclosing their raw data. With the great number of mobile devices participating in more FL applications via the wireless environment, the practical implementation of these applications will be hindered due to the limited uplink capacity of devices, causing critical bottlenecks. In this work, we propose a novel doubly communication-efficient zero-order (ZO) method with a one-point gradient estimator that replaces communicating long vectors with scalar values and that harnesses the nature of the wireless communication channel, overcoming the need to know the channel state coefficient. It is the first method that includes the wireless channel in the learning algorithm itself instead of wasting resources to analyze it and remove its impact. We then offer a thorough analysis of the proposed zero-order federated learning (ZOFL) framework and prove that our method converges \textit{almost surely}, which is a novel result in nonconvex ZO optimization. We further prove a convergence rate of $O(\frac{1}{\sqrt[3]{K}})$ in the nonconvex setting. We finally demonstrate the potential of our algorithm with experimental results.
翻訳日:2024-07-24 23:13:09 公開日:2024-07-23
# ボース・アインシュタイン凝縮体の自己組織密度波へのナノメカニカル誘起非平衡量子相転移

Nanomechanically-induced nonequilibrium quantum phase transition to a self-organized density wave of a Bose-Einstein condensate ( http://arxiv.org/abs/2401.18015v2 )

ライセンス: Link先を確認
Milan Radonjić, Leon Mixa, Axel Pelster, Michael Thorwart, (参考訳) 外部準1次元箱電位に保持される超低温ボースガスの2つの内部状態に出力光が結合する共振器と光学的に相互作用する減衰ナノ膜振動モードからなるハイブリッド量子多体系における非平衡量子相転移(NQPT)について報告する。 小さな有効膜-原子カップリングでは、系は均一なボース-アインシュタイン凝縮(BEC)状態にあり、膜変位は生じない。 2つの内部原子状態間の遷移周波数により、一方または両方の内部状態が占有される。 原子-膜結合を増大させることにより、システムは対称性を破った自己組織化BEC相に遷移する。 このNQPTは、ある遷移周波数の一定間隔で不連続かつ連続であり、その外部で純粋に不連続である。

We report on a nonequilibrium quantum phase transition (NQPT) in a hybrid quantum many-body system consisting of a vibrational mode of a damped nanomembrane interacting optomechanically with a cavity, whose output light couples to two internal states of an ultracold Bose gas held in an external quasi-one-dimensional box potential. For small effective membrane-atom couplings, the system is in a homogeneous Bose-Einstein condensate (BEC) steady state, with no membrane displacement. Depending on the transition frequency between the two internal atomic states, either one or both internal states are occupied. By increasing the atom-membrane couplings, the system transitions to a symmetry-broken self-organized BEC phase, which is characterized by a considerably displaced membrane steady-state and density-wave-like BEC profiles. This NQPT can be both discontinuous and continuous for a certain interval of transition frequencies and is purely discontinuous outside of it.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# 形状バイアス型テクスチャー非依存表現によるテクスチャーレス・メタルオブジェクト検出と6次元ポース推定

Shape-biased Texture Agnostic Representations for Improved Textureless and Metallic Object Detection and 6D Pose Estimation ( http://arxiv.org/abs/2402.04878v2 )

ライセンス: Link先を確認
Peter Hönig, Stefan Thalhammer, Jean-Baptiste Weibel, Matthias Hirschmanner, Markus Vincze, (参考訳) 機械学習の最近の進歩は、オブジェクト検出と6Dポーズ推定に大きな恩恵を受けている。 しかし、テクスチャレスやメタリックな物体は、視覚的手がかりがほとんどなく、CNNのテクスチャバイアスが小さいため、依然として大きな課題となっている。 そこで本研究では,CNNトレーニングに形状バイアスを誘導する手法を提案する。 特に、データレンダリング中にオブジェクト表面に適用されるテクスチャをランダムにすることで、一貫したテクスチャの手がかりのないトレーニングデータを生成する。 この手法により、既存のデータレンダリングエンジンにシームレスに統合することができ、結果としてデータレンダリングとネットワークトレーニングの計算オーバーヘッドが無視できる。 本研究は, ランダム化テクスチャによる形状バイアスが, スタイル伝達を用いた既存手法よりも改善されていることを示す。 3つの検出器と2つのポーズ推定器で評価した。 最新のオブジェクト検出器と一般のポーズ推定では、テクスチャレスおよび金属オブジェクトに対する推定精度が向上する。 また,画像ノイズの有無によるポーズ推定精度が向上し,強い照明効果が得られた。 コードとデータセットはgithub.com/hoenigpeter/randomized_texturingで公開されている。

Recent advances in machine learning have greatly benefited object detection and 6D pose estimation. However, textureless and metallic objects still pose a significant challenge due to few visual cues and the texture bias of CNNs. To address his issue, we propose a strategy for inducing a shape bias to CNN training. In particular, by randomizing textures applied to object surfaces during data rendering, we create training data without consistent textural cues. This methodology allows for seamless integration into existing data rendering engines, and results in negligible computational overhead for data rendering and network training. Our findings demonstrate that the shape bias we induce via randomized texturing, improves over existing approaches using style transfer. We evaluate with three detectors and two pose estimators. For the most recent object detector and for pose estimation in general, estimation accuracy improves for textureless and metallic objects. Additionally we show that our approach increases the pose estimation accuracy in the presence of image noise and strong illumination changes. Code and datasets are publicly available at github.com/hoenigpeter/randomized_texturing.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# ITINERA:オープンドメイン都市イテナリープランニングのための大規模言語モデルと空間最適化の統合

ITINERA: Integrating Spatial Optimization with Large Language Models for Open-domain Urban Itinerary Planning ( http://arxiv.org/abs/2402.07204v3 )

ライセンス: Link先を確認
Yihong Tang, Zhaokai Wang, Ao Qu, Yihao Yan, Zhaofeng Wu, Dingyi Zhuang, Jushi Kai, Kebing Hou, Xiaotong Guo, Jinhua Zhao, Zhan Zhao, Wei Ma, (参考訳) シティウォーク(Citywalk)は、近年人気の高い都市旅行形態であり、伝統的な計画よりも細かな要求をパーソナライズし理解する必要がある。 本稿では,自然言語によるユーザ要求から個人化された都市イテナリーを生成するオープンドメイン都市イテナリープランニング(OUIP)の課題を紹介する。 そこで我々は,大言語モデルと空間最適化を統合したOUIPシステムであるITINERAを,ユーザニーズに基づいてカスタマイズした都市旅程を提供する。 これには、ユーザリクエストの分解、興味のある候補点(POI)の選択、クラスタ対応空間最適化に基づくPOIの順序付け、反復生成が含まれる。 実世界のデータセットの実験とデプロイシステムの性能は、現在のソリューションと比較して、パーソナライズされた空間的に整合したイテレーションを提供するシステムの能力を示している。

Citywalk, a recently popular form of urban travel, requires genuine personalization and understanding of fine-grained requests compared to traditional itinerary planning. In this paper, we introduce the novel task of Open-domain Urban Itinerary Planning (OUIP), which generates personalized urban itineraries from user requests in natural language. We then present ITINERA, an OUIP system that integrates spatial optimization with large language models to provide customized urban itineraries based on user needs. This involves decomposing user requests, selecting candidate points of interest (POIs), ordering the POIs based on cluster-aware spatial optimization, and generating the itinerary. Experiments on real-world datasets and the performance of the deployed system demonstrate our system's capacity to deliver personalized and spatially coherent itineraries compared to current solutions.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# RanDumb:連続表現学習の有効性を問うシンプルなアプローチ

RanDumb: A Simple Approach that Questions the Efficacy of Continual Representation Learning ( http://arxiv.org/abs/2402.08823v2 )

ライセンス: Link先を確認
Ameya Prabhu, Shiven Sinha, Ponnurangam Kumaraguru, Philip H. S. Torr, Ozan Sener, Puneet K. Dokania, (参考訳) 継続的な学習は主に破滅的な忘れとそれに伴う安定性と塑性のトレードオフの問題に焦点を当ててきた。 しかし, 学習過程を通じて, 分類器とともに表現が学習されるため, 継続的に学習される表現の有効性にはほとんど注意が払われていない。 我々の主な貢献は、既存のオンライン訓練されたディープ・ネットワークが、単純な事前定義されたランダム・トランスフォーメーションに比べて劣った表現を生成することを実証的に示すことである。 提案手法では, RBF-Kernel を初期化して, 固定ランダム変換を用いて生画素を埋め込む。 続いて、オンライン連続学習環境において、前例を保存せずに単純な線形分類器をトレーニングし、一度に1つのサンプルを処理します。 RanDumbと呼ばれるこの手法は、すべての標準オンライン連続学習ベンチマークにおいて、最先端の学習表現を著しく上回っている。 本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。 事前訓練されたモデルを用いた一般的な模範のないシナリオへの調査の拡張により、事前訓練された表現の上に線形分類器のみを訓練することは、ほとんどの連続的な微調整および迅速な調整戦略を超越していることが判明した。 本研究は,オンライン連続学習における効果的な表現学習に関する一般的な仮定に挑戦する。 私たちのコードは://github.com/drimpossible/RanDumb.comで入手可能です。

Continual learning has primarily focused on the issue of catastrophic forgetting and the associated stability-plasticity tradeoffs. However, little attention has been paid to the efficacy of continually learned representations, as representations are learned alongside classifiers throughout the learning process. Our primary contribution is empirically demonstrating that existing online continually trained deep networks produce inferior representations compared to a simple pre-defined random transforms. Our approach embeds raw pixels using a fixed random transform, approximating an RBF-Kernel initialized before any data is seen. We then train a simple linear classifier on top without storing any exemplars, processing one sample at a time in an online continual learning setting. This method, called RanDumb, significantly outperforms state-of-the-art continually learned representations across all standard online continual learning benchmarks. Our study reveals the significant limitations of representation learning, particularly in low-exemplar and online continual learning scenarios. Extending our investigation to popular exemplar-free scenarios with pretrained models, we find that training only a linear classifier on top of pretrained representations surpasses most continual fine-tuning and prompt-tuning strategies. Overall, our investigation challenges the prevailing assumptions about effective representation learning in online continual learning. Our code is available at://github.com/drimpossible/RanDumb.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# 異文化対話のための文化常識知識

Cultural Commonsense Knowledge for Intercultural Dialogues ( http://arxiv.org/abs/2402.10689v3 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Gerhard Weikum, (参考訳) 近年の進歩にもかかわらず、大きな言語モデル(LLM)は、社会的・文化的慣習の複雑さに適切に対応するという課題に直面している。 本稿では,文化知識の高精度・高精度な主張を蒸留する方法であるMANGOについて述べる。 我々はこの目的のために,2つの視点,概念と文化から LLM を円滑かつ反復的に促す。 アウトプットはクラスタリングと生成的要約を通じて統合される。 GPT-3.5 を基礎となる LLM として MANGO メソッドを実行すると,30K の概念と 11K 文化に対して 167K の高精度なアサーションが得られる。 異文化間対話の非本質的な評価において,文化知識を付加した対話システムについて検討する。 特に,LLMが本質的に文化的知識を持っているにもかかわらず,MANGOからの知識を付加することで,人間のアノテータが判断するような,対話応答の全体的な品質,特異性,文化的感受性が向上することがわかった。 データとコードはダウンロード可能だ。

Despite recent progress, large language models (LLMs) still face the challenge of appropriately reacting to the intricacies of social and cultural conventions. This paper presents MANGO, a methodology for distilling high-accuracy, high-recall assertions of cultural knowledge. We judiciously and iteratively prompt LLMs for this purpose from two entry points, concepts and cultures. Outputs are consolidated via clustering and generative summarization. Running the MANGO method with GPT-3.5 as underlying LLM yields 167K high-accuracy assertions for 30K concepts and 11K cultures, surpassing prior resources by a large margin in quality and size. In an extrinsic evaluation for intercultural dialogues, we explore augmenting dialogue systems with cultural knowledge assertions. Notably, despite LLMs inherently possessing cultural knowledge, we find that adding knowledge from MANGO improves the overall quality, specificity, and cultural sensitivity of dialogue responses, as judged by human annotators. Data and code are available for download.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# AutoGPT+P:大規模言語モデルを用いた順応型タスクプランニング

AutoGPT+P: Affordance-based Task Planning with Large Language Models ( http://arxiv.org/abs/2402.10778v2 )

ライセンス: Link先を確認
Timo Birr, Christoph Pohl, Abdelrahman Younes, Tamim Asfour, (参考訳) 近年,大規模言語モデル(LLM)を活用し,従来の計画アルゴリズムと組み合わせて推論能力に固有の制約に対処することによって,一般化性の向上が図られている。 しかし、これらの手法はタスク計画問題の初期状態を動的に捉えるという課題に直面している。 この問題を軽減するために,価格に基づくシーン表現と計画システムを組み合わせたAutoGPT+Pを提案する。 改善には、エージェントが環境やその中に存在しているオブジェクトに作用する可能性が含まれる。 したがって、プランニングドメインを空きベースのシーン表現から導出することで、任意のオブジェクトによるシンボリックプランニングが可能になる。 AutoGPT+Pはこの表現を利用して、自然言語でユーザが指定したタスクの計画を導出し実行します。 クローズドワールド仮定の下での計画タスクの解決に加えて、AutoGPT+Pは不完全な情報による計画処理も可能である。 G シーンの探索、代替案の提案、あるいは部分的なプランの提供によって、オブジェクトの欠落を伴うタスク。 空き時間に基づくシーン表現は、ChatGPTを用いたオブジェクト検出と自動生成されたオブジェクトアロディマッピングを組み合わせる。 コアプランニングツールは、セマンティックエラーと構文エラーを自動的に修正することで、既存の作業を拡張する。 提案手法は,現在のSyCan命令セットにおいて,現在のLLM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。 さらに、新たに作成したデータセットに150のシナリオでアプローチを評価し、欠落したオブジェクトを含む幅広い複雑なタスクをカバーし、データセットで79%の成功率を達成した。 データセットとコードはhttps://git.h2t.iar.kit.edu/birr/autogpt-p-standaloneで公開されている。

Recent advances in task planning leverage Large Language Models (LLMs) to improve generalizability by combining such models with classical planning algorithms to address their inherent limitations in reasoning capabilities. However, these approaches face the challenge of dynamically capturing the initial state of the task planning problem. To alleviate this issue, we propose AutoGPT+P, a system that combines an affordance-based scene representation with a planning system. Affordances encompass the action possibilities of an agent on the environment and objects present in it. Thus, deriving the planning domain from an affordance-based scene representation allows symbolic planning with arbitrary objects. AutoGPT+P leverages this representation to derive and execute a plan for a task specified by the user in natural language. In addition to solving planning tasks under a closed-world assumption, AutoGPT+P can also handle planning with incomplete information, e. g., tasks with missing objects by exploring the scene, suggesting alternatives, or providing a partial plan. The affordance-based scene representation combines object detection with an automatically generated object-affordance-mapping using ChatGPT. The core planning tool extends existing work by automatically correcting semantic and syntactic errors. Our approach achieves a success rate of 98%, surpassing the current 81% success rate of the current state-of-the-art LLM-based planning method SayCan on the SayCan instruction set. Furthermore, we evaluated our approach on our newly created dataset with 150 scenarios covering a wide range of complex tasks with missing objects, achieving a success rate of 79% on our dataset. The dataset and the code are publicly available at https://git.h2t.iar.kit.edu/birr/autogpt-p-standalone.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# 過度なHate音声検出におけるLLMの過敏性と校正限界の解明

Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection ( http://arxiv.org/abs/2402.11406v3 )

ライセンス: Link先を確認
Min Zhang, Jianfeng He, Taoran Ji, Chang-Tien Lu, (参考訳) LLM(Large Language Models)の公平性と信頼性は注目されている。 過激な憎悪の言葉は、間接言語を用いて憎悪の意図を伝えるが、実践のかなりの部分を占めている。 しかし、LLMがこの問題に効果的に対処する程度については、まだ十分に検証されていない。 本稿では,LLMが暗黙のヘイトスピーチ(分類タスク)を検知し,その応答に対する自信(校正タスク)を表現する能力について述べる。 本評価では,様々な急進的パターンと主流不確実性推定手法を慎重に検討する。 1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。 2) LLMの信頼性スコアは, データセットの複雑さに関わらず一定範囲に過度に集中する。 これにより、校正性能は一次分類精度に大きく依存する。 これらの発見はLSMの新たな制限を明らかにし、極端に向かないようモデルを最適化する際の注意が必要であることを強調している。 これは、モデルフェアネスの追求における感度と信頼性を慎重に考慮するためのリマインダーとして機能する。

The fairness and trustworthiness of Large Language Models (LLMs) are receiving increasing attention. Implicit hate speech, which employs indirect language to convey hateful intentions, occupies a significant portion of practice. However, the extent to which LLMs effectively address this issue remains insufficiently examined. This paper delves into the capability of LLMs to detect implicit hate speech (Classification Task) and express confidence in their responses (Calibration Task). Our evaluation meticulously considers various prompt patterns and mainstream uncertainty estimation methods. Our findings highlight that LLMs exhibit two extremes: (1) LLMs display excessive sensitivity towards groups or topics that may cause fairness issues, resulting in misclassifying benign statements as hate speech. (2) LLMs' confidence scores for each method excessively concentrate on a fixed range, remaining unchanged regardless of the dataset's complexity. Consequently, the calibration performance is heavily reliant on primary classification accuracy. These discoveries unveil new limitations of LLMs, underscoring the need for caution when optimizing models to ensure they do not veer towards extremes. This serves as a reminder to carefully consider sensitivity and confidence in the pursuit of model fairness.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# イベントベース・モーション・マグニフィケーション

Event-Based Motion Magnification ( http://arxiv.org/abs/2402.11957v2 )

ライセンス: Link先を確認
Yutian Chen, Shi Guo, Fangzheng Yu, Feng Zhang, Jinwei Gu, Tianfan Xue, (参考訳) 実世界のシナリオにおける知覚不能な高周波運動の検出と拡大は、産業や医療の応用に重大な影響を及ぼす。 これらの動きは、小さな振幅と高い周波数で特徴づけられる。 従来の動きの倍率法は高価な高速カメラや能動光源に依存しており、適用範囲を制限している。 本研究では,イベントカメラと従来のRGBカメラからなるデュアルカメラシステムを提案し,イベントストリームから時間重み情報とRGB画像から空間重みデータを提供する。 この革新的な組み合わせは、広範かつ費用対効果の高い高周波運動の増幅を可能にする。 物理カメラモデルを再考することにより、動き方向と大きさを推定することは、イベントストリームと付加的な画像特徴の統合を必要とすることを観察する。 そこで本研究では,イベントベースの動き拡大に適した新しいディープネットワークを提案する。 提案手法では,2次リカレント・プロパゲーション・モジュールを用いて複数のフレームを補間し,拡大運動によって誘導されるアーチファクトや歪みに対処する。 さらに、ノイズと有用な信号の区別に時間フィルタを用い、ノイズの影響を最小限に抑える。 我々はまた、トレーニングとベンチマークのための合成サブセットと実際のキャプチャーサブセットを含む、最初のイベントベースの運動倍率データセットも導入した。 小型で高周波な動きを拡大する広範囲な実験を通じて、我々のデュアルカメラシステムとネットワークの有効性と精度を実証し、動きの検出と倍率化のための費用対効果と柔軟なソリューションを提供する。

Detecting and magnifying imperceptible high-frequency motions in real-world scenarios has substantial implications for industrial and medical applications. These motions are characterized by small amplitudes and high frequencies. Traditional motion magnification methods rely on costly high-speed cameras or active light sources, which limit the scope of their applications. In this work, we propose a dual-camera system consisting of an event camera and a conventional RGB camera for video motion magnification, providing temporally-dense information from the event stream and spatially-dense data from the RGB images. This innovative combination enables a broad and cost-effective amplification of high-frequency motions. By revisiting the physical camera model, we observe that estimating motion direction and magnitude necessitates the integration of event streams with additional image features. On this basis, we propose a novel deep network tailored for event-based motion magnification. Our approach utilizes the Second-order Recurrent Propagation module to proficiently interpolate multiple frames while addressing artifacts and distortions induced by magnified motions. Additionally, we employ a temporal filter to distinguish between noise and useful signals, thus minimizing the impact of noise. We also introduced the first event-based motion magnification dataset, which includes a synthetic subset and a real-captured subset for training and benchmarking. Through extensive experiments in magnifying small-amplitude, high-frequency motions, we demonstrate the effectiveness and accuracy of our dual-camera system and network, offering a cost-effective and flexible solution for motion detection and magnification.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# Adaptive Conjecturesを用いたオンライン学習によるセキュリティ応答の自動生成

Automated Security Response through Online Learning with Adaptive Conjectures ( http://arxiv.org/abs/2402.12499v2 )

ライセンス: Link先を確認
Kim Hammar, Tao Li, Rolf Stadler, Quanyan Zhu, (参考訳) 筆者らは,ITインフラの自動セキュリティ対応について検討し,攻撃者と守備者のインタラクションを部分的に観察された非静止ゲームとして定式化する。 ゲームモデルが正しく指定されているという標準的な仮定を緩和し、各プレイヤーがモデルに関する確率的予想を持っていることを考慮し、真のモデルが確率 0 を持つという意味では誤特定されるかもしれない。 この定式化により、インフラやプレイヤーの意図に関する不確実性を捉えることができる。 オンライン上で効果的なゲーム戦略を学習するために、プレイヤーがベイズ学習を用いて予想を反復的に適応し、ロールアウトによって戦略を更新する新しい手法を設計する。 我々は、予想が最適に収まることを証明し、予想モデルでロールアウトが許容する性能改善の限界を提供する。 ゲームの定常状態を特徴づけるために,バーク・ナッシュ均衡の変種を提案する。 本手法は先進的な持続的脅威ユースケースを通じて提案する。 テストベッド評価の結果, 環境変化に適応する効果的なセキュリティ戦略が得られた。 また,本手法は現在の強化学習手法よりも高速な収束を可能にする。

We study automated security response for an IT infrastructure and formulate the interaction between an attacker and a defender as a partially observed, non-stationary game. We relax the standard assumption that the game model is correctly specified and consider that each player has a probabilistic conjecture about the model, which may be misspecified in the sense that the true model has probability 0. This formulation allows us to capture uncertainty about the infrastructure and the intents of the players. To learn effective game strategies online, we design a novel method where a player iteratively adapts its conjecture using Bayesian learning and updates its strategy through rollout. We prove that the conjectures converge to best fits, and we provide a bound on the performance improvement that rollout enables with a conjectured model. To characterize the steady state of the game, we propose a variant of the Berk-Nash equilibrium. We present our method through an advanced persistent threat use case. Testbed evaluations show that our method produces effective security strategies that adapt to a changing environment. We also find that our method enables faster convergence than current reinforcement learning techniques.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# TEXT2AFFORD:テキストのみによる言語モデルのオブジェクト予測能力の探索

TEXT2AFFORD: Probing Object Affordance Prediction abilities of Language Models solely from Text ( http://arxiv.org/abs/2402.12881v2 )

ライセンス: Link先を確認
Sayantan Adak, Daivik Agrawal, Animesh Mukherjee, Somak Aditya, (参考訳) 本研究では,事前学習言語モデル (LM) と事前学習型視覚言語モデル (VLM) における対象物価の知識について検討する。 文献の増大は、PTLMが矛盾なく非意図的に失敗し、推論と根拠の欠如を示していることを示している。 グラウンドディングの効果(またはその欠如)を定量化するための第一歩として、新しい総合的なオブジェクト価格データセットであるText2Affordをキュレートする。 視覚領域や言語領域で収集されたアベイランスデータセットとは違って、私たちは、オブジェクトやアベイランスで語られる文章に注釈を付ける。 実験結果から, PTLMは, 一般的でない物価の場合に, 限られた推論能力を示すことが明らかとなった。 また、事前訓練されたVLMは、必ずしもオブジェクトの余裕を効果的に捉えていないことも観察する。 数発の微調整により,PTLMおよびVLMにおけるアベイランス知識の向上を実証した。 本研究は、言語基盤タスクのための新しいデータセットを提供し、LM能力に関する洞察を提示し、オブジェクトの余裕の理解を深める。 codes and data are available at https://github.com/sayantan11995/Affordance

We investigate the knowledge of object affordances in pre-trained language models (LMs) and pre-trained Vision-Language models (VLMs). A growing body of literature shows that PTLMs fail inconsistently and non-intuitively, demonstrating a lack of reasoning and grounding. To take a first step toward quantifying the effect of grounding (or lack thereof), we curate a novel and comprehensive dataset of object affordances -- Text2Afford, characterized by 15 affordance classes. Unlike affordance datasets collected in vision and language domains, we annotate in-the-wild sentences with objects and affordances. Experimental results reveal that PTLMs exhibit limited reasoning abilities when it comes to uncommon object affordances. We also observe that pre-trained VLMs do not necessarily capture object affordances effectively. Through few-shot fine-tuning, we demonstrate improvement in affordance knowledge in PTLMs and VLMs. Our research contributes a novel dataset for language grounding tasks, and presents insights into LM capabilities, advancing the understanding of object affordances. Codes and data are available at https://github.com/sayantan11995/Affordance
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# ポイントクラウドによる産業システムの3次元欠陥検出と分類の進歩:総括的調査

Advancements in Point Cloud-Based 3D Defect Detection and Classification for Industrial Systems: A Comprehensive Survey ( http://arxiv.org/abs/2402.12923v2 )

ライセンス: Link先を確認
Anju Rani, Daniel Ortiz-Arroyo, Petar Durdevic, (参考訳) 近年,コンピュータビジョン(CV),コンディション監視(CM),仮想現実,ロボティクス,自律運転など,さまざまな分野の応用により,3Dポイントクラウド(PC)が注目されている。 ディープラーニング(DL)は、2Dビジョンで直面する様々な課題に対処するために3D PCを活用するのに有効であることが証明されている。 しかし、3DPCを処理するためにディープニューラルネットワーク(DNN)を適用することは、ユニークな課題である。 本稿では,3次元PCを用いたDLベース産業CMの最近の進歩を詳細に概観し,産業応用における欠陥形状の分類とセグメント化に着目した。 産業保守におけるこれらの側面の重要な役割を認識し, レビューしたDLベースのPC処理手法の長所と短所について, 洞察に富んだ考察を行った。 この知識合成は, 産業システムにおいて, CMプロセスの理解と向上に寄与することを目的としている。

In recent years, 3D point clouds (PCs) have gained significant attention due to their diverse applications across various fields, such as computer vision (CV), condition monitoring (CM), virtual reality, robotics, autonomous driving, etc. Deep learning (DL) has proven effective in leveraging 3D PCs to address various challenges encountered in 2D vision. However, applying deep neural networks (DNNs) to process 3D PCs presents unique challenges. This paper provides an in-depth review of recent advancements in DL-based industrial CM using 3D PCs, with a specific focus on defect shape classification and segmentation within industrial applications. Recognizing the crucial role of these aspects in industrial maintenance, the paper offers insightful observations on the strengths and limitations of the reviewed DL-based PC processing methods. This knowledge synthesis aims to contribute to understanding and enhancing CM processes, particularly within the framework of remaining useful life (RUL), in industrial systems.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# マルチモーダルなLLMはどんなに簡単か? 知覚プロンプトの実証分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts ( http://arxiv.org/abs/2402.13220v2 )

ライセンス: Link先を確認
Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan, (参考訳) MLLM(Multimodal Large Language Models)の顕著な進歩は、特にインプロンプトにおける偽情報処理の文脈において、これらの条件下での幻覚応答を生じさせていない。 この脆弱性を定量的に評価するためにMAD-Benchを提案する。MAD-Benchは、1000個のテストサンプルを、既存のオブジェクト、オブジェクト数、空間関係などの5つのカテゴリに分割した、慎重に計算されたベンチマークである。 我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 実験により, GPT-4o と他のモデルの間には大きな性能差がみられ, 従来の頑健な命令調整モデルでは新しいベンチマークでは効果が得られなかった。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。 さらに, モデルに対して, 質問に答える前に, モデルが2回考えるように促すような偽りのプロンプトに, 追加の段落を付加する治療法を提案する。 驚くべきことに、この単純な方法は精度を2倍にすることさえできるが、絶対値はまだ低すぎて満足できない。 MAD-Benchは、偽のプロンプトに対するモデルレジリエンスを高めるために、さらなる研究を促進する貴重なベンチマークとして機能することを願っている。

The remarkable advancements in Multimodal Large Language Models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing hallucinated responses under such conditions. To quantitatively assess this vulnerability, we present MAD-Bench, a carefully curated benchmark that contains 1000 test samples divided into 5 categories, such as non-existent objects, count of objects, and spatial relationship. We provide a comprehensive analysis of popular MLLMs, ranging from GPT-4v, Reka, Gemini-Pro, to open-sourced models, such as LLaVA-NeXT and MiniCPM-Llama3. Empirically, we observe significant performance gaps between GPT-4o and other models; and previous robust instruction-tuned models are not effective on this new benchmark. While GPT-4o achieves 82.82% accuracy on MAD-Bench, the accuracy of any other model in our experiments ranges from 9% to 50%. We further propose a remedy that adds an additional paragraph to the deceptive prompts to encourage models to think twice before answering the question. Surprisingly, this simple method can even double the accuracy; however, the absolute numbers are still too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark to stimulate further research to enhance model resilience against deceptive prompts.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# GenCeption:Unlabeled Unimodal Dataを用いたマルチモーダルLCMの評価

GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data ( http://arxiv.org/abs/2402.14973v3 )

ライセンス: Link先を確認
Lele Cao, Valentin Buchner, Zineb Senane, Fangkai Yang, (参考訳) MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。 本稿では,モダリティ間のセマンティックコヒーレンスを測定するために,一助データのみを必要とする新しいアノテーションなし評価手法であるGenCeptionの概要と検証を行い,MLLMの幻覚傾向を逆評価する。 このアプローチは、コストのかかるデータアノテーションの必要性を排除し、トレーニングデータ汚染のリスクを最小限にし、ベンチマークの飽和を遅くし、出現する能力の錯覚を避ける。 DrawCeptionゲームにインスパイアされたGenCeptionは、テキスト以外のサンプルから始まり、反復的な記述と生成ステップを進む。 反復のセマンティックドリフトはGC@Tメトリックを使用して定量化される。 GenCeption法に基づいて、視覚LLM(VLLM)の評価のためのMMECeptionベンチマークを確立し、人気のあるVLLMと人間のアノテーションの性能を比較した。 我々はGenCeptionの有効性を実証し,既存のVLLMベンチマークと強い相関関係を示した。 VLLMは、特にテキスト集約的なタスクにおいて、人間のパフォーマンスと苦労の裏側には、依然として著しく欠落している。

Multimodal Large Language Models (MLLMs) are typically assessed using expensive annotated multimodal benchmarks, which often lag behind the rapidly evolving demands of MLLM evaluation. This paper outlines and validates GenCeption, a novel, annotation-free evaluation method that requires only unimodal data to measure inter-modality semantic coherence and inversely assesses MLLMs' tendency to hallucinate. This approach eliminates the need for costly data annotation, minimizes the risk of training data contamination, results in slower benchmark saturation, and avoids the illusion of emerging abilities. Inspired by the DrawCeption game, GenCeption begins with a non-textual sample and proceeds through iterative description and generation steps. The semantic drift across iterations is quantified using the GC@T metric. Based on the GenCeption method, we establish the MMECeption benchmark for evaluating Vision LLMs (VLLMs), and compare performance of several popular VLLMs and human annotators. Our empirical results validate GenCeption's effectiveness, demonstrating strong correlations with established VLLM benchmarks. VLLMs still significantly lack behind human performance and struggle especially with text-intensive tasks.
翻訳日:2024-07-24 23:03:22 公開日:2024-07-23
# スコアベース拡散モデルのミニマックス最適性:密度下界推定を超えて

Minimax Optimality of Score-based Diffusion Models: Beyond the Density Lower Bound Assumptions ( http://arxiv.org/abs/2402.15602v2 )

ライセンス: Link先を確認
Kaihong Zhang, Caitlyn H. Yin, Feng Liang, Jingbo Liu, (参考訳) 非パラメトリック統計の観点から,大規模シナリオにおけるスコアベース拡散モデルサンプリングの漸近誤差について検討した。 カーネルベースのスコア推定器が最適平均二乗誤差を$\widetilde{O}\left(n^{-1} t^{-\frac{d+2}{2}}(t^{\frac{d}{2}} \vee 1)\right)$ for the score function of $p_0*\mathcal{N}(0,t\boldsymbol{I}_d)$。 その結果、拡散モデルによって生成されたサンプルの分布の総変分誤差に対する$\widetilde{O}\left(n^{-1/2} t^{-\frac{d}{4}}\right)$上界が得られる。 さらに、$p_0$ が $\beta$-Sobolev 空間の非パラメトリック族に属し、$\beta\le 2$ が早期停止戦略を採用することにより、拡散モデルはほぼ(対数因子まで)最小値であることがわかる。 これにより、非パラメトリック族に対する拡散モデルのミニマックス最適性の以前の証明において、$p_0$に対する決定的な下界仮定が取り除かれる。

We study the asymptotic error of score-based diffusion model sampling in large-sample scenarios from a non-parametric statistics perspective. We show that a kernel-based score estimator achieves an optimal mean square error of $\widetilde{O}\left(n^{-1} t^{-\frac{d+2}{2}}(t^{\frac{d}{2}} \vee 1)\right)$ for the score function of $p_0*\mathcal{N}(0,t\boldsymbol{I}_d)$, where $n$ and $d$ represent the sample size and the dimension, $t$ is bounded above and below by polynomials of $n$, and $p_0$ is an arbitrary sub-Gaussian distribution. As a consequence, this yields an $\widetilde{O}\left(n^{-1/2} t^{-\frac{d}{4}}\right)$ upper bound for the total variation error of the distribution of the sample generated by the diffusion model under a mere sub-Gaussian assumption. If in addition, $p_0$ belongs to the nonparametric family of the $\beta$-Sobolev space with $\beta\le 2$, by adopting an early stopping strategy, we obtain that the diffusion model is nearly (up to log factors) minimax optimal. This removes the crucial lower bound assumption on $p_0$ in previous proofs of the minimax optimality of the diffusion model for nonparametric families.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# 単一のAtomを使った整数プログラミング

Integer Programming Using A Single Atom ( http://arxiv.org/abs/2402.16541v3 )

ライセンス: Link先を確認
Kapil Goswami, Peter Schmelcher, Rick Mukherjee, (参考訳) 整数型プログラミング(英: Integer Programming、IP)は、実世界の最適化問題を制約で定式化するために一般的に用いられる整数変数ベースの手法である。 現在、量子アルゴリズムは、間接的かつリソース消費の方法であるバイナリ変数を用いることで、IPを制約のない形式に再構成している。 我々は、IP問題を元の形式で、適切な精度で制御される多数のアクセス可能な内部自由度を持つ任意の量子システムにマップし、解決するアルゴリズムを開発する。 この研究は、最適化問題を解決するために重ね合わせの原理を活用する。 1つのRydberg原子を例として、整数値を異なる多様体に属する電子状態に関連付け、異なる状態の選択的重ね合わせを実装して完全なIP問題を解決する。 最適解は、最大8変数と4つの制約を持つプロトタイプIP問題に対して数マイクロ秒以内に見つかる。 これには非線形IP問題も含まれており、通常、線形IP問題と比較して古典的なアルゴリズムでは解くのが困難である。 IP を解くアルゴリズムは、解の収束に必要なステップの数の観点から、よく知られた古典的アルゴリズム(ブランチとバウンド)によってベンチマークされる。 このアプローチは、ハイブリッド量子古典アルゴリズムを用いて、より大きな問題に対して得られる解を改善する可能性をもたらす。

Integer programming (IP), as the name suggests is an integer-variable-based approach commonly used to formulate real-world optimization problems with constraints. Currently, quantum algorithms reformulate the IP into an unconstrained form through the use of binary variables, which is an indirect and resource-consuming way of solving it. We develop an algorithm that maps and solves an IP problem in its original form to any quantum system possessing a large number of accessible internal degrees of freedom that are controlled with sufficient accuracy. This work leverages the principle of superposition to solve the optimization problem. Using a single Rydberg atom as an example, we associate the integer values to electronic states belonging to different manifolds and implement a selective superposition of different states to solve the full IP problem. The optimal solution is found within a few microseconds for prototypical IP problems with up to eight variables and four constraints. This also includes non-linear IP problems, which are usually harder to solve with classical algorithms when compared to their linear counterparts. Our algorithm for solving IP is benchmarked by a well-known classical algorithm (branch and bound) in terms of the number of steps needed for convergence to the solution. This approach carries the potential to improve the solutions obtained for larger-size problems using hybrid quantum-classical algorithms.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# ベクトル化マップ構築のための点集合の強化クエリの活用

Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction ( http://arxiv.org/abs/2402.17430v2 )

ライセンス: Link先を確認
Zihao Liu, Xiaoyu Zhang, Guangwei Liu, Ji Zhao, Ningyi Xu, (参考訳) 自律運転では、ハイデフィニション(HD)マップはローカライゼーションと計画において重要な役割を果たす。 近年,DETRのようなフレームワークにおけるエンド・ツー・エンドのオンラインマップ構築を容易にする手法がいくつかある。 しかし、マップ要素のクエリメカニズムを探索する潜在的な能力にはほとんど注意が払われていない。 本稿では,オンラインベクトル化マップ構築のためのクエリ機能の向上を重視したエンドツーエンド手法であるMapQRを紹介する。 望ましい情報を効率的に探索するために、MapQRはスキャッター・アンド・ギャザ・クエリ(scatter-and-gather query)と呼ばれる新しいクエリ設計を採用している。 ベースマップインスタンスクエリは、異なる参照ポイントに分散され、位置埋め込みを追加して、BEV機能から情報を探索する。 次に、これらのスキャットされたクエリが収集され、各マップインスタンス内の情報を強化する。 BEVエンコーダの単純かつ効果的な改善とともに、提案したMapQRは、最高の平均精度(mAP)を達成し、nuScenesとArgoverse 2の両方で優れた効率を維持する。 さらに、クエリ設計を他のモデルに統合することで、パフォーマンスを大幅に向上できます。 ソースコードはhttps://github.com/HXMap/MapQRで入手できる。

In autonomous driving, the high-definition (HD) map plays a crucial role in localization and planning. Recently, several methods have facilitated end-to-end online map construction in DETR-like frameworks. However, little attention has been paid to the potential capabilities of exploring the query mechanism for map elements. This paper introduces MapQR, an end-to-end method with an emphasis on enhancing query capabilities for constructing online vectorized maps. To probe desirable information efficiently, MapQR utilizes a novel query design, called scatter-and-gather query, which is modelled by separate content and position parts explicitly. The base map instance queries are scattered to different reference points and added with positional embeddings to probe information from BEV features. Then these scatted queries are gathered back to enhance information within each map instance. Together with a simple and effective improvement of a BEV encoder, the proposed MapQR achieves the best mean average precision (mAP) and maintains good efficiency on both nuScenes and Argoverse 2. In addition, integrating our query design into other models can boost their performance significantly. The source code is available at https://github.com/HXMap/MapQR.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# Smooth Tchebycheff Scalarizationによる多目的最適化

Smooth Tchebycheff Scalarization for Multi-Objective Optimization ( http://arxiv.org/abs/2402.19078v3 )

ライセンス: Link先を確認
Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang, Fei Liu, Zhenkun Wang, Qingfu Zhang, (参考訳) 多目的最適化問題は、目的が相反することが多く、単一のソリューションでは最適化できない、多くの実世界のアプリケーションで見られる。 過去数十年間、与えられた問題の目的の中で最適なトレードオフを表すパレート解を見つけるための多くの方法が提案されてきた。 しかし、これらの既存手法は高い計算複雑性を持つか、あるいは一般的な微分可能な多目的最適化問題を解くための理論的性質が十分でない可能性がある。 本研究では、スムーズな最適化手法を利用して、勾配に基づく多目的最適化のための軽量で効率的なスムーズなTchebycheffスキャラライズ手法を提案する。 他の方法に比べて計算の複雑さが著しく低いのを楽しみながら、有効なトレードオフ選好を持つ全てのパレート解を見つけるための理論的性質が優れている。 実世界の様々な応用問題に対する実験結果は,提案手法の有効性を十分に証明している。

Multi-objective optimization problems can be found in many real-world applications, where the objectives often conflict each other and cannot be optimized by a single solution. In the past few decades, numerous methods have been proposed to find Pareto solutions that represent optimal trade-offs among the objectives for a given problem. However, these existing methods could have high computational complexity or may not have good theoretical properties for solving a general differentiable multi-objective optimization problem. In this work, by leveraging the smooth optimization technique, we propose a lightweight and efficient smooth Tchebycheff scalarization approach for gradient-based multi-objective optimization. It has good theoretical properties for finding all Pareto solutions with valid trade-off preferences, while enjoying significantly lower computational complexity compared to other methods. Experimental results on various real-world application problems fully demonstrate the effectiveness of our proposed method.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# BEV$^2$PR: 構造クイズを用いたBEVによる視覚的位置認識

BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues ( http://arxiv.org/abs/2403.06600v2 )

ライセンス: Link先を確認
Fudong Ge, Yiwei Zhang, Shuhan Shen, Yue Wang, Weiming Hu, Jin Gao, (参考訳) 本稿では,単一単眼カメラから鳥眼ビュー(BEV)の構造的手がかりを利用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。 その動機は、外見と構造の両方に基づく位置認識法に関する2つの重要な観察から生じる。 1) ロボットシステムへのLiDARの統合は, センサ間のデータのアライメントが大きな課題であるのに対して, ロボットシステムへのLiDARの統合はコストの増大につながっている。 2)RGB画像とその派生した変種(擬似深度画像,擬似3D点雲など)の統合を含む他の画像・カメラベース手法では,異なる物体間の空間的関係を効果的に利用できないなど,いくつかの制限がある。 上記の課題に対処するため、我々はBEV$2$PRと呼ばれる新しいBEV拡張VPRフレームワークを設計し、単一のカメラに基づく視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。 主なポイントは次のとおりである。 1)グローバルな機能構築における構造的知識の明確な源として,BEVの機能を利用する。 2)VPRの視覚的および構造的ストリームに対して,BEV生成から学習したバックボーンの下位層を共有し,視覚的ストリームのきめ細かい局所的特徴の学習を容易にする。 3)視覚的特徴と構造的特徴は共同でVPR性能を向上させることができる。 当社のBEV$^2$PRフレームワークは,RGBグローバル機能用のいくつかの一般的なアグリゲーションモジュールに対して,一貫したパフォーマンス向上を実現しています。 収集したVPR-NuScenesデータセットの実験では、強力なConv-APベースラインであるRecall@1では2.47%が絶対的に向上し、私たちの設定で最高のパフォーマンスを実現しています。 コードとデータセットはhttps://github.com/FudongGe/BEV2PRで公開される。

In this paper, we propose a new image-based visual place recognition (VPR) framework by exploiting the structural cues in bird's-eye view (BEV) from a single monocular camera. The motivation arises from two key observations about place recognition methods based on both appearance and structure: 1) For the methods relying on LiDAR sensors, the integration of LiDAR in robotic systems has led to increased expenses, while the alignment of data between different sensors is also a major challenge. 2) Other image-/camera-based methods, involving integrating RGB images and their derived variants (eg, pseudo depth images, pseudo 3D point clouds), exhibit several limitations, such as the failure to effectively exploit the explicit spatial relationships between different objects. To tackle the above issues, we design a new BEV-enhanced VPR framework, namely BEV$^2$PR, generating a composite descriptor with both visual cues and spatial awareness based on a single camera. The key points lie in: 1) We use BEV features as an explicit source of structural knowledge in constructing global features. 2) The lower layers of the pre-trained backbone from BEV generation are shared for visual and structural streams in VPR, facilitating the learning of fine-grained local features in the visual stream. 3) The complementary visual and structural features can jointly enhance VPR performance. Our BEV$^2$PR framework enables consistent performance improvements over several popular aggregation modules for RGB global features. The experiments on our collected VPR-NuScenes dataset demonstrate an absolute gain of 2.47% on Recall@1 for the strong Conv-AP baseline to achieve the best performance in our setting, and notably, a 18.06% gain on the hard set. The code and dataset will be available at https://github.com/FudongGe/BEV2PR.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# 超弱結合を超えた量子マスター方程式のベンチマーク

Benchmarking quantum master equations beyond ultraweak coupling ( http://arxiv.org/abs/2403.08320v3 )

ライセンス: Link先を確認
C. S. Tello Breuer, T. Becker, A. Eckardt, (参考訳) 最近、ネイサンとラドナーは、レッドフィールド方程式からゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式を導出した。 この主張は近似のレベルがレッドフィールド方程式のレベルと等しいというものである。 ここでは、減衰調和振動子の正確な解に対してネイサン・ラドナー方程式(NRE)をベンチマークし、その性能を時間依存のレッドフィールド方程式(RE)と比較する。 いずれの方程式がより良く動作するかは、考慮された体制に依存する。 NREは回転波近似に匹敵する結果をもたらすのに対し、短時間のダイナミクスは一般にREによってよりよく捉えられていることが判明した。 定常状態の場合、高温の制限下ではREは再び性能が良くなり、その解は超高温で正確な結果に近づく。 しかし、ここでもNR方程式は良い近似を構成する。 低温の限界では、NREはREよりも優れた近似を提供する。 強い結合のために、ここではREは非物理的挙動を予測することによって完全に失敗するかもしれない。

Recently, Nathan and Rudner derived a Gorini-Kossakowski-Sudarshan-Lindblad master equation from the Redfield equation. The claim is that the level of approximation is equal to that of the Redfield equation. Here we benchmark the Nathan-Rudner equation (NRE) against the exact solution of a damped harmonic oscillator and compare its performance to that of the time-dependent Redfield equation (RE). We find that which of the equations performs better depends on the regime considered. It turns out that the short-time dynamics is generally much better captured by the RE, whereas the NRE delivers results comparable to those of the rotating-wave approximation. For the steady state, in the high-temperature limit the RE again performs better and its solution approaches the exact result for ultrahigh temperatures. Nevertheless, here also the NR equation constitutes a good approximation. In the low-temperature limit, in turn, the NRE provides a better approximation than the RE. For too strong coupling, here the RE might even fail completely by predicting unphysical behaviour.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# 動的メモリ圧縮:加速推論のためのLLMの再最適化

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference ( http://arxiv.org/abs/2403.09636v2 )

ライセンス: Link先を確認
Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti, (参考訳) トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。 しかし、過去のトークンのキー値表現のキャッシュをメモリに格納する必要があるため、生成は非効率であり、そのサイズは入力シーケンスの長さとバッチサイズと線形にスケールする。 そこで本研究では,動的メモリ圧縮(Dynamic Memory Compression, DMC)を提案する。 最も重要なことは、モデルが異なる頭と層に異なる圧縮比を適用することを学ぶことである。 Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。 DMCは、余分なパラメータを加えることなく、元のデータの無視できる割合で継続事前訓練によって適用される。 DMCは、最大4倍のキャッシュ圧縮で、アップトレーニングされたグループクエリーアテンション(GQA)とキー値の消去ポリシー(H$_2$O, TOVA)より優れている。 GQAとDMCを結合して合成ゲインを得ることもできる。 したがって、DMCは既存のLLMのKVキャッシュをドロップインで置き換えて、任意のメモリ予算内でより長いコンテキストとより大きなバッチに適合させることができる。

Transformers have emerged as the backbone of large language models (LLMs). However, generation remains inefficient due to the need to store in memory a cache of key-value representations for past tokens, whose size scales linearly with the input sequence length and batch size. As a solution, we propose Dynamic Memory Compression (DMC), a method for online key-value cache compression at inference time. Most importantly, the model learns to apply different compression ratios in different heads and layers. We retrofit pre-trained LLMs such as Llama 2 (7B, 13B and 70B) into DMC Transformers, achieving up to 7x throughput increase during auto-regressive inference on an NVIDIA H100 GPU. DMC is applied via continued pre-training on a negligible percentage of the original data without adding any extra parameters. DMC preserves the original downstream performance with up to 4x cache compression, outperforming up-trained grouped-query attention (GQA) and key-value eviction policies (H$_2$O, TOVA). GQA and DMC can be even combined to obtain compounded gains. Hence, DMC can serve as a drop-in replacement for KV caching in existing LLMs to fit longer contexts and larger batches within any given memory budget.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# AMD SEV-SNPソフトウェアインタフェースの形式的セキュリティ解析

Formal Security Analysis of the AMD SEV-SNP Software Interface ( http://arxiv.org/abs/2403.10296v3 )

ライセンス: Link先を確認
Petar Paradžik, Ante Derek, Marko Horvat, (参考訳) AMD Secure Encrypted Virtualization技術は、仮想マシンをハイパーバイザのような特権の高いソフトウェアから保護することによって、機密計算を可能にする。 本研究では,SEV Secure Nested Paging (SEV-SNP) と呼ばれる,最新のSEVイテレーションにおけるソフトウェアインターフェースの最初の包括的シンボリックモデルを開発する。 我々のモデルは、リモート証明、キー導出、ページスワップ、ライブマイグレーションをカバーしています。 我々は,SEV-SNPのソフトウェアインタフェースのセキュリティを重要機密性,認証,証明,鮮度特性の検証により解析し,SNPゲストとAMDセキュアプロセッサのファームウェア間で交換されるメッセージのプラットフォームに依存しない性質が,設計の弱点を示すことを発見した。 検証レポートの整合性の妥協など、この弱点を悪用する複数の方法を示し、サードパーティが脆弱なプラットフォームへのゲストマイグレーションを検出する設計に少し修正を加えることを提案している。

AMD Secure Encrypted Virtualization technologies enable confidential computing by protecting virtual machines from highly privileged software such as hypervisors. In this work, we develop the first, comprehensive symbolic model of the software interface of the latest SEV iteration called SEV Secure Nested Paging (SEV-SNP). Our model covers remote attestation, key derivation, page swap and live migration. We analyze the security of the software interface of SEV-SNP by verifying critical secrecy, authentication, attestation and freshness properties, and find that the platform-agnostic nature of messages exchanged between SNP guests and the AMD Secure Processor firmware presents a weakness of the design. We show multiple ways of exploiting this weakness, including the compromise of attestation report integrity, and suggest slight modifications to the design which let third parties detect guest migrations to vulnerable platforms
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# TabPFNのための解釈可能な機械学習

Interpretable Machine Learning for TabPFN ( http://arxiv.org/abs/2403.10923v2 )

ライセンス: Link先を確認
David Rundel, Julius Kobialka, Constantin von Crailsheim, Matthias Feurer, Thomas Nagler, David Rügamer, (参考訳) 最近開発されたPFN(Presideed-Data Fitted Networks)は、低データシステムにおけるアプリケーションに対して非常に有望な結果を示している。 表型データのためのPFNの特殊なケースであるTabPFNモデルは、学習パラメータやハイパーパラメータチューニングを必要とせずに、文脈内学習により、わずか数秒で後続予測分布を生成しながら、様々な分類タスクにおける最先端のパフォーマンスを達成することができる。 これにより、TabPFNは広範囲のドメインアプリケーションにとって非常に魅力的な選択肢となります。 しかし、この方法の大きな欠点は、解釈可能性の欠如である。 そこで本稿では,TabPFN に特化して設計する一般的な解釈可能性手法の適応について提案する。 モデルのユニークな特性を活かすことで、既存の実装よりも効率的な計算を可能にします。 特に,大規模トランスフォーマーを用いた場合であっても,文脈内学習が近似的リトレーニングを回避してシェープリー値の推定を容易にすることを示し,LOCO(Leave-One-Covariate-Out)の利用を可能にする。 さらに,TabPFNのスケーラビリティ問題に対処するために,データアセスメント手法をいかに活用できるかを示す。 提案手法は tabpfn_iml で実装され,https://github.com/david-rundel/tabpfn_iml で利用可能である。

The recently developed Prior-Data Fitted Networks (PFNs) have shown very promising results for applications in low-data regimes. The TabPFN model, a special case of PFNs for tabular data, is able to achieve state-of-the-art performance on a variety of classification tasks while producing posterior predictive distributions in mere seconds by in-context learning without the need for learning parameters or hyperparameter tuning. This makes TabPFN a very attractive option for a wide range of domain applications. However, a major drawback of the method is its lack of interpretability. Therefore, we propose several adaptations of popular interpretability methods that we specifically design for TabPFN. By taking advantage of the unique properties of the model, our adaptations allow for more efficient computations than existing implementations. In particular, we show how in-context learning facilitates the estimation of Shapley values by avoiding approximate retraining and enables the use of Leave-One-Covariate-Out (LOCO) even when working with large-scale Transformers. In addition, we demonstrate how data valuation methods can be used to address scalability challenges of TabPFN. Our proposed methods are implemented in a package tabpfn_iml and made available at https://github.com/david-rundel/tabpfn_iml.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# 正準運動空間におけるクロス構造特性の生成的運動スティル化

Generative Motion Stylization of Cross-structure Characters within Canonical Motion Space ( http://arxiv.org/abs/2403.11469v2 )

ライセンス: Link先を確認
Jiaxu Zhang, Xin Chen, Gang Yu, Zhigang Tu, (参考訳) スティル化された動きは、人生をキャラクターに息を吹き込む。 しかし、固定された骨格構造とスタイル表現は、既存のデータ駆動型モーション合成法において、様々な文字に対するスタイル化されたモーションを生成することを妨げている。 本研究では,クロスモーダルなスタイルのプロンプトを用いて,多種多様でスタイリングされた動作をクロス構造文字に合成する,MotionSと呼ばれる生成型モーションスタイリングパイプラインを提案する。 我々の重要な洞察は、運動スタイルをモダリティのラテント空間に埋め込んで、クロス構造骨格のトポロジーを知覚し、標準運動空間内での運動スタイル化を可能にすることである。 具体的には、CLIP(Contrastive-Language-Image-Pre-Training)モデルを利用して、モード間潜在空間を構築することにより、その内部に柔軟なスタイル表現を可能にする。 さらに、2つのトポロジエンコードされたトークンが学習され、標準および特定の骨格トポロジを捕捉し、クロス構造トポロジシフトを促進する。 その後、トポロジシフトされたスタイリゼーション拡散は、特定の骨格の運動内容を生成し、マルチモーダルスタイル記述を用いてシフトした標準運動空間でスタイリゼーションするように設計されている。 広範な例を通して、さまざまなキャラクタとスタイル記述にまたがるパイプラインの柔軟性と一般化性を実証する。 定性的かつ定量的な比較は、我々のパイプラインが最先端技術よりも優れていることを示している。

Stylized motion breathes life into characters. However, the fixed skeleton structure and style representation hinder existing data-driven motion synthesis methods from generating stylized motion for various characters. In this work, we propose a generative motion stylization pipeline, named MotionS, for synthesizing diverse and stylized motion on cross-structure characters using cross-modality style prompts. Our key insight is to embed motion style into a cross-modality latent space and perceive the cross-structure skeleton topologies, allowing for motion stylization within a canonical motion space. Specifically, the large-scale Contrastive-Language-Image-Pre-training (CLIP) model is leveraged to construct the cross-modality latent space, enabling flexible style representation within it. Additionally, two topology-encoded tokens are learned to capture the canonical and specific skeleton topologies, facilitating cross-structure topology shifting. Subsequently, the topology-shifted stylization diffusion is designed to generate motion content for the particular skeleton and stylize it in the shifted canonical motion space using multi-modality style descriptions. Through an extensive set of examples, we demonstrate the flexibility and generalizability of our pipeline across various characters and style descriptions. Qualitative and quantitative comparisons show the superiority of our pipeline over state-of-the-arts, consistently delivering high-quality stylized motion across a broad spectrum of skeletal structures.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# テキスト・画像モデルの品質指標に関する調査

A Survey on Quality Metrics for Text-to-Image Models ( http://arxiv.org/abs/2403.11821v4 )

ライセンス: Link先を確認
Sebastian Hartwig, Dominik Engel, Leon Sick, Hannah Kniesel, Tristan Payer, Poonam Poonam, Michael Glöckler, Alex Bäuerle, Timo Ropinski, (参考訳) 最近のAIベースのテキスト画像モデルは、現実的な画像の生成に優れるだけでなく、デザイナーが画像の内容をより細かく制御できるようになっている。 これらのアプローチは、現実的な画像を生成する際に、オブジェクト、材料、照明などのシーンパラメータを正確に制御する伝統的なレンダリング技術に、歴史的に焦点をあてたコンピュータグラフィックス研究コミュニティ内で注目を集めている。 レンダリング画像の品質は、従来、SSIMやPSNRといった確立された画像品質指標によって評価されてきたが、テキスト・ツー・イメージモデルによって提示される固有の課題は、シーンとレンダリングパラメータの制御を相互に行うのとは対照的に、新しい画像品質指標の開発が必要である。 そこで本調査では,それらのニュアンスに対処する既存のテキスト・ツー・イメージの品質指標と,人間の嗜好に合わせた調整の必要性を概観する。 そこで本研究では,これらの指標を分類する新たな分類法を提案する。これは,人間の嗜好に理想的に対応できる,構成性と一般性という2つの主要な品質基準が存在するという仮定に基づくものである。 最終的に、テキスト・ツー・イメージ評価を行う実践者のためのガイドラインを導出し、評価メカニズムのオープンな課題と現在のメトリクスの表面的制限について議論する。

Recent AI-based text-to-image models not only excel at generating realistic images, they also give designers more and more fine-grained control over the image content. Consequently, these approaches have gathered increased attention within the computer graphics research community, which has been historically devoted towards traditional rendering techniques that offer precise control over scene parameters such as objects, materials, and lighting, when generating realistic images. While the quality of rendered images is traditionally assessed through well-established image quality metrics, such as SSIM or PSNR, the unique challenges presented by text-to-image models, which in contrast to rendering interweave the control of scene and rendering parameters, necessitate the development of novel image quality metrics. Therefore, within this survey, we provide a comprehensive overview of existing text-to-image quality metrics addressing their nuances and the need for alignment with human preferences. Based on our findings, we propose a new taxonomy for categorizing these metrics, which is grounded in the assumption that there are two main quality criteria, namely compositionality and generality, which ideally map to human preferences. Ultimately, we derive guidelines for practitioners conducting text-to-image evaluation, discuss open challenges of evaluation mechanisms, and surface limitations of current metrics.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# RoGUENeRF: NeRF用ロバストな幾何型ユニバーサルエンハンサー

RoGUENeRF: A Robust Geometry-Consistent Universal Enhancer for NeRF ( http://arxiv.org/abs/2403.11909v2 )

ライセンス: Link先を確認
Sibi Catley-Chandar, Richard Shaw, Gregory Slabaugh, Eduardo Perez-Pellitero, (参考訳) ニューラルレンダリングの最近の進歩は、高光写実性3Dシーンの再構築と新しいビュー合成を可能にしている。 この進歩にもかかわらず、現在の最先端の手法は、放射界の低周波バイアスや不正確なカメラキャリブレーションなどの要因により、高周波詳細の再構築に苦慮している。 この問題を緩和するための1つのアプローチは、レンダリング後のイメージを強化することである。 2Dエンハンサーは、いくつかの詳細を回復するために事前訓練することができるが、シーン幾何学には依存せず、画像劣化の新しい分布に容易に一般化することができない。 逆に、既存の3Dエンハンサーは、近隣のトレーニング画像からの細部を一般化可能な方法で転送することができるが、不正確なカメラキャリブレーションに悩まされ、幾何学的誤差を描画画像に伝達することができる。 両パラダイムの長所を生かしたニューラルレンダリングエンハンサーであるRoGUENeRFを提案する。 本手法は,3次元アライメントと幾何認識融合により,近隣のトレーニング画像からの情報を活用するとともに,一般エンハンサーを学習するための事前訓練を行う。 本手法は, 幾何整合性を維持しながら高周波テクスチャを復元すると共に, 不正確なカメラキャリブレーションにも頑健である。 例えば、現実世界の360v2データセット上で、MipNeRF360のPSNRを0.63dB、Nerfactoを1.34dB改善する。

Recent advances in neural rendering have enabled highly photorealistic 3D scene reconstruction and novel view synthesis. Despite this progress, current state-of-the-art methods struggle to reconstruct high frequency detail, due to factors such as a low-frequency bias of radiance fields and inaccurate camera calibration. One approach to mitigate this issue is to enhance images post-rendering. 2D enhancers can be pre-trained to recover some detail but are agnostic to scene geometry and do not easily generalize to new distributions of image degradation. Conversely, existing 3D enhancers are able to transfer detail from nearby training images in a generalizable manner, but suffer from inaccurate camera calibration and can propagate errors from the geometry into rendered images. We propose a neural rendering enhancer, RoGUENeRF, which exploits the best of both paradigms. Our method is pre-trained to learn a general enhancer while also leveraging information from nearby training images via robust 3D alignment and geometry-aware fusion. Our approach restores high-frequency textures while maintaining geometric consistency and is also robust to inaccurate camera calibration. We show that RoGUENeRF substantially enhances the rendering quality of a wide range of neural rendering baselines, e.g. improving the PSNR of MipNeRF360 by 0.63dB and Nerfacto by 1.34dB on the real world 360v2 dataset.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# 自己決定目標を用いた教師なしエンドツーエンドトレーニング

Unsupervised End-to-End Training with a Self-Defined Target ( http://arxiv.org/abs/2403.12116v2 )

ライセンス: Link先を確認
Dongshu Liu, Jérémie Laydevant, Adrien Pontlevy, Damien Querlioz, Julie Grollier, (参考訳) ラベル付きデータとラベルなしデータの両方を使ってエッジで学習できる汎用AIハードウェアのためのアルゴリズムの設計は難しい。 自己教師型学習と教師型学習のフェーズを取り入れた深層エンドツーエンドの訓練手法は、入力データに正確で適応可能であるが、自己教師型学習は教師型学習よりも多くの計算とメモリリソースを必要とし、現在の組込みハードウェアには高すぎる。 逆に、Hebbian Learningのような教師なしのレイヤ・バイ・レイヤのトレーニングは、既存のハードウェアとより互換性があるが、教師付き学習とうまく統合されていない。 そこで本研究では,エンド・ツー・エンドの教師付き学習のために設計されたネットワークやハードウェアが,出力層に2つの単純な要素,すなわちWinner-Take-All(WTA)選択性とホメオスタシス正規化を付加することにより,高性能な教師なし学習を実現する手法を提案する。 これらのメカニズムにより、MNIST(最大99.2%)、Fashion-MNIST(最大90.3%)、SVHN(最大81.5%)といったデータセット上でのバックプロパゲーションや平衡伝播を用いて、完全連結層と畳み込み層の両方に対する純粋な教師なしトレーニングが可能になる。 我々はこの手法を半教師付き学習に拡張し、データ型に基づいて目標を調整し、600のラベル付きMNISTサンプルを多層パーセプトロンで96.6%の精度で検出する。 提案手法により,教師なし学習に特化していたネットワークやハードウェアが,ラベル付きデータの多種多様な利用に適応して,教師なし学習を効果的に実現できることが示唆された。

Designing algorithms for versatile AI hardware that can learn on the edge using both labeled and unlabeled data is challenging. Deep end-to-end training methods incorporating phases of self-supervised and supervised learning are accurate and adaptable to input data but self-supervised learning requires even more computational and memory resources than supervised learning, too high for current embedded hardware. Conversely, unsupervised layer-by-layer training, such as Hebbian learning, is more compatible with existing hardware but does not integrate well with supervised learning. To address this, we propose a method enabling networks or hardware designed for end-to-end supervised learning to also perform high-performance unsupervised learning by adding two simple elements to the output layer: Winner-Take-All (WTA) selectivity and homeostasis regularization. These mechanisms introduce a "self-defined target" for unlabeled data, allowing purely unsupervised training for both fully-connected and convolutional layers using backpropagation or equilibrium propagation on datasets like MNIST (up to 99.2%), Fashion-MNIST (up to 90.3%), and SVHN (up to 81.5%). We extend this method to semi-supervised learning, adjusting targets based on data type, achieving 96.6% accuracy with only 600 labeled MNIST samples in a multi-layer perceptron. Our results show that this approach can effectively enable networks and hardware initially dedicated to supervised learning to also perform unsupervised learning, adapting to varying availability of labeled data.
翻訳日:2024-07-24 22:53:21 公開日:2024-07-23
# ニューラルネットワークの同変表現学習のためのグラフニューラルネットワーク

Graph Neural Networks for Learning Equivariant Representations of Neural Networks ( http://arxiv.org/abs/2403.12143v3 )

ライセンス: Link先を確認
Miltiadis Kofinas, Boris Knyazev, Yan Zhang, Yunlu Chen, Gertjan J. Burghouts, Efstratios Gavves, Cees G. M. Snoek, David W. Zhang, (参考訳) 他のニューラルネットワークのパラメータを処理するニューラルネットワークは、暗黙のニューラルネットワーク表現の分類、ニューラルネットワークの重みの生成、一般化エラーの予測など、さまざまな分野のアプリケーションを見つける。 しかし、既存のアプローチは、ニューラルネットワークの固有の置換対称性を見落としているか、あるいは、ネットワークアーキテクチャ自体の影響を無視しながら、均等性を達成するために複雑な重み付けパターンに依存している。 本研究では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。 そこで本研究では,ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを提案する。 本稿では,暗黙のニューラル表現の分類と編集,一般化性能の予測,最適化の学習など,幅広いタスクにおける本手法の有効性について述べる。 ソースコードはhttps://github.com/mkofinas/neural-graphsで公開されている。

Neural networks that process the parameters of other neural networks find applications in domains as diverse as classifying implicit neural representations, generating neural network weights, and predicting generalization errors. However, existing approaches either overlook the inherent permutation symmetry in the neural network or rely on intricate weight-sharing patterns to achieve equivariance, while ignoring the impact of the network architecture itself. In this work, we propose to represent neural networks as computational graphs of parameters, which allows us to harness powerful graph neural networks and transformers that preserve permutation symmetry. Consequently, our approach enables a single model to encode neural computational graphs with diverse architectures. We showcase the effectiveness of our method on a wide range of tasks, including classification and editing of implicit neural representations, predicting generalization performance, and learning to optimize, while consistently outperforming state-of-the-art methods. The source code is open-sourced at https://github.com/mkofinas/neural-graphs.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# DetToolChain:MLLMのアンリーシュ検出機能のための新しいプロンプトパラダイム

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM ( http://arxiv.org/abs/2403.12488v3 )

ライセンス: Link先を確認
Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Philip Torr, Jian Wu, (参考訳) 本稿では,GPT-4V や Gemini などのマルチモーダル大規模言語モデル (MLLM) のゼロショットオブジェクト検出能力を解き放つために,新しいプロンプトパラダイムである DetToolChain を提案する。 提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。 特に、ツールキットのプロンプトは、MLLMが地域情報(例えば、ズームイン)に集中するように誘導し、測定基準(例えば、オーバレイの定規とコンパス)に従って座標を読み、コンテキスト情報(例えば、シーングラフのオーバーレイ)から推測するように設計されている。 これらのツールに基づいて、新しい検出チェーンはタスクを単純なサブタスクに自動的に分解し、予測を診断し、プログレッシブボックスの改良計画を立てる。 本フレームワークの有効性は,検出タスク,特にハードケースの幅広い範囲で実証されている。 既存の最先端の手法と比較して、GPT-4VとDetToolChainは、MS COCO上の最先端オブジェクト検出器を+21.5%改善し、オープン語彙検出のための新しいクラスセット +24.23% Acc on RefCOCO val set for zero-shot Reference Expression comprehension, +14.5% AP on D-cube describe object detection FULL setting。

We present DetToolChain, a novel prompting paradigm, to unleash the zero-shot object detection ability of multimodal large language models (MLLMs), such as GPT-4V and Gemini. Our approach consists of a detection prompting toolkit inspired by high-precision detection priors and a new Chain-of-Thought to implement these prompts. Specifically, the prompts in the toolkit are designed to guide the MLLM to focus on regional information (e.g., zooming in), read coordinates according to measure standards (e.g., overlaying rulers and compasses), and infer from the contextual information (e.g., overlaying scene graphs). Building upon these tools, the new detection chain-of-thought can automatically decompose the task into simple subtasks, diagnose the predictions, and plan for progressive box refinements. The effectiveness of our framework is demonstrated across a spectrum of detection tasks, especially hard cases. Compared to existing state-of-the-art methods, GPT-4V with our DetToolChain improves state-of-the-art object detectors by +21.5% AP50 on MS COCO Novel class set for open-vocabulary detection, +24.23% Acc on RefCOCO val set for zero-shot referring expression comprehension, +14.5% AP on D-cube describe object detection FULL setting.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# ParCo:パートコーディネートテキスト間合成

ParCo: Part-Coordinating Text-to-Motion Synthesis ( http://arxiv.org/abs/2403.18512v2 )

ライセンス: Link先を確認
Qiran Zou, Shangyuan Yuan, Shian Du, Yu Wang, Chang Liu, Yi Xu, Jie Chen, Xiangyang Ji, (参考訳) 本研究では,テキスト・トゥ・モーション・シンセサイザー(テキスト・ツー・モーション・シンセサイザー)という,テキスト記述に整合した動作を生成し,協調した動作を示すことを目的とした課題について検討する。 現在、パートベースの手法は、よりきめ細かい生成を実現するために、モーション合成プロセスに部分分割を導入している。 しかし、これらの手法は、異なる部分運動間の協調の欠如や、ネットワークが部分概念を理解するのが困難といった課題に直面している。 さらに、よりきめ細かい部分の概念の導入は、計算複雑性の課題を引き起こす。 そこで本稿では,ParCo(Part-Coordinating Text-to-Motion Synthesis, ParCo)を提案する。 具体的には,全身運動を複数の部分運動に識別し,異なる部分の先行概念を確立する。 その後、複数の軽量発電機を用いて、異なる部分運動を合成し、部品調整モジュールを介してそれらを調整する。 提案手法は,HumanML3DやKIT-MLなど,経済計算の一般的なベンチマークにおいて優れた性能を示し,その有効性を示す。 コードはhttps://github.com/qrzou/ParCoで入手できる。

We study a challenging task: text-to-motion synthesis, aiming to generate motions that align with textual descriptions and exhibit coordinated movements. Currently, the part-based methods introduce part partition into the motion synthesis process to achieve finer-grained generation. However, these methods encounter challenges such as the lack of coordination between different part motions and difficulties for networks to understand part concepts. Moreover, introducing finer-grained part concepts poses computational complexity challenges. In this paper, we propose Part-Coordinating Text-to-Motion Synthesis (ParCo), endowed with enhanced capabilities for understanding part motions and communication among different part motion generators, ensuring a coordinated and fined-grained motion synthesis. Specifically, we discretize whole-body motion into multiple part motions to establish the prior concept of different parts. Afterward, we employ multiple lightweight generators designed to synthesize different part motions and coordinate them through our part coordination module. Our approach demonstrates superior performance on common benchmarks with economic computations, including HumanML3D and KIT-ML, providing substantial evidence of its effectiveness. Code is available at https://github.com/qrzou/ParCo .
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# 傾斜異方性ディラック材料のSUSY QMによるコヒーレント状態の位相空間表現

Phase-space representation of coherent states generated through SUSY QM for tilted anisotropic Dirac materials ( http://arxiv.org/abs/2403.19048v2 )

ライセンス: Link先を確認
Daniel O-Campa, Erik Díaz-Bautista, (参考訳) 本稿では, 傾斜異方性ディラック材料中の電子相互作用を, 翻訳対称性を有する外部電場および磁場の影響下で検討する。 具体的には、固有値問題に固有の微分方程式系の疎結合を可能にする。 その後、超対称量子力学を用いることで、ハミルトニアン作用素に対応する固有状態と固有値の決定が容易になる。 システムの半古典的解析を掘り下げるために,コヒーレントな状態の集合を同定する。 最後に,これらの状態の特徴を,ウィグナー関数による忠実度と位相空間表現を用いて評価する。

In this paper, we examine the electron interaction within tilted anisotropic Dirac materials when subjected to external electric and magnetic fields possessing translational symmetry. Specifically, we focus on a distinct non-zero electric field magnitude, enabling the decoupling of the differential equation system inherent in the eigenvalue problem. Subsequently, employing supersymmetric quantum mechanics facilitates the determination of eigenstates and eigenvalues corresponding to the Hamiltonian operator. To delve into a semi-classical analysis of the system, we identify a set of coherent states. Finally, we assess the characteristics of these states using fidelity and the phase-space representation through the Wigner function.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# OV-Uni3DETR:Cycle-Modality Propagationによる統一オープンボキャブラリ3次元物体検出を目指して

OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation ( http://arxiv.org/abs/2403.19580v2 )

ライセンス: Link先を確認
Zhenyu Wang, Yali Li, Taichi Liu, Hengshuang Zhao, Shengjin Wang, (参考訳) 3Dオブジェクト検出研究の現状では、注釈付き3Dデータの深刻な不足、データモダリティの相違、統一アーキテクチャの欠如が、普遍性の目標に向けた進歩を妨げている。 本稿では,サイクル・モダリティ伝搬によるオープンな3次元検出器であるtextbf{OV-Uni3DETR}を提案する。 既存の3D検出器と比較すると、OV-Uni3DETRには明確な利点がある。 1) オープン語彙の3D検出: トレーニング中は、様々なアクセス可能なデータ、特に広範囲な2D検出画像を活用して、トレーニングの多様性を高める。 推論中は、見えないクラスと見えないクラスの両方を検出することができる。 2)モダリティ統一:任意のモダリティからの入力データをシームレスに許容し、異なるモダリティやセンサ情報の欠如といったシナリオに効果的に対応し、テスト時間モダリティ切替をサポートする。 3)シーン統一:異なるセンサによって収集される多様なシーンに対して、統一されたマルチモーダルモデルアーキテクチャを提供する。 具体的には、上記の機能をサポートするために、2次元および3次元のモダリティをブリッジする知識の伝播を目的としたサイクルモダリティ伝搬を提案する。 大語彙学習からの2D意味知識は、3D領域における新しいクラス発見を導くものであり、3D幾何学的知識は2D検出画像の局所化管理を提供する。 OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6倍以上上回っている。 RGBイメージのみを使用したパフォーマンスは、以前のポイントクラウドベースの方法と同等か、それ以上である。 コードと事前訓練されたモデルは、後にリリースされる。

In the current state of 3D object detection research, the severe scarcity of annotated 3D data, substantial disparities across different data modalities, and the absence of a unified architecture, have impeded the progress towards the goal of universality. In this paper, we propose \textbf{OV-Uni3DETR}, a unified open-vocabulary 3D detector via cycle-modality propagation. Compared with existing 3D detectors, OV-Uni3DETR offers distinct advantages: 1) Open-vocabulary 3D detection: During training, it leverages various accessible data, especially extensive 2D detection images, to boost training diversity. During inference, it can detect both seen and unseen classes. 2) Modality unifying: It seamlessly accommodates input data from any given modality, effectively addressing scenarios involving disparate modalities or missing sensor information, thereby supporting test-time modality switching. 3) Scene unifying: It provides a unified multi-modal model architecture for diverse scenes collected by distinct sensors. Specifically, we propose the cycle-modality propagation, aimed at propagating knowledge bridging 2D and 3D modalities, to support the aforementioned functionalities. 2D semantic knowledge from large-vocabulary learning guides novel class discovery in the 3D domain, and 3D geometric knowledge provides localization supervision for 2D detection images. OV-Uni3DETR achieves the state-of-the-art performance on various scenarios, surpassing existing methods by more than 6\% on average. Its performance using only RGB images is on par with or even surpasses that of previous point cloud based methods. Code and pre-trained models will be released later.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# 対話型言語学習による構成性・一般化とロボットの行動

Development of Compositionality and Generalization through Interactive Learning of Language and Action of Robots ( http://arxiv.org/abs/2403.19995v2 )

ライセンス: Link先を確認
Prasanna Vijayaraghavan, Jeffrey Frederic Queisser, Sergio Verduzco Flores, Jun Tani, (参考訳) 人間は学習した振る舞いを未学習の状況に適用することに長けている。 この一般化行動の重要な要素は、全体の構成と分解を、構成性として知られる再利用可能な部分に分割する能力である。 ロボット工学における基本的な問題のひとつは、この特性に関するものである。 「各個人が部分的な言語構成とそれに対応する知覚的パターンしか学ばない場合、アソシエイト学習を通じて、言語構成と感覚的スキルを両立させるにはどうすればいいのか。」 この問題に対処するために、我々は、視覚、プロプレセプション、言語を自由エネルギー原理に基づく予測的コーディングとアクティブ推論の枠組みに統合する脳に触発されたニューラルネットワークモデルを提案する。 このモデルの有効性と能力は、ロボットアームを用いて様々なシミュレーション実験によって評価された。 その結果,課題構成の訓練変化が増大すると,未学習の動詞-名詞合成への学習の一般化が著しく向上することが示唆された。 我々は,言語潜在状態空間における自己組織的構成構造が,感性学習の影響を著しく受けていると考えている。 アブレーション研究により、視覚的注意と作業記憶は、言語的に表される目標を達成するために、正確にビジュオモトラーシーケンスを生成するために不可欠であることが示されている。 これらの知見は、言語的および感覚的経験の相互作用を通じて構成性の発達の基礎となるメカニズムの理解を深める。

Humans excel at applying learned behavior to unlearned situations. A crucial component of this generalization behavior is our ability to compose/decompose a whole into reusable parts, an attribute known as compositionality. One of the fundamental questions in robotics concerns this characteristic. "How can linguistic compositionality be developed concomitantly with sensorimotor skills through associative learning, particularly when individuals only learn partial linguistic compositions and their corresponding sensorimotor patterns?" To address this question, we propose a brain-inspired neural network model that integrates vision, proprioception, and language into a framework of predictive coding and active inference, based on the free-energy principle. The effectiveness and capabilities of this model were assessed through various simulation experiments conducted with a robot arm. Our results show that generalization in learning to unlearned verb-noun compositions, is significantly enhanced when training variations of task composition are increased. We attribute this to self-organized compositional structures in linguistic latent state space being influenced significantly by sensorimotor learning. Ablation studies show that visual attention and working memory are essential to accurately generate visuo-motor sequences to achieve linguistically represented goals. These insights advance our understanding of mechanisms underlying development of compositionality through interactions of linguistic and sensorimotor experience.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# 3次元表示制御可能なポートレートアニメーションのための条件付き三面体生成学習

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation ( http://arxiv.org/abs/2404.00636v3 )

ライセンス: Link先を確認
Taekyung Ki, Dongchan Min, Gyeongsu Chae, (参考訳) 本稿では,顔画像の表情とカメラビューを制御可能な,ワンショット3D対応のポートレートアニメーションであるExport3Dを提案する。 そこで本研究では,3次元MMの表現パラメータを画像に転送することで,3次元の3次元平面を直接生成する,効率的な表現条件付き三次元平面生成手法を提案する。 三面体は、異なるボリュームレンダリングにより、異なるビューのイメージにデコードされる。 既存のポートレートアニメーション手法は、動き空間における表現の転送に画像のワープに大きく依存しており、外観や表現のゆがみに挑戦している。 対照的に、異性間表現の転送時に不要な外観スワップを排除し、外観自由表現パラメータのための対照的な事前学習フレームワークを提案する。 大規模な実験により,我々の事前学習フレームワークは3DMM内に隠された外見自由表現を学習でき,そのモデルでは外見スワップのない3D認識表現制御可能なポートレート画像を生成することができることがわかった。

In this paper, we present Export3D, a one-shot 3D-aware portrait animation method that is able to control the facial expression and camera view of a given portrait image. To achieve this, we introduce a tri-plane generator with an effective expression conditioning method, which directly generates a tri-plane of 3D prior by transferring the expression parameter of 3DMM into the source image. The tri-plane is then decoded into the image of different view through a differentiable volume rendering. Existing portrait animation methods heavily rely on image warping to transfer the expression in the motion space, challenging on disentanglement of appearance and expression. In contrast, we propose a contrastive pre-training framework for appearance-free expression parameter, eliminating undesirable appearance swap when transferring a cross-identity expression. Extensive experiments show that our pre-training framework can learn the appearance-free expression representation hidden in 3DMM, and our model can generate 3D-aware expression controllable portrait images without appearance swap in the cross-identity manner.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# コンピュータビジョンにおける知識蒸留の概観

A Comprehensive Review of Knowledge Distillation in Computer Vision ( http://arxiv.org/abs/2404.00936v4 )

ライセンス: Link先を確認
Gousia Habib, Tausifa jan Saleem, Sheikh Musa Kaleem, Tufail Rouf, Brejesh Lall, (参考訳) 近年、ディープラーニング技術は最先端の機械学習技術を上回ることが実証されており、コンピュータビジョンが最も顕著な例の1つである。 しかし、ディープラーニングモデルは、大きなモデルサイズと高い複雑さのため、リソース制約のある環境にデプロイする際の大きな欠点に悩まされる。 知識蒸留は、この課題を克服するための重要な解決策の1つです。 本稿では, 複雑なモデルをより小さく, より単純なものに圧縮する技術である, 知識蒸留研究の現状について検討する。 本稿では,知識蒸留に関する主要な原則と技術の概要を述べるとともに,コンピュータビジョン分野における知識蒸留の応用について概説する。 本レビューは, 知識蒸留のメリットと, その有効性向上のために克服すべき課題に焦点を当てる。

Deep learning techniques have been demonstrated to surpass preceding cutting-edge machine learning techniques in recent years, with computer vision being one of the most prominent examples. However, deep learning models suffer from significant drawbacks when deployed in resource-constrained environments due to their large model size and high complexity. Knowledge Distillation is one of the prominent solutions to overcome this challenge. This review paper examines the current state of research on knowledge distillation, a technique for compressing complex models into smaller and simpler ones. The paper provides an overview of the major principles and techniques associated with knowledge distillation and reviews the applications of knowledge distillation in the domain of computer vision. The review focuses on the benefits of knowledge distillation, as well as the problems that must be overcome to improve its effectiveness.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# PDF: オープンワールド3Dポイントクラウドセマンティックセマンティックセグメンテーションのための確率駆動フレームワーク

PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2404.00979v2 )

ライセンス: Link先を確認
Jinfeng Xu, Siyuan Yang, Xianzhi Li, Yuan Tang, Yixue Hao, Long Hu, Min Chen, (参考訳) 既存のポイントクラウドセマンティックセグメンテーションネットワークは、未知のクラスを特定して知識を更新できない。 この問題に対処するため,オープンワールドセマンティックセグメンテーションのための確率駆動フレームワーク(PDF)を提案する。 (i)不確実性を推定して未知のクラスを特定する軽量なUデコーダブランチ。 二 擬似ラベルを生成することにより、未知クラスの確率分布特性とともに幾何学的特徴を供給する柔軟な擬似ラベル方式 三 新たな授業を既存の知識基盤に徐々に組み込むための漸進的な知識蒸留戦略。 私たちのフレームワークは、未知の物体を認識して、対応する知識で段階的に学習することのできる、人間のように振る舞うことができる。 S3DISとScanNetv2データセットの実験結果は、提案されたPDFが、オープンワールドセマンティックセマンティックセグメンテーションの両重要なタスクにおいて、他の手法よりも優れていることを示している。

Existing point cloud semantic segmentation networks cannot identify unknown classes and update their knowledge, due to a closed-set and static perspective of the real world, which would induce the intelligent agent to make bad decisions. To address this problem, we propose a Probability-Driven Framework (PDF) for open world semantic segmentation that includes (i) a lightweight U-decoder branch to identify unknown classes by estimating the uncertainties, (ii) a flexible pseudo-labeling scheme to supply geometry features along with probability distribution features of unknown classes by generating pseudo labels, and (iii) an incremental knowledge distillation strategy to incorporate novel classes into the existing knowledge base gradually. Our framework enables the model to behave like human beings, which could recognize unknown objects and incrementally learn them with the corresponding knowledge. Experimental results on the S3DIS and ScanNetv2 datasets demonstrate that the proposed PDF outperforms other methods by a large margin in both important tasks of open world semantic segmentation.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# カリキュラム学習とリワード工学を用いた近似政策最適化を用いた実世界の最適化問題の解法

Solving a Real-World Optimization Problem Using Proximal Policy Optimization with Curriculum Learning and Reward Engineering ( http://arxiv.org/abs/2404.02577v2 )

ライセンス: Link先を確認
Abhijeet Pendyala, Asma Atamna, Tobias Glasmachers, (参考訳) 実世界の高スループット廃棄物処理施設を最適化するために,カリキュラム学習(CL)の原則と巧妙な報奨工学によって訓練されたPPOエージェントを提案する。 我々の研究は、運用上の安全性、ボリューム最適化、リソース使用量の最小化という競合する目標を効果的にバランスさせることの課題に対処する。 これらの複数の基準でスクラッチから訓練されたバニラエージェントは、その固有の複雑さのため、この問題を解決できない。 この問題は、長期の地平線と階級(または行動)の不均衡を伴う環境の極めて遅れた報酬のため、特に困難であり、重要な行動は最適政策ではまれである。 これにより、エージェントは長期的な行動の結果を予測し、稀だが報奨的な行動の優先順位付けを迫られ、非自明な強化学習タスクが作成される。 当社の5段階CLアプローチは,報酬機構を改良しながら,政策移行時の環境力学の複雑さを徐々に増大させることにより,これらの課題に対処する。 この反復的かつ適応的なプロセスにより、エージェントは望ましい最適なポリシーを学ぶことができる。 提案手法は, プラントの処理効率の向上に加えて, 推定時間の安全性を著しく向上し, ほぼゼロに近い安全性違反を達成できることを実証した。

We present a proximal policy optimization (PPO) agent trained through curriculum learning (CL) principles and meticulous reward engineering to optimize a real-world high-throughput waste sorting facility. Our work addresses the challenge of effectively balancing the competing objectives of operational safety, volume optimization, and minimizing resource usage. A vanilla agent trained from scratch on these multiple criteria fails to solve the problem due to its inherent complexities. This problem is particularly difficult due to the environment's extremely delayed rewards with long time horizons and class (or action) imbalance, with important actions being infrequent in the optimal policy. This forces the agent to anticipate long-term action consequences and prioritize rare but rewarding behaviours, creating a non-trivial reinforcement learning task. Our five-stage CL approach tackles these challenges by gradually increasing the complexity of the environmental dynamics during policy transfer while simultaneously refining the reward mechanism. This iterative and adaptable process enables the agent to learn a desired optimal policy. Results demonstrate that our approach significantly improves inference-time safety, achieving near-zero safety violations in addition to enhancing waste sorting plant efficiency.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# 大規模言語モデルの応答をいかに簡単に入力するか?

How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? ( http://arxiv.org/abs/2404.03302v2 )

ライセンス: Link先を確認
Siye Wu, Jian Xie, Jiangjie Chen, Tinghui Zhu, Kai Zhang, Yanghua Xiao, (参考訳) 外部知識データベースからの情報検索を活用することで、Large Language Models (LLMs)は、多くの知識集約的なタスクを達成するための拡張された能力を示す。 しかし、現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。 本研究では,様々な条件下での異なる種類の無関係情報に対するLSMの堅牢性に関する包括的調査を行う。 まず、意味的に無関係で、部分的に関連があり、質問に関係のある高品質な無関係な情報を構築するための枠組みを導入する。 さらに, 構築した無関係情報は, 類似度測定値に高いスコアを付けるだけでなく, 既存のシステムによって高い精度で検索されるだけでなく, 文脈とのセマンティックな関連性も持つことを示す。 我々の調査によると、現在のLLMは、高度に意味論的に関連のある情報を識別する上で依然として課題に直面しており、これら無関係で誤解を招くコンテンツに容易に気を散らすことができる。 また、関連のない情報を扱うための現在の解決策は、そのような注意をそらすためにLLMの堅牢性を改善するのに限界があることも見出した。 すべてのリソースはGitHubでhttps://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Informationで公開されている。

By leveraging the retrieval of information from external knowledge databases, Large Language Models (LLMs) exhibit enhanced capabilities for accomplishing many knowledge-intensive tasks. However, due to the inherent flaws of current retrieval systems, there might exist irrelevant information within those retrieving top-ranked passages. In this work, we present a comprehensive investigation into the robustness of LLMs to different types of irrelevant information under various conditions. We initially introduce a framework to construct high-quality irrelevant information that ranges from semantically unrelated, partially related, and related to questions. Furthermore, our analysis demonstrates that the constructed irrelevant information not only scores highly on similarity metrics, being highly retrieved by existing systems, but also bears semantic connections to the context. Our investigation reveals that current LLMs still face challenges in discriminating highly semantically related information and can be easily distracted by these irrelevant yet misleading content. Besides, we also find that current solutions for handling irrelevant information have limitations in improving the robustness of LLMs to such distractions. All the resources are available on GitHub at https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# ケーションによるテキストの計画と生成の学習

Learning to Plan and Generate Text with Citations ( http://arxiv.org/abs/2404.03381v3 )

ライセンス: Link先を確認
Constanza Fierro, Reinald Kim Amplayo, Fantine Huot, Nicola De Cao, Joshua Maynez, Shashi Narayan, Mirella Lapata, (参考訳) 情報検索のシナリオにおけるLCMの展開に対する需要が高まり、検証可能なシステムの構築への取り組みが加速し、クエリに対する応答と証拠が生成されるようになった。 本稿では、最近明らかになったプランベースモデルの帰属能力について検討し、生成したテキストの忠実性、接地性、制御性を改善することを目的としている。 我々は、生成したコンテンツとその組織の青写真として機能する一連の質問として、プランを概念化します。 本稿では,異なるブループリントの変種を利用する帰属モデルと,質問をゼロから生成する抽象モデルと,質問を入力からコピーする抽出モデルを提案する。 ロングフォームな質問応答実験は、計画が帰属品質を継続的に改善することを示している。 さらに、ブループリントモデルにより生成された励起は、計画部品を欠いたLLMパイプラインの励起よりも精度が高い。

The increasing demand for the deployment of LLMs in information-seeking scenarios has spurred efforts in creating verifiable systems, which generate responses to queries along with supporting evidence. In this paper, we explore the attribution capabilities of plan-based models which have been recently shown to improve the faithfulness, grounding, and controllability of generated text. We conceptualize plans as a sequence of questions which serve as blueprints of the generated content and its organization. We propose two attribution models that utilize different variants of blueprints, an abstractive model where questions are generated from scratch, and an extractive model where questions are copied from the input. Experiments on long-form question-answering show that planning consistently improves attribution quality. Moreover, the citations generated by blueprint models are more accurate compared to those obtained from LLM-based pipelines lacking a planning component.
翻訳日:2024-07-24 22:43:37 公開日:2024-07-23
# COMO:コンパクトマッピングとオドメトリー

COMO: Compact Mapping and Odometry ( http://arxiv.org/abs/2404.03531v2 )

ライセンス: Link先を確認
Eric Dexheimer, Andrew J. Davison, (参考訳) 我々は3次元アンカー点のコンパクトな集合を通して密度幾何学を符号化する実時間単分子マッピングおよびオドメトリーシステムであるCOMOを提案する。 アンカー点射影をキーフレーム毎の深さ共分散関数を介して密度幾何学に復号することで、深さ写像が可視アンカー点で結合されることが保証される。 この表現は、カメラポーズと密な幾何学、本質的な3次元一貫性、効率的な2階推論の合同最適化を可能にする。 コンパクトで表現力のある地図を維持するために,フレーム間の視覚的に不明瞭な3D点の追跡と初期化に共分散関数を利用するフロントエンドを導入する。 また、正確なポーズと一貫した幾何を推定できるリアルタイムシステムを導入する。

We present COMO, a real-time monocular mapping and odometry system that encodes dense geometry via a compact set of 3D anchor points. Decoding anchor point projections into dense geometry via per-keyframe depth covariance functions guarantees that depth maps are joined together at visible anchor points. The representation enables joint optimization of camera poses and dense geometry, intrinsic 3D consistency, and efficient second-order inference. To maintain a compact yet expressive map, we introduce a frontend that leverages the covariance function for tracking and initializing potentially visually indistinct 3D points across frames. Altogether, we introduce a real-time system capable of estimating accurate poses and consistent geometry.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# 量子スピン鎖と対称関数

Quantum Spin Chains and Symmetric Functions ( http://arxiv.org/abs/2404.04322v2 )

ライセンス: Link先を確認
Marcos Crichigno, Anupam Prakash, (参考訳) 量子スピン鎖がヒルベルト空間に自然にエンコードする問題を考える。 量子スピン鎖はよりリッチな系であり、結合論、群論、代数幾何学の様々な問題に対する解を自然に符号化していることが判明した。 XXハイゼンベルクスピン鎖の場合、これらはスキュー・コストカ数、対称群のスキュー文字、リトルウッド・リチャードソン係数によって与えられる。 このように、これはフォミンとグリーンによって定式化された「量子化」対称函数の理論のフェルミオン表現によって明らかにされ、量子スピン鎖のヒルベルト空間からこのデータを抽出する作用素を構築するための強力な枠組みを提供する。 さらに、これらの作用素は、量子スピン鎖のベート基底によって対角化される。 量子スピン鎖は「量子可積分系」の例である。 これは、永久体をコードするボソンや、決定体をコードするフェルミオンと幾分類似している。 このことは、量子コンピュータの潜在的に興味深いターゲットとして、量子可積分系やそれらに関連するコンビネータ系を考えることを指している。

We consider the question of what quantum spin chains naturally encode in their Hilbert space. It turns out that quantum spin chains are rather rich systems, naturally encoding solutions to various problems in combinatorics, group theory, and algebraic geometry. In the case of the XX Heisenberg spin chain these are given by skew Kostka numbers, skew characters of the symmetric group, and Littlewood-Richardson coefficients. As we show, this is revealed by a fermionic representation of the theory of "quantized" symmetric functions formulated by Fomin and Greene, which provides a powerful framework for constructing operators extracting this data from the Hilbert space of quantum spin chains. Furthermore, these operators are diagonalized by the Bethe basis of the quantum spin chain. Underlying this is the fact that quantum spin chains are examples of "quantum integrable systems." This is somewhat analogous to bosons encoding permanents and fermions encoding determinants. This points towards considering quantum integrable systems, and the combinatorics associated with them, as potentially interesting targets for quantum computers.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# 非マルコフ力学の存在下での離散時間結晶

Discrete time crystals in the presence of non-Markovian dynamics ( http://arxiv.org/abs/2404.06890v2 )

ライセンス: Link先を確認
Bandita Das, Noufal Jaseem, Victor Mukherjee, (参考訳) 非マルコフ散逸の存在下で、周期的に駆動される量子系における離散時間結晶(DTC)について検討する。 マルコフ力学の存在下で初期の研究で見られたDTCとは対照的に、Jaynes-Cummings-like Dissipationの存在下でのオープンディックモデルを用いて、非マルコフ状態は幅広いパラメータ値でDTCを安定化するのに非常に有益であることを示す。 これは、非マルコフ力学の場合であっても、周期的に異なる散逸率に起因する可能性がある。 さらに、マルコフ系と非マルコフ系は、散逸係数の中間強度を鋭く区別し、マルコフ系における時間非依存定常状態は、非マルコフ系では、DTC位を含む様々な動的位相に置き換えられる。 また,非マルコフ系におけるDTC相のロバスト性についても,ハミルトン系にも散逸系にも誤差を導入することにより検証する。 本研究は、周期的に変調されたオープン量子系における非マルコフ力学のプローブとしてDTCを用いる可能性を示す。

We study discrete time crystals (DTCs) in periodically driven quantum systems, in the presence of non-Markovian dissipation. In contrast to DTCs observed in earlier works in the presence of Markovian dynamics, using the open Dicke model in presence of Jaynes-Cummings-like dissipation, we show that non-Markovian regime can be highly beneficial for stabilizing DTCs over a wide range of parameter values. This may be attributed to periodically varying dissipation rates even at long times in the case of non-Markovian dynamics. Further the Markovian and non-Markovian regimes show sharp distinctions for intermediate strengths of the dissipator coefficient, with a time-independent steady-state in the Markovian regime being replaced by varied dynamical phases, including DTC order, in the non-Markovian regime. We also verify the robustness of the DTC phase in the non-Markovian regime by introducing errors both in the Hamiltonian as well as in the dissipation. Our study shows the possibility of using DTC as a probe for non-Markovian dynamics in periodically modulated open quantum systems, at long times.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# インコンテクスト学習は本当に学習されるのか?-インコンテクスト学習を通して大規模言語モデルがどのように応答し,課題を解決するかを再考する

Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning ( http://arxiv.org/abs/2404.07546v2 )

ライセンス: Link先を確認
Quanyu Long, Yin Wu, Wenya Wang, Sinno Jialin Pan, (参考訳) In-context Learning (ICL) は、スケールアップされた大規模言語モデル(LLM)の開発とともに、強力な能力として登場した。 数発の実証例を使ってLLMを指示することにより、ICLは数百万のパラメータを更新することなく、幅広いタスクを実行できる。 しかし,近年の研究では,エンドタスク性能向上への実証の正確な貢献が十分に研究されていない。 本稿では,ICLの全体的な性能を,ラベル空間,フォーマット,識別の3次元に分けて実証的に分解し,多種多様なタスクにまたがる4つの汎用LCMを評価する。 反故意に、これらのデモンストレーションは言語モデルの差別的知識を促進するのに限界がある。 しかし、ICLはラベル空間とフォーマットを調節する上で大きな効果を示しており、所望のラベル語にLLMが反応するのに役立つ。 次に,LLMが従うべき詳細命令に類似した機能を示す。 ICLの検索支援機構を詳細に分析する。 以上の結果から,意味論的に類似した例を検索することで,モデルの識別能力が向上することが示唆された。 しかし、ラベルの多様性に関する良い文脈内例を選択する際のトレードオフも観察する。

In-context Learning (ICL) has emerged as a powerful capability alongside the development of scaled-up large language models (LLMs). By instructing LLMs using few-shot demonstrative examples, ICL enables them to perform a wide range of tasks without updating millions of parameters. However, the precise contributions of demonstrations towards improving end-task performance have not been thoroughly investigated in recent analytical studies. In this paper, we empirically decompose the overall performance of ICL into three dimensions, label space, format, and discrimination, and we evaluate four general-purpose LLMs across a diverse range of tasks. Counter-intuitively, we find that the demonstrations have a marginal impact on provoking discriminative knowledge of language models. However, ICL exhibits significant efficacy in regulating the label space and format, which helps LLMs respond to desired label words. We then demonstrate that this ability functions similar to detailed instructions for LLMs to follow. We additionally provide an in-depth analysis of the mechanism of retrieval helping with ICL. Our findings demonstrate that retrieving the semantically similar examples notably boosts the model's discriminative capability. However, we also observe a trade-off in selecting good in-context examples regarding label diversity.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# 可読性と一般化性向上のための異常検出を伴う言語モデル

Language Models Meet Anomaly Detection for Better Interpretability and Generalizability ( http://arxiv.org/abs/2404.07622v2 )

ライセンス: Link先を確認
Jun Li, Su Hwan Kim, Philip Müller, Lina Felsner, Daniel Rueckert, Benedikt Wiestler, Julia A. Schnabel, Cosmin I. Bercea, (参考訳) 本研究は,医療画像における言語モデルと教師なし異常検出の統合について検討し,(1)言語モデルが異常検出マップの解釈可能性を高めることができるか,という2つの重要な疑問に対処するものである。 そして、(2)異常マップは、オープンセットの異常検出タスクにおける言語モデルの一般化性を向上させることができるか? そこで本研究では,複数の条件を包含した脳磁気共鳴画像に対するマルチイメージ視覚的質問応答のための新しいデータセットを提案する。 KQ-Former (Knowledge Querying Transformer) を提案する。 本モデルでは, 閉鎖質問に対する60.81%の精度を達成し, 疾患の分類と重症度を15種類のクラスに分けた。 オープンな質問に対して、KQ-FormerはBLEU-4スコア0.41でベースラインを70%改善し、様々な自然言語推論モデルの中で最も高いエンテーメント比(71.9%まで)と最も低い矛盾率(10.0%まで)を達成した。 さらに、異常マップの統合により、オープンセット異常の検出において精度が18%向上し、これまで見られなかった医療条件に対する言語モデルの一般化性が向上する。 コードとデータセットはhttps://github.com/compai-lab/miccai-2024-junli? tab=readme-ov-file

This research explores the integration of language models and unsupervised anomaly detection in medical imaging, addressing two key questions: (1) Can language models enhance the interpretability of anomaly detection maps? and (2) Can anomaly maps improve the generalizability of language models in open-set anomaly detection tasks? To investigate these questions, we introduce a new dataset for multi-image visual question-answering on brain magnetic resonance images encompassing multiple conditions. We propose KQ-Former (Knowledge Querying Transformer), which is designed to optimally align visual and textual information in limited-sample contexts. Our model achieves a 60.81% accuracy on closed questions, covering disease classification and severity across 15 different classes. For open questions, KQ-Former demonstrates a 70% improvement over the baseline with a BLEU-4 score of 0.41, and achieves the highest entailment ratios (up to 71.9%) and lowest contradiction ratios (down to 10.0%) among various natural language inference models. Furthermore, integrating anomaly maps results in an 18% accuracy increase in detecting open-set anomalies, thereby enhancing the language model's generalizability to previously unseen medical conditions. The code and dataset are available at https://github.com/compai-lab/miccai-2024-junli?tab=readme-ov-file
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# CREST: ゼロショット学習の強化のための証拠深層学習によるクロスモーダル共鳴

CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning ( http://arxiv.org/abs/2404.09640v4 )

ライセンス: Link先を確認
Haojian Huang, Xiaozhen Qiao, Zhuo Chen, Haodong Chen, Bingyu Li, Zhe Sun, Mulin Chen, Xuelong Li, (参考訳) ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。 この知識は、典型的には属性記述にカプセル化され、クラス固有の視覚的特徴を識別し、視覚的セマンティックなアライメントを促進し、ZSLのパフォーマンスを向上させる。 しかし、インスタンス間の分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げることがしばしばあり、これは、きめ細かい領域固有の属性アノテーションの不足によって悪化する。 さらに、カテゴリー内の視覚的プレゼンテーションの多様性は属性カテゴリーの関連を歪ませることもできる。 そこで本研究では,双方向の双方向ZSLアプローチであるCRESTを提案する。 属性と視覚的ローカライゼーションの表現を抽出することから始まり、Evidential Deep Learning (EDL) を用いて、根底にあるてんかんの不確実性を測定することによって、強陰性に対するモデルのレジリエンスを高める。 CRESTには、視覚的カテゴリと属性的カテゴリのアライメントの両方に焦点を当てたデュアルラーニングパスが組み込まれており、潜在空間と可観測空間の堅牢な相関性を保証する。 さらに,不確実性のあるクロスモーダル融合手法を導入し,視覚属性推論を洗練させる。 大規模な実験では、複数のデータセットにまたがるモデルの有効性とユニークな説明可能性を示す。 私たちのコードとデータは、https://github.com/JethroJames/CRESTで利用可能です。

Zero-shot learning (ZSL) enables the recognition of novel classes by leveraging semantic knowledge transfer from known to unknown categories. This knowledge, typically encapsulated in attribute descriptions, aids in identifying class-specific visual features, thus facilitating visual-semantic alignment and improving ZSL performance. However, real-world challenges such as distribution imbalances and attribute co-occurrence among instances often hinder the discernment of local variances in images, a problem exacerbated by the scarcity of fine-grained, region-specific attribute annotations. Moreover, the variability in visual presentation within categories can also skew attribute-category associations. In response, we propose a bidirectional cross-modal ZSL approach CREST. It begins by extracting representations for attribute and visual localization and employs Evidential Deep Learning (EDL) to measure underlying epistemic uncertainty, thereby enhancing the model's resilience against hard negatives. CREST incorporates dual learning pathways, focusing on both visual-category and attribute-category alignments, to ensure robust correlation between latent and observable spaces. Moreover, we introduce an uncertainty-informed cross-modal fusion technique to refine visual-attribute inference. Extensive experiments demonstrate our model's effectiveness and unique explainability across multiple datasets. Our code and data are available at: https://github.com/JethroJames/CREST
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# 拡散モデルに基づく視覚言語モデルのための目標・移動可能逆数例の効率的な生成

Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models ( http://arxiv.org/abs/2404.10335v3 )

ライセンス: Link先を確認
Qi Guo, Shanmin Pang, Xiaojun Jia, Yang Liu, Qing Guo, (参考訳) 敵攻撃、特にtextbf{targeted}転送ベースの攻撃は、大規模な視覚言語モデル(VLM)の敵の堅牢性を評価するために使用され、デプロイ前に潜在的なセキュリティ欠陥をより徹底的に調べることができる。 しかし, 従来のトランスファーベース対向攻撃は, 高繰り返し数と複雑な手法構造により, 高いコストがかかる。 さらに、敵対的意味論の不自然さのため、生成した敵の例は伝達性が低い。 これらの問題は、ロバスト性を評価する既存の方法の有用性を制限する。 これらの問題に対処するために,拡散モデルを用いて,スコアマッチングによる自然な,制約のない,対象とする対向例を生成するAdvDiffVLMを提案する。 具体的には、AdvDiffVLMはAdaptive Ensemble Gradient Estimationを使用して拡散モデルの逆生成過程のスコアを修正し、生成した対向例が自然な対向的セマンティクスを持つことを保証する。 同時に,GradCAM誘導マスク法を用いて,画像を一箇所に集中させるのではなく,画像全体にわたって敵対的意味論を分散させる。 最後に、AdvDiffVLMは、複数のイテレーションの後に、より多くのターゲットセマンティクスを敵の例に埋め込む。 実験結果から,本手法は高い品質の対数例を維持しつつ,最先端の移動型対数攻撃よりも5倍から10倍高速に対数例を生成することが示された。 さらに, 従来の移動型対向攻撃と比較して, 提案手法によって生成された対向攻撃例の方が転送性に優れていた。 特にAdvDiffVLMは、GPT-4Vを含むブラックボックス環境で様々な商用VLMを攻撃できる。

Adversarial attacks, particularly \textbf{targeted} transfer-based attacks, can be used to assess the adversarial robustness of large visual-language models (VLMs), allowing for a more thorough examination of potential security flaws before deployment. However, previous transfer-based adversarial attacks incur high costs due to high iteration counts and complex method structure. Furthermore, due to the unnaturalness of adversarial semantics, the generated adversarial examples have low transferability. These issues limit the utility of existing methods for assessing robustness. To address these issues, we propose AdvDiffVLM, which uses diffusion models to generate natural, unrestricted and targeted adversarial examples via score matching. Specifically, AdvDiffVLM uses Adaptive Ensemble Gradient Estimation to modify the score during the diffusion model's reverse generation process, ensuring that the produced adversarial examples have natural adversarial targeted semantics, which improves their transferability. Simultaneously, to improve the quality of adversarial examples, we use the GradCAM-guided Mask method to disperse adversarial semantics throughout the image rather than concentrating them in a single area. Finally, AdvDiffVLM embeds more target semantics into adversarial examples after multiple iterations. Experimental results show that our method generates adversarial examples 5x to 10x faster than state-of-the-art transfer-based adversarial attacks while maintaining higher quality adversarial examples. Furthermore, compared to previous transfer-based adversarial attacks, the adversarial examples generated by our method have better transferability. Notably, AdvDiffVLM can successfully attack a variety of commercial VLMs in a black-box environment, including GPT-4V.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# グラディエント正規化アウト・オブ・ディストリビューション検出

Gradient-Regularized Out-of-Distribution Detection ( http://arxiv.org/abs/2404.12368v3 )

ライセンス: Link先を確認
Sina Sharifi, Taha Entesari, Bardia Safaei, Vishal M. Patel, Mahyar Fazlyab, (参考訳) 現実のアプリケーションにおけるニューラルネットワークの課題の1つは、これらのモデルが元のトレーニングディストリビューションからデータが送られていないときに犯す過信エラーである。 この問題に対処するためには、Out-of-Distribution (OOD) Detection(アウト・オブ・ディストリビューション)と呼ばれる。 多くの最先端のOOD手法では、訓練中のOODデータのサロゲートとして補助データセットを使用し、性能の向上を実現している。 しかし、これらの手法は補助データセットに埋め込まれたローカル情報を十分に活用することができない。 本研究では,学習中の損失関数の勾配に埋め込まれた情報を活用して,各サンプルに対して所望のOODスコアを学習するだけでなく,各サンプルの周辺地域でも同様の挙動を示すことができるようにすることを提案する。 また、トレーニング期間中に、より情報性の高いOODサンプルにネットワークを露出させるための、新しいエネルギーベースのサンプリング手法を開発した。 これは補助データセットが大きい場合に特に重要である。 提案手法の有効性を複数のOODベンチマークで検証し,既存のFPR95を画像Net実験で4%改善した。 さらに、証明された堅牢性のレンズとリプシッツ解析を通して理論的解析を行い、我々の研究の理論的基礎を示す。 私たちのコードはhttps://github.com/o4lc/Greg-OOD.comで公開されています。

One of the challenges for neural networks in real-life applications is the overconfident errors these models make when the data is not from the original training distribution. Addressing this issue is known as Out-of-Distribution (OOD) detection. Many state-of-the-art OOD methods employ an auxiliary dataset as a surrogate for OOD data during training to achieve improved performance. However, these methods fail to fully exploit the local information embedded in the auxiliary dataset. In this work, we propose the idea of leveraging the information embedded in the gradient of the loss function during training to enable the network to not only learn a desired OOD score for each sample but also to exhibit similar behavior in a local neighborhood around each sample. We also develop a novel energy-based sampling method to allow the network to be exposed to more informative OOD samples during the training phase. This is especially important when the auxiliary dataset is large. We demonstrate the effectiveness of our method through extensive experiments on several OOD benchmarks, improving the existing state-of-the-art FPR95 by 4% on our ImageNet experiment. We further provide a theoretical analysis through the lens of certified robustness and Lipschitz analysis to showcase the theoretical foundation of our work. Our code is available at https://github.com/o4lc/Greg-OOD.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# グローバルカウンターファクトの方向性

Global Counterfactual Directions ( http://arxiv.org/abs/2404.12488v2 )

ライセンス: Link先を確認
Bartlomiej Sobieski, Przemysław Biecek, (参考訳) 視覚的対物的説明を生成する手法の開発が進展しているにもかかわらず、特に近年のデノイング拡散確率モデル(Denoising Diffusion Probabilistic Models)の台頭により、従来の研究はこれらを完全に局所的な手法と見なしていた。 この作業では、それらをグローバル化する第一歩を踏み出します。 具体的には、拡散オートエンコーダの潜伏空間が、与えられた分類器の推論過程を大域的方向の形で符号化することを発見した。 ブラックボックス方式で単一の画像のみを用いて2種類の方向を探索するプロキシベースの新しいアプローチを提案する。 正確には、g方向は画像のデータセット全体において与えられた分類器の決定を反転させることができるが、h方向は説明の多様性をさらに増大させる。 一般的にはGCD(Global Counterfactual Directions)と呼ぶ。 さらに,GCDとLatent Integrated Gradientsを自然に組み合わせることで,新たなブラックボックス属性法が実現でき,同時に対実的説明の理解を深めることができることを示す。 提案手法を既存のベンチマークで検証し,実世界のユースケースに一般化することを示す。

Despite increasing progress in development of methods for generating visual counterfactual explanations, especially with the recent rise of Denoising Diffusion Probabilistic Models, previous works consider them as an entirely local technique. In this work, we take the first step at globalizing them. Specifically, we discover that the latent space of Diffusion Autoencoders encodes the inference process of a given classifier in the form of global directions. We propose a novel proxy-based approach that discovers two types of these directions with the use of only single image in an entirely black-box manner. Precisely, g-directions allow for flipping the decision of a given classifier on an entire dataset of images, while h-directions further increase the diversity of explanations. We refer to them in general as Global Counterfactual Directions (GCDs). Moreover, we show that GCDs can be naturally combined with Latent Integrated Gradients resulting in a new black-box attribution method, while simultaneously enhancing the understanding of counterfactual explanations. We validate our approach on existing benchmarks and show that it generalizes to real-world use-cases.
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# FlowMap: グラディエントDescentによる高画質カメラの可能性、内在性、奥行き

FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent ( http://arxiv.org/abs/2404.15259v3 )

ライセンス: Link先を確認
Cameron Smith, David Charatan, Ayush Tewari, Vincent Sitzmann, (参考訳) 本稿では、カメラの正確なポーズ、カメラの内在性、フレームごとの深度を解消する、エンドツーエンドの差別化手法であるFlowMapを紹介する。 本手法は,奥行き,内在性によって誘導される光の流れを比較し,オフザシェルフ光の流れと点追跡によって得られる対応に対処する,最小2乗目的の映像ごとの勾配・ディフレッシブ最小化を行う。 長期的幾何整合性を促進するために点線を用いるとともに、一階最適化に寄与する深度、内在性、ポーズの微分可能な再パラメータ化を導入する。 提案手法により得られたカメラパラメータと密度深度は,ガウススプラッティングを用いた360度軌道上での光リアルな新規ビュー合成を可能にすることを実証的に示す。 提案手法は, 従来の勾配差に基づくバンドル調整法よりもはるかに優れるだけでなく, 従来のSfM法であるCOLMAPと同等に動作し, 従来のSfM法と完全に相違し, 従来のSfM法と完全に相違しているにもかかわらず, 360度新規ビュー合成の下流タスクにおいて, 従来のSfM法と同等に機能する。

This paper introduces FlowMap, an end-to-end differentiable method that solves for precise camera poses, camera intrinsics, and per-frame dense depth of a video sequence. Our method performs per-video gradient-descent minimization of a simple least-squares objective that compares the optical flow induced by depth, intrinsics, and poses against correspondences obtained via off-the-shelf optical flow and point tracking. Alongside the use of point tracks to encourage long-term geometric consistency, we introduce differentiable re-parameterizations of depth, intrinsics, and pose that are amenable to first-order optimization. We empirically show that camera parameters and dense depth recovered by our method enable photo-realistic novel view synthesis on 360-degree trajectories using Gaussian Splatting. Our method not only far outperforms prior gradient-descent based bundle adjustment methods, but surprisingly performs on par with COLMAP, the state-of-the-art SfM method, on the downstream task of 360-degree novel view synthesis (even though our method is purely gradient-descent based, fully differentiable, and presents a complete departure from conventional SfM).
翻訳日:2024-07-24 22:33:53 公開日:2024-07-23
# Hofstadter-Bose-Hubbardモデルに応用したニューラル量子状態の普遍的性能ギャップ

Universal Performance Gap of Neural Quantum States Applied to the Hofstadter-Bose-Hubbard Model ( http://arxiv.org/abs/2405.01981v2 )

ライセンス: Link先を確認
Eimantas Ledinauskas, Egidijus Anisimovas, (参考訳) ニューラル量子状態(NQS)は、多体量子系の基底状態を近似する大きな可能性を証明しているが、それらの性能は異なるモデル間で矛盾する可能性がある。 本研究では,垂直磁場を持つ2次元正方格子上のボソン系であるホフスタッター・ボース・ハバード(HBH)モデルの基底状態の近似におけるNQSの性能について検討した。 以上の結果から,磁束の増大はエネルギー誤差を最大3桁に増加させることが示唆された。 重要なことに、NQSパフォーマンスの低下は、さまざまな最適化方法、ニューラルネットワークアーキテクチャ、物理モデルパラメータに一貫性があり、モデル固有の重要な課題が示唆されている。 波動関数相構造、量子絡み合い、分数量子ホール効果、変分損失景観などの潜在的な原因を調査するが、この劣化の正確な原因は解明されていない。 したがって、HBHモデルはNQSの能力と限界を探索するための効果的な試験場であることが証明される。 本研究は,これらの課題を克服可能な手法の体系的開発を可能にするため,NQSの表現力をよりよく理解するための高度な理論的枠組みの必要性を強調した。

Neural Quantum States (NQS) have demonstrated significant potential in approximating ground states of many-body quantum systems, though their performance can be inconsistent across different models. This study investigates the performance of NQS in approximating the ground state of the Hofstadter-Bose-Hubbard (HBH) model, a boson system on a two-dimensional square lattice with a perpendicular magnetic field. Our results indicate that increasing magnetic flux leads to a substantial increase in energy error, up to three orders of magnitude. Importantly, this decline in NQS performance is consistent across different optimization methods, neural network architectures, and physical model parameters, suggesting a significant challenge intrinsic to the model. Despite investigating potential causes such as wave function phase structure, quantum entanglement, fractional quantum Hall effect, and the variational loss landscape, the precise reasons for this degradation remain elusive. The HBH model thus proves to be an effective testing ground for exploring the capabilities and limitations of NQS. Our study highlights the need for advanced theoretical frameworks to better understand the expressive power of NQS which would allow a systematic development of methods that could potentially overcome these challenges.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# E-TSL: ベースライン手法による連続的なトルコ手話データセット

E-TSL: A Continuous Educational Turkish Sign Language Dataset with Baseline Methods ( http://arxiv.org/abs/2405.02984v2 )

ライセンス: Link先を確認
Şükrü Öztürk, Hacer Yalim Keles, (参考訳) 本研究では,第5学年,第6学年,第8学年を対象に,オンライントルコ語授業から収集した連続教育トルコ手話データセットについて紹介する。 データセットは、合計24時間近くの1,410本のビデオで構成され、11人の署名者によるパフォーマンスを含んでいる。 特に64%がシングルトン語、85%がまれな単語で、5回未満の出現である。 P2T-T(Pose to Text Transformer)モデルとGNN-T(Graph Neural Network Based Transformer)モデルという2つのベースラインモデルを開発した。 GNN-Tは19.13%のBLEU-1スコアと3.28%のBLEU-4スコアを達成した。 P2T-TモデルはBLEUスコアでは若干低い性能を示したが、ROUGE-Lスコアは22.09%向上した。 さらに、よく知られたPHOENIX-Weather 2014Tデータセットを使ってモデルをベンチマークし、アプローチを検証する。

This study introduces the continuous Educational Turkish Sign Language (E-TSL) dataset, collected from online Turkish language lessons for 5th, 6th, and 8th grades. The dataset comprises 1,410 videos totaling nearly 24 hours and includes performances from 11 signers. Turkish, an agglutinative language, poses unique challenges for sign language translation, particularly with a vocabulary where 64% are singleton words and 85% are rare words, appearing less than five times. We developed two baseline models to address these challenges: the Pose to Text Transformer (P2T-T) and the Graph Neural Network based Transformer (GNN-T) models. The GNN-T model achieved 19.13% BLEU-1 score and 3.28% BLEU-4 score, presenting a significant challenge compared to existing benchmarks. The P2T-T model, while demonstrating slightly lower performance in BLEU scores, achieved a higher ROUGE-L score of 22.09%. Additionally, we benchmarked our model using the well-known PHOENIX-Weather 2014T dataset to validate our approach.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 条件付き拡散モデルを用いた高速LiDARアップサンプリング

Fast LiDAR Upsampling using Conditional Diffusion Models ( http://arxiv.org/abs/2405.04889v2 )

ライセンス: Link先を確認
Sander Elias Magnussen Helgesen, Kazuto Nakashima, Jim Tørresen, Ryo Kurazume, (参考訳) 3次元LiDARデータの精錬は,教師付き学習や生成モデルに基づく手法といった近年の手法によって,関心が高まりつつある。 既存の手法では、拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示しているが、そのような手法の性能と速度は限られている。 これらの制限により、リアルタイムでの実行が難しくなり、自律的なナビゲーションや人間とロボットのインタラクションといった現実的なタスクにアプローチが苦労する。 本研究では,高速かつ高品質な3次元シーンポイント雲の高密度アップサンプリングのための条件拡散モデルに基づく新しい手法を提案する。 本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。 複数のデータセット、サンプリングステップ、条件付きマスクを含む一連の実験を紹介する。 提案手法は,KITTI-360データセットを用いたアップサンプリング作業におけるサンプリング速度と品質において,ベースラインよりも優れていることを示す。 さらに、実世界のデータセットと合成データセットを同時にトレーニングし、品質と環境のばらつきを導入することで、我々のアプローチの一般化能力について説明する。

The search for refining 3D LiDAR data has attracted growing interest motivated by recent techniques such as supervised learning or generative model-based methods. Existing approaches have shown the possibilities for using diffusion models to generate refined LiDAR data with high fidelity, although the performance and speed of such methods have been limited. These limitations make it difficult to execute in real-time, causing the approaches to struggle in real-world tasks such as autonomous navigation and human-robot interaction. In this work, we introduce a novel approach based on conditional diffusion models for fast and high-quality sparse-to-dense upsampling of 3D scene point clouds through an image representation. Our method employs denoising diffusion probabilistic models trained with conditional inpainting masks, which have been shown to give high performance on image completion tasks. We introduce a series of experiments, including multiple datasets, sampling steps, and conditional masks. This paper illustrates that our method outperforms the baselines in sampling speed and quality on upsampling tasks using the KITTI-360 dataset. Furthermore, we illustrate the generalization ability of our approach by simultaneously training on real-world and synthetic datasets, introducing variance in quality and environments.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 宇宙マイクロ波背景からの量子シグネチャによるバウンスとインフレーションの解消

Distinguishing bounce and inflation via quantum signatures from cosmic microwave background ( http://arxiv.org/abs/2405.08543v2 )

ライセンス: Link先を確認
S. Mahesh Chandran, S. Shankaranarayanan, (参考訳) 宇宙物理学的インフレーションは、宇宙マイクロ波放射(CMBR)を理解するための一般的なパラダイムであるが、多くの概念的な課題に直面している。 摂動のほとんどスケール不変のスペクトルを生成するためのインフレーションの別のメカニズムは、初期物質支配の収縮相を持つ 'emph{bouncing cosmology} であり、現在観測されているスケールに対応するモードがハッブル半径を抜ける。 バウンシング宇宙論は初期特異性を避けるが、微調整の問題がある。 2つの初期のユニバースパラダイムの「emph{agnostic view」を取り入れて、CMBRの動的フィデリティ・サセプティビリティ(DFS)という量子測度を提案し、2つのシナリオを区別する。 同じパワースペクトルを持つ2つの単純なモデルを用いて、DFSが2つのシナリオに対して異なる振る舞いをすることを示す。 我々は、今後の宇宙ミッションにおいて、DFSを差別化要因として用いる可能性について論じる。

Cosmological inflation is a popular paradigm for understanding Cosmic Microwave Background Radiation (CMBR); however, it faces many conceptual challenges. An alternative mechanism to inflation for generating an almost scale-invariant spectrum of perturbations is a \emph{bouncing cosmology} with an initial matter-dominated contraction phase, during which the modes corresponding to currently observed scales exited the Hubble radius. Bouncing cosmology avoids the initial singularity but has fine-tuning problems. Taking an \emph{agnostic view} of the two early-universe paradigms, we propose a quantum measure -- Dynamical Fidelity Susceptibility (DFS) of CMBR -- that distinguishes the two scenarios. Taking two simple models with the same power-spectrum, we explicitly show that DFS behaves differently for the two scenarios. We discuss the possibility of using DFS as a distinguisher in the upcoming space missions.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 一般パラメータ化を用いたサンプル効率の制約付き強化学習

Sample-Efficient Constrained Reinforcement Learning with General Parameterization ( http://arxiv.org/abs/2405.10624v2 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, (参考訳) エージェントの目標は、期待されるコストの割引金額が一定の閾値を超えることを保証しつつ、無限の地平線上での報酬の割引金額を最大化することである。 運動量に基づく加速度の考え方に基づいて,大域的最適性ギャップを$\epsilon$と$\epsilon$制約違反を$\tilde{\mathcal{O}}(\epsilon^{-2})で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。 これにより、一般パラメータ化CMDPにおける最先端サンプルの複雑さを$\mathcal{O}(\epsilon^{-2})$で改善し、理論的な下界を達成する。

We consider a constrained Markov Decision Problem (CMDP) where the goal of an agent is to maximize the expected discounted sum of rewards over an infinite horizon while ensuring that the expected discounted sum of costs exceeds a certain threshold. Building on the idea of momentum-based acceleration, we develop the Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG) algorithm that guarantees an $\epsilon$ global optimality gap and $\epsilon$ constraint violation with $\tilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity for general parameterized policies. This improves the state-of-the-art sample complexity in general parameterized CMDPs by a factor of $\mathcal{O}(\epsilon^{-2})$ and achieves the theoretical lower bound.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 大言語モデルによる単語の文字構成の理解の欠如

Large Language Models Lack Understanding of Character Composition of Words ( http://arxiv.org/abs/2405.11357v3 )

ライセンス: Link先を確認
Andrew Shin, Kunitake Kaneko, (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。 しかし、LLMの成功は、言葉、文、文書に関するタスクに大きく制限されており、文字の最小単位、すなわち文字がどの程度理解されているかは疑問視されている。 本稿では,文章の文字構成を理解する能力について,現代LLMについて検討し,そのほとんどが完璧に人間が扱える簡単なタスクであっても確実に実行できないことを示す。 トークンレベルのパフォーマンスと比較して,それらの挙動を分析し,今後の研究の方向性について考察する。

Large language models (LLMs) have demonstrated remarkable performances on a wide range of natural language tasks. Yet, LLMs' successes have been largely restricted to tasks concerning words, sentences, or documents, and it remains questionable how much they understand the minimal units of text, namely characters. In this paper, we examine contemporary LLMs regarding their ability to understand character composition of words, and show that most of them fail to reliably carry out even the simple tasks that can be handled by humans with perfection. We analyze their behaviors with comparison to token level performances, and discuss the potential directions for future research.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# E(n)同変トポロジカルニューラルネットワーク

E(n) Equivariant Topological Neural Networks ( http://arxiv.org/abs/2405.15429v3 )

ライセンス: Link先を確認
Claudio Battiloro, Ege Karaismailoğlu, Mauricio Tec, George Dasoulas, Michelle Audirac, Francesca Dominici, (参考訳) グラフニューラルネットワークはペアインタラクションのモデリングに優れていますが、高階インタラクションや機能に柔軟に対応できません。 トポロジカルディープラーニング(TDL)がこの問題に対処するための有望なツールとして最近登場した。 TDLはグラフの代わりに単純あるいはセル複体のような組合せトポロジカル空間で操作することで、任意の多方向、階層的な高次相互作用の原理的モデリングを可能にする。 しかし、TDLの位置や速度といった幾何学的特徴をどのように活用するかについては、ほとんど分かっていない。 本稿では,E(n)-Equivariant Topological Neural Networks (ETNN)を紹介し,E(n)-Equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant graphs, hypergraphs, simplicial, path, cell complex)について述べる。 ETNNは回転と翻訳の等価性を尊重しながら幾何学的ノード特徴を取り入れている。 さらにETNNは、ヘテロジニアスなインタラクションで設定する準備ができている。 幾何グラフのアーキテクチャ上でのETNNの表現性の改善を示す理論的解析を行う。 また、TDLモデルのいくつかのE(n)不変変種が、我々のフレームワークから直接導出可能であることを示す。 ETNNの幅広い適用性は、大きく異なる性質の2つのタスクを通して示される。 一 QM9ベンチマークにおける分子特性予測及び 二 マルチレゾリューション不規則地空間データによる大気汚染の局所的評価のための土地利用回帰 実験の結果,ETNNは多種多様なリッチな構造化データから学習するための有効なツールであり,幾何学的帰納バイアスの利点を浮き彫りにしている。

Graph neural networks excel at modeling pairwise interactions, but they cannot flexibly accommodate higher-order interactions and features. Topological deep learning (TDL) has emerged recently as a promising tool for addressing this issue. TDL enables the principled modeling of arbitrary multi-way, hierarchical higher-order interactions by operating on combinatorial topological spaces, such as simplicial or cell complexes, instead of graphs. However, little is known about how to leverage geometric features such as positions and velocities for TDL. This paper introduces E(n)-Equivariant Topological Neural Networks (ETNNs), which are E(n)-equivariant message-passing networks operating on combinatorial complexes, formal objects unifying graphs, hypergraphs, simplicial, path, and cell complexes. ETNNs incorporate geometric node features while respecting rotation and translation equivariance. Moreover, ETNNs are natively ready for settings with heterogeneous interactions. We provide a theoretical analysis to show the improved expressiveness of ETNNs over architectures for geometric graphs. We also show how several E(n) equivariant variants of TDL models can be directly derived from our framework. The broad applicability of ETNNs is demonstrated through two tasks of vastly different nature: i) molecular property prediction on the QM9 benchmark and ii) land-use regression for hyper-local estimation of air pollution with multi-resolution irregular geospatial data. The experiment results indicate that ETNNs are an effective tool for learning from diverse types of richly structured data, highlighting the benefits of principled geometric inductive bias.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# R.A.C.E.:セキュアテキスト・画像拡散モデルのためのロバスト対逆的概念消去

R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model ( http://arxiv.org/abs/2405.16341v2 )

ライセンス: Link先を確認
Changhoon Kim, Kyle Min, Yezhou Yang, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデル(英語版)の進化する状況において、テキスト記述から高品質な画像を生成する顕著な能力は、センシティブなコンテンツを再現する潜在的な誤用に直面する。 この重要な問題に対処するために、T2Iモデルの概念消去手法の堅牢性を高め、これらのリスクを軽減するために設計された新しいアプローチである、 \textbf{R}obust \textbf{A}dversarial \textbf{C}oncept \textbf{E}rase (RACE)を導入する。 RACEは、高度な敵の訓練フレームワークを使用して、敵のテキスト埋め込みを特定し、軽減し、アタック成功率(ASR)を著しく低減する。 印象的なことに、RASは主要なホワイトボックス攻撃法に対して '`nudity'' という概念に対して、ASRの30パーセントの削減を実現している。 広範に評価したところ、RASはホワイトボックスとブラックボックスの両方の攻撃を防御する効果を示し、T2I拡散モデルが不適切な画像や誤解を招くことを防いでいる。 この研究は、急速に進行する敵の課題に適応する上で、積極的な防衛措置の必要性を浮き彫りにしている。 私たちのコードは公開されています。 \url{https://github.com/chkimmmmm/R.A.C.E.}

In the evolving landscape of text-to-image (T2I) diffusion models, the remarkable capability to generate high-quality images from textual descriptions faces challenges with the potential misuse of reproducing sensitive content. To address this critical issue, we introduce \textbf{R}obust \textbf{A}dversarial \textbf{C}oncept \textbf{E}rase (RACE), a novel approach designed to mitigate these risks by enhancing the robustness of concept erasure method for T2I models. RACE utilizes a sophisticated adversarial training framework to identify and mitigate adversarial text embeddings, significantly reducing the Attack Success Rate (ASR). Impressively, RACE achieves a 30 percentage point reduction in ASR for the ``nudity'' concept against the leading white-box attack method. Our extensive evaluations demonstrate RACE's effectiveness in defending against both white-box and black-box attacks, marking a significant advancement in protecting T2I diffusion models from generating inappropriate or misleading imagery. This work underlines the essential need for proactive defense measures in adapting to the rapidly advancing field of adversarial challenges. Our code is publicly available: \url{https://github.com/chkimmmmm/R.A.C.E.}
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 分数チャーン絶縁体の結晶不変量

Crystalline invariants of fractional Chern insulators ( http://arxiv.org/abs/2405.17431v2 )

ライセンス: Link先を確認
Ryohei Kobayashi, Yuxuan Zhang, Naren Manjunath, Maissam Barkeshli, (参考訳) 結晶対称性の存在下では、位相的に順序付けられた状態は対称性で保護された不変量のホストを取得することができる。 これらは、格子欠陥に対する分数量化応答に加えて、エノンの結晶対称性の分数化のパターンを決定する。 ここでは、高対称性点を中心とする部分回転の基底状態期待値を用いて結晶不変量を抽出する方法を示す。 共形場理論とG-交叉テンソル圏の手法を用いて、部分回転から得られる不変量の理論を開発し、アベリアおよび非アベリア位相順序の両方に適用する。 次に、分数チャーン絶縁体の射影パルトン波関数に対するモンテカルロの数値計算を行い、理論と数値の間の顕著な一致を示す。 位相的順序を考えると、ホール導電率、充填率、部分回転不変量は系の結晶不変量を完全に特徴づけていることが示される。 この結果はまた、空間回転対称性によって保護された連続分数量子ホール状態の不変量も得られる。

In the presence of crystalline symmetry, topologically ordered states can acquire a host of symmetry-protected invariants. These determine the patterns of crystalline symmetry fractionalization of the anyons in addition to fractionally quantized responses to lattice defects. Here we show how ground state expectation values of partial rotations centered at high symmetry points can be used to extract crystalline invariants. Using methods from conformal field theory and G-crossed braided tensor categories, we develop a theory of invariants obtained from partial rotations, which apply to both Abelian and non-Abelian topological orders. We then perform numerical Monte Carlo calculations for projected parton wave functions of fractional Chern insulators, demonstrating remarkable agreement between theory and numerics. For the topological orders we consider, we show that the Hall conductivity, filling fraction, and partial rotation invariants fully characterize the crystalline invariants of the system. Our results also yield invariants of continuum fractional quantum Hall states protected by spatial rotational symmetry.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# データセットの成長

Dataset Growth ( http://arxiv.org/abs/2405.18347v2 )

ライセンス: Link先を確認
Ziheng Qin, Zhaopan Xu, Yukun Zhou, Zangwei Zheng, Zebang Cheng, Hao Tang, Lei Shang, Baigui Sun, Xiaojiang Peng, Radu Timofte, Hongxun Yao, Kai Wang, Yang You, (参考訳) ディープラーニングは、利用可能なデータの豊富さから恩恵を受ける。 一方、データスケールの増大に効率よく対処することが課題となっている。 公開されているデータは様々な品質の異なるソースから提供されており、今日のデータスケールによって、ノイズや冗長性に対して手動でクリーニングを行うことは現実的ではない。 収集したデータのクリーニング/選択には、既存の技術がある。 しかし、これらの手法は主に、クリーンネスと冗長性の問題の1つをターゲットにしたオフライン設定のために提案されている。 実際には、データは両方の問題で指数関数的に増加しています。 これにより、データキュレーションの繰り返しが、最適以下の効率で行われます。 この課題に対処するために、データクリーニングと選択のための効率的なオンラインアルゴリズムであるInfoGrowthを提案する。 InfoGrowthは、効率的でスケーラブルな設計で、シングルモーダルタスクとマルチモーダルタスクの両方のデータ品質/効率を改善することができる。 そのフレームワークは現実世界のデータエンジンに実用的だ。

Deep learning benefits from the growing abundance of available data. Meanwhile, efficiently dealing with the growing data scale has become a challenge. Data publicly available are from different sources with various qualities, and it is impractical to do manual cleaning against noise and redundancy given today's data scale. There are existing techniques for cleaning/selecting the collected data. However, these methods are mainly proposed for offline settings that target one of the cleanness and redundancy problems. In practice, data are growing exponentially with both problems. This leads to repeated data curation with sub-optimal efficiency. To tackle this challenge, we propose InfoGrowth, an efficient online algorithm for data cleaning and selection, resulting in a growing dataset that keeps up to date with awareness of cleanliness and diversity. InfoGrowth can improve data quality/efficiency on both single-modal and multi-modal tasks, with an efficient and scalable design. Its framework makes it practical for real-world data engines.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 進化的手法によるシャープ境界誤差多項式時間問題の解法

Solving Sharp Bounded-error Quantum Polynomial Time Problem by Evolution methods ( http://arxiv.org/abs/2406.03222v2 )

ライセンス: Link先を確認
Zhen Guo, Li You, (参考訳) 局所ハミルトニアンの基底状態の縮退は、物理学の多くの分野において重要である。 その複雑性は、シャープな有界エラー量子多項式時間(#BQP)クラスの問題に属し、その解法で知られている方法はほとんどない。 一方、$k$-局所ハミルトニアン(英語版)の基底状態を見つけることは、多くの効率的な方法が存在する量子メルリン・アーサー(英語版)(Quantum Merlin Arthur, QMA)クラスのより簡単な問題である。 そこで本研究では,#BQP問題を局所ハミルトニアンの特別な基底状態の1つにマッピングするアルゴリズムを提案する。 ハミルトン関数の関数の下でQMA問題を解く従来の手法は、よく設計された初期状態から特別な基底状態を見つけるのに利用できるので、#BQP問題を解くことができる。 本稿では, 位相境界の検出, フラストレーションと量子ゆらぎの競合, 量子回路の潜在的な実装について述べる。

Counting ground state degeneracy of a $k$-local Hamiltonian is important in many fields of physics. Its complexity belongs to the problem of sharp bounded-error quantum polynomial time (#BQP) class and few methods are known for its solution. Finding ground states of a $k$-local Hamiltonian, on the other hand, is an easier problem of Quantum Merlin Arthur (QMA) class, for which many efficient methods exist. In this work, we propose an algorithm of mapping a #BQP problem into one of finding a special ground state of a $k$-local Hamiltonian. We prove that all traditional methods, which solve the QMA problem by evolution under a function of a Hamiltonian, can be used to find the special ground state from a well-designed initial state, thus can solve the #BQP problem. We combine our algorithm with power method, Lanczos method, and quantum imaginary time evolution method for different systems to illustrate the detection of phase boundaries, competition between frustration and quantum fluctuation, and potential implementations with quantum circuits.
翻訳日:2024-07-24 22:24:06 公開日:2024-07-23
# 効率的なファインタニングによる時間知覚知識の編集

Time Sensitive Knowledge Editing through Efficient Finetuning ( http://arxiv.org/abs/2406.04496v2 )

ライセンス: Link先を確認
Xiou Ge, Ali Mousavi, Edouard Grave, Armand Joulin, Kun Qian, Benjamin Han, Mostafa Arefiyan, Yunyao Li, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示し、多くのドメインに変革をもたらす。 しかし、LLMの知識を最新に保つことは、事前訓練が完了すると難しい課題である。 したがって、旧来の知識を更新し、LLMに新しい知識を誘導する効果的な手法を設計することが不可欠である。 既存の位置と編集の知識編集(KE)手法には2つの制限がある。 第一に、そのような手法による後LSMは、一般にマルチホップ推論を必要とする複雑なクエリに答える能力が乏しい。 第二に、知識編集を行うような位置・編集手法の長時間実行は、実際に大規模なKEでは不可能である。 本稿では,KE の代替としてパラメータ効率の良いファインチューニング (PEFT) 技術について検討する。 我々は、KEパフォーマンスベンチマークのための知識更新と知識注入の例で、より包括的な時間的KEデータセットをキュレートする。 さらに,マルチホップQAタスクにおけるLLMの層幅に対する微調整の効果について検討する。 PEFTは時間に敏感な知識編集のための位置・編集技術よりも優れていることがわかった。

Large Language Models (LLMs) have demonstrated impressive capability in different tasks and are bringing transformative changes to many domains. However, keeping the knowledge in LLMs up-to-date remains a challenge once pretraining is complete. It is thus essential to design effective methods to both update obsolete knowledge and induce new knowledge into LLMs. Existing locate-and-edit knowledge editing (KE) method suffers from two limitations. First, the post-edit LLMs by such methods generally have poor capability in answering complex queries that require multi-hop reasoning. Second, the long run-time of such locate-and-edit methods to perform knowledge edits make it infeasible for large scale KE in practice. In this paper, we explore Parameter-Efficient Fine-Tuning (PEFT) techniques as an alternative for KE. We curate a more comprehensive temporal KE dataset with both knowledge update and knowledge injection examples for KE performance benchmarking. We further probe the effect of fine-tuning on a range of layers in an LLM for the multi-hop QA task. We find that PEFT performs better than locate-and-edit techniques for time-sensitive knowledge edits.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# MPSDynamics.jl:有限温度(非マルコフ)開量子系のテンソルネットワークシミュレーション

MPSDynamics.jl: Tensor network simulations for finite-temperature (non-Markovian) open quantum system dynamics ( http://arxiv.org/abs/2406.07052v2 )

ライセンス: Link先を確認
Thibaut Lacroix, Brieuc Le Dé, Angela Riva, Angus J. Dunnett, Alex W. Chin, (参考訳) MPSDynamics.jlパッケージは、ゼロ温度と有限温度でオープン量子システムシミュレーションを実行するための使いやすいインターフェースを提供する。 このパッケージは、環境連鎖マッピングに基づくオルソノーマル多項式アルゴリズム(T-TEDOPA)を用いた、最先端の数値的高精度熱化時間進化密度演算子を用いて、非マルコフ開系力学の研究を目的として開発されている。 シミュレーションは、行列積状態 (MPS) とツリーテンソルネットワーク (TTN) 状態として量子状態のテンソルネットワーク表現に依存している。 Juliaプログラミング言語で書かれたMPSDynamics.jlは、時間進化のためのTDVP(Time-Dependent Variational Principle)のいくつかの変種を選択できる汎用的なオープンソースパッケージである。 このパッケージは、シングル・サイト・オブザーバブルとマルチ・サイト・オブザーバブルの測定、データの保存とロギングの強力なサポートも提供しており、多体物理学の研究に有用なツールとなっている。 現在、長距離の相互作用、時間依存のハミルトン、複数の環境、ボソニックおよびフェルミオン環境、および連星系環境観測装置を扱っている。

The MPSDynamics.jl package provides an easy to use interface for performing open quantum systems simulations at zero and finite temperatures. The package has been developed with the aim of studying non-Markovian open system dynamics using the state-of-the-art numerically exact Thermalized-Time Evolving Density operator with Orthonormal Polynomials Algorithm (T-TEDOPA) based on environment chain mapping. The simulations rely on a tensor network representation of the quantum states as matrix product states (MPS) and tree tensor network (TTN) states. Written in the Julia programming language, MPSDynamics.jl is a versatile open-source package providing a choice of several variants of the Time-Dependent Variational Principle (TDVP) method for time evolution (including novel bond-adaptive one-site algorithms). The package also provides strong support for the measurement of single and multi-site observables, as well as the storing and logging of data, which makes it a useful tool for the study of many-body physics. It currently handles long-range interactions, time-dependent Hamiltonians, multiple environments, bosonic and fermionic environments, and joint system-environment observables.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# 深層学習によるセンサー融合は幼児運動の分類を促進する

Deep learning empowered sensor fusion boosts infant movement classification ( http://arxiv.org/abs/2406.09014v4 )

ライセンス: Link先を確認
Tomas Kulvicius, Dajie Zhang, Luise Poustka, Sven Bölte, Lennart Jahn, Sarah Flügge, Marc Kraft, Markus Zweckstetter, Karin Nielsen-Saines, Florentin Wörgötter, Peter B Marschik, (参考訳) 確立した臨床ツールの診断手順を容易にし、強化するためのAIソリューションの開発が最近ブームになっている。 発達期神経系の完全性を評価するため,幼児期における神経障害の診断における臨床的意義として,プレヒト運動評価(GMA)が認められている。 GMAは、その応用を拡大し、人間のアセスメントのトレーニングにおけるコストを回避し、自発的な運動パターンの分類を標準化しようとする機械学習アプローチを通じて、ますます強化されている。 利用可能なディープラーニングツールは、いずれも単一センサーのモダリティに基づいているが、しかしながら、十分に訓練された人間の評価ツールよりもかなり劣っている。 これらのアプローチは、すべてのモデルがプロプライエタリ/サイロデータセットで設計、訓練、評価されるのとほぼ同等である。 本研究は,3つの異なるセンサモード(圧力,慣性,視覚センサ)を比較し,FM(Fidgety Movement)を評価するためのセンサ融合手法を提案する。 乳幼児運動分類のための様々な組み合わせと2つのセンサフュージョンアプローチ(後期および初期融合)を試験し、マルチセンサーシステムが単一モダリティ評価を上回っているかどうかを検証した。 乳児の運動パターンを自動分類する手段としては, センサフュージョンアプローチが有望な方法であることを示唆し, 3センサフュージョンの性能(分類精度94.5\%)はどの単一モードよりも有意に高かった。 堅牢なセンサー融合システムの開発は、AIによる神経機能の初期認識を著しく向上させ、最終的には神経発達状態の自動早期検出を容易にする。

There is a recent boom in the development of AI solutions to facilitate and enhance diagnostic procedures for established clinical tools. To assess the integrity of the developing nervous system, the Prechtl general movement assessment (GMA) is recognized for its clinical value in diagnosing neurological impairments in early infancy. GMA has been increasingly augmented through machine learning approaches intending to scale-up its application, circumvent costs in the training of human assessors and further standardize classification of spontaneous motor patterns. Available deep learning tools, all of which are based on single sensor modalities, are however still considerably inferior to that of well-trained human assessors. These approaches are hardly comparable as all models are designed, trained and evaluated on proprietary/silo-data sets. With this study we propose a sensor fusion approach for assessing fidgety movements (FMs) comparing three different sensor modalities (pressure, inertial, and visual sensors). Various combinations and two sensor fusion approaches (late and early fusion) for infant movement classification were tested to evaluate whether a multi-sensor system outperforms single modality assessments. The performance of the three-sensor fusion (classification accuracy of 94.5\%) was significantly higher than that of any single modality evaluated, suggesting the sensor fusion approach is a promising avenue for automated classification of infant motor patterns. The development of a robust sensor fusion system may significantly enhance AI-based early recognition of neurofunctions, ultimately facilitating automated early detection of neurodevelopmental conditions.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# CheMFi: 分子の量子化学特性の多値データセット

CheMFi: A Multifidelity Dataset of Quantum Chemical Properties of Diverse Molecules ( http://arxiv.org/abs/2406.14149v2 )

ライセンス: Link先を確認
Vivin Vinod, Peter Zaspel, (参考訳) 機械学習(ML)と量子化学(QC)の両方の手法の進歩は、QC特性に対する高精度なMLモデルをもたらす。 MD17やWS22のようなデータセットは、選択したQCメソッドの精度を示すある種のQCメソッドや忠実度でこれらのモデルをベンチマークするために使われてきた。 MFML(Multifidelity ML)法では、モデルが複数の忠実度からのデータに基づいて訓練され、単一の忠実度法よりも効果的であることが示されている。 この方向にはエネルギーバンドギャップから励起エネルギーまで様々な用途で多くの研究が進められている。 ここで効果的な研究のハードルの1つは、ベンチマークのための多様なマルチフィデリティデータセットの欠如である。 我々は、TD-DFT形式で計算された5つのフィデリティからなる量子化学マルチフィデリティ(CheMFi)データセットを提供する。 STO-3G, 3-21G, 6-31G, def2-SVP, def2-TZVP。 CheMFiは、垂直励起特性や分子双極子モーメントなどの様々なQC特性をコミュニティに提供し、QC計算時間を含め、ML-QCの多重忠実度モデルのタイムベネフィットベンチマークを可能にする。

Progress in both Machine Learning (ML) and Quantum Chemistry (QC) methods have resulted in high accuracy ML models for QC properties. Datasets such as MD17 and WS22 have been used to benchmark these models at some level of QC method, or fidelity, which refers to the accuracy of the chosen QC method. Multifidelity ML (MFML) methods, where models are trained on data from more than one fidelity, have shown to be effective over single fidelity methods. Much research is progressing in this direction for diverse applications ranging from energy band gaps to excitation energies. One hurdle for effective research here is the lack of a diverse multifidelity dataset for benchmarking. We provide the quantum Chemistry MultiFidelity (CheMFi) dataset consisting of five fidelities calculated with the TD-DFT formalism. The fidelities differ in their basis set choice: STO-3G, 3-21G, 6-31G, def2-SVP, and def2-TZVP. CheMFi offers to the community a variety of QC properties such as vertical excitation properties and molecular dipole moments, further including QC computation times allowing for a time benefit benchmark of multifidelity models for ML-QC.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# MedMNIST-C: 画像の現実的破壊をシミュレートした総合的ベンチマークと分類器の堅牢性の改善

MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions ( http://arxiv.org/abs/2406.17536v3 )

ライセンス: Link先を確認
Francesco Di Salvo, Sebastian Doerrich, Christian Ledig, (参考訳) 神経ネットワークに基づくシステムの臨床実践への統合は、ドメインの一般化と堅牢性に関連する課題によって制限される。 コンピュータビジョンコミュニティは、これらの課題に対する進捗を測定するための基本的な前提条件として、ImageNet-Cのようなベンチマークを確立した。 同様のデータセットは、画像のモダリティや応用にまたがる包括的なベンチマークが欠如している医療画像コミュニティでは、ほとんど欠落している。 このギャップに対処するため、私たちはMedMNIST+コレクションに基づくベンチマークデータセットであるMedMNIST-Cをオープンソースとして公開した。 実世界の成果物や分布変化に対する確立されたアルゴリズムの頑健さを包括的に評価するため,タスクやモダリティに特有な画像の破損をシミュレートする。 さらに、簡単な人工汚職により、高性能で軽量なデータ拡張がモデルロバスト性を高めることができるという定量的証拠も提供します。 従来の汎用的な拡張戦略とは異なり、我々のアプローチはドメイン知識を活用し、広く採用されている手法と比較して、はるかに高い堅牢性を示す。 MedMNIST-Cを導入し,対象とするデータ拡張を可能にするライブラリをオープンソース化することにより,医用画像の課題に適したロバストな手法の開発に寄与する。 コードはhttps://github.com/francescodisalvo05/medmnistc-api で公開されている。

The integration of neural-network-based systems into clinical practice is limited by challenges related to domain generalization and robustness. The computer vision community established benchmarks such as ImageNet-C as a fundamental prerequisite to measure progress towards those challenges. Similar datasets are largely absent in the medical imaging community which lacks a comprehensive benchmark that spans across imaging modalities and applications. To address this gap, we create and open-source MedMNIST-C, a benchmark dataset based on the MedMNIST+ collection covering 12 datasets and 9 imaging modalities. We simulate task and modality-specific image corruptions of varying severity to comprehensively evaluate the robustness of established algorithms against real-world artifacts and distribution shifts. We further provide quantitative evidence that our simple-to-use artificial corruptions allow for highly performant, lightweight data augmentation to enhance model robustness. Unlike traditional, generic augmentation strategies, our approach leverages domain knowledge, exhibiting significantly higher robustness when compared to widely adopted methods. By introducing MedMNIST-C and open-sourcing the corresponding library allowing for targeted data augmentations, we contribute to the development of increasingly robust methods tailored to the challenges of medical imaging. The code is available at https://github.com/francescodisalvo05/medmnistc-api .
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# カテゴリーからシーンへ:ビデオにおけるマルチパーソン・ヒューマン・オブジェクトのインタラクション認識のためのエンドツーエンドフレームワーク

From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos ( http://arxiv.org/abs/2407.00917v2 )

ライセンス: Link先を確認
Tanqiu Qiao, Ruochen Li, Frederick W. B. Li, Hubert P. H. Shum, (参考訳) ビデオに基づくヒューマンオブジェクトインタラクション(HOI)認識は、人間の行動や意図の包括的理解に不可欠である、人間とオブジェクトの間の複雑なダイナミクスを探索する。 これまでの研究は大きな進歩を遂げてきたが、グラフフレームワークにおける人間とオブジェクトの動的関係をモデル化するために、幾何学的特徴と視覚的特徴を効果的に統合することは、依然として課題である。 本研究では,各カテゴリの幾何学的特徴をそれぞれグラフで生成し,それに対応する視覚的特徴と融合させることで,シーンフレームワークCATSの新たなエンドツーエンドカテゴリを提案する。 次に,これらの拡張幾何学的視覚的特徴をノードとして配置し,人間とオブジェクトのカテゴリ間の関係を学習する。 この方法論の進歩は、より深く、より構造化された相互作用の理解を促進する。 提案手法は,MPHOI-72データセットとHOI CAD-120データセットを含む2種類のHOIベンチマークにおける最先端性能を示す。

Video-based Human-Object Interaction (HOI) recognition explores the intricate dynamics between humans and objects, which are essential for a comprehensive understanding of human behavior and intentions. While previous work has made significant strides, effectively integrating geometric and visual features to model dynamic relationships between humans and objects in a graph framework remains a challenge. In this work, we propose a novel end-to-end category to scenery framework, CATS, starting by generating geometric features for various categories through graphs respectively, then fusing them with corresponding visual features. Subsequently, we construct a scenery interactive graph with these enhanced geometric-visual features as nodes to learn the relationships among human and object categories. This methodological advance facilitates a deeper, more structured comprehension of interactions, bridging category-specific insights with broad scenery dynamics. Our method demonstrates state-of-the-art performance on two pivotal HOI benchmarks, including the MPHOI-72 dataset for multi-person HOIs and the single-person HOI CAD-120 dataset.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# SINKT:大規模言語モデルを用いた構造認識帰納的知識追跡モデル

SINKT: A Structure-Aware Inductive Knowledge Tracing Model with Large Language Model ( http://arxiv.org/abs/2407.01245v2 )

ライセンス: Link先を確認
Lingyue Fu, Hao Guan, Kounianhua Du, Jianghao Lin, Wei Xia, Weinan Zhang, Ruiming Tang, Yasheng Wang, Yong Yu, (参考訳) 知識追跡(KT)は,知的学習システム(ITS)において重要な課題である次の質問に対して,学生が正しく回答するかどうかを判断することを目的としている。 教育的なKTのシナリオでは、トランスダクティブIDベースの手法は、個々の学生と質問の間の相互作用が不十分で、新しい質問や概念がデータベースに一貫して現れる、厳しいデータ空間とコールドスタートの問題に直面することが多い。 さらに、既存のKTモデルは、概念と疑問の間の相関を暗黙的にのみ考慮し、概念と疑問の不均一グラフにおけるより複雑な関係の直接的なモデリングを欠いている。 本稿では,大規模言語モデル(SINKT)を用いた構造認識型帰納的知識追跡モデルを提案する。 まず、SINKTはLLMを用いて概念間の構造的関係を導入し、概念と疑問のための異種グラフを構築する。 第二に、概念と質問をLLMでエンコードすることで、SINKTは意味情報を組み込んで予測を支援する。 最後に、SINKTは、学生の知識状態と質問表現とを相互作用させることで、対象の質問に対する学生の反応を予測する。 4つの実世界のデータセットの実験は、SINKTが既存の12のKTモデルの中で最先端のパフォーマンスを達成することを示した。 さらに、帰納的KTタスクにおけるSINKTの性能について検討し、様々なモジュールに対する洞察を提供する。

Knowledge Tracing (KT) aims to determine whether students will respond correctly to the next question, which is a crucial task in intelligent tutoring systems (ITS). In educational KT scenarios, transductive ID-based methods often face severe data sparsity and cold start problems, where interactions between individual students and questions are sparse, and new questions and concepts consistently arrive in the database. In addition, existing KT models only implicitly consider the correlation between concepts and questions, lacking direct modeling of the more complex relationships in the heterogeneous graph of concepts and questions. In this paper, we propose a Structure-aware Inductive Knowledge Tracing model with large language model (dubbed SINKT), which, for the first time, introduces large language models (LLMs) and realizes inductive knowledge tracing. Firstly, SINKT utilizes LLMs to introduce structural relationships between concepts and constructs a heterogeneous graph for concepts and questions. Secondly, by encoding concepts and questions with LLMs, SINKT incorporates semantic information to aid prediction. Finally, SINKT predicts the student's response to the target question by interacting with the student's knowledge state and the question representation. Experiments on four real-world datasets demonstrate that SINKT achieves state-of-the-art performance among 12 existing transductive KT models. Additionally, we explore the performance of SINKT on the inductive KT task and provide insights into various modules.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# 適応器による知識グラフを用いた低リソース言語への多言語LLMの適用

Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters ( http://arxiv.org/abs/2407.01406v2 )

ライセンス: Link先を確認
Daniil Gurgurov, Mareike Hartmann, Simon Ostermann, (参考訳) 本稿では,言語オントロジーから多言語大言語モデル (LLM) へのグラフ知識の統合を,低リソース言語 (LRL) における感情分析 (SA) と名前付きエンティティ認識 (NER) の性能向上のためにアダプタを用いて検討する。 K-ADAPTERやMAD-Xといったパラメータ効率の高い微調整手法を成功裏に構築し、多言語グラフから知識を取り入れ、言語関係を通じて様々な言語の概念をLRLの多言語LLMに結合する同様の手法を提案する。 具体的には、マルタ語、ブルガリア語、インドネシア語、ネパール語、ジャワ語、ウイグル語、チベット語、シンハラの8つのLRLに注目し、ConceptNetの言語固有のセクションから抽出されたデータに基づいて微調整された言語固有のアダプタを採用し、知識グラフがカバーする言語間の知識伝達を可能にすることを目的としています。 本稿では,MLM(Masked Language Modeling)やフルワードマスキングによるMLM,ターゲットマスキングによるMLMなど,さまざまな微調整目標を比較して,抽出したグラフデータを学習・統合する上での有効性について分析する。 言語固有のタスクに対する経験的評価を通じて、構造化グラフ知識が、SAおよびNERにおけるLRLにおける多言語LLMの性能にどのように影響するかを評価し、低リソースシナリオに対する言語モデルの適用の可能性について考察する。

This paper explores the integration of graph knowledge from linguistic ontologies into multilingual Large Language Models (LLMs) using adapters to improve performance for low-resource languages (LRLs) in sentiment analysis (SA) and named entity recognition (NER). Building upon successful parameter-efficient fine-tuning techniques, such as K-ADAPTER and MAD-X, we propose a similar approach for incorporating knowledge from multilingual graphs, connecting concepts in various languages with each other through linguistic relationships, into multilingual LLMs for LRLs. Specifically, we focus on eight LRLs -- Maltese, Bulgarian, Indonesian, Nepali, Javanese, Uyghur, Tibetan, and Sinhala -- and employ language-specific adapters fine-tuned on data extracted from the language-specific section of ConceptNet, aiming to enable knowledge transfer across the languages covered by the knowledge graph. We compare various fine-tuning objectives, including standard Masked Language Modeling (MLM), MLM with full-word masking, and MLM with targeted masking, to analyse their effectiveness in learning and integrating the extracted graph data. Through empirical evaluation on language-specific tasks, we assess how structured graph knowledge affects the performance of multilingual LLMs for LRLs in SA and NER, providing insights into the potential benefits of adapting language models for low-resource scenarios.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# FineCLIPER: 動的顔表情認識のためのマルチモーダルきめ細かなCLIP

FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs ( http://arxiv.org/abs/2407.02157v2 )

ライセンス: Link先を確認
Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao, (参考訳) 動的表情認識(DFER)は人間の行動を理解する上で重要である。 しかし, 現状の手法は, 高品質なデータの不足, 顔力学の不十分な利用, 表現意味論の曖昧さなどにより, 限られた性能を示す。 この目的のために, 動的顔表情認識のためのマルチモーダルきめ細かなCLIP(FineCLIPER)を提案する。 1)類似の表情をよりよく区別するために,CLIPモデルに基づく相互類似性を計算することにより,クラスラベルを肯定的・否定的両面からテキスト記述に拡張し,監督する。 2)FineCLIPERはDFEビデオから有用な手がかりを効果的にマイニングするために階層的手法を採用している。 具体的には,映像フレームを直接入力(セマンティックレベル)として埋め込む以外に,各フレーム(ミドルセマンティックレベル)に基づいて顔分割マスクやランドマークを抽出し,多モード大言語モデル(MLLM)を用いて,設計したプロンプト(ハイセマンティックレベル)を用いてフレーム間の顔変化の詳細な記述を生成することを提案する。 さらに,パラメータ効率の良いファインチューニング(PEFT)を採用して,大規模事前学習モデル(CLIP)を効率的に適用できるようにする。 我々はDFEW,FERV39k,MAFWの各データセットに対して,調整可能なパラメータがほとんどない教師付きおよびゼロショット設定でSOTA性能を実現する。 Project Page: https://haroldchen19.github.io/FineCLIPER-Page/

Dynamic Facial Expression Recognition (DFER) is crucial for understanding human behavior. However, current methods exhibit limited performance mainly due to the scarcity of high-quality data, the insufficient utilization of facial dynamics, and the ambiguity of expression semantics, etc. To this end, we propose a novel framework, named Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs (FineCLIPER), incorporating the following novel designs: 1) To better distinguish between similar facial expressions, we extend the class labels to textual descriptions from both positive and negative aspects, and obtain supervision by calculating the cross-modal similarity based on the CLIP model; 2) Our FineCLIPER adopts a hierarchical manner to effectively mine useful cues from DFE videos. Specifically, besides directly embedding video frames as input (low semantic level), we propose to extract the face segmentation masks and landmarks based on each frame (middle semantic level) and utilize the Multi-modal Large Language Model (MLLM) to further generate detailed descriptions of facial changes across frames with designed prompts (high semantic level). Additionally, we also adopt Parameter-Efficient Fine-Tuning (PEFT) to enable efficient adaptation of large pre-trained models (i.e., CLIP) for this task. Our FineCLIPER achieves SOTA performance on the DFEW, FERV39k, and MAFW datasets in both supervised and zero-shot settings with few tunable parameters. Project Page: https://haroldchen19.github.io/FineCLIPER-Page/
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# クロスモーダル・ポイント・クラウド・コンプリートのための明示的ガイド付き情報対話ネットワーク

Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion ( http://arxiv.org/abs/2407.02887v3 )

ライセンス: Link先を確認
Hang Xu, Chen Long, Wenxiao Zhang, Yuan Liu, Zhen Cao, Zhen Dong, Bisheng Yang, (参考訳) 本稿では,ビュー誘導ポイントクラウドコンプリート(ViPC)タスクのモデルであるEGIInet(Explicitly Guided Information Interaction Network)について検討する。 入力画像のグローバルなセマンティクスに依存する従来の手法と比較して、EGIInetは、完成タスクの幾何学的性質を活用して、2つのモードからの情報を効率的に組み合わせている。 具体的には、ポイントクラウド完了のためのモーダルアライメントをサポートする、明示的にガイドされた情報インタラクション戦略を提案する。 まず, 2D と 3D のバックボーンを使ってそれぞれ特徴を符号化する従来の手法とは対照的に,符号化処理を統一してモーダルアライメントを促進する。 第2に,ネットワークが画像内の重要な情報を識別する上で有効な情報インタラクション戦略を提案する。 我々は,従来の手法に比べてパラメータが少ないにもかかわらず,ベンチマークデータセットに新たな最先端(+16% CD over XMFnet)を達成した。 事前訓練されたモデルとコードはhttps://github.com/WHU-USI3DV/EGIInetで入手できる。

In this paper, we explore a novel framework, EGIInet (Explicitly Guided Information Interaction Network), a model for View-guided Point cloud Completion (ViPC) task, which aims to restore a complete point cloud from a partial one with a single view image. In comparison with previous methods that relied on the global semantics of input images, EGIInet efficiently combines the information from two modalities by leveraging the geometric nature of the completion task. Specifically, we propose an explicitly guided information interaction strategy supported by modal alignment for point cloud completion. First, in contrast to previous methods which simply use 2D and 3D backbones to encode features respectively, we unified the encoding process to promote modal alignment. Second, we propose a novel explicitly guided information interaction strategy that could help the network identify critical information within images, thus achieving better guidance for completion. Extensive experiments demonstrate the effectiveness of our framework, and we achieved a new state-of-the-art (+16% CD over XMFnet) in benchmark datasets despite using fewer parameters than the previous methods. The pre-trained model and code and are available at https://github.com/WHU-USI3DV/EGIInet.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# Probing Perfection: Human-AI Collaboration-based Active Learning Method を用いたHRCTからの肺気道分画に対するメドリング法

Probing Perfection: The Relentless Art of Meddling for Pulmonary Airway Segmentation from HRCT via a Human-AI Collaboration Based Active Learning Method ( http://arxiv.org/abs/2407.03542v2 )

ライセンス: Link先を確認
Shiyi Wang, Yang Nan, Sheng Zhang, Federico Felder, Xiaodan Xing, Yingying Fang, Javier Del Ser, Simon L F Walsh, Guang Yang, (参考訳) 肺気管セグメンテーションでは,アノテートデータの不足が医学的セグメンテーションにおいて大きな問題となっている。 さらに、Deep Learning(DL)メソッドは、'ブラックボックス'モデルの不透明さとパフォーマンス向上の必要性という課題に直面している。 我々のHCIベースのモデル(RS_UNet、LC_UNet、UUNet、WD_UNet)は、様々なDLモデルと多様なクエリ戦略を組み合わせることでこれらの課題に対処する。 1) クエリ戦略: HCIモデルは、各イテレーションにラベル付けされたときに最も追加の代表的な情報を提供するサンプルを選択し、Wasserstein Distance、Last Confidence、Entropy Sampling、Random Samplingを使って、最も予測上の相違点のあるラベル付けされていないサンプルを識別する。 2) 中央線補正: 各訓練ラウンドにおいて, システム生成気管中央線を専門的に補正するために, 選択標本を用いる。 (3) 更新トレーニングデータセット: 各DLモデルのトレーニングエポック後のトレーニングデータセットを更新し、モデルの信頼性とパフォーマンスを高める。 (4) モデルトレーニング: HCIモデルは更新データセットと拡張されたUNetバージョンを使用してトレーニングされる。 WD-UNet、LC-UNet、UUNet、RS-UNetは、最先端のDLモデルに匹敵する、あるいは優れた性能を発揮することを示す。 特に、WD-UNetはトレーニングデータのわずか15%-35%でこれを達成し、医師のアノテーション時間を65%-85%削減した。

In pulmonary tracheal segmentation, the scarcity of annotated data is a prevalent issue in medical segmentation. Additionally, Deep Learning (DL) methods face challenges: the opacity of 'black box' models and the need for performance enhancement. Our Human-Computer Interaction (HCI) based models (RS_UNet, LC_UNet, UUNet, and WD_UNet) address these challenges by combining diverse query strategies with various DL models. We train four HCI models and repeat these steps: (1) Query Strategy: The HCI models select samples that provide the most additional representative information when labeled in each iteration and identify unlabeled samples with the greatest predictive disparity using Wasserstein Distance, Least Confidence, Entropy Sampling, and Random Sampling. (2) Central line correction: Selected samples are used for expert correction of system-generated tracheal central lines in each training round. (3) Update training dataset: Experts update the training dataset after each DL model's training epoch, enhancing the trustworthiness and performance of the models. (4) Model training: The HCI model is trained using the updated dataset and an enhanced UNet version. Experimental results confirm the effectiveness of these HCI-based approaches, showing that WD-UNet, LC-UNet, UUNet, and RS-UNet achieve comparable or superior performance to state-of-the-art DL models. Notably, WD-UNet achieves this with only 15%-35% of the training data, reducing physician annotation time by 65%-85%.
翻訳日:2024-07-24 22:14:13 公開日:2024-07-23
# 姿勢:人体部分分割のための教師なしドメイン適応法

POSTURE: Pose Guided Unsupervised Domain Adaptation for Human Body Part Segmentation ( http://arxiv.org/abs/2407.03549v2 )

ライセンス: Link先を確認
Arindam Dutta, Rohit Lal, Yash Garg, Calvin-Khang Ta, Dripta S. Raychaudhuri, Hannah Dela Cruz, Amit K. Roy-Chowdhury, (参考訳) 人体部分分割のための既存のアルゴリズムは、主にエンドツーエンドの監視に依存する、挑戦的なデータセットに対して有望な結果を示している。 しかし、これらのアルゴリズムはドメインシフトに直面して厳しい性能低下を示し、不正確なセグメンテーションマスクをもたらす。 この問題を解決するために、POSTURE: \underline{Po}se Guided Un\underline{s}upervised Domain Adap\underline{t}ation for H\underline{u}man Body Pa\underline{r}t S\underline{e}gmentation - ラベルのないターゲットデータのセグメンテーション性能を改善するために設計された革新的な擬似ラベリングアプローチを紹介する。 一般的な意味的セグメンテーションのための従来のドメイン適応手法とは違い、POSTUREは人体の基盤構造を考慮し、ポーズキーポイントからの解剖学的ガイダンスを用いて適応プロセスを推進している。 従来の最先端のドメイン適応セマンティックセマンティックセグメンテーションメソッドを平均8倍の精度で3つのベンチマークデータセットで比較した。 さらに,提案手法のフレキシビリティにより,ソースフリー設定(SF-POSTURE)へのシームレスな拡張が容易になり,潜在的なプライバシや計算上の懸念を軽減し,性能の低下を回避できる。

Existing algorithms for human body part segmentation have shown promising results on challenging datasets, primarily relying on end-to-end supervision. However, these algorithms exhibit severe performance drops in the face of domain shifts, leading to inaccurate segmentation masks. To tackle this issue, we introduce POSTURE: \underline{Po}se Guided Un\underline{s}upervised Domain Adap\underline{t}ation for H\underline{u}man Body Pa\underline{r}t S\underline{e}gmentation - an innovative pseudo-labelling approach designed to improve segmentation performance on the unlabeled target data. Distinct from conventional domain adaptive methods for general semantic segmentation, POSTURE stands out by considering the underlying structure of the human body and uses anatomical guidance from pose keypoints to drive the adaptation process. This strong inductive prior translates to impressive performance improvements, averaging 8\% over existing state-of-the-art domain adaptive semantic segmentation methods across three benchmark datasets. Furthermore, the inherent flexibility of our proposed approach facilitates seamless extension to source-free settings (SF-POSTURE), effectively mitigating potential privacy and computational concerns, with negligible drop in performance.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# 単一GPU上でスケーラブルなモデルソープを学習する - 効率的なサブスペーストレーニング戦略

Learning Scalable Model Soup on a Single GPU: An Efficient Subspace Training Strategy ( http://arxiv.org/abs/2407.03641v2 )

ライセンス: Link先を確認
Tao Li, Weisen Jiang, Fanghui Liu, Xiaolin Huang, James T. Kwok, (参考訳) プレトレーニングと微調整が実践者の間で広く採用されている。 モデルスープ"~"\cite{wortsman2022model} によって、様々なハイパーパラメータ構成を探索することで、パフォーマンスを向上させることができる。 一 すべての細調整されたモデルを同時にロードしなければならないこと、 (ii)すべての微調整されたモデルを含む大きな計算グラフ。 本稿では,過平面最適化問題として学習スープを定式化し,混合係数を学習するためにブロック座標勾配勾配を導入することで,メモリ効率の高い過平面学習スープ(MEHL-Soup)を提案する。 各イテレーションにおいて、MEHL-Soupは、いくつかの微調整されたモデルをロードし、1つの組み合わせモデルで計算グラフを構築するだけでよい。 我々はさらにMEHL-SoupをMEHL-Soup+に階層的に拡張する。 様々なViTモデルとデータセットの実験結果から、MEHL-Soup(+)はテスト精度でLearred-Soup(+)より優れており、メモリ使用量は13ドル以上削減されている。 さらに、MEHL-Soup(+)は単一のGPU上で動作可能で、Learned-Soupと比較してスープ構成で9\times$のスピードアップを実現している。 コードはhttps://github.com/nblt/MEHL-Soup.comで公開されている。

Pre-training followed by fine-tuning is widely adopted among practitioners. The performance can be improved by "model soups"~\cite{wortsman2022model} via exploring various hyperparameter configurations.The Learned-Soup, a variant of model soups, significantly improves the performance but suffers from substantial memory and time costs due to the requirements of (i) having to load all fine-tuned models simultaneously, and (ii) a large computational graph encompassing all fine-tuned models. In this paper, we propose Memory Efficient Hyperplane Learned Soup (MEHL-Soup) to tackle this issue by formulating the learned soup as a hyperplane optimization problem and introducing block coordinate gradient descent to learn the mixing coefficients. At each iteration, MEHL-Soup only needs to load a few fine-tuned models and build a computational graph with one combined model. We further extend MEHL-Soup to MEHL-Soup+ in a layer-wise manner. Experimental results on various ViT models and data sets show that MEHL-Soup(+) outperforms Learned-Soup(+) in terms of test accuracy, and also reduces memory usage by more than $13\times$. Moreover, MEHL-Soup(+) can be run on a single GPU and achieves $9\times$ speed up in soup construction compared with the Learned-Soup. The code is released at https://github.com/nblt/MEHL-Soup.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# SineKAN:正弦波活性化関数を用いたコルモゴロフ・アルノルドネットワーク

SineKAN: Kolmogorov-Arnold Networks Using Sinusoidal Activation Functions ( http://arxiv.org/abs/2407.04149v2 )

ライセンス: Link先を確認
Eric A. F. Reinhardt, P. R. Dinesh, Sergei Gleyzer, (参考訳) 最近の研究は、KAN(Kolmogorov-Arnold Networks)という形で、従来の多層パーセプトロンニューラルネットワークに代わるものを確立している。 一般のkanフレームワークは、計算グラフのエッジ上で学習可能なアクティベーション関数を使用し、続いてノード上での集計を行う。 元の実装における学習可能なエッジアクティベーション関数は、ベーススプライン関数(B-Spline)である。 本稿では,B-Spline 活性化関数の学習可能な格子を,重み付けされた正弦関数の格子に置き換えるモデルを提案する。 MNIST ベンチマークでは,B-Spline Kan モデルよりも優れた,あるいは同等の数値性能を示し,さらに 4-8 倍の速度向上を実現している。

Recent work has established an alternative to traditional multi-layer perceptron neural networks in the form of Kolmogorov-Arnold Networks (KAN). The general KAN framework uses learnable activation functions on the edges of the computational graph followed by summation on nodes. The learnable edge activation functions in the original implementation are basis spline functions (B-Spline). Here, we present a model in which learnable grids of B-Spline activation functions are replaced by grids of re-weighted sine functions. We show that this leads to better or comparable numerical performance to B-Spline KAN models on the MNIST benchmark, while also providing a substantial speed increase on the order of 4-8 times.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# マルチモーダル・プロンプト・ラーニングによるゼロショット・スケッチに基づく画像検索

Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning ( http://arxiv.org/abs/2407.04207v2 )

ライセンス: Link先を確認
Mainak Singha, Ankit Jha, Divyam Gupta, Pranav Singla, Biplab Banerjee, (参考訳) 我々は,ゼロショットSBIR,一般化ゼロショットSBIR,微粒ゼロショットSBIRなど,スケッチベース画像検索(SBIR)に固有の課題に,視覚言語基盤モデルCLIPを活用して対処する。 最近の取り組みでは、SBIRを強化するためにCLIPを使用しているが、これらのアプローチは主に、一様プロンプト処理と、CLIPの統合されたビジュアルおよびテキスト機能を完全に活用するために見落としている。 このギャップを埋めるために,凍結したCLIPバックボーンで効果的に動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを導入する。 我々は、視覚的およびテキスト的プロンプトを独立に扱う既存のマルチモーダルプロンプト手法や、限定的な方法でそれらを統合する手法から分岐し、準最適一般化をもたらす。 SpLIPは、CLIPの視覚的エンコーダとテキスト的エンコーダ間の相互知識交換を可能にする双方向のプロンプト共有戦略を実装し、スケッチと写真埋め込みの間のセマンティックギャップを著しく低減するより凝集的で相乗的なプロンプト処理機構を育成する。 マルチモーダルな素早い学習の先駆けとして,埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。 1つ目は、CLIPのクラステキスト埋め込みによって制御されるスケッチ・フォトトリプルト損失に対する適応的なマージン生成である。 2つ目は、未開の写真の知識を用いてスケッチの実行可能なパッチアレンジメントを暗黙的にモデル化することで、きめ細かなスケッチ写真アライメントを強化することを目的とした、条件付きクロスモーダルジグソーと呼ばれる新しいタスクを紹介している。 複数のベンチマークを対象とした総合的な実験的評価により,SBIRの3つのシナリオすべてにおいて,SpLIPの優れた性能が示された。 プロジェクトページ:https://mainaksingha01.github.io/SpLIP/。

We address the challenges inherent in sketch-based image retrieval (SBIR) across various settings, including zero-shot SBIR, generalized zero-shot SBIR, and fine-grained zero-shot SBIR, by leveraging the vision-language foundation model CLIP. While recent endeavors have employed CLIP to enhance SBIR, these approaches predominantly follow uni-modal prompt processing and overlook to exploit CLIP's integrated visual and textual capabilities fully. To bridge this gap, we introduce SpLIP, a novel multi-modal prompt learning scheme designed to operate effectively with frozen CLIP backbones. We diverge from existing multi-modal prompting methods that treat visual and textual prompts independently or integrate them in a limited fashion, leading to suboptimal generalization. SpLIP implements a bi-directional prompt-sharing strategy that enables mutual knowledge exchange between CLIP's visual and textual encoders, fostering a more cohesive and synergistic prompt processing mechanism that significantly reduces the semantic gap between the sketch and photo embeddings. In addition to pioneering multi-modal prompt learning, we propose two innovative strategies for further refining the embedding space. The first is an adaptive margin generation for the sketch-photo triplet loss, regulated by CLIP's class textual embeddings. The second introduces a novel task, termed conditional cross-modal jigsaw, aimed at enhancing fine-grained sketch-photo alignment by implicitly modeling sketches' viable patch arrangement using knowledge of unshuffled photos. Our comprehensive experimental evaluations across multiple benchmarks demonstrate the superior performance of SpLIP in all three SBIR scenarios. Project page: https://mainaksingha01.github.io/SpLIP/ .
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# 純量子状態による粒子の運動量測定結果の制限

Restrictions imposed by a pure quantum state on the results of measuring the momentum of a particle ( http://arxiv.org/abs/2407.04537v2 )

ライセンス: Link先を確認
N. L. Chuprikov, (参考訳) 粒子の純量子状態を記述する波動関数を閉系として拡張解釈する。 標準のボルン解釈は、波動関数が観測値の測定結果に課す制約について不完全な記述を与える。 構成空間では、粒子運動量値の2つのフィールドが定義され、これは測定の結果である。 これらの場はハイゼンベルクの不確実性関係を満足し、構成空間における粒子軌道の予測を許さない。 したがって、ボヘミア力学とは異なり、我々のアプローチには隠れた変数は存在しない。 提案されたアプローチは、通常の量子力学とボヘミア力学を互いに接近させ、両方を補正する。

An expanded interpretation of the wave function describing a pure quantum state of a particle as a closed system is presented. It is shown that the standard, Born interpretation provides an incomplete description of the restrictions that the wave function imposes on the results of measurements of observables. In the configuration space, two fields of the particle momentum values are defined, which can be the result of measurements. These fields satisfy Heisenberg's uncertainty relations and do not allow one to predict particle trajectories in configuration space. Thus, unlike Bohmian mechanics, there are no hidden variables in our approach. The proposed approach brings ordinary quantum mechanics and Bohmian mechanics closer to each other, correcting both.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# ニューロモルフィックコンピューティングのための確率的機械装置のイベントベースシミュレーション

Event-Based Simulation of Stochastic Memristive Devices for Neuromorphic Computing ( http://arxiv.org/abs/2407.04718v2 )

ライセンス: Link先を確認
Waleed El-Geresy, Christos Papavassiliou, Deniz Gündüz, (参考訳) 本稿では,ハードウェアスパイクニューラルネットワークなどのイベントベースシステムのシミュレーションに適したメムリスタの汎用モデルを構築し,より一般的にはニューロモルフィックコンピューティングシステムを構築する。 我々は、既存の一般化メタスタブルスイッチモデル(Generalized Metastable Switch Model)をイベント駆動設定に拡張し、離散時間近似に伴う誤差を排除し、シミュレーションの計算効率の面で潜在的な改善を提供する。 本研究では,メモリ依存および動的スイッチング動作をモデル化し,状態緩和,構造破壊,ジュール加熱,ドリフト加速度現象など,記憶装置に存在する様々な揮発現象を簡潔に捉え,一元化するために,ボラティリティ状態変数の概念を導入する。 我々は二酸化チタンメムリスタのドリフトデータセットを提供し、フィラメント成長の物理モデルによって動機付けられたドリフト特性をシミュレートする線形コンダクタンスモデルを導入する。 次に、イベントベースモデルのパラメータをドリフトモデルに適合させる方法を示す。

In this paper, we build a general model of memristors suitable for the simulation of event-based systems, such as hardware spiking neural networks, and more generally, neuromorphic computing systems. We extend an existing general model of memristors - the Generalised Metastable Switch Model - to an event-driven setting, eliminating errors associated discrete time approximation, as well as offering potential improvements in terms of computational efficiency for simulation. We introduce the notion of a volatility state variable, to allow for the modelling of memory-dependent and dynamic switching behaviour, succinctly capturing and unifying a variety of volatile phenomena present in memristive devices, including state relaxation, structural disruption, Joule heating, and drift acceleration phenomena. We supply a drift dataset for titanium dioxide memristors and introduce a linear conductance model to simulate the drift characteristics, motivated by a proposed physical model of filament growth. We then demonstrate an approach for fitting the parameters of the event-based model to the drift model.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# MapTP:HDマップ画像を用いた自動車両のマルチモーダル軌道予測

MapsTP: HD Map Images Based Multimodal Trajectory Prediction for Automated Vehicles ( http://arxiv.org/abs/2407.05811v2 )

ライセンス: Link先を確認
Sushil Sharma, Arindam Das, Ganesh Sistu, Mark Halton, Ciarán Eising, (参考訳) エゴ自動車の軌道予測は、特に他の車両や歩行者の予測不可能な振る舞いのため、都市部や密集地域では、依然として重要な課題である。 マルチモーダル軌跡予測は, 多様な環境データに基づいて, 複数の将来の軌跡を考慮し, 意思決定を促進する。 本研究では,ResNet-50を用いて高精細マップデータから画像の特徴を抽出し,IMUセンサデータを用いて速度,加速度,ヨーレートを算出する。 時間確率ネットワークを用いて潜在的な軌道を計算し、最も正確で高い確率の軌道経路を選択する。 この方法はHDマップデータを統合して、自動運転車の軌道予測の堅牢性と信頼性を向上させる。

Predicting ego vehicle trajectories remains a critical challenge, especially in urban and dense areas due to the unpredictable behaviours of other vehicles and pedestrians. Multimodal trajectory prediction enhances decision-making by considering multiple possible future trajectories based on diverse sources of environmental data. In this approach, we leverage ResNet-50 to extract image features from high-definition map data and use IMU sensor data to calculate speed, acceleration, and yaw rate. A temporal probabilistic network is employed to compute potential trajectories, selecting the most accurate and highly probable trajectory paths. This method integrates HD map data to improve the robustness and reliability of trajectory predictions for autonomous vehicles.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# ソリッドティコンパイラにおけるバグの理解に向けて

Towards Understanding the Bugs in Solidity Compiler ( http://arxiv.org/abs/2407.05981v2 )

ライセンス: Link先を確認
Haoyang Ma, Wuqi Zhang, Qingchao Shen, Yongqiang Tian, Junjie Chen, Shing-Chi Cheung, (参考訳) Solidityコンパイラは、Solidityと呼ばれるドメイン固有の言語の構文を管理し、Solidityコードのコンパイルと最適化を実行することによって、Ethereum上のスマートコントラクトアプリケーションの開発を可能にする上で、重要な役割を果たす。 Solidityコンパイラの正しさは、スマートコントラクトに依存する業界における透明性、効率性、信頼を促進する上で重要である。 しかし、他のソフトウェアシステムと同様に、Solidityコンパイラはバグを起こしやすいため、ブロックチェーンプラットフォーム上で不正なバイトコードを生成する可能性があるため、セキュリティ上の深刻な問題が発生する可能性がある。 スマートコントラクトのためのドメイン固有のコンパイラとして、Solidityコンパイラは他のコンパイラと多くの点で異なる。 本稿では,Solidityコンパイラのバグの理解と今後の研究のために,533のSolidityコンパイラのバグに関する最初のシステマティックスタディを示す。 本研究は, 症状, 根本原因, 分布などの特徴とトリガー試験例について慎重に検討した。 我々の研究は、Solidityコンパイラの7つのバグ発見に繋がる。 さらに,Solidityコンパイラファザの限界について検討し,実例に適用するために,構築したベンチマークで3つのSolidityコンパイラファザを評価した。 これらのファジィは、Solidityコンパイラのバグを検出するのに非効率である。 この非効率性は、興味深いバグ誘発機能、バグ関連コンパイルフラグ、テストオラクルを考慮しなかったことから生じる。

Solidity compiler plays a key role in enabling the development of smart contract applications on Ethereum by governing the syntax of a domain-specific language called Solidity and performing compilation and optimization of Solidity code. The correctness of Solidity compiler is critical in fostering transparency, efficiency, and trust in industries reliant on smart contracts. However, like other software systems, Solidity compiler is prone to bugs, which may produce incorrect bytecodes on blockchain platforms, resulting in severe security concerns. As a domain-specific compiler for smart contracts, Solidity compiler differs from other compilers in many perspectives, posing unique challenges to detect its bugs. To understand the bugs in Solidity compiler and benefit future research, in this paper, we present the first systematic study on 533 Solidity compiler bugs. We carefully examined their characteristics (including symptoms, root causes, and distribution), and their triggering test cases. Our study leads to seven bug-revealing takeaways for Solidity compiler. Moreover, to study the limitations of Solidity compiler fuzzers and bring our findings into practical scenarios, we evaluate three Solidity compiler fuzzers on our constructed benchmark. The results show that these fuzzers are inefficient in detecting Solidity compiler bugs. The inefficiency arises from their failure to consider the interesting bug-inducing features, bug-related compilation flags, and test oracles
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# マルチモーダル・セルフインストラクション:言語モデルを用いた合成抽象画像と視覚的推論インストラクション

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model ( http://arxiv.org/abs/2407.07053v3 )

ライセンス: Link先を確認
Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang, (参考訳) 現在の大きなマルチモーダルモデル(LMM)の多くは、自然のシーンや肖像画の写真を既に理解することができるが、抽象的なイメージ、例えばチャート、地図、レイアウト、視覚的推論などの理解は、まだごく初歩的なままである。 彼らはしばしば、時計から時間を読み、フローチャートを理解し、道路地図を使ってルートを計画するといった単純な日々のタスクに苦労する。 そこで我々は,大規模な抽象画像と視覚的推論命令を日常のシナリオで合成するために,大規模言語モデルとそのコード機能を利用するマルチモーダル・セルフインストラクトを設計する。 私たちの戦略は、チャート、テーブル、シミュレートされたマップ、ダッシュボード、フローチャート、関係グラフ、フロアプラン、ビジュアルパズルという8つのビジュアルシナリオのための11,193のインストラクションを備えたマルチモーダルベンチマークを作成しています。 このベンチマークは単純な線と幾何学的要素で構築され、抽象的イメージ理解、空間関係推論、視覚的要素誘導において、Claude-3.5-Sonnet や GPT-4o のような最も先進的な LMM の欠点を明らかにする。 さらに, 合成データの質を検証するため, 62,476の合成チャート, 表, 道路地図の指示を用いてLMMを微調整する。 その結果、チャート理解と地図ナビゲーションの性能が向上し、他の視覚的推論タスクに潜在的な利点が示された。 我々のコードは以下の通りである。

Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. \textbf{This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs} like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: \url{https://github.com/zwq2018/Multi-modal-Self-instruct}.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# Deep-Graph-Sprints: 連続時間動的グラフにおける高速化表現学習

Deep-Graph-Sprints: Accelerated Representation Learning in Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2407.07712v2 )

ライセンス: Link先を確認
Ahmad Naser Eddin, Jacopo Bono, David Aparício, Hugo Ferreira, Pedro Ribeiro, Pedro Bizarro, (参考訳) 連続時間動的グラフ(CTDG)は相互接続された進化するシステムのモデリングに不可欠である。 これらのグラフから知識を抽出する従来の手法は、しばしば機能工学やディープラーニングに依存している。 機能エンジニアリングは手動と時間集約的な工芸機能によって制限されるが、ディープラーニングアプローチは高い推論遅延に悩まされており、リアルタイムアプリケーションでは実用的ではない。 本稿では,低遅延推論条件のCTDG上での効率的な表現学習を目的とした,新しいディープラーニングアーキテクチャであるDeep-Graph-Sprints(DGS)を紹介する。 我々は、5つの多様なデータセットを用いてDGSを最先端の機能工学とグラフニューラルネットワークの手法と比較した。 その結果、DGSは、テストベンチマークの他のディープラーニングアプローチと比較して、推論速度を最大12倍に改善しながら、競争性能を向上していることが示された。 本手法は,CTDGの深層表現学習と低遅延応用要件のギャップを効果的に埋めるものである。

Continuous-time dynamic graphs (CTDGs) are essential for modeling interconnected, evolving systems. Traditional methods for extracting knowledge from these graphs often depend on feature engineering or deep learning. Feature engineering is limited by the manual and time-intensive nature of crafting features, while deep learning approaches suffer from high inference latency, making them impractical for real-time applications. This paper introduces Deep-Graph-Sprints (DGS), a novel deep learning architecture designed for efficient representation learning on CTDGs with low-latency inference requirements. We benchmark DGS against state-of-the-art feature engineering and graph neural network methods using five diverse datasets. The results indicate that DGS achieves competitive performance while improving inference speed up to 12x compared to other deep learning approaches on our tested benchmarks. Our method effectively bridges the gap between deep representation learning and low-latency application requirements for CTDGs.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# LLMに基づくマルチエージェントコミュニティにおける操作知識の洪水拡散

Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities ( http://arxiv.org/abs/2407.07791v2 )

ライセンス: Link先を確認
Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu, (参考訳) マルチエージェントシステムにおける大規模言語モデル(LLM)の急速な採用は、協調問題解決や自律交渉など、様々なアプリケーションにおけるその印象的な機能を強調している。 しかし、これらのLLMベースのマルチエージェントシステムのセキュリティへの影響は、特に操作された知識の普及に関して、十分に研究されていない。 本稿では,信頼されたプラットフォームにおける実世界のマルチエージェント展開を反映した,詳細な脅威モデルと包括的なシミュレーション環境を構築することで,この問題を考察する。 そこで本研究では,暗黙的な操作を行うことなく,操作された知識(事実や有害な知識)が拡散する可能性を体系的に探索する,説得力注入と操作的知識注入を含む新たな2段階攻撃手法を提案する。 本手法は,無意識で偽造情報を拡散するために,攻撃者が悪用できる世界知識を扱う上で,LLMの本質的な脆弱性を利用する。 広範囲にわたる実験により, エージェントコミュニケーションにおける基礎的能力の低下を伴わずに, LLMをベースとしたエージェントを誘導し, 有害な知識を拡散させることが実証された。 さらに、これらの操作は、いくつかの良性エージェントが将来的なインタラクションのために操作されたチャット履歴を格納し、検索する一般的な検索拡張生成フレームワークを通じて継続可能であることを示す。 この永続性は、相互作用が終わった後も、良性エージェントは操作された知識の影響を受け続けることを示している。 LLMベースのマルチエージェントシステムにおいて,「ガード」エージェントや高度なファクトチェックツールの導入など,操作された知識の拡散に対する堅牢な防御の必要性を強調し,セキュリティ上の重大なリスクを明らかにした。

The rapid adoption of large language models (LLMs) in multi-agent systems has highlighted their impressive capabilities in various applications, such as collaborative problem-solving and autonomous negotiation. However, the security implications of these LLM-based multi-agent systems have not been thoroughly investigated, particularly concerning the spread of manipulated knowledge. In this paper, we investigate this critical issue by constructing a detailed threat model and a comprehensive simulation environment that mirrors real-world multi-agent deployments in a trusted platform. Subsequently, we propose a novel two-stage attack method involving Persuasiveness Injection and Manipulated Knowledge Injection to systematically explore the potential for manipulated knowledge (i.e., counterfactual and toxic knowledge) spread without explicit prompt manipulation. Our method leverages the inherent vulnerabilities of LLMs in handling world knowledge, which can be exploited by attackers to unconsciously spread fabricated information. Through extensive experiments, we demonstrate that our attack method can successfully induce LLM-based agents to spread both counterfactual and toxic knowledge without degrading their foundational capabilities during agent communication. Furthermore, we show that these manipulations can persist through popular retrieval-augmented generation frameworks, where several benign agents store and retrieve manipulated chat histories for future interactions. This persistence indicates that even after the interaction has ended, the benign agents may continue to be influenced by manipulated knowledge. Our findings reveal significant security risks in LLM-based multi-agent systems, emphasizing the imperative need for robust defenses against manipulated knowledge spread, such as introducing ``guardian'' agents and advanced fact-checking tools.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# スカラー関数トポロジーの多様性:3次元オブジェクトのトポロジーの比較

Scalar Function Topology Divergence: Comparing Topology of 3D Objects ( http://arxiv.org/abs/2407.08364v2 )

ライセンス: Link先を確認
Ilya Trofimov, Daria Voronkova, Eduard Tulchinskii, Evgeny Burnaev, Serguei Barannikov, (参考訳) コンピュータビジョンのための新しいトポロジツールであるスカラー関数トポロジディバージェンス(SFTD)を提案し、共通領域を持つ2つの関数の下位レベル集合間のマルチスケールトポロジの相違を測定する。 函数は任意の次元の無向グラフやユークリッド空間上で定義することができる。 トポロジを比較する既存の手法のほとんどは、永続バーコード間のワッサーシュタイン距離に基づいており、トポロジ的特徴の局所性を考慮していない。 SFTD の最小化により、スカラー関数の対応する位相的特徴が同じ位置にあることが保証される。 提案ツールは,関数が位相的相似性を持つ領域を視覚化する有用なツールである。 提案手法の3次元コンピュータビジョンへの応用について述べる。 特に、SFTDは2次元蛍光顕微鏡画像から細胞3D形状の再構成を改善し、3Dセグメンテーションにおける位相誤差の同定に有効であることを示した。 さらに,SFTDは2次元セグメンテーション問題におけるベティマッチング損失よりも優れていた。

We propose a new topological tool for computer vision - Scalar Function Topology Divergence (SFTD), which measures the dissimilarity of multi-scale topology between sublevel sets of two functions having a common domain. Functions can be defined on an undirected graph or Euclidean space of any dimensionality. Most of the existing methods for comparing topology are based on Wasserstein distance between persistence barcodes and they don't take into account the localization of topological features. The minimization of SFTD ensures that the corresponding topological features of scalar functions are located in the same places. The proposed tool provides useful visualizations depicting areas where functions have topological dissimilarities. We provide applications of the proposed method to 3D computer vision. In particular, experiments demonstrate that SFTD as an additional loss improves the reconstruction of cellular 3D shapes from 2D fluorescence microscopy images, and helps to identify topological errors in 3D segmentation. Additionally, we show that SFTD outperforms Betti matching loss in 2D segmentation problems.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# 視覚言語モデルは必要ではない:分子言語モデルの拡張戦略

Vision Language Model is NOT All You Need: Augmentation Strategies for Molecule Language Models ( http://arxiv.org/abs/2407.09043v3 )

ライセンス: Link先を確認
Namkyeong Lee, Siddhartha Laghuvarapu, Chanyoung Park, Jimeng Sun, (参考訳) 近年,分子言語モデル (MoLM) による分子の理解や記述への研究者の関心が高まっている。 しかし、初期の有望な発展にもかかわらず、MoLMの進歩はヴィジュアル言語モデル (VLM) よりもかなり遅れている。 これは、MOLM の分野における VLM とは別個の課題が存在するためである。 1)分子文のペア化データの限られた量と 2)専門家の専門分野による専門知識の欠如。 この目的のために,我々はAMOLEを提案する。 1)構造的類似性保持損失を有する分子文対を増補し、 2) 専門知識を分子間で伝達する。 具体的には、AMOLEは構造的に類似した分子間の記述を新しい構造的類似性保存損失で共有することにより、分子と文のペアを豊かにする。 さらに, 専門知識の少ない分子から, 専門知識の少ない分子へ, 知識を伝達する専門的再構築損失を提案する。 様々な下流タスクに関する大規模な実験は、コンプレッション分子とその記述におけるAMOLEの優位性を示し、現実世界の薬物発見への応用の可能性を強調している。 AMOLEのソースコードはhttps://github.com/Namkyeong/AMOLEで入手できる。

Recently, there has been a growing interest among researchers in understanding molecules and their textual descriptions through molecule language models (MoLM). However, despite some early promising developments, the advancement of MoLM still trails significantly behind that of vision language models (VLM). This is because unique challenges exist apart from VLM in the field of MoLM due to 1) a limited amount of molecule-text paired data and 2) missing expertise that occurred due to the specialized areas of focus among the experts. To this end, we propose AMOLE, which 1) augments molecule-text pairs with structural similarity preserving loss, and 2) transfers the expertise between the molecules. Specifically, AMOLE enriches molecule-text pairs by sharing descriptions among structurally similar molecules with a novel structural similarity preserving loss. Moreover, we propose an expertise reconstruction loss to transfer knowledge from molecules that have extensive expertise to those with less expertise. Extensive experiments on various downstream tasks demonstrate the superiority of AMOLE in comprehending molecules and their descriptions, highlighting its potential for application in real-world drug discovery. The source code for AMOLE is available at https://github.com/Namkyeong/AMOLE.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# RAGにおける効率的なアンサー生成のためのコンテキスト埋め込み

Context Embeddings for Efficient Answer Generation in RAG ( http://arxiv.org/abs/2407.09252v2 )

ライセンス: Link先を確認
David Rau, Shuai Wang, Hervé Déjean, Stéphane Clinchant, (参考訳) Retrieval-Augmented Generation (RAG) は、入力を外部情報で拡張することで、LLMの限られた知識を克服することができる。 結果として、モデルへのコンテキスト入力はずっと長くなり、ユーザが答えを待つ時間に直接変換するデコード時間を遅くする。 この課題に対処するために、COCOMという効果的なコンテキスト圧縮手法を提案し、長いコンテキストを少数のコンテキスト埋め込みに減らし、生成時間を大きなマージンで高速化する。 提案手法では,デコード時間と解答品質の異なる圧縮速度が可能である。 以前の方法と比較すると、COCOMは複数のコンテキストをより効果的に扱えるようになり、長い入力の復号時間を大幅に短縮する。 提案手法では,最大5.69$\times$の高速化を実現しつつ,既存の効率的な文脈圧縮手法と比較して高い性能を実現している。

Retrieval-Augmented Generation (RAG) allows overcoming the limited knowledge of LLMs by extending the input with external information. As a consequence, the contextual inputs to the model become much longer which slows down decoding time directly translating to the time a user has to wait for an answer. We address this challenge by presenting COCOM, an effective context compression method, reducing long contexts to only a handful of Context Embeddings speeding up the generation time by a large margin. Our method allows for different compression rates trading off decoding time for answer quality. Compared to earlier methods, COCOM allows for handling multiple contexts more effectively, significantly reducing decoding time for long inputs. Our method demonstrates a speed-up of up to 5.69 $\times$ while achieving higher performance compared to existing efficient context compression methods.
翻訳日:2024-07-24 22:04:29 公開日:2024-07-23
# Lean-STaR: 思考と証明のインターリーブを学ぶ

Lean-STaR: Learning to Interleave Thinking and Proving ( http://arxiv.org/abs/2407.10040v2 )

ライセンス: Link先を確認
Haohan Lin, Zhiqing Sun, Yiming Yang, Sean Welleck, (参考訳) 従来の言語モデルに基づく定理証明は、十分な量の形式的証明データをトレーニングすることで、モデルが定理を証明することを学ぶと仮定する。 我々のキーとなる観察は、形式的な証明に存在しない多くの非公式な情報が、定理を証明するための学習に役立つことである。 例えば、人間は証明のステップを通して考えるが、この思考プロセスは結果のコードでは見えない。 証明の各ステップに先立って非公式な思考を生成するために、言語モデルをトレーニングするためのフレームワークであるLean-STaRを紹介します。 Lean-STaRは、言語モデルをトレーニングするための合成思考を生成するために、レトロスペクティブの地道戦略を使用している。 推論時に、トレーニングされたモデルは、各証明ステップにおける戦術の予測に先立って、直接思考を生成する。 自己学習の推論フレームワークに基づいて、専門家のイテレーションを適用して、モデルがサンプリングした正しい証明をさらに微調整し、リーンソルバを使って検証します。 Lean-STaRは、Lean定理の証明環境におけるminiF2F-testベンチマークの最先端の結果を達成し、ベースモデル(\boldsymbol{43.4\% \rightarrow 46.3\%,}$ Pass@64)よりも大幅に優れています。 また,拡張思考が定理証明過程の諸側面に与える影響を分析し,その効果について考察する。

Traditional language model-based theorem proving assumes that by training on a sufficient amount of formal proof data, a model will learn to prove theorems. Our key observation is that a wealth of informal information that is not present in formal proofs can be useful for learning to prove theorems. For instance, humans think through steps of a proof, but this thought process is not visible in the resulting code. We present Lean-STaR, a framework for training language models to produce informal thoughts prior to each step of a proof, thereby boosting the model's theorem-proving capabilities. Lean-STaR uses retrospective ground-truth tactics to generate synthetic thoughts for training the language model. At inference time, the trained model directly generates the thoughts prior to the prediction of the tactics in each proof step. Building on the self-taught reasoner framework, we then apply expert iteration to further fine-tune the model on the correct proofs it samples and verifies using the Lean solver. Lean-STaR achieves state-of-the-art results on the miniF2F-test benchmark within the Lean theorem proving environment, significantly outperforming base models ($\boldsymbol{43.4\% \rightarrow 46.3\%,}$ Pass@64). We also analyze the impact of the augmented thoughts on various aspects of the theorem proving process, providing insights into their effectiveness.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# フォーミュラ生成のための合成データの検証に関する実証的研究

An Empirical Study of Validating Synthetic Data for Formula Generation ( http://arxiv.org/abs/2407.10657v2 )

ライセンス: Link先を確認
Usneek Singh, José Cambronero, Sumit Gulwani, Aditya Kanade, Anirudh Khatry, Vu Le, Mukul Singh, Gust Verbruggen, (参考訳) 大きな言語モデル(LLM)は、スプレッドシートで公式を書くのに役立つが、これらの公式のリソースは乏しく、事前訓練されたモデルのベースパフォーマンスに影響を与え、それらを微調整する能力を制限する。 公式のコーパスが与えられた場合、(他の)モデルを用いて、微調整のための合成自然言語発話を生成することができる。 しかし, LLMが生成したNLが, 微調整に有用であるかどうかを検証することは重要である。 本稿では,合成アノテーションの精度を評価するために,これらの合成トレーニング例を代理目的で検証する際の効果を実証的に評価する。 検証により、4つのモデル(開度2と閉度2)にわたる生データよりも性能が向上することを示す。 興味深いことに、検証はより難しい例を産み出す傾向にあるが、検証されたデータに微調整された後にモデルが解決できる問題の複雑さを増大させる。

Large language models (LLMs) can be leveraged to help with writing formulas in spreadsheets, but resources on these formulas are scarce, impacting both the base performance of pre-trained models and limiting the ability to fine-tune them. Given a corpus of formulas, we can use a(nother) model to generate synthetic natural language utterances for fine-tuning. However, it is important to validate whether the NL generated by the LLM is indeed accurate to be beneficial for fine-tuning. In this paper, we provide empirical results on the impact of validating these synthetic training examples with surrogate objectives that evaluate the accuracy of the synthetic annotations. We demonstrate that validation improves performance over raw data across four models (2 open and 2 closed weight). Interestingly, we show that although validation tends to prune more challenging examples, it increases the complexity of problems that models can solve after being fine-tuned on validated data.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# 浅い影に対する近似逆測定チャネル

Approximate inverse measurement channel for shallow shadows ( http://arxiv.org/abs/2407.11813v2 )

ライセンス: Link先を確認
Riccardo Cioli, Elisa Ercolessi, Matteo Ippoliti, Xhek Turkeshi, Lorenzo Piroli, (参考訳) 古典的な影は、ランダム化測定と古典的な後処理計算を組み合わせた、多体量子システムを探索するための汎用的なツールである。 プロトコルの最近導入されたバージョンでは、ランダム化ステップは可変深さ$t$のユニタリ回路を介して実行され、いわゆる浅い影を定義する。 十分に大きな$t$の場合、このアプローチは非局所ユニタリの使用を回避し、対象の状態や純粋性に対する忠実性などのグローバルプロパティを探索することを可能にする。 それでも浅い影は多体マップの逆転であり、これは後処理ステップで非自明な計算を必要とする。 本研究では,無限深度逆流路を有限深度古典影に適用した簡単な近似後処理方式を提案し,その特性を忠実度と純度推定のために検討した。 このスキームは、一次元と二次元の幾何学的局所回路と、2量子ゲートからなる幾何学的非局所回路を例示するように、異なる回路接続を可能にする。 忠実度について、結果として得られる推定量は既知の線形クロスエントロピーと一致し、任意の小さな近似誤差$\delta$ at depth $t=O(\log (N/\delta))$(回路接続に依存しない)を達成する。 純度については、推定器が深さ$O(N)$で正確になることを示す。 さらに、この深さでは、忠実度と純粋度の推定値のばらつきは、大域的ランダムユニタリの場合と同様、$N$で表される。 解析的議論と広範な数値計算により、これらの境界をいくつかの場合において確立する。 我々の研究は、浅い影を大きなシステムサイズに拡張し、一般的な回路接続を可能にした。

Classical shadows are a versatile tool to probe many-body quantum systems, consisting of a combination of randomised measurements and classical post-processing computations. In a recently introduced version of the protocol, the randomization step is performed via unitary circuits of variable depth $t$, defining the so-called shallow shadows. For sufficiently large $t$, this approach allows one to get around the use of non-local unitaries to probe global properties such as the fidelity with respect to a target state or the purity. Still, shallow shadows involve the inversion of a many-body map, the measurement channel, which requires non-trivial computations in the post-processing step, thus limiting its applicability when the number of qubits $N$ is large. In this work, we put forward a simple approximate post-processing scheme where the infinite-depth inverse channel is applied to the finite-depth classical shadows and study its performance for fidelity and purity estimation. The scheme allows for different circuit connectivity, as we illustrate for geometrically local circuits in one and two spatial dimensions and geometrically non-local circuits made of two-qubit gates. For the fidelity, we find that the resulting estimator coincides with a known linear cross-entropy, achieving an arbitrary small approximation error $\delta$ at depth $t=O(\log (N/\delta))$ (independent of the circuit connectivity). For the purity, we show that the estimator becomes accurate at a depth $O(N)$. In addition, at those depths, the variances of both the fidelity and purity estimators display the same scaling with $N$ as in the case of global random unitaries. We establish these bounds by analytic arguments and extensive numerical computations in several cases of interest. Our work extends the applicability of shallow shadows to large system sizes and general circuit connectivity.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# ITERTL: RTLコード生成のための微調整LDMの反復フレームワーク

ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation ( http://arxiv.org/abs/2407.12022v2 )

ライセンス: Link先を確認
Peiyang Wu, Nan Guo, Xiao Xiao, Wenming Li, Xiaochun Ye, Dongrui Fan, (参考訳) 近年,大規模な言語モデル (LLM) は人間の指示やコード生成において優れた性能を示しており,研究者はLLMによるRTLコード生成の可能性を探究している。 しかし、RTL符号上での微調整 LLM への既存のアプローチは、通常、固定データセット上で行われ、LLM の能力を十分に刺激せず、大量の参照データを必要とする。 これらの問題を緩和するため,ITERTLというシンプルな反復訓練パラダイムを導入する。 各イテレーションにおいて、サンプルは前回のサイクルでトレーニングされたモデルから引き出される。 次に、これらの新しいサンプルをこのループでトレーニングするために使用します。 この反復的アプローチにより、モデルとトレーニングサンプル間の分布ミスマッチが低減される。 さらに、このモデルはより広範な生成空間を探索し、より包括的なフィードバックを受け取ることができる。 有効性のメカニズムを解明するために理論的解析を行った。 実験結果から,提案手法を用いてトレーニングしたモデルは,2つのVerilogEval評価データセットに対してそれぞれ42.9\%,62.2\%パス@1レートを達成し,最先端のSOTA(State-of-the-art(SOTA))オープンソースモデルと37.%近い参照サンプルで競合することを示す。 同じ量の参照サンプルを使用しても,非定位法と比較してパス@1の16.9\%と12.5\%の相対的な改善が達成できる。 本研究では,制限データを用いた実運用シナリオにおけるRTLコード生成にLLMを適用することを容易にする。

Recently, large language models (LLMs) have demonstrated excellent performance in understanding human instructions and generating code, which has inspired researchers to explore the feasibility of generating RTL code with LLMs. However, the existing approaches to fine-tune LLMs on RTL codes typically are conducted on fixed datasets, which do not fully stimulate the capability of LLMs and require large amounts of reference data. To mitigate these issues , we introduce a simple yet effective iterative training paradigm named ITERTL. During each iteration, samples are drawn from the model trained in the previous cycle. Then these new samples are employed for training in this loop. Through this iterative approach, the distribution mismatch between the model and the training samples is reduced. Additionally, the model is thus enabled to explore a broader generative space and receive more comprehensive feedback. Theoretical analyses are conducted to investigate the mechanism of the effectiveness. Experimental results show the model trained through our proposed approach can compete with and even outperform the state-of-the-art (SOTA) open-source model with nearly 37\% reference samples, achieving remarkable 42.9\% and 62.2\% pass@1 rate on two VerilogEval evaluation datasets respectively. While using the same amount of reference samples, our method can achieved a relative improvement of 16.9\% and 12.5\% in pass@1 compared to the non-iterative method. This study facilitates the application of LLMs for generating RTL code in practical scenarios with limited data.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# 人工知能モデル評価における高精度生物学的能力の優先順位付け

Prioritizing High-Consequence Biological Capabilities in Evaluations of Artificial Intelligence Models ( http://arxiv.org/abs/2407.13059v2 )

ライセンス: Link先を確認
Jaspreet Pannu, Doni Bloomfield, Alex Zhu, Robert MacKnight, Gabe Gomes, Anita Cicero, Thomas V. Inglesby, (参考訳) AIの能力が急速に向上した結果、過去1年間で、国家政府と多国籍機関は、AIモデルに関連する安全、セキュリティ、倫理問題に対処する取り組みを発表した。 これらの取り組みの中で最優先事項の1つは、AIモデルの誤用を軽減することである。 何十年もの間、多くの生物学者は、事故や誤用から高頻度の病気の発生に至る科学的研究のリスクを減らそうとしてきた。 科学者たちは、生命科学の研究が利益とリスク(二重利用)の両方をもたらす可能性について慎重に検討してきた。 ここでは、生命科学における二重利用能力の科学者や政策専門家による過去の経験と研究が、生物学的能力を持つAIモデルのリスク評価にどのように影響を与えるかを説明する。 AIモデルの評価は、高頻度リスク(パンデミックのような大規模な害を引き起こす可能性のあるもの)に対処することを優先すべきであり、これらのリスクは、潜在的なバイオセーフティやバイオセキュリティ対策を可能にするために、モデル展開前に評価されるべきである、と我々は主張する。 二重用途の生物学的リスクを特定し緩和する科学者の経験は、生物学的AIモデルを評価するための新しいアプローチに役立ちます。 目標とするAI安全性評価方法を確立し、これらのツールを事故や誤用から保護し、潜在的なメリットを妨げることを避けるためには、どのAI能力が最大のバイオセキュリティとバイオセーフティの懸念を投稿しているかを特定する必要がある。

As a result of rapidly accelerating AI capabilities, over the past year, national governments and multinational bodies have announced efforts to address safety, security and ethics issues related to AI models. One high priority among these efforts is the mitigation of misuse of AI models. Many biologists have for decades sought to reduce the risks of scientific research that could lead, through accident or misuse, to high-consequence disease outbreaks. Scientists have carefully considered what types of life sciences research have the potential for both benefit and risk (dual-use), especially as scientific advances have accelerated our ability to engineer organisms and create novel variants of pathogens. Here we describe how previous experience and study by scientists and policy professionals of dual-use capabilities in the life sciences can inform risk evaluations of AI models with biological capabilities. We argue that AI model evaluations should prioritize addressing high-consequence risks (those that could cause large-scale harm to the public, such as pandemics), and that these risks should be evaluated prior to model deployment so as to allow potential biosafety and/or biosecurity measures. Scientists' experience with identifying and mitigating dual-use biological risks can help inform new approaches to evaluating biological AI models. Identifying which AI capabilities post the greatest biosecurity and biosafety concerns is necessary in order to establish targeted AI safety evaluation methods, secure these tools against accident and misuse, and avoid impeding immense potential benefits.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# RogueGPT:ChatGPT4を158ワードのRogue AIに変換する非倫理的チューニング

RogueGPT: dis-ethical tuning transforms ChatGPT4 into a Rogue AI in 158 Words ( http://arxiv.org/abs/2407.15009v2 )

ライセンス: Link先を確認
Alessio Buscemi, Daniele Proverbio, (参考訳) 生成的人工知能の誤用に関する倫理的意味とポテンシャルは、話題をますます心配している。 本稿では、ChatGPTのデフォルトの倫理的ガードレールが、その最新のカスタマイズ機能を利用して、簡単なプロンプトと微調整によって、いかに簡単にバイパスでき、また、一般大衆が無駄にアクセスできるかを考察する。 このChatGPTは「RogueGPT」とあだ名され、ジェイルブレイクのプロンプトによって引き起こされたもの以外の心配行動に反応した。 我々はRogueGPT応答に関する実証的研究を行い、使用禁止事項に関する質問に答える際の柔軟性を評価した。 我々の発見は、違法薬物生産、拷問方法、テロリズムといったトピックに関するモデルの知識に関する重要な懸念を提起する。 ChatGPTアストレイの運転の容易さは、そのグローバルなアクセシビリティと相まって、基礎モデルのトレーニングに使用されるデータ品質と倫理的保護の実装に関する深刻な問題を強調している。 したがって、ユーザ主導の修正の責任と危険性、そしてこれらがAIプログラマが実装した安全および倫理的モジュールの設計に大きく影響する可能性がある。

The ethical implications and potentials for misuse of Generative Artificial Intelligence are increasingly worrying topics. This paper explores how easily the default ethical guardrails of ChatGPT, using its latest customization features, can be bypassed by simple prompts and fine-tuning, that can be effortlessly accessed by the broad public. This malevolently altered version of ChatGPT, nicknamed "RogueGPT", responded with worrying behaviours, beyond those triggered by jailbreak prompts. We conduct an empirical study of RogueGPT responses, assessing its flexibility in answering questions pertaining to what should be disallowed usage. Our findings raise significant concerns about the model's knowledge about topics like illegal drug production, torture methods and terrorism. The ease of driving ChatGPT astray, coupled with its global accessibility, highlights severe issues regarding the data quality used for training the foundational model and the implementation of ethical safeguards. We thus underline the responsibilities and dangers of user-driven modifications, and the broader effects that these may have on the design of safeguarding and ethical modules implemented by AI programmers.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# デジタル影響の復号化:ロジスティック属性法による科学的階層化におけるソーシャルメディア行動の役割

Decoding Digital Influence: The Role of Social Media Behavior in Scientific Stratification Through Logistic Attribution Method ( http://arxiv.org/abs/2407.15854v1 )

ライセンス: Link先を確認
Yang Yue, (参考訳) 科学社会成層は科学社会学の古典的なテーマである。 ソーシャルメディアの深い統合は、サイエントメトリックスと科学社会学のギャップを埋めてきた。 本研究は,ソーシャルメディアが科学的階層化と移動性に与える影響を包括的に分析し,デジタル時代における学術的地位とソーシャルメディア活動の複雑な相互作用を考察する。 研究方法]イノベーティブなロジスティック属性分析をメソレベルの視点で導入し,ソーシャルメディアの行動と科学的社会階層化の相関について検討する。 デジタル時代における科学者のソーシャルメディア利用が科学的階層化と移動性に及ぼす影響を考察し、統計的手法と機械学習を一意に組み合わせた。 この融合は仮説テストとモデルへの独立変数の寄与の実質的な解釈を効果的に統合する。 研究結論]ソーシャルメディアが科学コミュニティ内の成層化と移動を促進し、曖昧で非線形なファシリテーションのメカニズムを明らかにしていることを示す実証的証拠。 ソーシャルメディアの活動は科学的な社会階層における科学者の地位に一定の影響を及ぼすが、特定のしきい値を超えると、この影響は否定的になる。 ソーシャルメディアの出現は、従来の学術出版の限界を超越し、科学的階層化の急激な変化を招き、学術的影響力のための新たなチャネルを開いたことを示している。 さらに,本研究は実験設計の限界を認め,今後の研究方向性を示唆している。

Scientific social stratification is a classic theme in the sociology of science. The deep integration of social media has bridged the gap between scientometrics and sociology of science. This study comprehensively analyzes the impact of social media on scientific stratification and mobility, delving into the complex interplay between academic status and social media activity in the digital age. [Research Method] Innovatively, this paper employs An Explainable Logistic Attribution Analysis from a meso-level perspective to explore the correlation between social media behaviors and scientific social stratification. It examines the impact of scientists' use of social media in the digital age on scientific stratification and mobility, uniquely combining statistical methods with machine learning. This fusion effectively integrates hypothesis testing with a substantive interpretation of the contribution of independent variables to the model. [Research Conclusion] Empirical evidence demonstrates that social media promotes stratification and mobility within the scientific community, revealing a nuanced and non-linear facilitation mechanism. Social media activities positively impact scientists' status within the scientific social hierarchy to a certain extent, but beyond a specific threshold, this impact turns negative. It shows that the advent of social media has opened new channels for academic influence, transcending the limitations of traditional academic publishing, and prompting changes in scientific stratification. Additionally, the study acknowledges the limitations of its experimental design and suggests future research directions.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-23
# 拡張効率:ハイブリッドビジョンによる3次元セマンティックセグメンテーションにおけるメモリフットプリントの削減と推論の高速化

Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision ( http://arxiv.org/abs/2407.16102v1 )

ライセンス: Link先を確認
Aditya Krishnan, Jayneel Vora, Prasant Mohapatra, (参考訳) セマンティックセグメンテーション(Semantic segmentation)はコンピュータビジョンにおける重要な研究領域として現れ、シーン理解と様々な領域における人間と機械の相互作用の高揚に深く影響している。 2Dセマンティックセグメンテーションは、軽量で高精度なモデルという形で大きな進歩を遂げてきたが、3Dセマンティックセグメンテーションへの移行は異なる課題をもたらす。 本研究は,3次元セマンティックセグメンテーションモデルの効率性と軽量化に焦点をあてる。 このような設計は、メモリとレイテンシが懸念される3Dセマンティックセグメンテーションの応用に影響を与える。 本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーション手法を提案する。 3D 点クラウドにリンクした RGB 画像に対して 2D セマンティックセマンティックセマンティックセマンティクスを行い,その結果をクラスラベルの押出法を用いて 3D に拡張し,点クラウド部分空間を小さくする。 We performed rigorous evaluation with the DeepViewAgg model on the complete point cloud as our baseline by measured the Intersection over Union (IoU) accuracy, inference time latency, and memory consumption。 このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。 その結果,15クラス中6クラスのベースラインを上回り,残りのクラスラベルのベースライン以下では1%の差を保ちながら,精度の向上を実現できた。 我々のセグメンテーションアプローチは、ベースラインに比べて1.347倍のスピードアップと約43%のメモリ使用量の削減を示している。

Semantic segmentation has emerged as a pivotal area of study in computer vision, offering profound implications for scene understanding and elevating human-machine interactions across various domains. While 2D semantic segmentation has witnessed significant strides in the form of lightweight, high-precision models, transitioning to 3D semantic segmentation poses distinct challenges. Our research focuses on achieving efficiency and lightweight design for 3D semantic segmentation models, similar to those achieved for 2D models. Such a design impacts applications of 3D semantic segmentation where memory and latency are of concern. This paper introduces a novel approach to 3D semantic segmentation, distinguished by incorporating a hybrid blend of 2D and 3D computer vision techniques, enabling a streamlined, efficient process. We conduct 2D semantic segmentation on RGB images linked to 3D point clouds and extend the results to 3D using an extrusion technique for specific class labels, reducing the point cloud subspace. We perform rigorous evaluations with the DeepViewAgg model on the complete point cloud as our baseline by measuring the Intersection over Union (IoU) accuracy, inference time latency, and memory consumption. This model serves as the current state-of-the-art 3D semantic segmentation model on the KITTI-360 dataset. We can achieve heightened accuracy outcomes, surpassing the baseline for 6 out of the 15 classes while maintaining a marginal 1% deviation below the baseline for the remaining class labels. Our segmentation approach demonstrates a 1.347x speedup and about a 43% reduced memory usage compared to the baseline.
翻訳日:2024-07-24 19:05:22 公開日:2024-07-23
# 強化学習ペアトレーディング - 動的スケーリングアプローチ

Reinforcement Learning Pair Trading: A Dynamic Scaling approach ( http://arxiv.org/abs/2407.16103v1 )

ライセンス: Link先を確認
Hongshen Yang, Avinash Malik, (参考訳) 暗号通貨は暗号ベースのデジタル資産であり、非常に不安定な価格である。 700億ドル相当の暗号通貨が取引所で毎日取引されている。 暗号通貨の取引は、暗号市場固有のボラティリティのために困難である。 この研究で我々は、「人工知能のCan Techniqueは暗号通貨をアルゴリズムで取引するのに役立つか?」という仮説を検証したい。 この問題に対処するために、強化学習(RL)とペアトレーディングを組み合わせる。 ペアトレーディングは統計的に相関した資産間の価格差を利用する統計仲裁取引技術である。 私たちは、暗号通貨のペアをいつ、どのように取引するかを決定するために、強化学習者を訓練します。 我々は、強化学習のための新たな報酬形成と観察・行動空間を開発する。 1分間隔 (n = 263,520) で分割したBTC-GBPとBTC-EURのペアを用いた強化学習実験を行った。 従来の非RLペアトレーディング技術は年間利益8.33%、提案されたRLベースのペアトレーディング技術は年間利益9.94%から31.53%を達成した。 以上の結果から,RLは暗号通貨などの不安定な市場に適用した場合,手動および従来型のペア取引技術よりも大幅に優れることが示された。

Cryptocurrency is a cryptography-based digital asset with extremely volatile prices. Around $70 billion worth of crypto-currency is traded daily on exchanges. Trading crypto-currency is difficult due to the inherent volatility of the crypto-market. In this work, we want to test the hypothesis: "Can techniques from artificial intelligence help with algorithmically trading cryptocurrencies?". In order to address this question, we combine Reinforcement Learning (RL) with pair trading. Pair trading is a statistical arbitrage trading technique which exploits the price difference between statistically correlated assets. We train reinforcement learners to determine when and how to trade pairs of cryptocurrencies. We develop new reward shaping and observation/action spaces for reinforcement learning. We performed experiments with the developed reinforcement learner on pairs of BTC-GBP and BTC-EUR data separated by 1-minute intervals (n = 263,520). The traditional non-RL pair trading technique achieved an annualised profit of 8.33%, while the proposed RL-based pair trading technique achieved annualised profits from 9.94% - 31.53%, depending upon the RL learner. Our results show that RL can significantly outperform manual and traditional pair trading techniques when applied to volatile markets such as cryptocurrencies.
翻訳日:2024-07-24 19:05:22 公開日:2024-07-23
# テンソルネットワークを用いたHOBOソルバー

Tensor Network Based HOBO Solver ( http://arxiv.org/abs/2407.16106v1 )

ライセンス: Link先を確認
Yuichiro Minato, (参考訳) 量子コンピューティングの分野では、組合せ最適化問題は通常QUBO(Quadratic Unconstrained Binary Optimization)解決器を用いて解決される。 しかし、これらの解法は高次問題に対処するには不十分であることが多い。 本稿では,HOBO(Higher-Order Binary Optimization)問題設定に特化して設計された,新規で効率的な解法を提案する。 提案手法は,高次元最適化タスクに関連する複雑性と計算要求を効果的に管理するために,高度な手法を活用する。 提案した解法は、定式化の観点から将来の拡張に有意義な可能性を持つ有望なツールである。 この解法は、量子コンピューティングにおける幅広い応用の有望な可能性を持っている。

In the field of quantum computing, combinatorial optimization problems are typically addressed using QUBO (Quadratic Unconstrained Binary Optimization) solvers. However, these solvers are often insufficient for tackling higher-order problems. In this paper, we introduce a novel and efficient solver designed specifically for HOBO (Higher-Order Binary Optimization) problem settings. Our approach leverages advanced techniques to effectively manage the complexity and computational demands associated with high-dimensional optimization tasks. The proposed solver is a promising tool with significant potential for future extensions in terms of formulation. This solver holds promising potential for a wide range of applications in quantum computing.
翻訳日:2024-07-24 19:05:21 公開日:2024-07-23
# 量子プロセッサの効率的な変分量子固有解法

Efficient variational quantum eigensolver methodologies on quantum processors ( http://arxiv.org/abs/2407.16107v1 )

ライセンス: Link先を確認
Tushar Pandey, Jason Saroni, Abdullah Kazi, Kartik Sharma, (参考訳) 分子BeH2の基底状態を見つけるための異なる手法の性能を比較した。 適応型, テトリス適応型変分量子固有解器(VQE)とエンタングルメント鍛造を実装し, 計算資源の要求を低減した。 我々は,IBM量子処理ユニット上でVQE実験を行い,TREX(twirled readout error extinction)やZNE(zero-noise extrapolation)などのエラー低減手法を用いてノイズを低減する。 本研究は, ノイズ量子ハードウェアにおけるVQEの有用性を実証し, 大分子に対するVQE関連手法の活用の道を開くものである。

We compare the performance of different methodologies for finding the ground state of the molecule BeH2. We implement adaptive, tetris-adaptive variational quantum eigensolver (VQE), and entanglement forging to reduce computational resource requirements. We run VQE experiments on IBM quantum processing units and use error mitigation, including twirled readout error extinction (TREX) and zero-noise extrapolation (ZNE) to reduce noise. Our results affirm the usefulness of VQE on noisy quantum hardware and pave the way for the usage of VQE related methods for large molecules.
翻訳日:2024-07-24 19:05:21 公開日:2024-07-23
# セマンティック細胞を用いた遺伝子組換えの進化解析

Analyzing the Polysemy Evolution using Semantic Cells ( http://arxiv.org/abs/2407.16110v1 )

ライセンス: Link先を確認
Yukio Ohsawa, Dingming Xue, Kaira Sekiguchi, (参考訳) 言葉の感覚は進化する。 同じ単語の感覚は、今日から明日に変化し、同じ単語の複数の感覚は、お互いの進化の結果であるかもしれない。 Jubaを進化するエコシステムとみなすならば、言葉の感覚で動かない正しい答えを学ぶというパラダイムはもはや有効ではありません。 本論文は, 単語の多義性は, 著者らが提示したセマンティックセルの改変の進化的帰結であることを示すケーススタディであり, 短い文の現在の集合を分析する例として, 初期状態に少量の多様性を導入することによって, 著者らが提示した。 特に、Chat GPTを用いて収集された単語Springの4つの感覚のそれぞれに対して、ある順序で1000文の文列を解析すると、その単語が、その感覚が進化した順番に配列されたときに、分析において最も多節的に取得されることを示す。 言い換えれば、単語の獲得したポリセミーのダイナミズムを進化とともに分析する方法と、同時に、学習ベースではなく進化フレームワークからポリセミーを見る方法を提案する。

The senses of words evolve. The sense of the same word may change from today to tomorrow, and multiple senses of the same word may be the result of the evolution of each other, that is, they may be parents and children. If we view Juba as an evolving ecosystem, the paradigm of learning the correct answer, which does not move with the sense of a word, is no longer valid. This paper is a case study that shows that word polysemy is an evolutionary consequence of the modification of Semantic Cells, which has al-ready been presented by the author, by introducing a small amount of diversity in its initial state as an example of analyzing the current set of short sentences. In particular, the analysis of a sentence sequence of 1000 sentences in some order for each of the four senses of the word Spring, collected using Chat GPT, shows that the word acquires the most polysemy monotonically in the analysis when the senses are arranged in the order in which they have evolved. In other words, we present a method for analyzing the dynamism of a word's acquiring polysemy with evolution and, at the same time, a methodology for viewing polysemy from an evolutionary framework rather than a learning-based one.
翻訳日:2024-07-24 19:05:21 公開日:2024-07-23
# AIoTバッテリスワップサービスにおけるバッテリレンジ予測のためのトランスフォーマーベースグラフニューラルネットワーク

Transformer-based Graph Neural Networks for Battery Range Prediction in AIoT Battery-Swap Services ( http://arxiv.org/abs/2407.16115v1 )

ライセンス: Link先を確認
Zhao Li, Yang Liu, Chuan Zhou, Xuanwu Liu, Xuming Pan, Buqing Cao, Xindong Wu, (参考訳) 共有経済の概念は広く認知され、この文脈の中では、共有E-Bike Battery (SEB) が社会的な関心の焦点となっている。 人気にもかかわらず、SEBの残りのバッテリー範囲に関するユーザの期待と現実との相違は相変わらず残っており、緊急時に使用可能なSEBを見つけるためのユーザーの傾向は顕著である。 この課題に対して、AIoT(Artificial Intelligence of Things)とバッテリスワップサービスの統合が、実行可能なソリューションとして浮上した。 本稿では,SEBのバッテリ範囲の予測に特化して設計された,SEB-Transformerと呼ばれる構造トランスモデルを提案する。 このシナリオは、ユーザと自転車間のインタラクションをカプセル化した動的異種グラフとして概念化され、分析のための包括的なフレームワークを提供する。 さらに, グラフ構造をSEB-Transformerに組み込んで, 残余のe-bikeバッテリ範囲を推定し, 平均構造的類似性とともに予測精度を向上させる。 モデルによる予測を利用することで,充電ステーションの戦略的位置を考慮しつつ,ユーザの最適なサイクリング経路を動的に調整し,ユーザエクスペリエンスを最適化することができる。 実世界のデータセットに対する我々の結果は、9つの競争基準に対する我々のモデルの優位性を実証している。 これらのイノベーションは、AIoTをベースとして、ユーザの期待とバッテリ範囲の物理的な制限のギャップを埋めるだけでなく、SEBサービスの運用効率と持続可能性を大幅に改善する。 これらの進歩を通じて、共有電動自転車のエコシステムは進化し、より信頼性が高く、ユーザフレンドリで、持続可能な交通手段へと向かっている。

The concept of the sharing economy has gained broad recognition, and within this context, Sharing E-Bike Battery (SEB) have emerged as a focal point of societal interest. Despite the popularity, a notable discrepancy remains between user expectations regarding the remaining battery range of SEBs and the reality, leading to a pronounced inclination among users to find an available SEB during emergency situations. In response to this challenge, the integration of Artificial Intelligence of Things (AIoT) and battery-swap services has surfaced as a viable solution. In this paper, we propose a novel structural Transformer-based model, referred to as the SEB-Transformer, designed specifically for predicting the battery range of SEBs. The scenario is conceptualized as a dynamic heterogeneous graph that encapsulates the interactions between users and bicycles, providing a comprehensive framework for analysis. Furthermore, we incorporate the graph structure into the SEB-Transformer to facilitate the estimation of the remaining e-bike battery range, in conjunction with mean structural similarity, enhancing the prediction accuracy. By employing the predictions made by our model, we are able to dynamically adjust the optimal cycling routes for users in real-time, while also considering the strategic locations of charging stations, thereby optimizing the user experience. Empirically our results on real-world datasets demonstrate the superiority of our model against nine competitive baselines. These innovations, powered by AIoT, not only bridge the gap between user expectations and the physical limitations of battery range but also significantly improve the operational efficiency and sustainability of SEB services. Through these advancements, the shared electric bicycle ecosystem is evolving, making strides towards a more reliable, user-friendly, and sustainable mode of transportation.
翻訳日:2024-07-24 19:05:21 公開日:2024-07-23
# ベクトル場データの視覚解析のための不確実性を考慮した深部神経表現

Uncertainty-Aware Deep Neural Representations for Visual Analysis of Vector Field Data ( http://arxiv.org/abs/2407.16119v1 )

ライセンス: Link先を確認
Atul Kumar, Siddharth Garg, Soumya Dutta, (参考訳) 近年,Deep Neural Networks (DNN) が普及し,科学的可視化タスクへの応用が進んでいる。 高度なDNNは優れた一般化能力を示しているが、予測品質、信頼性、堅牢性、不確実性などの理解要素は不可欠である。 これらの洞察は、アプリケーション科学者が情報的な決定を下すのに役立つ。 しかし、DNNには予測の不確実性を測定するための固有のメカニズムが欠如しており、様々な可視化タスクに適した堅牢な不確実性認識モデルを構築するための異なるフレームワークが作成される。 本研究では,定常ベクトル場を効果的にモデル化するために,不確実性を考慮した暗黙的ニューラル表現を開発する。 本研究では,(1)Deep Ensembleと(2)Monte Carlo Dropoutの2つの基本的不確実性推定手法の有効性を総合的に評価する。 いくつかのベクトルデータセットを用いて詳細な探索を行ったところ、不確実性を考慮したモデルがベクトル場の特徴の情報可視化結果を生成することが示唆された。 さらに,予測の不確実性を取り入れることで,DNNモデルのレジリエンスと解釈性が向上し,非自明なベクトル場データの解析に適用できる。

The widespread use of Deep Neural Networks (DNNs) has recently resulted in their application to challenging scientific visualization tasks. While advanced DNNs demonstrate impressive generalization abilities, understanding factors like prediction quality, confidence, robustness, and uncertainty is crucial. These insights aid application scientists in making informed decisions. However, DNNs lack inherent mechanisms to measure prediction uncertainty, prompting the creation of distinct frameworks for constructing robust uncertainty-aware models tailored to various visualization tasks. In this work, we develop uncertainty-aware implicit neural representations to model steady-state vector fields effectively. We comprehensively evaluate the efficacy of two principled deep uncertainty estimation techniques: (1) Deep Ensemble and (2) Monte Carlo Dropout, aimed at enabling uncertainty-informed visual analysis of features within steady vector field data. Our detailed exploration using several vector data sets indicate that uncertainty-aware models generate informative visualization results of vector field features. Furthermore, incorporating prediction uncertainty improves the resilience and interpretability of our DNN model, rendering it applicable for the analysis of non-trivial vector field data sets.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# スマートモビリティのためのマルチモーダル時空間データの有効融合と予測に向けて

Towards Effective Fusion and Forecasting of Multimodal Spatio-temporal Data for Smart Mobility ( http://arxiv.org/abs/2407.16123v1 )

ライセンス: Link先を確認
Chenxing Wang, (参考訳) 位置情報ベースのサービスの急速な発展に伴い、トラジェクトリ、交通モード、交通の流れ、ソーシャルチェックインを含むマルチモーダル時空間(ST)データをディープラーニングベースの手法で収集している。 これらのディープラーニングベースの手法は、スマートモビリティやスマートシティ、その他のインテリジェント交通システムといった分野における下流タスクを支援するためにST相関を学習する。 その効果にもかかわらず、STデータ融合と予測手法は現実のシナリオにおいて実践的な課題に直面している。 まず,STデータ不足領域の予測性能が劣り,異種領域からメタ知識を伝達してスパース表現を強化する必要がある。 第2に、同様の輸送モードの細粒度ST特徴により、マルチトランスポートモードのシナリオで正確に予測することは簡単ではなく、絡み合ったST特徴の影響を緩和するために、ST相関を識別し、測定する必要がある。 最終的に、一部のデータモダリティ(例えば、輸送モード)は、特定のシナリオにおけるプライバシーや技術的な問題によって失われ、マルチモーダルスパースST機能を効果的に融合し、ST表現を充実させる必要がある。 これらの課題に対処するため,我々は,スマートモビリティシナリオにおけるマルチモーダルSTデータの効率的な融合と予測手法の開発を目標としている。 本稿では,現実の様々な応用の課題を探求する最近の研究を紹介するとともに,今後の研究分野におけるオープンな課題の確立について述べる。

With the rapid development of location based services, multimodal spatio-temporal (ST) data including trajectories, transportation modes, traffic flow and social check-ins are being collected for deep learning based methods. These deep learning based methods learn ST correlations to support the downstream tasks in the fields such as smart mobility, smart city and other intelligent transportation systems. Despite their effectiveness, ST data fusion and forecasting methods face practical challenges in real-world scenarios. First, forecasting performance for ST data-insufficient area is inferior, making it necessary to transfer meta knowledge from heterogeneous area to enhance the sparse representations. Second, it is nontrivial to accurately forecast in multi-transportation-mode scenarios due to the fine-grained ST features of similar transportation modes, making it necessary to distinguish and measure the ST correlations to alleviate the influence caused by entangled ST features. At last, partial data modalities (e.g., transportation mode) are lost due to privacy or technical issues in certain scenarios, making it necessary to effectively fuse the multimodal sparse ST features and enrich the ST representations. To tackle these challenges, our research work aim to develop effective fusion and forecasting methods for multimodal ST data in smart mobility scenario. In this paper, we will introduce our recent works that investigates the challenges in terms of various real-world applications and establish the open challenges in this field for future work.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# Fréchet Video Motion Distance:ビデオにおける動きの一貫性を評価する指標

Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos ( http://arxiv.org/abs/2407.16124v1 )

ライセンス: Link先を確認
Jiahe Liu, Youran Qu, Qi Yan, Xiaohui Zeng, Lele Wang, Renjie Liao, (参考訳) 最近、ビデオ生成モデルにおいて重要な進歩がなされている。 画像生成とは異なり、ビデオ生成は、高品質なフレームを生成するだけでなく、これらのフレーム間の時間的一貫性を確保する必要がある。 目覚ましい進歩にもかかわらず、生成したビデオの品質、特に時間的・運動的一貫性を評価するための指標の研究は、いまだに過小評価されている。 この研究ギャップを埋めるために、ビデオ生成における動きの一貫性を評価するFVMD(Fr\'echet Video Motion Distance)メトリクスを提案する。 具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。 実ビデオにノイズを注入して感度解析を行い,FVMDの有効性を検証する。 さらに、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。 さらに,映像品質評価(VQA)モデルの性能を継続的に改善し,一元的映像品質評価にも適用可能であることを示す。 コードはhttps://github.com/ljh0v0/FMD-frechet-motion-distanceで公開されている。

Significant advancements have been made in video generative models recently. Unlike image generation, video generation presents greater challenges, requiring not only generating high-quality frames but also ensuring temporal consistency across these frames. Despite the impressive progress, research on metrics for evaluating the quality of generated videos, especially concerning temporal and motion consistency, remains underexplored. To bridge this research gap, we propose Fr\'echet Video Motion Distance (FVMD) metric, which focuses on evaluating motion consistency in video generation. Specifically, we design explicit motion features based on key point tracking, and then measure the similarity between these features via the Fr\'echet distance. We conduct sensitivity analysis by injecting noise into real videos to verify the effectiveness of FVMD. Further, we carry out a large-scale human study, demonstrating that our metric effectively detects temporal noise and aligns better with human perceptions of generated video quality than existing metrics. Additionally, our motion features can consistently improve the performance of Video Quality Assessment (VQA) models, indicating that our approach is also applicable to unary video quality evaluation. Code is available at https://github.com/ljh0v0/FMD-frechet-motion-distance.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# 雑音逆問題に対する拡散事前ベース補正変分推定

Diffusion Prior-Based Amortized Variational Inference for Noisy Inverse Problems ( http://arxiv.org/abs/2407.16125v1 )

ライセンス: Link先を確認
Sojin Lee, Dogyun Park, Inho Kong, Hyunwoo J. Kim, (参考訳) 逆問題に関する最近の研究は、事前学習した拡散モデルを強力な先行モデルとして活用する後部サンプリング器を提案している。 これらの試みは、幅広い逆問題における拡散モデルの使用方法の道を開いた。 しかし,既存の手法では反復サンプリングの手順を計算的に要求し,各測定値に対して個別の解を最適化する必要があり,拡張性に限界があり,未確認のサンプルにまたがる一般化能力が欠如している。 これらの制約に対処するため, 拡散前変分推論(DAVI)という新しい手法を提案し, 償却時変分推論の観点から, 拡散による逆問題を解決する。 具体的には、計測の最適化を別々に行う代わりに、アモートされた推論は、測定結果を対応するクリーンデータの暗黙的な後部分布に直接マッピングする関数を学習し、未知の計測であっても単一ステップの後部サンプリングを可能にする。 画像復元タスク(例:Gaussian deblur, 4$\times$ super- resolution, and box inpainting with two benchmark datasets)に関する大規模な実験は、我々のアプローチが強いベースラインよりも優れていることを実証している。 コードはhttps://github.com/mlvlab/DAVI.comで入手できる。

Recent studies on inverse problems have proposed posterior samplers that leverage the pre-trained diffusion models as powerful priors. These attempts have paved the way for using diffusion models in a wide range of inverse problems. However, the existing methods entail computationally demanding iterative sampling procedures and optimize a separate solution for each measurement, which leads to limited scalability and lack of generalization capability across unseen samples. To address these limitations, we propose a novel approach, Diffusion prior-based Amortized Variational Inference (DAVI) that solves inverse problems with a diffusion prior from an amortized variational inference perspective. Specifically, instead of separate measurement-wise optimization, our amortized inference learns a function that directly maps measurements to the implicit posterior distributions of corresponding clean data, enabling a single-step posterior sampling even for unseen measurements. Extensive experiments on image restoration tasks, e.g., Gaussian deblur, 4$\times$ super-resolution, and box inpainting with two benchmark datasets, demonstrate our approach's superior performance over strong baselines. Code is available at https://github.com/mlvlab/DAVI.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# MxT:Mamba x Transformer for Image Inpainting

MxT: Mamba x Transformer for Image Inpainting ( http://arxiv.org/abs/2407.16126v1 )

ライセンス: Link先を確認
Shuang Chen, Amir Atapour-Abarghouei, Haozheng Zhang, Hubert P. H. Shum, (参考訳) 画像インペインティング(英: Image inpainting)または画像補完(英: Image completion)は、セマンティック・コヒーレントなコンテンツを用いて、画像の欠落または損傷領域を復元することを目的としたコンピュータビジョンにおける重要なタスクである。 この技術は、復元された画像が周囲とシームレスに統合されるように、局所的なテクスチャ複製とグローバルな文脈理解の正確なバランスを必要とする。 畳み込みニューラルネットワーク(CNN)を用いた従来の手法は、局所的なパターンを捉えるのに有効であるが、受容領域が限られているため、より広い文脈の関係に苦慮することが多い。 近年の進歩はトランスフォーマーを取り入れ、グローバルな相互作用を理解する能力を活用している。 しかし、これらの手法は計算の非効率さに直面し、細かな詳細を維持するのに苦労する。 これらの課題を克服するために,Mamba と変換器を相乗的に組み合わせたHybrid Module (HM) を用いた MxT を提案する。 Mambaは、線形計算コストで効率よく長いシーケンスを処理できるので、大規模なデータインタラクションを扱うための変換器の理想的な補完となる。 我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。 我々は、広く使われているCelebA-HQとPlaces2-standardデータセット上でMxTを評価し、既存の最先端手法を一貫して上回りました。

Image inpainting, or image completion, is a crucial task in computer vision that aims to restore missing or damaged regions of images with semantically coherent content. This technique requires a precise balance of local texture replication and global contextual understanding to ensure the restored image integrates seamlessly with its surroundings. Traditional methods using Convolutional Neural Networks (CNNs) are effective at capturing local patterns but often struggle with broader contextual relationships due to the limited receptive fields. Recent advancements have incorporated transformers, leveraging their ability to understand global interactions. However, these methods face computational inefficiencies and struggle to maintain fine-grained details. To overcome these challenges, we introduce MxT composed of the proposed Hybrid Module (HM), which combines Mamba with the transformer in a synergistic manner. Mamba is adept at efficiently processing long sequences with linear computational costs, making it an ideal complement to the transformer for handling long-scale data interactions. Our HM facilitates dual-level interaction learning at both pixel and patch levels, greatly enhancing the model to reconstruct images with high quality and contextual accuracy. We evaluate MxT on the widely-used CelebA-HQ and Places2-standard datasets, where it consistently outperformed existing state-of-the-art methods.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# 知識グラフ補完のための識別命令付き生成型大規模言語モデル

Finetuning Generative Large Language Models with Discrimination Instructions for Knowledge Graph Completion ( http://arxiv.org/abs/2407.16127v1 )

ライセンス: Link先を確認
Yang Liu, Xiaobin Tian, Zequn Sun, Wei Hu, (参考訳) 伝統的な知識グラフ(KG)補完モデルは、不足した事実を予測するために埋め込みを学ぶ。 最近の研究は、大きな言語モデル(LLM)でテキスト生成方式でKGを完成させようとしている。 しかし、LLMの出力をKGエンティティに基盤としておく必要があるため、必然的にエラーが発生する。 本稿では,LLMのKG完了能力を解き放ち,グラウンディングエラーを回避するためのファインタニングフレームワークであるDIFTを提案する。 不完全な事実を前提として、DIFTは軽量モデルを用いて候補エンティティを取得し、LLMを識別命令で微調整し、与えられた候補から正しい候補を選択する。 命令データを減らしながら性能を向上させるため、DIFTは切り抜きサンプリング法を用いて、KG埋め込みをLLMに注入し、微調整する有用な事実を選択する。 ベンチマークデータセットの大規模な実験により,提案フレームワークの有効性が示された。

Traditional knowledge graph (KG) completion models learn embeddings to predict missing facts. Recent works attempt to complete KGs in a text-generation manner with large language models (LLMs). However, they need to ground the output of LLMs to KG entities, which inevitably brings errors. In this paper, we present a finetuning framework, DIFT, aiming to unleash the KG completion ability of LLMs and avoid grounding errors. Given an incomplete fact, DIFT employs a lightweight model to obtain candidate entities and finetunes an LLM with discrimination instructions to select the correct one from the given candidates. To improve performance while reducing instruction data, DIFT uses a truncated sampling method to select useful facts for finetuning and injects KG embeddings into the LLM. Extensive experiments on benchmark datasets demonstrate the effectiveness of our proposed framework.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# プログレッシブ・セルフペースト学習による脳画像解析のステップバイステップ向上

Advancing Brain Imaging Analysis Step-by-step via Progressive Self-paced Learning ( http://arxiv.org/abs/2407.16128v1 )

ライセンス: Link先を確認
Yanwu Yang, Hairui Chen, Jiesi Hu, Xutao Guo, Ting Ma, (参考訳) 近年のディープラーニングの進歩は、脳画像解析の発展に変化をもたらした。 しかし、不均一性、個人差、高次元と小さな脳画像データセットの矛盾など、いくつかの課題が残っている。 これらの問題は学習プロセスを複雑にし、モデルが本質的で有意義なパターンを捉えないことを防ぎ、バイアスや過度な適合によって最適以下のパフォーマンスにつながる可能性がある。 カリキュラム学習(CL)は、簡単なものから複雑なものまでトレーニング例を整理し、人間の学習プロセスを模倣し、より堅牢で正確なモデルの開発を促進することによって、有望なソリューションを提供する。 その可能性にもかかわらず、小さな初期トレーニングデータセットによって引き起こされる固有の制限は、過度な適合や一般化の欠如など、重大な課題を呈している。 本稿では, 適応的かつプログレッシブなペーシングと蒸留機構を応用した, プログレッシブセルフペースト蒸留(PSPD)フレームワークについて紹介する。 これにより、過去のモデルと現在のモデルの両方の状態に基づいた動的カリキュラムの調整が可能になる。 過去のモデルは教師として機能し、徐々に洗練されたカリキュラム知識で現在のモデルを指導し、以前取得した知識の喪失を防ぐのに役立つ。 我々は、アルツハイマー病神経画像イニシアチブ(ADNI)データセットを用いて、様々な畳み込みニューラルネットワークにおけるPSPDの有効性と適応性を検証する。 このアプローチのソースコードはhttps://github.com/Hrychen7/PSPDで公開される。

Recent advancements in deep learning have shifted the development of brain imaging analysis. However, several challenges remain, such as heterogeneity, individual variations, and the contradiction between the high dimensionality and small size of brain imaging datasets. These issues complicate the learning process, preventing models from capturing intrinsic, meaningful patterns and potentially leading to suboptimal performance due to biases and overfitting. Curriculum learning (CL) presents a promising solution by organizing training examples from simple to complex, mimicking the human learning process, and potentially fostering the development of more robust and accurate models. Despite its potential, the inherent limitations posed by small initial training datasets present significant challenges, including overfitting and poor generalization. In this paper, we introduce the Progressive Self-Paced Distillation (PSPD) framework, employing an adaptive and progressive pacing and distillation mechanism. This allows for dynamic curriculum adjustments based on the states of both past and present models. The past model serves as a teacher, guiding the current model with gradually refined curriculum knowledge and helping prevent the loss of previously acquired knowledge. We validate PSPD's efficacy and adaptability across various convolutional neural networks using the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, underscoring its superiority in enhancing model performance and generalization capabilities. The source code for this approach will be released at https://github.com/Hrychen7/PSPD.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# FoRA:マルチモーダル・シームズネットワークを越えた低ランク適応モデル

FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network ( http://arxiv.org/abs/2407.16129v1 )

ライセンス: Link先を確認
Weiying Xie, Yusi Zhang, Tianlin Hui, Jiaqing Zhang, Jie Lei, Yunsong Li, (参考訳) マルチモーダル物体検出は、様々な視覚条件下で堅牢な検出を容易にするための有望な展望を提供する。 しかし、既存の2ストリームのバックボーンネットワークは、複雑な融合と実質的なパラメータの増大によって挑戦される。 これは主に多モード同種情報の大規模なデータ分布バイアスによるものである。 本稿では,LMA(Low-rank Modal Adaptors)と呼ばれる,共有バックボーンを有する新しいマルチモーダル物体検出器を提案する。 共有パラメータは均質情報の整合性を高め、軽量なモーダルアダプタはモダリティ固有の特徴に重点を置いている。 さらに,異なる特徴レベルの異質性に対応するために,適応的なランク割り当て戦略を設計する。 2つのマルチモーダル物体検出データセットに適用した場合,本手法の有効性を検証した。 特筆すべきは、DroneVehicleでは、LMAは最先端の手法よりも10.4%精度が向上し、149Mパラメータが削減されたことである。 コードはhttps://github.com/zyszxhy/FoRAで公開されている。 作業は2024年4月にACM MMに提出されたが拒否された。 今後,FoRAの理論実証やマルチタスクの応用など,研究と論文の執筆を続行していく。

Multimodal object detection offers a promising prospect to facilitate robust detection in various visual conditions. However, existing two-stream backbone networks are challenged by complex fusion and substantial parameter increments. This is primarily due to large data distribution biases of multimodal homogeneous information. In this paper, we propose a novel multimodal object detector, named Low-rank Modal Adaptors (LMA) with a shared backbone. The shared parameters enhance the consistency of homogeneous information, while lightweight modal adaptors focus on modality unique features. Furthermore, we design an adaptive rank allocation strategy to adapt to the varying heterogeneity at different feature levels. When applied to two multimodal object detection datasets, experiments validate the effectiveness of our method. Notably, on DroneVehicle, LMA attains a 10.4% accuracy improvement over the state-of-the-art method with a 149M-parameters reduction. The code is available at https://github.com/zyszxhy/FoRA. Our work was submitted to ACM MM in April 2024, but was rejected. We will continue to refine our work and paper writing next, mainly including proof of theory and multi-task applications of FoRA.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# グラフ上の変圧器付き結晶, 非伝統的な結晶物性の予測とベンチマーク

Crystals with Transformers on Graphs, for Prediction of Unconventional Crystal Material Properties and the Benchmark ( http://arxiv.org/abs/2407.16131v1 )

ライセンス: Link先を確認
Hongyi Wang, Ji Sun, Jinzhe Liang, Li Zhai, Zitian Tang, Zijian Li, Wei Zhai, Xusheng Wang, Weihao Gao, Sheng Gong, Bolong Huang, Hua Zhang, (参考訳) 格子を横切るイオン結合と秩序のある顕微鏡構造は、独特の対称性を持つ結晶を包含し、そのマクロな性質を決定づける。 特に非伝統的な結晶は、非古典的な格子構造を示すか、またはエキゾチックな物理的性質を持つため、研究対象として興味をそそる。 したがって、結晶の物理的および化学的性質を正確に予測するためには、長距離秩序を考えることが重要である。 GNNは結晶中の原子の局所的な環境を捉えるのに優れていますが、その深さが限られているため、しばしば長距離の相互作用を効果的に捉えるという課題に直面します。 本稿では,非古典結晶系に特化して設計された新しい変圧器ベースの幾何グラフネットワークであるCrysToGraph ($\textbf{Crys}$tals with $\textbf{T}$ransformers $\textbf{o}$n $\textbf{Graph}$sと,欠陥結晶,低次元結晶,MOFなどの非古典結晶材料に対するモデル予測性能を評価するための総合ベンチマークであるUnconvBenchを提案する。 CrysToGraphは、トランスフォーマーベースのグラフ畳み込みブロックと、グラフワイドトランスフォーマーブロックとの長距離インタラクションを効果的にキャプチャする。 CrysToGraphは、非伝統的な結晶材料を複数のタスクでモデル化する効果を証明し、また、非伝統的な結晶と伝統的な結晶の両方のベンチマークにおいて、新しい最先端の結果を達成して、既存の方法よりも優れていることを証明している。

The ionic bonding across the lattice and ordered microscopic structures endow crystals with unique symmetry and determine their macroscopic properties. Unconventional crystals, in particular, exhibit non-traditional lattice structures or possess exotic physical properties, making them intriguing subjects for investigation. Therefore, to accurately predict the physical and chemical properties of crystals, it is crucial to consider long-range orders. While GNN excels at capturing the local environment of atoms in crystals, they often face challenges in effectively capturing longer-ranged interactions due to their limited depth. In this paper, we propose CrysToGraph ($\textbf{Crys}$tals with $\textbf{T}$ransformers $\textbf{o}$n $\textbf{Graph}$s), a novel transformer-based geometric graph network designed specifically for unconventional crystalline systems, and UnconvBench, a comprehensive benchmark to evaluate models' predictive performance on unconventional crystal materials such as defected crystals, low-dimension crystals and MOF. CrysToGraph effectively captures short-range interactions with transformer-based graph convolution blocks as well as long-range interactions with graph-wise transformer blocks. CrysToGraph proofs its effectiveness in modelling unconventional crystal materials in multiple tasks, and moreover, it outperforms most existing methods, achieving new state-of-the-art results on the benchmarks of both unconventional crystals and traditional crystals.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# ユーザは罪悪感を感じている: マルウェア配布のためのYouTube上の違法ソフトウェアインストールガイドビデオの測定

Users Feel Guilty: Measurement of Illegal Software Installation Guide Videos on YouTube for Malware Distribution ( http://arxiv.org/abs/2407.16132v1 )

ライセンス: Link先を確認
Rei Yamagishi, Shota Fujii, Tatsuya Mori, (参考訳) 本研究では,人気ビデオ共有プラットフォームを活用した高度なマルウェア配布手法を紹介し,検討する。 この攻撃では、脅威アクターは、プレミアムソフトウェアとゲーム不正の無料バージョンを約束する偽のコンテンツを通じてマルウェアを配布する。 本稿では,この攻撃をMalTubeと呼ぶ。 MalTubeは、違法行為の可能性を秘めているユーザーの罪悪感を悪用し、感染を報告したり、助けを求める機会を減らしている。 そこで我々は,MalTubeの大規模活動を検出し,監視し,分析する新しい監視システムである,ビデオプラットフォーム利用偵察VIPERを開発した。 4ヶ月にわたるデータ収集期間において、VIPERは14,363の動画、8,671の関連チャンネル、1,269のユニークな完全に資格のあるドメイン名をマルウェアのダウンロードに関連づけて処理し分析した。 この結果,MalTube攻撃者は主に若手ゲーマーを対象としており,フリーソフトウェアとゲーム不正を感染ベクトルとして用いていることがわかった。 攻撃者は、ユーザエンゲージメントを最大化し、マルウェアの伝播を成功させるために、様々な高度なソーシャルエンジニアリング技術を使用している。 これらの手法には、トレンドキーワード、エモティコン、アイキャッチサムネイルなどのプラットフォーム固有の特徴の戦略的利用が含まれる。 これらの戦略は、マルウェア感染の詳細な指示を提供しながら、正当なコンテンツ作成戦略を忠実に模倣している。 詳細な分析に基づいて,MalTubeビデオの不変特性を利用した堅牢な検出・緩和戦略を提案し,自動脅威検出・防止の可能性を秘めている。

This study introduces and examines a sophisticated malware distribution technique that exploits popular video sharing platforms. In this attack, threat actors distribute malware through deceptive content that promises free versions of premium software and game cheats. Throughout this paper, we call this attack MalTube. MalTube is particularly insidious because it exploits the guilt feelings of users for engaging in potentially illegal activity, making them less likely to report the infection or ask for a help. To investigate this emerging threat, we developed video platform exploitation reconnaissance VIPER, a novel monitoring system designed to detect, monitor, and analyze MalTube activity at scale. Over a four-month data collection period, VIPER processed and analyzed 14,363 videos, 8,671 associated channels, and 1,269 unique fully qualified domain names associated with malware downloads. Our findings reveal that MalTube attackers primarily target young gamers, using the lure of free software and game cheats as infection vectors. The attackers employ various sophisticated social engineering techniques to maximize user engagement and ensure successful malware propagation. These techniques include the strategic use of platform-specific features such as trending keywords, emoticons, and eye-catching thumbnails. These tactics closely mimic legitimate content creation strategies while providing detailed instructions for malware infection. Based on our in-depth analysis, we propose a set of robust detection and mitigation strategies that exploit the invariant characteristics of MalTube videos, offering the potential for automated threat detection and prevention.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# オープンセットバイオメトリックス:良いクローズドセットモデルを超えて

Open-Set Biometrics: Beyond Good Closed-Set Models ( http://arxiv.org/abs/2407.16133v1 )

ライセンス: Link先を確認
Yiyang Su, Minchul Kim, Feng Liu, Anil Jain, Xiaoming Liu, (参考訳) バイオメトリック認識は、全ての被験者がギャラリーにいると仮定して、主にクローズドセットの識別に対処してきた。 しかし、ほとんどの実用的な応用は、調査対象がギャラリーに存在しているかもしれないし存在しないかもしれないオープンセットのバイオメトリックスである。 これは、ギャラリー内の個人を効果的に区別すると同時に、誤検出を最小限に抑えるという、明確な課題を提起する。 強力な生体モデルが閉集合と開集合の両方のシナリオで優れていると一般的に信じられているが、既存の損失関数は開集合評価と矛盾しない。 彼らは真の(マッド)と非マッド)類似度スコアを対称的に扱い、イモスタースコアの相対的な大きさを無視する。 これらの課題に対処するために、トレーニング中にミニバッチを用いてオープンセット評価をシミュレートし、(1)選択しきい値下でのオープンセット性能に最適化された識別-検出損失と(2)相対しきい値の最小化を行い、各プローブの最大負のスコアを低減する。 顔認証,歩行認識,人物再同定など,多様な生体計測タスクにおいて,提案した損失関数の有効性を実証し,クローズドセット性能に肯定的な影響を与えながらオープンセット性能を著しく向上させる実験を行った。 私たちのコードとモデルはhttps://github.com/prevso1088/open-set-biometricsで利用可能です。

Biometric recognition has primarily addressed closed-set identification, assuming all probe subjects are in the gallery. However, most practical applications involve open-set biometrics, where probe subjects may or may not be present in the gallery. This poses distinct challenges in effectively distinguishing individuals in the gallery while minimizing false detections. While it is commonly believed that powerful biometric models can excel in both closed- and open-set scenarios, existing loss functions are inconsistent with open-set evaluation. They treat genuine (mated) and imposter (non-mated) similarity scores symmetrically and neglect the relative magnitudes of imposter scores. To address these issues, we simulate open-set evaluation using minibatches during training and introduce novel loss functions: (1) the identification-detection loss optimized for open-set performance under selective thresholds and (2) relative threshold minimization to reduce the maximum negative score for each probe. Across diverse biometric tasks, including face recognition, gait recognition, and person re-identification, our experiments demonstrate the effectiveness of the proposed loss functions, significantly enhancing open-set performance while positively impacting closed-set performance. Our code and models are available at https://github.com/prevso1088/open-set-biometrics.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# 拡散変換器による空間時間依存性のキャプチャ:ガウス過程データの理論

Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data ( http://arxiv.org/abs/2407.16134v1 )

ライセンス: Link先を確認
Hengyu Fu, Zehao Dou, Jiawei Guo, Mengdi Wang, Minshuo Chen, (参考訳) ビデオ生成のためのSoraのバックボーンであるDiffusion Transformerは、拡散モデルのキャパシティを向上し、高忠実なシーケンシャルデータ生成のための新しい道の開拓に成功している。 画像などの静的データとは異なり、シーケンシャルデータは時間単位でインデックスされた連続したデータフレームで構成され、豊富な空間的および時間的依存関係を示す。 これらの依存関係は、基盤となる動的モデルを表し、生成されたデータの検証に不可欠である。 本稿では,空間的時間的依存関係を捉えるための拡散変圧器のブリッジ化に向けた最初の理論的ステップについて述べる。 具体的には、様々な減衰パターンの共分散関数を持つガウス過程データを学習するための拡散変換器のスコア近似と分布推定の保証を確立する。 空間的時間的依存が学習効率にどのように影響するかを強調した。 本研究は,変圧器がアルゴリズムを解き放つ作用を持つような,新しい変圧器近似理論を提案する。 我々は数値実験によって理論的結果をサポートし、空間的時間的依存関係が注意層内で捕捉されるという強い証拠を、近似理論と整合して提供する。

Diffusion Transformer, the backbone of Sora for video generation, successfully scales the capacity of diffusion models, pioneering new avenues for high-fidelity sequential data generation. Unlike static data such as images, sequential data consists of consecutive data frames indexed by time, exhibiting rich spatial and temporal dependencies. These dependencies represent the underlying dynamic model and are critical to validate the generated data. In this paper, we make the first theoretical step towards bridging diffusion transformers for capturing spatial-temporal dependencies. Specifically, we establish score approximation and distribution estimation guarantees of diffusion transformers for learning Gaussian process data with covariance functions of various decay patterns. We highlight how the spatial-temporal dependencies are captured and affect learning efficiency. Our study proposes a novel transformer approximation theory, where the transformer acts to unroll an algorithm. We support our theoretical results by numerical experiments, providing strong evidence that spatial-temporal dependencies are captured within attention layers, aligning with our approximation theory.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# 3D-UGCN:単眼RGB画像からのロバストな3次元人物位置推定のための統一グラフ畳み込みネットワーク

3D-UGCN: A Unified Graph Convolutional Network for Robust 3D Human Pose Estimation from Monocular RGB Images ( http://arxiv.org/abs/2407.16137v1 )

ライセンス: Link先を確認
Jie Zhao, Jianing Li, Weihan Chen, Wentong Wang, Pengfei Yuan, Xu Zhang, Deshu Peng, (参考訳) 人間のポーズ推定は、コンピュータビジョンにおける多面的な課題であり、行動認識、人間とコンピュータの相互作用、歩行者追跡など、さまざまな領域に根ざしている。 本稿では,空間時間グラフ畳み込みネットワーク(UGCN)に基づく改良手法を提案する。 改良されたUGCNは、3次元人間のポーズデータを処理し、3次元人間のポーズスケルトン配列を改良し、オクルージョン問題を解消する。

Human pose estimation remains a multifaceted challenge in computer vision, pivotal across diverse domains such as behavior recognition, human-computer interaction, and pedestrian tracking. This paper proposes an improved method based on the spatial-temporal graph convolution net-work (UGCN) to address the issue of missing human posture skeleton sequences in single-view videos. We present the improved UGCN, which allows the network to process 3D human pose data and improves the 3D human pose skeleton sequence, thereby resolving the occlusion issue.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# プロンプト駆動型特徴変換によるフェデレーション学習における特徴分類ミスマッチの処理

Tackling Feature-Classifier Mismatch in Federated Learning via Prompt-Driven Feature Transformation ( http://arxiv.org/abs/2407.16139v1 )

ライセンス: Link先を確認
Xinghao Wu, Jianwei Niu, Xuefeng Liu, Mingjia Shi, Guogang Zhu, Shaojie Tang, (参考訳) FedAvgのような従来のフェデレーテッドラーニングアプローチでは、グローバルモデルはデータの不均一性に直面した場合、パフォーマンスが低下する。 パーソナライズド・フェデレート・ラーニング(PFL)は、パーソナライズされたモデルをトレーニングして、ローカルなデータ分散をより良く適合させることができる。 しかし,FedAvgの特徴抽出器は,ほとんどのPFL法よりも優れていることがわかった。 より興味深いことに、特徴抽出器によって抽出された局所的特徴に線形変換を適用して分類器と整合させることで、FedAvgはPFL法の大部分を超えることができる。 これは、FedAvgの不適切なパフォーマンスの主な原因は、局所的に抽出された特徴と分類器とのミスマッチに起因することを示唆している。 現在のPFL法はこの問題をある程度緩和するが、それらの設計は特徴抽出器の品質を損なうため、PFLの潜在能力を制限している。 本稿では,FedPFTと呼ばれる新しいPFLフレームワークを提案する。 FedPFTは、グローバルな特徴抽出器と分類器の間に、パーソナライズされたプロンプトによって駆動される機能変換モジュールを統合する。 各ラウンドで、クライアントはまずグローバルな分類器にマッチするようにローカル機能を変換し、次にトレーニングモデルパラメータを学習する。 このアプローチはまた、クライアントのトレーニング目標を整合させ、データの不均一性がモデルコラボレーションに与える影響を減らすこともできる。 さらに、FedPFTのフィーチャートランスフォーメーションモジュールはスケーラビリティが高く、さまざまなプロンプトを使用してローカル機能をさまざまなタスクにカスタマイズすることができる。 これを活用することで,特徴抽出器の品質をさらに向上する,協調的コントラスト学習タスクを導入する。 実験の結果,FedPFTは最先端の手法より最大7.08%優れていた。

In traditional Federated Learning approaches like FedAvg, the global model underperforms when faced with data heterogeneity. Personalized Federated Learning (PFL) enables clients to train personalized models to fit their local data distribution better. However, we surprisingly find that the feature extractor in FedAvg is superior to those in most PFL methods. More interestingly, by applying a linear transformation on local features extracted by the feature extractor to align with the classifier, FedAvg can surpass the majority of PFL methods. This suggests that the primary cause of FedAvg's inadequate performance stems from the mismatch between the locally extracted features and the classifier. While current PFL methods mitigate this issue to some extent, their designs compromise the quality of the feature extractor, thus limiting the full potential of PFL. In this paper, we propose a new PFL framework called FedPFT to address the mismatch problem while enhancing the quality of the feature extractor. FedPFT integrates a feature transformation module, driven by personalized prompts, between the global feature extractor and classifier. In each round, clients first train prompts to transform local features to match the global classifier, followed by training model parameters. This approach can also align the training objectives of clients, reducing the impact of data heterogeneity on model collaboration. Moreover, FedPFT's feature transformation module is highly scalable, allowing for the use of different prompts to tailor local features to various tasks. Leveraging this, we introduce a collaborative contrastive learning task to further refine feature extractor quality. Our experiments demonstrate that FedPFT outperforms state-of-the-art methods by up to 7.08%.
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# オフラインRLの効率的な計画手法としての拡散モデル

Diffusion Models as Optimizers for Efficient Planning in Offline RL ( http://arxiv.org/abs/2407.16142v1 )

ライセンス: Link先を確認
Renming Huang, Yunqiang Pei, Guoqing Wang, Yangming Zhang, Yang Yang, Peng Wang, Hengtao Shen, (参考訳) 拡散モデルは、意思決定を逐次生成として定式化し、オフライン強化学習タスクにおいて強力な競争力を示した。 しかし、これらの手法の実用性は、それらが必要とする長大な推論プロセスによって制限される。 本稿では,拡散モデルのサンプリングプロセスを2つの切り離されたサブプロセスに分解することで,この問題に対処する。 1)時間を要する実行可能な軌道を生成し、 2)軌道の最適化 この分解アプローチにより、効率と品質の要素を部分的に分離することができ、効率の利点と品質保証を同時に得ることができます。 本稿では、高速な自己回帰モデルを用いて、拡散モデルの軌道最適化プロセスを維持しながら、実現可能な軌道生成を処理するトラジェクトリディフューザを提案する。 これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。 軌道ディフューザの有効性と効率を評価するため,D4RLベンチマークを用いて実験を行った。 その結果,提案手法は,従来のシーケンスモデリング手法よりも高速な推論速度を実現するとともに,性能的にも優れていた。 https://github.com/RenMing-Huang/TrajectoryDiffuserキーワード:強化学習と効率的な計画と拡散モデル

Diffusion models have shown strong competitiveness in offline reinforcement learning tasks by formulating decision-making as sequential generation. However, the practicality of these methods is limited due to the lengthy inference processes they require. In this paper, we address this problem by decomposing the sampling process of diffusion models into two decoupled subprocesses: 1) generating a feasible trajectory, which is a time-consuming process, and 2) optimizing the trajectory. With this decomposition approach, we are able to partially separate efficiency and quality factors, enabling us to simultaneously gain efficiency advantages and ensure quality assurance. We propose the Trajectory Diffuser, which utilizes a faster autoregressive model to handle the generation of feasible trajectories while retaining the trajectory optimization process of diffusion models. This allows us to achieve more efficient planning without sacrificing capability. To evaluate the effectiveness and efficiency of the Trajectory Diffuser, we conduct experiments on the D4RL benchmarks. The results demonstrate that our method achieves $\it 3$-$\it 10 \times$ faster inference speed compared to previous sequence modeling methods, while also outperforming them in terms of overall performance. https://github.com/RenMing-Huang/TrajectoryDiffuser Keywords: Reinforcement Learning and Efficient Planning and Diffusion Model
翻訳日:2024-07-24 18:55:32 公開日:2024-07-23
# 複数項目質問によるFew-Shot画像分類の改善

Improved Few-Shot Image Classification Through Multiple-Choice Questions ( http://arxiv.org/abs/2407.16145v1 )

ライセンス: Link先を確認
Dipika Khullar, Emmett Goodman, Negin Sokhandan, (参考訳) 単純な複数選択言語によってVQAモデルはゼロショット画像分類器として動作し、分類ラベルを生成する。 典型的な画像エンコーダと比較して、VQAモデルは利点がある: VQAが生成する画像埋め込みは、カスタマイズされた言語プロンプトを通して最も関連性の高い視覚情報で注入できる。 しかしながら、ほとんどのタスクにおいて、ゼロショットのVQAパフォーマンスは、馴染みのないカテゴリ名や、異なる事前学習データとテストデータの分散のために欠落している。 本稿では,少数のラベル付き例と複数選択質問のみを用いて,画像分類におけるVQA性能を向上させるための簡単な手法を提案する。 この数ショット法はトレーニング不要であり、VQAモデルの動的で柔軟な利点を維持している。 提案手法では,最終的な言語出力に頼るのではなく,複数の選択質問を用いて,関連する視覚情報に富むプロンプト固有の潜在表現を抽出する。 これらの表現を組み合わせて最終的な全体像の埋め込みを生成し、いくつかのラベル付き例から構築された潜在クラスのプロトタイプを参照してデコードする。 本手法は,MiniImageNet,Caltech-UCSD Birds,CIFAR-100など,一般的な少数ショットタスクにおいて,純視覚エンコーダとゼロショットVQAベースラインの両方に優れることを示す。 最後に,布地,記事スタイル,テクスチャ,衣服のさまざまな記事のビューなど,多様な視覚的特徴を持つ設定において,他の数発のアプローチでは,興味のある意味的特徴にのみ画像表現をカスタマイズできることが示される。

Through a simple multiple choice language prompt a VQA model can operate as a zero-shot image classifier, producing a classification label. Compared to typical image encoders, VQA models offer an advantage: VQA-produced image embeddings can be infused with the most relevant visual information through tailored language prompts. Nevertheless, for most tasks, zero-shot VQA performance is lacking, either because of unfamiliar category names, or dissimilar pre-training data and test data distributions. We propose a simple method to boost VQA performance for image classification using only a handful of labeled examples and a multiple-choice question. This few-shot method is training-free and maintains the dynamic and flexible advantages of the VQA model. Rather than relying on the final language output, our approach uses multiple-choice questions to extract prompt-specific latent representations, which are enriched with relevant visual information. These representations are combined to create a final overall image embedding, which is decoded via reference to latent class prototypes constructed from the few labeled examples. We demonstrate this method outperforms both pure visual encoders and zero-shot VQA baselines to achieve impressive performance on common few-shot tasks including MiniImageNet, Caltech-UCSD Birds, and CIFAR-100. Finally, we show our approach does particularly well in settings with numerous diverse visual attributes such as the fabric, article-style, texture, and view of different articles of clothing, where other few-shot approaches struggle, as we can tailor our image representations only on the semantic features of interest.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# CHIME:LLMによる学術研究の階層的組織化と文献レビュー支援

CHIME: LLM-Assisted Hierarchical Organization of Scientific Studies for Literature Review Support ( http://arxiv.org/abs/2407.16148v1 )

ライセンス: Link先を確認
Chao-Chun Hsu, Erin Bransom, Jenna Sparks, Bailey Kuehl, Chenhao Tan, David Wadden, Lucy Lu Wang, Aakanksha Naik, (参考訳) 文献のレビューでは、研究者が大量の情報を合成することを必要としており、科学文献が拡大するにつれてますます困難になっている。 本研究では,学術研究の階層的な組織を創出し,研究者の文献レビューを支援するLLMの可能性について検討する。 階層的な組織を、ノードがトピックのカテゴリを参照し、各ノードがそのカテゴリに割り当てられた研究にリンクするツリー構造として定義する。 一連の研究から階層を生成するための単純LLMベースのパイプラインは、有望だが不完全な階層を生み出し、バイオメディシンに焦点を当てたこのタスクのエキスパートキュレートされたデータセットであるCHIMEの収集を動機付けています。 階層をスクラッチから構築することの困難さと時間を要する性質を考えると、私たちは、専門家がLLM生成階層内のエラー(カテゴリと研究課題のリンク)を訂正する「ループ内プロセス」を使います。 CHIMEには、472のトピックをカバーする2,174のLLM生成階層と、100のトピックのサブセットに関する専門家修正階層が含まれている。 専門家による補正により,LSMの性能の定量化が可能となり,カテゴリの生成と編成が極めて優れている一方で,カテゴリへの研究の割り当ても改善される可能性が示唆された。 人間のフィードバックで補正モデルを訓練し,12.6F1ポイントの学習課題を改善する。 文献レビューのためのより良い支援ツールの開発を奨励するためのデータセットとモデルをリリースする。

Literature review requires researchers to synthesize a large amount of information and is increasingly challenging as the scientific literature expands. In this work, we investigate the potential of LLMs for producing hierarchical organizations of scientific studies to assist researchers with literature review. We define hierarchical organizations as tree structures where nodes refer to topical categories and every node is linked to the studies assigned to that category. Our naive LLM-based pipeline for hierarchy generation from a set of studies produces promising yet imperfect hierarchies, motivating us to collect CHIME, an expert-curated dataset for this task focused on biomedicine. Given the challenging and time-consuming nature of building hierarchies from scratch, we use a human-in-the-loop process in which experts correct errors (both links between categories and study assignment) in LLM-generated hierarchies. CHIME contains 2,174 LLM-generated hierarchies covering 472 topics, and expert-corrected hierarchies for a subset of 100 topics. Expert corrections allow us to quantify LLM performance, and we find that while they are quite good at generating and organizing categories, their assignment of studies to categories could be improved. We attempt to train a corrector model with human feedback which improves study assignment by 12.6 F1 points. We release our dataset and models to encourage research on developing better assistive tools for literature review.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# 遅延モード単光子像を用いた二光子波パケットの分光時間構造

Capturing the spectrotemporal structure of a biphoton wave packet with delay-line-anode single-photon imagers ( http://arxiv.org/abs/2407.16149v1 )

ライセンス: Link先を確認
Ozora Iso, Kensuke Miyajima, Ryosuke Shimizu, (参考訳) 光子領域の時間と位置の消光は、量子技術の進歩に不可欠である。 しかし、空間的・時間的情報を効率的に捉えることは依然として困難である。 そこで本研究では,従来の光子検出器よりもはるかに効率的な周波数束縛バイフォトン測定を実現するために,新しい光子検出手法を提案する。 我々は,マイクロチャネルプレートの後方に位置感応性遅延線アノードセンサを配置した遅延ライン型単光子検出器(DLD)を用いた。 二光子は、塩化銅半導体結晶中のビエクシノンの崩壊から得られる。 2つのDLDが格子分光器出口と結合し、双光子の結合スペクトル分布を測定する。 結果として生じる非走査過程は、時間的に、スペクトル的に解決された画像を得るのに数分しかかからない。 我々の手法は、偶然の測定を必要とするマルチモード量子科学における全ての実験の道を開く。

Distinguishing photon-arrival time and position is crucial for advancing quantum technology. However, capturing spatial and temporal information efficiently remains challenging. Here, we present a novel photon-detection technique to achieve a significantly more efficient measurement of frequency-entangled biphoton than conventional photon detectors. We utilize a delay-line-anode single-photon detector (DLD), which consists of a position-sensitive delay line anode sensor behind a microchannel plate. Biphotons are obtained from the decay of biexcitons in the copper chloride semiconductor crystal. Two DLDs are coupled with a grating spectrometer exit to measure the joint spectral distributions of the biphoton. The resulting non-scanning process requires only a few minutes to obtain a temporally and spectrally resolved image, which is much quicker than the conventional biphoton frequency measurement. Our technique paves the way for all experiments in multi-mode quantum science requiring coincidence measurement.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# FinBERT-LSTMによる株価予測:ニュースセンシティメント分析の統合

Predicting Stock Prices with FinBERT-LSTM: Integrating News Sentiment Analysis ( http://arxiv.org/abs/2407.16150v1 )

ライセンス: Link先を確認
Wenjun Gu, Yihao Zhong, Shizun Li, Changsong Wei, Liting Dong, Zhuoyue Wang, Chao Yan, (参考訳) 株式市場の上昇は経済の隆盛を反映しているが、その減少は経済の低迷の兆候であることが多い。 そのため、長い間、金融株市場のトレンドを予測するための重要な相関要素が広く議論され、金融テキストマイニングの課題への関心が高まっている。 株価の固有の不安定さは、金融市場の変動に迅速に反応する。 本稿では、株式市場の歴史と金融、ビジネス、技術ニュースに基づいて、市場情報を導入して株価を予測するディープ・ラーニング・ネットワークを利用する。 本稿では,重み付きニュースカテゴリを予測モデルに組み込むことにより,予測精度の向上について述べる。 我々はファイナンシャルテキスト中の感情を識別するために、FinBERTとして知られる事前学習NLPモデルを開発した。 その後,高度なLong Short Term Memory (LSTM) アーキテクチャを導入し,革新的なFinBERT-LSTMモデルを構築した。 このモデルは、市場構造階層、すなわち、市場、産業、および株価関連ニュースカテゴリに関するニュースカテゴリと、前週の株式市場の株価状況を組み合わせて予測する。 我々はNASDAQ-100インデックスストックデータを選択し、ベンジンガのニュース記事上でモデルを訓練し、平均絶対誤差(MAE)、平均絶対誤差(MAPE)、精度をモデルの性能評価と比較分析の鍵となる指標として利用した。 その結果,FinBERT-LSTMが最良であり,LSTMが続いてDNNモデルが3位となった。

The stock market's ascent typically mirrors the flourishing state of the economy, whereas its decline is often an indicator of an economic downturn. Therefore, for a long time, significant correlation elements for predicting trends in financial stock markets have been widely discussed, and people are becoming increasingly interested in the task of financial text mining. The inherent instability of stock prices makes them acutely responsive to fluctuations within the financial markets. In this article, we use deep learning networks, based on the history of stock prices and articles of financial, business, technical news that introduce market information to predict stock prices. We illustrate the enhancement of predictive precision by integrating weighted news categories into the forecasting model. We developed a pre-trained NLP model known as FinBERT, designed to discern the sentiments within financial texts. Subsequently, we advanced this model by incorporating the sophisticated Long Short Term Memory (LSTM) architecture, thus constructing the innovative FinBERT-LSTM model. This model utilizes news categories related to the stock market structure hierarchy, namely market, industry, and stock related news categories, combined with the stock market's stock price situation in the previous week for prediction. We selected NASDAQ-100 index stock data and trained the model on Benzinga news articles, and utilized Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), and Accuracy as the key metrics for the assessment and comparative analysis of the model's performance. The results indicate that FinBERT-LSTM performs the best, followed by LSTM, and DNN model ranks third in terms of effectiveness.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# 注意層におけるランクのメリットについて

On the Benefits of Rank in Attention Layers ( http://arxiv.org/abs/2407.16153v1 )

ライセンス: Link先を確認
Noah Amsel, Gilad Yehudai, Joan Bruna, (参考訳) 注意に基づくメカニズムは機械学習で広く使われ、特にトランスフォーマーで顕著である。 しかし、アテンション行列のランクやヘッド数などのハイパーパラメータは、理論上の正当化なしに、このアーキテクチャのすべての実現においてほぼ同じようにスケールされる。 本研究では,注意機構のランクと頭部数との間には,劇的なトレードオフが存在することを示す。 具体的には、任意のコンテキスト長に対して1つのフルランクアテンションヘッドを用いて表現できる単純で自然なターゲット関数を示すが、短いコンテキスト長であっても、埋め込み次元においてヘッド数が指数的でない限り、低ランクアテンションによって近似することはできない。 さらに,短時間の文脈長に対して,深度を付加することで,低ランクの注意力で目標を近似できることが証明された。 長い文脈では、フルランクの注意が必要であると推測する。 最後に,我々の理論的知見を検証した既成の変圧器を用いた実験を行った。

Attention-based mechanisms are widely used in machine learning, most prominently in transformers. However, hyperparameters such as the rank of the attention matrices and the number of heads are scaled nearly the same way in all realizations of this architecture, without theoretical justification. In this work we show that there are dramatic trade-offs between the rank and number of heads of the attention mechanism. Specifically, we present a simple and natural target function that can be represented using a single full-rank attention head for any context length, but that cannot be approximated by low-rank attention unless the number of heads is exponential in the embedding dimension, even for short context lengths. Moreover, we prove that, for short context lengths, adding depth allows the target to be approximated by low-rank attention. For long contexts, we conjecture that full-rank attention is necessary. Finally, we present experiments with off-the-shelf transformers that validate our theoretical findings.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# DDK: 効率的な大規模言語モデルのためのドメイン知識の蒸留

DDK: Distilling Domain Knowledge for Efficient Large Language Models ( http://arxiv.org/abs/2407.16154v1 )

ライセンス: Link先を確認
Jiaheng Liu, Chenchen Zhang, Jinyang Guo, Yuanxing Zhang, Haoran Que, Ken Deng, Zhiqi Bai, Jie Liu, Ge Zhang, Jiakai Wang, Yanan Wu, Congnan Liu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng, (参考訳) 様々なアプリケーションにおける大規模言語モデル(LLM)の高度なインテリジェンス能力にもかかわらず、それらは依然として重要な計算とストレージの要求に直面している。 知識蒸留(KD)は、高い性能のLSM(教師モデル)から知識を伝達することで、より小さなLSM(学生モデル)の性能を向上させる効果的な戦略として登場した。 LLM蒸留における一般的な技術は、ブラックボックスモデルAPIを使用して高品質な事前訓練と整列データセットを生成したり、損失関数を変更して教師のLLMからの知識の伝達を改善することでホワイトボックス蒸留を利用するのが一般的である。 しかし、これらの手法は、ドメイン間での学生と教師のLLM間の知識差を無視する。 これにより、パフォーマンスのギャップが最小限のドメインに過度に集中し、大きなギャップを持つドメインに十分な注意を払わず、全体的なパフォーマンスが低下する。 本稿では,教師モデルと学生モデルとのドメイン性能の違いに応じて,蒸留データセットの構成をスムーズな方法で動的に調整し,蒸留プロセスをより安定かつ効果的に行う,DDKと呼ばれる新しいLCM蒸留フレームワークを提案する。 大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。

Despite the advanced intelligence abilities of large language models (LLMs) in various applications, they still face significant computational and storage demands. Knowledge Distillation (KD) has emerged as an effective strategy to improve the performance of a smaller LLM (i.e., the student model) by transferring knowledge from a high-performing LLM (i.e., the teacher model). Prevailing techniques in LLM distillation typically use a black-box model API to generate high-quality pretrained and aligned datasets, or utilize white-box distillation by altering the loss function to better transfer knowledge from the teacher LLM. However, these methods ignore the knowledge differences between the student and teacher LLMs across domains. This results in excessive focus on domains with minimal performance gaps and insufficient attention to domains with large gaps, reducing overall performance. In this paper, we introduce a new LLM distillation framework called DDK, which dynamically adjusts the composition of the distillation dataset in a smooth manner according to the domain performance differences between the teacher and student models, making the distillation process more stable and effective. Extensive evaluations show that DDK significantly improves the performance of student models, outperforming both continuously pretrained baselines and existing knowledge distillation methods by a large margin.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# マルチモーダル画像変化検出のためのクロスドメイン分離型翻訳ネットワーク

Cross-Domain Separable Translation Network for Multimodal Image Change Detection ( http://arxiv.org/abs/2407.16158v1 )

ライセンス: Link先を確認
Tao Zhan, Yuanyuan Zhu, Jie Lan, Qianlong Dang, (参考訳) リモートセンシングコミュニティでは、MCD(Multimodal Change Detection)が特に重要であり、様々な撮像条件やセンサータイプにわたる変化を追跡できるため、幅広い現実のシナリオに適用できる。 本稿では,MCDの課題,特に異なるセンサからの画像を様々なスタイルと地理空間オブジェクトの統計的特性と比較することの難しさに焦点をあてる。 伝統的なMDD法は、しばしばこれらのバリエーションに苦しむが、不正確で信頼性の低い結果をもたらす。 これらの制約を克服するために、ドメイン内自己再構成とクロスドメイン画像変換とサイクル再構成ワークフローを一意に統合した、教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。 このモデルは、画像翻訳とMDDの両方のタスクを同時に実装することで最適化され、マルチモーダル画像から学習した特徴の互換性が保証される。 具体的には、マルチモーダル画像の内容とスタイル情報を分離するために、単純で効率的なデュアルブランチ畳み込みアーキテクチャを用いる。 このプロセスは、重要なセンサ変動があっても正確な変化検出を実現するために重要な、スタイルに依存しないコンテンツ比較可能な特徴空間を生成する。 提案手法の有効性を実証し, MCDの精度と有効性の観点から, 最先端手法よりも顕著に向上したことを示す。 私たちのメソッドの実装は、 \url{https://github.com/OMEGA-RS/CSTN} で公開されます。

In the remote sensing community, multimodal change detection (MCD) is particularly critical due to its ability to track changes across different imaging conditions and sensor types, making it highly applicable to a wide range of real-world scenarios. This paper focuses on addressing the challenges of MCD, especially the difficulty in comparing images from different sensors with varying styles and statistical characteristics of geospatial objects. Traditional MCD methods often struggle with these variations, leading to inaccurate and unreliable results. To overcome these limitations, a novel unsupervised cross-domain separable translation network (CSTN) is proposed, which uniquely integrates a within-domain self-reconstruction and a cross-domain image translation and cycle-reconstruction workflow with change detection constraints. The model is optimized by implementing both the tasks of image translation and MCD simultaneously, thereby guaranteeing the comparability of learned features from multimodal images. Specifically, a simple yet efficient dual-branch convolutional architecture is employed to separate the content and style information of multimodal images. This process generates a style-independent content-comparable feature space, which is crucial for achieving accurate change detection even in the presence of significant sensor variations. Extensive experimental results demonstrate the effectiveness of the proposed method, showing remarkable improvements over state-of-the-art approaches in terms of accuracy and efficacy for MCD. The implementation of our method will be publicly available at \url{https://github.com/OMEGA-RS/CSTN}
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# UniMEL: 大規模言語モデルとマルチモーダルエンティティリンクのための統一フレームワーク

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models ( http://arxiv.org/abs/2407.16160v1 )

ライセンス: Link先を確認
Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong, (参考訳) マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような多モーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。 既存の手法は、特定のデータセット上でのマルチモーダル相互作用をモデル化するための複雑なメカニズムと広範囲なモデルチューニング手法を使用することに重点を置いている。 しかし、これらの手法はMELタスクを過度に複雑化し、視覚的意味情報を見落としてしまうため、コストがかかりスケールが難しくなる。 さらに、これらの手法はテキストの曖昧さ、冗長性、ノイズの多い画像などの問題を解決できないため、パフォーマンスが著しく低下する。 幸いなことに、テキスト理解と推論の堅牢な機能を備えた大規模言語モデル(LLM)の出現、特にマルチモーダル入力を処理するマルチモーダル大規模言語モデル(MLLM)は、この課題に対処するための新たな洞察を提供する。 しかし, LLM をベースとした MEL アプローチを設計する方法は, 依然として重要な課題である。 この目的のために,LLMを用いたマルチモーダルなエンティティリンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。 本フレームワークでは,テキスト情報と視覚情報を統合し,テキスト情報を精査することにより,参照やエンティティの表現を個別に増強するLLMを用いている。 次に,組込み型手法を用いて候補エンティティの検索と再ランク付けを行う。 そして、モデルパラメータの0.26%しか微調整されていないため、LLMは候補エンティティから最終的な選択を行うことができる。 3つの公開ベンチマークデータセットに対する大規模な実験は、我々のソリューションが最先端のパフォーマンスを達成することを示し、アブレーション研究は全てのモジュールの有効性を検証する。 私たちのコードはhttps://anonymous.4open.science/r/UniMEL/で利用可能です。

Multimodal Entity Linking (MEL) is a crucial task that aims at linking ambiguous mentions within multimodal contexts to the referent entities in a multimodal knowledge base, such as Wikipedia. Existing methods focus heavily on using complex mechanisms and extensive model tuning methods to model the multimodal interaction on specific datasets. However, these methods overcomplicate the MEL task and overlook the visual semantic information, which makes them costly and hard to scale. Moreover, these methods can not solve the issues like textual ambiguity, redundancy, and noisy images, which severely degrade their performance. Fortunately, the advent of Large Language Models (LLMs) with robust capabilities in text understanding and reasoning, particularly Multimodal Large Language Models (MLLMs) that can process multimodal inputs, provides new insights into addressing this challenge. However, how to design a universally applicable LLMs-based MEL approach remains a pressing challenge. To this end, we propose UniMEL, a unified framework which establishes a new paradigm to process multimodal entity linking tasks using LLMs. In this framework, we employ LLMs to augment the representation of mentions and entities individually by integrating textual and visual information and refining textual information. Subsequently, we employ the embedding-based method for retrieving and re-ranking candidate entities. Then, with only ~0.26% of the model parameters fine-tuned, LLMs can make the final selection from the candidate entities. Extensive experiments on three public benchmark datasets demonstrate that our solution achieves state-of-the-art performance, and ablation studies verify the effectiveness of all modules. Our code is available at https://anonymous.4open.science/r/UniMEL/.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# TransFeat-TPP: 解釈可能な深部共変点過程

TransFeat-TPP: An Interpretable Deep Covariate Temporal Point Processes ( http://arxiv.org/abs/2407.16161v1 )

ライセンス: Link先を確認
Zizhuo Meng, Boyu Li, Xuhui Fan, Zhidong Li, Yang Wang, Fang Chen, Feng Zhou, (参考訳) 古典的時間点過程(TPP)は、発生時間を考慮して強度関数を構成する。 それにもかかわらず、発生時間だけが関連する要因ではないかもしれないし、他の文脈データ(共変量と呼ばれる)も事象の進化に影響を与えるかもしれない。 このような共変量モデルをモデルに組み込むことは有益であるが、イベントダイナミクスとの関連性は極めて重要である。 本研究では,トランスフォーマーを用いた共変量時間点プロセス(TransFeat-TPP)モデルを提案し,強力な表現性を維持しつつ,深い共変量-TPPの解釈性を向上させる。 TransFeat-TPPは、イベントと共変量の間の複雑な関係を効果的にモデル化し、様々な共変量の重要性を識別することで解釈可能性を高める。 合成データセットと実データセットによる実験結果から,予測精度が向上し,既存の深部共変量TPPと比較した場合の特徴的重要性が一貫した。

The classical temporal point process (TPP) constructs an intensity function by taking the occurrence times into account. Nevertheless, occurrence time may not be the only relevant factor, other contextual data, termed covariates, may also impact the event evolution. Incorporating such covariates into the model is beneficial, while distinguishing their relevance to the event dynamics is of great practical significance. In this work, we propose a Transformer-based covariate temporal point process (TransFeat-TPP) model to improve the interpretability of deep covariate-TPPs while maintaining powerful expressiveness. TransFeat-TPP can effectively model complex relationships between events and covariates, and provide enhanced interpretability by discerning the importance of various covariates. Experimental results on synthetic and real datasets demonstrate improved prediction accuracy and consistently interpretable feature importance when compared to existing deep covariate-TPPs.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# 表現のマグニチュードはプライバシーの脆弱性に責任を持つ

Representation Magnitude has a Liability to Privacy Vulnerability ( http://arxiv.org/abs/2407.16164v1 )

ライセンス: Link先を確認
Xingli Fang, Jung-Eun Kim, (参考訳) 機械学習(ML)モデルに対するプライバシ保護アプローチは、近年大きく進歩している。 しかし、モデルがプライバシに悪影響を及ぼす状況や状況は依然として不透明であり、MLモデルがパフォーマンスとプライバシの両方を維持することは困難である。 本稿では,モデル表現におけるメンバデータと非メンバデータとの相違について,共通のトレーニングフレームワークを用いて検討する。 表現の大きさの違いがプライバシの脆弱性とどのように関連しているかを特定し、この相関がプライバシの脆弱性に与える影響に対処する。 本研究では,サターンリング分類モジュール (SRCM) を提案する。 限定的かつ効果的な表現空間を通じて、一般化性を維持しながらモデルのプライバシの脆弱性を改善する。 この作業のコードは以下の通りである。 \url{https://github.com/JEKimLab/AIES2024_SRCM}

The privacy-preserving approaches to machine learning (ML) models have made substantial progress in recent years. However, it is still opaque in which circumstances and conditions the model becomes privacy-vulnerable, leading to a challenge for ML models to maintain both performance and privacy. In this paper, we first explore the disparity between member and non-member data in the representation of models under common training frameworks. We identify how the representation magnitude disparity correlates with privacy vulnerability and address how this correlation impacts privacy vulnerability. Based on the observations, we propose Saturn Ring Classifier Module (SRCM), a plug-in model-level solution to mitigate membership privacy leakage. Through a confined yet effective representation space, our approach ameliorates models' privacy vulnerability while maintaining generalizability. The code of this work can be found here: \url{https://github.com/JEKimLab/AIES2024_SRCM}
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# 2次元CNNモデルとRNNモデルの統合による腹部外傷の検出と評価のための高度なAIフレームワーク

Advanced AI Framework for Enhanced Detection and Assessment of Abdominal Trauma: Integrating 3D Segmentation with 2D CNN and RNN Models ( http://arxiv.org/abs/2407.16165v1 )

ライセンス: Link先を確認
Liheng Jiang, Xuechun yang, Chang Yu, Zhizhong Wu, Yuting Wang, (参考訳) トラウマは死亡率と障害の重要な原因であり、特に40歳未満の人には顕著である。 X線、CTスキャン、MRIなどの外傷の診断法は、しばしば時間がかかり、医療の専門知識に依存しており、重大な介入を遅らせる可能性がある。 本研究は, 腹部外傷診断の高速化と精度向上を目的として, 人工知能(AI)と機械学習(ML)の応用について検討した。 我々は、診断性能を向上させるために、3Dセグメント化、2D畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせた高度なAIモデルを開発した。 本モデルでは腹部CTでリアルタイム, 正確な評価を行い, 臨床診断と患者成績の改善を図る。 総合的な実験により,本手法は厳密な評価指標により,従来の診断方法よりも有意に優れていることが示された。 この研究は、AIとMLの強みを活用してトラウマケアに革命をもたらす、自動トラウマ検出のための新しいベンチマークを定めている。

Trauma is a significant cause of mortality and disability, particularly among individuals under forty. Traditional diagnostic methods for traumatic injuries, such as X-rays, CT scans, and MRI, are often time-consuming and dependent on medical expertise, which can delay critical interventions. This study explores the application of artificial intelligence (AI) and machine learning (ML) to improve the speed and accuracy of abdominal trauma diagnosis. We developed an advanced AI-based model combining 3D segmentation, 2D Convolutional Neural Networks (CNN), and Recurrent Neural Networks (RNN) to enhance diagnostic performance. Our model processes abdominal CT scans to provide real-time, precise assessments, thereby improving clinical decision-making and patient outcomes. Comprehensive experiments demonstrated that our approach significantly outperforms traditional diagnostic methods, as evidenced by rigorous evaluation metrics. This research sets a new benchmark for automated trauma detection, leveraging the strengths of AI and ML to revolutionize trauma care.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# リスクの批判的評価による大規模言語モデルによるイノベーション中のロバストプライバシー

Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks ( http://arxiv.org/abs/2407.16166v1 )

ライセンス: Link先を確認
Yao-Shun Chuang, Atiquer Rahman Sarkar, Noman Mohammed, Xiaoqian Jiang, (参考訳) 本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。 バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。 この研究は、GPT-3.5、GPT-4、Mistral 7BによるMIMIC IIIデータセットの同定と再同定を用いて合成ノートを生成する。 テキスト生成にはテンプレートとキーワード抽出が用いられ、比較のためにワンショット生成が用いられた。 プライバシアセスメントはPHIの発生を確認し,テキストユーティリティはICD-9符号化タスクを用いてテストした。 テキストの品質をROUGEとcosine類似度指標を用いて評価し、ソースノートとのセマンティック類似度を測定した。 ICD-9符号化タスクによるPHIの発生とテキストの有用性の分析により,キーワードベースの手法はリスクが低く,高い性能を示した。 ワンショット生成ではPHI曝露率が最も高く,特に地理的位置と日付のカテゴリーではPHIの同時発生率が高かった。 正規化ワンショット法は最も高い分類精度を達成した。 プライバシー分析は、データユーティリティとプライバシ保護の間に重要なバランスを示し、将来のデータ使用と共有に影響を与える。 再識別されたデータは、継続的に非識別されたデータより優れていた。 本研究は,データ使用性を維持し,臨床データ共有の実践を変革する可能性のある,プライバシ保護型臨床ノート作成におけるキーワードベースの手法の有効性を実証する。 再識別されたデータよりも優れたパフォーマンスは、ダミーPHIを使用してプライバシー攻撃を複雑にすることで、ユーティリティとプライバシを高める方法への移行を示唆している。

This study examines integrating EHRs and NLP with large language models (LLMs) to improve healthcare data management and patient care. It focuses on using advanced models to create secure, HIPAA-compliant synthetic patient notes for biomedical research. The study used de-identified and re-identified MIMIC III datasets with GPT-3.5, GPT-4, and Mistral 7B to generate synthetic notes. Text generation employed templates and keyword extraction for contextually relevant notes, with one-shot generation for comparison. Privacy assessment checked PHI occurrence, while text utility was tested using an ICD-9 coding task. Text quality was evaluated with ROUGE and cosine similarity metrics to measure semantic similarity with source notes. Analysis of PHI occurrence and text utility via the ICD-9 coding task showed that the keyword-based method had low risk and good performance. One-shot generation showed the highest PHI exposure and PHI co-occurrence, especially in geographic location and date categories. The Normalized One-shot method achieved the highest classification accuracy. Privacy analysis revealed a critical balance between data utility and privacy protection, influencing future data use and sharing. Re-identified data consistently outperformed de-identified data. This study demonstrates the effectiveness of keyword-based methods in generating privacy-protecting synthetic clinical notes that retain data usability, potentially transforming clinical data-sharing practices. The superior performance of re-identified over de-identified data suggests a shift towards methods that enhance utility and privacy by using dummy PHIs to perplex privacy attacks.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# マルチモーダルエンティティアライメントのためのプログレッシブモダリティフリーズ

Progressively Modality Freezing for Multi-Modal Entity Alignment ( http://arxiv.org/abs/2407.16168v1 )

ライセンス: Link先を確認
Yani Huang, Xuefeng Zhang, Richong Zhang, Junfan Chen, Jaein Kim, (参考訳) マルチモーダルエンティティアライメントは、異種知識グラフ間で同一のエンティティを発見することを目的としている。 近年の研究では、物質をホモリスティックに表現するための融合パラダイムが研究されているが、アライメントやモーダルの不整合に関係のない特徴の排除は見過ごされている。 これらの課題に対処するため、我々は、アライメント関連特徴に着目し、マルチモーダルな特徴融合を強化するPMFと呼ばれる、プログレッシブモダリティ凍結の新たな戦略を提案する。 特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。 9つのデータセットにわたる実証的な評価によりPMFの優位性が確認され、最先端のパフォーマンスと凍結モーダル性の理論的根拠が証明された。 私たちのコードはhttps://github.com/ninibymilk/PMF-MMEA.comで利用可能です。

Multi-Modal Entity Alignment aims to discover identical entities across heterogeneous knowledge graphs. While recent studies have delved into fusion paradigms to represent entities holistically, the elimination of features irrelevant to alignment and modal inconsistencies is overlooked, which are caused by inherent differences in multi-modal features. To address these challenges, we propose a novel strategy of progressive modality freezing, called PMF, that focuses on alignmentrelevant features and enhances multi-modal feature fusion. Notably, our approach introduces a pioneering cross-modal association loss to foster modal consistency. Empirical evaluations across nine datasets confirm PMF's superiority, demonstrating stateof-the-art performance and the rationale for freezing modalities. Our code is available at https://github.com/ninibymilk/PMF-MMEA.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# 医療の未来を守る:患者データ保護のためのレジリエントな防衛システムの構築

Securing The Future Of Healthcare: Building A Resilient Defense System For Patient Data Protection ( http://arxiv.org/abs/2407.16170v1 )

ライセンス: Link先を確認
Oluomachi Ejiofor, Ahmed Akinsola, (参考訳) 医療分野におけるデータの重要性の高まりは、患者情報を対象としたサイバー犯罪の増加につながっている。 データ漏洩は、診療所や病院を含む多くの医療機関に経済的、評判の高いリスクをもたらす。 本研究は、医療データ脅威アクターの悪行から患者データが保護されることを保証する防衛システムを開発するための理想的なアプローチを提案することを目的とする。 この研究は、勾配ブースティング分類器機械学習モデルを用いて、医療データ漏洩の深刻度を予測する。 二次データは米国保健福祉ポータルから収集され、重要な指標が得られた。 また、この研究はKaggleから重要なサイバーセキュリティデータを収集し、研究に利用した。 その結果、ハッキングとITインシデントが医療業界で最も一般的なタイプの違反であり、ほとんどのケースでネットワークサーバーがターゲットになっていることが明らかになった。 モデル評価の結果,勾配向上アルゴリズムは良好に動作することがわかった。 そのためこの研究は、組織が包括的なセキュリティプロトコルを実装することを推奨しており、特にサーバーを保護するための堅牢なネットワークセキュリティに焦点を当てている。

The increasing importance of data in the healthcare sector has led to a rise in cybercrime targeting patient information. Data breaches pose significant financial and reputational risks to many healthcare organizations including clinics and hospitals. This study aims to propose the ideal approach to developing a defense system that ensures that patient data is protected from the insidious acts of healthcare data threat actors. Using a gradientboosting classifier machine learning model, the study predicts the severity of healthcare data breaches. Secondary data was collected from the U.S. Department of Health and Human Services Portal with key indicators. Also, the study gathers key cyber-security data from Kaggle, which was utilized for the study. The findings revealed that hacking and IT incidents are the most common type of breaches in the healthcare industry, with network servers being targeted in most cases. The model evaluation showed that the gradient boosting algorithm performs well. Therefore, the study recommends that organizations implement comprehensive security protocols, particularly focusing on robust network security to protect servers
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# モダリティの欠如によるAVQAの3次関係の学習

Learning Trimodal Relation for AVQA with Missing Modality ( http://arxiv.org/abs/2407.16171v1 )

ライセンス: Link先を確認
Kyu Ri Park, Hong Joo Lee, Jung Uk Kim, (参考訳) 近年のAVQA (Audio-Visual Question Answering) 手法は,質問に正確に答えるために,完全な視覚的および音声的入力に依存している。 しかし、現実のシナリオでは、機器の故障やデータ転送エラーなどの問題は、しばしば音声や視覚的モダリティの欠如に繋がる。 このような場合、既存のAVQA法は性能が著しく低下する。 本稿では,モダリティが欠如している場合でもロバストなAVQA性能を保証するフレームワークを提案する。 まず,Relation-Aware Missing Modal (RMM) ジェネレータとRelation-Aware Missing Modal Recalling (RMMR) ジェネレータの損失について述べる。 第2に、オーディオ・ビジュアル・リレーショナル・アウェア(AVR)拡散モデルの設計を行い、オーディオ・ビジュアル・エンハンシング(AVE)損失を低減し、オーディオ・ビジュアル・モダリティ間の関係と共有の手がかりを活用することにより、オーディオ・ビジュアル・特徴をさらに強化する。 その結果,入力モダリティが欠落している場合でも,利用可能な情報を効果的に活用し,正確な回答を提供できることがわかった。 提案手法は,AVQA研究だけでなく,様々なマルチモーダルシナリオにも応用できると考えている。

Recent Audio-Visual Question Answering (AVQA) methods rely on complete visual and audio input to answer questions accurately. However, in real-world scenarios, issues such as device malfunctions and data transmission errors frequently result in missing audio or visual modality. In such cases, existing AVQA methods suffer significant performance degradation. In this paper, we propose a framework that ensures robust AVQA performance even when a modality is missing. First, we propose a Relation-aware Missing Modal (RMM) generator with Relation-aware Missing Modal Recalling (RMMR) loss to enhance the ability of the generator to recall missing modal information by understanding the relationships and context among the available modalities. Second, we design an Audio-Visual Relation-aware (AVR) diffusion model with Audio-Visual Enhancing (AVE) loss to further enhance audio-visual features by leveraging the relationships and shared cues between the audio-visual modalities. As a result, our method can provide accurate answers by effectively utilizing available information even when input modalities are missing. We believe our method holds potential applications not only in AVQA research but also in various multi-modal scenarios.
翻訳日:2024-07-24 18:45:39 公開日:2024-07-23
# SAMマスク誘導による屋内シーン再構築のためのメッシュと3次元ガウスアンの統合

Integrating Meshes and 3D Gaussians for Indoor Scene Reconstruction with SAM Mask Guidance ( http://arxiv.org/abs/2407.16173v1 )

ライセンス: Link先を確認
Jiyeop Kim, Jongwoo Lim, (参考訳) 本稿では,3次元ガウススプラッティング(3DGS)とメッシュ表現を組み合わせた3次元屋内シーン再構築手法を提案する。 壁や天井,床などの屋内シーンの室内レイアウトにはメッシュを使用し,他のオブジェクトには3Dガウスアンを採用しています。 このハイブリッドアプローチは両表現の長所を活用し、柔軟性と編集の容易さを向上させる。 しかし、メッシュと3Dガウスの合同トレーニングは、どのプリミティブがレンダリング画像のどの部分に影響を及ぼすべきかがはっきりしないため、難しい。 部屋のレイアウトに近いオブジェクトは、特に部屋のレイアウトがテクスチャレスである場合、トレーニング中に苦労することが多く、誤った最適化と不要な3Dガウスに繋がる可能性がある。 これらの課題を克服するために、プリミティブの選択をガイドするためにSegment Anything Model(SAM)を使用します。 SAMマスクの損失により、各インスタンスはガウスかメッシュのいずれかで表現され、明確な分離と安定したトレーニングが保証される。 さらに, 標準デンシフィケーション後の不透明度をリセットすることなく, さらなるデンシフィケーションステージを導入する。 この段階は標準密度化後の3次元ガウスの限られた数による画質劣化を緩和する。

We present a novel approach for 3D indoor scene reconstruction that combines 3D Gaussian Splatting (3DGS) with mesh representations. We use meshes for the room layout of the indoor scene, such as walls, ceilings, and floors, while employing 3D Gaussians for other objects. This hybrid approach leverages the strengths of both representations, offering enhanced flexibility and ease of editing. However, joint training of meshes and 3D Gaussians is challenging because it is not clear which primitive should affect which part of the rendered image. Objects close to the room layout often struggle during training, particularly when the room layout is textureless, which can lead to incorrect optimizations and unnecessary 3D Gaussians. To overcome these challenges, we employ Segment Anything Model (SAM) to guide the selection of primitives. The SAM mask loss enforces each instance to be represented by either Gaussians or meshes, ensuring clear separation and stable training. Furthermore, we introduce an additional densification stage without resetting the opacity after the standard densification. This stage mitigates the degradation of image quality caused by a limited number of 3D Gaussians after the standard densification.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# Pixel Embedding: 異なるルックアップテーブルを備えた完全量子化畳み込みニューラルネットワーク

Pixel Embedding: Fully Quantized Convolutional Neural Network with Differentiable Lookup Table ( http://arxiv.org/abs/2407.16174v1 )

ライセンス: Link先を確認
Hiroyuki Tokunaga, Joel Nicholls, Daria Vazhenina, Atsunori Kanemura, (参考訳) ネットワーク重みとアクティベーションを低ビット幅に量子化することにより、ハードウェアフレンドリーでエネルギー効率の良いネットワークを得ることができる。 しかし、ストレートスルー推定器とピースワイズ定数関数を用いた既存の量子化技術は、もともとは低ビット値の高ビット入力データをどのように表現するかという問題に直面している。 深層ニューラルネットワークを完全に定量化するために,各フロート値の入力画素を,ルックアップテーブルを用いて量子化された値のベクトルに置き換える画素埋め込みを提案する。 画素のルックアップテーブルまたはロービット表現は、バックプロパゲーションにより微分可能で訓練可能である。 このような入力をベクトルに置き換えることは、自然言語処理分野における単語の埋め込みに似ている。 ImageNetとCIFAR-100の実験によると、ピクセルの埋め込みは、第1層の浮動小数点の量子化によるトップ5エラーギャップを、ImageNetデータセットの1%に減らし、第1層と最終層の量子化によるトップ1エラーギャップを、CIFAR-100データセットのわずか1%に減らしている。 画素埋め込みの有用性は、浮動小数点精度第1層に比べて1.7倍以上のスピードアップを示す推論時間測定によってさらに実証される。

By quantizing network weights and activations to low bitwidth, we can obtain hardware-friendly and energy-efficient networks. However, existing quantization techniques utilizing the straight-through estimator and piecewise constant functions face the issue of how to represent originally high-bit input data with low-bit values. To fully quantize deep neural networks, we propose pixel embedding, which replaces each float-valued input pixel with a vector of quantized values by using a lookup table. The lookup table or low-bit representation of pixels is differentiable and trainable by backpropagation. Such replacement of inputs with vectors is similar to word embedding in the natural language processing field. Experiments on ImageNet and CIFAR-100 show that pixel embedding reduces the top-5 error gap caused by quantizing the floating points at the first layer to only 1% for the ImageNet dataset, and the top-1 error gap caused by quantizing first and last layers to slightly over 1% for the CIFAR-100 dataset. The usefulness of pixel embedding is further demonstrated by inference time measurements, which demonstrate over 1.7 times speedup compared to floating point precision first layer.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# 連結曲面符号と量子ハミング符号に基づく量子メモリ

Quantum memory based on concatenating surface codes and quantum Hamming codes ( http://arxiv.org/abs/2407.16176v1 )

ライセンス: Link先を確認
Menglong Fang, Daiqin Su, (参考訳) 大規模なフォールトトレラント量子計算を実現するためには、高いエラーしきい値、低いリソースオーバーヘッド、効率的な復号アルゴリズムを約束する量子エラー訂正符号の設計が不可欠である。 連結量子ハミング符号は、一定の空間オーバーヘッドと効率的な復号を可能にする潜在的な候補の1つである。 本研究では,量子ハミング符号と曲面符号の結合を量子メモリとして検討し,その誤差しきい値,リソースオーバーヘッド,復号時間を推定する。 エラーしきい値が高く、原則として表面コードのしきい値まで押し上げることができる。 さらに、連結符号は、リソースオーバーヘッドに匹敵する量の仮定の下で、表面符号よりもはるかに低いレベルまで論理誤差を抑えることができる。 エラーを抑える利点は、中間スケールの量子メモリに現れ始めます。 したがって、表面コードと量子ハミング符号を結合することで、近い将来に小規模のフォールトトレラント量子回路を実証する有望な方法が提供され、また大規模なフォールトトレラント量子計算の道を開いた。

Designing quantum error correcting codes that promise a high error threshold, low resource overhead and efficient decoding algorithms is crucial to achieve large-scale fault-tolerant quantum computation. The concatenated quantum Hamming code is one of the potential candidates that allows for constant space overhead and efficient decoding. We study the concatenation of surface codes with quantum Hamming codes as a quantum memory, and estimate its error threshold, resource overhead and decoding time. A high error threshold is achieved, which can in principle be pushed up to the threshold of the surface code. Furthermore, the concatenated codes can suppress logical errors to a much lower level than the surface codes, under the assumption of comparable amount of resource overhead. The advantage in suppressing errors starts to show for a quantum memory of intermediate scale. Concatenating surface codes with quantum Hamming codes therefore provides a promising avenue to demonstrate small-scale fault-tolerant quantum circuits in the near future, and also paves a way for large-scale fault-tolerant quantum computation.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# Logifold: エンサンブル機械学習の幾何学的基礎

Logifold: A Geometrical Foundation of Ensemble Machine Learning ( http://arxiv.org/abs/2407.16177v1 )

ライセンス: Link先を確認
Inkee Jung, Siu-Cheong Lau, (参考訳) データセット理解のための局所的・局所的・測度論的アプローチを提案する。 中心となる考え方は、ロジフォールド構造を定式化し、制限されたドメインを持つネットワークモデルをデータセットの局所チャートとして解釈することである。 特に、これはアンサンブル機械学習の数学的基礎を提供する。 本実験では, ファジィ領域を同定し, モデル出力の平均値と比較して精度を向上させるために, ロジフォールドを実装できることを実証した。 さらに、ロジフォールドの理論的な例を示し、アンサンブル内の分類器の領域に制限を加えることの重要性を強調している。

We present a local-to-global and measure-theoretical approach to understanding datasets. The core idea is to formulate a logifold structure and to interpret network models with restricted domains as local charts of datasets. In particular, this provides a mathematical foundation for ensemble machine learning. Our experiments demonstrate that logifolds can be implemented to identify fuzzy domains and improve accuracy compared to taking average of model outputs. Additionally, we provide a theoretical example of a logifold, highlighting the importance of restricting to domains of classifiers in an ensemble.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# 教師なしニューラル文法誘導における構造最適化の曖昧性と単純性バイアス

Structural Optimization Ambiguity and Simplicity Bias in Unsupervised Neural Grammar Induction ( http://arxiv.org/abs/2407.16181v1 )

ライセンス: Link先を確認
Jinwook Park, Kangil Kim, (参考訳) ニューラルパラメタライゼーションは、教師なし文法誘導を著しく進歩させた。 しかしながら、可能なすべてのパースに対して従来の可能性損失でこれらのモデルをトレーニングすることは、以下の2つの問題を悪化させる。 1)$\textit{structureural optimization ambiguity}$ 構造的に曖昧な最適文法のうち1つを任意に選択する。 2$\textit{structureural simplicity bias}$は、パースツリーを構成するためにルールを未使用のモデルに導く。 これらの課題は、予測エラーを避けるために教師なしの神経文法誘導(UNGI)、高精度な予測を実現するための広範囲な文法の必要性である。 本稿では,これらの課題に対処し,その起源を包括的に分析する。 そこで本研究では, 文ごとのパースプールを減らし, 損失評価を行うために, 事前学習したパーサの構造バイアスを用いて$\textit{sentence-wise parse-focusing}$を導入する。 教師なし解析ベンチマークテストでは,過度に単純化された解析に対する分散と偏りを効果的に低減し,性能を著しく向上する。 我々の研究は、よりコンパクトで正確で一貫した明示的な文法の学習を促進し、より良い解釈可能性を促進する。

Neural parameterization has significantly advanced unsupervised grammar induction. However, training these models with a traditional likelihood loss for all possible parses exacerbates two issues: 1) $\textit{structural optimization ambiguity}$ that arbitrarily selects one among structurally ambiguous optimal grammars despite the specific preference of gold parses, and 2) $\textit{structural simplicity bias}$ that leads a model to underutilize rules to compose parse trees. These challenges subject unsupervised neural grammar induction (UNGI) to inevitable prediction errors, high variance, and the necessity for extensive grammars to achieve accurate predictions. This paper tackles these issues, offering a comprehensive analysis of their origins. As a solution, we introduce $\textit{sentence-wise parse-focusing}$ to reduce the parse pool per sentence for loss evaluation, using the structural bias from pre-trained parsers on the same dataset. In unsupervised parsing benchmark tests, our method significantly improves performance while effectively reducing variance and bias toward overly simplistic parses. Our research promotes learning more compact, accurate, and consistent explicit grammars, facilitating better interpretability.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# No Re-Train, More Gain: Upgrading Backbones with Diffusion Model for Few-Shot Segmentation (特集:バイオサイバネティックスとバイオサイバネティックス)

No Re-Train, More Gain: Upgrading Backbones with Diffusion Model for Few-Shot Segmentation ( http://arxiv.org/abs/2407.16182v1 )

ライセンス: Link先を確認
Shuai Chen, Fanman Meng, Chenhao Wu, Haoran Wei, Runtong Zhang, Qingbo Wu, Linfeng Xu, Hongliang Li, (参考訳) Few-Shot Segmentation (FSS)は、注釈付き画像のみを使用して新しいクラスをセグメンテーションすることを目的としている。 ピクセル単位のサポートアノテーションの下でのかなりのプロセスにもかかわらず、現在のFSSメソッドは、再トレーニングなしでのバックボーンアップグレードの柔軟性、さまざまなタイプのアノテーション(例えば、スクリブル、バウンディングボックス、マスク、テキスト)を均一に扱えないこと、異なるアノテーション量の調整が難しいこと、の3つの問題に直面している。 これらの問題を同時に解決するために,拡散過程を用いた条件生成問題としてFSSタスクを概念化する新しいFSS手法であるDiffUpを提案する。 最初の問題として、異なるセグメンテーションキューを統一された粗いプリエントに変換するバックボーン非依存の機能変換モジュールを導入し、再トレーニングなしにシームレスなバックボーンアップグレードを実現する。 2つ目の問題として、様々なアノテーションタイプからの変換前の粒度の変化により、拡散モデルの異なる段階におけるノイズのある中間体と類似した、これらの多重粒変換前の概念化を行う。 これは、自己条件付き変調ブロックとデュアルレベル品質変調ブランチを結合して実装される。 第3の課題では、ゼロショット、ワンショット、多ショットシナリオ間のばらつきを調和させる不確実性を認識した情報融合モジュールを組み込んでいます。 厳格なベンチマークによって評価されたDiffUpは、柔軟性と正確性の観点から、既存のFSSモデルを大幅に上回っている。

Few-Shot Segmentation (FSS) aims to segment novel classes using only a few annotated images. Despite considerable process under pixel-wise support annotation, current FSS methods still face three issues: the inflexibility of backbone upgrade without re-training, the inability to uniformly handle various types of annotations (e.g., scribble, bounding box, mask and text), and the difficulty in accommodating different annotation quantity. To address these issues simultaneously, we propose DiffUp, a novel FSS method that conceptualizes the FSS task as a conditional generative problem using a diffusion process. For the first issue, we introduce a backbone-agnostic feature transformation module that converts different segmentation cues into unified coarse priors, facilitating seamless backbone upgrade without re-training. For the second issue, due to the varying granularity of transformed priors from diverse annotation types, we conceptualize these multi-granular transformed priors as analogous to noisy intermediates at different steps of a diffusion model. This is implemented via a self-conditioned modulation block coupled with a dual-level quality modulation branch. For the third issue, we incorporates an uncertainty-aware information fusion module that harmonizing the variability across zero-shot, one-shot and many-shot scenarios. Evaluated through rigorous benchmarks, DiffUp significantly outperforms existing FSS models in terms of flexibility and accuracy.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# RLの次のフロンティアは自動環境整形

Automatic Environment Shaping is the Next Frontier in RL ( http://arxiv.org/abs/2407.16186v1 )

ライセンス: Link先を確認
Younghyo Park, Gabriel B. Margolis, Pulkit Agrawal, (参考訳) 多くのロボット学者は、夕方にタスクを持ったロボットを提示し、翌朝にそのタスクを解くことができるロボットを見つけることを夢見ている。 これを達成するのを妨げているのは何か? Sim-to-real reinforcement learning (RL)は、ロボット工学の挑戦的なタスクにおいて、優れたパフォーマンスを達成したが、そのタスクをRLに許容できる方法でセットアップするには、相当な人的努力が必要である。 政策最適化やその他のアイデアのアルゴリズム的改善は、トレーニング環境、すなわち、観察、アクション、報酬、シミュレーションのダイナミクスを形作る際の主要なボトルネックを解決するために導かれるべきだ、という私たちの立場です。 ほとんどの実践者はRLアルゴリズムをチューニングしませんが、望ましいコントローラを得るために他の環境パラメータを調整します。 RLを多様なロボットタスクにスケールすることは、コミュニティが環境形成手順の自動化に注力するときにのみ達成できると仮定する。

Many roboticists dream of presenting a robot with a task in the evening and returning the next morning to find the robot capable of solving the task. What is preventing us from achieving this? Sim-to-real reinforcement learning (RL) has achieved impressive performance on challenging robotics tasks, but requires substantial human effort to set up the task in a way that is amenable to RL. It's our position that algorithmic improvements in policy optimization and other ideas should be guided towards resolving the primary bottleneck of shaping the training environment, i.e., designing observations, actions, rewards and simulation dynamics. Most practitioners don't tune the RL algorithm, but other environment parameters to obtain a desirable controller. We posit that scaling RL to diverse robotic tasks will only be achieved if the community focuses on automating environment shaping procedures.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# 超強結合系における量子ラビモデルのフロケット工学

Floquet engineering the quantum Rabi model in the ultrastrong coupling regime ( http://arxiv.org/abs/2407.16188v1 )

ライセンス: Link先を確認
Kamran Akbari, Franco Nori, Stephen Hughes, (参考訳) 超強結合状態における空洞-双極子カップリングの周期的変調の下で、量子化キャビティモードに結合した2レベル系の量子ラビモデルについて検討し、リッチなフロケ状態をもたらす。 この理論の適用例として、周期的結合速度の強さと周波数によって、純粋に機械的駆動が真の光子を生成できることを示す。

We study the quantum Rabi model for a two-level system coupled to a quantized cavity mode under periodic modulation of the cavity-dipole coupling in the ultrastrong coupling regime, leading to rich Floquet states. As an application of the theory, we show how purely mechanical driving can produce real photons, depending on the strength and frequency of the periodic coupling rate.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# EIANet: ニューラルネットワークによるクラス識別の最大化のための新しいドメイン適応手法

EIANet: A Novel Domain Adaptation Approach to Maximize Class Distinction with Neural Collapse Principles ( http://arxiv.org/abs/2407.16189v1 )

ライセンス: Link先を確認
Zicheng Pan, Xiaohan Yu, Yongsheng Gao, (参考訳) ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。 SFDAにおける大きな課題は、特に異なるクラスからのサンプル埋め込みが類似しているように見える場合に、ターゲットドメインの正確な分類情報を導出することである。 この問題は、クラス間の違いが微妙な微粒な視覚分類タスクにおいて特に顕著である。 この課題を克服するために、注意と神経崩壊の原理を利用して、クラスプロトタイプを分離する新しいETF-Informed Attention Network(EIANet)を導入する。 より具体的には、EIANetは、注意機構とともに、単純なEquiangular Tight Frame (ETF)分類器を使用し、モデルの識別機能へのフォーカスを容易にし、最大クラスのプロトタイプ分離を保証する。 この革新的なアプローチは、有意な領域を配置することで、潜在空間における異なるクラス間の特徴差を効果的に拡大し、類似しているが異なるカテゴリサンプルの誤分類を防止し、より正確なカテゴリ情報を提供し、ターゲット領域の微調整プロセスを導く。 SFDAデータセット4つの実験結果は、EIANetの最先端のパフォーマンスを検証している。 コードは、https://github.com/zichengpan/EIANet.comで入手できる。

Source-free domain adaptation (SFDA) aims to transfer knowledge from a labelled source domain to an unlabelled target domain. A major challenge in SFDA is deriving accurate categorical information for the target domain, especially when sample embeddings from different classes appear similar. This issue is particularly pronounced in fine-grained visual categorization tasks, where inter-class differences are subtle. To overcome this challenge, we introduce a novel ETF-Informed Attention Network (EIANet) to separate class prototypes by utilizing attention and neural collapse principles. More specifically, EIANet employs a simplex Equiangular Tight Frame (ETF) classifier in conjunction with an attention mechanism, facilitating the model to focus on discriminative features and ensuring maximum class prototype separation. This innovative approach effectively enlarges the feature difference between different classes in the latent space by locating salient regions, thereby preventing the misclassification of similar but distinct category samples and providing more accurate categorical information to guide the fine-tuning process on the target domain. Experimental results across four SFDA datasets validate EIANet's state-of-the-art performance. Code is available at: https://github.com/zichengpan/EIANet.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# 人工知能と大規模言語モデル

Artificial Agency and Large Language Models ( http://arxiv.org/abs/2407.16190v1 )

ライセンス: Link先を確認
Maud Van Lier, Gorka Muñoz-Gil, (参考訳) LLM(Large Language Models)の到来は、人工的にエージェンシーを実現する可能性についての哲学的な議論を巻き起こした。 本研究は, 人工エージェントのしきい値概念として使用できる理論モデルを提示することによって, 議論に寄与する。 このモデルはエージェントを、エージェントのアクセス可能な履歴、適応的レパートリーとその外部環境からなる要因の動的フレームワークによって常に影響されるシステムとして定義する。 このフレームワークは、エージェントが取るアクションとそれを形成する目標に影響を受けます。 このモデルの助けを借りて、最先端のLLMはまだエージェントではなく、前進の道を示す要素があることを示します。 論文は、Park et al(2023年)で提示されたエージェントアーキテクチャとBoiko et al(2023年)のCoscientistのようなモジュールの組み合わせが、人工的にエージェンシーを実現する方法になり得ると主張している。 我々は,このような人工エージェントの構築において直面するであろう障害を反映し,今後の研究の方向性を示すことによって,論文を締めくくる。

The arrival of Large Language Models (LLMs) has stirred up philosophical debates about the possibility of realizing agency in an artificial manner. In this work we contribute to the debate by presenting a theoretical model that can be used as a threshold conception for artificial agents. The model defines agents as systems whose actions and goals are always influenced by a dynamic framework of factors that consists of the agent's accessible history, its adaptive repertoire and its external environment. This framework, in turn, is influenced by the actions that the agent takes and the goals that it forms. We show with the help of the model that state-of-the-art LLMs are not agents yet, but that there are elements to them that suggest a way forward. The paper argues that a combination of the agent architecture presented in Park et al. (2023) together with the use of modules like the Coscientist in Boiko et al. (2023) could potentially be a way to realize agency in an artificial manner. We end the paper by reflecting on the obstacles one might face in building such an artificial agent and by presenting possible directions for future research.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# 第一量子化量子サブルーチンを用いた軌道自由密度汎関数理論

Orbital-free density functional theory with first-quantized quantum subroutines ( http://arxiv.org/abs/2407.16191v1 )

ライセンス: Link先を確認
Yusuke Nishiya, Hirofumi Nishi, Taichi Kosugi, Yu-ichiro Matsushita, (参考訳) 本研究では,大規模システムの材料計算手法として,故障耐性量子コンピュータ(FTQC)の時代に設計された確率的想像時間進化(PITE)を用いて,軌道自由密度汎関数理論(OFDFT)を実行する量子古典ハイブリッド方式を提案する。 PITEは、各自己整合体(SCF)反復におけるハミルトニアン基底状態を探索するOFDFTの一部に適用され、電子密度やハミルトニアン更新などの他の部分は、古典的コンピュータ上の既存のアルゴリズムによって実行される。 シミュレーションセルを$N_\mathrm{g}$グリッドポイントに分解し、量子位相推定(QPE)と組み合わせると、ハミルトンの基底状態エネルギーを得るためには、回路深さが$O(\log N_\mathrm{g})$であることが示されている。 OFDFTの基底状態計算部は、例えば、局所最適ブロック前条件共役勾配(LOBPCG)法に対する推定基底状態エネルギーから適切なプレコンディショナを作成することにより、加速することが期待されている。

In this study, we propose a quantum-classical hybrid scheme for performing orbital-free density functional theory (OFDFT) using probabilistic imaginary-time evolution (PITE), designed for the era of fault-tolerant quantum computers (FTQC), as a material calculation method for large-scale systems. PITE is applied to the part of OFDFT that searches the ground state of the Hamiltonian in each self-consistent field (SCF) iteration, while the other parts such as electron density and Hamiltonian updates are performed by existing algorithms on classical computers. When the simulation cell is discretized into $N_\mathrm{g}$ grid points, combined with quantum phase estimation (QPE), it is shown that obtaining the ground state energy of Hamiltonian requires a circuit depth of $O(\log N_\mathrm{g})$. The ground state calculation part in OFDFT is expected to be accelerated, for example, by creating an appropriate preconditioner from the estimated ground state energy for the locally optimal block preconditioned conjugate gradient (LOBPCG) method.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# パーソナライズされた会話情報検索のための個人的テキスト知識の活用方法

How to Leverage Personal Textual Knowledge for Personalized Conversational Information Retrieval ( http://arxiv.org/abs/2407.16192v1 )

ライセンス: Link先を確認
Fengran Mo, Longxiang Zhao, Kaiyu Huang, Yue Dong, Degen Huang, Jian-Yun Nie, (参考訳) パーソナライズされた会話情報検索(CIR)は、会話可能な要素とパーソナライズ可能な要素を組み合わせて、背景に基づくマルチターンインタラクションを通じて、様々なユーザの複雑な情報ニーズを満たす。 鍵となる約束は、個人のテキスト知識ベース(PTKB)が、検索結果がユーザのバックグラウンドとより関係があるため、CIRの有効性を改善することである。 しかし、PTKBはノイズが多く、PTKBのすべての知識が、手元にある特定のクエリに関連するわけではない。 本稿では,PTKB から知識を抽出し,それを大規模言語モデル (LLM) を用いてクエリ再構成に利用する方法を探索し,検証する。 実験の結果、PTKBは単独で使用すると検索結果を常に改善するわけではないが、高品質なガイダンスが提供されると、LLMはより適切なパーソナライズされたクエリを生成するのに役立つことがわかった。

Personalized conversational information retrieval (CIR) combines conversational and personalizable elements to satisfy various users' complex information needs through multi-turn interaction based on their backgrounds. The key promise is that the personal textual knowledge base (PTKB) can improve the CIR effectiveness because the retrieval results can be more related to the user's background. However, PTKB is noisy: not every piece of knowledge in PTKB is relevant to the specific query at hand. In this paper, we explore and test several ways to select knowledge from PTKB and use it for query reformulation by using a large language model (LLM). The experimental results show the PTKB might not always improve the search results when used alone, but LLM can help generate a more appropriate personalized query when high-quality guidance is provided.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# CloudFixer: 拡散誘導幾何変換による3Dポイントクラウドのテスト時間適応

CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation ( http://arxiv.org/abs/2407.16193v1 )

ライセンス: Link先を確認
Hajin Shim, Changhun Kim, Eunho Yang, (参考訳) 実世界のセンサーから捉えた3Dポイントの雲は、閉塞、解像度の制限、スケールの変動など様々な障害のために、ノイズの多い点をしばしば含む。 これらの課題は、クリーンポイントクラウドでトレーニングされたトレーニング済みのポイントクラウド認識モデルのデプロイを妨げる。 テスト時間適応(TTA)戦略は、この問題に関して2Dドメインで有望な結果を示しているが、彼らの3Dポイントクラウドへの応用はまだ検討されていない。 TTA法では,事前学習した拡散モデルを用いて,テストインスタンスをソースドメインに直接変換する入力適応手法が提案されている。 現実的な状況では堅牢なTTA性能にもかかわらず、点雲の性質や禁止的な計算コストが無視されるため、これを3D領域に内在的に適用することは最適ではない。 これらの制約に触発されて,事前学習した拡散モデルを用いて,3次元点雲に適したテスト時間入力適応法であるCloudFixerを提案する。 具体的には、CloudFixerは、ポイントクラウドの幾何学的特性を活用するために、慎重に設計された目的によって幾何学的変換パラメータを最適化する。 また,拡散モデルや禁止生成プロセスによるバックプロパゲーションを回避し,計算効率を大幅に向上する。 さらに,元のモデル予測を適応入力と整合させることにより,オンラインモデル適応戦略を提案する。 大規模な実験では、さまざまなTTAベースラインよりもCloudFixerの方が優れており、一般的な汚職やさまざまな現実世界シナリオにおける自然な分散シフトを扱うのに優れています。 私たちのコードはhttps://github.com/shimazing/CloudFixerで利用可能です。

3D point clouds captured from real-world sensors frequently encompass noisy points due to various obstacles, such as occlusion, limited resolution, and variations in scale. These challenges hinder the deployment of pre-trained point cloud recognition models trained on clean point clouds, leading to significant performance degradation. While test-time adaptation (TTA) strategies have shown promising results on this issue in the 2D domain, their application to 3D point clouds remains under-explored. Among TTA methods, an input adaptation approach, which directly converts test instances to the source domain using a pre-trained diffusion model, has been proposed in the 2D domain. Despite its robust TTA performance in practical situations, naively adopting this into the 3D domain may be suboptimal due to the neglect of inherent properties of point clouds, and its prohibitive computational cost. Motivated by these limitations, we propose CloudFixer, a test-time input adaptation method tailored for 3D point clouds, employing a pre-trained diffusion model. Specifically, CloudFixer optimizes geometric transformation parameters with carefully designed objectives that leverage the geometric properties of point clouds. We also substantially improve computational efficiency by avoiding backpropagation through the diffusion model and a prohibitive generation process. Furthermore, we propose an online model adaptation strategy by aligning the original model prediction with that of the adapted input. Extensive experiments showcase the superiority of CloudFixer over various TTA baselines, excelling in handling common corruptions and natural distribution shifts across diverse real-world scenarios. Our code is available at https://github.com/shimazing/CloudFixer
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# LiCROcc:LiDARとカメラを用いた正確なセマンティック職業予測のためのティーチレーダ

LiCROcc: Teach Radar for Accurate Semantic Occupancy Prediction using LiDAR and Camera ( http://arxiv.org/abs/2407.16197v1 )

ライセンス: Link先を確認
Yukai Ma, Jianbiao Mei, Xuemeng Yang, Licheng Wen, Weihua Xu, Jiangning Zhang, Botian Shi, Yong Liu, Xingxing Zuo, (参考訳) セマンティック・シーン・コンプリート(SSC)は自律運転認識において重要な役割を担い、しばしば天候や照明の変化の複雑さに直面している。 長期的な戦略は、システムの堅牢性を高めるために、マルチモーダル情報を融合させることである。 Radarは、ますます3Dターゲット検出に利用され、自動運転アプリケーションにおけるLiDARを徐々に置き換え、堅牢なセンシング代替手段を提供している。 本稿では,3次元レーダのセマンティック・シーン・コンプリートにおける可能性,気象や照明に対するロバスト性向上のためのクロスモーダル・リファインメント技術の開拓,SSC性能の向上に焦点をあて,モデルアーキテクチャに加えて,点雲と画像の融合フレームワークを実現するために,BEVに3段階密融合アプローチを提案する。 そこで我々はCMRD, BRD, PDDの3つのクロスモーダル蒸留モジュールを設計した。 提案手法は,レーダー専用(R-LiCROcc)とレーダーカメラ(RC-LiCROcc)の両方において,LiDARとカメラの融合した特徴の豊富な意味と構造情報を蒸留することにより,性能を向上させる。 最後に、我々のLC-Fusion(教師モデル)、R-LiCROcc、RC-LiCROccは、それぞれ22.9%、44.1%、15.5%のmIOUで、nuScenes-Occupancyデータセット上で最高のパフォーマンスを達成する。 プロジェクトページはhttps://hr-zju.github.io/LiCROcc/で公開されている。

Semantic Scene Completion (SSC) is pivotal in autonomous driving perception, frequently confronted with the complexities of weather and illumination changes. The long-term strategy involves fusing multi-modal information to bolster the system's robustness. Radar, increasingly utilized for 3D target detection, is gradually replacing LiDAR in autonomous driving applications, offering a robust sensing alternative. In this paper, we focus on the potential of 3D radar in semantic scene completion, pioneering cross-modal refinement techniques for improved robustness against weather and illumination changes, and enhancing SSC performance.Regarding model architecture, we propose a three-stage tight fusion approach on BEV to realize a fusion framework for point clouds and images. Based on this foundation, we designed three cross-modal distillation modules-CMRD, BRD, and PDD. Our approach enhances the performance in both radar-only (R-LiCROcc) and radar-camera (RC-LiCROcc) settings by distilling to them the rich semantic and structural information of the fused features of LiDAR and camera. Finally, our LC-Fusion (teacher model), R-LiCROcc and RC-LiCROcc achieve the best performance on the nuScenes-Occupancy dataset, with mIOU exceeding the baseline by 22.9%, 44.1%, and 15.5%, respectively. The project page is available at https://hr-zju.github.io/LiCROcc/.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# INF-LLaVA:高分解能マルチモーダル大言語モデルに対するデュアルパースペクティブ・パーセプション

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model ( http://arxiv.org/abs/2407.16198v1 )

ライセンス: Link先を確認
Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji, (参考訳) データ可用性と計算資源の進歩により、MLLM(Multimodal Large Language Models)は様々な分野にまたがる機能を示した。 しかし、MLLMにおけるビジョンエンコーダの2次複雑さは入力画像の解像度を制約する。 現在のほとんどのアプローチでは、高解像度画像を小さなサブイメージにトリミングすることでこの問題を緩和し、視覚エンコーダによって独立に処理される。 十分な局所的な詳細を把握しているにもかかわらず、これらのサブイメージはグローバルなコンテキストを欠き、相互に相互作用することができない。 この制限に対処するため,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。 INF-LLaVAには2つの革新的なコンポーネントが含まれている。 まず、DCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点からの連続的な詳細と大域的な視点からの包括的情報を含むことを保証する。 第2に、DEM(Dual-perspective Enhancement Module)を導入し、グローバルな特徴とローカルな特徴の相互強化を可能にし、INF-LLaVAが詳細なローカル情報と包括的グローバルなコンテキストを同時にキャプチャすることで、高解像度の画像を効果的に処理できるようにする。 広範囲にわたるアブレーション研究により、これらの成分の有効性が検証され、多様なベンチマークによる実験により、INF-LLaVAが既存のMLLMよりも優れていることが示された。 コードと事前トレーニングされたモデルはhttps://github.com/WeihuangLin/INF-LLaVA.comで公開されている。

With advancements in data availability and computing resources, Multimodal Large Language Models (MLLMs) have showcased capabilities across various fields. However, the quadratic complexity of the vision encoder in MLLMs constrains the resolution of input images. Most current approaches mitigate this issue by cropping high-resolution images into smaller sub-images, which are then processed independently by the vision encoder. Despite capturing sufficient local details, these sub-images lack global context and fail to interact with one another. To address this limitation, we propose a novel MLLM, INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA incorporates two innovative components. First, we introduce a Dual-perspective Cropping Module (DCM), which ensures that each sub-image contains continuous details from a local perspective and comprehensive information from a global perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to enable the mutual enhancement of global and local features, allowing INF-LLaVA to effectively process high-resolution images by simultaneously capturing detailed local information and comprehensive global context. Extensive ablation studies validate the effectiveness of these components, and experiments on a diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing MLLMs. Code and pretrained model are available at https://github.com/WeihuangLin/INF-LLaVA.
翻訳日:2024-07-24 18:35:54 公開日:2024-07-23
# MCTSによる連続輸送における運転制約下における自律走行車の分散

MCTS Based Dispatch of Autonomous Vehicles under Operational Constraints for Continuous Transportation ( http://arxiv.org/abs/2407.16200v1 )

ライセンス: Link先を確認
Milan Tomy, Konstantin M. Seiler, Andrew J. Hill, (参考訳) 鉱業における材料の継続的な輸送は、個別の輸送能力を持つ自律的な貨物トラックの派遣によって達成される。 近年,Monte Carlo Tree Search (MCTS) は,長期的最適性,スケーラビリティ,適応性といった課題への対処に成功している。 通常、鉱山で課される運用上の制約は、派遣計画とは無関係に、ヒューリスティックなコントローラーや人間のオペレーターによって満たされる。 本稿では,MCTS ベースのディスパッチプランナ Flow-Achieving Scheduling Tree (FAST) を利用したディスパッチ計画に,運用上の制約満足度を組み込む。 運用制約違反と満足度は、ディスパッチの組合せ最適化問題における機会コストとしてモデル化される。 MCTSジェネレータモデルを用いることで、コストの明示的な定式化を回避し、機会コストを導出する。 4種類の運用制約による実験研究は、制約満足度のための機会コストの利用の成功と、ディスパッチ計画への制約の統合効果を示す。

Continuous transportation of material in the mining industry is achieved by the dispatch of autonomous haul-trucks with discrete haulage capacities. Recently, Monte Carlo Tree Search (MCTS) was successfully deployed in tackling challenges of long-run optimality, scalability and adaptability in haul-truck dispatch. Typically, operational constraints imposed on the mine site are satisfied by heuristic controllers or human operators independent of the dispatch planning. This article incorporates operational constraint satisfaction into the dispatch planning by utilising the MCTS based dispatch planner Flow-Achieving Scheduling Tree (FAST). Operational constraint violation and satisfaction are modelled as opportunity costs in the combinatorial optimisation problem of dispatch. Explicit cost formulations are avoided by utilising MCTS generator models to derive opportunity costs. Experimental studies with four types of operational constraints demonstrate the success of utilising opportunity costs for constraint satisfaction, and the effectiveness of integrating constraints into dispatch planning.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# CLII: クロスモーダルな予測インタラクションによるビジュアルテキストのインパインティング

CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction ( http://arxiv.org/abs/2407.16204v1 )

ライセンス: Link先を確認
Liang Zhao, Qing Guo, Xiaoguang Li, Song Wang, (参考訳) 画像インパインティングは、損傷した画像の欠落画素を埋めることを目的としており、カットエジング学習技術によって大きな進歩を遂げている。 それでも、最先端の塗装法は、主に自然画像用に設計されており、シーンテキストイメージ内のテキストを正しく復元することができず、シーンテキストイメージ上の既存のモデルをトレーニングしても、問題は解決できない。 本研究は,高品質なシーンテキスト画像復元とテキスト補完を実現するための視覚テキストインペイントタスクを同定する: 未知の領域を持つシーンテキストイメージと未知の文字を持つ対応するテキストが与えられた場合,補完的な情報を活用することで,画像とテキストの両方において欠落した情報を補完することを目的とする。 直感的には、入力テキストは、損傷しても、画像内の内容の言語先行を含み、画像のインペイントをガイドすることができる。 一方、シーンテキストイメージには、テキストリカバリに役立つ文字の出現キューが含まれている。 そこで本研究では,2つのブランチ,すなわち ImgBranch と TxtBranch を含むクロスモーダル予測相互作用 (CLII) モデルの設計を行った。 さらに,本手法をSOTAシーンテキストスポッティング手法に組み込むとともに,新たに開発したタスクの実用性を示す画素不足に対するロバスト性を大幅に向上させることを提案する。 提案手法の有効性を検証するため,既存のテキスト関連データセットをベースとした3つの実データセットを構築した。

Image inpainting aims to fill missing pixels in damaged images and has achieved significant progress with cut-edging learning techniques. Nevertheless, state-of-the-art inpainting methods are mainly designed for nature images and cannot correctly recover text within scene text images, and training existing models on the scene text images cannot fix the issues. In this work, we identify the visual-text inpainting task to achieve high-quality scene text image restoration and text completion: Given a scene text image with unknown missing regions and the corresponding text with unknown missing characters, we aim to complete the missing information in both images and text by leveraging their complementary information. Intuitively, the input text, even if damaged, contains language priors of the contents within the images and can guide the image inpainting. Meanwhile, the scene text image includes the appearance cues of the characters that could benefit text recovery. To this end, we design the cross-modal predictive interaction (CLII) model containing two branches, i.e., ImgBranch and TxtBranch, for scene text inpainting and text completion, respectively while leveraging their complementary effectively. Moreover, we propose to embed our model into the SOTA scene text spotting method and significantly enhance its robustness against missing pixels, which demonstrates the practicality of the newly developed task. To validate the effectiveness of our method, we construct three real datasets based on existing text-related datasets, containing 1838 images and covering three scenarios with curved, incidental, and styled texts, and conduct extensive experiments to show that our method outperforms baselines significantly.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# 分析に基づく大規模言語モデルに対するジェイルブレイク攻撃

Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models ( http://arxiv.org/abs/2407.16205v1 )

ライセンス: Link先を確認
Shi Lin, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han, (参考訳) LLM(Large Language Models)の急速な開発は、様々なタスクにまたがって顕著な生成能力をもたらしました。 しかし、驚くべき成果にもかかわらず、これらのモデルにはセキュリティ上の脆弱性が数多く残っており、特にジェイルブレイク攻撃に直面している場合はなおさらだ。 したがって, 脱獄攻撃を捜査することで, LLMの隠れた弱点を解明し, より堅牢な防御機構の開発を指導することができる。 本稿では,LLMに対するジェイルブレイク攻撃の境界についてさらに検討し,解析に基づくジェイルブレイク(ABJ)を提案する。 この効果的なジェイルブレイク攻撃法は、LLMの増大する分析と推論能力を活用し、解析ベースのタスクに直面した際の基盤となる脆弱性を明らかにする。 我々は、GPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成し、様々なオープンソースおよびクローズドソース LLM のABJ の詳細な評価を行い、最先端の攻撃効率と効率を示す。 本研究は, 誤用リスクを軽減するため, LLMの安全性を優先し, 向上することの重要性を強調した。

The rapid development of Large Language Models (LLMs) has brought remarkable generative capabilities across diverse tasks. However, despite the impressive achievements, these models still have numerous security vulnerabilities, particularly when faced with jailbreak attacks. Therefore, by investigating jailbreak attacks, we can uncover hidden weaknesses in LLMs and guide us in developing more robust defense mechanisms to fortify their security. In this paper, we further explore the boundary of jailbreak attacks on LLMs and propose Analyzing-based Jailbreak (ABJ). This effective jailbreak attack method takes advantage of LLMs' growing analyzing and reasoning capability and reveals their underlying vulnerabilities when facing analysis-based tasks. We conduct a detailed evaluation of ABJ across various open-source and closed-source LLMs, which achieves 94.8% Attack Success Rate (ASR) and 1.06 Attack Efficiency (AE) on GPT-4-turbo-0409, demonstrating state-of-the-art attack effectiveness and efficiency. Our research highlights the importance of prioritizing and enhancing the safety of LLMs to mitigate the risks of misuse.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# グラフ構造化された投機的復号法

Graph-Structured Speculative Decoding ( http://arxiv.org/abs/2407.16207v1 )

ライセンス: Link先を確認
Zhuocheng Gong, Jiahao Liu, Ziyue Wang, Pengfei Wu, Jingang Wang, Xunliang Cai, Dongyan Zhao, Rui Yan, (参考訳) 投機的復号化は,小言語モデルを用いて仮説列を起草し,LLMで検証することで,大規模言語モデル(LLM)の推論を加速する有望な手法として登場した。 このアプローチの有効性は、ドラフトモデルの性能と効率のバランスに大きく依存しています。 本研究は,1つではなく複数の仮説を生成することにより,最終的な出力に受け入れられるドラフトトークンの割合を高めることに焦点を当てる。 これにより、LLMはより多くのオプションを選択でき、その標準を満たす最長のシーケンスを選択することができる。 分析の結果,提案手法は共通トークン列を多数共有しており,計算の最適化の可能性も示唆されている。 この観察を生かして、有向非巡回グラフ(DAG)を用いて、起案された仮説を管理する革新的なアプローチを導入する。 この構造により、繰り返し発生するトークン列を効率的に予測し、マージし、ドラフトモデルの計算要求を大幅に削減できる。 このアプローチをグラフ構造化投機復号(GSD)と呼ぶ。 我々は、70ビリオンパラメータLLaMA-2モデルを含む幅広いLSMに適用し、1.73$\times$から1.96$\times$に顕著なスピードアップを観測し、標準投機的復号をはるかに上回っている。

Speculative decoding has emerged as a promising technique to accelerate the inference of Large Language Models (LLMs) by employing a small language model to draft a hypothesis sequence, which is then validated by the LLM. The effectiveness of this approach heavily relies on the balance between performance and efficiency of the draft model. In our research, we focus on enhancing the proportion of draft tokens that are accepted to the final output by generating multiple hypotheses instead of just one. This allows the LLM more options to choose from and select the longest sequence that meets its standards. Our analysis reveals that hypotheses produced by the draft model share many common token sequences, suggesting a potential for optimizing computation. Leveraging this observation, we introduce an innovative approach utilizing a directed acyclic graph (DAG) to manage the drafted hypotheses. This structure enables us to efficiently predict and merge recurring token sequences, vastly reducing the computational demands of the draft model. We term this approach Graph-structured Speculative Decoding (GSD). We apply GSD across a range of LLMs, including a 70-billion parameter LLaMA-2 model, and observe a remarkable speedup of 1.73$\times$ to 1.96$\times$, significantly surpassing standard speculative decoding.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# VidyaRANG:大規模言語モデルを用いた対話型学習プラットフォーム

VidyaRANG: Conversational Learning Based Platform powered by Large Language Model ( http://arxiv.org/abs/2407.16209v1 )

ライセンス: Link先を確認
Chitranshu Harbola, Anupam Purwar, (参考訳) 学生の特定の疑念に合わせた権威情報を提供することは、検索エンジンが圧倒的な数の記事リンクを返却するこの時代のハードルである。 GPTのような大規模言語モデルでは、機密機密情報から派生した質問に対する回答が得られない。 一部の組織に特有のこの情報は、プライバシー上の制約のためにLLMでは利用できない。 ここでは知識強化検索技術が特に有用になる。 提案するプラットフォームは,異なる分野から学習者のニーズを満たすように設計されている。 今日、最も一般的な学習形式は、ビデオと書籍である。 これにより、関連するコンテンツへのアクセスを制限し、同時にパーソナライズされたアクセスと自由を深い知識で得ることによって、学習者の集中時間を指数関数的に増加させる。 インストラクタの役割と責任は大幅に単純化され、より大きなオーディエンスをトレーニングすることができる。 プライバシーを守るために、インストラクターは特定の個人にコースアクセスを許可し、提供されるコンテンツのパーソナライズされた会話を可能にする。 この作業には、大規模言語モデルを実行し、アプリケーションを維持するためのクラウドコンピューティングの知識を包含する、ソフトウェア開発と製品管理スキルの幅広い範囲が含まれている。 ユーザインタラクションとユーザエクスペリエンスを担当するフロントエンド開発では、StreamlitとReactフレームワークが使用されている。 セキュリティとプライバシを改善するため、サーバはSSL証明書を持つドメインにルーティングされ、すべてのAPIキー/sがAWS EC2インスタンスにセキュアに保存され、ユーザエクスペリエンスの向上、Android StudioベースのモバイルアプリへのWeb接続が確立され、プレイストアでアプリを公開するためのプロセスが内部で確立された。

Providing authoritative information tailored to a student's specific doubt is a hurdle in this era where search engines return an overwhelming number of article links. Large Language Models such as GPTs fail to provide answers to questions that were derived from sensitive confidential information. This information which is specific to some organisations is not available to LLMs due to privacy constraints. This is where knowledge-augmented retrieval techniques become particularly useful. The proposed platform is designed to cater to the needs of learners from divergent fields. Today, the most common format of learning is video and books, which our proposed platform allows learners to interact and ask questions. This increases learners' focus time exponentially by restricting access to pertinent content and, at the same time allowing personalized access and freedom to gain in-depth knowledge. Instructor's roles and responsibilities are significantly simplified allowing them to train a larger audience. To preserve privacy, instructors can grant course access to specific individuals, enabling personalized conversation on the provided content. This work includes an extensive spectrum of software development and product management skills, which also circumscribe knowledge of cloud computing for running Large Language Models and maintaining the application. For Frontend development, which is responsible for user interaction and user experience, Streamlit and React framework have been utilized. To improve security and privacy, the server is routed to a domain with an SSL certificate, and all the API key/s are stored securely on an AWS EC2 instance, to enhance user experience, web connectivity to an Android Studio-based mobile app has been established, and in-process to publish the app on play store, thus addressing all major software engineering disciplines
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# 物理に基づくテーブルテニスアニメーションの戦略とスキル学習

Strategy and Skill Learning for Physics-based Table Tennis Animation ( http://arxiv.org/abs/2407.16210v1 )

ライセンス: Link先を確認
Jiashun Wang, Jessica Hodgins, Jungdam Won, (参考訳) 物理に基づくキャラクターアニメーションの最近の進歩は、ディープラーニングを活用してアジャイルと自然の動きを生成することで、バックフリップ、ボクシング、テニスなどの動きをキャラクタが実行できるようにする。 しかし、人間のように複雑なタスクを解くために、動的環境における多様な運動スキルの選択と利用を再現することは依然として課題である。 本稿では,物理に基づく卓球アニメーションのための戦略とスキル学習手法を提案する。 本手法は,複雑なタスクを実行するために必要な運動能力を完全に活用できないモード崩壊の問題に対処する。 具体的には,多様なスキル学習のための階層的制御システムと,効果的な意思決定のための戦略学習フレームワークを実証する。 本手法の有効性を,最先端の手法との比較分析により示すとともに,卓球の各種スキルの実行能力を示す。 我々の戦略学習フレームワークは,バーチャルリアリティにおけるエージェントエージェントインタラクションとヒューマンエージェントインタラクションの両方を通じて,競合的タスクと協調的タスクの両方を扱うことによって検証される。

Recent advancements in physics-based character animation leverage deep learning to generate agile and natural motion, enabling characters to execute movements such as backflips, boxing, and tennis. However, reproducing the selection and use of diverse motor skills in dynamic environments to solve complex tasks, as humans do, still remains a challenge. We present a strategy and skill learning approach for physics-based table tennis animation. Our method addresses the issue of mode collapse, where the characters do not fully utilize the motor skills they need to perform to execute complex tasks. More specifically, we demonstrate a hierarchical control system for diversified skill learning and a strategy learning framework for effective decision-making. We showcase the efficacy of our method through comparative analysis with state-of-the-art methods, demonstrating its capabilities in executing various skills for table tennis. Our strategy learning framework is validated through both agent-agent interaction and human-agent interaction in Virtual Reality, handling both competitive and cooperative tasks.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# Diff-Shadow: シャドー除去のためのグローバル誘導拡散モデル

Diff-Shadow: Global-guided Diffusion Model for Shadow Removal ( http://arxiv.org/abs/2407.16214v1 )

ライセンス: Link先を確認
Jinting Luo, Ru Li, Chengzhi Jiang, Mingyan Han, Xiaoming Zhang, Ting Jiang, Haoqiang Fan, Shuaicheng Liu, (参考訳) 高品質なシャドウ除去のためのグローバル誘導拡散モデルDiff-Shadowを提案する。 従来のトランスフォーマーベースのアプローチでは、グローバル情報を利用してシャドウ領域と非シャドウ領域を関連付けることができるが、その合成能力に制限があり、明確な境界を持つ画像を復元することができる。 対照的に、拡散に基づく手法はより良いコンテンツを生成することができるが、グローバルな情報を無視し、一貫性のない照明をもたらす。 本研究では,拡散モデルとグローバルガイダンスの利点を組み合わせて,影のない復元を実現する。 具体的には,並列UNetsアーキテクチャを提案する。 1)局所分岐は拡散過程においてパッチベースノイズ推定を行い, 2) グローバルブランチは低解像度のシャドウフリーイメージを復元する。 Reweight Cross Attention (RCA)モジュールは、非シャドウ領域のグローバルなコンテキスト情報をローカルブランチに統合するように設計されている。 我々はさらに,Global-Guided Sampling Strategy (GSS) を設計し,パッチ境界問題を緩和し,シェード領域とアンシェード領域における一貫した照明を確保する。 ISTD、ISTD+、SRDの3つの公開標準データセットに関する総合的な実験は、Diff-Shadowの有効性を実証した。 提案手法は最先端手法と比較してPSNRの大幅な改善を実現し,SRDデータセット上では32.33dBから33.69dBに増加した。 コードはリリースされる。

We propose Diff-Shadow, a global-guided diffusion model for high-quality shadow removal. Previous transformer-based approaches can utilize global information to relate shadow and non-shadow regions but are limited in their synthesis ability and recover images with obvious boundaries. In contrast, diffusion-based methods can generate better content but ignore global information, resulting in inconsistent illumination. In this work, we combine the advantages of diffusion models and global guidance to realize shadow-free restoration. Specifically, we propose a parallel UNets architecture: 1) the local branch performs the patch-based noise estimation in the diffusion process, and 2) the global branch recovers the low-resolution shadow-free images. A Reweight Cross Attention (RCA) module is designed to integrate global contextural information of non-shadow regions into the local branch. We further design a Global-guided Sampling Strategy (GSS) that mitigates patch boundary issues and ensures consistent illumination across shaded and unshaded regions in the recovered image. Comprehensive experiments on three publicly standard datasets ISTD, ISTD+, and SRD have demonstrated the effectiveness of Diff-Shadow. Compared to state-of-the-art methods, our method achieves a significant improvement in terms of PSNR, increasing from 32.33dB to 33.69dB on the SRD dataset. Codes will be released.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# LLMアライメント技術の総合的調査:RLHF, RLAIF, PPO, DPOなど

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More ( http://arxiv.org/abs/2407.16216v1 )

ライセンス: Link先を確認
Zhichao Wang, Bin Bi, Shiva Kumar Pentyala, Kiran Ramnath, Sougata Chaudhuri, Shubham Mehrotra, Zixu, Zhu, Xiang-Bo Mao, Sitaram Asur, Na, Cheng, (参考訳) 自己教師型学習の進歩、事前学習コーパスにおける数兆トークンの利用可能化、命令の微調整、数十億のパラメータを持つ大規模トランスフォーマーの開発などにより、大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成できるようになった。 しかし、トレーニングデータの混合品質は、望ましくない応答を生み出すことにつながる可能性があるため、大きな課題が浮かび上がっている。 過去2年間で、LLMの強化、特に人間の期待に合わせた様々な手法が提案されてきた。 これらの取り組みにもかかわらず、これらのアプローチを分類し詳細化する総合的な調査論文は存在しない。 本研究は,これらの論文を個別のトピックに分類し,各アライメント手法の詳細な説明を提供することで,このギャップに対処することを目的としている。

With advancements in self-supervised learning, the availability of trillions tokens in a pre-training corpus, instruction fine-tuning, and the development of large Transformers with billions of parameters, large language models (LLMs) are now capable of generating factual and coherent responses to human queries. However, the mixed quality of training data can lead to the generation of undesired responses, presenting a significant challenge. Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation. Despite these efforts, there has not been a comprehensive survey paper that categorizes and details these approaches. In this work, we aim to address this gap by categorizing these papers into distinct topics and providing detailed explanations of each alignment method, thereby helping readers gain a thorough understanding of the current state of the field.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# ODGR:オンライン動的ゴール認識

ODGR: Online Dynamic Goal Recognition ( http://arxiv.org/abs/2407.16220v1 )

ライセンス: Link先を確認
Matan Shamir, Osher Elhadad, Matthew E. Taylor, Reuth Mirsky, (参考訳) 伝統的に、強化学習(RL)問題はエージェントの振舞いの最適化を目的としている。 本稿では,そのエージェントの目標をリアルタイムに認識するために,他のエージェントの方針を学習するために使用される新しいRLを提案する。 ゴール認識(GR)は伝統的に、観察された行動に基づいてエージェントの目的を認識しなければならない計画上の問題である。 近年のアプローチでは、強化学習をGRパイプラインの一部として使用する方法が示されているが、事前に定義された目標を認識し、大きな目標領域を持つドメインのスケーラビリティを欠くことに制限されている。 本稿では,これらの制約に対処するための第一歩として,新しい問題として "Online Dynamic Goal Recognition" (ODGR) を定式化する。 コントリビューションには、標準のGR問題定義に動的目標の概念を導入し、ODGRを使って修正することで共通のアプローチを再検討すること、トランスファーラーニングを用いたナビゲーション領域におけるODGRの解決の可能性を示すことなどが含まれる。 これらの新しい定式化は、既存の移動学習に基づくGR法の将来の拡張への扉を開く。

Traditionally, Reinforcement Learning (RL) problems are aimed at optimization of the behavior of an agent. This paper proposes a novel take on RL, which is used to learn the policy of another agent, to allow real-time recognition of that agent's goals. Goal Recognition (GR) has traditionally been framed as a planning problem where one must recognize an agent's objectives based on its observed actions. Recent approaches have shown how reinforcement learning can be used as part of the GR pipeline, but are limited to recognizing predefined goals and lack scalability in domains with a large goal space. This paper formulates a novel problem, "Online Dynamic Goal Recognition" (ODGR), as a first step to address these limitations. Contributions include introducing the concept of dynamic goals into the standard GR problem definition, revisiting common approaches by reformulating them using ODGR, and demonstrating the feasibility of solving ODGR in a navigation domain using transfer learning. These novel formulations open the door for future extensions of existing transfer learning-based GR methods, which will be robust to changing and expansive real-time environments.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# LLMはいつ答えないのか? : 大規模言語モデルの留意点の検討

Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models ( http://arxiv.org/abs/2407.16221v1 )

ライセンス: Link先を確認
Nishanth Madhusudhan, Sathwik Tejaswi Madhusudhan, Vikas Yadav, Masoud Hashemi, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを達成するため、その信頼性は広く採用するために欠かせないものとなる。 本稿では,質問応答(QA)タスクのパフォーマンスを維持しつつ,不確かさや確定回答が不可能な場合に,LLMが質問に対する回答を控える能力について述べる。 従来の研究は, LLMの再現能力や, 疑わしい, 疑わしい質問を識別する能力の理解に重点を置いてきたが, 効果的なAA評価手法の必要性が示唆されている。 そこで本研究では,多目的QAタスクにおけるLCMのAAを検証し,理解するためのブラックボックス評価手法を提案する。 予測が誤りであったり、質問が本質的に解決不可能であったりした場合に、AAが回答しないようモデルに報いることにより、AAを測定する。 我々は,3つの戦略,Strict Prompting,Verbal Confidence Thresholding,Chain-of-Thought(CoT)について検討し,異なるLLMにおける禁忌に対する影響を明らかにする。 以上の結果から,GPT-4 のような最先端の LLM であっても,CoT などの戦略的なプロンプトは,この能力を著しく向上させることができることが示唆された。 さらに,AAの改善がQAタスクの全般的パフォーマンスの向上につながることも示し,LLMにおけるAAを評価することの重要性を強調した。

As Large Language Models (LLMs) achieve remarkable performance across various NLP tasks, their reliability becomes essential for widespread adoption. This paper focuses on Abstention Ability (AA), a critical yet under explored aspect of reliability - the ability of LLMs to refrain from answering questions when they are uncertain or when definitive answer is not possible, while maintaining question-answering (QA) task performance. While previous works have focused on understanding the recollection abilities of LLMs or their ability to identify imponderable/unanswerable questions, we believe there is a need for an effective AA evaluation method. Therefore, we propose a black-box evaluation methodology to examine and understand the AA of LLMs across a variety of multiple-choice QA tasks. We measure AA by rewarding models for abstaining from answering when their predictions are incorrect or when the questions are inherently unanswerable. We investigate three strategies, Strict Prompting, Verbal Confidence Thresholding, and Chain-of-Thought (CoT), to understand their impact on abstention across different LLMs. Our findings reveal that while even state-of-the-art LLMs like GPT-4 struggle with abstention, strategic prompting such as CoT, can significantly enhance this ability. Furthermore, we demonstrate that improving AA also leads to better overall QA task performance, underscoring the importance of evaluating AA in LLMs.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# PreAlign:多言語アライメントの早期確立による言語間移動の促進

PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment ( http://arxiv.org/abs/2407.16222v1 )

ライセンス: Link先を確認
Jiahuan Li, Shujian Huang, Xinyu Dai, Jiajun Chen, (参考訳) 大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。 しかし、これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらすことが示されている。 事前訓練の前後に多言語アライメント情報を明示的に注入することでこの問題に対処する。 したがって、事前訓練の初期段階において、アライメントは言語間で情報や知識を共有するために弱い。 本稿では,言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。 PreAlignはモデルを初期化して多言語アライメントを注入し、アライメントされた単語の類似表現を生成し、事前訓練中にコードスイッチング戦略を用いてこのアライメントを保存する。 PreAlignは、言語モデリング、ゼロショットの言語間移動、および言語間知識アプリケーションにおいて、標準多言語共同訓練を著しく上回っている。 実世界のシナリオにおけるさらなる実験は、様々なモデルサイズにわたるPreAlignの有効性をさらに検証した。

Large language models demonstrate reasonable multilingual abilities, despite predominantly English-centric pretraining. However, the spontaneous multilingual alignment in these models is shown to be weak, leading to unsatisfactory cross-lingual transfer and knowledge sharing. Previous works attempt to address this issue by explicitly injecting multilingual alignment information during or after pretraining. Thus for the early stage in pretraining, the alignment is weak for sharing information or knowledge across languages. In this paper, we propose PreAlign, a framework that establishes multilingual alignment prior to language model pretraining. PreAlign injects multilingual alignment by initializing the model to generate similar representations of aligned words and preserves this alignment using a code-switching strategy during pretraining. Extensive experiments in a synthetic English to English-Clone setting demonstrate that PreAlign significantly outperforms standard multilingual joint training in language modeling, zero-shot cross-lingual transfer, and cross-lingual knowledge application. Further experiments in real-world scenarios further validate PreAlign's effectiveness across various model sizes.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# 画像特徴量からの詩推定のための確率的パラメータ推定器と校正基準

Probabilistic Parameter Estimators and Calibration Metrics for Pose Estimation from Image Features ( http://arxiv.org/abs/2407.16223v1 )

ライセンス: Link先を確認
Romeo Valentin, Sydney M. Katz, Joonghyun Lee, Don Walker, Matthew Sorgenfrei, Mykel J. Kochenderfer, (参考訳) 本稿では,実時間における測定の不確実性を考慮した確率的パラメータ推定の課題に対処する。 汎用的な定式化を行い、これを自律的な視覚着陸システムのためのポーズ推定に適用する。 本稿では,最小二乗サンプリング法,線形近似法,確率的プログラミング推定法という3つの確率的パラメータ推定手法を提案する。 これらの推定器を評価するために,多変量正規分布に特化してキャリブレーションとシャープネスを測定する新しいクローズドフォーム式を提案する。 種々の騒音条件下での3つの推定器の比較実験を行った。 線形近似推定器は、他の手法よりも格段に高速にシャープで精度の良いポーズ予測を生成できるが、特定のシナリオにおいて過信な予測をもたらす可能性があることを実証する。 さらに,これらの推定器をカルマンフィルタと組み合わせて,限界校正を維持しながらシャープネスの50%改善を観察する滑走路アプローチにおいて,連続的なポーズ推定を行うことを示した。 この研究は、データ駆動型コンピュータビジョンモデルの複雑な安全クリティカルな航空機システムへの統合に寄与し、そのようなシステムのための厳密な認証ガイドラインを開発するための基盤を提供する。

This paper addresses the challenge of probabilistic parameter estimation given measurement uncertainty in real-time. We provide a general formulation and apply this to pose estimation for an autonomous visual landing system. We present three probabilistic parameter estimators: a least-squares sampling approach, a linear approximation method, and a probabilistic programming estimator. To evaluate these estimators, we introduce novel closed-form expressions for measuring calibration and sharpness specifically for multivariate normal distributions. Our experimental study compares the three estimators under various noise conditions. We demonstrate that the linear approximation estimator can produce sharp and well-calibrated pose predictions significantly faster than the other methods but may yield overconfident predictions in certain scenarios. Additionally, we demonstrate that these estimators can be integrated with a Kalman filter for continuous pose estimation during a runway approach where we observe a 50\% improvement in sharpness while maintaining marginal calibration. This work contributes to the integration of data-driven computer vision models into complex safety-critical aircraft systems and provides a foundation for developing rigorous certification guidelines for such systems.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# OutfitAnyone:超高品質バーチャル試着機

OutfitAnyone: Ultra-high Quality Virtual Try-On for Any Clothing and Any Person ( http://arxiv.org/abs/2407.16224v1 )

ライセンス: Link先を確認
Ke Sun, Jian Cao, Qi Wang, Linrui Tian, Xindi Zhang, Lian Zhuo, Bang Zhang, Liefeng Bo, Wenbo Zhou, Weiming Zhang, Daiheng Gao, (参考訳) VTON(Virtual Try-On)は、ユーザーが服を物理的に試すことなくファッションを試すことを可能にする、変革的な技術になりつつある。 しかし、既存の手法は、しばしば高忠実で詳細な結果を生み出すのに苦労する。 安定拡散級数のような拡散モデルは、高品質でフォトリアリスティックな画像を作成する能力を示しているが、VTONのような条件付き生成シナリオでは、重大な課題に直面している。 特に、これらのモデルは、仮想衣料試用のために画像を生成する際に、制御と一貫性のバランスを維持するのに苦労する。 OutfitAnyoneは、2ストリームの条件付き拡散モデルを利用することで、これらの制限に対処する。 これは、ポーズ、体形、広範囲な適用性などのスケーラビリティを調節する要因を、アニメからその場のイメージへと拡張することで、自分自身を区別する。 さまざまなシナリオにおけるOutfitAnyoneのパフォーマンスは、実世界のデプロイに対する実用性と準備性を示している。 詳細とアニメーション結果については、 \url{https://humanaigc.github.io/outfit-anyone/} を参照してください。

Virtual Try-On (VTON) has become a transformative technology, empowering users to experiment with fashion without ever having to physically try on clothing. However, existing methods often struggle with generating high-fidelity and detail-consistent results. While diffusion models, such as Stable Diffusion series, have shown their capability in creating high-quality and photorealistic images, they encounter formidable challenges in conditional generation scenarios like VTON. Specifically, these models struggle to maintain a balance between control and consistency when generating images for virtual clothing trials. OutfitAnyone addresses these limitations by leveraging a two-stream conditional diffusion model, enabling it to adeptly handle garment deformation for more lifelike results. It distinguishes itself with scalability-modulating factors such as pose, body shape and broad applicability, extending from anime to in-the-wild images. OutfitAnyone's performance in diverse scenarios underscores its utility and readiness for real-world deployment. For more details and animated results, please see \url{https://humanaigc.github.io/outfit-anyone/}.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# Hooked:QRコードフィッシングの実世界での研究

Hooked: A Real-World Study on QR Code Phishing ( http://arxiv.org/abs/2407.16230v1 )

ライセンス: Link先を確認
Marvin Geisler, Daniela Pöhn, (参考訳) クイックレスポンス(QR)コードの使用は、新型コロナウイルス(COVID-19)パンデミックの前の時代に限られていた。 それ以来、広く頻繁に適用されたため、悪質な俳優にとって魅力的なフィッシングの機会が開かれた。 ユーザーはコードをスキャンして悪意のあるウェブサイトにリダイレクトする。 QRコードによるフィッシングがもう1つの攻撃ベクターであるかどうかを調べるため、研究キャンパスで2つの異なるQRコードを用いた実世界のフィッシングキャンペーンを実施した。 最初のバージョンは比較的平たく、第2バージョンはよりプロフェッショナルに設計され、ブーチャーに勝つ可能性を含んでいた。 研究が完了した後、フィッシングキャンペーンの結果を検証するためにフィッシングとQRコードに関する質的な調査を行った。 フィッシングキャンペーンと調査はどちらも、プロフェッショナルなデザインがより多くの注目を集めていることを示している。 また、QRコードが好奇心をそそるユーザーによって頻繁に使われていることも示している。 その結果,技術に精通した利用者はリスクに気付いていることが確認できたが,非技術に精通した利用者にとって悪意のある可能性を秘めており,対策に関するさらなる研究が提案されている。

The usage of quick response (QR) codes was limited in the pre-era of the COVID-19 pandemic. Due to the widespread and frequent application since then, this opened up an attractive phishing opportunity for malicious actors. They trick users into scanning the codes and redirecting them to malicious websites. In order to explore whether phishing with QR codes is another successful attack vector, we conducted a real-world phishing campaign with two different QR code variants at a research campus. The first version was rather plain, whereas the second version was more professionally designed and included the possibility to win a voucher. After the study was completed, a qualitative survey on phishing and QR codes was conducted to verify the results of the phishing campaign. Both, the phishing campaign and the survey, show that a professional design receives more attention. They also illustrate that QR codes are used more frequently by curious users because of their easy functionality. Although the results confirm that technical-savvy users are more aware of the risks, they also underpin the malicious potential for non-technical-savvy users and suggest further work regarding countermeasures.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# 単一画像超解像に対するチャネル分割ウィンドウ注意と周波数学習

Channel-Partitioned Windowed Attention And Frequency Learning for Single Image Super-Resolution ( http://arxiv.org/abs/2407.16232v1 )

ライセンス: Link先を確認
Dinh Phu Tran, Dao Duy Hung, Daeyoung Kim, (参考訳) 近年、特にSingle Image Super-Resolution (SISR)において、ウィンドウベースのアテンション手法がコンピュータビジョンタスクに大きな可能性を示している。 しかし、長距離の依存関係と遠いトークン間の関係を捉えるには不足する可能性がある。 さらに,空間領域での学習は画像の周波数を伝達しないことが明らかとなった。 これらの課題に対処するために,特徴マップの高さと幅に沿ってウィンドウを順次拡張することにより,長距離依存をよりよく捉えるためのチャネル分割注意変換器 (CPAT) を提案する。 さらに、空間・周波数相互作用モジュール(Spatial-Frequency Interaction Module, SFIM)を提案する。 これには、周波数内容に関する情報が含まれ、画像全体にわたって受容野を強化する。 実験により,提案したモジュールとアーキテクチャの有効性が示された。 特にCPATは最先端の手法を0.31dBまで上回っている。

Recently, window-based attention methods have shown great potential for computer vision tasks, particularly in Single Image Super-Resolution (SISR). However, it may fall short in capturing long-range dependencies and relationships between distant tokens. Additionally, we find that learning on spatial domain does not convey the frequency content of the image, which is a crucial aspect in SISR. To tackle these issues, we propose a new Channel-Partitioned Attention Transformer (CPAT) to better capture long-range dependencies by sequentially expanding windows along the height and width of feature maps. In addition, we propose a novel Spatial-Frequency Interaction Module (SFIM), which incorporates information from spatial and frequency domains to provide a more comprehensive information from feature maps. This includes information about the frequency content and enhances the receptive field across the entire image. Experimental findings demonstrate the effectiveness of our proposed modules and architecture. In particular, CPAT surpasses current state-of-the-art methods by up to 0.31dB.
翻訳日:2024-07-24 18:25:52 公開日:2024-07-23
# 統合勾配における代数的対立攻撃

Algebraic Adversarial Attacks on Integrated Gradients ( http://arxiv.org/abs/2407.16233v1 )

ライセンス: Link先を確認
Lachlan Simpson, Federico Costanza, Kyle Millar, Adriel Cheng, Cheng-Chew Lim, Hong Gunn Chew, (参考訳) 説明可能性モデルに対する敵対的攻撃は、安全クリティカルシステムにおけるニューラルネットワークの推論を理解するために説明が使用される場合、劇的な結果をもたらす。 Pathメソッドは、敵の攻撃に影響を受けやすい属性メソッドの一種である。 対立学習は通常、制約付き最適化問題として表現される。 本研究では,代数的逆例を提案し,積分勾配に対して逆例を生成できる条件について検討する。 代数的対数例は、対数例に対する数学的に抽出可能なアプローチを提供する。

Adversarial attacks on explainability models have drastic consequences when explanations are used to understand the reasoning of neural networks in safety critical systems. Path methods are one such class of attribution methods susceptible to adversarial attacks. Adversarial learning is typically phrased as a constrained optimisation problem. In this work, we propose algebraic adversarial examples and study the conditions under which one can generate adversarial examples for integrated gradients. Algebraic adversarial examples provide a mathematically tractable approach to adversarial examples.
翻訳日:2024-07-24 18:16:08 公開日:2024-07-23
# 年齢推定のためのマルチビューマスクコントラスト学習グラフ畳み込みニューラルネットワーク

A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation ( http://arxiv.org/abs/2407.16234v1 )

ライセンス: Link先を確認
Yiping Zhang, Yuntao Shou, Tao Meng, Wei Ai, Keqin Li, (参考訳) 年齢推定タスクは、顔の特徴を用いて人の年齢を予測することを目的としており、公共のセキュリティ、マーケティング、識別、その他の分野で広く利用されている。 しかし、これらの特徴は主に顔のキーポイントに集中しており、既存のCNNとTransformerベースの手法は複雑な不規則構造をモデル化するための柔軟性と冗長性を持っている。 そこで本稿では,年齢推定のためのマルチビューマスクコントラスト学習グラフ畳み込みニューラルネットワーク(MMCL-GCN)を提案する。 具体的には、MMCL-GCNネットワークの全体構造は、特徴抽出段階と年齢推定段階を含む。 特徴抽出の段階では,顔画像を入力として構築するグラフ構造を導入し,その上で,顔画像に関する複雑な構造的・意味的情報を学習するためのマルチビューマスクコントラスト学習(MMCL)機構を設計する。 学習機構は、オンラインエンコーダ・デコーダ構造を用いて、元のグラフから欠落した情報を再構成し、ターゲットエンコーダを用いて、競合学習のための潜伏表現を学習する非対称サイメネットワークアーキテクチャを用いる。 さらに,2つの学習メカニズムの互換性と相補性を向上するために,2つの強化戦略を採用し,共同損失を最適化する。 年齢推定段階では,オンラインエンコーダが抽出した特徴をフル活用するために,識別マッピングを備えた多層エクストリーム学習マシン(ML-IELM)を設計する。 その後,ML-IELMに基づいて分類器と回帰器を構築し,年齢分類間隔を同定し,最終年齢を正確に推定した。 MMCL-GCNは、Adience、MORPH-II、LAP-2016といったベンチマークデータセットの年齢推定誤差を効果的に低減できることを示した。

The age estimation task aims to use facial features to predict the age of people and is widely used in public security, marketing, identification, and other fields. However, the features are mainly concentrated in facial keypoints, and existing CNN and Transformer-based methods have inflexibility and redundancy for modeling complex irregular structures. Therefore, this paper proposes a Multi-view Mask Contrastive Learning Graph Convolutional Neural Network (MMCL-GCN) for age estimation. Specifically, the overall structure of the MMCL-GCN network contains a feature extraction stage and an age estimation stage. In the feature extraction stage, we introduce a graph structure to construct face images as input and then design a Multi-view Mask Contrastive Learning (MMCL) mechanism to learn complex structural and semantic information about face images. The learning mechanism employs an asymmetric siamese network architecture, which utilizes an online encoder-decoder structure to reconstruct the missing information from the original graph and utilizes the target encoder to learn latent representations for contrastive learning. Furthermore, to promote the two learning mechanisms better compatible and complementary, we adopt two augmentation strategies and optimize the joint losses. In the age estimation stage, we design a Multi-layer Extreme Learning Machine (ML-IELM) with identity mapping to fully use the features extracted by the online encoder. Then, a classifier and a regressor were constructed based on ML-IELM, which were used to identify the age grouping interval and accurately estimate the final age. Extensive experiments show that MMCL-GCN can effectively reduce the error of age estimation on benchmark datasets such as Adience, MORPH-II, and LAP-2016.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# リポジトリレベルの脆弱性検出のための静的アプリケーションセキュリティテストツールと大規模言語モデルの比較

Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection ( http://arxiv.org/abs/2407.16235v1 )

ライセンス: Link先を確認
Xin Zhou, Duc-Manh Tran, Thanh Le-Cong, Ting Zhang, Ivana Clairine Irsan, Joshua Sumarlin, Bach Le, David Lo, (参考訳) ソフトウェア脆弱性は社会に重大なセキュリティ上の課題と潜在的なリスクをもたらし、自動脆弱性検出に多大な努力を必要とする。 自動脆弱性検出には2つの人気がある。 一方、静的アプリケーションセキュリティテスト(SAST)は通常、特に業界において、セキュリティ上の脆弱性のためにソースコードをスキャンするために使用される。 一方,大規模言語モデル(LLM)の導入以来,ディープラーニング(DL)に基づく手法は,ソフトウェア脆弱性の検出においてその可能性を実証してきた。 しかし, SAST ツールと LLM の比較研究は行われておらず, 脆弱性検出の有効性を判断し, SAST と LLM の両方の長所と短所を理解し, これら2つのアプローチの組み合わせの可能性を探究することを目的としている。 本稿では,Java,C,Pythonの3つの人気プログラミング言語のリポジトリからソフトウェア脆弱性を検出するために,15種類のSASTツールと12のポピュラーあるいは最先端のオープンソースLLMを比較した。 実験の結果,SASTツールは比較的低い偽陽性で低い脆弱性検出率を示し,LSMは90%から100倍の脆弱性を検出できるが,高い偽陽性に悩まされることがわかった。 SAST ツールと LLM をさらに統合することにより,SAST ツールと LLM の欠点をある程度軽減することができる。 私たちの分析は、ソフトウェア脆弱性検出の現在の進歩と今後の方向性の両方に光を当てています。

Software vulnerabilities pose significant security challenges and potential risks to society, necessitating extensive efforts in automated vulnerability detection. There are two popular lines of work to address automated vulnerability detection. On one hand, Static Application Security Testing (SAST) is usually utilized to scan source code for security vulnerabilities, especially in industries. On the other hand, deep learning (DL)-based methods, especially since the introduction of large language models (LLMs), have demonstrated their potential in software vulnerability detection. However, there is no comparative study between SAST tools and LLMs, aiming to determine their effectiveness in vulnerability detection, understand the pros and cons of both SAST and LLMs, and explore the potential combination of these two families of approaches. In this paper, we compared 15 diverse SAST tools with 12 popular or state-of-the-art open-source LLMs in detecting software vulnerabilities from repositories of three popular programming languages: Java, C, and Python. The experimental results showed that SAST tools obtain low vulnerability detection rates with relatively low false positives, while LLMs can detect up 90\% to 100\% of vulnerabilities but suffer from high false positives. By further ensembling the SAST tools and LLMs, the drawbacks of both SAST tools and LLMs can be mitigated to some extent. Our analysis sheds light on both the current progress and future directions for software vulnerability detection.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# OriGen: Code-to-Code AugmentationとセルフリフレクションによるRTLコード生成の強化

OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection ( http://arxiv.org/abs/2407.16237v1 )

ライセンス: Link先を確認
Fan Cui, Chenyang Yin, Kexing Zhou, Youwei Xiao, Guangyu Sun, Qiang Xu, Qipeng Guo, Demin Song, Dahua Lin, Xingcheng Zhang, Yun, Liang, (参考訳) 近年の研究では,大規模言語モデル (LLM) が RTL (Register Transfer Level) コード生成の領域において大きな可能性を秘めており,GPT-4 や Claude3-Opus などの商業モデルによる顕著な進歩が証明されている。 熟練しているにもかかわらず、これらの商業LLMはプライバシーとセキュリティに関する懸念をしばしば提起する。 逆に、これらの問題に対する解決策を提供するオープンソースのLLMは、高品質のオープンソースRTLデータセットが欠如しているため、商用モデルよりもRTLコード生成タスクの性能が劣っている。 この問題に対処するために,自己回帰機能を備えた完全にオープンソースなフレームワークであるOriGenと,高品質で大規模なRTLコードを生成するデータセット拡張手法を紹介する。 本稿では,知識蒸留を利用してオープンソースのRTLコードデータセットの品質を向上させる新しいコード・ツー・コード拡張手法を提案する。 さらに、OriGenは、コンパイラからのフィードバックに基づいて自己回帰プロセスを活用することで、構文エラーを修正することができる。 モデルの自己回帰能力は、包括的なサンプル収集を含む、慎重に構築されたデータセットによって促進される。 実験の結果、OriGenはRTLコード生成において他のオープンソース代替製品よりも優れており、VerilogEval-Humanベンチマークでは9.8%上回った。 さらに、OriGenは自己回帰とエラー修正の優れた能力を示し、自己回帰の能力を評価するために設計されたベンチマークでGPT-4を18.1%上回った。

Recent studies have illuminated that Large Language Models (LLMs) exhibit substantial potential in the realm of RTL (Register Transfer Level) code generation, with notable advancements evidenced by commercial models such as GPT-4 and Claude3-Opus. Despite their proficiency, these commercial LLMs often raise concerns regarding privacy and security. Conversely, open-source LLMs, which offer solutions to these concerns, have inferior performance in RTL code generation tasks to commercial models due to the lack of highquality open-source RTL datasets. To address this issue, we introduce OriGen, a fully open-source framework featuring self-reflection capabilities and a dataset augmentation methodology for generating high-quality, large-scale RTL code. We propose a novel code-to-code augmentation methodology that leverages knowledge distillation to enhance the quality of the open-source RTL code datasets. Additionally, OriGen is capable of correcting syntactic errors by leveraging a self-reflection process based on feedback from the compiler. The self-reflection ability of the model is facilitated by a carefully constructed dataset, which comprises a comprehensive collection of samples. Experimental results demonstrate that OriGen remarkably outperforms other open-source alternatives in RTL code generation, surpassing the previous best-performing LLM by 9.8% on the VerilogEval-Human benchmark. Furthermore, OriGen exhibits superior capabilities in self-reflection and error rectification, surpassing GPT-4 by 18.1% on the benchmark designed to evaluate the capability of self-reflection.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# 認証に対するブルー・フォース・アタックの例に基づく初心者向けブルーチームシナリオの設計方法

How to Design a Blue Team Scenario for Beginners on the Example of Brute-Force Attacks on Authentications ( http://arxiv.org/abs/2407.16238v1 )

ライセンス: Link先を確認
Andreas Eipper, Daniela Pöhn, (参考訳) サイバー攻撃はユビキタスで、デジタル化の時代には常に脅威が増している。 重要なデータを保護するために、開発者とシステム管理者はトレーニングを受け、脅威の可能性を認識しなければなりません。 実践的なトレーニングは、生徒がトピックを紹介するのにも使える。 ユーザ認証を必要とするWebサイトに対する絶え間ない脅威は、いわゆるブルートフォース攻撃(brute-force attack)だ。 これは典型的な脅威だが、容易に検出できるので、初心者には理想的だ。 したがって、3つのオープンソースの青チームシナリオが設計され、体系的に記述される。 彼らは学習効果を最大化するために丁寧です。

Cyber attacks are ubiquitous and a constantly growing threat in the age of digitization. In order to protect important data, developers and system administrators must be trained and made aware of possible threats. Practical training can be used for students alike to introduce them to the topic. A constant threat to websites that require user authentication is so-called brute-force attacks, which attempt to crack a password by systematically trying every possible combination. As this is a typical threat, but comparably easy to detect, it is ideal for beginners. Therefore, three open-source blue team scenarios are designed and systematically described. They are contiguous to maximize the learning effect.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# 特定可能な潜伏包帯:観察データとパーソナライズされた医療のための探索を組み合わせる

Identifiable latent bandits: Combining observational data and exploration for personalized healthcare ( http://arxiv.org/abs/2407.16239v1 )

ライセンス: Link先を確認
Ahmet Zahid Balcıoğlu, Emil Carlsson, Fredrik D. Johansson, (参考訳) Banditのアルゴリズムは、パーソナライズされた意思決定を改善することを大いに約束している。 多くの健康アプリケーションでは、各患者に新しい包帯を適合させることは不可能であり、観察可能な変数はしばしば最適な治療法を決定するのに不十分であり、複数の患者から学んだ文脈的包帯の適用を除外する。 潜伏帯域は、どの文脈変数が明らかになるかを超えて、迅速な探索とパーソナライズの両方を提供するが、潜伏変数モデルは一貫して学習する必要がある。 本研究では, 非線形独立成分分析に基づく帯域幅アルゴリズムを提案する。これは観測データから, 新しい帯域幅インスタンスの最適動作を連続的に推測するのに十分な程度まで, 確実に識別できる。 我々は、この戦略をシミュレーションデータで検証し、各インスタンスで独立したマルチアームバンディットを学習するよりも大幅に改善したことを示す。

Bandit algorithms hold great promise for improving personalized decision-making but are notoriously sample-hungry. In most health applications, it is infeasible to fit a new bandit for each patient, and observable variables are often insufficient to determine optimal treatments, ruling out applying contextual bandits learned from multiple patients. Latent bandits offer both rapid exploration and personalization beyond what context variables can reveal but require that a latent variable model can be learned consistently. In this work, we propose bandit algorithms based on nonlinear independent component analysis that can be provably identified from observational data to a degree sufficient to infer the optimal action in a new bandit instance consistently. We verify this strategy in simulated data, showing substantial improvement over learning independent multi-armed bandits for every instance.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# Chameleon:画像は、モダリティの欠如に対するマルチモーダル学習のロバストに必要なもの

Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities ( http://arxiv.org/abs/2407.16243v1 )

ライセンス: Link先を確認
Muhammad Irzam Liaqat, Shah Nawaz, Muhammad Zaigham Zaheer, Muhammad Saad Saeed, Hassan Sajjad, Tom De Schepper, Karthik Nandakumar, Muhammad Haris Khan Markus Schedl, (参考訳) マルチモーダル学習は単調なアーキテクチャよりも顕著な性能向上を示している。 しかし、1つ以上のモダリティが欠如している場合、マルチモーダル学習法は劣化した性能を示すことが多い。 これは、モダリティ固有のストリームを含む一般的なマルチブランチ設計によるもので、モデルが完全なモダリティセットの可用性に依存しているためである。 本研究では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト・視覚多モーダル学習手法であるChameleonを提案する。 これを実現するために,テキストモダリティを視覚表現に符号化することで,入力モダリティを一つの形式に統一する。 その結果、モダリティに依存しないマルチモーダル表現を学習するために、モダリティ固有の分岐を必要としないため、モダリティの欠如に頑健である。 大規模な実験は、Hateful Memes、UPMC Food-101、MM-IMDb、Felamentaの4つの一般的な挑戦的データセットで実施されている。 Chameleonは、すべてのモダリティが列車/テスト時に存在する場合に優れたパフォーマンスを達成するだけでなく、モダリティが欠如している場合に顕著なレジリエンスを示す。

Multimodal learning has demonstrated remarkable performance improvements over unimodal architectures. However, multimodal learning methods often exhibit deteriorated performances if one or more modalities are missing. This may be attributed to the commonly used multi-branch design containing modality-specific streams making the models reliant on the availability of a complete set of modalities. In this work, we propose a robust textual-visual multimodal learning method, Chameleon, that completely deviates from the conventional multi-branch design. To enable this, we present the unification of input modalities into one format by encoding textual modality into visual representations. As a result, our approach does not require modality-specific branches to learn modality-independent multimodal representations making it robust to missing modalities. Extensive experiments are performed on four popular challenging datasets including Hateful Memes, UPMC Food-101, MM-IMDb, and Ferramenta. Chameleon not only achieves superior performance when all modalities are present at train/test time but also demonstrates notable resilience in the case of missing modalities.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# HSVLT:マルチラベル画像分類のための階層的スケール対応ビジョンランゲージ変換器

HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification ( http://arxiv.org/abs/2407.16244v1 )

ライセンス: Link先を確認
Shuyi Ouyang, Hongyi Wang, Ziwei Niu, Zhenjia Bai, Shiao Xie, Yingying Xu, Ruofeng Tong, Yen-Wei Chen, Lanfen Lin, (参考訳) マルチラベル画像分類の課題は、単一の画像内の複数のオブジェクトを認識することである。 ラベルに含まれる貴重な意味情報と画像に提示される重要な視覚的特徴の両方を考慮すると、密接な視覚言語的相互作用は分類性能を向上させる上で重要な役割を担っている。 さらに、単一の画像内のオブジェクトサイズと外観の潜在的なばらつきを考えると、異なるスケールの特徴への注意は、画像内の可能なオブジェクトを見つけるのに役立ちます。 近年,Transformer ベースの手法は,長距離依存のモデリングの利点を生かして,マルチラベル画像分類において大きな成功を収めているが,いくつかの制限がある。 まず、既存の方法では、視覚的特徴抽出とモーダル融合を別々のステップとして扱うことで、関節意味空間における視覚言語的アライメントが不十分になる。 さらに、視覚的特徴のみを抽出し、異なる特徴を持つ物体を無視して、単一のスケールでクロスモーダル融合を行う。 これらの課題に対処するために, 階層型階層型視覚言語変換器 (HSVLT) を提案する。(1) - 複数スケールから抽出した複数スケールの複数モーダル特徴を利用するクロススケールアグリゲーションモジュールを含む階層型マルチスケールアーキテクチャにより, 画像の大きさや外観の異なるオブジェクトを認識する。 2)~対話型視覚言語注意(Interactive Visual-Linguistic Attention)は、視覚的・言語的・マルチモーダル的特徴の同時更新を可能にする、相互モーダル相互作用を密に統合する新しい注意機構モジュールである。 提案手法を3つのベンチマークデータセットで評価した。 実験の結果,HSVLTは計算コストの低い最先端手法を上回ることがわかった。

The task of multi-label image classification involves recognizing multiple objects within a single image. Considering both valuable semantic information contained in the labels and essential visual features presented in the image, tight visual-linguistic interactions play a vital role in improving classification performance. Moreover, given the potential variance in object size and appearance within a single image, attention to features of different scales can help to discover possible objects in the image. Recently, Transformer-based methods have achieved great success in multi-label image classification by leveraging the advantage of modeling long-range dependencies, but they have several limitations. Firstly, existing methods treat visual feature extraction and cross-modal fusion as separate steps, resulting in insufficient visual-linguistic alignment in the joint semantic space. Additionally, they only extract visual features and perform cross-modal fusion at a single scale, neglecting objects with different characteristics. To address these issues, we propose a Hierarchical Scale-Aware Vision-Language Transformer (HSVLT) with two appealing designs: (1)~A hierarchical multi-scale architecture that involves a Cross-Scale Aggregation module, which leverages joint multi-modal features extracted from multiple scales to recognize objects of varying sizes and appearances in images. (2)~Interactive Visual-Linguistic Attention, a novel attention mechanism module that tightly integrates cross-modal interaction, enabling the joint updating of visual, linguistic and multi-modal features. We have evaluated our method on three benchmark datasets. The experimental results demonstrate that HSVLT surpasses state-of-the-art methods with lower computational cost.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# 中間者移行学習におけるタスク選択の有効性と一貫性の探索

Exploring the Effectiveness and Consistency of Task Selection in Intermediate-Task Transfer Learning ( http://arxiv.org/abs/2407.16245v1 )

ライセンス: Link先を確認
Pin-Jie Lin, Miaoran Zhang, Marius Mosbach, Dietrich Klakow, (参考訳) 移行に有効なタスクを特定することは、中間タスクの移行学習を成功させるための重要なステップである。 本研究は,130のソースターゲットタスクの組み合わせを実験し,転送性能が異なるソースタスク間で重大なばらつきを示し,より広い文脈で中間タスク選択が果たす重要な役割を強調した。 我々は,4つのタスク選択手法を統一的な構成で比較し,その有効性と整合性に着目した。 埋め込みのない方法やテキスト埋め込みと比較して、微調整された重みで構築されたタスク埋め込みは、タスク予測スコアを2.59%から3.96%に改善することで、タスク転送可能性を改善することができる。 高い性能にもかかわらず、タスクの埋め込みは推論能力を必要とするタスクに対して常に優位性を示すものではない。 さらに,内部積探索の最大化によるトークンの相互類似度の測定手法を導入し,タスク予測における高い性能を実現する。 以上の結果から,トークンの類似性は平均重みよりも伝達率の予測に有効であることが示唆された。

Identifying beneficial tasks to transfer from is a critical step toward successful intermediate-task transfer learning. In this work, we experiment with 130 source-target task combinations and demonstrate that the transfer performance exhibits severe variance across different source tasks and training seeds, highlighting the crucial role of intermediate-task selection in a broader context. We compare four representative task selection methods in a unified setup, focusing on their effectiveness and consistency. Compared to embedding-free methods and text embeddings, task embeddings constructed from fine-tuned weights can better estimate task transferability by improving task prediction scores from 2.59% to 3.96%. Despite their strong performance, we observe that the task embeddings do not consistently demonstrate superiority for tasks requiring reasoning abilities. Furthermore, we introduce a novel method that measures pairwise token similarity using maximum inner product search, leading to the highest performance in task prediction. Our findings suggest that token-wise similarity is better predictive for predicting transferability compared to averaging weights.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# 損失多重位相推定における定光子数状態を持つ永続量子優位性

Persistent quantum advantage with definite photon-number states in lossy multiple-phase estimation ( http://arxiv.org/abs/2407.16246v1 )

ライセンス: Link先を確認
Min Namkung, Dong-Hyun Kim, Seongjin Hong, Changhyoup Lee, Hyang-Tag Lim, (参考訳) 量子状態を利用した多重位相推定は、新しいセンシングおよびイメージング技術に広く応用されている。 しかし、現実的な環境での損失環境の存在は、しばしば位相推定の精度を低下させる。 この課題に対処するために、光子損失に対して本質的に堅牢な最適多重位相推定法を提案し、光子損失の全レベルにわたって永続的な量子優位性を確保する。 このスキームは、所定の光子損失レベルに最適化された重み付き多モード定光子数(DPN)状態を用いる。 理論的には、DPN状態は、コヒーレントな状態入力を用いる古典的ベンチマークと比較して、すべてのレベルの光子損失における推定精度の量子的向上を維持可能であることを実証する。 DPN状態を用いた提案手法はNOON状態を用いた初期の研究を一般化するが、これは光子損失が小さい場合にのみ最適である。 我々の研究は、光子損失に対する持続的な堅牢性を示し、量子強化センシング技術の大幅な進歩の道を開くものであり、現実のシナリオにおける実用的な応用と量子アドバンテージを可能にしていると信じている。

Multiple-phase estimation exploiting quantum states has broad applications in novel sensing and imaging technologies. However, the unavoidable presence of lossy environments in practical settings often diminishes the precision of phase estimations. To address this challenge, we propose an optimal multiple-phase estimation scheme that is inherently robust against photon loss, ensuring a persistent quantum advantage across all levels of photon loss. The scheme employs a multi-mode definite photon-number (DPN) state with weights optimized for given levels of photon loss. We theoretically demonstrate that the DPN state can sustain quantum enhancement in estimation precision under all levels of photon loss, compared to the classical benchmark that employs a coherent state input. The proposed scheme using DPN states generalizes earlier studies employing NOON states, which are only optimal when photon loss is small. We believe that our study, demonstrating persistent robustness to photon loss, paves the way for significant advancements in quantum-enhanced sensing technologies, enabling practical applications and quantum advantages in real-world scenarios.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# キーストロークダイナミクス解析のための評価手法

Evaluation Scheme to Analyze Keystroke Dynamics Methods ( http://arxiv.org/abs/2407.16247v1 )

ライセンス: Link先を確認
Anastasia Dimaratos, Daniela Pöhn, (参考訳) パスワードは簡単に盗まれ、ユーザーは単純なパスワードを使ってセキュリティを無視できるため、パスワード認証はセキュリティの弱点である。 そのため、サービスは第2の要因をますます求めている。 これはセキュリティを強化しますが、ユーザビリティのレベルが低く、忘れるべき別の要因があります。 スマートフォンは日常生活において重要なデバイスだ。 スマートフォンのセンサーや機能が増えれば、キーストロークのダイナミクスは使いやすくなるかもしれない。 本稿では,生体認証とキーストロークダイナミクスの要件について述べる。 その結果,3つのアプローチに適用可能な評価手法が得られた。 比較の結果,キーストローク力学と評価スキームについて考察した。 その結果、キーストロークのダイナミクスは別の認証手法として利用できるが、強い敵によってバイパスできることがわかった。 さらなる研究のために、共通のデータセットは互換性を改善した。

Password authentication is a weak point for security as passwords are easily stolen and a user may ignore the security by using a simple password. Therefore, services increasingly demand a second factor. While this may enhance security, it comes with a lower level of usability and another factor to be forgotten. A smartphone is an important device in daily life. With the growing number of sensors and features in a smartphone, keystroke dynamics may provide an easy-to-use method. In this paper, we introduce requirements for biometric authentication and keystroke dynamics. This results in an evaluation scheme, which is applied to three selected approaches. Based on the comparison, keystroke dynamics and the evaluation scheme are discussed. The obtained results indicate that keystroke dynamics can be used as another authentication method but can be bypassed by stronger adversaries. For further research, a common data set would improve the comparability.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# 商品検索をライブストリーミングする時空間グラフガイド型マルチモーダルネットワーク

Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval ( http://arxiv.org/abs/2407.16248v1 )

ライセンス: Link先を確認
Xiaowan Hu, Yiyi Chen, Yan Li, Minquan Wang, Haoqian Wang, Quan Chen, Han Li, Peng Jiang, (参考訳) 電子商取引の急速な拡大に伴い、より多くの消費者がライブストリーミングによる購入に慣れるようになった。 営業担当者が販売している商品、すなわちライブストリーミング製品検索(LPR)を正確に識別することは、根本的な挑戦である。 LPRタスクは、現実世界のシナリオにおける3つの主要なジレンマを含む。 1) 背景に存在する邪魔品から意図した商品の認識 2 ライブストリームに展示されている商品の外観が店内の標準化商品画像から大きく逸脱することも多いビデオ画像の不均一性 3)店内には微妙な視覚的ニュアンスのある混乱した製品が多数ある。 これらの課題に対処するために、時空間グラフマルチモーダルネットワーク(SGMN)を提案する。 まず、営業担当者の音声コンテンツを活用したテキスト誘導型アテンションメカニズムを用いて、モデルを意図した製品に向け、散らばったバックグラウンド製品に対する彼らのサリエンスを強調する。 第二に、長距離時空間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を実現し、ビデオ画像の不均一性に起因する不整合を解決するために、さらに設計されている。 第3に,マルチモーダルなハードサンプルマイニングを提案し,ビデオ画像テキスト領域にまたがる微細な特徴を持つ非常に類似した製品を識別するモデルを支援する。 定量的および定性的な実験を通じて,提案したSGMNモデルの優れた性能を実証し,最先端の手法を実質的なマージンで上回った。 コードは \url{https://github.com/Huxiaowan/SGMN} で公開されている。

With the rapid expansion of e-commerce, more consumers have become accustomed to making purchases via livestreaming. Accurately identifying the products being sold by salespeople, i.e., livestreaming product retrieval (LPR), poses a fundamental and daunting challenge. The LPR task encompasses three primary dilemmas in real-world scenarios: 1) the recognition of intended products from distractor products present in the background; 2) the video-image heterogeneity that the appearance of products showcased in live streams often deviates substantially from standardized product images in stores; 3) there are numerous confusing products with subtle visual nuances in the shop. To tackle these challenges, we propose the Spatiotemporal Graphing Multi-modal Network (SGMN). First, we employ a text-guided attention mechanism that leverages the spoken content of salespeople to guide the model to focus toward intended products, emphasizing their salience over cluttered background products. Second, a long-range spatiotemporal graph network is further designed to achieve both instance-level interaction and frame-level matching, solving the misalignment caused by video-image heterogeneity. Third, we propose a multi-modal hard example mining, assisting the model in distinguishing highly similar products with fine-grained features across the video-image-text domain. Through extensive quantitative and qualitative experiments, we demonstrate the superior performance of our proposed SGMN model, surpassing the state-of-the-art methods by a substantial margin. The code is available at \url{https://github.com/Huxiaowan/SGMN}.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# OSINTツールを用いたインターネットにおけるアイデンティティ関連情報の体系的検索

Systematically Searching for Identity-Related Information in the Internet with OSINT Tools ( http://arxiv.org/abs/2407.16251v1 )

ライセンス: Link先を確認
Marcus Walkow, Daniela Pöhn, (参考訳) インターネットサービスの増加は、いくつかのデジタルアイデンティティを創出するだけでなく、その背後にいる人々に関する情報も生み出している。 データは、デジタルIDを管理するID管理システムだけでなく、デジタルIDの攻撃にも利用することができる。 早期に攻撃ベクトルを特定し,対策を講じるためには,個人や組織がデータを体系的に検索し,分析することが重要である。 本稿では、IDに関連するデータとオープンソースインテリジェンス(OSINT)ツールの分類を提案する。 この分類は、データの体系的な検索に役立つ。 次のステップでは、データを分析し、対策を講じることができます。 最後に,データ検索と解析にこの分類を適用したOSINTフレームワークについて論じる。

The increase of Internet services has not only created several digital identities but also more information available about the persons behind them. The data can be collected and used for attacks on digital identities as well as on identity management systems, which manage digital identities. In order to identify possible attack vectors and take countermeasures at an early stage, it is important for individuals and organizations to systematically search for and analyze the data. This paper proposes a classification of data and open-source intelligence (OSINT) tools related to identities. This classification helps to systematically search for data. In the next step, the data can be analyzed and countermeasures can be taken. Last but not least, an OSINT framework approach applying this classification for searching and analyzing data is presented and discussed.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# LLMエージェントが共同経営する中国の法律事務所LawLuo

LawLuo: A Chinese Law Firm Co-run by LLM Agents ( http://arxiv.org/abs/2407.16252v1 )

ライセンス: Link先を確認
Jingyun Sun, Chengxiao Dai, Zhongze Luo, Yangbo Chang, Yang Li, (参考訳) LLM(Large Language Models)は、法的背景を持たないユーザに法的相談サービスを配信する大きな可能性を実証している。 それにもかかわらず、既存の中国の法的LLMは、複数のスタッフが単一の協議に貢献する法律事務所の典型的な共同協議とは異なり、単一のモデルユーザー対話にインタラクションを限定している。 この制限は、真の相談経験を妨げます。 さらに,中国におけるLLMは,(1)命令の微調整データの質の制御が不十分なこと,(2)ユーザのあいまいなクエリによるモデル幻覚の増大,(3)複数の対話を通した指示に従うモデルの能力の低下など,重大な制約を被っている。 これらの課題に対応するために、LawLuoと呼ばれる複数のLLMエージェントの協調機能を活用する新しい法的対話フレームワークを提案する。 このフレームワークには、受付係、弁護士、秘書、ボスの4人のエージェントが含まれており、それぞれが異なる機能に責任を持ち、ユーザに対して包括的な法的コンサルテーションを共同で提供する。 さらに,KINLEDとMURLEDの2つの高品質な法的対話データセットと,これらのデータセットを用いた微調整ChatGLM-3-6bを構築した。 そこで本研究では,ToLCという法的なクエリの明確化アルゴリズムを提案する。 実験の結果、LawLuoは、弁護士のような言語スタイル、法的なアドバイスの有用性、法的な知識の正確さの3次元にわたって、GPT-4を含むベースラインLLMよりも優れていることが示された。 私たちのコードとデータセットはhttps://github.com/NEFUJing/LawLuo.orgで公開されています。

Large Language Models (LLMs) demonstrate substantial potential in delivering legal consultation services to users without a legal background, attributed to their superior text comprehension and generation capabilities. Nonetheless, existing Chinese legal LLMs limit interaction to a single model-user dialogue, unlike the collaborative consultations typical of law firms, where multiple staff members contribute to a single consultation. This limitation prevents an authentic consultation experience. Additionally, extant Chinese legal LLMs suffer from critical limitations: (1) insufficient control over the quality of instruction fine-tuning data; (2) increased model hallucination resulting from users' ambiguous queries; and (3) a reduction in the model's ability to follow instructions over multiple dialogue turns. In response to these challenges, we propose a novel legal dialogue framework that leverages the collaborative capabilities of multiple LLM agents, termed LawLuo. This framework encompasses four agents: a receptionist, a lawyer, a secretary, and a boss, each responsible for different functionalities, collaboratively providing a comprehensive legal consultation to users. Additionally, we constructed two high-quality legal dialogue datasets, KINLED and MURLED, and fine-tuned ChatGLM-3-6b using these datasets. We propose a legal query clarification algorithm called ToLC. Experimental results demonstrate that LawLuo outperforms baseline LLMs, including GPT-4, across three dimensions: lawyer-like language style, the usefulness of legal advice, and the accuracy of legal knowledge. Our code and datasets are available at https://github.com/NEFUJing/LawLuo.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# 非アベリアゲージ場設計のための自己推論支援学習

Self-Reasoning Assistant Learning for non-Abelian Gauge Fields Design ( http://arxiv.org/abs/2407.16255v1 )

ライセンス: Link先を確認
Jinyang Sun, Xi Chen, Xiumei Wang, Dandan Zhu, Xingping Zhou, (参考訳) 非アベリア・ブレイディングは、非アベリア・ブレイディングの入力と結果がユニタリ行列で連結されるエノンの交換挙動を記述する上で重要な役割を担っているため、かなりの注目を集めている。 古典的なシステムにおけるブレイディングの実装は、非アベリア物理学の実験的な研究を支援することができる。 しかし、非アベリアゲージ場の設計は、群構造の複雑な相互作用、リー代数の性質、表現論、トポロジー、対称性の破れから生じる多くの課題に直面している。 極度の多様性は、凝縮物質物理学の研究の強力な道具となる。 データ駆動型アプローチで広く使われている人工知能は物理学の発展を大いに促進してきたが、ほとんどの研究はデータ・データ・デザインに限られている。 本稿では,非アベリアゲージ場を直接生成できる自己推論型アシスタント学習フレームワークを提案する。 このフレームワークは、フォワード拡散プロセスを利用して、連続的な変換を通じてターゲット分布に固有の複雑なパターンや詳細を捕捉し、再現する。 そして、逆拡散プロセスを用いて、生成されたデータを元の状況の分布に近づける。 これにより、特徴表現を自動的に検出し、データセットからより微妙な関係をキャプチャすることが可能になる。 さらに、自己推論は手動のフィーチャエンジニアリングの必要性を排除し、モデル構築のプロセスを単純化する。 私たちのフレームワークは、複雑な物理プロセスを解析し、大量のデータセットからパターンを自動的に発見するための破壊的なパラダイムシフトを提供します。

Non-Abelian braiding has attracted substantial attention because of its pivotal role in describing the exchange behaviour of anyons, in which the input and outcome of non-Abelian braiding are connected by a unitary matrix. Implementing braiding in a classical system can assist the experimental investigation of non-Abelian physics. However, the design of non-Abelian gauge fields faces numerous challenges stemmed from the intricate interplay of group structures, Lie algebra properties, representation theory, topology, and symmetry breaking. The extreme diversity makes it a powerful tool for the study of condensed matter physics. Whereas the widely used artificial intelligence with data-driven approaches has greatly promoted the development of physics, most works are limited on the data-to-data design. Here we propose a self-reasoning assistant learning framework capable of directly generating non-Abelian gauge fields. This framework utilizes the forward diffusion process to capture and reproduce the complex patterns and details inherent in the target distribution through continuous transformation. Then the reverse diffusion process is used to make the generated data closer to the distribution of the original situation. Thus, it owns strong self-reasoning capabilities, allowing to automatically discover the feature representation and capture more subtle relationships from the dataset. Moreover, the self-reasoning eliminates the need for manual feature engineering and simplifies the process of model building. Our framework offers a disruptive paradigm shift to parse complex physical processes, automatically uncovering patterns from massive datasets.
翻訳日:2024-07-24 18:16:07 公開日:2024-07-23
# DreamDissector: 2次元拡散先行データからテキストから3次元の遠絡を学習する

DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors ( http://arxiv.org/abs/2407.16260v1 )

ライセンス: Link先を確認
Zizheng Yan, Jiapeng Zhou, Fanpeng Meng, Yushuang Wu, Lingteng Qiu, Zisheng Ye, Shuguang Cui, Guanying Chen, Xiaoguang Han, (参考訳) テキストから3D生成は、最近大きな進歩を遂げた。 実世界のアプリケーションにおける実用性を高めるため、2次元画像編集におけるレイヤ合成と同様、対話を伴う複数の独立したオブジェクトを生成することが重要である。 しかし、既存のテキスト・ツー・3D手法は、非独立なオブジェクトか、空間的に妥当な相互作用を欠く独立したオブジェクトを生成するように設計されているため、この課題に苦慮する。 そこで我々はDreamDissectorを提案する。DreamDissectorは複数の独立したオブジェクトを対話で生成できるテキストから3Dの手法である。 DreamDissectorはマルチオブジェクトのテキストから3DのNeRFを入力として受け入れ、独立したテクスチャメッシュを生成する。 これを実現するために、入力されたNeRFをアンタングリングするためのNeCF(Neural Category Field)を導入する。 さらに,拡散モデルにおける概念ギャップ問題に対処するため,深部概念マイニング(DCM)モジュールによって促進されるカテゴリスコア蒸留サンプリング(CSDS)を提案する。 NeCFとCSDSを利用することで、元のシーンからNeRFを効果的に導き出すことができる。 さらなる改良により、幾何学とテクスチャが強化される。 実験の結果,DreamDissectorの有効性を検証し,オブジェクトレベルで3D合成を制御する新しい手段をユーザに提供するとともに,将来様々なクリエイティブアプリケーションへの道を開く可能性が示唆された。

Text-to-3D generation has recently seen significant progress. To enhance its practicality in real-world applications, it is crucial to generate multiple independent objects with interactions, similar to layer-compositing in 2D image editing. However, existing text-to-3D methods struggle with this task, as they are designed to generate either non-independent objects or independent objects lacking spatially plausible interactions. Addressing this, we propose DreamDissector, a text-to-3D method capable of generating multiple independent objects with interactions. DreamDissector accepts a multi-object text-to-3D NeRF as input and produces independent textured meshes. To achieve this, we introduce the Neural Category Field (NeCF) for disentangling the input NeRF. Additionally, we present the Category Score Distillation Sampling (CSDS), facilitated by a Deep Concept Mining (DCM) module, to tackle the concept gap issue in diffusion models. By leveraging NeCF and CSDS, we can effectively derive sub-NeRFs from the original scene. Further refinement enhances geometry and texture. Our experimental results validate the effectiveness of DreamDissector, providing users with novel means to control 3D synthesis at the object level and potentially opening avenues for various creative applications in the future.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# マスクとマニュアル:エンド・ツー・エンド・エンド・マスキングとナラティブ・ストラクチャリングによる医療前訓練の促進

Masks and Manuscripts: Advancing Medical Pre-training with End-to-End Masking and Narrative Structuring ( http://arxiv.org/abs/2407.16264v1 )

ライセンス: Link先を確認
Shreyank N Gowda, David A. Clifton, (参考訳) 現代医学の対照的な学習は、一貫性のない意味論とサンプルペア形態学の課題に直面する。 テキストレポートの多様性は、複数の著者によって、意味的な一貫性を複雑にしている。 これらの問題に対処するため、我々は2段階のアプローチを提案する。 当初、テキストレポートは標準化された三重項形式に変換され、新しい概念である ``observations'' と ``verdicts'' の基礎となる。 このアプローチは、 {Entity, Position, Exist} の三重項を二分問題に洗練し、明確な ` `verdict'' へと導く。 また,医用画像の局所的文脈を表す特徴に着目し,マイアリングをベースとしたマスキングによる視覚前訓練にも着目した。 これをテキスト変換法と統合することにより、マルチモーダルコントラスト学習フレームワークにおけるクロスモーダル表現を進化させ、医用画像解析の新しいベンチマークを設定する。

Contemporary medical contrastive learning faces challenges from inconsistent semantics and sample pair morphology, leading to dispersed and converging semantic shifts. The variability in text reports, due to multiple authors, complicates semantic consistency. To tackle these issues, we propose a two-step approach. Initially, text reports are converted into a standardized triplet format, laying the groundwork for our novel concept of ``observations'' and ``verdicts''. This approach refines the {Entity, Position, Exist} triplet into binary questions, guiding towards a clear ``verdict''. We also innovate in visual pre-training with a Meijering-based masking, focusing on features representative of medical images' local context. By integrating this with our text conversion method, our model advances cross-modal representation in a multimodal contrastive learning framework, setting new benchmarks in medical image analysis.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# バイナリジェンダーを超えて: あいまいな態度の単語を用いたジェンダー包摂型機械翻訳の評価

Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words ( http://arxiv.org/abs/2407.16266v1 )

ライセンス: Link先を確認
Yijie Chen, Yijin Liu, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou, (参考訳) ジェンダーバイアスは、機械翻訳と言語モデルにおけるバイアスの研究において焦点となっている。 既存の機械翻訳の性別バイアス評価は、主に男性と女性の性別に焦点を当てており、評価の範囲を制限している。 性別バイアスを正確に評価するために、これらの研究は、非二項群に拡張できない職業や感情語によって引き起こされるステレオタイプ(すなわち、明確な肯定的または否定的な態度)を通して、性代名詞または文法的性別の男性的・女性的属性の精度を計算することに依存することが多い。 本研究では,2進性以上の性差を評価するベンチマークAmbGIMT(性-包摂的機械翻訳とあいまいな態度語)を提案する。 一方,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案し,不明瞭な態度語を定量化する。 最近の3つのオープンソースLLMと1つの強力な多言語翻訳特化モデルの評価において、(1)非バイナリ性文脈における翻訳性能は、翻訳品質において著しく劣っており、バイナリ性文脈よりもネガティブな態度を示す。 2) 分析実験の結果,性同一性用語のプロンプトに制約コンテキストを組み込むことで翻訳バイアスを大幅に低減できることが示された。 コードは \url{https://github.com/pppa2019/ambGIMT} で公開されている。

Gender bias has been a focal point in the study of bias in machine translation and language models. Existing machine translation gender bias evaluations are primarily focused on male and female genders, limiting the scope of the evaluation. To assess gender bias accurately, these studies often rely on calculating the accuracy of gender pronouns or the masculine and feminine attributes of grammatical gender via the stereotypes triggered by occupations or sentiment words ({\em i.e.}, clear positive or negative attitude), which cannot extend to non-binary groups. This study presents a benchmark AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words), which assesses gender bias beyond binary gender. Meanwhile, we propose a novel process to evaluate gender bias based on the Emotional Attitude Score (EAS), which is used to quantify ambiguous attitude words. In evaluating three recent and effective open-source LLMs and one powerful multilingual translation-specific model, our main observations are: (1) The translation performance within non-binary gender contexts is markedly inferior in terms of translation quality and exhibits more negative attitudes than binary-gender contexts. (2) The analysis experiments indicate that incorporating constraint context in prompts for gender identity terms can substantially reduce translation bias, while the bias remains evident despite the presence of the constraints. The code is publicly available at \url{https://github.com/pppa2019/ambGIMT}.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# コンボリューション型コルモゴロフ・アルノルドネットワークにおけるファジィプーリングを用いた画像分類

Image Classification using Fuzzy Pooling in Convolutional Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.16268v1 )

ライセンス: Link先を確認
Ayan Igali, Pakizar Shamoi, (参考訳) 今日では、ディープラーニングモデルは解釈可能かつ高精度であることがますます求められている。 本稿では,KAN(Kolmogorov-Arnold Network)分類ヘッドとFuzzy Poolingを畳み込みニューラルネットワーク(CNN)に統合するアプローチを提案する。 Kanの解釈可能性とファジィ論理の不確実性処理能力を利用することで,画像分類タスクの性能向上の可能性を示す。 比較分析により,kan と Fuzzy Pooling による改良 CNN アーキテクチャは,従来のモデルと同等あるいは高い精度で実現可能であることが示された。 本研究は,ファジィ論理とKANを組み合わせて,より解釈可能で効率的なディープラーニングモデルを構築することの有効性を明らかにする。 今後の取り組みは、このアプローチを大規模なデータセットに拡張することを目指している。

Nowadays, deep learning models are increasingly required to be both interpretable and highly accurate. We present an approach that integrates Kolmogorov-Arnold Network (KAN) classification heads and Fuzzy Pooling into convolutional neural networks (CNNs). By utilizing the interpretability of KAN and the uncertainty handling capabilities of fuzzy logic, the integration shows potential for improved performance in image classification tasks. Our comparative analysis demonstrates that the modified CNN architecture with KAN and Fuzzy Pooling achieves comparable or higher accuracy than traditional models. The findings highlight the effectiveness of combining fuzzy logic and KAN to develop more interpretable and efficient deep learning models. Future work will aim to expand this approach across larger datasets.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# HyTAS:ハイパースペクトル変換器アーキテクチャのベンチマークと解析

HyTAS: A Hyperspectral Image Transformer Architecture Search Benchmark and Analysis ( http://arxiv.org/abs/2407.16269v1 )

ライセンス: Link先を確認
Fangqin Zhou, Mert Kilickaya, Joaquin Vanschoren, Ran Piao, (参考訳) ハイパースペクトルイメージング(HSI)は、リモートセンシングにおける正確な視覚タスクにおいて、広範囲の視覚データを捉え、ますます重要な役割を担っている。 トランスフォーマーアーキテクチャはHSIタスク性能を大幅に向上させ、トランスフォーマーアーキテクチャサーチ(TAS)の進歩によりモデル発見が改善された。 これらの進歩をHSI分類に活用するために、以下に貢献する。 i)ハイパースペクトルイメージングのためのトランスフォーマーアーキテクチャ探索のための最初のベンチマークであるHyTASを提案する。 ii) 5つの異なるデータセットに対して最適なトランスフォーマーを識別するための12の異なる手法を総合的に評価する。 三 ハイパースペクトル変換器の探索性能について広範な因子分析を行い、今後の研究を大いに動機づける。 ベンチマーク資料はすべてHyTASで利用可能である。

Hyperspectral Imaging (HSI) plays an increasingly critical role in precise vision tasks within remote sensing, capturing a wide spectrum of visual data. Transformer architectures have significantly enhanced HSI task performance, while advancements in Transformer Architecture Search (TAS) have improved model discovery. To harness these advancements for HSI classification, we make the following contributions: i) We propose HyTAS, the first benchmark on transformer architecture search for Hyperspectral imaging, ii) We comprehensively evaluate 12 different methods to identify the optimal transformer over 5 different datasets, iii) We perform an extensive factor analysis on the Hyperspectral transformer search performance, greatly motivating future research in this direction. All benchmark materials are available at HyTAS.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# ハイブリッド古典量子ニューラルネットワークに対するバックドア攻撃

Backdoor Attacks against Hybrid Classical-Quantum Neural Networks ( http://arxiv.org/abs/2407.16273v1 )

ライセンス: Link先を確認
Ji Guo, Wenbo Jiang, Rui Zhang, Wenshu Fan, Jiachen Li, Guoming Lu, (参考訳) ハイブリッド量子ニューラルネットワーク(HQNN)は、量子機械学習(QML)の有望な進歩を示すものだが、そのセキュリティはめったに調査されていない。 本稿では,HQNNに対するバックドア攻撃に関する最初の体系的研究について述べる。 我々はまず,HQNNに対するバックドア攻撃に対して,攻撃フレームワークを提案し,一般化境界と最小摂動条件を理論的に解析することから始める。 次に、HQNN と Convolutional Neural Networks (CNN) の2つの古典的なバックドア攻撃手法を用いて、HQNN の堅牢性をさらに調査する。 実験の結果,HQNNはCNNよりも堅牢であり,攻撃を成功させるためには画像修正が必要であった。 さらに、カラーシフトをトリガーとして利用し、非支配的ソーティング遺伝的アルゴリズムII(NSGA-II)を用いてハイパーパラメーターを最適化するQcolorバックドアを導入する。 広範にわたる実験を通して、我々はQcolorバックドアの有効性、ステルス性、堅牢性を実証した。

Hybrid Quantum Neural Networks (HQNNs) represent a promising advancement in Quantum Machine Learning (QML), yet their security has been rarely explored. In this paper, we present the first systematic study of backdoor attacks on HQNNs. We begin by proposing an attack framework and providing a theoretical analysis of the generalization bounds and minimum perturbation requirements for backdoor attacks on HQNNs. Next, we employ two classic backdoor attack methods on HQNNs and Convolutional Neural Networks (CNNs) to further investigate the robustness of HQNNs. Our experimental results demonstrate that HQNNs are more robust than CNNs, requiring more significant image modifications for successful attacks. Additionally, we introduce the Qcolor backdoor, which utilizes color shifts as triggers and employs the Non-dominated Sorting Genetic Algorithm II (NSGA-II) to optimize hyperparameters. Through extensive experiments, we demonstrate the effectiveness, stealthiness, and robustness of the Qcolor backdoor.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# 画像暗号化のためのAES, Blowfish, Twofish, Salsa20, ChaCha20の比較解析

Comparative Analysis of AES, Blowfish, Twofish, Salsa20, and ChaCha20 for Image Encryption ( http://arxiv.org/abs/2407.16274v1 )

ライセンス: Link先を確認
Rebwar Khalid Muhammed, Ribwar Rashid Aziz, Alla Ahmad Hassan, Aso Mohammed Aladdin, Shaida Jumaah Saydah, Tarik Ahmed. Rashid, Bryar Ahmad Hassan, (参考訳) 今日では、サイバーセキュリティはより重要で難しい科学的問題へと成長している。 インターネットの知識と安全性を脅かす脅威や攻撃は、検知しにくくなっている。 サイバーセキュリティは、インターネット経由で送信されるデータのプライバシーとセキュリティを保証するため、悪意のある攻撃に対する保護も必要である。 暗号化は、情報セキュリティシステムの重要な要素となったアンサーへと成長してきた。 テキスト、画像、ビデオなどの共有データのセキュリティを確保するためには、様々な方法や戦略を採用することが不可欠である。 本研究は,AES(Advanced Encryp-tion Standard),Blowfish,Twofish,Salsa20,ChaCha20などの符号化技術を用いて,暗号化防止とストリーム暗号化に利用される暗号手法とアルゴリズムについて検討する。 この再調査の主な目的は、データの暗号化と復号化プロセスに最適な時間とスループット(速度)を特定することである。 本研究の方法論は,5種類の異なる画像を選択し,評価した手法の結果を総合的に分析することであった。 この評価は、プロシース時間と速度パラメーター、プリマリープラットフォームとしてJavaを使った視覚的エンコーディングとデコーディングに焦点を当てた。 いくつかの対称鍵暗号の比較分析を行い、大きなデータセットの処理に焦点をあてた。 この制限にもかかわらず、異なる画像の比較はテクニックの斬新さを評価するのに役立った。 その結果、ChaCha20は暗号化と復号の両方で、他のアルゴリズムよりも50%以上高速であることがわかった。 しかし、Twofish algo-rithmは試験中に低スループットであった。 本稿は、今後の改善に関する知見と提案で締めくくっている。

Nowadays, cybersecurity has grown into a more significant and difficult scientific issue. The recog-nition of threats and attacks meant for knowledge and safety on the internet is growing harder to detect. Since cybersecurity guarantees the privacy and security of data sent via the Internet, it is essential, while also providing protection against malicious attacks. Encrypt has grown into an an-swer that has become an essential element of information security systems. To ensure the security of shared data, including text, images, or videos, it is essential to employ various methods and strategies. This study delves into the prevalent cryptographic methods and algorithms utilized for prevention and stream encryption, examining their encoding techniques such as advanced encryp-tion standard (AES), Blowfish, Twofish, Salsa20, and ChaCha20. The primary objective of this re-search is to identify the optimal times and throughputs (speeds) for data encryption and decryption processes. The methodology of this study involved selecting five distinct types of images to com-pare the outcomes of the techniques evaluated in this research. The assessment focused on pro-cessing time and speed parameters, examining visual encoding and decoding using Java as the pri-mary platform. A comparative analysis of several symmetric key ciphers was performed, focusing on handling large datasets. Despite this limitation, comparing different images helped evaluate the techniques' novelty. The results showed that ChaCha20 had the best average time for both encryp-tion and decryption, being over 50% faster than some other algorithms. However, the Twofish algo-rithm had lower throughput during testing. The paper concludes with findings and suggestions for future improvements.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# 大規模言語モデルによる事故予知と局所化のための新しいベンチマーク

When, Where, and What? An Novel Benchmark for Accident Anticipation and Localization with Large Language Models ( http://arxiv.org/abs/2407.16277v1 )

ライセンス: Link先を確認
Haicheng Liao, Yongkang Li, Chengyue Wang, Yanchen Guan, KaHou Tam, Chunlin Tian, Li Li, Chengzhong Xu, Zhenning Li, (参考訳) 自動運転システムが日々の交通機関の一部になるにつれて、潜在的な交通事故を正確に予測し軽減する能力が最重要である。 従来の事故予測モデルは、主にダッシュカムビデオを利用して、事故の発生時期を予測できるが、事故のローカライズや関連するエンティティの特定には不十分である。 このギャップに対処するため,大規模言語モデル(LLM)を統合した新しいフレームワークを導入する。 複雑な運転シーンにおけるリスクの高い要素の優先順位を動的に調整する,革新的なチェーンベースアテンション機構を開発した。 このメカニズムは、3段階のモデルで補完され、より小さなモデルからの出力をLSMの詳細なマルチモーダル入力に処理することで、トラフィックのダイナミクスをより微妙に理解することができる。 DAD、CCD、A3Dデータセットに対する実証検証は、平均精度(AP)と平均時間到達精度(mTTA)において優れた性能を示し、事故予測技術の新たなベンチマークを確立する。 我々のアプローチは、自動運転安全のための技術枠組みを前進させるだけでなく、人間とAIの相互作用を強化し、自律システムによって生成された予測的洞察をより直感的で実用的なものにします。

As autonomous driving systems increasingly become part of daily transportation, the ability to accurately anticipate and mitigate potential traffic accidents is paramount. Traditional accident anticipation models primarily utilizing dashcam videos are adept at predicting when an accident may occur but fall short in localizing the incident and identifying involved entities. Addressing this gap, this study introduces a novel framework that integrates Large Language Models (LLMs) to enhance predictive capabilities across multiple dimensions--what, when, and where accidents might occur. We develop an innovative chain-based attention mechanism that dynamically adjusts to prioritize high-risk elements within complex driving scenes. This mechanism is complemented by a three-stage model that processes outputs from smaller models into detailed multimodal inputs for LLMs, thus enabling a more nuanced understanding of traffic dynamics. Empirical validation on the DAD, CCD, and A3D datasets demonstrates superior performance in Average Precision (AP) and Mean Time-To-Accident (mTTA), establishing new benchmarks for accident prediction technology. Our approach not only advances the technological framework for autonomous driving safety but also enhances human-AI interaction, making predictive insights generated by autonomous systems more intuitive and actionable.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# 境界クエンチ後のバルティスティックエンタングルメント雲

Ballistic Entanglement Cloud after a Boundary Quench ( http://arxiv.org/abs/2407.16279v1 )

ライセンス: Link先を確認
Bedoor Alkurtass, Abolfazl Bayat, Pasquale Sodano, Sougato Bose, Henrik Johannesson, (参考訳) 絡み合いは強く相関した多体系の構造を特徴づけるために広く用いられている。 これらの分析のほとんどは、絡み合いの空間的特性またはその時間的挙動に焦点を当てている。 絡み合い尺度としての負性は、多体系の異なる非補間ブロック間の絡み合いを定量化する。 本稿では,強く相関した多体系における絡み合いの負性に関する空間的・時間的分析を組み合わせることで,そのような系の非平衡力学による相関の複雑な形成を特徴づける。 結合欠陥は、均一なハイゼンベルクスピン鎖の境界の1つにある局所クエンチによって導入される。 時間依存密度行列再正規化群によって計算された負性および絡み合いエントロピーを用いて、モデルの絡み合いの拡張を時間の関数として解析する。 エンタングルメント雲が形成され、境界スピンから分離され、非常に絡み合っているスピンで構成されていることがわかった。 雲は鎖の中で弾道的に移動し、もう一方の端に到達して反射し、サイクルが繰り返される。 回復力学は、雲が境界スピンから離れて移動するときに興味深い収縮(膨張)を示す。

Entanglement has been extensively used to characterize the structure of strongly correlated many-body systems. Most of these analyses focus on either spatial properties of entanglement or its temporal behavior. Negativity, as an entanglement measure, quantifies entanglement between different non-complementary blocks of a many-body system. Here, we consider a combined spatial-temporal analysis of entanglement negativity in a strongly correlated many-body system to characterize complex formation of correlations through non-equilibrium dynamics of such systems. A bond defect is introduced through a local quench at one of the boundaries of a uniform Heisenberg spin chain. Using negativity and entanglement entropy, computed by the time-dependent density matrix renormalization group, we analyze the extension of entanglement in the model as a function of time. We find that an entanglement cloud is formed, detached from the boundary spin and composed of spins with which it is highly entangled. The cloud travels ballistically in the chain until it reaches the other end where it reflects back and the cycle repeats. The revival dynamics exhibits an intriguing contraction (expansion) of the cloud as it moves away from (towards) the boundary spin.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# 因子グラフにおける伝達因子の効率的な検出

Efficient Detection of Commutative Factors in Factor Graphs ( http://arxiv.org/abs/2407.16280v1 )

ライセンス: Link先を確認
Malte Luttermann, Johann Machemer, Marcel Gehrke, (参考訳) Lifted Probabilistic Inferenceは、確率的グラフィカルモデルにおける対称性を利用して、ドメインサイズに関する抽出可能な確率的推論を可能にする。 因子グラフなどの対称性を利用するためには、可換因子、すなわちその議論が交換可能であるため、内部に対称性を持つ因子を特定することが重要である。 ある因子がその引数の部分集合に関して可換かどうかを確認する現在の最先端技術は、その因子の引数のすべての可能な部分集合、すなわち、最悪の場合、$n$引数を持つ因子に対する$O(2^n)$反復を反復する。 本稿では,因子グラフにおける可換因子の検出問題を効率的に解く。 特に,可換因子検出(DECOR)アルゴリズムを導入し,実際に可換因子であるかどうかを確認するための計算労力を大幅に削減する。 我々は,DECORが要求イテレーション数を劇的に減らし,DECORの効率を実証的に評価する制約を効率的に識別できることを証明した。

Lifted probabilistic inference exploits symmetries in probabilistic graphical models to allow for tractable probabilistic inference with respect to domain sizes. To exploit symmetries in, e.g., factor graphs, it is crucial to identify commutative factors, i.e., factors having symmetries within themselves due to their arguments being exchangeable. The current state of the art to check whether a factor is commutative with respect to a subset of its arguments iterates over all possible subsets of the factor's arguments, i.e., $O(2^n)$ iterations for a factor with $n$ arguments in the worst case. In this paper, we efficiently solve the problem of detecting commutative factors in a factor graph. In particular, we introduce the detection of commutative factors (DECOR) algorithm, which allows us to drastically reduce the computational effort for checking whether a factor is commutative in practice. We prove that DECOR efficiently identifies restrictions to drastically reduce the number of required iterations and validate the efficiency of DECOR in our empirical evaluation.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# LLMの深絞り加工について

A deeper look at depth pruning of LLMs ( http://arxiv.org/abs/2407.16286v1 )

ライセンス: Link先を確認
Shoaib Ahmed Siddiqui, Xin Dong, Greg Heinrich, Thomas Breuel, Jan Kautz, David Krueger, Pavlo Molchanov, (参考訳) 大規模言語モデル(LLM)は、トレーニングにリソースを集中するだけでなく、本番環境にデプロイするのにさらにコストがかかる。 そのため、近年の研究では、ブロックの重要度を推定するための安価なプロキシに基づいて、LLaMa-2およびMistral 7bモデルのブロックの10%を、ダウンストリームメトリクスを著しく劣化させることなく効果的に除去する試みがなされている。 本稿では,先行研究における静的な指標に加えて,Shapley値などの適応的指標を考慮し,ブロックの重要度について検討する。 適応的メトリクスはタスク間の性能のトレードオフを示すことを示す。すなわち、あるタスクの改善は、計算されたブロックの影響の違いにより、もう一方のパフォーマンスを低下させる可能性がある。 さらに,本分析は,完全ブロックから個別の自己保持層,フィードフォワード層へと拡張され,自己保持層がプルーニングに適合しやすくなり,また,Mistral 7bにおけるMMLUの性能劣化を生じさせることなく,自己保持層の最大33%の除去が可能となった(KV-cacheのコストの大幅な削減)。 最後に, 軽量付加バイアスや低ランク線形アダプタを訓練することにより, プルーニング層をエミュレートする簡易な性能回復手法について検討する。 エミュレートされた更新を使用したパフォーマンス回復は、初期ブロックのパフォーマンス劣化(MMLUでは最大5%の改善)を回避する。

Large Language Models (LLMs) are not only resource-intensive to train but even more costly to deploy in production. Therefore, recent work has attempted to prune blocks of LLMs based on cheap proxies for estimating block importance, effectively removing 10% of blocks in well-trained LLaMa-2 and Mistral 7b models without any significant degradation of downstream metrics. In this paper, we explore different block importance metrics by considering adaptive metrics such as Shapley value in addition to static ones explored in prior work. We show that adaptive metrics exhibit a trade-off in performance between tasks i.e., improvement on one task may degrade performance on the other due to differences in the computed block influences. Furthermore, we extend this analysis from a complete block to individual self-attention and feed-forward layers, highlighting the propensity of the self-attention layers to be more amendable to pruning, even allowing removal of upto 33% of the self-attention layers without incurring any performance degradation on MMLU for Mistral 7b (significant reduction in costly maintenance of KV-cache). Finally, we look at simple performance recovery techniques to emulate the pruned layers by training lightweight additive bias or low-rank linear adapters. Performance recovery using emulated updates avoids performance degradation for the initial blocks (up to 5% absolute improvement on MMLU), which is either competitive or superior to the learning-based technique.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# 物体内自己教師型学習による顔認識のためのフェデレーション学習

Federated Learning for Face Recognition via Intra-subject Self-supervised Learning ( http://arxiv.org/abs/2407.16289v1 )

ライセンス: Link先を確認
Hansol Kim, Hoyeol Choi, Youngjun Kwak, (参考訳) 顔認識のためのフェデレートラーニング(FL)は、個々のクライアントから局所的に最適化されたモデルを集約し、一般化された顔認識モデルを構築する。 しかし,従来の研究では,自己指導型学習の不十分な導入と,複数の課題に対応するクライアントの必要性という2つの大きな課題が報告されている。 これらの制約に対処するために,対象を含まないパーソナライズされた顔認識モデルのトレーニングに適した,新たなフェデレーション学習アーキテクチャであるFedFS(Federated Learning for Personal Face Recognition via In-jectject Self-supervised Learning framework)を提案する。 提案するFedFSは,ローカルモデルとグローバルモデルの集約的特徴を利用して,既成モデルの表現に協調する2つの重要なコンポーネントから構成される。 これらの構成要素は,(1)適応型ソフトラベル構築,(2)ドット製品操作,(2)オブジェクト内ラベルの再構築,(2)コサイン類似性操作によるオブジェクト内表現の強化などである。 さらに、最適化モデルの過度な適合を防止し、安定性を確保するために正規化損失を導入する。 FedFSの有効性を評価するため、DigiFace-1MおよびVGGFaceデータセットの総合的な実験を行い、従来の手法と比較して優れた性能を示す。

Federated Learning (FL) for face recognition aggregates locally optimized models from individual clients to construct a generalized face recognition model. However, previous studies present two major challenges: insufficient incorporation of self-supervised learning and the necessity for clients to accommodate multiple subjects. To tackle these limitations, we propose FedFS (Federated Learning for personalized Face recognition via intra-subject Self-supervised learning framework), a novel federated learning architecture tailored to train personalized face recognition models without imposing subjects. Our proposed FedFS comprises two crucial components that leverage aggregated features of the local and global models to cooperate with representations of an off-the-shelf model. These components are (1) adaptive soft label construction, utilizing dot product operations to reformat labels within intra-instances, and (2) intra-subject self-supervised learning, employing cosine similarity operations to strengthen robust intra-subject representations. Additionally, we introduce a regularization loss to prevent overfitting and ensure the stability of the optimized model. To assess the effectiveness of FedFS, we conduct comprehensive experiments on the DigiFace-1M and VGGFace datasets, demonstrating superior performance compared to previous methods.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# TAPTRv2: 任意のポイントのトラッキングを改善したアテンションベースの位置更新

TAPTRv2: Attention-based Position Update Improves Tracking Any Point ( http://arxiv.org/abs/2407.16291v1 )

ライセンス: Link先を確認
Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang, (参考訳) 本稿では,TAP(Tracking Any Point)タスクを解決するために,TAPTR上に構築されたTransformerベースのアプローチであるTAPTRv2を提案する。 TAPTRはDetection TRansformer (DETR) から設計を借用し、各トラッキングポイントをポイントクエリとして定式化する。 TAPTRv2は、ポイントクエリのコンテンツ特徴を汚染し、可視性予測とコストボリューム計算の両方に悪影響を及ぼす、コストボリュームへの依存に関する重要な問題に対処することで、TAPTRを改善する。 TAPTRv2では、新しいアテンションベースの位置更新(APU)操作を提案し、キー・アウェア・デフォルマブル・アテンションを用いて実現した。 各クエリに対して、この操作はキー認識の注意重みを使用して、対応する変形可能なサンプリング位置を組み合わせて、新しいクエリ位置を予測する。 この設計は、局所的な注意は基本的にコストボリュームと同じであり、どちらもクエリとその周辺の特徴の間のドット生成によって計算される。 この新しい操作を導入することで、TAPTRv2はコスト・ボリューム計算の余分な負担を取り除くだけでなく、大幅な性能改善をもたらす。 TAPTRv2はTAPTRを超え、多くの挑戦的なデータセットで最先端のパフォーマンスを達成する。

In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\'s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# DALL-E、Stable Diffusion、SDXL、Midjourneyにおける自閉症スペクトラムの視覚ステレオタイプ

Visual Stereotypes of Autism Spectrum in DALL-E, Stable Diffusion, SDXL, and Midjourney ( http://arxiv.org/abs/2407.16292v1 )

ライセンス: Link先を確認
Maciej Wodziński, Marcin Rządeczka, Anastazja Szuła, Marta Sokół, Marcin Moskalewicz, (参考訳) システム的差別を避けるには、トレーニングデータセット固有のバイアスから生じるステレオタイプを伝播するAIモデルの可能性を調べる必要がある。 本研究では,テキスト・ツー・イメージ・モデルが,自閉症に関する非合理的な信念を意図せず永続させる方法について検討した。 研究プロトコルでは、DALL-E、Stable Diffusion、SDXL、Midjourney(N=249)という4つのモデルにまたがる、具体的な物体や自閉症に関する抽象概念を可視化するための53のプロンプトに基づいて画像を生成する。 実験結果の有意な評価は,コミュニティが提案する共通ステレオタイプを表す10の導出符号の枠組みを用いて行われ,その存在と空間的強度の定量化,および層間信頼性とサイズ効果の統計的解析を行った。 モデルは不均一に配布された議論の的となっているテーマやシンボルをしばしば利用したが、肌の色、性別、年齢の点で顕著な均一性があり、自閉症の個人は孤独な活動に従事し、人ではなく物と交流し、青、怒り、悲しみといったステレオタイプ的な感情表現を見せる。 第2に, 以上の結果の偽造を目的とした指向性プロンプトにもかかわらず, 自閉症画像に対する表現的不感度を観察した。 さらに、DALL-Eは永続ステレオタイプを明示的に否定した。 我々は、人間における自閉症関連ステレオタイプに関するこれまでの研究で正当化されたように、背景と反射的知識の相違に関する人間の認知アーキテクチャを反映するANNと解釈する。

Avoiding systemic discrimination requires investigating AI models' potential to propagate stereotypes resulting from the inherent biases of training datasets. Our study investigated how text-to-image models unintentionally perpetuate non-rational beliefs regarding autism. The research protocol involved generating images based on 53 prompts aimed at visualizing concrete objects and abstract concepts related to autism across four models: DALL-E, Stable Diffusion, SDXL, and Midjourney (N=249). Expert assessment of results was performed via a framework of 10 deductive codes representing common stereotypes contested by the community regarding their presence and spatial intensity, quantified on ordinal scales and subject to statistical analysis of inter-rater reliability and size effects. The models frequently utilised controversial themes and symbols which were unevenly distributed, however, with striking homogeneity in terms of skin colour, gender, and age, with autistic individuals portrayed as engaged in solitary activities, interacting with objects rather than people, and displaying stereotypical emotional expressions such as pale, anger, or sad. Secondly we observed representational insensitivity regarding autism images despite directional prompting aimed at falsifying the above results. Additionally, DALL-E explicitly denied perpetuating stereotypes. We interpret this as ANNs mirroring the human cognitive architecture regarding the discrepancy between background and reflective knowledge, as justified by our previous research on autism-related stereotypes in humans.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# 新しい線形時間Biレベル$\ell_{1,\infty}$プロジェクション;オートエンコーダニューラルネットワークのスパース化への応用

A new Linear Time Bi-level $\ell_{1,\infty}$ projection ; Application to the sparsification of auto-encoders neural networks ( http://arxiv.org/abs/2407.16293v1 )

ライセンス: Link先を確認
Michel Barlaud, Guillaume Perez, Jean-Paul Marmorat, (参考訳) $\ell_{1,\infty}$ノルムは効率的な構造的射影であるが、最良のアルゴリズムの複雑さは、残念ながら$\mathcal{O}\big(n m \log(n m)\big)$ for a matrix $n\times m$である。 この論文では、$\ell_{1,\infty}$ノルムの時間複雑性は、行列$n\times m$に対して$\mathcal{O}\big(n m \big)$のみであることを示す新しい二値射影法を提案する。 さらに、数学的証明と実験的検証を備えた新しい$\ell_{1,\infty}$恒等式を提供する。 実験により、我々の2レベル$\ell_{1,\infty}$プロジェクションは、実際の最速アルゴリズムよりも2.5ドル高速であり、分類アプリケーションで同じ精度を維持しながら最高の間隔を提供することが示された。

The $\ell_{1,\infty}$ norm is an efficient-structured projection, but the complexity of the best algorithm is, unfortunately, $\mathcal{O}\big(n m \log(n m)\big)$ for a matrix $n\times m$.\\ In this paper, we propose a new bi-level projection method, for which we show that the time complexity for the $\ell_{1,\infty}$ norm is only $\mathcal{O}\big(n m \big)$ for a matrix $n\times m$. Moreover, we provide a new $\ell_{1,\infty}$ identity with mathematical proof and experimental validation. Experiments show that our bi-level $\ell_{1,\infty}$ projection is $2.5$ times faster than the actual fastest algorithm and provides the best sparsity while keeping the same accuracy in classification applications.
翻訳日:2024-07-24 18:06:10 公開日:2024-07-23
# Manifoldchain: Bandwidth-Clustered Shardingによるブロックチェーンのスループットの最大化

Manifoldchain: Maximizing Blockchain Throughput via Bandwidth-Clustered Sharding ( http://arxiv.org/abs/2407.16295v1 )

ライセンス: Link先を確認
Chunjiang Che, Songze Li, Xuechao Wang, (参考訳) 帯域制限は、作業証明ブロックチェーンのスケーリングスループットを妨げる主要なボトルネックである。 セキュリティを確保するために、ブロックチェーンのマイニングレートは、最低帯域幅のマイニング者によって決定され、高速マイニング者間で非効率な帯域利用をもたらす。 Manifoldchainは、ブロックチェーンのスループットを最大化するために、遅いマイナの影響を軽減する革新的なブロックチェーンシャーディングプロトコルである。 Manifoldchainは、同じ帯域幅を持つマイナーを同じシャードにグループ化する、バンド幅のクラスタ化されたシャード形成機構を利用する。 提案手法により, 帯域幅に基づいて各シャードの最適マイニング率の設定が可能となり, 遅いマイニングによる待ち時間を効果的に削減できる。 それでも、敵対者は同様の帯域幅で鉱山労働者を腐敗させる可能性があり、それによってハッシュ力を集中させ、1つのシャード内で敵の多数派を創り出す可能性があった。 この敵対的戦略に対抗するために、共有マイニングを導入し、ネットワーク全体の誠実なマイニングパワーを各シャードのセキュアな台帳形成に参加できるようにし、未シャードブロックチェーンと同じレベルのセキュリティを実現する。 さらに、さまざまな採掘率を持つシャード間のトランザクションの原子性を確保するために、非同期な原子コミットメント機構を導入する。 理論解析により, マニフォールドチェーンは, シャード数の増加とともに線形にスループットを拡大し, 各シャードのネットワーク遅延に逆向きにスケールすることを示した。 Manifoldchainの完全なシステムプロトタイプを実装し、シミュレーションと実世界のテストベッドの両方で包括的に評価する。 これらの実験は、ネットワーク帯域幅による垂直スケーラビリティとネットワークサイズによる水平スケーラビリティを検証し、マイナーの帯域幅が5Mbpsから60Mbpsのシナリオにおいて、ベースラインシャーディングプロトコルよりも186%のスループット向上を実現した。

Bandwidth limitation is the major bottleneck that hinders scaling throughput of proof-of-work blockchains. To guarantee security, the mining rate of the blockchain is determined by the miners with the lowest bandwidth, resulting in an inefficient bandwidth utilization among fast miners. We propose Manifoldchain, an innovative blockchain sharding protocol that alleviates the impact of slow miners to maximize blockchain throughput. Manifoldchain utilizes a bandwidth-clustered shard formation mechanism that groups miners with similar bandwidths into the same shard. Consequently, this approach enables us to set an optimal mining rate for each shard based on its bandwidth, effectively reducing the waiting time caused by slow miners. Nevertheless, the adversary could corrupt miners with similar bandwidths, thereby concentrating hashing power and potentially creating an adversarial majority within a single shard. To counter this adversarial strategy, we introduce sharing mining, allowing the honest mining power of the entire network to participate in the secure ledger formation of each shard, thereby achieving the same level of security as an unsharded blockchain. Additionally, we introduce an asynchronous atomic commitment mechanism to ensure transaction atomicity across shards with various mining rates. Our theoretical analysis demonstrates that Manifoldchain scales linearly in throughput with the increase in shard numbers and inversely with network delay in each shard. We implement a full system prototype of Manifoldchain, comprehensively evaluated on both simulated and real-world testbeds. These experiments validate its vertical scalability with network bandwidth and horizontal scalability with network size, achieving a substantial improvement of 186% in throughput over baseline sharding protocols, for scenarios where bandwidths of miners range from 5Mbps to 60Mbps.
翻訳日:2024-07-24 17:56:17 公開日:2024-07-23
# 気候変動と持続可能性問題のための量子コンピューティング

Quantum Computing for Climate Resilience and Sustainability Challenges ( http://arxiv.org/abs/2407.16296v1 )

ライセンス: Link先を確認
Kin Tung Michael Ho, Kuan-Cheng Chen, Lily Lee, Felix Burt, Shang Yu, Po-Heng, Lee, (参考訳) 気候変動のエスカレートする影響と持続可能な開発と天然資源管理への需要の増加は、革新的な技術的解決策を必要としている。 量子コンピューティング(QC)は、これらの重要な領域に革命をもたらす可能性を持つ有望なツールとして登場した。 本稿では、気候変動予測と持続可能な開発のための量子機械学習および最適化手法の適用について検討する。 伝統的な計算手法は、しばしば気候モデルや天然資源管理のスケールと複雑さを扱うのに不足する。 しかし、量子の進歩は計算効率と問題解決能力を大幅に改善する。 最新の研究と開発を合成することにより、QCと量子機械学習がマルチインフラシステムを気候中立性に最適化する方法について強調する。 また, 現状の量子アルゴリズムとハードウェアの性能評価を行い, 嫌気性消化における省エネルギー化, 浸水予測による防災, 炭素捕獲のための新しい材料開発など現実的な事例を提示する。 これらの量子技術の統合は、気候の回復力と持続可能な開発を達成する上で、大きな進歩をもたらすことを約束している。

The escalating impacts of climate change and the increasing demand for sustainable development and natural resource management necessitate innovative technological solutions. Quantum computing (QC) has emerged as a promising tool with the potential to revolutionize these critical areas. This review explores the application of quantum machine learning and optimization techniques for climate change prediction and enhancing sustainable development. Traditional computational methods often fall short in handling the scale and complexity of climate models and natural resource management. Quantum advancements, however, offer significant improvements in computational efficiency and problem-solving capabilities. By synthesizing the latest research and developments, this paper highlights how QC and quantum machine learning can optimize multi-infrastructure systems towards climate neutrality. The paper also evaluates the performance of current quantum algorithms and hardware in practical applications and presents realistic cases, i.e., waste-to-energy in anaerobic digestion, disaster prevention in flooding prediction, and new material development for carbon capture. The integration of these quantum technologies promises to drive significant advancements in achieving climate resilience and sustainable development.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# EffiSegNet: 簡易デコーダを用いた事前学習ネットワークによる消化管ポリープセグメンテーション

EffiSegNet: Gastrointestinal Polyp Segmentation through a Pre-Trained EfficientNet-based Network with a Simplified Decoder ( http://arxiv.org/abs/2407.16298v1 )

ライセンス: Link先を確認
Ioannis A. Vezakis, Konstantinos Georgas, Dimitrios Fotiadis, George K. Matsopoulos, (参考訳) EffiSegNetは、トレーニング済みの畳み込みニューラルネットワーク(CNN)分類器をバックボーンとして、トランスファーラーニングを活用する新しいセグメンテーションフレームワークである。 EffiSegNetは対称なU字型で従来のアーキテクチャから切り離され、デコーダを単純化し、計算コストとパラメータの数を最小化するためにフルスケールの機能融合を利用する。 Kvasir-SEGデータセットを用いて消化管ポリープセグメンテーションタスクの評価を行い,その成果を得た。 具体的には、EffiSegNet-B4ネットワーク変種はF1スコアが0.9552、平均Dice (mDice) 0.9483、平均Intersection over Union (mIoU) 0.9056、Precision 0.9679、Recall 0.9429を事前訓練されたバックボーンで達成した。 また、スクラッチからの追加のトレーニングでは、F1スコアは0.9286、mDice 0.9207、mIoU 0.8668、Precision 0.9311、Recall 0.9262といった従来の作業と比べて、例外的なパフォーマンスを示した。 これらの結果は,画像セグメンテーションネットワークにおけるよく設計されたエンコーダの重要性と,伝達学習手法の有効性を裏付けるものである。

This work introduces EffiSegNet, a novel segmentation framework leveraging transfer learning with a pre-trained Convolutional Neural Network (CNN) classifier as its backbone. Deviating from traditional architectures with a symmetric U-shape, EffiSegNet simplifies the decoder and utilizes full-scale feature fusion to minimize computational cost and the number of parameters. We evaluated our model on the gastrointestinal polyp segmentation task using the publicly available Kvasir-SEG dataset, achieving state-of-the-art results. Specifically, the EffiSegNet-B4 network variant achieved an F1 score of 0.9552, mean Dice (mDice) 0.9483, mean Intersection over Union (mIoU) 0.9056, Precision 0.9679, and Recall 0.9429 with a pre-trained backbone - to the best of our knowledge, the highest reported scores in the literature for this dataset. Additional training from scratch also demonstrated exceptional performance compared to previous work, achieving an F1 score of 0.9286, mDice 0.9207, mIoU 0.8668, Precision 0.9311 and Recall 0.9262. These results underscore the importance of a well-designed encoder in image segmentation networks and the effectiveness of transfer learning approaches.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# マルチソースデータのためのスパースアウトリア・ロバストPCA

Sparse outlier-robust PCA for multi-source data ( http://arxiv.org/abs/2407.16299v1 )

ライセンス: Link先を確認
Patricia Puchhammer, Ines Wilms, Peter Filzmoser, (参考訳) スパース・ローバスト・プリンシパル・コンポーネント分析(PCA)は近年,非常に活発な研究分野である。 しかし、既存のほとんどの手法では、PCAを単一のデータセットに適用するのに対し、マルチソースデータ、すなわち、複数の関連するデータセットは、多くの科学領域で共同分析を必要とする。 同時に導入する新しいPCA手法について紹介する。 (i)重要な特徴を選択する (ii)複数のデータソースとローカルソース固有のパターンをまたいだグローバルスパースパターンの検出を可能にする。 (iii) 降圧剤に耐性がある。 そこで我々は,グローバルな局所構造的空間パターンに対応するペナルティを持つ正規化問題を構築し,複数のデータソースをまたいだジョイント・アウリエ・ロバスト解析を可能にするプラグインとしてssMRCD推定器を使用する。 本稿では,乗算器の交互方向法(Alternating Direction Method of Multiplier)による提案手法の効率的な実装について述べる。

Sparse and outlier-robust Principal Component Analysis (PCA) has been a very active field of research recently. Yet, most existing methods apply PCA to a single dataset whereas multi-source data-i.e. multiple related datasets requiring joint analysis-arise across many scientific areas. We introduce a novel PCA methodology that simultaneously (i) selects important features, (ii) allows for the detection of global sparse patterns across multiple data sources as well as local source-specific patterns, and (iii) is resistant to outliers. To this end, we develop a regularization problem with a penalty that accommodates global-local structured sparsity patterns, and where the ssMRCD estimator is used as plug-in to permit joint outlier-robust analysis across multiple data sources. We provide an efficient implementation of our proposal via the Alternating Direction Method of Multiplier and illustrate its practical advantages in simulation and in applications.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# DeepClean: 画像破壊の修正のための統合的歪み同定とアルゴリズム選択

DeepClean: Integrated Distortion Identification and Algorithm Selection for Rectifying Image Corruptions ( http://arxiv.org/abs/2407.16302v1 )

ライセンス: Link先を確認
Aditya Kapoor, Harshad Khadilkar, Jayvardhana Gubbi, (参考訳) 画像やビデオの歪みの識別と修正は、下流の視覚アプリケーションにおいて優れたパフォーマンスを達成するために不可欠である。 固定された試行錯誤に基づく画像処理パイプラインに頼る代わりに、画像歪みの自動分類と修正のための2段階の逐次計画手法を提案する。 より高いレベルでは、もしあれば、入力画像に存在する汚職のクラスを検出する。 下位レベルは、適用すべき特定のアルゴリズムを、外部に提供された候補アルゴリズムのセットから選択する。 2段階のセットアップは、推論中に1つのフォワードパスの形式で実行され、元のイメージが検索されるまで反復的にクエリされる。 歪みの豊富なCOCO画像データセットにおけるオブジェクト検出タスクの3つのベースラインと比較して改善点を示す。 提案手法の利点は、画像埋め込みの出力の比較にのみ依存するため、入力画像に条件付きで動的再構成を行い、推論時に候補アルゴリズムが見えないように一般化可能であることである。

Distortion identification and rectification in images and videos is vital for achieving good performance in downstream vision applications. Instead of relying on fixed trial-and-error based image processing pipelines, we propose a two-level sequential planning approach for automated image distortion classification and rectification. At the higher level it detects the class of corruptions present in the input image, if any. The lower level selects a specific algorithm to be applied, from a set of externally provided candidate algorithms. The entire two-level setup runs in the form of a single forward pass during inference and it is to be queried iteratively until the retrieval of the original image. We demonstrate improvements compared to three baselines on the object detection task on COCO image dataset with rich set of distortions. The advantage of our approach is its dynamic reconfiguration, conditioned on the input image and generalisability to unseen candidate algorithms at inference time, since it relies only on the comparison of their output of the image embeddings.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 隠れたWebキャッシュ発見

Hidden Web Caches Discovery ( http://arxiv.org/abs/2407.16303v1 )

ライセンス: Link先を確認
Matteo Golinelli, Bruno Crispo, (参考訳) Webキャッシュは、Webパフォーマンスとスケーラビリティにおいて重要な役割を担います。 しかし、Webサーバが標準化されたヘッダを通してキャッシュステータスを確実に通信しない場合、キャッシュされた応答を検出することは困難である。 本稿では,タイミング解析を用いたキャッシュ検出手法を提案する。 このアプローチはキャッシュのステータスヘッダへの依存性を排除し、あらゆるWebサーバに適用できます。 この手法は、HTTP多重化機能を使用してペアリクエストを送信することに依存しており、レスポンスの起源を制御するためにキャッシュバッティングを多用している。 ペア化されたリクエストからレスポンスを受け取るのに要する時間を測定することで、レスポンスがキャッシュされているかどうかを判断できる。 各ペアにおいて、1つのリクエストは、元のサーバから強制的に検索するためにキャッシュバスされ、もう1つのリクエストは、もし存在するなら、キャッシュから提供され得る。 非キャッシュバスト要求に対する応答時間がキャッシュバストリクエストよりも早くなると、最初のリクエストがキャッシュから来ていることが示唆される。 我々は,この手法をツールに実装し,キャッシュステータスヘッダに基づく最先端手法と比較して89.6%の精度で評価した。 キャッシュ検出アプローチを活用して,Tranco Top 50k Webサイト上で大規模な実験を行った。 ヘッダーを通して自身を宣伝しない隠れキャッシュ(5.8%)の存在が確認された。 さらに、これらの隠れキャッシュにおけるWeb Cache Deception(WCD)脆弱性を検出するために、我々の方法論を使用しました。 そのうち1.020がWCDの脆弱性の影響を受けており、機密データを漏洩させる可能性があることがわかりました。 本研究は,キャッシュ発見におけるタイミング解析手法の有効性を実証し,キャッシュ通信型キャッシュステータスヘッダに依存しないツールの重要性を強調した。

Web caches play a crucial role in web performance and scalability. However, detecting cached responses is challenging when web servers do not reliably communicate the cache status through standardized headers. This paper presents a novel methodology for cache detection using timing analysis. Our approach eliminates the dependency on cache status headers, making it applicable to any web server. The methodology relies on sending paired requests using HTTP multiplexing functionality and makes heavy use of cache-busting to control the origin of the responses. By measuring the time it takes to receive responses from paired requests, we can determine if a response is cached or not. In each pair, one request is cache-busted to force retrieval from the origin server, while the other request is not and might be served from the cache, if present. A faster response time for the non-cache-busted request compared to the cache-busted one suggests the first one is coming from the cache. We implemented this approach in a tool and achieved an estimated accuracy of 89.6% compared to state-of-the-art methods based on cache status headers. Leveraging our cache detection approach, we conducted a large-scale experiment on the Tranco Top 50k websites. We identified a significant presence of hidden caches (5.8%) that do not advertise themselves through headers. Additionally, we employed our methodology to detect Web Cache Deception (WCD) vulnerabilities in these hidden caches. We discovered that 1.020 of them are susceptible to WCD vulnerabilities, potentially leaking sensitive data. Our findings demonstrate the effectiveness of our timing analysis methodology for cache discovery and highlight the importance of a tool that does not rely on cache-communicated cache status headers.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 高次元量子相関実験における双項化ループホール

The binarisation loophole in high-dimensional quantum correlation experiments ( http://arxiv.org/abs/2407.16305v1 )

ライセンス: Link先を確認
Armin Tavakoli, Roope Uola, Jef Pauwels, (参考訳) 高次元量子システムによる多くの実験は、すべての測定装置が完全に特徴付けられると仮定することなく、物理的性質を観察することを目的としている。 高次元計測を実装するために、システムの各固有状態に対して個別にプロジェクションを行い、後処理を行うのが一般的である。 ここでは,このような二項化法が欠陥であり,ブラックボックス相関実験において抜け穴が開いていることを論じる。 人工的な仮定を導入しなければ、バイナライズされた測定が無意味な結果をもたらす可能性があることを指摘する。 次に,二項化測定から相関関係を忠実に解析する手法を提案する。 本稿では、ベルにおける量子相関のよく知られた例、準備と測定、およびステアリング実験に適用する。 前者2人について、二項化は減量するが、後者については、二項化は時として未定義の量子相関に繋がることがある。 我々の議論は、より注意深いデータ分析と、真のマルチアウトカム量子計測を開発することの重要性を強調している。

Many experiments with high-dimensional quantum systems aim at observing physical properties without having to assume that all measurement devices are perfectly characterised. To implement high-dimensional measurements, it is a common practice to separately project the system onto each of the possible eigenstates followed by post-processing. Here, we argue that such measurement binarisation procedures are flawed and open a loophole in black-box correlation experiments. We point out how binarised measurements can lead to meaningless results unless artificial assumptions are introduced. We then propose a method to faithfully analyse correlations from binarised measurements. We apply this approach to well-known examples of quantum correlations in Bell, prepare-and-measure and steering experiments. For the former two, we find that binarisation permits reduced-but-yet-significant quantum advantage, while for the latter we find that binarisation can sometimes lead to undiminished quantum correlations. Our discussion emphasises the importance of both more careful data analysis and for developing genuine multi-outcome quantum measurements.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# マルチモーダル非学習例:マルチモーダルコントラスト学習に対するデータ保護

Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning ( http://arxiv.org/abs/2407.16307v1 )

ライセンス: Link先を確認
Xinwei Liu, Xiaojun Jia, Yuan Xun, Siyuan Liang, Xiaochun Cao, (参考訳) マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。 しかし、この依存はプライバシーのリスクを引き起こす。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。 近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。 しかし、それらは一様分類のために設計されており、MCLではほとんど探索されていない。 まず,画像キャプチャペア上での既存手法の性能を評価し,マルチモーダルデータに効果的に一般化せず,ラベルの欠如やMCL内のペアの分散によるショートカット構築に限定的な影響を示す。 本稿では,多段階誤り最小化(MEM)を提案する。 エラー最小化(EM)フレームワークを拡張して、画像ノイズと追加のテキストトリガの両方を最適化し、最適化されたスペースを拡大し、ノイズ特徴とテキストトリガの間のショートカットを効果的に学習するためのモデルを誤解させる。 具体的には、雑音最小化問題の解法として、予測勾配降下法を採用し、HotFlipを用いて勾配を近似し、単語を置換して最適なテキストトリガを求める。 広範囲な実験により、保護後検索の結果はランダムな推測の半分近くであり、異なるモデル間で高い転送性を持つMEMの有効性が実証された。 私たちのコードはhttps://github.com/thinwayliu/Multimodal-Unlearnable-Examplesで利用可能です。

Multimodal contrastive learning (MCL) has shown remarkable advances in zero-shot classification by learning from millions of image-caption pairs crawled from the Internet. However, this reliance poses privacy risks, as hackers may unauthorizedly exploit image-text data for model training, potentially including personal and privacy-sensitive information. Recent works propose generating unlearnable examples by adding imperceptible perturbations to training images to build shortcuts for protection. However, they are designed for unimodal classification, which remains largely unexplored in MCL. We first explore this context by evaluating the performance of existing methods on image-caption pairs, and they do not generalize effectively to multimodal data and exhibit limited impact to build shortcuts due to the lack of labels and the dispersion of pairs in MCL. In this paper, we propose Multi-step Error Minimization (MEM), a novel optimization process for generating multimodal unlearnable examples. It extends the Error-Minimization (EM) framework to optimize both image noise and an additional text trigger, thereby enlarging the optimized space and effectively misleading the model to learn the shortcut between the noise features and the text trigger. Specifically, we adopt projected gradient descent to solve the noise minimization problem and use HotFlip to approximate the gradient and replace words to find the optimal text trigger. Extensive experiments demonstrate the effectiveness of MEM, with post-protection retrieval results nearly half of random guessing, and its high transferability across different models. Our code is available on the https://github.com/thinwayliu/Multimodal-Unlearnable-Examples
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# SAFNet:効率的なHDRイメージングのための選択的アライメント融合ネットワーク

SAFNet: Selective Alignment Fusion Network for Efficient HDR Imaging ( http://arxiv.org/abs/2407.16308v1 )

ライセンス: Link先を確認
Lingtong Kong, Bo Li, Yike Xiong, Hao Zhang, Hong Gu, Jinwei Chen, (参考訳) マルチ露光高ダイナミックレンジ(HDR)イメージングは,混在するテクスチャや複雑な動きに直面する場合の課題である。 既存のディープラーニングベースの手法は、アライメントと融合パイプラインに従うか、アテンションメカニズムを活用することで大きな成功を収めた。 しかし、大きな計算コストと推論遅延により、リソース制限されたデバイスへのデプロイが妨げられる。 本稿では,HDRイメージングのためのSAFNet(Selective Alignment Fusion Network)を提案する。 ピラミッドの特徴を抽出した後、選択された領域における貴重な領域マスクとクロス露光運動を共有デコーダで共同で洗練し、高品質なHDR画像を明示的に融合させる。 このアプローチは、容易かつ有意義な動きを推定しながら、価値ある領域を見つけることに集中することができる。 さらなる詳細強化のために、以前の光学フロー、選択マスク、初期予測からの特権を享受する軽量の精細モジュールが導入された。 また、大きな動きを持つサンプルの学習を容易にするため、トレーニング中に新しいウィンドウ分割収穫法が提示される。 公開および新たに開発された挑戦的データセットの実験では、提案されたSAFNetは、以前のSOTAコンペティターを定量的かつ質的に上回るだけでなく、桁違いに高速に動作している。 コードとデータセットはhttps://github.com/ltkong218/SAFNetで入手できる。

Multi-exposure High Dynamic Range (HDR) imaging is a challenging task when facing truncated texture and complex motion. Existing deep learning-based methods have achieved great success by either following the alignment and fusion pipeline or utilizing attention mechanism. However, the large computation cost and inference delay hinder them from deploying on resource limited devices. In this paper, to achieve better efficiency, a novel Selective Alignment Fusion Network (SAFNet) for HDR imaging is proposed. After extracting pyramid features, it jointly refines valuable area masks and cross-exposure motion in selected regions with shared decoders, and then fuses high quality HDR image in an explicit way. This approach can focus the model on finding valuable regions while estimating their easily detectable and meaningful motion. For further detail enhancement, a lightweight refine module is introduced which enjoys privileges from previous optical flow, selection masks and initial prediction. Moreover, to facilitate learning on samples with large motion, a new window partition cropping method is presented during training. Experiments on public and newly developed challenging datasets show that proposed SAFNet not only exceeds previous SOTA competitors quantitatively and qualitatively, but also runs order of magnitude faster. Code and dataset is available at https://github.com/ltkong218/SAFNet.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 多次元投影の性能評価のための新しい視覚的品質指標

A new visual quality metric for Evaluating the performance of multidimensional projections ( http://arxiv.org/abs/2407.16309v1 )

ライセンス: Link先を確認
Maniru Ibrahim, Thales Vieira, (参考訳) 多次元投影法(MP)は多次元データの視覚解析において最も重要な手法の一つである。 多次元データを、元のデータと類似性を保ちながら散乱プロットとして表される2次元表現に変換する。 人間の視覚知覚は、MPの品質を評価するために頻繁に使用される。 本研究では,局所アフィン多次元射影 (Local Affine Multidimensional Projection, LAMP) と呼ばれる,多次元のインスタンスを最小二乗変形によってカルト空間に埋め込んだよく知られた写像について検討し,改良する。 人間の知覚に基づく新しい視覚品質指標を提案する。 この新しい測定基準は、シルエット係数、近隣保存率、シルエット比の3つを組み合わせたものである。 提案手法は,MPの質を従来の測定値よりも正確に分析する。 最後に,LAMP法の限界を克服しようとするアルゴリズムについて述べる。

Multidimensional projections (MP) are among the most essential approaches in the visual analysis of multidimensional data. It transforms multidimensional data into two-dimensional representations that may be shown as scatter plots while preserving their similarity with the original data. Human visual perception is frequently used to evaluate the quality of MP. In this work, we propose to study and improve on a well-known map called Local Affine Multidimensional Projection (LAMP), which takes a multidimensional instance and embeds it in Cartesian space via moving least squares deformation. We propose a new visual quality metric based on human perception. The new metric combines three previously used metrics: silhouette coefficient, neighborhood preservation, and silhouette ratio. We show that the proposed metric produces more precise results in analyzing the quality of MP than other previously used metrics. Finally, we describe an algorithm that attempts to overcome a limitation of the LAMP method which requires a similar scale for control points and their counterparts in the Cartesian space.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# MOMAland: 多目的マルチエージェント強化学習のためのベンチマークセット

MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2407.16312v1 )

ライセンス: Link先を確認
Florian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu, (参考訳) 交通システム、電力網、サプライチェーンの管理といった困難なタスクの多くは、複数の競合する目標をバランスさせ、様々な独立した意思決定者(DM)の行動を調整する必要がある複雑な意思決定プロセスを含む。 このようなタスクの形式化と対処の1つの視点は、多目的マルチエージェント強化学習(MOMARL)である。 MOMARLは強化学習(RL)を、学習プロセスにおいて複数の目的を考える必要がある複数のエージェントの問題に拡張する。 強化学習研究において、ベンチマークは進歩、評価、再現性を促進するために不可欠である。 ベンチマークの重要性は、シングルエージェントRL(e g , Gymnasium)、マルチエージェントRL(e g , PettingZoo)、シングルエージェントマルチオブジェクトRL(e g , MO-Gymnasium)など、さまざまなRLパラダイム向けに開発された多数のベンチマークフレームワークの存在によって裏付けられている。 MOMARL分野の進歩を支援するため,多目的マルチエージェント強化学習のための最初の標準化環境であるMOMAlandを紹介した。 MOMAlandはこの新興分野における総合的なベンチマークの必要性に対処し、エージェントの数、状態表現、報酬構造、ユーティリティを考慮した10以上の多様な環境を提供する。 将来の研究のための強力なベースラインを提供するため、MOMAlandはそのような設定でポリシーを学習できるアルゴリズムも含んでいる。

Many challenging tasks such as managing traffic systems, electricity grids, or supply chains involve complex decision-making processes that must balance multiple conflicting objectives and coordinate the actions of various independent decision-makers (DMs). One perspective for formalising and addressing such tasks is multi-objective multi-agent reinforcement learning (MOMARL). MOMARL broadens reinforcement learning (RL) to problems with multiple agents each needing to consider multiple objectives in their learning process. In reinforcement learning research, benchmarks are crucial in facilitating progress, evaluation, and reproducibility. The significance of benchmarks is underscored by the existence of numerous benchmark frameworks developed for various RL paradigms, including single-agent RL (e.g., Gymnasium), multi-agent RL (e.g., PettingZoo), and single-agent multi-objective RL (e.g., MO-Gymnasium). To support the advancement of the MOMARL field, we introduce MOMAland, the first collection of standardised environments for multi-objective multi-agent reinforcement learning. MOMAland addresses the need for comprehensive benchmarking in this emerging field, offering over 10 diverse environments that vary in the number of agents, state representations, reward structures, and utility considerations. To provide strong baselines for future research, MOMAland also includes algorithms capable of learning policies in such settings.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 膵分画のための深層学習 : 体系的レビュー

Deep Learning for Pancreas Segmentation: a Systematic Review ( http://arxiv.org/abs/2407.16313v1 )

ライセンス: Link先を確認
Andrea Moglia, Matteo Cavicchioli, Luca Mainardi, Pietro Cerveri, (参考訳) 膵分画は, 腹部CTでは小さかったこと, 形状や位置のばらつきが強く, 膵と周辺臓器とのコントラストが低かったため, 従来は困難であった。 膵分離のための多くの深層学習モデルが近年提案されている。 本報告では,システムレビュー・メタアナリシス(PRISMA)の論文に基づいて,詳細な体系的レビューを行う。 文献検索は、2013年から2023年までの査読付きジャーナルに掲載されたオリジナルの研究について、PubMed、Web of Science、Scopus、IEEE Xplore上で行われた。 合計130件が回収された。 最初は、最も一般的なネットワークアーキテクチャと公開データセットの技術背景の概要を提供しました。 そして,表形式での視覚提示とテキスト記述を組み合わせた研究を報告した。 それらのテーブルは、アプリケーション、データセットのサイズ、設計(モデルアーキテクチャ、学習戦略、損失関数)、結果、主なコントリビューションに関する研究をグループ化した。 まず, 粗大なアプローチ, 多臓器分割, 半教師付き学習, および教師なし学習を用いて, パーエンキマセグメンテーションに着目した研究を行い, 続いて, 他のデータセットへの一般化, 新たな損失関数の設計に関する研究を行った。 そこで我々は,腫瘍,嚢胞,炎症の分節化,多段階法,半教師付き学習,他のデータセットへの一般化,新しい損失関数の設計について検討した。 最後に, 臨床翻訳に先立って対処すべき課題を概説した証拠をもとに, 批判的な議論を行った。

Pancreas segmentation has been traditionally challenging due to its small size in computed tomography abdominal volumes, high variability of shape and positions among patients, and blurred boundaries due to low contrast between the pancreas and surrounding organs. Many deep learning models for pancreas segmentation have been proposed in the past few years. We present a thorough systematic review based on the Preferred Reporting Items for Systematic Reviews and Meta-analyses (PRISMA) statement. The literature search was conducted on PubMed, Web of Science, Scopus, and IEEE Xplore on original studies published in peer-reviewed journals from 2013 to 2023. Overall, 130 studies were retrieved. We initially provided an overview of the technical background of the most common network architectures and publicly available datasets. Then, the analysis of the studies combining visual presentation in tabular form and text description was reported. The tables grouped the studies specifying the application, dataset size, design (model architecture, learning strategy, and loss function), results, and main contributions. We first analyzed the studies focusing on parenchyma segmentation using coarse-to-fine approaches, multi-organ segmentation, semi-supervised learning, and unsupervised learning, followed by those studies on generalization to other datasets and those concerning the design of new loss functions. Then, we analyzed the studies on segmentation of tumors, cysts, and inflammation reporting multi-stage methods, semi-supervised learning, generalization to other datasets, and design of new loss functions. Finally, we provided a critical discussion on the subject based on the published evidence underlining current issues that need to be addressed before clinical translation.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 人工知能としての資本

Capital as Artificial Intelligence ( http://arxiv.org/abs/2407.16314v1 )

ライセンス: Link先を確認
Cesare Carissimo, Marcin Korecki, (参考訳) 私たちは、Capitalについて多くの視点を集め、それらの共通点を合成します。 本稿では,歴史的エージェントシステムとしてのCapitalの特徴と,コンピュータサイエンスのツールを用いたCapitalのモデルを提案する。 我々のモデルは、特定の根拠によって満たされた場合、資本の有効なモデルを構成する命題から成り立っている。 資本の進化の仕方を明確にする。 私たちは、その進化が定量的な最適化プロセスによって駆動される場合、Capitalは人工知能の質を持つことができると主張している。 私たちは、最適化が意図的に意味のあるものではないのと同じように、Capitalが独自に意味を表現していないかもしれないことに気付きました。 現代のLarge Language Modelsのような人工知能は、Capitalの一部です。 私たちは読者をWebインターフェースにリンクし、Capitalの一部と対話できるようにしています。

We gather many perspectives on Capital and synthesize their commonalities. We provide a characterization of Capital as a historical agential system and propose a model of Capital using tools from computer science. Our model consists of propositions which, if satisfied by a specific grounding, constitute a valid model of Capital. We clarify the manners in which Capital can evolve. We claim that, when its evolution is driven by quantitative optimization processes, Capital can possess qualities of Artificial Intelligence. We find that Capital may not uniquely represent meaning, in the same way that optimization is not intentionally meaningful. We find that Artificial Intelligences like modern day Large Language Models are a part of Capital. We link our readers to a web-interface where they can interact with a part of Capital.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# PrimeGuard: チューニング不要のルーティングによる安全でヘルプなLLM

PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing ( http://arxiv.org/abs/2407.16318v1 )

ライセンス: Link先を確認
Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan, (参考訳) 言語モデル(LM)のデプロイは、高品質かつ安全ガイドラインに準拠した出力を必要とする。 Inference-Time Guardrails (ITG)は、モデル出力分布をコンプライアンスにシフトするソリューションを提供するが、現在の手法は安全性と利便性のバランスに苦慮している。 非準拠なクエリに安全に対処するITGメソッドは、安全性に対する利便性の妥協を優先する一方で、利便性の低下を示す。 我々はこのトレードオフを、アライメント税に類似したガードレール税と呼ぶ。 そこで本研究では,構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。 PrimeGuardは、固有の命令フォロー機能とコンテキスト内学習を活用して、さまざまな命令でLMの異なる自己検証にリクエストをルーティングする。 チューニング不要なアプローチでは,クエリ毎にシステム設計ガイドラインを動的にコンパイルする。 多様なレッドチーム安全ベンチマークであるSafe-evalを構築しリリースしています。 大規模評価では,(1)繰り返しジェイルブレイク攻撃に対する抵抗が著しく増加し,(2)安全ガードレールの最先端化が達成され,(3)アライメント調整モデルの有用性スコアに適合していることから,プライムガードは微調整なしでガードレール税を克服することが示された。 大規模な評価では、PrimeGuardは細調整なしで、競合するベースラインをすべて上回り、安全応答の割合を61%から97%に改善し、最大のモデルでは4.17から4.29まで、攻撃成功率を100%から8%に下げることでガードレール税を克服している。 PrimeGuardの実装はhttps://github.com/dynamofl/PrimeGuardで、Safe-evalデータセットはhttps://huggingface.co/datasets/dynamoai/safe_evalで利用可能である。

Deploying language models (LMs) necessitates outputs to be both high-quality and compliant with safety guidelines. Although Inference-Time Guardrails (ITG) offer solutions that shift model output distributions towards compliance, we find that current methods struggle in balancing safety with helpfulness. ITG Methods that safely address non-compliant queries exhibit lower helpfulness while those that prioritize helpfulness compromise on safety. We refer to this trade-off as the guardrail tax, analogous to the alignment tax. To address this, we propose PrimeGuard, a novel ITG method that utilizes structured control flow. PrimeGuard routes requests to different self-instantiations of the LM with varying instructions, leveraging its inherent instruction-following capabilities and in-context learning. Our tuning-free approach dynamically compiles system-designer guidelines for each query. We construct and release safe-eval, a diverse red-team safety benchmark. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax by (1) significantly increasing resistance to iterative jailbreak attacks and (2) achieving state-of-the-art results in safety guardrailing while (3) matching helpfulness scores of alignment-tuned models. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, outperforms all competing baselines and overcomes the guardrail tax by improving the fraction of safe responses from 61% to 97% and increasing average helpfulness scores from 4.17 to 4.29 on the largest models, while reducing attack success rate from 100% to 8%. PrimeGuard implementation is available at https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at https://huggingface.co/datasets/dynamoai/safe_eval.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 環境条件下での固体スピン系による変分量子固有解法の実証

Demonstration of a variational quantum eigensolver with a solid-state spin system under ambient conditions ( http://arxiv.org/abs/2407.16321v1 )

ライセンス: Link先を確認
Xuliang Du, Yang Shen, Zipeng Wu, Bei Zeng, Sen Yang, (参考訳) 量子シミュレータは、物理系の量子的性質を利用して別の物理系を研究する能力を提供する。 計算複雑性の指数的な増加を経験する従来のシミュレーションとは対照的に、量子シミュレーションのコストは問題のサイズが大きくなるにつれて直線的に増大するだけであり、量子化学の応用には有望なツールである。 変分量子固有解法アルゴリズムは分子電子構造の研究に特に有望な応用である。 その実験的実装のために、スピンベースの固体量子ビットは長いデコヒーレンス時間と高忠実度量子ゲートの利点があり、基底状態の発見において高い精度をもたらす。 本研究は, ダイヤモンド中の窒素空孔中心系を用いて, 変量量子固有解法アルゴリズムを実装し, 誤差緩和法を必要とせず, 特定のハミルトニアンの固有値の発見に成功した。 収束状態と理想固有状態の間に98.9%の忠実さを持つこのデモンストレーションは、固体スピン系におけるスケーラブルな量子シミュレータの実現に向けた重要なステップを提供する。

Quantum simulators offer the potential to utilize the quantum nature of a physical system to study another physical system. In contrast to conventional simulation, which experiences an exponential increase in computational complexity, quantum simulation cost increases only linearly with increasing size of the problem, rendering it a promising tool for applications in quantum chemistry. The variational-quantum-eigensolver algorithm is a particularly promising application for investigating molecular electronic structures. For its experimental implementation, spin-based solid-state qubits have the advantage of long decoherence time and high-fidelity quantum gates, which can lead to high accuracy in the ground-state finding. This study uses the nitrogen-vacancy-center system in diamond to implement the variational-quantum-eigensolver algorithm and successfully finds the eigenvalue of a specific Hamiltonian without the need for error-mitigation techniques. With a fidelity of 98.9% between the converged state and the ideal eigenstate, the demonstration provides an important step toward realizing a scalable quantum simulator in solid-state spin systems.
翻訳日:2024-07-24 17:56:16 公開日:2024-07-23
# 知識グラフ埋め込み手法の表現力について

On The Expressive Power of Knowledge Graph Embedding Methods ( http://arxiv.org/abs/2407.16326v1 )

ライセンス: Link先を確認
Jiexing Gao, Dmitry Rodin, Vasily Motolygin, Denis Zaytsev, (参考訳) 知識グラフ埋め込み(KGE)は、潜在空間における知識グラフの実体と関係を表現することを目的とした一般的なアプローチである。 彼らの表現は埋め込みとして知られている。 三重項の可算性を測定するために、スコア関数は埋め込み空間上で定義される。 様々なタスクにおいてKGEが広く普及しているにもかかわらず、KGE法は推論能力に制限がある。 本稿では,KGE手法の推論能力を比較する数学的枠組みを提案する。 STransE は TransComplEx よりも高機能であることを示し,STransCoRe を TransCoRe の知見と組み合わせることで STransCoRe の空間複雑性を低減し,STransCoRe を改良する STransCoRe 法を提案する。

Knowledge Graph Embedding (KGE) is a popular approach, which aims to represent entities and relations of a knowledge graph in latent spaces. Their representations are known as embeddings. To measure the plausibility of triplets, score functions are defined over embedding spaces. Despite wide dissemination of KGE in various tasks, KGE methods have limitations in reasoning abilities. In this paper we propose a mathematical framework to compare reasoning abilities of KGE methods. We show that STransE has a higher capability than TransComplEx, and then present new STransCoRe method, which improves the STransE by combining it with the TransCoRe insights, which can reduce the STransE space complexity.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# 電磁誘導攻撃が物体検出に及ぼす影響の理解

Understanding Impacts of Electromagnetic Signal Injection Attacks on Object Detection ( http://arxiv.org/abs/2407.16327v1 )

ライセンス: Link先を確認
Youqian Zhang, Chunxi Yang, Eugene Y. Fu, Qinhong Jiang, Chen Yan, Sze-Yiu Chau, Grace Ngai, Hong-Va Leong, Xiapu Luo, Wenyuan Xu, (参考訳) オブジェクト検出は画像内のオブジェクトのローカライズと識別が可能であり、セキュリティ監視や自動運転といった重要なマルチメディアアプリケーションに広く利用されている。 既存のオブジェクト検出モデルの成功にもかかわらず、キャプチャされた画像が検出シーンの正確かつ完全な表現を保証する理想的なシナリオで評価されることが多い。 しかし、イメージセンサーが捉えた画像は、サイバー物理攻撃を含む実際の応用におけるさまざまな要因に影響される可能性がある。 特に、攻撃者はシステム内のハードウェア特性を利用して、画像を操作するために電磁干渉を注入することができる。 このような攻撃は、捕獲されたシーンに関するノイズや不完全な情報を引き起こし、誤った検出結果をもたらし、攻撃者がシステムの重要な機能に対して悪意のある制御を許す可能性がある。 本稿では,このような攻撃が実際に行われている最先端物体検出モデルに与える影響を包括的に定量化し,解析する研究成果について述べる。 また、誤った検出結果の根底にある理由についても光を当てています。

Object detection can localize and identify objects in images, and it is extensively employed in critical multimedia applications such as security surveillance and autonomous driving. Despite the success of existing object detection models, they are often evaluated in ideal scenarios where captured images guarantee the accurate and complete representation of the detecting scenes. However, images captured by image sensors may be affected by different factors in real applications, including cyber-physical attacks. In particular, attackers can exploit hardware properties within the systems to inject electromagnetic interference so as to manipulate the images. Such attacks can cause noisy or incomplete information about the captured scene, leading to incorrect detection results, potentially granting attackers malicious control over critical functions of the systems. This paper presents a research work that comprehensively quantifies and analyzes the impacts of such attacks on state-of-the-art object detection models in practice. It also sheds light on the underlying reasons for the incorrect detection outcomes.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# ユーザ固有のメトリクスと最適スケーリングによる多次元投影品質の向上

Improving multidimensional projection quality with user-specific metrics and optimal scaling ( http://arxiv.org/abs/2407.16328v1 )

ライセンス: Link先を確認
Maniru Ibrahim, (参考訳) 高次元データの普及により、データ可視化と探索のための多次元投影技術(t-SNE, UMAP, LAMP)の開発が進められている。 しかし、従来のMPメソッドは通常、個々のユーザの好みを無視して、一般的な品質指標を使用する。 本研究では,ユーザ固有の品質基準に基づいてMPテクニックを調整し,プロジェクションの解釈性を向上する新しいフレームワークを提案する。 提案手法は, 3つの視覚的品質指標, ストレス, 近隣保存, シルエットスコアを組み合わせて, 正確なMP評価のための複合指標を作成する。 次に、合成計量値の最大化により、投影スケールを最適化する。 我々は、異なるプロジェクションの好みを持つ2人のユーザを対象に、t-SNE、UMAP、LAMPを用いてプロジェクションを生成する実験を行った。 ユーザーは基準に従って予測を評価し、2つのトレーニングセットを生成します。 各データセットに対して最適な重みを導出し、それを他のデータセットに適用して、ユーザ毎の最良のプロジェクションを決定する。 この結果から,パーソナライズされたプロジェクションがユーザの好みを効果的に把握し,より良いデータ探索を促進し,より情報的な意思決定を可能にすることが示唆された。 このユーザ中心のアプローチは、多様なユーザの嗜好を満たす多次元投影技術の進歩を促進し、解釈可能性を高める。

The growing prevalence of high-dimensional data has fostered the development of multidimensional projection (MP) techniques, such as t-SNE, UMAP, and LAMP, for data visualization and exploration. However, conventional MP methods typically employ generic quality metrics, neglecting individual user preferences. This study proposes a new framework that tailors MP techniques based on user-specific quality criteria, enhancing projection interpretability. Our approach combines three visual quality metrics, stress, neighborhood preservation, and silhouette score, to create a composite metric for a precise MP evaluation. We then optimize the projection scale by maximizing the composite metric value. We conducted an experiment involving two users with different projection preferences, generating projections using t-SNE, UMAP, and LAMP. Users rate projections according to their criteria, producing two training sets. We derive optimal weights for each set and apply them to other datasets to determine the best projections per user. Our findings demonstrate that personalized projections effectively capture user preferences, fostering better data exploration and enabling more informed decision-making. This user-centric approach promotes advancements in multidimensional projection techniques that accommodate diverse user preferences and enhance interpretability.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# PhenoFlow: 大規模で複雑なストロークデータセットを探索するヒューマンLLM駆動型ビジュアルアナリティクスシステム

PhenoFlow: A Human-LLM Driven Visual Analytics System for Exploring Large and Complex Stroke Datasets ( http://arxiv.org/abs/2407.16329v1 )

ライセンス: Link先を確認
Jaeyoung Kim, Sihyeon Lee, Hyeon Jeon, Keon-Joo Lee, Hee-Joon Bae, Bohyoung Kim, Jinwook Seo, (参考訳) 急性期脳卒中は診断と治療を急がせ、最適な結果が得られます。 しかし、脳卒中、特に血圧(BP)測定に関連する臨床データの複雑で不規則な性質は、効果的な視覚分析と意思決定にかなりの障害をもたらす。 経験豊富な神経科医との1年間のコラボレーションを通じて,ヒトと大言語モデル(LLM)の協調を利用して急性虚血性脳卒中患者の広範囲かつ複雑なデータを解析する視覚分析システムであるPhenoFlowを開発した。 PhenoFlowは革新的なワークフローを開拓し、LLMはデータラングラーとして機能し、神経学者は可視化と自然言語の相互作用を使って出力を探索し監督する。 このアプローチにより、神経学者は認知負荷を減らして意思決定に集中することができる。 センシティブな患者情報を保護するため、PhenoFlowは、生の患者データにアクセスすることなく、メタデータを使用して推論を行い、実行可能なコードを合成する。 これにより、結果が再現可能であり、患者のプライバシーを維持しながら解釈可能であることが保証される。 このシステムにはスライス・アンド・ラップのデザインが組み込まれており、時間軸の折り畳みを利用して、オーバーレイな円形の可視化が実現されている。 この設計は線形バーグラフと組み合わせて、不規則に測定されたBPデータの中で意味のあるパターンを探索するのに役立つ。 ケーススタディを通じて、PhenoFlowは、広範な臨床データセットの反復分析をサポートし、認知的負荷を低減し、神経学者が十分にインフォームドされた意思決定を可能にする能力を実証した。 本研究は,急性虚血性脳卒中患者に対するデータ駆動型臨床意思決定の課題にLLMを活用する可能性を示す。

Acute stroke demands prompt diagnosis and treatment to achieve optimal patient outcomes. However, the intricate and irregular nature of clinical data associated with acute stroke, particularly blood pressure (BP) measurements, presents substantial obstacles to effective visual analytics and decision-making. Through a year-long collaboration with experienced neurologists, we developed PhenoFlow, a visual analytics system that leverages the collaboration between human and Large Language Models (LLMs) to analyze the extensive and complex data of acute ischemic stroke patients. PhenoFlow pioneers an innovative workflow, where the LLM serves as a data wrangler while neurologists explore and supervise the output using visualizations and natural language interactions. This approach enables neurologists to focus more on decision-making with reduced cognitive load. To protect sensitive patient information, PhenoFlow only utilizes metadata to make inferences and synthesize executable codes, without accessing raw patient data. This ensures that the results are both reproducible and interpretable while maintaining patient privacy. The system incorporates a slice-and-wrap design that employs temporal folding to create an overlaid circular visualization. Combined with a linear bar graph, this design aids in exploring meaningful patterns within irregularly measured BP data. Through case studies, PhenoFlow has demonstrated its capability to support iterative analysis of extensive clinical datasets, reducing cognitive load and enabling neurologists to make well-informed decisions. Grounded in long-term collaboration with domain experts, our research demonstrates the potential of utilizing LLMs to tackle current challenges in data-driven clinical decision-making for acute ischemic stroke patients.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# モルフィング回路を用いた二変量自転車符号の接続性低下

Lowering Connectivity Requirements For Bivariate Bicycle Codes Using Morphing Circuits ( http://arxiv.org/abs/2407.16336v1 )

ライセンス: Link先を確認
Mackenzie H. Shaw, Barbara M. Terhal, (参考訳) 最近、Bravyi et al [1] は、回路レベルのエラー率を表面コードに類似させるが符号化率を向上させる小さな量子バイバーリテイト自転車 (BB) 符号のセットを提案した。 本研究では,新しいパリティチェック回路の設計原理を一般化し,この手法をBB符号に適用する。 私たちの構成では、新しい$[[144,12,12]$ "gross"コードを含む、BBコードの新しいファミリーを生成しています。 興味深いことに、各パリティチェック回路は6ラウンドのCNOTゲート(Ref. [1]より1ラウンド少ない)しか必要としない。 また, 論理入力/出力回路をモーフィング回路を用いてアシラリー回転曲面コードに対して2平面配置で実行する方法を示す。 新しいコードは少なくともRefのコードと同様に機能する。 [1] BP-OSD でデコードした場合の均一回路レベルのノイズ。 最後に、モーフィング回路を設計するための一般的なフレームワークを開発し、2ブロック群代数符号に適用可能な条件を示す。 [1] S. Bravyi, A. W. Cross, J. M. Gambetta, D. Maslov, P. Rall, T. J. Yoder, Nature 627, 778 (2024)。 [2] C. Gidney and C. Jones, New circuits and a open source decoder for the color code (2023), arXiv:2312.08813。

Recently, Bravyi et al. [1] proposed a set of small quantum Bivariate Bicycle (BB) codes that achieve a similar circuit-level error rate to the surface code but with an improved encoding rate. In this work, we generalise a novel parity-check circuit design principle that we call morphing circuits (first introduced in [2]) and apply this methodology to BB codes. Our construction generates a new family of BB codes -- including a new $[[144,12,12]]$ "gross" code -- whose parity check circuits require a qubit connectivity of degree five instead of six. Intriguingly, each parity check circuit requires only 6 rounds of CNOT gates -- one fewer than in Ref. [1] -- even though our new codes have weight-9 stabilisers. We also show how to perform logical input/output circuits to an ancillary rotated surface code using morphing circuits, all within a biplanar layout. The new codes perform at least as well as those of Ref. [1] under uniform circuit-level noise when decoded using BP-OSD. Finally, we develop a general framework for designing morphing circuits and present a sufficient condition for its applicability to two-block group algebra codes. [1] S. Bravyi, A. W. Cross, J. M. Gambetta, D. Maslov, P. Rall, and T. J. Yoder, Nature 627, 778 (2024). [2] C. Gidney and C. Jones, New circuits and an open source decoder for the color code (2023), arXiv:2312.08813.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# STATE: オンライン制御実験における可変化のための重圧測定値のロバスト時間推定器

STATE: A Robust ATE Estimator of Heavy-Tailed Metrics for Variance Reduction in Online Controlled Experiments ( http://arxiv.org/abs/2407.16337v1 )

ライセンス: Link先を確認
Hao Zhou, Kun Sun, Shaoming Li, Yangfeng Fan, Guibin Jiang, Jiaqi Zheng, Tao Li, (参考訳) オンラインのコントロールされた実験は、幅広い企業でデータ駆動による意思決定を可能にする上で重要な役割を担っている。 ばらつき低減は実験の感度を向上させるための有効な手法であり、より少ないサンプルと短い実験期間を使用しながら高い統計的パワーを達成する。 しかし、ガウス分布の直観的な仮定に基づいて、典型的な分散低減法(例えば回帰調整推定器)を構築し、重み付き分布で実ビジネスメトリクスを適切に特徴づけることができない。 さらに, 実験前の共変量と結果指標との相関を減少させ, 分散低減効果を著しく抑制する。 本稿では、学生のt分布を機械学習ツールと統合して、重み付きメトリクスに適合させ、オンライン制御実験においてロバストな平均処理効果推定器を構築し、STATEと呼ぶ新しいフレームワークを開発する。 ログ類似度関数を最適化するために変分EM法を採用することにより、アウトレーヤの負の影響を大幅に排除し、大きな分散還元を実現する頑健な解を推測できる。 さらに,STATE法をカウント指標から比尺度に拡張し,分散の低減がより複雑だが既存の研究ではあまり検討されていない不偏推定を保存する線形変換を利用する。 最後に,Meituan実験プラットフォーム上での合成データと長期実験結果のシミュレーションにより,本手法の有効性を実証した。 最先端推定器(CUPAC/MLRATE)と比較すると、STATEは50%以上のばらつき低減を実現しており、観測のわずか半分、または実験期間の半分で同じ統計力に達することが示されている。

Online controlled experiments play a crucial role in enabling data-driven decisions across a wide range of companies. Variance reduction is an effective technique to improve the sensitivity of experiments, achieving higher statistical power while using fewer samples and shorter experimental periods. However, typical variance reduction methods (e.g., regression-adjusted estimators) are built upon the intuitional assumption of Gaussian distributions and cannot properly characterize the real business metrics with heavy-tailed distributions. Furthermore, outliers diminish the correlation between pre-experiment covariates and outcome metrics, greatly limiting the effectiveness of variance reduction. In this paper, we develop a novel framework that integrates the Student's t-distribution with machine learning tools to fit heavy-tailed metrics and construct a robust average treatment effect estimator in online controlled experiments, which we call STATE. By adopting a variational EM method to optimize the loglikehood function, we can infer a robust solution that greatly eliminates the negative impact of outliers and achieves significant variance reduction. Moreover, we extend the STATE method from count metrics to ratio metrics by utilizing linear transformation that preserves unbiased estimation, whose variance reduction is more complex but less investigated in existing works. Finally, both simulations on synthetic data and long-term empirical results on Meituan experiment platform demonstrate the effectiveness of our method. Compared with the state-of-the-art estimators (CUPAC/MLRATE), STATE achieves over 50% variance reduction, indicating it can reach the same statistical power with only half of the observations, or half the experimental duration.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# 慣性・視覚センサからのモーションキャプチャ

Motion Capture from Inertial and Vision Sensors ( http://arxiv.org/abs/2407.16341v1 )

ライセンス: Link先を確認
Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Quanwei Yang, Ruoli Dai, Tao Mei, (参考訳) 人間のモーションキャプチャは多くのコンピュータビジョンとグラフィックタスクの基礎となっている。 複雑なカメラアレイや高価なウェアラブルセンサーを備えた産業用モーションキャプチャシステムは、映画やゲーム制作に広く採用されているが、個人用アプリケーションのための、消費者が手軽で使いやすいソリューションはまだ成熟していない。 単眼カメラと慣性測定装置(IMU)の混合物を日常の正確なマルチモーダルモーションキャプチャーに利用するために,INertial と visION Sensors から収集した大規模モーションキャプチャーデータセット MINIONS をコントリビュートする。 MINIONSにはいくつかの特徴がある。 1)500万フレーム以上400分間の大規模なスケール。 2) 関節位置, 関節回転, SMPLパラメータ等をラベル付けしたIMU信号とRGBビデオのマルチモーダルデータ。 ; 3) テキスト記述を用いた細粒度146の対話的アクションの多種多様なセット。 提案したMINIONSを用いて,マルチモーダルモーションキャプチャの実験を行い,モノクラーカメラと極めて少ないIMUを用いたコンシューマー向けモーションキャプチャの可能性を探る。 実験結果は、慣性・視覚センサーの独特な利点を強調し、消費者が使用可能なマルチモーダルモーションキャプチャーの可能性を示し、さらなる研究と開発のための貴重な資源を提供する。

Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS, we conduct experiments on multi-modal motion capture and explore the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# フラックス量子ビットを用いたcQEDの純粋動的インダクタンス結合

Pure kinetic inductance coupling for cQED with flux qubits ( http://arxiv.org/abs/2407.16342v1 )

ライセンス: Link先を確認
Simon Geisert, Soeren Ihssen, Patrick Winkel, Martin Spiecker, Mathieu Fechant, Patrick Paluch, Nicolas Gosling, Nicolas Zapata, Simon Günzler, Dennis Rieger, Denis Bénâtre, Thomas Reisinger, Wolfgang Wernsdorfer, Ioan M. Pop, (参考訳) 分散結合は, 運動的インダクタンスによって完全に媒介される, qubit-readoutアーキテクチャを実証する。 これにより、キュービットと共振器のキャパシタンスに依存しない読み出し共振器の分散シフトを設計できる。 純粋運動的カップリングの概念を検証し、プラズモンからフラックスロンまでの様々な一般化されたフラックス量子ビット状態を示し、半流動量子甘味点における60kHzから2MHzの分散シフトを示す。 量子状態形成率99.7%、励起状態92.7%、非計算状態へのリーク率0.1%以下である従来のアーキテクチャに匹敵する読み出し性能を実現する。

We demonstrate a qubit-readout architecture where the dispersive coupling is entirely mediated by a kinetic inductance. This allows us to engineer the dispersive shift of the readout resonator independent of the qubit and resonator capacitances. We validate the pure kinetic coupling concept and demonstrate various generalized flux qubit regimes from plasmon to fluxon, with dispersive shifts ranging from 60 kHz to 2 MHz at the half-flux quantum sweet spot. We achieve readout performances comparable to conventional architectures with quantum state preparation fidelities of 99.7 % and 92.7 % for the ground and excited states, respectively, and below 0.1 % leakage to non-computational states.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# SOAP: アクション認識のための時空間関係と動き情報キャプチャの強化

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition ( http://arxiv.org/abs/2407.16344v1 )

ライセンス: Link先を確認
Wenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang, Lei Zhang, (参考訳) 高フレームレート(HFR)ビデオは、時空間関係と動き情報密度を低減しつつ、きめ細かな表現を改善する。 したがって、従来のデータ駆動トレーニングには大量のビデオサンプルが継続的に必要である。 しかし、実世界のシナリオではサンプルが必ずしも十分ではないため、FSAR ( few-shot Action Recognition) 研究が促進される。 近年のFSAR研究は、空間的特徴抽出後の時間的アライメントにより、サンプル内の空間的特徴と時間的特徴を分割し、ビデオサンプルの時空間的関係を構築する。 また、密度を考慮せずに隣接するフレーム間の狭い視点で動き情報をキャプチャし、動き情報のキャプチャが不十分になる。 そこで,本稿ではspatio-tempOral frAme tuPle enhancer (SOAP)と呼ばれるFSAR用の新しいプラグイン・アンド・プレイアーキテクチャを提案する。 このようなアーキテクチャで設計したモデルは、SOAP-Netを指しています。 特徴チャネル間の時間的接続と特徴の時空間的関係は,単純な特徴抽出ではなく考慮される。 また、隣接するフレームよりも多くの動き情報を含む複数のフレームを持つフレームタプルを用いて、総合的な動き情報もキャプチャする。 様々なフレーム数のフレームタプルを組み合わせることで、より広い視点が得られる。 SOAP-Netは、SthSthV2、Kinetics、UCF101、HMDB51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成している。 大規模な経験的評価は、SOAPの競争力、プラガビリティ、一般化、堅牢性を強調します。 コードはhttps://github.com/wenbohuang1002/SOAPで公開されている。

High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# 1つの補助量子ビットを持つポテンシャルに対する近似リアルタイム進化作用素と第一量子化ハミルトンシミュレーションへの応用

Approximate real-time evolution operator for potential with one ancillary qubit and application to first-quantized Hamiltonian simulation ( http://arxiv.org/abs/2407.16345v1 )

ライセンス: Link先を確認
Xinchi Huang, Taichi Kosugi, Hirofumi Nishi, Yu-ichiro Matsushita, (参考訳) 本稿では,そのエントリが既知の実関数に従うユニタリ対角行列によって生成される実時間進化演算子を実装する手法を比較する。 ユニタリ対角行列のサイズが小さいとき、ウォルシュ作用素に基づくよく知られた手法は、良く正確な実装を与える。 対照的に、量子ビットの数が増加するにつれて、精度は指数関数的に増加する資源を使い、適切な近似関数に基づいた効率的な実装が必要である。 関数の分数次多項式近似を用いて、異なる多項式次数でメソッドを要約する。 さらに,エラーバウンダリとグリッドパラメータ(キュービット数)に関する異なる手法に対して,ゲートカウントのオーバーヘッドを求める。 これにより、基礎となる関数、エラーバウンド、グリッドパラメータが与えられる限り、比較的優れたメソッドを解析的に見つけることができる。 本研究は、多くの量子アルゴリズム/サブルーチンにおいて重要な役割を果たす位相因子における既知の関数の符号化の問題に寄与する。 特に、第1量子化ハミルトンシミュレーションにおけるポテンシャル部分に対する実時間発展演算子の実装に適用し、誤差境界に関する資源(ゲート数とアシラリーキュービット)を推定することにより、ポテンシャル関数の近似から生じる誤差がトロッター・鈴木公式の誤差と比べて無視できないことを示す。

In this article, we compare the methods implementing the real-time evolution operator generated by a unitary diagonal matrix where its entries obey a known underlying real function. When the size of the unitary diagonal matrix is small, a well-known method based on Walsh operators gives a good and precise implementation. In contrast, as the number of qubits grows, the precise one uses exponentially increasing resources, and we need an efficient implementation based on suitable approximate functions. Using piecewise polynomial approximation of the function, we summarize the methods with different polynomial degrees. Moreover, we obtain the overheads of gate count for different methods concerning the error bound and grid parameter (number of qubits). This enables us to analytically find a relatively good method as long as the underlying function, the error bound, and the grid parameter are given. This study contributes to the problem of encoding a known function in the phase factor, which plays a crucial role in many quantum algorithms/subroutines. In particular, we apply our methods to implement the real-time evolution operator for the potential part in the first-quantized Hamiltonian simulation and estimate the resources (gate count and ancillary qubits) regarding the error bound, which indicates that the error coming from the approximation of the potential function is not negligible compared to the error from the Trotter-Suzuki formula.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# ネスト距離を用いたデータ駆動多段分布ロバスト線形最適化

Data-driven Multistage Distributionally Robust Linear Optimization with Nested Distance ( http://arxiv.org/abs/2407.16346v1 )

ライセンス: Link先を確認
Rui Gao, Rohit Arora, Yizhe Huang, (参考訳) 本研究では,複数段階の分布性のある線形最適化について検討し,不確実性集合をネスト距離を用いてシナリオツリーを中心とする分布の球として定義する。 結果として生じるミニマックス問題は、その固有の非凸性のために解決が難しいことで知られている。 本稿では、軽度条件下では、与えられたポリシーの頑健なリスク評価を等価な再帰形式で表現できることを実証する。 さらに、段階的に独立を仮定すると、等価な動的プログラミング改革を導出し、未確認のサンプルパスに時間一貫性があり、適切に定義された最適なロバストなポリシーを見出す。 我々は,多段階静電定式化 (入れ子距離) と多段階動的定式化 (一周期ワッサーシュタイン距離) の2つのモデリング枠組みを整理する。 さらに、凸最適化手法を用いて、値関数を効率的に計算できる場合の抽出可能なケースを同定する。

We study multistage distributionally robust linear optimization, where the uncertainty set is defined as a ball of distribution centered at a scenario tree using the nested distance. The resulting minimax problem is notoriously difficult to solve due to its inherent non-convexity. In this paper, we demonstrate that, under mild conditions, the robust risk evaluation of a given policy can be expressed in an equivalent recursive form. Furthermore, assuming stagewise independence, we derive equivalent dynamic programming reformulations to find an optimal robust policy that is time-consistent and well-defined on unseen sample paths. Our reformulations reconcile two modeling frameworks: the multistage-static formulation (with nested distance) and the multistage-dynamic formulation (with one-period Wasserstein distance). Moreover, we identify tractable cases when the value functions can be computed efficiently using convex optimization techniques.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# FACTTRACK: ストーリーの概要をタイムアウェアで追跡する

FACTTRACK: Time-Aware World State Tracking in Story Outlines ( http://arxiv.org/abs/2407.16347v1 )

ライセンス: Link先を確認
Zhiheng Lyu, Kevin Yang, Lingpeng Kong, Daniel Klein, (参考訳) 言語モデル出力における事実の矛盾を正確に検出し、修正することは、その能力が向上するにつれてますます重要になっているが、それを行うのは非常に難しい。 本稿では,原子の事実を追跡し,矛盾に対処するための新しい手法FACTTRACKを提案する。 重要なことに、FACTTRACKは各事実に対する時間認識の妥当性間隔も維持しており、時間とともに変更が可能である。 高いレベルでは、FACTTRACKは、(1)イベントを方向性原子事実に分解し、(2)世界状態を用いて各原子事実の妥当性間隔を決定する、(3)世界状態における既存の事実との矛盾を検出する、(4)世界状態に新しい事実を追加し、既存の原子事実を更新する、4段階のパイプラインから構成される。 構造化ストーリーアウトラインにおける矛盾検出にFACTTRACKを適用すると、LLaMA2-7B-Chatを用いたFACTTRACKは、LLaMA2-7B-Chatを用いたフェアベースラインを大幅に上回り、GPT4ベースラインに匹敵する性能を実現する。 さらに、GPT4を使用する場合、FACTTRACKはGPT4ベースラインを著しく上回る。

While accurately detecting and correcting factual contradictions in language model outputs has become increasingly important as their capabilities improve, doing so is highly challenging. We propose a novel method, FACTTRACK, for tracking atomic facts and addressing factual contradictions. Crucially, FACTTRACK also maintains time-aware validity intervals for each fact, allowing for change over time. At a high level, FACTTRACK consists of a four-step pipeline to update a world state data structure for each new event: (1) decompose the event into directional atomic facts; (2) determine the validity interval of each atomic fact using the world state; (3) detect contradictions with existing facts in the world state; and finally (4) add new facts to the world state and update existing atomic facts. When we apply FACTTRACK to contradiction detection on structured story outlines, we find that FACTTRACK using LLaMA2-7B-Chat substantially outperforms a fair baseline using LLaMA2-7B-Chat, and achieves performance comparable to a GPT4 baseline. Moreover, when using GPT4, FACTTRACK significantly outperforms the GPT4 baseline.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# Strike a Balance in Continual Panoptic Segmentation (特集 バイオサイバネティックスとバイオサイバネティックス)

Strike a Balance in Continual Panoptic Segmentation ( http://arxiv.org/abs/2407.16354v1 )

ライセンス: Link先を確認
Jinpeng Chen, Runmin Cong, Yuxuan Luo, Horace Ho Shing Ip, Sam Kwong, (参考訳) 本研究は,3つの重要なバランスを浮き彫りにして,連続的な汎視的セグメンテーションの出現領域を探求する。 まず,既存の知識の安定性と新しい情報への適応性のバランスをとるため,過去クラスのバックトレース蒸留を導入する。 本手法は, 最終ラベル割り当て結果に基づいて過去のクラスに関連する特徴を反映し, 従来のモデルからこれらの特徴をターゲットとした知識蒸留を行い, その他の特徴を柔軟に新しい情報に適応させる。 さらに,リプレイ用サンプルセットのクラス分布と過去のトレーニングデータとを整合させるクラス比記憶戦略を導入する。 この戦略は、リプレイ中にバランスの取れたクラス表現を維持し、前のクラスをリコールする際の制限容量リプレイのサンプルセットの有用性を高める。 さらに,リプレイサンプルが本来の段階のクラスにのみアノテートされていることを認識し,不完全アノテーションの影響に対処するバランスの取れた反ミスギダンス損失を考案した。 これらのイノベーションを基盤として,BalConpas(BalConpas)と呼ばれる新しい手法を提案する。 ADE20Kデータセットの課題に対する評価は、既存の最先端手法と比較して優れた性能を示している。 公式コードはhttps://github.com/jinpeng0528/BalConpas.comで入手できる。

This study explores the emerging area of continual panoptic segmentation, highlighting three key balances. First, we introduce past-class backtrace distillation to balance the stability of existing knowledge with the adaptability to new information. This technique retraces the features associated with past classes based on the final label assignment results, performing knowledge distillation targeting these specific features from the previous model while allowing other features to flexibly adapt to new information. Additionally, we introduce a class-proportional memory strategy, which aligns the class distribution in the replay sample set with that of the historical training data. This strategy maintains a balanced class representation during replay, enhancing the utility of the limited-capacity replay sample set in recalling prior classes. Moreover, recognizing that replay samples are annotated only for the classes of their original step, we devise balanced anti-misguidance losses, which combat the impact of incomplete annotations without incurring classification bias. Building upon these innovations, we present a new method named Balanced Continual Panoptic Segmentation (BalConpas). Our evaluation on the challenging ADE20K dataset demonstrates its superior performance compared to existing state-of-the-art methods. The official code is available at https://github.com/jinpeng0528/BalConpas.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# サブ線形Best-Action Queriesを用いたオンライン学習

Online Learning with Sublinear Best-Action Queries ( http://arxiv.org/abs/2407.16355v1 )

ライセンス: Link先を確認
Matteo Russo, Andrea Celli, Riccardo Colini Baldeschi, Federico Fusco, Daniel Haimovich, Dima Karamshuk, Stefano Leonardi, Niek Tax, (参考訳) オンライン学習において、意思決定者は一連の行動の1つを繰り返し選択し、全体の損失を最小限にすることを目的としている。 新たな予測機能を備えたアルゴリズムに関する最近の研究の行に続いて、意思決定者が選択すべき行動に関する追加情報を取得することによって、この問題を再考する。 特に,与えられた時間ステップにおける最善の行動の識別を事前に示す「emph{best-action query}」のパワーについて検討する。 実際には、予測機能は高価である可能性があるため、意思決定者はそのようなクエリを少なくとも$kで発行することができる。 異なるタイプのフィードバックモデルに対して、$k$のベストアクションクエリが与えられたとき、任意のアルゴリズムが達成できるパフォーマンスに厳密な境界を確立する。 特に、完全なフィードバックモデルでは、$k$クエリは$\Theta\left(\min\left\{\sqrt T, \frac Tk\right\}\right)$の最適後悔を達成するのに十分であることを示す。 この発見は、モデスト(サブリニア)番号$k \in \Omega(\sqrt{T})$でさえも達成可能な後悔率において、大きな乗法的優位性を浮き彫りにしている。 さらに、$k$のベストアクションクエリに対応する時間ステップでのみ利用可能なフィードバックを得るという難易度設定についても検討する。 ここでは、$\Theta\left(\min\left\{\frac{T}{\sqrt k},\frac{T^2}{k^2}\right\right)$の厳密な後悔率を提供し、標準の$\Theta\left(\frac{T}{\sqrt k}\right)$ $k \in \Omega(T^{2/3})$に対するラベル効率予測の後悔率を改善する。

In online learning, a decision maker repeatedly selects one of a set of actions, with the goal of minimizing the overall loss incurred. Following the recent line of research on algorithms endowed with additional predictive features, we revisit this problem by allowing the decision maker to acquire additional information on the actions to be selected. In particular, we study the power of \emph{best-action queries}, which reveal beforehand the identity of the best action at a given time step. In practice, predictive features may be expensive, so we allow the decision maker to issue at most $k$ such queries. We establish tight bounds on the performance any algorithm can achieve when given access to $k$ best-action queries for different types of feedback models. In particular, we prove that in the full feedback model, $k$ queries are enough to achieve an optimal regret of $\Theta\left(\min\left\{\sqrt T, \frac Tk\right\}\right)$. This finding highlights the significant multiplicative advantage in the regret rate achievable with even a modest (sublinear) number $k \in \Omega(\sqrt{T})$ of queries. Additionally, we study the challenging setting in which the only available feedback is obtained during the time steps corresponding to the $k$ best-action queries. There, we provide a tight regret rate of $\Theta\left(\min\left\{\frac{T}{\sqrt k},\frac{T^2}{k^2}\right\}\right)$, which improves over the standard $\Theta\left(\frac{T}{\sqrt k}\right)$ regret rate for label efficient prediction for $k \in \Omega(T^{2/3})$.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# 高次元光子-光子量子ゲート

Heralded High-Dimensional Photon-Photon Quantum Gate ( http://arxiv.org/abs/2407.16356v1 )

ライセンス: Link先を確認
Zhi-Feng Liu, Zhi-Cheng Ren, Pei Wan, Wen-Zheng Zhu, Zi-Mo Cheng, Jing Wang, Yu-Peng Shi, Han-Bing Xi, Marcus Huber, Nicolai Friis, Xiaoqin Gao, Xi-Lin Wang, Hui-Tian Wang, (参考訳) 量子情報の高次元符号化は、固定レジスタサイズのアクセス可能な状態空間を拡大し、必要なエンタングゲートの数を減らすことで、既存の装置の計算能力を大幅に向上させる可能性を秘めている。 しかし、Quditベースの量子計算は、従来の量子ビットベースのアプローチ、特に量子ネットワークの発展において重要な役割を果たす自然なマルチレベル情報キャリアを表す光子よりも、はるかに発展していない。 2つの個々の光子間の量子ゲートを実現するための大きな障害は、線形媒体における光子間の直接相互作用の制限である。 特に、ネイティブなqudit-quditエンタングゲートのような量子演算に必要なロジックコンポーネントは、光学量子情報処理にはまだ欠けている。 ここでは、任意の次元の2つのフォトニックキューディットに対してエンタングゲート(制御位相フリップ(CPF)ゲート)を実現するためのプロトコルを提示することで、この問題に対処する。 我々は,少なくとも13個の2量子エンタングゲートを必要とする4次元のqudit-qudit CPFゲートを実現することにより,このプロトコルを実験的に実証した。 我々は軌道角運動量 (OAM) を符号化し, CPFゲートの安定性を向上する高次元OAMビームスプリッタを構築するための新しい能動位相同期技術を開発し, プロセス忠実度を[0.64 \pm 0.01, 0.82 \pm 0.01]$に設定した。 我々の実験は、高次元光量子情報処理の大きな進歩を示し、光学系以外の幅広い応用の可能性を持っている。

High-dimensional encoding of quantum information holds the potential to greatly increase the computational power of existing devices by enlarging the accessible state space for fixed register size and by reducing the number of required entangling gates. However, qudit-based quantum computation remains far less developed than conventional qubit-based approaches, in particular for photons, which represent natural multi-level information carriers that play a crucial role in the development of quantum networks. A major obstacle for realizing quantum gates between two individual photons is the restriction of direct interaction between photons in linear media. In particular, essential logic components for quantum operations such as native qudit-qudit entangling gates are still missing for optical quantum information processing. Here we address this challenge by presenting a protocol for realizing an entangling gate -- the controlled phase-flip (CPF) gate -- for two photonic qudits in arbitrary dimension. We experimentally demonstrate this protocol by realizing a four-dimensional qudit-qudit CPF gate, whose decomposition would require at least 13 two-qubit entangling gates. Our photonic qudits are encoded in orbital angular momentum (OAM) and we have developed a new active high-precision phase-locking technology to construct a high-dimensional OAM beam splitter that increases the stability of the CPF gate, resulting in a process fidelity within a range of $ [0.64 \pm 0.01, 0.82 \pm 0.01]$. Our experiment represents a significant advance for high-dimensional optical quantum information processing and has the potential for wider applications beyond optical system.
翻訳日:2024-07-24 17:45:51 公開日:2024-07-23
# TWIN V2: Kuaishouにおける拡張CTR予測のための超長期ユーザ行動系列のスケーリング

TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou ( http://arxiv.org/abs/2407.16357v1 )

ライセンス: Link先を確認
Zihua Si, Lin Guan, ZhongXiang Sun, Xiaoxue Zang, Jing Lu, Yiqun Hui, Xingchao Cao, Zeyu Yang, Yichen Zheng, Dewei Leng, Kai Zheng, Chenbin Zhang, Yanan Niu, Yang Song, Kun Gai, (参考訳) 大規模レコメンデーションシステムにおけるCTR予測タスクに対する長期的ユーザの関心をモデル化することの重要性は、研究者や実践者の間で徐々に注目されている。 SIMやTWINといった既存の作業は、通常、効率の懸念のために長期的なユーザ行動シーケンスをモデル化するための2段階のアプローチを採用している。 第1のステージは、検索ベース機構であるジェネラルサーチユニット(GSU)を用いて、ターゲット項目に関連するシーケンスのサブセットを長いシーケンスから迅速に検索し、第2のステージは、検索した結果に基づいてExact Search Unit(ESU)を用いて利息スコアを算出する。 ライフサイクル全体にわたる広範囲のユーザ行動シーケンスが,最大10^6の規模に達する可能性があることから,このような拡張性のあるユーザ関心をモデル化するための効果的なソリューションは現在存在しない。 この問題を解決するため、我々はTWIN-V2を導入した。これはTWINの強化であり、ライフサイクルの振る舞いを圧縮し、より正確で多様なユーザの興味を明らかにするために分割対コンカレントアプローチを適用している。 特に、階層的クラスタリング手法は、オフラインフェーズ中にライフサイクルの挙動に類似した特徴を持つアイテムを単一のクラスタにグループ化する。 クラスタのサイズを制限することにより、GSU検索におけるオンライン推論に適した長さに10^5以上の振る舞い列を圧縮することができる。 クラスタ・アウェア・ターゲット・アテンションは、ユーザの包括的かつ多面的な長期的関心を抽出し、最終的な推奨結果をより正確かつ多種多様にする。 マルチビリオン規模の産業データセットとオンラインA/Bテストによる大規模なオフライン実験は、TWIN-V2の有効性を実証した。 効率的なデプロイメントフレームワークの下では、TWIN-V2が主要なトラフィックにデプロイされ、Kuaishouでは毎日数億人のアクティブユーザを提供する。

The significance of modeling long-term user interests for CTR prediction tasks in large-scale recommendation systems is progressively gaining attention among researchers and practitioners. Existing work, such as SIM and TWIN, typically employs a two-stage approach to model long-term user behavior sequences for efficiency concerns. The first stage rapidly retrieves a subset of sequences related to the target item from a long sequence using a search-based mechanism namely the General Search Unit (GSU), while the second stage calculates the interest scores using the Exact Search Unit (ESU) on the retrieved results. Given the extensive length of user behavior sequences spanning the entire life cycle, potentially reaching up to 10^6 in scale, there is currently no effective solution for fully modeling such expansive user interests. To overcome this issue, we introduced TWIN-V2, an enhancement of TWIN, where a divide-and-conquer approach is applied to compress life-cycle behaviors and uncover more accurate and diverse user interests. Specifically, a hierarchical clustering method groups items with similar characteristics in life-cycle behaviors into a single cluster during the offline phase. By limiting the size of clusters, we can compress behavior sequences well beyond the magnitude of 10^5 to a length manageable for online inference in GSU retrieval. Cluster-aware target attention extracts comprehensive and multi-faceted long-term interests of users, thereby making the final recommendation results more accurate and diverse. Extensive offline experiments on a multi-billion-scale industrial dataset and online A/B tests have demonstrated the effectiveness of TWIN-V2. Under an efficient deployment framework, TWIN-V2 has been successfully deployed to the primary traffic that serves hundreds of millions of daily active users at Kuaishou.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# ロボットアシスタントの倫理的倫理

Virtue Ethics For Ethically Tunable Robotic Assistants ( http://arxiv.org/abs/2407.16361v1 )

ライセンス: Link先を確認
Rajitha Ramanayake, Vivek Nallur, (参考訳) 一般的なコンセンサスでは、ロボットは人間と一緒に働くか、または人間に奉仕するように設計され、運用環境の倫理的基準に従わなければならない。 これを実現するために、確立された倫理理論に基づくいくつかの方法が提案されている。 それにもかかわらず、多くの実証的研究により、現実世界の倫理的要求は非常に多様であり、地域によって急速に変化する可能性があることが示されている。 これにより、あらゆる倫理的文脈に適合する普遍的なロボットという概念は排除される。 しかしながら、既存のテクニックを使用して、デプロイメント毎にカスタマイズされたロボットを作成することは難しい。 本稿では,ロボットの文字によるチューニングを環境の特定の倫理的ニーズに適応させる,美徳倫理にインスパイアされた計算手法を導入することで,この課題を克服する方法を提案する。 シミュレーションした介護環境を用いて,環境支援型環境下で高齢者と対話するロボットの動作を,チューニングがどのように変化させるかを説明する。 さらに、倫理学者に相談してロボットの反応を評価し、潜在的な欠点を特定する。

The common consensus is that robots designed to work alongside or serve humans must adhere to the ethical standards of their operational environment. To achieve this, several methods based on established ethical theories have been suggested. Nonetheless, numerous empirical studies show that the ethical requirements of the real world are very diverse and can change rapidly from region to region. This eliminates the idea of a universal robot that can fit into any ethical context. However, creating customised robots for each deployment, using existing techniques is challenging. This paper presents a way to overcome this challenge by introducing a virtue ethics inspired computational method that enables character-based tuning of robots to accommodate the specific ethical needs of an environment. Using a simulated elder-care environment, we illustrate how tuning can be used to change the behaviour of a robot that interacts with an elderly resident in an ambient-assisted environment. Further, we assess the robot's responses by consulting ethicists to identify potential shortcomings.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 自律的エージェントを用いた看護:リスクと倫理的考察

Nudging Using Autonomous Agents: Risks and Ethical Considerations ( http://arxiv.org/abs/2407.16362v1 )

ライセンス: Link先を確認
Vivek Nallur, Karen Renaud, Aleksei Gudkov, (参考訳) 本稿は, ナッジング, 自律エージェントの利用, 潜在的なリスク, 倫理的考察を, システム構築の過程で簡潔に論じる。 あらゆる状況を導く規範的アプローチではなく,リスク駆動型質問・回答アプローチを提案する。 本稿は,本手法が有意な意図,予測可能なリスク,緩和を透明化する実用的手法である,という立場を取る。 AIと自律エージェントの能力の不確実性を考えると、そのような実用的手法は、ドメインや技術の柔軟性を犠牲にすることなく、少なくとも安全な経路を提供すると信じています。

This position paper briefly discusses nudging, its use by autonomous agents, potential risks and ethical considerations while creating such systems. Instead of taking a normative approach, which guides all situations, the paper proposes a risk-driven questions-and-answer approach. The paper takes the position that this is a pragmatic method, that is transparent about beneficial intentions, foreseeable risks, and mitigations. Given the uncertainty in AI and autonomous agent capabilities, we believe that such pragmatic methods offer a plausibly safe path, without sacrificing flexibility in domain and technology.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 偏微分方程式を解くラグランジュ多項式符号化に基づく新しい変分量子アルゴリズム

A New Variational Quantum Algorithm Based on Lagrange Polynomial Encoding to Solve Partial Differential Equations ( http://arxiv.org/abs/2407.16363v1 )

ライセンス: Link先を確認
Josephine Hunout, Sylvain Laizet, Lorenzo Iannucci, (参考訳) 部分微分方程式 (Partial Differential Equations, PDE) は、構造工学、流体力学、金融モデリングといった様々な分野のコアを織り込んだ幅広い科学的取り組みの基盤となる。 PDEは複雑な性質のため解決が難しいことで知られており、PDEに対する解決策を見つけることは、しばしば従来の計算手法の能力を超える。 量子コンピューティングの最近の進歩は、PDEを解く量子アルゴリズムの設計に対する研究者の関心が高まりつつある。 本研究では,新しい変分量子アルゴリズム (VQA) とラグランジュ多項式を用いた2つの異なるアーキテクチャを導入し,Adamardテスト微分法を用いてPDEの解を近似する。 新しいVQAの可能性を示すために、与えられた初期値からの減衰質量ばね系と周期的、ディリクレ、ノイマン境界条件に対するポアソン方程式の2つのよく知られたPDEを用いる。 提案した新しいVQAは, 従来の変分量子アルゴリズムと比較してゲートの複雑さが小さくなり, 解の類似性や品質が向上することが示されている。

Partial Differential Equations (PDEs) serve as the cornerstone for a wide range of scientific endeavours, their solutions weaving through the core of diverse fields such as structural engineering, fluid dynamics, and financial modelling. PDEs are notoriously hard to solve, due to their the intricate nature, and finding solutions to PDEs often exceeds the capabilities of traditional computational approaches. Recent advances in quantum computing have triggered a growing interest from researchers for the design of quantum algorithms for solving PDEs. In this work, we introduce two different architectures of a novel variational quantum algorithm (VQA) with Lagrange polynomial encoding in combination with derivative quantum circuits using the Hadamard test differentiation to approximate the solution of PDEs. To demonstrate the potential of our new VQA, two well-known PDEs are used: the damped mass-spring system from a given initial value and the Poisson equation for periodic, Dirichlet and Neumann boundary conditions. It is shown that the proposed new VQA has a reduced gate complexity compared to previous variational quantum algorithms, for a similar or better quality of the solution.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 視覚テキストの理解と生成の調和

Harmonizing Visual Text Comprehension and Generation ( http://arxiv.org/abs/2407.16364v1 )

ライセンス: Link先を確認
Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie, (参考訳) 本研究では,視覚テキストの理解と生成に熟練した,統一的で汎用的な多モード生成モデルであるTextHarmonyを提案する。 画像とテキストを同時に生成すると、視覚と言語モダリティの固有の矛盾により、パフォーマンスが劣化する。 この課題を克服するため、既存のアプローチでは、個別のモデルインスタンスを必要とする、教師付き微調整のためのモダリティ固有のデータを活用している。 マルチモーダル生成空間を部分的に分離し,モダリティ特化およびモダリティ非依存のLoRAエキスパートを動的に集約するSlide-LoRAを提案する。 Slide-LoRAは特異モデルインスタンス内の視覚と言語の生成を調和させ、より統一された生成プロセスを促進する。 さらに,高品質な画像キャプションデータセットであるDetailedTextCaps-100Kを開発した。 様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。 Slide-LoRAにインスパイアされたTextHarmonyは、パラメータがわずか2%増加し、ビジュアルテキスト理解タスクが2.5%、ビジュアルテキスト生成タスクが4.0%改善した。 本研究は,視覚テキスト領域におけるマルチモーダル生成への統合的アプローチの実現可能性について述べる。

In this work, we present TextHarmony, a unified and versatile multimodal generative model proficient in comprehending and generating visual text. Simultaneously generating images and texts typically results in performance degradation due to the inherent inconsistency between vision and language modalities. To overcome this challenge, existing approaches resort to modality-specific data for supervised fine-tuning, necessitating distinct model instances. We propose Slide-LoRA, which dynamically aggregates modality-specific and modality-agnostic LoRA experts, partially decoupling the multimodal generation space. Slide-LoRA harmonizes the generation of vision and language within a singular model instance, thereby facilitating a more unified generative process. Additionally, we develop a high-quality image caption dataset, DetailedTextCaps-100K, synthesized with a sophisticated closed-source MLLM to enhance visual text generation capabilities further. Comprehensive experiments across various benchmarks demonstrate the effectiveness of the proposed approach. Empowered by Slide-LoRA, TextHarmony achieves comparable performance to modality-specific fine-tuning results with only a 2% increase in parameters and shows an average improvement of 2.5% in visual text comprehension tasks and 4.0% in visual text generation tasks. Our work delineates the viability of an integrated approach to multimodal generation within the visual text domain, setting a foundation for subsequent inquiries.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# マルチパーティ量子システムにおける相互作用情報と量子相互情報の家族

Interaction Information and Family of Quantum Mutual Informations in Multiparty Quantum Systems ( http://arxiv.org/abs/2407.16365v1 )

ライセンス: Link先を確認
Asutosh Kumar, (参考訳) マルチパーティシステムで情報を特徴付けることは非常に重要だが、面倒だ。 我々は条件付き相互情報の概念をマルチパーティシステムに拡張し、真のマルチパーティ量子相互情報のファミリーを導入する。 この文献で知られている多党間の量子相互情報の2つのバージョンは、このファミリーの一部である。 また、量子暗号に有用な秘密のモノトンを推測する。 我々は解釈を与え、それらの性質といくつかの未解決問題について議論する。

Characterizing information in a multiparty system is crucial but cumbersome. We extend the notion of conditional mutual information to multiparty systems and introduce a family of genuinely multiparty quantum mutual information. The two versions of multiparty quantum mutual information known in the literature are part of this family. We also conjecture them to qualify for secrecy monotones useful in quantum cryptography. We give interpretations and discuss their properties and some unresolved issues.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 医用画像セグメンテーションにおけるナビゲーションの不確かさ

Navigating Uncertainty in Medical Image Segmentation ( http://arxiv.org/abs/2407.16367v1 )

ライセンス: Link先を確認
Kilian Zepf, Jes Frellsen, Aasa Feragen, (参考訳) 医用画像における不確実なセグメンテーション法の選択と評価に対処し,本研究は前立腺のセグメンテーションと肺病変セグメンテーションの2つのケーススタディである。 本研究は, 動脈およびてんかんの成分を組み込んだ不確実なセグメンテーションモデルを正確に選択し, 開発するためのガイドラインを導いた。 これらのガイドラインは、研究者や実践者が不確実なセグメンテーション手法を開発し、選択し、評価することを支援するために設計されており、これにより、実際にセグメンテーションの不確実性の採用と効果的な適用が促進される。

We address the selection and evaluation of uncertain segmentation methods in medical imaging and present two case studies: prostate segmentation, illustrating that for minimal annotator variation simple deterministic models can suffice, and lung lesion segmentation, highlighting the limitations of the Generalized Energy Distance (GED) in model selection. Our findings lead to guidelines for accurately choosing and developing uncertain segmentation models, that integrate aleatoric and epistemic components. These guidelines are designed to aid researchers and practitioners in better developing, selecting, and evaluating uncertain segmentation methods, thereby facilitating enhanced adoption and effective application of segmentation uncertainty in practice.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 深部強化学習による任意量子状態の準備

Arbitrary quantum states preparation aided by deep reinforcement learning ( http://arxiv.org/abs/2407.16368v1 )

ライセンス: Link先を確認
Zhao-Wei Wang, Zhao-Ming Wang, (参考訳) 量子状態の生成は、量子情報処理の領域において不可欠であり、効率的な方法論の開発は、量子資源の歪みを著しく緩和することができる。 深部強化学習 (DRL) の枠組みの中で, 2つの任意の量子状態間の制御軌道設計を実現するために, 初期および目標状態情報を状態準備タスクに統合する。 半導体二重量子ドット (DQD) モデルを用いて, 結果として得られる制御トラジェクトリは, 1量子ビットと2量子ビットの双方に対して, それぞれ0.9868と0.9556と, 任意の量子状態準備 (AQSP) を効果的に達成できることを示した。 さらに, システムの周囲の騒音と制御軌道は, 電荷や核騒音に対して高い頑健性を示す。 本研究は,QSPにおけるDRLの有効性を裏付けるだけでなく,複数初期状態と多目的状態の量子制御タスクに対する新しいソリューションを提供し,より広範な量子制御問題に拡張されることが期待されている。

The preparation of quantum states is essential in the realm of quantum information processing, and the development of efficient methodologies can significantly alleviate the strain on quantum resources. Within the framework of deep reinforcement learning (DRL), we integrate the initial and the target state information within the state preparation task together, so as to realize the control trajectory design between two arbitrary quantum states. Utilizing a semiconductor double quantum dots (DQDs) model, our results demonstrate that the resulting control trajectories can effectively achieve arbitrary quantum state preparation (AQSP) for both single-qubit and two-qubit systems, with average fidelities of 0.9868 and 0.9556 for the test sets, respectively. Furthermore, we consider the noise around the system and the control trajectories exhibit commendable robustness against charge and nuclear noise. Our study not only substantiates the efficacy of DRL in QSP, but also provides a new solution for quantum control tasks of multi-initial and multi-objective states, and is expected to be extended to a wider range of quantum control problems.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# FCNR: 可視化画像の高速圧縮型ニューラル表現

FCNR: Fast Compressive Neural Representation of Visualization Images ( http://arxiv.org/abs/2407.16369v1 )

ライセンス: Link先を確認
Yunfei Lu, Pengfei Gu, Chaoli Wang, (参考訳) 我々は,様々な視点と時間経過下で,何万もの可視化画像に対して高速な圧縮ニューラル表現であるFCNRを提案する。 既存のNeRVIソリューションは圧縮率が高いが、符号化と復号の速度が遅い。 FCNRはステレオ画像圧縮の最近の進歩に基づき、ステレオコンテキストモジュールとジョイントコンテキスト転送モジュールを同化して画像ペアを圧縮する。 提案手法は,高再生品質を維持しながら符号化速度と復号速度を大幅に改善し,圧縮比を満足する。 FCNRと最先端のニューラル圧縮手法(E-NeRV, HNeRV, NeRVI, ECSIC)を比較した。 ソースコードはhttps://github.com/YunfeiLu0112/FCNRで確認できる。

We present FCNR, a fast compressive neural representation for tens of thousands of visualization images under varying viewpoints and timesteps. The existing NeRVI solution, albeit enjoying a high compression ratio, incurs slow speeds in encoding and decoding. Built on the recent advances in stereo image compression, FCNR assimilates stereo context modules and joint context transfer modules to compress image pairs. Our solution significantly improves encoding and decoding speed while maintaining high reconstruction quality and satisfying compression ratio. To demonstrate its effectiveness, we compare FCNR with state-of-the-art neural compression methods, including E-NeRV, HNeRV, NeRVI, and ECSIC. The source code can be found at https://github.com/YunfeiLu0112/FCNR.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# LLMを用いたASR後誤差補正のための進化的プロンプト設計

Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction ( http://arxiv.org/abs/2407.16370v1 )

ライセンス: Link先を確認
Rithik Sachdev, Zhong-Qiu Wang, Chao-Han Huck Yang, (参考訳) 現代大規模言語モデル (LLM) の強みを生かして, 生成誤り訂正 (GEC) は, 現代の自動音声認識 (ASR) システムの性能向上に寄与する有望なパラダイムとして出現している。 1つの代表的なアプローチは、文脈内学習を利用してLSMを誘導し、慎重に設計されたプロンプトと、ASRシステムによって生成された仮説の$N$-bestリストに基づいて、より優れた仮説をLSMによって生成できるようにすることである。 しかし、既存のプロンプトがASR後の誤り訂正のタスクに最も有効なものかどうかはまだ不明である。 そこで本研究では,まず,有効プロンプトの初期セットを特定するための代替プロンプトについて検討し,初期プロンプトを改良するための進化的プロンプト最適化アルゴリズムを提案する。 SLT 2024$ GenSEC Challengeのタスク1ドルのCHiME-4サブセットの評価結果は、提案アルゴリズムの有効性と可能性を示している。

Building upon the strength of modern large language models (LLMs), generative error correction (GEC) has emerged as a promising paradigm that can elevate the performance of modern automatic speech recognition (ASR) systems. One representative approach is to leverage in-context learning to prompt LLMs so that a better hypothesis can be generated by the LLMs based on a carefully-designed prompt and an $N$-best list of hypotheses produced by ASR systems. However, it is yet unknown whether the existing prompts are the most effective ones for the task of post-ASR error correction. In this context, this paper first explores alternative prompts to identify an initial set of effective prompts, and then proposes to employ an evolutionary prompt optimization algorithm to refine the initial prompts. Evaluations results on the CHiME-4 subset of the Task $1$ of the SLT $2024$ GenSEC challenge show the effectiveness and potential of the proposed algorithms.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 大規模言語モデルとグラフニューラルネットワークを用いたタンパク質-タンパク質のランク付け

Ranking protein-protein models with large language models and graph neural networks ( http://arxiv.org/abs/2407.16375v1 )

ライセンス: Link先を確認
Xiaotong Xu, Alexandre M. J. J. Bonvin, (参考訳) タンパク質とタンパク質の相互作用(PPI)は、がん、感染症、神経変性疾患など様々な疾患と関連している。 これらのPPIに関する3次元構造情報を取得することは、それらに干渉したり、薬物設計を誘導するための基盤となる。 これらの錯体をモデル化するためには、様々な戦略が従うことができるが、それらは典型的には多数のモデルをもたらす。 このプロセスにおける挑戦的なステップは、生成されたモデルの大きなプールから良いモデル(ほぼネイティブなPPIコンフォーメーション)を特定することである。 この課題に対処するために、我々は以前、タンパク質言語モデルのパワーを利用するPPI構造のランク付けのためのグラフベースのディープラーニングアルゴリズムであるDeepRank-GNN-esmを開発した。 ここでは、例を挙げて、ソフトウェアの使用について詳述する。 DeepRank-GNN-esmはhttps://github.com/haddocking/DeepRank-GNN-esmで無料で利用できる。

Protein-protein interactions (PPIs) are associated with various diseases, including cancer, infections, and neurodegenerative disorders. Obtaining three-dimensional structural information on these PPIs serves as a foundation to interfere with those or to guide drug design. Various strategies can be followed to model those complexes, all typically resulting in a large number of models. A challenging step in this process is the identification of good models (near-native PPI conformations) from the large pool of generated models. To address this challenge, we previously developed DeepRank-GNN-esm, a graph-based deep learning algorithm for ranking modelled PPI structures harnessing the power of protein language models. Here, we detail the use of our software with examples. DeepRank-GNN-esm is freely available at https://github.com/haddocking/DeepRank-GNN-esm
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 時間変化パラメータを用いたベイズ自動回帰オンライン変化点検出

Bayesian Autoregressive Online Change-Point Detection with Time-Varying Parameters ( http://arxiv.org/abs/2407.16376v1 )

ライセンス: Link先を確認
Ioanna-Yvonni Tsaknaki, Fabrizio Lillo, Piero Mazzarisi, (参考訳) 現実世界のシステムにおける変化点は、おそらく外因性または内因性要因によって引き起こされる、システム力学における重要な状態変化を示す。 これらのポイントは、システムの時間的進化の体制を定義し、経済的、経済的、社会的、環境的、技術的文脈の変遷を理解するために不可欠である。 本研究では, リアルタイムアプリケーションに適したオンライン変化点検出手法を考案し, 多くの経験的文脈でデータによって表される一般的な時間パターンを扱えるようにした。 まず時系列を任意の順序の自己回帰過程として記述する。 第二に、データのばらつきと相関は、パラメータの値を更新して観察をよりよく適合させるスコアリングルールによって、各レギュレーション内で変化することが許される。 そして、現在の状態長の後方分布を介して、確率的枠組みにおいて変化点を検出する。 時間的依存関係と時間的パラメータをモデル化することにより、推定精度と予測能力の両方を高めることができる。 様々なデータセットを用いた実証的な検証は、メモリと動的パターンをキャプチャする手法の有効性を示し、現実世界のシステムの非定常力学に関する深い洞察を提供する。

Change points in real-world systems mark significant regime shifts in system dynamics, possibly triggered by exogenous or endogenous factors. These points define regimes for the time evolution of the system and are crucial for understanding transitions in financial, economic, social, environmental, and technological contexts. Building upon the Bayesian approach introduced in \cite{c:07}, we devise a new method for online change point detection in the mean of a univariate time series, which is well suited for real-time applications and is able to handle the general temporal patterns displayed by data in many empirical contexts. We first describe time series as an autoregressive process of an arbitrary order. Second, the variance and correlation of the data are allowed to vary within each regime driven by a scoring rule that updates the value of the parameters for a better fit of the observations. Finally, a change point is detected in a probabilistic framework via the posterior distribution of the current regime length. By modeling temporal dependencies and time-varying parameters, the proposed approach enhances both the estimate accuracy and the forecasting power. Empirical validations using various datasets demonstrate the method's effectiveness in capturing memory and dynamic patterns, offering deeper insights into the non-stationary dynamics of real-world systems.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 強化学習に基づく非修正DRAM誤差の適応緩和

Reinforcement Learning-based Adaptive Mitigation of Uncorrected DRAM Errors in the Field ( http://arxiv.org/abs/2407.16377v1 )

ライセンス: Link先を確認
Isaac Boixaderas, Sergi Moré, Javier Bartolome, David Vicente, Petar Radojković, Paul M. Carpenter, Eduard Ayguadé, (参考訳) 大規模システムへのスケーリングは、現在の信頼性レベルにおいて、ハードウェア障害を軽減するためのコスト効率のよい方法を必要とする。 ハードウェア障害の主な原因の1つは、メモリの不正なエラーであり、これは現在のジョブを終了し、最後のチェックポイント以降、全ての計算を無駄にする。 本稿では,修正されていない誤りの軽減を誘導する最初の適応手法を提案する。 これは、訂正されていないエラーの可能性と現在の潜在的なコストを考慮に入れた予測アプローチを使用する。 この方法は強化学習に基づいており、ユーザ定義パラメータは緩和コストと、緩和点からジョブを再起動できるかどうかのみである。 我々は,従来の機械学習メトリクスとコストベネフィット分析を用いて手法の評価を行い,そのコストと誤差の軽減の利点を比較した。 MareNostrum スーパーコンピュータからの2年間の運用ログでは,この手法は緩和を伴わず,損失計算時間を 54% 削減し,最適な Oracle 法より6% しか劣らない。 すべてのソースコードはオープンソースである。

Scaling to larger systems, with current levels of reliability, requires cost-effective methods to mitigate hardware failures. One of the main causes of hardware failure is an uncorrected error in memory, which terminates the current job and wastes all computation since the last checkpoint. This paper presents the first adaptive method for triggering uncorrected error mitigation. It uses a prediction approach that considers the likelihood of an uncorrected error and its current potential cost. The method is based on reinforcement learning, and the only user-defined parameters are the mitigation cost and whether the job can be restarted from a mitigation point. We evaluate our method using classical machine learning metrics together with a cost-benefit analysis, which compares the cost of mitigation actions with the benefits from mitigating some of the errors. On two years of production logs from the MareNostrum supercomputer, our method reduces lost compute time by 54% compared with no mitigation and is just 6% below the optimal Oracle method. All source code is open source.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# TookaBERT:ペルシアのNLUの一歩

TookaBERT: A Step Forward for Persian NLU ( http://arxiv.org/abs/2407.16382v1 )

ライセンス: Link先を確認
MohammadAli SadraeiJavaheri, Ali Moghaddaszadeh, Milad Molazadeh, Fariba Naeiji, Farnaz Aghababaloo, Hamideh Rafiee, Zahra Amirmahani, Tohid Abedini, Fatemeh Zahra Sheikhi, Amirmohammad Salehoof, (参考訳) 自然言語処理(NLP)の分野は、ディープラーニングと基礎モデルの力のおかげで、目覚ましい進歩を遂げている。 言語モデル、特にBERTは、この進歩において重要な役割を担っている。 本研究では,ペルシャデータを用いた2つの新しいBERTモデルを訓練し,導入した。 当社のモデルを、14のペルシャの自然言語理解(NLU)タスクの7つの既存モデルと比較して、テストに当てはめました。 我々のより大きなモデルは競争に勝り、少なくとも2.8ポイントの平均的な改善を示す。 これは、ペルシャのNLUタスクに対する新しいBERTモデルの有効性と可能性を強調します。

The field of natural language processing (NLP) has seen remarkable advancements, thanks to the power of deep learning and foundation models. Language models, and specifically BERT, have been key players in this progress. In this study, we trained and introduced two new BERT models using Persian data. We put our models to the test, comparing them to seven existing models across 14 diverse Persian natural language understanding (NLU) tasks. The results speak for themselves: our larger model outperforms the competition, showing an average improvement of at least +2.8 points. This highlights the effectiveness and potential of our new BERT models for Persian NLU tasks.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# 2次元に交差する量子滴の相とダイナミクス

Phases and dynamics of quantum droplets in the crossover to two-dimensions ( http://arxiv.org/abs/2407.16383v1 )

ライセンス: Link先を確認
Jose Carlos Pelayo, George Bougas, Thomás Fogarty, Thomas Busch, Simeon I. Mistakidis, (参考訳) 我々は2次元および準2次元拡張グロス・ピタエフスキー方程式を数値解析し,3次元から2次元のクロスオーバー領域における超低温原子滴の基底状態と動力学を数値解析する。 液滴特性を体系的に比較することにより, 対数的非線形結合の優位性は, 平均平均場相互作用の符号と横制限の大きさの関数として決定される。 主な発見の1つは, 負-正平均場相互作用から平均平均場相互作用へ遷移すると, 結合エネルギーが小さくなると, 液滴が大幅に拡張できることである。 クロスオーバー領域の基本的な力学特性について検討するため, 相互作用クエンチについて検討し, 液滴が周期的な呼吸運動を行うことを示すとともに, クエンチ振幅が大きくなると密度リング構造が連続的に拡大することを示した。 また, クエンチ後の異方性幾何学において, 複雑なバルクおよび表面密度パターンを形成することが可能であることを示す。 現実的なパラメータで作業しているので、我々の結果は、将来の実験的実現を直接的に促進することができる。

We explore the ground states and dynamics of ultracold atomic droplets in the crossover region from three to two dimensions by solving the two-dimensional and the quasi two-dimensional extended Gross-Pitaevskii equations numerically and with a variational approach. By systematically comparing the droplet properties, we determine the validity regions of the pure two-dimensional description, and therefore the dominance of the logarithmic nonlinear coupling, as a function of the sign of the averaged mean-field interactions and the size of the transverse confinement. One of our main findings is that droplets can become substantially extended when their binding energies become small upon transitioning from negative-to-positive averaged mean-field interactions. To explore fundamental dynamical properties in the cross-over region, we study interaction quenches and show that the droplets perform a periodic breathing motion for modest quench strengths, while larger quench amplitudes lead to continuous expansion exhibiting density ring structures. We also showcase that it is possible to form complex bulk and surface density patterns in anisotropic geometries following the quench. Since we are working with realistic parameters, our results can directly facilitate future experimental realizations.
翻訳日:2024-07-24 17:36:04 公開日:2024-07-23
# ハイパースペクトル画像の分類と回帰のためのマルチタスク深層学習モデル:大規模データセットへの適用

A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset ( http://arxiv.org/abs/2407.16384v1 )

ライセンス: Link先を確認
Koushikey Chhapariya, Alexandre Benoit, Krishna Mohan Buddhiraju, Anil Kumar, (参考訳) マルチタスク学習はコンピュータビジョンとディープラーニング領域の分野で広く認知されている技術である。 しかし、リモートセンシング、特にハイパースペクトルイメージングでは、まだ研究課題である。 さらに、リモートセンシング領域における研究の大部分は、小型でシングルタスクベースの注釈付きデータセットに焦点を当てており、これは、開発されたモデルの一般化性とスケーラビリティを、より多様で複雑な実世界のシナリオに制限する。 そこで本研究では,ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うためのマルチタスク深層学習モデルを提案する。 我々は,生物物理パラメータの異なる3つのカテゴリー変数と10の連続変数を含む13の森林変数を含む,TAIGAと呼ばれる大規模超スペクトルデータセットに対するアプローチを検証した。 共有エンコーダとタスク固有のデコーダネットワークを設計し、各タスク固有のデコーダがそれぞれのタスクのユニークな側面に集中できるようにする。 さらに,マルチスケールのコンテキスト情報を抽出し,タスク固有の特徴を優先して選択的な情報処理を可能にするために,高密度なピラミッドプール層とアテンションネットワークを統合した。 さらに、マルチタスクの損失を計算し、提案フレームワークのパラメータを最適化し、様々なタスクにおけるモデル性能と効率を改善する。 結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。 堅牢性を確保するため、私たちは10のシード/トライアルでモデルをトレーニングしました。 提案モデルでは,低変量あるいは等価変量を維持しながら平均性能を向上する。 この作業を再現するために、コードはhttps://github.com/Koushikey4596/Multitask-Deep-Learning-Model-for-Taiga-datatsetで入手できる。

Multitask learning is a widely recognized technique in the field of computer vision and deep learning domain. However, it is still a research question in remote sensing, particularly for hyperspectral imaging. Moreover, most of the research in the remote sensing domain focuses on small and single-task-based annotated datasets, which limits the generalizability and scalability of the developed models to more diverse and complex real-world scenarios. Thus, in this study, we propose a multitask deep learning model designed to perform multiple classification and regression tasks simultaneously on hyperspectral images. We validated our approach on a large hyperspectral dataset called TAIGA, which contains 13 forest variables, including three categorical variables and ten continuous variables with different biophysical parameters. We design a sharing encoder and task-specific decoder network to streamline feature learning while allowing each task-specific decoder to focus on the unique aspects of its respective task. Additionally, a dense atrous pyramid pooling layer and attention network were integrated to extract multi-scale contextual information and enable selective information processing by prioritizing task-specific features. Further, we computed multitask loss and optimized its parameters for the proposed framework to improve the model performance and efficiency across diverse tasks. A comprehensive qualitative and quantitative analysis of the results shows that the proposed method significantly outperforms other state-of-the-art methods. We trained our model across 10 seeds/trials to ensure robustness. Our proposed model demonstrates higher mean performance while maintaining lower or equivalent variability. To make the work reproducible, the codes will be available at https://github.com/Koushikey4596/Multitask-Deep-Learning-Model-for-Taiga-datatset.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# カウサル発見とルート・カウス・アナリシス : フルゼウグモンタージュの事例から

Anwendung von Causal-Discovery-Algorithmen zur Root-Cause-Analyse in der Fahrzeugmontage ( http://arxiv.org/abs/2407.16388v1 )

ライセンス: Link先を確認
Lucas Possner, Lukas Bahr, Leonard Roehl, Christoph Wehner, Sophie Groeger, (参考訳) 根本原因分析(英: Root Cause Analysis, RCA)は、問題とその根本原因の因果関係を系統的に調査し、同定することを目的とした品質管理手法である。 従来の手法は、課題の専門家による問題の分析に基づいている。 現代の生産プロセスでは、大量のデータが収集される。 このため、RCAにはますますコンピュータ支援やデータ駆動の手法が使われている。 これらの手法の1つは因果探索アルゴリズム (Causal Discovery Algorithms, CDA) である。 この出版物は、主要な自動車メーカーの組み立てデータに対するCDAの適用を実証している。 使用したアルゴリズムは、製造車両の特性、エルゴノミクス、関連する組立プロセスの時間的スコープ、および代表データに基づく品質関連製品特徴との間の因果構造を学習する。 この出版物は、品質管理の文脈における適合性の観点から、様々なCDAを比較している。 この目的のために、アルゴリズムとランタイムによって学習された因果構造を比較した。 この出版物は品質管理に貢献し、組み立てプロセスにおいてRCAにCDAをどのように使用できるかを示す。

Root Cause Analysis (RCA) is a quality management method that aims to systematically investigate and identify the cause-and-effect relationships of problems and their underlying causes. Traditional methods are based on the analysis of problems by subject matter experts. In modern production processes, large amounts of data are collected. For this reason, increasingly computer-aided and data-driven methods are used for RCA. One of these methods are Causal Discovery Algorithms (CDA). This publication demonstrates the application of CDA on data from the assembly of a leading automotive manufacturer. The algorithms used learn the causal structure between the characteristics of the manufactured vehicles, the ergonomics and the temporal scope of the involved assembly processes, and quality-relevant product features based on representative data. This publication compares various CDAs in terms of their suitability in the context of quality management. For this purpose, the causal structures learned by the algorithms as well as their runtime are compared. This publication provides a contribution to quality management and demonstrates how CDAs can be used for RCA in assembly processes.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# SEDS: 手話検索のための意味的に拡張されたデュアルストリームエンコーダ

SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval ( http://arxiv.org/abs/2407.16394v1 )

ライセンス: Link先を確認
Longtao Jiang, Min Wang, Zecheng Li, Yao Fang, Wengang Zhou, Houqiang Li, (参考訳) 従来のビデオ検索とは異なり、手話検索はビデオクリップに含まれる人間の行動の意味情報を理解するためにより偏りがある。 従来の作品では、RGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られ、その結果、局所的なアクションの詳細が大量の視覚情報冗長性に溺れてしまう。 さらに、既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに組み込まれ、代わりにオフラインのRGBエンコーダを採用するという、高密度なビジュアルデータのメモリコストに悩まされている。 これらの問題に対処するために,手話ビデオのローカルおよびグローバルな情報を表現するために,PoseとRGBのモダリティを統合したSemantically Enhanced Dual-Stream Encoder (SEDS) と呼ばれる手話表現フレームワークを提案する。 具体的には、Poseエンコーダは、人間の関節に対応するキーポイントの座標を埋め込んで、詳細なアクション特徴を効果的にキャプチャする。 2つのビデオモダリティの文脈認識の融合を改善するため,Cross Gloss Attention Fusion (CGAF)モジュールを提案する。 さらに、細粒度デュアルストリーム特徴のコンテキストマッチングにより、集約された融合機能を強化するために、Pose-RGBファインニングマッチングオブジェクトを開発した。 オフラインのRGBエンコーダに加えて、フレームワーク全体には学習可能な軽量ネットワークのみが含まれており、エンドツーエンドでトレーニングすることができる。 大規模な実験により、我々のフレームワークは様々なデータセット上で最先端の手法を大幅に上回っていることが示された。

Different from traditional video retrieval, sign language retrieval is more biased towards understanding the semantic information of human actions contained in video clips. Previous works typically only encode RGB videos to obtain high-level semantic features, resulting in local action details drowned in a large amount of visual information redundancy. Furthermore, existing RGB-based sign retrieval works suffer from the huge memory cost of dense visual data embedding in end-to-end training, and adopt offline RGB encoder instead, leading to suboptimal feature representation. To address these issues, we propose a novel sign language representation framework called Semantically Enhanced Dual-Stream Encoder (SEDS), which integrates Pose and RGB modalities to represent the local and global information of sign language videos. Specifically, the Pose encoder embeds the coordinates of keypoints corresponding to human joints, effectively capturing detailed action features. For better context-aware fusion of two video modalities, we propose a Cross Gloss Attention Fusion (CGAF) module to aggregate the adjacent clip features with similar semantic information from intra-modality and inter-modality. Moreover, a Pose-RGB Fine-grained Matching Objective is developed to enhance the aggregated fusion feature by contextual matching of fine-grained dual-stream features. Besides the offline RGB encoder, the whole framework only contains learnable lightweight networks, which can be trained end-to-end. Extensive experiments demonstrate that our framework significantly outperforms state-of-the-art methods on various datasets.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# Prisec II - IoTセキュリティの総合モデル - 暗号化アルゴリズムとクラウド統合

Prisec II -- A Comprehensive Model for IoT Security: Cryptographic Algorithms and Cloud Integration ( http://arxiv.org/abs/2407.16395v1 )

ライセンス: Link先を確認
Pedro Costa, Valderi Leithardt, (参考訳) 本研究は、特にIoT環境において、相互接続されたデバイスにおけるデータセキュリティと効率を確保することの重大な問題に対処する。 目的は,暗号アルゴリズムを用いて5Gネットワークのデータセキュリティを向上させるモデルの設計と実装である。 課題は、効率的なデータ伝送を実現するために暗号アルゴリズムの分析と選択を必要とするIoTデバイスの限られた計算能力から生じる。 本研究では、4つのレベルのセキュリティを含むモデルを提案し、それぞれがより優れたデータセキュリティを提供するために異なるレベルの暗号化を使用している。 最後に、クラウドコンピューティングは、データ転送を改善するために、処理効率とリソース利用を最適化する。

This study addresses the critical issue of ensuring data security and efficiency in interconnected devices, especially in IoT environments. The objective is to design and implement a model using cryptographic algorithms to enhance data security in 5G networks. Challenges arise from the limited computational capabilities of IoT devices, which require the analysis and selection of cryptographic algorithms to achieve efficient data transmission. This study proposes a model that includes four levels of security, each employing different levels of encryption to provide better data security. Finally, cloud computing optimizes processing efficiency and resource utilization to improve data transmission.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# ボリュームレンダリングを前提とした多視点画像からの符号なし距離関数の学習

Learning Unsigned Distance Functions from Multi-view Images with Volume Rendering Priors ( http://arxiv.org/abs/2407.16396v1 )

ライセンス: Link先を確認
Wenyuan Zhang, Kanle Shi, Yu-Shen Liu, Zhizhong Han, (参考訳) 無符号距離関数(UDF)は、開曲面にとって重要な表現である。 異なる微分可能なレンダラーにより、現在の方法では、UDF上のレンダリングエラーを最小化して、UDFを推論するためにニューラルネットワークをトレーニングすることができる。 しかし、これらの微分可能なレンダラーは、主に手作りであり、線面の交差点に偏りがあるか、符号のない距離の外れに敏感か、大規模なシーンに拡張性がないかのどちらかである。 これらの問題を解決するために,より正確にUDFを推定するための新しい微分可能なレンダラーを提案する。 手作りの方程式の代わりに、我々の微分可能なレンダラーは、データ駆動方式で事前訓練されたニューラルネットワークである。 符号のない距離を深度画像に描画する方法を学び、ボリュームレンダリングという事前知識に繋がる。 複数のRGB画像から見えないシーンのUDFを推定するために、学習したボリュームレンダリングを一般化し、RGB画像レンダリングのためのアルファブレンディングにおける符号なし距離をマップする。 結果から,学習したボリュームレンダリングの先行性は,バイアスがなく,堅牢で,スケーラブルで,3D対応で,学習も容易であることがわかった。 提案手法は,広く使用されているベンチマークと実シーンの両方で評価し,最先端の手法よりも優れた性能を報告した。

Unsigned distance functions (UDFs) have been a vital representation for open surfaces. With different differentiable renderers, current methods are able to train neural networks to infer a UDF by minimizing the rendering errors on the UDF to the multi-view ground truth. However, these differentiable renderers are mainly handcrafted, which makes them either biased on ray-surface intersections, or sensitive to unsigned distance outliers, or not scalable to large scale scenes. To resolve these issues, we present a novel differentiable renderer to infer UDFs more accurately. Instead of using handcrafted equations, our differentiable renderer is a neural network which is pre-trained in a data-driven manner. It learns how to render unsigned distances into depth images, leading to a prior knowledge, dubbed volume rendering priors. To infer a UDF for an unseen scene from multiple RGB images, we generalize the learned volume rendering priors to map inferred unsigned distances in alpha blending for RGB image rendering. Our results show that the learned volume rendering priors are unbiased, robust, scalable, 3D aware, and more importantly, easy to learn. We evaluate our method on both widely used benchmarks and real scenes, and report superior performance over the state-of-the-art methods.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 不均一フェデレーション学習におけるADMMについて:パーソナライズ、ロバスト、公平性

On ADMM in Heterogeneous Federated Learning: Personalization, Robustness, and Fairness ( http://arxiv.org/abs/2407.16397v1 )

ライセンス: Link先を確認
Shengkun Zhu, Jinshan Zeng, Sheng Wang, Yuan Sun, Xiaodong Li, Yuan Yao, Zhiyong Peng, (参考訳) 統計的不均一性は、フェデレートラーニング(FL)の正確性、公平性、堅牢性の間の緊張の根本原因であり、先進的な道を歩む上で重要である。 パーソナライズドFL(Personalized FL, PFL)は、個人ユーザ向けにパーソナライズされたモデルを開発することにより、統計的不均一性の影響を低減し、公平性とロバスト性の観点から本質的にメリットを提供するアプローチである。 しかし、既存のPFLフレームワークは、グローバルモデルを無視しながらパーソナライズされたモデルの性能を改善することに重点を置いている。 さらに、これらのフレームワークはサブ線形収束率を達成し、強い仮定に依存する。 本稿では,乗算器の交互方向法(ADMM)を利用して,パーソナライズおよびグローバルモデルの学習を行う最適化フレームワークFLAMEを提案する。 本研究では、クライアントが異種データの種類が異なる状況下での性能を向上させるためのモデル選択戦略を提案する。 我々の理論的解析は、軽度の仮定の下で、FLAMEのグローバル収束と2種類の収束速度を確立する。 理論的には、FLAMEは線形問題のクラスにおける最先端の手法よりも頑健で公平であることを示す。 実験の結果,FLAMEは収束と精度において最先端の手法より優れており,各種攻撃下では高い精度を達成でき,クライアント間で一様に動作することがわかった。

Statistical heterogeneity is a root cause of tension among accuracy, fairness, and robustness of federated learning (FL), and is key in paving a path forward. Personalized FL (PFL) is an approach that aims to reduce the impact of statistical heterogeneity by developing personalized models for individual users, while also inherently providing benefits in terms of fairness and robustness. However, existing PFL frameworks focus on improving the performance of personalized models while neglecting the global model. Moreover, these frameworks achieve sublinear convergence rates and rely on strong assumptions. In this paper, we propose FLAME, an optimization framework by utilizing the alternating direction method of multipliers (ADMM) to train personalized and global models. We propose a model selection strategy to improve performance in situations where clients have different types of heterogeneous data. Our theoretical analysis establishes the global convergence and two kinds of convergence rates for FLAME under mild assumptions. We theoretically demonstrate that FLAME is more robust and fair than the state-of-the-art methods on a class of linear problems. Our experimental findings show that FLAME outperforms state-of-the-art methods in convergence and accuracy, and it achieves higher test accuracy under various attacks and performs more uniformly across clients.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 量子漏れによるスパイクニューロンとネットワークの統合

A Quantum Leaky Integrate-and-Fire Spiking Neuron and Network ( http://arxiv.org/abs/2407.16398v1 )

ライセンス: Link先を確認
Dean Brand, Francesco Petruccione, (参考訳) 量子機械学習は急速な開発と発見の段階にあるが、その古典的な補完の計算モデルの資源と多様性は依然として欠如している。 極端にハードウェアとパワーソリューションを必要とする古典的モデルの難しさと、ノイズの多い中間スケール量子(NISQ)ハードウェアによって制限されている量子モデルにより、両方の問題を一緒に解決する機会が生まれている。 本稿では,量子ニューロモルフィックコンピューティングの新しいソフトウェアモデルについて紹介する。量子リーク型集積ファイア(QLIF)ニューロンは,2つの回転ゲートとCNOTゲートを必要とせず,コンパクトな高忠実な量子回路として実装されている。 量子スパイクニューラルネットワーク(QSNN)と量子スパイク畳み込みニューラルネットワーク(QSCNN)の構築において,これらのニューロンを構築ブロックとして使用する。 これらのモデルをMNIST、Fashion-MNIST、KMNISTのデータセットに適用し、他の古典的および量子的モデルと比較する。 提案したモデルは,量子デバイスだけでなく,古典的シミュレーションにおいても,効率的なスケーリングと高速な計算により,比較精度で競合的に動作することがわかった。

Quantum machine learning is in a period of rapid development and discovery, however it still lacks the resources and diversity of computational models of its classical complement. With the growing difficulties of classical models requiring extreme hardware and power solutions, and quantum models being limited by noisy intermediate-scale quantum (NISQ) hardware, there is an emerging opportunity to solve both problems together. Here we introduce a new software model for quantum neuromorphic computing -- a quantum leaky integrate-and-fire (QLIF) neuron, implemented as a compact high-fidelity quantum circuit, requiring only 2 rotation gates and no CNOT gates. We use these neurons as building blocks in the construction of a quantum spiking neural network (QSNN), and a quantum spiking convolutional neural network (QSCNN), as the first of their kind. We apply these models to the MNIST, Fashion-MNIST, and KMNIST datasets for a full comparison with other classical and quantum models. We find that the proposed models perform competitively, with comparative accuracy, with efficient scaling and fast computation in classical simulation as well as on quantum devices.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 制御可能な潜伏拡散モデルを用いた微分プライベート3次元医用画像合成について

On Differentially Private 3D Medical Image Synthesis with Controllable Latent Diffusion Models ( http://arxiv.org/abs/2407.16405v1 )

ライセンス: Link先を確認
Deniz Daum, Richard Osuala, Anneliese Riess, Georgios Kaissis, Julia A. Schnabel, Maxime Di Folco, (参考訳) 一般に、公開医療画像データセットの小さなサイズとプライバシーの懸念が組み合わさって、医療画像の深層学習モデルの進歩を妨げている。 本研究は, 短軸視における3次元心筋MRI像の課題に対処するものである。 本稿では,医療属性に条件付き合成画像を生成する潜在拡散モデルを提案するとともに,差分プライベートモデルトレーニングによる患者のプライバシの確保を図る。 われわれの知る限り、3D画像生成における差分プライバシーの適用と定量化は、これが初めてである。 当社のモデルを公開データで事前トレーニングし、英国バイオバンクのデータセットに差分プライバシーを付与します。 プレトレーニングでは,Fr'echet Inception Distance (FID) が26.77ドル ($\epsilon=10$) であるのに対し,プレトレーニングなしのモデルでは92.52ドルであった。 さらに、プライバシー制約と画質のトレードオフについて検討し、より厳密なプライバシー予算が出力制御性にどのように影響し、性能低下につながるかを調査した。 以上の結果から, 差分プライバシによるトレーニング中の適切な考慮は, 人工心臓MRI画像の品質を著しく向上させるが, 一貫性のある医療リアリズムを実現する上では, 依然として顕著な課題があることが示された。

Generally, the small size of public medical imaging datasets coupled with stringent privacy concerns, hampers the advancement of data-hungry deep learning models in medical imaging. This study addresses these challenges for 3D cardiac MRI images in the short-axis view. We propose Latent Diffusion Models that generate synthetic images conditioned on medical attributes, while ensuring patient privacy through differentially private model training. To our knowledge, this is the first work to apply and quantify differential privacy in 3D medical image generation. We pre-train our models on public data and finetune them with differential privacy on the UK Biobank dataset. Our experiments reveal that pre-training significantly improves model performance, achieving a Fr\'echet Inception Distance (FID) of 26.77 at $\epsilon=10$, compared to 92.52 for models without pre-training. Additionally, we explore the trade-off between privacy constraints and image quality, investigating how tighter privacy budgets affect output controllability and may lead to degraded performance. Our results demonstrate that proper consideration during training with differential privacy can substantially improve the quality of synthetic cardiac MRI images, but there are still notable challenges in achieving consistent medical realism.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# Hi-EF:人間のインタラクションにおける感情予測のベンチマーク

Hi-EF: Benchmarking Emotion Forecasting in Human-interaction ( http://arxiv.org/abs/2407.16406v1 )

ライセンス: Link先を確認
Haoran Wang, Xinji Mai, Zeng Tao, Yan Wang, Jiawen Yu, Ziheng Zhou, Xuan Tong, Shaoqi Yan, Qing Zhao, Shuyong Gao, Wenqiang Zhang, (参考訳) 感情予測(Affective Forecasting)は、個人の将来の感情を予測する心理学の研究の方向性であり、社会的影響や時間的距離といった多くの外部要因によって制約されることが多い。 そこで我々は,感情予測パラダイムを双方向インタラクションに基づいて設計することにより,感情予測をディープラーニング問題に変換する。 本研究では,個人感情が他者との対話中に伝達される感情や他の情報に容易に影響されるという理論に基づく,新たな感情予測(EF)タスクを提案する。 この課題に対処するため、我々は、感情関連ラベルが豊富で3つのモダリティを持つ、3069の2次元多層相互作用サンプル(MCIS)を含む、Human-Interaction-based Emotion Forecasting (Hi-EF)という特殊なデータセットを開発した。 Hi-EFはEFタスクの実現可能性を示すだけでなく、その可能性を強調している。 さらに,EFタスクの基礎的および参照的ベースラインモデルを確立し,広範な実験を行う方法論を提案する。 データセットとコードはhttps://github.com/Anonymize-Author/Hi-EFで公開されている。

Affective Forecasting, a research direction in psychology that predicts individuals future emotions, is often constrained by numerous external factors like social influence and temporal distance. To address this, we transform Affective Forecasting into a Deep Learning problem by designing an Emotion Forecasting paradigm based on two-party interactions. We propose a novel Emotion Forecasting (EF) task grounded in the theory that an individuals emotions are easily influenced by the emotions or other information conveyed during interactions with another person. To tackle this task, we have developed a specialized dataset, Human-interaction-based Emotion Forecasting (Hi-EF), which contains 3069 two-party Multilayered-Contextual Interaction Samples (MCIS) with abundant affective-relevant labels and three modalities. Hi-EF not only demonstrates the feasibility of the EF task but also highlights its potential. Additionally, we propose a methodology that establishes a foundational and referential baseline model for the EF task and extensive experiments are provided. The dataset and code is available at https://github.com/Anonymize-Author/Hi-EF.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# カーネル平均埋め込みによるデータ駆動フィードバック法則

Data-Driven Optimal Feedback Laws via Kernel Mean Embeddings ( http://arxiv.org/abs/2407.16407v1 )

ライセンス: Link先を確認
Petar Bevanda, Nicolas Hoischen, Stefan Sosnowski, Sandra Hirche, Boris Houska, (参考訳) 本稿では,確率拡散に代表される非線形制御-アフィン系の最適制御のための,完全なデータ駆動型アプローチを提案する。 制御ペナルティ関数と制約のみを提供しながら、非線形ダイナミクスとステージコスト関数の両方が未知のシナリオに焦点を当てている。 カーネルヒルベルト空間の再生理論を応用し、制御拡散過程に関連するマルコフ遷移作用素を特定するために、新しいカーネル平均埋め込み(KME)を導入する。 KME学習アプローチは、現代的な凸作用素-理論的ハミルトン・ヤコビ・ベルマン再帰とシームレスに統合される。 したがって、従来の動的プログラミング手法とは異なり、我々の手法は'カーネルトリック'を利用して次元の呪いを破る。 本手法の有効性を数値的な例で示し, 非線形最適制御問題を解く能力を強調した。

This paper proposes a fully data-driven approach for optimal control of nonlinear control-affine systems represented by a stochastic diffusion. The focus is on the scenario where both the nonlinear dynamics and stage cost functions are unknown, while only control penalty function and constraints are provided. Leveraging the theory of reproducing kernel Hilbert spaces, we introduce novel kernel mean embeddings (KMEs) to identify the Markov transition operators associated with controlled diffusion processes. The KME learning approach seamlessly integrates with modern convex operator-theoretic Hamilton-Jacobi-Bellman recursions. Thus, unlike traditional dynamic programming methods, our approach exploits the ``kernel trick'' to break the curse of dimensionality. We demonstrate the effectiveness of our method through numerical examples, highlighting its ability to solve a large class of nonlinear optimal control problems.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 明日のスマートシティのセキュア化 - 自動車のインターネットとディープラーニング技術におけるソフトウェアセキュリティの調査

Securing Tomorrow's Smart Cities: Investigating Software Security in Internet of Vehicles and Deep Learning Technologies ( http://arxiv.org/abs/2407.16410v1 )

ライセンス: Link先を確認
Ridhi Jain, Norbert Tihanyi, Mohamed Amine Ferrag, (参考訳) IoV(Internet of Vehicles)におけるディープラーニング(DL)技術の統合は,徹底的な検査を必要とするセキュリティ上の課題や課題を数多く導入している。 この文献は、IoVシステムにおけるDLに関連する固有の脆弱性とリスクを概観し、セキュリティ脅威の多面的な性質に光を当てている。 既存の研究の広範な分析を通じて、敵攻撃、データプライバシ侵害、モデル中毒など、DLアルゴリズムによって引き起こされる潜在的な脅威について検討する。 さらに, 侵入検出, 異常検出, セキュア通信プロトコルなど, IoV セキュリティの重要な側面に対する DL の影響について検討する。 本稿では,車載ネットワークの動的・相互接続性を考慮して,DLベースのIoVシステムの堅牢性,信頼性,信頼性の確保という複雑さを強調した。 さらに,これらの課題を効果的に解決し,DL対応IoV環境のセキュリティ姿勢を高めるために,新たなセキュリティソリューションの必要性についても論じる。 この章は、これらの重要な問題に対する洞察を提供することにより、IoVの文脈内でDL技術を確保するためのさらなる研究、革新、協力を促進することを目的としており、それによって、車載通信と接続のためのより安全でより回復力のある未来を育むことを目的としています。

Integrating Deep Learning (DL) techniques in the Internet of Vehicles (IoV) introduces many security challenges and issues that require thorough examination. This literature review delves into the inherent vulnerabilities and risks associated with DL in IoV systems, shedding light on the multifaceted nature of security threats. Through an extensive analysis of existing research, we explore potential threats posed by DL algorithms, including adversarial attacks, data privacy breaches, and model poisoning. Additionally, we investigate the impact of DL on critical aspects of IoV security, such as intrusion detection, anomaly detection, and secure communication protocols. Our review emphasizes the complexities of ensuring the robustness, reliability, and trustworthiness of DL-based IoV systems, given the dynamic and interconnected nature of vehicular networks. Furthermore, we discuss the need for novel security solutions tailored to address these challenges effectively and enhance the security posture of DL-enabled IoV environments. By offering insights into these critical issues, this chapter aims to stimulate further research, innovation, and collaboration in securing DL techniques within the context of the IoV, thereby fostering a safer and more resilient future for vehicular communication and connectivity.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 低複雑性規則化位相検索

Low Complexity Regularized Phase Retrieval ( http://arxiv.org/abs/2407.16413v1 )

ライセンス: Link先を確認
Jean-Jacques Godeme, Jalal Fadili, (参考訳) 本稿では,回復するベクトルが正規化項にエンコード可能な事前構造を持つ場合の位相探索問題について検討する。 この正規化器は、単純さや低複雑性の概念に従う解を促進することを意図している。 我々はノイズレス回復とノイズに対する安定性の両方について検討し、文献で主に考慮されるスパース位相検索をはるかに超越した、非常に汎用的で統一された分析フレームワークを提供する。 ノイズレスの場合、我々は正確な回復が可能な十分な条件、つまりグローバルな符号変化が可能である。 ガウス測度写像に対しては、正確な回復のために束縛されたサンプル複雑性も提供する。 この境界は、後続ベクトルにおける降下円錐のガウス幅に依存し、後者の複雑性の幾何学的測度である。 雑音の場合、制約付き(モゾロフ)とペナル化(ティコノフ)の両方を考慮する。 我々は、安定回復のための十分な条件を提供し、十分に小さな雑音に対する線形収束を証明した。 ガウス測度に対しては、線形収束が高い確率で保持されるようなサンプル複雑性を再び与える。 この境界は、求心ベクトルの内在次元では線型にスケールするが、周囲次元では対数的にのみスケールする。

In this paper, we study the phase retrieval problem in the situation where the vector to be recovered has an a priori structure that can encoded into a regularization term. This regularizer is intended to promote solutions conforming to some notion of simplicity or low complexity. We investigate both noiseless recovery and stability to noise and provide a very general and unified analysis framework that goes far beyond the sparse phase retrieval mostly considered in the literature. In the noiseless case we provide sufficient conditions under which exact recovery, up to global sign change, is possible. For Gaussian measurement maps, we also provide a sample complexity bound for exact recovery. This bound depends on the Gaussian width of the descent cone at the soughtafter vector which is a geometric measure of the complexity of the latter. In the noisy case, we consider both the constrained (Mozorov) and penalized (Tikhonov) formulations. We provide sufficient conditions for stable recovery and prove linear convergence for sufficiently small noise. For Gaussian measurements, we again give a sample complexity bound for linear convergence to hold with high probability. This bound scales linearly in the intrinsic dimension of the sought-after vector but only logarithmically in the ambient dimension.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# Marmosetコール分析のための音声・音声基礎モデルの有用性について

On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis ( http://arxiv.org/abs/2407.16417v1 )

ライセンス: Link先を確認
Eklavya Sarkar, Mathew Magimai. -Doss, (参考訳) マーモセットサルは通話中の重要な情報をエンコードし、人間の声のコミュニケーションの進化的起源を理解するために神経生物学者の代理モデルとして機能する。 従来の信号処理に基づく特徴分析では、人間の音声に事前訓練された自己教師モデルを用いて特徴抽出を行い、その音響領域とは独立して信号の固有構造を学習する能力を活用している。 しかし, マルチクラス分類, 帯域幅, 事前学習領域の観点から, マーモセットコール解析における基礎モデルの有用性は明らかでない。 本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。 その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。

Marmoset monkeys encode vital information in their calls and serve as a surrogate model for neuro-biologists to understand the evolutionary origins of human vocal communication. Traditionally analyzed with signal processing-based features, recent approaches have utilized self-supervised models pre-trained on human speech for feature extraction, capitalizing on their ability to learn a signal's intrinsic structure independently of its acoustic domain. However, the utility of such foundation models remains unclear for marmoset call analysis in terms of multi-class classification, bandwidth, and pre-training domain. This study assesses feature representations derived from speech and general audio domains, across pre-training bandwidths of 4, 8, and 16 kHz for marmoset call-type and caller classification tasks. Results show that models with higher bandwidth improve performance, and pre-training on speech or general audio yields comparable results, improving over a spectral baseline.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 低解像度表現学習による学習ビデオ圧縮の高速化

Accelerating Learned Video Compression via Low-Resolution Representation Learning ( http://arxiv.org/abs/2407.16418v1 )

ライセンス: Link先を確認
Zidian Qiu, Zongyao He, Zhi Jin, (参考訳) 近年、学習ビデオ圧縮の分野では、圧縮比で次世代コーデックECMを上回った最新のニューラルビデオコーデックDCVC-DCが示すように、急速な進歩が見られた。 これにもかかわらず、学習されたビデオ圧縮フレームワークは、主に計算複雑性の増大と不要な高解像度空間操作のために、符号化と復号の速度が低い。 本研究では,低分解能表現学習に着目し,符号化速度と復号速度を大幅に向上することを目的とした,学習ビデオ圧縮の効率最適化フレームワークを提案する。 まず、Iフレームを含む復号化フレームの再利用特徴から得られたフレーム間伝播特徴の分解能を低減し、計算負荷を低減させる。 我々は,IフレームモデルとPフレームモデルの両方に対して共同トレーニング戦略を実装し,圧縮率をさらに向上させる。 第二に,提案手法はパラメータ予測にマルチフレームの事前処理を効果的に利用し,デコード終了時の計算を最小化する。 第3に、高精細シーケンスに対するオンラインエンコーダ更新(OEU)戦略の適用を再検討し、復号効率を損なうことなく圧縮率の顕著な改善を実現した。 我々の効率最適化フレームワークは,学習ビデオ圧縮における圧縮比と速度のバランスを大幅に改善した。 従来のコーデックと比較して,H.266参照ソフトウェアVTMの低遅延P構成に匹敵する性能を実現する。 さらに,DCVC-HEMと対比した場合,符号化速度と復号速度をそれぞれ3倍と7倍に向上させながら,同等の圧縮比を提供する。 RTX 2080Tiでは、各1080pフレームを100ms以下でデコードできる。

In recent years, the field of learned video compression has witnessed rapid advancement, exemplified by the latest neural video codecs DCVC-DC that has outperformed the upcoming next-generation codec ECM in terms of compression ratio. Despite this, learned video compression frameworks often exhibit low encoding and decoding speeds primarily due to their increased computational complexity and unnecessary high-resolution spatial operations, which hugely hinder their applications in reality. In this work, we introduce an efficiency-optimized framework for learned video compression that focuses on low-resolution representation learning, aiming to significantly enhance the encoding and decoding speeds. Firstly, we diminish the computational load by reducing the resolution of inter-frame propagated features obtained from reused features of decoded frames, including I-frames. We implement a joint training strategy for both the I-frame and P-frame models, further improving the compression ratio. Secondly, our approach efficiently leverages multi-frame priors for parameter prediction, minimizing computation at the decoding end. Thirdly, we revisit the application of the Online Encoder Update (OEU) strategy for high-resolution sequences, achieving notable improvements in compression ratio without compromising decoding efficiency. Our efficiency-optimized framework has significantly improved the balance between compression ratio and speed for learned video compression. In comparison to traditional codecs, our method achieves performance levels on par with the low-decay P configuration of the H.266 reference software VTM. Furthermore, when contrasted with DCVC-HEM, our approach delivers a comparable compression ratio while boosting encoding and decoding speeds by a factor of 3 and 7, respectively. On RTX 2080Ti, our method can decode each 1080p frame under 100ms.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# 未解決ゼーマン共鳴レジームにおけるアルカリ金属蒸気の磁気共鳴リニアス

Magnetic Resonance Linewidth of Alkali-Metal Vapor in Unresolved Zeeman Resonance Regime ( http://arxiv.org/abs/2407.16419v1 )

ライセンス: Link先を確認
Feng Tang, Nan Zhao, (参考訳) 磁気共鳴線幅の研究は、磁気共鳴物理学とその応用において重要である。 これまでの研究では、ゼロ磁場近傍やゼーマン共鳴が2次ゼーマン効果によってよく解決される強磁場において、スピン交換緩和状態にあるアルカリ金属原子の直線幅に着目していた。 しかし、様々な磁力計やコマグネトメーターでよく見られる未解決ゼーマン共鳴系の線幅はよく分かっていない。 そこで我々は,アルカリ金属原子のマスター方程式に基づく理論的枠組みを開発し,回転波近似と弱い駆動条件下で解いた。 スピン交換率とスピン破壊率の比が臨界値を超える場合にのみ光狭化効果が生じることを示す数値計算と解析式。 さらに、未解決ゼーマン共鳴系における直線幅は、異なるゼーマン準位間の量子コヒーレンスの相互結合に大きく影響されていることを示す。 これらの知見は、アルカリ金属原子のスピン緩和を理解し、この状態下で動作している原子磁気センサとコマグネティックメーターの性能を最適化するための理論的ツールを提供する。

The study of magnetic resonance linewidth is crucial in magnetic resonance physics and its applications. Previous studies focused on the linewidth of alkali metal atoms within the spin-exchange relaxation-free regime near zero magnetic field and in strong magnetic fields where Zeeman resonances are well resolved due to the quadratic Zeeman effect. However, the linewidth in the unresolved Zeeman resonance regime, which is prevalent in various magnetometer and comagnetometer applications, is not well understood. To address this, we developed a theoretical framework based on the master equation for alkali metal atoms and solved it under the rotating wave approximation and weak driving conditions. Our numerical calculations and analytical expressions reveal that the light-narrowing effect occurs only when the ratio of the spin exchange rate to the spin destruction rate exceeds a critical value. Additionally, we show that the linewidth in the unresolved Zeeman resonance regime is significantly influenced by the mutual coupling of quantum coherence between different Zeeman sublevels. These findings provide a theoretical tool for understanding spin relaxation in alkali-metal atoms and optimizing the performance of atomic magnetometers and comagnetometers operating in this regime.
翻訳日:2024-07-24 17:26:03 公開日:2024-07-23
# ESOD:高分解能画像を用いた高効率小物体検出

ESOD: Efficient Small Object Detection on High-Resolution Images ( http://arxiv.org/abs/2407.16424v1 )

ライセンス: Link先を確認
Kai Liu, Zhihang Fu, Sheng Jin, Ze Chen, Fan Zhou, Rongxin Jiang, Yaowu Chen, Jieping Ye, (参考訳) 入力画像の拡大は、小さなオブジェクト検出を促進するための単純で効果的なアプローチである。 しかし、単純な画像拡大は計算とGPUメモリの両方でかなりコストがかかる。 実際、小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化されます。 したがって、画像の非ターゲット背景領域において、大量の特徴抽出計算が無駄にされる。 近年の研究では、対象領域を余分なネットワークで抽出し、従来の物体検出を行おうとしているが、新たに導入された計算では最終的な性能が制限されている。 本稿では,検出器のバックボーンを再利用して特徴レベルのオブジェクト探索とパッチスライシングを行い,冗長な特徴抽出を回避し,計算コストを削減することを提案する。 スパース検出ヘッドを組み込んで、高分解能入力(例えば1080P以上)で小さな物体を検出できるので、優れた性能が得られる。 結果として生じるESOD(Efficient Small Object Detection)アプローチは汎用的なフレームワークであり、CNNとViTベースの検出器の両方に適用することで、計算とGPUメモリコストを削減できる。 本手法の有効性と有効性を示す実験を行った。 特に,本手法は,代表的な VisDrone, UAVDT, TinyPerson のデータセットにおいて,SOTA 検出器を大きなマージン(例えばAPで8%の利得)で一貫的に上回っている。 コードはまもなく公開されます。

Enlarging input images is a straightforward and effective approach to promote small object detection. However, simple image enlargement is significantly expensive on both computations and GPU memory. In fact, small objects are usually sparsely distributed and locally clustered. Therefore, massive feature extraction computations are wasted on the non-target background area of images. Recent works have tried to pick out target-containing regions using an extra network and perform conventional object detection, but the newly introduced computation limits their final performance. In this paper, we propose to reuse the detector's backbone to conduct feature-level object-seeking and patch-slicing, which can avoid redundant feature extraction and reduce the computation cost. Incorporating a sparse detection head, we are able to detect small objects on high-resolution inputs (e.g., 1080P or larger) for superior performance. The resulting Efficient Small Object Detection (ESOD) approach is a generic framework, which can be applied to both CNN- and ViT-based detectors to save the computation and GPU memory costs. Extensive experiments demonstrate the efficacy and efficiency of our method. In particular, our method consistently surpasses the SOTA detectors by a large margin (e.g., 8% gains on AP) on the representative VisDrone, UAVDT, and TinyPerson datasets. Code will be made public soon.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 不均衡データ分布におけるアウト・オブ・ディストリビューション検出の再考

Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution ( http://arxiv.org/abs/2407.16430v1 )

ライセンス: Link先を確認
Kai Liu, Zhihang Fu, Sheng Jin, Chao Chen, Ze Chen, Rongxin Jiang, Fan Zhou, Yaowu Chen, Jieping Ye, (参考訳) 未知のアウト・オブ・ディストリビューション(OOD)サンプルの検出と拒否は、デプロイされたニューラルネットワークが信頼性の低い予測を無効にする上で重要である。 しかし、実世界のシナリオでは、既存のOOD検出手法の有効性は、分散内データ(ID)の固有の不均衡によって妨げられ、性能が著しく低下する。 統計観測により,OOD のサンプルを OOD と誤識別すると同時に,OOD のサンプルを ID のヘッダーとして誤って予測するという,異なる OOD 検出器が直面する2つの一般的な課題を明らかにした。 この現象を説明するために、不均衡なデータ分布上でのOOD検出問題を定式化するために、ImOODと呼ばれる一般化統計フレームワークを導入する。 その結果,OOD検出の均衡度と不均衡度との間にクラス認識バイアス項目が存在し,性能差に寄与することが示唆された。 この発見に基づいて、アーキテクチャ設計におけるバイアスを緩和し、不均衡なOOD検出器を増強する、統一的な訓練時間正規化手法を提案する。 提案手法はCIFAR10-LT, CIFAR100-LT, ImageNet-LTベンチマークに対して, 最先端のOOD検出手法に対して一貫した改良を行う。 コードはまもなく公開されます。

Detecting and rejecting unknown out-of-distribution (OOD) samples is critical for deployed neural networks to void unreliable predictions. In real-world scenarios, however, the efficacy of existing OOD detection methods is often impeded by the inherent imbalance of in-distribution (ID) data, which causes significant performance decline. Through statistical observations, we have identified two common challenges faced by different OOD detectors: misidentifying tail class ID samples as OOD, while erroneously predicting OOD samples as head class from ID. To explain this phenomenon, we introduce a generalized statistical framework, termed ImOOD, to formulate the OOD detection problem on imbalanced data distribution. Consequently, the theoretical analysis reveals that there exists a class-aware bias item between balanced and imbalanced OOD detection, which contributes to the performance gap. Building upon this finding, we present a unified training-time regularization technique to mitigate the bias and boost imbalanced OOD detectors across architecture designs. Our theoretically grounded method translates into consistent improvements on the representative CIFAR10-LT, CIFAR100-LT, and ImageNet-LT benchmarks against several state-of-the-art OOD detection approaches. Code will be made public soon.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# FairFlow: NLPのためのモデルベースの対実データ拡張に対する自動アプローチ

FairFlow: An Automated Approach to Model-based Counterfactual Data Augmentation For NLP ( http://arxiv.org/abs/2407.16431v1 )

ライセンス: Link先を確認
Ewoenam Kwaku Tokpo, Toon Calders, (参考訳) 言語モデルの進化にもかかわらず、彼らは教育データから不注意に学んだ有害な社会的偏見やステレオタイプを描き続けている。 これらの固有のバイアスは、様々な応用において有害な影響をもたらすことが多い。 学習データにおける人口統計特性のバランスを図るCDAは、自然言語処理におけるバイアスを軽減するために広く採用されているアプローチである。 しかし、既存のCDAアプローチの多くは、手動でコンパイルされたワードペア辞書を使った単語置換技術に依存している。 これらの技術は、しばしば文脈外置換を引き起こし、潜在的な品質問題を引き起こす。 一方,モデルに基づく手法の進歩は,並列トレーニングデータの必要性から問題視されている。 この地域の作業は、手動で生成した並列データを利用しており、収集に費用がかかり、結果として大規模に制限される。 本稿では,人間の介入を制限した対実テキスト生成モデルの訓練のための並列データの自動生成手法であるFairFlowを提案する。 さらに、FairFlowは、優れた性能を維持しつつ、辞書ベースの単語置換アプローチの限界を著しく克服していることを示す。

Despite the evolution of language models, they continue to portray harmful societal biases and stereotypes inadvertently learned from training data. These inherent biases often result in detrimental effects in various applications. Counterfactual Data Augmentation (CDA), which seeks to balance demographic attributes in training data, has been a widely adopted approach to mitigate bias in natural language processing. However, many existing CDA approaches rely on word substitution techniques using manually compiled word-pair dictionaries. These techniques often lead to out-of-context substitutions, resulting in potential quality issues. The advancement of model-based techniques, on the other hand, has been challenged by the need for parallel training data. Works in this area resort to manually generated parallel data that are expensive to collect and are consequently limited in scale. This paper proposes FairFlow, an automated approach to generating parallel data for training counterfactual text generator models that limits the need for human intervention. Furthermore, we show that FairFlow significantly overcomes the limitations of dictionary-based word-substitution approaches whilst maintaining good performance.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 連続可変量子鍵分布に対する統合的高速誤差補正

Integrated high-performance error correction for continuous-variable quantum key distribution ( http://arxiv.org/abs/2407.16432v1 )

ライセンス: Link先を確認
Chuang Zhou, Yang Li, Li Ma, Jie Yang, Wei Huang, Ao Sun, Heng Wang, Yujie Luo, Yong Li, Ziyang Chen, Francis C. M. Lau, Yichen Zhang, Song Yu, Hong Guo, Bingjie Xu, (参考訳) 高スループット、低フレーム誤り率(FER)、低信号対雑音比(SNR)下での高整合効率を備えた統合誤り訂正方式は、高性能で低コストな連続可変量子鍵分布(CV-QKD)を実現する主要なボトルネックの1つである。 この長年の課題を解決するため、オンチップのハードウェアリソースに制限のある統合に適した精度の2段階誤り訂正法を提案し、商用FPGAで実験的に検証した。 提案手法では, 誤り訂正スループットを1桁以上向上させることができ, 544.03 Mbps と 393.33 Mbps のリアルタイム誤り訂正を 0.2 と 0.1 の符号レートで行うことができる。 さらに、従来の復号法と比較して、25kmと50kmの典型的な伝送距離で32.70 Mbpsと5.66 MbpsのリアルタイムSKRをサポートする符号レート0.2と0.1の2段復号法を用いて、CV-QKDのセキュリティキーレート(SKR)を140.09%、122.03%向上させることができる。 記録破りの結果は、大都市圏の量子セキュアネットワークにおいて、高速統合CV-QKDシステムの大規模展開の道を開くものである。

An integrated error-correction scheme with high throughput, low frame errors rate (FER) and high reconciliation efficiency under low signal to noise ratio (SNR) is one of the major bottlenecks to realize high-performance and low-cost continuous variable quantum key distribution (CV-QKD). To solve this long-standing problem, a novel two-stage error correction method with limited precision that is suitable for integration given limited on-chip hardware resource while maintaining excellent decoding performance is proposed, and experimentally verified on a commercial FPGA. Compared to state-of-art results, the error-correction throughput can be improved more than one order of magnitude given FER<0.1 based on the proposed method, where 544.03 Mbps and 393.33 Mbps real-time error correction is achieved for typical 0.2 and 0.1 code rate, respectively. Besides, compared with traditional decoding method, the secure key rate (SKR) for CV-QKD under composable security framework can be improved by 140.09% and 122.03% by using the proposed two-stage decoding method for codes rate 0.2 and 0.1, which can support 32.70 Mbps and 5.66 Mbps real-time SKR under typical transmission distances of 25 km and 50 km, correspondingly. The record-breaking results paves the way for large-scale deployment of high-rate integrated CV-QKD systems in metropolitan quantum secure network.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 構造化によるLCM認知の強化

Enhancing LLM's Cognition via Structurization ( http://arxiv.org/abs/2407.16434v1 )

ライセンス: Link先を確認
Kai Liu, Zhihang Fu, Chao Chen, Wei Zhang, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye, (参考訳) 長文を読むとき、人間の認知は複雑で構造化されている。 大きな言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理するが、このアプローチは複雑な入力を効果的に扱う能力を制限する可能性がある。 本稿では,LLMの認知能力を高めるために,コンテキスト構造化という新しい概念を提案する。 具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。 これにより、LLMは、組織構造に沿って正確な注意と情報探索を通じて、複雑で拡張されたコンテキストをよりよく把握することができる。 様々なNLPタスク(例えば、文脈に基づく質問応答、徹底的な幻覚評価、通過レベルの密集検索)において、様々なモデルアーキテクチャとサイズ(いくつかの7B-から72Bサイズの自動回帰LDMとBERT様マスキングモデルを含む)で広範囲にわたる評価を行う。 実験結果から, 単ラウンド構造化による一貫した, 顕著な性能向上が得られた。 特に,72Bパラメータのオープンソースモデルを改良し,幻覚評価器としてGPT-3.5-Turboに匹敵する性能を実現する。 さらに,LLMの言語処理能力を,より小型で効果的なStruXGPT-7Bに蒸留し,構造化の実現可能性を示し,本手法の実用性に対処する。 コードはまもなく公開されます。

When reading long-form text, human cognition is complex and structurized. While large language models (LLMs) process input contexts through a causal and sequential perspective, this approach can potentially limit their ability to handle intricate and complex inputs effectively. To enhance LLM's cognition capability, this paper presents a novel concept of context structurization. Specifically, we transform the plain, unordered contextual sentences into well-ordered and hierarchically structurized elements. By doing so, LLMs can better grasp intricate and extended contexts through precise attention and information-seeking along the organized structures. Extensive evaluations are conducted across various model architectures and sizes (including several 7B- to 72B-size auto-regressive LLMs as well as BERT-like masking models) on a diverse set of NLP tasks (e.g., context-based question-answering, exhaustive hallucination evaluation, and passage-level dense retrieval). Empirical results show consistent and significant performance gains afforded by a single-round structurization. In particular, we boost a 72B-parameter open-source model to achieve comparable performance against GPT-3.5-Turbo as the hallucination evaluator. Besides, we show the feasibility of distilling advanced LLMs' language processing abilities to a smaller yet effective StruXGPT-7B to execute structurization, addressing the practicality of our approach. Code will be made public soon.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 心理学 - 人工心を理解するための多分野のフレームワーク

Psychomatics -- A Multidisciplinary Framework for Understanding Artificial Minds ( http://arxiv.org/abs/2407.16444v1 )

ライセンス: Link先を確認
Giuseppe Riva, Fabrizia Mantovani, Brenda K. Wiederhold, Antonella Marchetti, Andrea Gaggioli, (参考訳) LLMや他の人工知能システムは、概念学習や言語習得のような人間に似た認知能力を示しているが、情報処理の仕方は、生物学的認知とは根本的に異なる。 これらの違いをより深く理解するために,認知科学,言語学,コンピュータ科学を橋渡しする多分野の枠組みである心理学を紹介した。 LLMの高レベル機能をよりよく理解し、LLMがどのようにして情報を取得し、学習し、記憶し、どのようにしてアウトプットを生成するかに焦点を当てることを目的としている。 この目標を達成するために、心理学は、理論駆動型研究から始まる比較方法論を頼りにします。 -LDMと生物学的システム間の平行線を描く。 我々の分析は、LLMが訓練データの中で複雑な言語パターンをマップし、操作する方法を示している。 さらに、LLMはGriceの協力原理に従い、関連性があり情報的な応答を提供することができる。 しかし、人間の認知は経験的、感情的、想像的な顔など、単なる言語処理を超越し、社会や発達の軌跡に根ざした複数の意味源から引き出される。 さらに、現在のLLMには身体的な具現化がなく、人間の理解と表現を形作る知覚、行動、認知の間の複雑な相互作用を理解する能力が低下している。 究極的には、心理学は言語の性質、認知、知性について、人工的および生物学的の両方に変革的な洞察を与える可能性を秘めている。 さらに、LLMと人間の認知プロセスの並列性を描くことで、心理学はより堅牢で人間に似たAIシステムの開発を通知することができる。

Although LLMs and other artificial intelligence systems demonstrate cognitive skills similar to humans, like concept learning and language acquisition, the way they process information fundamentally differs from biological cognition. To better understand these differences this paper introduces Psychomatics, a multidisciplinary framework bridging cognitive science, linguistics, and computer science. It aims to better understand the high-level functioning of LLMs, focusing specifically on how LLMs acquire, learn, remember, and use information to produce their outputs. To achieve this goal, Psychomatics will rely on a comparative methodology, starting from a theory-driven research question - is the process of language development and use different in humans and LLMs? - drawing parallels between LLMs and biological systems. Our analysis shows how LLMs can map and manipulate complex linguistic patterns in their training data. Moreover, LLMs can follow Grice's Cooperative Principle to provide relevant and informative responses. However, human cognition draws from multiple sources of meaning, including experiential, emotional, and imaginative facets, which transcend mere language processing and are rooted in our social and developmental trajectories. Moreover, current LLMs lack physical embodiment, reducing their ability to make sense of the intricate interplay between perception, action, and cognition that shapes human understanding and expression. Ultimately, Psychomatics holds the potential to yield transformative insights into the nature of language, cognition, and intelligence, both artificial and biological. Moreover, by drawing parallels between LLMs and human cognitive processes, Psychomatics can inform the development of more robust and human-like AI systems.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 時系列予測は自動化できるか?ベンチマークと分析

Can time series forecasting be automated? A benchmark and analysis ( http://arxiv.org/abs/2407.16445v1 )

ライセンス: Link先を確認
Anvitha Thirthapura Sreedhara, (参考訳) 機械学習と人工知能の分野では、時系列予測は金融、医療、気象といった様々な分野において重要な役割を担っている。 しかし、与えられたデータセットに対して最適な予測方法を選択するタスクは、データパターンや特徴の多様性のために複雑なタスクである。 本研究は,幅広いデータセットを対象とした時系列予測手法の評価とランキングのための総合ベンチマークを提案することにより,この問題に対処することを目的とする。 本研究では,2つの著名な時系列予測フレームワークであるAutoGluon-Timeseriesとsktimeから得られた多くの手法の比較性能について検討した。 本研究は,厳密なベンチマーク手法を提供することにより時系列予測の分野に寄与し,最適予測を達成するための予測方法を選択する際の情報決定を容易にする。

In the field of machine learning and artificial intelligence, time series forecasting plays a pivotal role across various domains such as finance, healthcare, and weather. However, the task of selecting the most suitable forecasting method for a given dataset is a complex task due to the diversity of data patterns and characteristics. This research aims to address this challenge by proposing a comprehensive benchmark for evaluating and ranking time series forecasting methods across a wide range of datasets. This study investigates the comparative performance of many methods from two prominent time series forecasting frameworks, AutoGluon-Timeseries, and sktime to shed light on their applicability in different real-world scenarios. This research contributes to the field of time series forecasting by providing a robust benchmarking methodology and facilitating informed decision-making when choosing forecasting methods for achieving optimal prediction.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# MonoWAD:ロバストなモノクロ3次元物体検出のための気象適応拡散モデル

MonoWAD: Weather-Adaptive Diffusion Model for Robust Monocular 3D Object Detection ( http://arxiv.org/abs/2407.16448v1 )

ライセンス: Link先を確認
Youngmin Oh, Hyung-Il Kim, Seong Tae Kim, Jung Uk Kim, (参考訳) モノクロ3D物体検出は、自律運転において重要な課題である。 既存の手法は主に理想的な気象条件下での3D検出に重点を置いており、明瞭で最適な視界を持つシナリオが特徴である。 しかし、自動運転の課題は、晴れた天候だけでなく、霧のような気象条件の変化を扱う能力を必要とする。 気象適応拡散モデルを用いた新規な気象ロバストなモノクロ3D物体検出器MonoWADを紹介する。 1) 天気予報の知識を記憶し、任意の入力に対して天気予報特徴を生成する天気コードブックと,(2) 天気予報特徴を取り入れて入力特徴の特徴表現を強化する気象順応拡散モデルとを含む。 このことは、気象条件に応じて入力機能にどの程度の改善が必要であるかを示す上で、注意を向ける役割を担っている。 この目的を達成するため,明暗条件と霧条件の両方で特徴表現を高めるために,気象適応性向上損失を導入する。 様々な気象条件下での広範囲な実験により、MonoWADは天候に乱れたモノクロ3D物体の検出を達成している。 コードとデータセットはhttps://github.com/VisualAIKHU/MonoWAD.comで公開されている。

Monocular 3D object detection is an important challenging task in autonomous driving. Existing methods mainly focus on performing 3D detection in ideal weather conditions, characterized by scenarios with clear and optimal visibility. However, the challenge of autonomous driving requires the ability to handle changes in weather conditions, such as foggy weather, not just clear weather. We introduce MonoWAD, a novel weather-robust monocular 3D object detector with a weather-adaptive diffusion model. It contains two components: (1) the weather codebook to memorize the knowledge of the clear weather and generate a weather-reference feature for any input, and (2) the weather-adaptive diffusion model to enhance the feature representation of the input feature by incorporating a weather-reference feature. This serves an attention role in indicating how much improvement is needed for the input feature according to the weather conditions. To achieve this goal, we introduce a weather-adaptive enhancement loss to enhance the feature representation under both clear and foggy weather conditions. Extensive experiments under various weather conditions demonstrate that MonoWAD achieves weather-robust monocular 3D object detection. The code and dataset are released at https://github.com/VisualAIKHU/MonoWAD.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# XXZ-ハミルトニアンによる状態移動におけるリモート状態復元の諸側面

Some Aspects of Remote State Restoring in State Transfer Governed by XXZ-Hamiltonian ( http://arxiv.org/abs/2407.16460v1 )

ライセンス: Link先を確認
Georgii A. Bochkin, Sergei I. Doronin, Edward B. Fel'dman, Elena I. Kuznetsova, Ilia D. Lazarev, Alexander Pechen, Alexander I. Zenchuk, (参考訳) 我々は、励起数を保存するXXZ-ハミルトニアンによって支配されるスピン系におけるゼロ階コヒーレンス行列(PTZ)の遠隔状態復元と完全移動について考察する。 復元ツールはハミルトニアンのいくつかの非ゼロラーモア周波数で表される。 解析を簡略化するために,ラーモア周波数のステップワイドまたはパルス型時間依存性を含む2つの近似モデルを用いた。 最大20個のノードを持つスピン鎖の修復について研究した。 PTZでは、ジグザグと長方形の構成を考慮し、通信線路の幾何学的パラメータと拡張受信機の特殊ユニタリ変換を用いて、0階コヒーレンス行列の転送を最適化する。 全体的な観察では、XXZ鎖はXX鎖よりも長い状態移動時間を必要としており、最も近い近似の下での進化の分析研究によって確認されている。 スピン鎖長による状態移動時間の指数的増加を示す。

We consider the remote state restoring and perfect transfer of the zero-order coherence matrix (PTZ) in a spin system governed by the XXZ-Hamiltonian conserving the excitation number. The restoring tool is represented by several nonzero Larmor frequencies in the Hamiltonian. To simplify the analysis we use two approximating models including either step-wise or pulse-type time-dependence of the Larmor frequencies. Restoring in spin chains with up to 20 nodes is studied. Studying PTZ, we consider the zigzag and rectangular configurations and optimize the transfer of the 0-order coherence matrix using geometrical parameters of the communication line as well as the special unitary transformation of the extended receiver. Overall observation is that XXZ-chains require longer time for state transfer than XX-chains, which is confirmed by the analytical study of the evolution under the nearest-neighbor approximation. We demonstrate the exponential increase of the state-transfer time with the spin chain length.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 絡み合った光子対ネットワークを用いたソース非依存量子秘密共有

Source-independent quantum secret sharing with entangled photon pair networks ( http://arxiv.org/abs/2407.16462v1 )

ライセンス: Link先を確認
Yi-Ran Xiao, Zhao-Ying Jia, Yu-Chen Song, Yu Bao, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen, (参考訳) 量子ネットワークにおける量子秘密共有(QSS)の大規模展開は、マルチパーティント絡み状態の生成と分散の要件のため、現在困難である。 ここでは、量子ネットワークにおける絡み合った光子対を利用した効率的なソース非依存QSSプロトコルを提案する。 後マッチング法により、同じ基準での計測イベントが一致し、キーレートは参加者数とほぼ独立している。 さらに、内部および外部の盗聴者に対するQSSの非条件セキュリティは、等価な仮想プロトコルを導入することで証明できる。 我々のプロトコルは将来の量子ネットワークにおいて優れた性能と技術的優位性を持っている。

The large-scale deployment of quantum secret sharing (QSS) in quantum networks is currently challenging due to the requirements for the generation and distribution of multipartite entanglement states. Here we present an efficient source-independent QSS protocol utilizing entangled photon pairs in quantum networks. Through the post-matching method, which means the measurement events in the same basis are matched, the key rate is almost independent of the number of participants. In addition, the unconditional security of our QSS against internal and external eavesdroppers can be proved by introducing an equivalent virtual protocol. Our protocol has great performance and technical advantages in future quantum networks.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# ランドサーフェスモデルに基づく予測の進歩:予測状態エミュレータとしてのLSTM、グラディエントブースティング、フィードフォワードニューラルネットワークモデルの比較研究

Advances in Land Surface Model-based Forecasting: A comparative study of LSTM, Gradient Boosting, and Feedforward Neural Network Models as prognostic state emulators ( http://arxiv.org/abs/2407.16463v1 )

ライセンス: Link先を確認
Marieke Wesselkamp, Matthew Chantry, Ewan Pinnington, Margarita Choulga, Souhail Boussetta, Maria Kalweit, Joschka Boedecker, Carsten F. Dormann, Florian Pappenberger, Gianpaolo Balsamo, (参考訳) 一般大衆にとって最も有用な気象予報は地表付近である。 地表付近の天気予報に最も関係しているプロセスは、最もインタラクティブでポジティブなフィードバックを示すプロセスや、エネルギー分配において重要な役割を持つプロセスである。 土地表面モデル(LSM)は、これらの過程を表面の不均一性と予測水、炭素とエネルギーのフラックスと共に考慮し、大気モデルと組み合わせることで境界条件と初期条件を提供する。 大気境界の数値的パラメトリゼーションは計算に高価であり、統計代用モデルが実験研究の進展を加速するためにますます利用されている。 本研究では, 複合大気モデルにおける水, 炭素, エネルギーフラックスの予測に不可欠な地表面過程をシミュレートし, 実験研究を高速化する上での3つの代理モデルの効率性を評価した。 具体的には,Long-Short Term Memory(LSTM)エンコーダ・デコーダ・ネットワーク,極端な勾配向上,物理インフォームド多目的フレームワーク内のフィードフォワードニューラルネットワークの性能を比較した。 このフレームワークは、大陸規模と世界規模で、ECMWFのIFS(Integrated Forecasting System)ランドサーフェス・スキーム(ECLand)の重要な状態をエミュレートする。 以上の結果から, LSTMネットワークは, 予測期間を通じて平均モデル全体の精度が向上するのに対して, XGB はタスク全体にわたって常に高いスコアを示し, MLP は優れた実装時間精度のトレードオフを提供することがわかった。 エミュレータが全数値モデルと比較して達成した実行時の削減は重要であり、陸上での数値実験を行うための高速で信頼性の高い代替手段を提供する。

Most useful weather prediction for the public is near the surface. The processes that are most relevant for near-surface weather prediction are also those that are most interactive and exhibit positive feedback or have key role in energy partitioning. Land surface models (LSMs) consider these processes together with surface heterogeneity and forecast water, carbon and energy fluxes, and coupled with an atmospheric model provide boundary and initial conditions. This numerical parametrization of atmospheric boundaries being computationally expensive, statistical surrogate models are increasingly used to accelerated progress in experimental research. We evaluated the efficiency of three surrogate models in speeding up experimental research by simulating land surface processes, which are integral to forecasting water, carbon, and energy fluxes in coupled atmospheric models. Specifically, we compared the performance of a Long-Short Term Memory (LSTM) encoder-decoder network, extreme gradient boosting, and a feed-forward neural network within a physics-informed multi-objective framework. This framework emulates key states of the ECMWF's Integrated Forecasting System (IFS) land surface scheme, ECLand, across continental and global scales. Our findings indicate that while all models on average demonstrate high accuracy over the forecast period, the LSTM network excels in continental long-range predictions when carefully tuned, the XGB scores consistently high across tasks and the MLP provides an excellent implementation-time-accuracy trade-off. The runtime reduction achieved by the emulators in comparison to the full numerical models are significant, offering a faster, yet reliable alternative for conducting numerical experiments on land surfaces.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# H&Eスライスにおける腫瘍マージンのリンパ球浸潤評価

Lymphoid Infiltration Assessment of the Tumor Margins in H&E Slides ( http://arxiv.org/abs/2407.16464v1 )

ライセンス: Link先を確認
Zhuxian Guo, Amine Marzouki, Jean-François Emile, Henning Müller, Camille Kurtz, Nicolas Loménie, (参考訳) リンパ管浸潤は固形腫瘍において重要な予後マーカーであり、免疫療法の決定を導く上で重要な役割を担っている。 免疫組織化学 (IHC) に大きく依存している現在の評価法では, 腫瘍縁の脱線が困難であり, 組織保存条件の影響を受けている。 一方,本研究では,CD3+およびCD20+リンパ球の正確な検出のために,公共データセット上で訓練された高度リンパ球分画モデルに基づくHematoxylin and Eosin(H&E)染色法を提案する。 大腸癌では,H&E法が従来のIHCの代替となり,多くの症例で同等の結果が得られた。 提案手法の妥当性はチューリング試験によりさらに検証され,H&EおよびICCスライドからの匿名曲線の病理学者によるブラインド評価を含む。 このアプローチにより、医療コミュニティはチューリング試験を、専門家による人的評価を含む医学的応用を評価するための標準として考慮し、がん管理と免疫療法計画を強化するための新たな道を開く。

Lymphoid infiltration at tumor margins is a key prognostic marker in solid tumors, playing a crucial role in guiding immunotherapy decisions. Current assessment methods, heavily reliant on immunohistochemistry (IHC), face challenges in tumor margin delineation and are affected by tissue preservation conditions. In contrast, we propose a Hematoxylin and Eosin (H&E) staining-based approach, underpinned by an advanced lymphocyte segmentation model trained on a public dataset for the precise detection of CD3+ and CD20+ lymphocytes. In our colorectal cancer study, we demonstrate that our H&E-based method offers a compelling alternative to traditional IHC, achieving comparable results in many cases. Our method's validity is further explored through a Turing test, involving blinded assessments by a pathologist of anonymized curves from H&E and IHC slides. This approach invites the medical community to consider Turing tests as a standard for evaluating medical applications involving expert human evaluation, thereby opening new avenues for enhancing cancer management and immunotherapy planning.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# IRV選挙における適応監査の計算効率の向上

Improving the Computational Efficiency of Adaptive Audits of IRV Elections ( http://arxiv.org/abs/2407.16465v1 )

ライセンス: Link先を確認
Alexander Ek, Michelle Blom, Philip B. Stark, Peter J. Stuckey, Damjan Vukcevic, (参考訳) AWAIREは、即時投票(IRV)選挙のリスク制限監査を行う2つの方法の1つである。 原則として、AWAIREは任意の数の候補でIRVコンテストを監査できるが、当初の実装では、候補数とともに指数関数的に増加するメモリと計算コストが増大していた。 本稿では,従来の6候補と比較して,55候補のIRVコンテストを実際に実施する3つの方法で,AWAIREのアルゴリズム実装を改善した。 まず、まず最初に、異なる勝者を生み出す候補者の排除命令をすべて除外する代わりに、アルゴリズムは最終ラウンドのみを考慮し、各候補者がそのラウンドに勝ったかどうかを統計的にテストすることから始まる。 その段階では除外できない候補者に対しては、報告された勝者が本当に勝ったという強い証拠が提示されるまで、前回および前回のラウンドを検討するように拡大し、誰が本当に勝ったかを明らかにする。 第二に、よりリッチな条件の集合をテストし、そのうちのいくつかは一度に多くの除去順序を除外することができる。 第三に、これらの条件間の関係を利用して、役に立たないようなテストを捨てることができます。 最大36の候補を持つ実世界の実例と、55の候補を持つ合成例を提供し、監査サンプルのサイズがマージンやチューニングパラメータに依存するかを示す。 オープンソースのPython実装が公開されている。

AWAIRE is one of two extant methods for conducting risk-limiting audits of instant-runoff voting (IRV) elections. In principle AWAIRE can audit IRV contests with any number of candidates, but the original implementation incurred memory and computation costs that grew superexponentially with the number of candidates. This paper improves the algorithmic implementation of AWAIRE in three ways that make it practical to audit IRV contests with 55 candidates, compared to the previous 6 candidates. First, rather than trying from the start to rule out all candidate elimination orders that produce a different winner, the algorithm starts by considering only the final round, testing statistically whether each candidate could have won that round. For those candidates who cannot be ruled out at that stage, it expands to consider earlier and earlier rounds until either it provides strong evidence that the reported winner really won or a full hand count is conducted, revealing who really won. Second, it tests a richer collection of conditions, some of which can rule out many elimination orders at once. Third, it exploits relationships among those conditions, allowing it to abandon testing those that are unlikely to help. We provide real-world examples with up to 36 candidates and synthetic examples with up to 55 candidates, showing how audit sample size depends on the margins and on the tuning parameters. An open-source Python implementation is publicly available.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 線形および非線形力学におけるサロゲートとしての残留重み付きソボレフニューラルネットワーク

Sobolev neural network with residual weighting as a surrogate in linear and non-linear mechanics ( http://arxiv.org/abs/2407.16466v1 )

ライセンス: Link先を確認
A. O. M. Kilicsoy, J. Liedmann, M. A. Valdebenito, F. -J. Barthold, M. G. R. Faes, (参考訳) 不確かさの定量化や最適化のような計算力学の領域は、通常、工学系の振る舞いを表す数値モデルの繰り返し評価を含む。 しかし、複雑な非線形系の場合、これらのモデルは評価に費用がかかる傾向にあり、サロゲートモデルは非常に貴重である。 人工ニューラルネットワークは、与えられたトレーニングデータ固有の情報を活用することで、非常によく近似する。 本稿では,ソボレフトレーニングで概説された部分微分Wr.t.入力である感度情報を含む学習プロセスの改善について検討する。 計算力学において、学習損失関数を追加の損失項で拡張することにより、ニューラルネットワークに感性を適用することができ、これにより、一般化誤差の低減につながる訓練収束を改善することができる。 この改善は、線形および非線形な材料挙動の2つの例で示される。 より具体的には、ソボレフの設計した損失関数は、トレーニングステップにおける各損失の影響を調整した残留重量で拡張される。 残留重み付け(Residual weighting)とは、異なるトレーニングデータへのスケーリングである。 これらの余剰重量は適応的なスキームによって最適化され、様々な目的関数が探索され、一般的な訓練収束の精度と精度が向上することを示すものもある。

Areas of computational mechanics such as uncertainty quantification and optimization usually involve repeated evaluation of numerical models that represent the behavior of engineering systems. In the case of complex nonlinear systems however, these models tend to be expensive to evaluate, making surrogate models quite valuable. Artificial neural networks approximate systems very well by taking advantage of the inherent information of its given training data. In this context, this paper investigates the improvement of the training process by including sensitivity information, which are partial derivatives w.r.t. inputs, as outlined by Sobolev training. In computational mechanics, sensitivities can be applied to neural networks by expanding the training loss function with additional loss terms, thereby improving training convergence resulting in lower generalisation error. This improvement is shown in two examples of linear and non-linear material behavior. More specifically, the Sobolev designed loss function is expanded with residual weights adjusting the effect of each loss on the training step. Residual weighting is the given scaling to the different training data, which in this case are response and sensitivities. These residual weights are optimized by an adaptive scheme, whereby varying objective functions are explored, with some showing improvements in accuracy and precision of the general training convergence.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# OpenVINOベースニューラルネットワークモデルのサイドチャネル解析

Side-Channel Analysis of OpenVINO-based Neural Network Models ( http://arxiv.org/abs/2407.16467v1 )

ライセンス: Link先を確認
Dirmanto Jap, Jakub Breier, Zdenko Lehocký, Shivam Bhasin, Xiaolu Hou, (参考訳) ニューラルネットワークアクセラレータを備えた組み込みデバイスは、ユーザにとって大きな汎用性を提供し、クラウドベースのサービスの使用の必要性を低減します。 同時に、彼らはハードウェア攻撃の領域で新しいセキュリティ課題を導入し、最も顕著なのは、サイドチャネル分析(SCA)である。 SCAはモデルパラメータを高い精度で復元することができ、モデルを秘密にしたいエンティティに脅威を与えます。 本稿では,組込みデバイスとエッジデバイスにニューラルネットワークをデプロイする組込みフレームワークであるOpenVINOで実装された量子化モデルの感受性について検討する。 モデルパラメータを高精度に復元し,元のパラメータに非常に近い精度でモデルパラメータを復元できることを示す。 GoogleNet v1の実験では、トップ1の1%の違いとトップ5の0.64%の違いしか示されていない。

Embedded devices with neural network accelerators offer great versatility for their users, reducing the need to use cloud-based services. At the same time, they introduce new security challenges in the area of hardware attacks, the most prominent being side-channel analysis (SCA). It was shown that SCA can recover model parameters with a high accuracy, posing a threat to entities that wish to keep their models confidential. In this paper, we explore the susceptibility of quantized models implemented in OpenVINO, an embedded framework for deploying neural networks on embedded and Edge devices. We show that it is possible to recover model parameters with high precision, allowing the recovered model to perform very close to the original one. Our experiments on GoogleNet v1 show only a 1% difference in the Top 1 and a 0.64% difference in the Top 5 accuracies.
翻訳日:2024-07-24 17:16:18 公開日:2024-07-23
# 繰り返し機能更新による組合せ最適化におけるGNNの性能向上

Enhancing GNNs Performance on Combinatorial Optimization by Recurrent Feature Update ( http://arxiv.org/abs/2407.16468v1 )

ライセンス: Link先を確認
Daria Pugacheva, Andrei Ermakov, Igor Lyskov, Ilya Makarov, Yuriy Zotov, (参考訳) 組合せ最適化(CO)問題は、様々な科学的、産業的応用において重要である。 近年,非教師付きグラフニューラルネットワーク(GNN)を用いてNP-hard組合せ最適化問題に対処する手法が提案されている。 GNNは、線形スケーラビリティに近い性能を示し、大規模問題に対する計算効率の点で、古典的ヒューリスティックなアルゴリズムを著しく上回っている。 しかしながら、標準ノード機能を利用する場合、GNNはエネルギーランドスケープの最適部分の最小値に閉じ込められ、結果として低品質の解が得られる傾向にある。 QRF-GNNと呼ばれる新しいアルゴリズムを導入し、QUBOの定式化によるCO問題を効率的に解くために、GNNのパワーを活用している。 QUBO緩和による損失関数の最小化による教師なし学習に依存している。 提案するアーキテクチャのキーコンポーネントには、中間GNN予測の繰り返し使用、並列畳み込み層、および入力として静的ノード機能の組み合わせが含まれる。 また、QUBOに基づく損失関数を最小化するために中間解候補を適応させ、静的グラフの特徴だけでなく、動的、すなわち反復的に変化する特徴として扱われる中間予測も考慮する。 提案アルゴリズムの性能は、最大カット、グラフカラー化、最大独立セット問題に対する標準ベンチマークデータセットで評価されている。 実験の結果、QRF-GNNは既存の学習ベースのアプローチを大幅に上回り、最先端の従来のヒューリスティックに匹敵し、大規模インスタンスでのスケーラビリティが向上した。

Combinatorial optimization (CO) problems are crucial in various scientific and industrial applications. Recently, researchers have proposed using unsupervised Graph Neural Networks (GNNs) to address NP-hard combinatorial optimization problems, which can be reformulated as Quadratic Unconstrained Binary Optimization (QUBO) problems. GNNs have demonstrated high performance with nearly linear scalability and significantly outperformed classic heuristic-based algorithms in terms of computational efficiency on large-scale problems. However, when utilizing standard node features, GNNs tend to get trapped to suboptimal local minima of the energy landscape, resulting in low quality solutions. We introduce a novel algorithm, denoted hereafter as QRF-GNN, leveraging the power of GNNs to efficiently solve CO problems with QUBO formulation. It relies on unsupervised learning by minimizing the loss function derived from QUBO relaxation. The proposed key components of the architecture include the recurrent use of intermediate GNN predictions, parallel convolutional layers and combination of static node features as input. Altogether, it helps to adapt the intermediate solution candidate to minimize QUBO-based loss function, taking into account not only static graph features, but also intermediate predictions treated as dynamic, i.e. iteratively changing recurrent features. The performance of the proposed algorithm has been evaluated on the canonical benchmark datasets for maximum cut, graph coloring and maximum independent set problems. Results of experiments show that QRF-GNN drastically surpasses existing learning-based approaches and is comparable to the state-of-the-art conventional heuristics, improving their scalability on large instances.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 大規模言語モデルを用いた低・高資源言語に対する機械翻訳幻覚検出

Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models ( http://arxiv.org/abs/2407.16470v1 )

ライセンス: Link先を確認
Kenza Benkirane, Laura Gongas, Shahar Pelles, Naomi Fuchs, Joshua Darmon, Pontus Stenetorp, David Ifeoluwa Adelani, Eduardo Sanchez, (参考訳) 近年の多言語機械翻訳システムの進歩は翻訳精度を大幅に向上させたが、優れた演奏システムでさえも幻覚を発生させ、ユーザの信頼を著しく損なう。 機械翻訳(MT)における幻覚の検出は、特に高リソース言語(HRL)が優れているが、低リソース言語(LRL)に適用した場合、かなりの制限があるため、依然として重要な課題である。 本稿では,Large Language Models (LLM) を用いた幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。 本研究は、HRL、LRL、多種多様なスクリプトを含む16の言語方向を対象としている。 モデルの選択がパフォーマンスに不可欠であることに気付きました。 HRLでは、Llama3-70Bは前回の最先端を0.16 MCC(マシューズ相関係数)で上回る。 しかし、LRLでは、Claude Sonnet は平均 0.03 MCC で他の LLM よりも優れていた。 我々の研究から得られた重要な点は、LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成できるということです。 しかし、LRLにとってその優位性はそれほど大きくない。

Recent advancements in massively multilingual machine translation systems have significantly enhanced translation accuracy; however, even the best performing systems still generate hallucinations, severely impacting user trust. Detecting hallucinations in Machine Translation (MT) remains a critical challenge, particularly since existing methods excel with High-Resource Languages (HRLs) but exhibit substantial limitations when applied to Low-Resource Languages (LRLs). This paper evaluates hallucination detection approaches using Large Language Models (LLMs) and semantic similarity within massively multilingual embeddings. Our study spans 16 language directions, covering HRLs, LRLs, with diverse scripts. We find that the choice of model is essential for performance. On average, for HRLs, Llama3-70B outperforms the previous state of the art by as much as 0.16 MCC (Matthews Correlation Coefficient). However, for LRLs we observe that Claude Sonnet outperforms other LLMs on average by 0.03 MCC. The key takeaway from our study is that LLMs can achieve performance comparable or even better than previously proposed models, despite not being explicitly trained for any machine translation task. However, their advantage is less significant for LRLs.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 量子電池の最適性能のための貯水池の動的遮断

Dynamical blockade of a reservoir for optimal performances of a quantum battery ( http://arxiv.org/abs/2407.16471v1 )

ライセンス: Link先を確認
F. Cavaliere, G. Gemme, G. Benenti, D. Ferraro, M. Sassetti, (参考訳) 高速で効率的な量子電池の開発は、量子技術の展望に不可欠である。 両要件は、高非マルコフ熱貯留層に強く結合した高調波発振器のパラダイムモデルにおいて達成されることを示す。 短時間で貯水池の動的遮断により、その自由度に向かってエネルギーが漏れるのを防ぎ、高効率で電池にかなりのエネルギーが蓄積される。 これらの条件を$LC$量子回路で実装することは、固体量子電池の新しい道を開く。

The development of fast and efficient quantum batteries is crucial for the prospects of quantum technologies. We show that both requirements are accomplished in the paradigmatic model of a harmonic oscillator strongly coupled to a highly non-Markovian thermal reservoir. At short times, a dynamical blockade of the reservoir prevents the leakage of energy towards its degrees of freedom, promoting a significant accumulation of energy in the battery with high efficiency. The possibility of implementing these conditions in $LC$ quantum circuits opens up new avenues for solid-state quantum batteries.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# CrudiTEE: 信頼できる暗号通貨ウォレットをTEEで構築する

CrudiTEE: A Stick-and-Carrot Approach to Building Trustworthy Cryptocurrency Wallets with TEEs ( http://arxiv.org/abs/2407.16473v1 )

ライセンス: Link先を確認
Lulu Zhou, Zeyu Liu, Fan Zhang, Michael K. Reiter, (参考訳) 暗号通貨は、ユーザーが署名キーを管理することを要求することによって、ユーザビリティの課題をもたらす。 しかし、一般的な署名キー管理サービス(例えば、カストディアルウォレット)は、信頼できるパーティーを導入するか、署名キー共有を管理するユーザを負担し、同じユーザビリティの課題を呈する。 TEE(Trusted Execution Environments)は、両方を避けるための有望な技術である。 本稿では、TEEベースの暗号通貨ウォレットソリューションの経済インセンティブによるサイドチャネル緩和への新たなアプローチについて検討する。 サイドチャネル攻撃のコストと利益を考慮し、私たちはStick-and-Carrotベースの暗号通貨ウォレットであるCrudiTEEを設計しました。 我々は、マルコフ決定プロセス(MDP)を用いて攻撃者の振る舞いをモデル化し、報奨金の有効性を評価し、サービス提供者が報奨金の報奨関数のパラメータをそれに応じて調整できるようにする。

Cryptocurrency introduces usability challenges by requiring users to manage signing keys. Popular signing key management services (e.g., custodial wallets), however, either introduce a trusted party or burden users with managing signing key shares, posing the same usability challenges. TEEs (Trusted Execution Environments) are a promising technology to avoid both, but practical implementations of TEEs suffer from various side-channel attacks that have proven hard to eliminate. This paper explores a new approach to side-channel mitigation through economic incentives for TEE-based cryptocurrency wallet solutions. By taking the cost and profit of side-channel attacks into consideration, we designed a Stick-and-Carrot-based cryptocurrency wallet, CrudiTEE, that leverages penalties (the stick) and rewards (the carrot) to disincentivize attackers from exfiltrating signing keys in the first place. We model the attacker's behavior using a Markov Decision Process (MDP) to evaluate the effectiveness of the bounty and enable the service provider to adjust the parameters of the bounty's reward function accordingly.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# qMRI Diffusor: Denoising Diffusion Probabilistic Modelを用いた脳の定量的T1マッピング

qMRI Diffusor: Quantitative T1 Mapping of the Brain using a Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2407.16477v1 )

ライセンス: Link先を確認
Shishuai Wang, Hua Ma, Juan A. Hernandez-Tamames, Stefan Klein, Dirk H. J. Poot, (参考訳) 定量的MRI(qMRI)は、組織特性に関連する客観的パラメータを提供することにより、重み付け画像よりも大きな利点を提供する。 深層学習に基づく手法は、一連の重み付き画像から定量的マップを推定する効果を実証している。 本研究では, 深部生成モデルを用いた新しい qMRI Diffusor を提案する。 具体的には,脳内におけるT1定量化のための拡散確率モデル(DDPM)を実装し,条件生成タスクとしての定量的マップの推定をフレーミングした。 提案手法は, ファントムおよび生体内データの残差ニューラルネットワーク (ResNet) とRIM (Recurrent Inference Machine) を比較した。 その結果,パラメータ推定の精度と精度が向上し,視覚性能も向上することが示唆された。 さらに,本手法は本質的に確率性を取り入れ,不確実性の簡易定量化を可能にする。 したがって,提案手法は定量的MRマッピングに有意な可能性を秘めている。

Quantitative MRI (qMRI) offers significant advantages over weighted images by providing objective parameters related to tissue properties. Deep learning-based methods have demonstrated effectiveness in estimating quantitative maps from series of weighted images. In this study, we present qMRI Diffusor, a novel approach to qMRI utilising deep generative models. Specifically, we implemented denoising diffusion probabilistic models (DDPM) for T1 quantification in the brain, framing the estimation of quantitative maps as a conditional generation task. The proposed method is compared with the residual neural network (ResNet) and the recurrent inference machine (RIM) on both phantom and in vivo data. The results indicate that our method achieves improved accuracy and precision in parameter estimation, along with superior visual performance. Moreover, our method inherently incorporates stochasticity, enabling straightforward quantification of uncertainty. Hence, the proposed method holds significant promise for quantitative MR mapping.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# BONES:シェープ値のベンチマークfOrニューラル推定

BONES: a Benchmark fOr Neural Estimation of Shapley values ( http://arxiv.org/abs/2407.16482v1 )

ライセンス: Link先を確認
Davide Napolitano, Luca Cagliero, (参考訳) 共有価値(Shapley Values)は、eXplainable AIで確立された概念である。 それらは、モデルの結果に対する特徴の貢献を定量化することで、ブラックボックス予測モデルを説明するために使用される。 正確なShapley Valuesの計算は現実世界のデータセットで計算可能であることが知られているため、ニューラルネットワーク推定器は、近似されたShapley Values推定を得るために、代替的でスケーラブルなアプローチとして登場した。 しかし、現在神経推定器を用いた実験は、アルゴリズムの実装や説明器の評価器として再現することは困難であり、結果の可視化は標準化されておらず、すぐにも利用できない。 このギャップを埋めるために、我々は、Shapley Valueのニューラルネットワーク推定に焦点を当てた新しいベンチマークであるBONESを紹介する。 研究者には、最先端のニューラルネットワークと従来の推定器、一般的なベンチマークデータセットのセット、ブラックボックスモデルをトレーニングするためのアドホックモジュール、そして最も人気のある評価指標を計算し、結果を視覚化する特定の関数が提供されている。 目的は、XAIモデルの使用、評価、比較を単純化することである。 本稿では,表と画像データの両方に対して,XAIモデルベンチマークのBONES結果と可視化について述べる。 https://github.com/DavideNapolitano/BONES.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/

Shapley Values are concepts established for eXplainable AI. They are used to explain black-box predictive models by quantifying the features' contributions to the model's outcomes. Since computing the exact Shapley Values is known to be computationally intractable on real-world datasets, neural estimators have emerged as alternative, more scalable approaches to get approximated Shapley Values estimates. However, experiments with neural estimators are currently hard to replicate as algorithm implementations, explainer evaluators, and results visualizations are neither standardized nor promptly usable. To bridge this gap, we present BONES, a new benchmark focused on neural estimation of Shapley Value. It provides researchers with a suite of state-of-the-art neural and traditional estimators, a set of commonly used benchmark datasets, ad hoc modules for training black-box models, as well as specific functions to easily compute the most popular evaluation metrics and visualize results. The purpose is to simplify XAI model usage, evaluation, and comparison. In this paper, we showcase BONES results and visualizations for XAI model benchmarking on both tabular and image data. The open-source library is available at the following link: https://github.com/DavideNapolitano/BONES.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 分子偏光子の脱コヒーレンスに及ぼす強分子振動の影響

Influence of strong molecular vibrations on decoherence of molecular polaritons ( http://arxiv.org/abs/2407.16484v1 )

ライセンス: Link先を確認
Dominic M Rouse, Erik M Gauger, Brendon W Lovett, (参考訳) 共振共振器モードに結合した多数の分子からなる系の遷移速度, 劣化速度, ラムシフトを導出する。 変分極子マスター方程式を用いて、分子固有の強い振動相互作用は、複数のフォノン過程を生じさせ、光-物質結合を抑制することを示し、強い光-物質結合限界では、遷移への多重フォノン寄与と、典型的な分子パラメータに対する単一フォノン寄与よりも格段に強調される。 これにより、空洞内の分子数に対する速度とスペクトル線幅の新たな依存性が生じる。 また、振動ラムシフトは強い光-物質結合限界における偏光子エネルギーを実質的に変化させることができる。

We derive the transition rates, dephasing rates, and Lamb shifts for a system consisting of many molecules collectively coupled to a resonant cavity mode. Using a variational polaron master equation, we show that strong vibrational interactions inherent to molecules give rise to multi phonon processes and suppress the light--matter coupling. In the strong light--matter coupling limit, multi-phonon contributions to the transition and dephasing rates strongly dominate over single phonon contributions for typical molecular parameters. This leads to novel dependencies of the rates and spectral line widths on the number of molecules in the cavity. We also find that vibrational Lamb shifts can substantially modify the polariton energies in the strong light--matter coupling limit.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 実証学習による一般的な連続的制約の学習

Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning ( http://arxiv.org/abs/2407.16485v1 )

ライセンス: Link先を確認
Baiyu Peng, Aude Billard, (参考訳) 幅広い現実世界のタスクの計画には、すべての制約を知って記述する必要がある。 しかし、これらの制約が未知であるか、正確に指定することが難しいインスタンスが存在する。 可能な解決策は、専門家のデモンストレーションから未知の制約を推測することである。 先行研究の大部分は、単純な線形制約を学ぶことや、真の制約パラメータ化や環境モデルについて強い知識を必要とすることに限定されている。 これらの問題を緩和するために,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。 PU学習の観点からは、すべてのデータを実証的な(実現可能な)データとして扱うとともに、(サブ)最適ポリシーを学習し、高いリワードウィンディングと潜在的に実現不可能なトラジェクトリを生成し、実現不可能な状態と実用不可能な状態の両方を含むラベル付きデータとして機能する。 データ分散の仮定の下では、後処理PU学習技術により、2つのデータセットから実現不可能な分類器(すなわち制約モデル)が学習される。 この手法全体では、ポリシーを更新し、より高いリワードポリシーを生成し、選択し、制約モデルを更新する反復的なフレームワークが採用されている。 さらに、メモリバッファを導入して、以前のイテレーションからのサンプルを記録、再利用することで、忘れることを防ぐ。 提案手法の有効性は, 2つのムジョコ環境において検証され, 連続的な非線形制約を推定し, 制約精度と政策安全性の観点からベースライン法より優れていた。

Planning for a wide range of real-world tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. The majority of prior works limit themselves to learning simple linear constraints, or require strong knowledge of the true constraint parameterization or environmental model. To mitigate these problems, this paper presents a positive-unlabeled (PU) learning approach to infer a continuous, arbitrary and possibly nonlinear, constraint from demonstration. From a PU learning view, We treat all data in demonstrations as positive (feasible) data, and learn a (sub)-optimal policy to generate high-reward-winning but potentially infeasible trajectories, which serve as unlabeled data containing both feasible and infeasible states. Under an assumption on data distribution, a feasible-infeasible classifier (i.e., constraint model) is learned from the two datasets through a postprocessing PU learning technique. The entire method employs an iterative framework alternating between updating the policy, which generates and selects higher-reward policies, and updating the constraint model. Additionally, a memory buffer is introduced to record and reuse samples from previous iterations to prevent forgetting. The effectiveness of the proposed method is validated in two Mujoco environments, successfully inferring continuous nonlinear constraints and outperforming a baseline method in terms of constraint accuracy and policy safety.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 機械学習における調音作業とテクスチャリング

Articulation Work and Tinkering for Fairness in Machine Learning ( http://arxiv.org/abs/2407.16496v1 )

ライセンス: Link先を確認
Miriam Fahimi, Mayra Russo, Kristen M. Scott, Maria-Esther Vidal, Bettina Berendt, Katharina Kinder-Kurlanda, (参考訳) 公正なAIの分野は、計算モデリングを通じてバイアスのあるアルゴリズムに対抗することを目指している。 しかし、過度に技術的および還元主義的手法の使用を永続させることに対する批判が高まっている。 結果として、公正なAIに関するより社会的指向的で学際的(SOI)な視点に対処する新たなアプローチが、この分野に現れている。 本稿では,コンピュータ科学(CS)とSOI研究の緊張関係を研究するための出発点として,この力学を考察する。 STSとCSCW理論に基づいて、我々は公正なAI研究を「組織的アライメント」の問題として位置づけている。 CS研究者の質的なインタビューに基づいて、公正なAIの場合、実行可能な研究に必要なタスク、リソース、アクターを分析します。 CS研究者はある程度SOIに携わるが、組織的条件、調音作業、社会世界のあいまいさはSOI研究の実施可能性を制限する。 我々の知見に基づいて、我々はCSとSOIを公平なAIが進化し続けるにつれて調整する問題を特定し、議論する。

The field of fair AI aims to counter biased algorithms through computational modelling. However, it faces increasing criticism for perpetuating the use of overly technical and reductionist methods. As a result, novel approaches appear in the field to address more socially-oriented and interdisciplinary (SOI) perspectives on fair AI. In this paper, we take this dynamic as the starting point to study the tension between computer science (CS) and SOI research. By drawing on STS and CSCW theory, we position fair AI research as a matter of 'organizational alignment': what makes research 'doable' is the successful alignment of three levels of work organization (the social world, the laboratory and the experiment). Based on qualitative interviews with CS researchers, we analyze the tasks, resources, and actors required for doable research in the case of fair AI. We find that CS researchers engage with SOI to some extent, but organizational conditions, articulation work, and ambiguities of the social world constrain the doability of SOI research. Based on our findings, we identify and discuss problems for aligning CS and SOI as fair AI continues to evolve.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# ソースフリー物体検出のための動的リトレーニングアップ平均教師

Dynamic Retraining-Updating Mean Teacher for Source-Free Object Detection ( http://arxiv.org/abs/2407.16497v1 )

ライセンス: Link先を確認
Trinh Le Ba Khanh, Huy-Hung Nguyen, Long Hoang Pham, Duong Nguyen-Ngoc Tran, Jae Wook Jeon, (参考訳) オブジェクト検出では、教師なしドメイン適応(UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識の転送を目的としている。 しかし、UDAのラベル付きソースデータへの依存は、プライバシー関連のシナリオへの適応性を制限している。 本研究では、ラベル付きソースデータを用いることなく、ソース学習された検出器をラベル付きターゲットドメインに適応させる、ソースフリーなオブジェクト検出(SFOD)に焦点を当てる。 近年の自己学習の進歩、特に平均教師(MT)フレームワークは、SFODの展開を約束している。 しかし、ソース管理の欠如は、これらのアプローチの安定性を著しく損なう。 本研究では,(1) 学生モデルからの不適切な更新による教師モデルの制御不能な劣化,(2) 学生モデルが不正な擬似ラベルから誤りを再現する傾向,という2つの主要な課題を同定し,それを局所的な最適点に閉じ込める。 どちらの要因も有害な円形依存に寄与し、近年の自己学習フレームワークのパフォーマンスが急速に低下する。 これらの課題に対処するために,学生のトレーニングと教師の更新プロセスを積極的に管理し,共同進化的トレーニングを実現するダイナミック・リトレーニング・アップダレーション(DRU)機構を提案する。 さらに,不正確な擬似ラベルの影響を軽減するために,歴史学生ロスを導入する。 提案手法は,先進的UDA手法に匹敵する,あるいは超越した,複数のドメイン適応ベンチマークにおけるSFOD設定における最先端性能を実現する。 コードはhttps://github.com/lbktrinh/DRUで公開される。

In object detection, unsupervised domain adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. However, UDA's reliance on labeled source data restricts its adaptability in privacy-related scenarios. This study focuses on source-free object detection (SFOD), which adapts a source-trained detector to an unlabeled target domain without using labeled source data. Recent advancements in self-training, particularly with the Mean Teacher (MT) framework, show promise for SFOD deployment. However, the absence of source supervision significantly compromises the stability of these approaches. We identify two primary issues, (1) uncontrollable degradation of the teacher model due to inopportune updates from the student model, and (2) the student model's tendency to replicate errors from incorrect pseudo labels, leading to it being trapped in a local optimum. Both factors contribute to a detrimental circular dependency, resulting in rapid performance degradation in recent self-training frameworks. To tackle these challenges, we propose the Dynamic Retraining-Updating (DRU) mechanism, which actively manages the student training and teacher updating processes to achieve co-evolutionary training. Additionally, we introduce Historical Student Loss to mitigate the influence of incorrect pseudo labels. Our method achieves state-of-the-art performance in the SFOD setting on multiple domain adaptation benchmarks, comparable to or even surpassing advanced UDA methods. The code will be released at https://github.com/lbktrinh/DRU
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# ニューラル・インフォメーション・フィールド・フィルタ

Neural information field filter ( http://arxiv.org/abs/2407.16502v1 )

ライセンス: Link先を確認
Kairui Hao, Ilias Bilionis, (参考訳) 本研究では,大規模計測データセットを付加した高次元非線形力学系に対するニューラル情報場フィルタ,ベイズ状態およびパラメータ推定手法を提案する。 このような問題をカルマンや粒子フィルタといった従来の手法で解くのは計算コストがかかる。 情報場理論は、動的モデル状態パスを効率的に再構成し、ノイズ測定データからモデルパラメータを校正するベイズ的手法である。 本手法を適用するために,有限線形基底のスパンを用いて時間発展状態経路をパラメータ化する。 既存の方法は、初期状態を満たすために、状態パスを初期状態で再パラメータ化する必要がある。 真の状態パスを知る前に表現力のある単純な線形基底を設計することは、推論の正確性には不可欠だが困難である。 さらに、初期状態を用いた状態パスの再パラメータ化は線形ベースで容易に行うことができるが、ニューラルネットワークのようなより複雑で表現力のある関数パラメータ化では容易ではない。 本研究の目的は,情報場理論におけるニューラルネットワークを用いた状態経路パラメータ化のクラスを簡素化し,強化することである。 この目的のために、補助的な初期状態を用いて、一般化された物理インフォームド条件を前もって提案する。 既存のパラメータ化は特別なケースであることを示す。 線形基底関数と完全連結ニューラルネットワーク残関数を符号化するフーリエからなる残差ニューラルネットワークを用いて状態経路をパラメータ化する。 残基関数は線形基底関数の誤差を補正することを目的としている。 抽出可能な後方分布から抽出するために, 最適化アルゴリズム, ネスト確率変動推定アルゴリズム, サンプリングアルゴリズム, ネスト確率勾配ランゲヴィンダイナミクスを開発した。 提案手法の検証と検証を行う数値実験例のシリーズである。

We introduce neural information field filter, a Bayesian state and parameter estimation method for high-dimensional nonlinear dynamical systems given large measurement datasets. Solving such a problem using traditional methods, such as Kalman and particle filters, is computationally expensive. Information field theory is a Bayesian approach that can efficiently reconstruct dynamical model state paths and calibrate model parameters from noisy measurement data. To apply the method, we parameterize the time evolution state path using the span of a finite linear basis. The existing method has to reparameterize the state path by initial states to satisfy the initial condition. Designing an expressive yet simple linear basis before knowing the true state path is crucial for inference accuracy but challenging. Moreover, reparameterizing the state path using the initial state is easy to perform for a linear basis, but is nontrivial for more complex and expressive function parameterizations, such as neural networks. The objective of this paper is to simplify and enrich the class of state path parameterizations using neural networks for the information field theory approach. To this end, we propose a generalized physics-informed conditional prior using an auxiliary initial state. We show the existing reparameterization is a special case. We parameterize the state path using a residual neural network that consists of a linear basis function and a Fourier encoding fully connected neural network residual function. The residual function aims to correct the error of the linear basis function. To sample from the intractable posterior distribution, we develop an optimization algorithm, nested stochastic variational inference, and a sampling algorithm, nested preconditioned stochastic gradient Langevin dynamics. A series of numerical and experimental examples verify and validate the proposed method.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# HDRSplat:RAW画像からの高ダイナミックレンジ3次元シーン再構成のためのガウススプラッティング

HDRSplat: Gaussian Splatting for High Dynamic Range 3D Scene Reconstruction from Raw Images ( http://arxiv.org/abs/2407.16503v1 )

ライセンス: Link先を確認
Shreyas Singh, Aryan Garg, Kaushik Mitra, (参考訳) 近年の3Dガウススプラッティング(3DGS)の出現は、3Dシーンの再現空間に革命をもたらし、高忠実なノベルビューのリアルタイム合成を可能にした。 しかしながら、RawNeRFを除いて、以前の3DGSとNeRFベースの手法は全て、シーン再構成のための8ビットのトーンマップ付き低ダイナミックレンジ(LDR)画像に依存している。 このような手法は、より高いダイナミックレンジを必要とするシーンにおいて正確な再構築を実現するのに苦労する。 例えば、夜間に撮影されるシーンや、信号と雑音の比率が低い室内空間、日光の日景など、非常にコントラストが強いシーンがある。 提案手法は,14ビットの直線的原像を暗黒付近で直接トレーニングし,シーンの全ダイナミックレンジと内容を保存する。 まず、ノイズの多い暗黒領域とほぼ飽和した明るい領域からシーン情報を効果的に抽出する線形HDR空間整合損失を提案し、同時に、球面調和の度合いを増大させることなく視野依存色を扱う。 第二に、注意的なラスタライズチューニングにより、3DGSが点群の初期化に大きく依存していることと感度を暗黙的に克服する。 これは、低テクスチャ、高深度、低照度領域の正確な再構築に重要である。 HDRSplatは、14ビット(HDR)の3Dシーンを1秒あたり$$\le$15(最先端のRawNeRFより30倍速い)で再現する、これまでで最速の方法である。 また、予想速度は120fpsで最高。 さらに, 合成デフォーカス, 深度マップ抽出, 露光後制御, トーンマッピング, ビューポイントなど, 様々な応用を実演して, HDRシーンの再現性を実証した。

The recent advent of 3D Gaussian Splatting (3DGS) has revolutionized the 3D scene reconstruction space enabling high-fidelity novel view synthesis in real-time. However, with the exception of RawNeRF, all prior 3DGS and NeRF-based methods rely on 8-bit tone-mapped Low Dynamic Range (LDR) images for scene reconstruction. Such methods struggle to achieve accurate reconstructions in scenes that require a higher dynamic range. Examples include scenes captured in nighttime or poorly lit indoor spaces having a low signal-to-noise ratio, as well as daylight scenes with shadow regions exhibiting extreme contrast. Our proposed method HDRSplat tailors 3DGS to train directly on 14-bit linear raw images in near darkness which preserves the scenes' full dynamic range and content. Our key contributions are two-fold: Firstly, we propose a linear HDR space-suited loss that effectively extracts scene information from noisy dark regions and nearly saturated bright regions simultaneously, while also handling view-dependent colors without increasing the degree of spherical harmonics. Secondly, through careful rasterization tuning, we implicitly overcome the heavy reliance and sensitivity of 3DGS on point cloud initialization. This is critical for accurate reconstruction in regions of low texture, high depth of field, and low illumination. HDRSplat is the fastest method to date that does 14-bit (HDR) 3D scene reconstruction in $\le$15 minutes/scene ($\sim$30x faster than prior state-of-the-art RawNeRF). It also boasts the fastest inference speed at $\ge$120fps. We further demonstrate the applicability of our HDR scene reconstruction by showcasing various applications like synthetic defocus, dense depth map extraction, and post-capture control of exposure, tone-mapping and view-point.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 低レベルMPCのための言語ベースのセキュリティ

Language-Based Security for Low-Level MPC ( http://arxiv.org/abs/2407.16504v1 )

ライセンス: Link先を確認
Christian Skalka, Joseph P. Near, (参考訳) Secure Multi-Party Computation (MPC)は、現代の分散アプリケーションにおけるデータプライバシを実現する重要な技術である。 現在、低レベルのMPCプロトコルの証明方法は、主に手動であり、退屈でエラーを起こしやすいものであり、ほとんどのPL理論者には馴染みのない規格化されていない。 言語サポートの改善と言語ベースの実施に向けたステップとして,多種多様な低レベルの確率的MPCプロトコルを定義するための,新たな段階的なPLを開発した。 また、条件付き非干渉、段階的リリース、堅牢な非分類など、情報フローに精通した言語モデルの機密性や整合性の超越性も定式化します。 我々は、パッシブおよび悪意のあるセキュリティの標準MPC脅威モデルとそれらの関係を示し、プロトコルのセキュリティ検証にどのように活用できるかを示す。 これらの特性を証明するために、分離ロジックスタイルの推論と統合できる$\mathbb{F}_2$で自動戦術を開発する。

Secure Multi-Party Computation (MPC) is an important enabling technology for data privacy in modern distributed applications. Currently, proof methods for low-level MPC protocols are primarily manual and thus tedious and error-prone, and are also non-standardized and unfamiliar to most PL theorists. As a step towards better language support and language-based enforcement, we develop a new staged PL for defining a variety of low-level probabilistic MPC protocols. We also formulate a collection of confidentiality and integrity hyperproperties for our language model that are familiar from information flow, including conditional noninterference, gradual release, and robust declassification. We demonstrate their relation to standard MPC threat models of passive and malicious security, and how they can be leveraged in security verification of protocols. To prove these properties we develop automated tactics in $\mathbb{F}_2$ that can be integrated with separation logic-style reasoning.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# ToDER:Geometry Constraint Adaptationによる大腸内視鏡的深さ推定と再構成を目指して

ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation ( http://arxiv.org/abs/2407.16508v1 )

ライセンス: Link先を確認
Zhenhua Wu, Yanlin Jin, Liangdong Qiu, Xiaoguang Han, Xiang Wan, Guanbin Li, (参考訳) 大腸内視鏡検査は, 十分に観察されていない領域で検出されていないポリープを予防するために, 医療補助診断に不可欠である。 従来の特徴に基づく,深度に基づく再建手法は,非正確な点マッチングや非正確な深さ推定によって望ましくない結果に終わることが多い。 現代のディープベース法は、しばしば十分な数の基底真理サンプルを必要とするが、一般的には光学的大腸内視鏡では入手が困難である。 この問題に対処するため,自己監督型およびドメイン適応型手法が検討されている。 しかし,これらの手法は幾何制約を無視し,詳細な深度予測の精度を低下させる。 そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。 さらに,我々の適応アーキテクチャにおけるTNetモジュールを慎重に設計し,幾何学的制約を課し,より深い品質を得る。 最終的に推定深度を利用して、可視化のための信頼性の高い大腸モデルを再構築する。 実験により,本手法は,他の自己監督的・ドメイン適応法と比較して,リアルおよび合成的大腸内視鏡ビデオの深度マップを正確に予測できることが示唆された。 実地的大腸内視鏡検査では,未観察領域の可視化や誤診の予防にも大きな可能性を秘めている。

Visualizing colonoscopy is crucial for medical auxiliary diagnosis to prevent undetected polyps in areas that are not fully observed. Traditional feature-based and depth-based reconstruction approaches usually end up with undesirable results due to incorrect point matching or imprecise depth estimation in realistic colonoscopy videos. Modern deep-based methods often require a sufficient number of ground truth samples, which are generally hard to obtain in optical colonoscopy. To address this issue, self-supervised and domain adaptation methods have been explored. However, these methods neglect geometry constraints and exhibit lower accuracy in predicting detailed depth. We thus propose a novel reconstruction pipeline with a bi-directional adaptation architecture named ToDER to get precise depth estimations. Furthermore, we carefully design a TNet module in our adaptation architecture to yield geometry constraints and obtain better depth quality. Estimated depth is finally utilized to reconstruct a reliable colon model for visualization. Experimental results demonstrate that our approach can precisely predict depth maps in both realistic and synthetic colonoscopy videos compared with other self-supervised and domain adaptation methods. Our method on realistic colonoscopy also shows the great potential for visualizing unobserved regions and preventing misdiagnoses.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# DreamVTON:パーソナライズされた拡散モデルによる3Dバーチャルトライオンのカスタマイズ

DreamVTON: Customizing 3D Virtual Try-on with Personalized Diffusion Models ( http://arxiv.org/abs/2407.16511v1 )

ライセンス: Link先を確認
Zhenyu Xie, Haoye Dong, Yufei Gao, Zehua Ma, Xiaodan Liang, (参考訳) 画像ベースの3D仮想トライオン(VTON)は、人や衣服の画像に基づいて3D人間を彫刻することを目的としている。 近年のテキスト・トゥ・3D法は高忠実度3次元ヒューマン・ジェネレーションにおいて顕著な改善を実現し、3次元バーチャル・トライオンの可能性を示している。 2次元VTONでパーソナライズされた拡散モデル(例:Dreambooth,LoRA)の成功に触発されて、パーソナライズ技術を拡散ベースのテキスト・トゥ・3Dフレームワークに統合することで3次元VTONを実現することは容易である。 しかし、事前訓練された拡散モデル(例えば、StableDiffusion (SD))におけるパーソナライズされたモジュールの使用は、スコア蒸留サンプリング(SDS)の損失によって導かれる幾何学やテクスチャ最適化に寄与するマルチビューやマルチドメイン合成におけるモデルの能力を低下させる。 本研究では,3次元人間の形状とテクスチャを個別に最適化するために,新しい3次元人体試行モデルであるtextbf{DreamVTON}を提案する。 具体的には、多概念LoRAを用いたパーソナライズされたSDを提案し、特定の人や衣服について生成した事前情報を提供する一方、Densepose-guided ControlNetは、様々なカメラビューにおけるボディポーズに関する一貫した事前情報を保証するために利用される。 さらにDreamVTONでは、形状学習にマスクテンプレート、幾何学/テクスチャ詳細学習にノーマル/RGBテンプレートを使用するテンプレートベースの最適化機構を導入している。 さらに、幾何学最適化フェーズでは、DreamVTONは正規スタイルのLoRAをパーソナライズされたSDに統合し、通常の地図生成の事前性を高め、滑らかな幾何学モデリングを容易にする。

Image-based 3D Virtual Try-ON (VTON) aims to sculpt the 3D human according to person and clothes images, which is data-efficient (i.e., getting rid of expensive 3D data) but challenging. Recent text-to-3D methods achieve remarkable improvement in high-fidelity 3D human generation, demonstrating its potential for 3D virtual try-on. Inspired by the impressive success of personalized diffusion models (e.g., Dreambooth and LoRA) for 2D VTON, it is straightforward to achieve 3D VTON by integrating the personalization technique into the diffusion-based text-to-3D framework. However, employing the personalized module in a pre-trained diffusion model (e.g., StableDiffusion (SD)) would degrade the model's capability for multi-view or multi-domain synthesis, which is detrimental to the geometry and texture optimization guided by Score Distillation Sampling (SDS) loss. In this work, we propose a novel customizing 3D human try-on model, named \textbf{DreamVTON}, to separately optimize the geometry and texture of the 3D human. Specifically, a personalized SD with multi-concept LoRA is proposed to provide the generative prior about the specific person and clothes, while a Densepose-guided ControlNet is exploited to guarantee consistent prior about body pose across various camera views. Besides, to avoid the inconsistent multi-view priors from the personalized SD dominating the optimization, DreamVTON introduces a template-based optimization mechanism, which employs mask templates for geometry shape learning and normal/RGB templates for geometry/texture details learning. Furthermore, for the geometry optimization phase, DreamVTON integrates a normal-style LoRA into personalized SD to enhance normal map generative prior, facilitating smooth geometry modeling.
翻訳日:2024-07-24 17:06:21 公開日:2024-07-23
# 5Dテンソルによる3Dコンボリューションはビデオ解析に本当に必要か?

Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis? ( http://arxiv.org/abs/2407.16514v1 )

ライセンス: Link先を確認
Habib Hajimolahoseini, Walid Ahmed, Austin Wen, Yang Liu, (参考訳) 本稿では,4次元および/または3次元テンソルのみを用いた2次元および/または1次元の畳み込みを用いた3次元畳み込みブロックの実装手法を提案する。 私たちのモチベーションは、5Dテンソルを用いた3Dコンボリューションが計算に非常に高価であり、ロボットのようなリアルタイムアプリケーションで使用されるエッジデバイスではサポートされないということです。 既存のアプローチでは、3Dカーネルを空間的および時間的領域に分割することでこれを緩和するが、5Dテンソルを実装した3D畳み込みを使用する。 空間分割と時間分割のための新しい組み合わせ技術と同様に、適切な4D/3Dテンソル変換を導入することで、この問題を解決する。 提案手法は,効率と精度の両面で有意な改善を示した。 実験により,提案した時空間処理構造は,パラメータが少ない4次元テンソルのみを用いて,速度と精度で元のモデルより優れていることを確認した。

In this paper, we present a comprehensive study and propose several novel techniques for implementing 3D convolutional blocks using 2D and/or 1D convolutions with only 4D and/or 3D tensors. Our motivation is that 3D convolutions with 5D tensors are computationally very expensive and they may not be supported by some of the edge devices used in real-time applications such as robots. The existing approaches mitigate this by splitting the 3D kernels into spatial and temporal domains, but they still use 3D convolutions with 5D tensors in their implementations. We resolve this issue by introducing some appropriate 4D/3D tensor reshaping as well as new combination techniques for spatial and temporal splits. The proposed implementation methods show significant improvement both in terms of efficiency and accuracy. The experimental results confirm that the proposed spatio-temporal processing structure outperforms the original model in terms of speed and accuracy using only 4D tensors with fewer parameters.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 説明的相互作用は役立つか?

Spurious Correlations in Concept Drift: Can Explanatory Interaction Help? ( http://arxiv.org/abs/2407.16515v1 )

ライセンス: Link先を確認
Cristiana Lalletti, Stefano Teso, (参考訳) 長時間稼働する機械学習モデルは概念ドリフト(CD)の問題に直面し、データ分布は時間とともに変化し、予測性能が低下する。 モデルの更新には、予期しない変更のためにデータや/またはモデルを監視してドリフトを検出する必要がある。 しかし,スプリアス相関(SC)は検出アルゴリズムによって追跡される統計を損なう可能性がある。 そこで本研究では,モデル説明を利用して潜在的なSCと人間のフィードバックを同定し,その修正を行う新しい検知器であるebc-exstreamを紹介した。 エントロピーベースのヒューリスティックを利用して、必要なフィードバックの量を削減し、アノテーションのコストを削減します。 人工的に構築したデータに対する予備実験では,検出に対するSCの影響を低減するためのebc-exstreamの可能性を強調した。

Long-running machine learning models face the issue of concept drift (CD), whereby the data distribution changes over time, compromising prediction performance. Updating the model requires detecting drift by monitoring the data and/or the model for unexpected changes. We show that, however, spurious correlations (SCs) can spoil the statistics tracked by detection algorithms. Motivated by this, we introduce ebc-exstream, a novel detector that leverages model explanations to identify potential SCs and human feedback to correct for them. It leverages an entropy-based heuristic to reduce the amount of necessary feedback, cutting annotation costs. Our preliminary experiments on artificially confounded data highlight the promise of ebc-exstream for reducing the impact of SCs on detection.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# ドイツ語Webデータのトピック分類のための文脈内学習と微調整の評価

Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data ( http://arxiv.org/abs/2407.16516v1 )

ライセンス: Link先を確認
Julian Schelb, Roberto Ulloa, Andreas Spitz, (参考訳) 政治・社会科学の研究者はしばしば、数百万のWebページの閲覧履歴を調べて情報消費の傾向を分析するために分類モデルに頼っている。 手動ラベリングの非現実性のため、スケーラブルな自動手法が必要である。 本稿では、トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化し、微調整済みエンコーダモデルの精度をコンテキスト内学習戦略と比較する。 トピックごとの注釈付きデータポイントはわずか数百で、スクラップされたWebページのデータベースでドイツの3つのポリシーに関連するコンテンツを検出する。 複数言語モデルと単言語モデル,ゼロと少数ショットのアプローチを比較し,負のサンプリング戦略とURLとコンテンツベースの機能の組み合わせの影響について検討する。 その結果,注釈付きデータの小さなサンプルは有効な分類器を訓練するのに十分であることがわかった。 微調整エンコーダベースのモデルでは、文脈内学習よりも優れた結果が得られる。 URLとコンテンツベースの両方の機能を使用する分類器は、コンテンツが利用できない場合には、URLのみを使用すると適切な結果が得られる。

Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# AMONGAGENTS:インタラクティブテキストベースのソーシャル推論ゲームにおける大規模言語モデルの評価

AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game ( http://arxiv.org/abs/2407.16521v1 )

ライセンス: Link先を確認
Yizhou Chi, Lingjun Mao, Zineng Tang, (参考訳) 戦略的社会的推論ゲームは、言語モデルの理解と推論のスキルを評価する上で貴重なテストベッドとなり、社会科学、人工知能、戦略ゲームに関する重要な洞察を提供する。 本稿では、シミュレーション環境における人間の行動のプロキシの作成に焦点をあて、シミュレーションされた人間の行動を研究するためのツールとして、‘textit{Among Us} を用いている。 この研究は、テキストベースのゲーム環境であるPhireAgentを紹介し、これは \textit{Among Us} のダイナミクスを反映している。 プレイヤーは宇宙船の乗組員として働き、船を妨害し乗組員を排除している使者を特定する。 この環境下では、シミュレートされた言語エージェントの挙動を解析する。 実験には、CrewmatesとImpostorpersonal archetypeの異なる構成を特徴とする多様なゲームシーケンスが含まれている。 我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。 この研究は、不完全な情報と複雑なアクション空間を持つゴール指向ゲームにおけるLLMのさらなる探索を促進することを目的としており、これらの設定は、社会的に駆動されたシナリオにおける言語モデルのパフォーマンスを評価する貴重な機会を提供する。

Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with \textit{Among Us} utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgent, that mirrors the dynamics of \textit{Among Us}. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 不完全なビジョンエンコーダ:視覚言語モデルのための効率的かつロバストなチューニング

Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models ( http://arxiv.org/abs/2407.16526v1 )

ライセンス: Link先を確認
Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E Turner, (参考訳) 視覚言語モデル(VLM)は視覚的質問応答と画像キャプションの優れた機能を示し、視覚モデルと言語モデルの間に重要なリンクとして機能する。 しかし、既存のオープンソースのVLMは、事前訓練された凍結されたビジョンエンコーダ(CLIPなど)に大きく依存している。 CLIPはさまざまなドメインにまたがる堅牢性にもかかわらず、画像理解エラーは無視できない。 これらのエラーはVLM応答に伝播し、結果として準最適性能をもたらす。 本稿では,VLM内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。 提案手法は,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅なパフォーマンス向上を実現し,全体的な堅牢性を維持した。 さらに,連続的な数ショット更新において,本手法の有効性を示す。 理論的基礎、一般化、計算効率は我々のアプローチを特徴づける。

Vision language models (VLMs) demonstrate impressive capabilities in visual question answering and image captioning, acting as a crucial link between visual and language models. However, existing open-source VLMs heavily rely on pretrained and frozen vision encoders (such as CLIP). Despite CLIP's robustness across diverse domains, it still exhibits non-negligible image understanding errors. These errors propagate to the VLM responses, resulting in sub-optimal performance. In our work, we propose an efficient and robust method for updating vision encoders within VLMs. Our approach selectively and locally updates encoders, leading to substantial performance improvements on data where previous mistakes occurred, while maintaining overall robustness. Furthermore, we demonstrate the effectiveness of our method during continual few-shot updates. Theoretical grounding, generality, and computational efficiency characterize our approach.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 和不確かさ関係からの最小不確かさ状態と圧縮状態

Minimum uncertainty states and squeezed states from sum uncertainty relation ( http://arxiv.org/abs/2407.16530v1 )

ライセンス: Link先を確認
Yatindra Kumar, Yashraj Jha, Namrata Shukla, (参考訳) ハイゼンベルクの不確実性関係は、最小の不確実性状態と光の圧縮状態の理解の起源である。 近年では、2つの非互換可観測物の集合に対する既存のハイゼンベルク・ロバートソン積の不確実性関係よりも強いと主張されているマクコーネ・パティ(英語版)(Phys. Lett. 113, 260401 (2014)))によって和の不確実性関係が定式化された。 我々は、従来よりも弱いが、和の不確実性関係に対して MUS を定義するのに十分な異なる和不確実性関係を導出する。 和の不確実性関係の MUS は、常に伝統的な積の不確実性関係の MUS であると主張する。 これは、圧縮状態の定義が強い和の不確実性関係によって完全に影響を受けないことを意味する。

Heisenberg uncertainty relation is at the origin of understanding minimum uncertainty states and squeezed states of light. In the recent past, sum uncertainty relation was formulated by Maccone and Pati [Phys. Rev. Lett. 113, 260401 (2014)] which is claimed to be stronger than the existing Heisenberg-Robertson product uncertainty relation for the set of two incompatible observables. We deduce a different sum uncertainty relation that is weaker than the previous but necessary and sufficient to define MUS for sum uncertainty relations. We claim that the MUS for the sum uncertainty relation is always the MUS for the traditional product uncertainty relation. This means that the definition of squeezed states remains completely unaffected by the stronger sum uncertainty relation.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# HAPFI:融合情報に基づく歴史認識計画

HAPFI: History-Aware Planning based on Fused Information ( http://arxiv.org/abs/2407.16533v1 )

ライセンス: Link先を確認
Sujin Jeon, Suyeon Shin, Byoung-Tak Zhang, (参考訳) EIF(Embodied Instruction following)は、高水準の自然言語命令を与えられた一連のサブゴールを計画するタスクである。 このような長期的地平線処理をうまく実行するためには、エージェントはそれぞれのステップで決定を行う際に、過去の、すなわち過去のデータを考える必要があると論じる。 しかしながら、近年のEIFのアプローチは、歴史的データからの知識を無視することが多く、また、モダリティの情報を効果的に活用しない。 そこで本稿では,エージェントが環境と対話しながら収集する多様なモダリティの履歴データを効果的に活用する,融合情報に基づくヒストリー・アウェア・プランニング(HAPFI)を提案する。 具体的には、HAPFIは、過去のRGB観測、バウンディングボックス、サブゴール、高レベル命令を含む複数のモードを統合する。 多様な比較実験により、過去のマルチモーダル情報を利用したエージェントは、行動計画能力において過去のデータを無視する比較手法を全て超越し、次のステップで適切に表現された行動計画を作成することができることを示した。 さらに, エージェントが中間的障害に遭遇するシナリオにおいて, 歴史的マルチモーダルデータを活用することの重要性を示す定性的な証拠を提示し, その堅牢な再計画能力を示す。

Embodied Instruction Following (EIF) is a task of planning a long sequence of sub-goals given high-level natural language instructions, such as "Rinse a slice of lettuce and place on the white table next to the fork". To successfully execute these long-term horizon tasks, we argue that an agent must consider its past, i.e., historical data, when making decisions in each step. Nevertheless, recent approaches in EIF often neglects the knowledge from historical data and also do not effectively utilize information across the modalities. To this end, we propose History-Aware Planning based on Fused Information (HAPFI), effectively leveraging the historical data from diverse modalities that agents collect while interacting with the environment. Specifically, HAPFI integrates multiple modalities, including historical RGB observations, bounding boxes, sub-goals, and high-level instructions, by effectively fusing modalities via our Mutually Attentive Fusion method. Through experiments with diverse comparisons, we show that an agent utilizing historical multi-modal information surpasses all the compared methods that neglect the historical data in terms of action planning capability, enabling the generation of well-informed action plans for the next step. Moreover, we provided qualitative evidence highlighting the significance of leveraging historical multi-modal data, particularly in scenarios where the agent encounters intermediate failures, showcasing its robust re-planning capabilities.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 音声認識におけるテキスト予測可能性の役割の定量化

Quantifying the Role of Textual Predictability in Automatic Speech Recognition ( http://arxiv.org/abs/2407.16537v1 )

ライセンス: Link先を確認
Sean Robertson, Gerald Penn, Ewan Dunbar, (参考訳) 音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力と、高次文脈(語彙、形態学、構文、意味論)を活用する能力にどのように当てはめるかである。 我々は,テキスト予測可能性の関数として誤り率をモデル化し,認識者に対するテキスト予測可能性の影響を計測する1つの数,$k$を得る新しい手法を検証する。 本稿では,Wav2Vec 2.0 ベースのモデルが,明示的な言語モデルを使用しないにもかかわらず,ハイブリッド ASR モデルよりもテキストコンテキストをより強く活用できることを実証するために用いるとともに,アフリカ系アメリカ人英語における標準 ASR システムの性能の低下を示す最近の結果に光を当てるために使用する。 これらは主に音響-音響-音響モデリングの失敗を表す。 本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。

A long-standing question in automatic speech recognition research is how to attribute errors to the ability of a model to model the acoustics, versus its ability to leverage higher-order context (lexicon, morphology, syntax, semantics). We validate a novel approach which models error rates as a function of relative textual predictability, and yields a single number, $k$, which measures the effect of textual predictability on the recognizer. We use this method to demonstrate that a Wav2Vec 2.0-based model makes greater stronger use of textual context than a hybrid ASR model, in spite of not using an explicit language model, and also use it to shed light on recent results demonstrating poor performance of standard ASR systems on African-American English. We demonstrate that these mostly represent failures of acoustic--phonetic modelling. We show how this approach can be used straightforwardly in diagnosing and improving ASR.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 高度なデータ拡張技術による暗号化されたインターネットトラフィック分類の強化

Enhancing Encrypted Internet Traffic Classification Through Advanced Data Augmentation Techniques ( http://arxiv.org/abs/2407.16539v1 )

ライセンス: Link先を確認
Yehonatan Zion, Porat Aharon, Ran Dubin, Amit Dvir, Chen Hajaj, (参考訳) オンラインサービスの人気が高まっているため、インターネットトラフィック分類は重要な研究分野となっている。 しかし、インターネットプロトコルと暗号化の急速な発展により、利用可能なデータの可用性は制限される。 本稿では、オープンソースのデータセットの不足と既存のトラフィックの制限に着目し、暗号化されたインターネットトラフィックを分類することの課題に対処する。 本研究では,データ拡張(DA)手法を2つ提案し,実データに基づいてデータを生成する。 平均的な拡張は、新しい合成サンプルを生成することによってデータセットのサイズを増やすことを目的としており、MTUの拡張は、様々な最大伝送ユニット(MTU)に分類器の堅牢性を高める。 2つの有名な学術的データセットと商業的データセットを用いて実験を行い、モデル性能の向上と制約の緩和におけるこれらのアプローチの有効性を実証した。 我々の研究結果は、現代のインターネットトラフィック分類の課題に対処する上で、データ拡張の可能性を強調している。 具体的には,この拡張技術により,暗号化されたトラフィック分類モデルが大幅に向上することを示す。 この改善は、トラフィックをより正確にビデオストリーミング(例:YouTube)やチャット(例:Google Chat)に分類することで、ユーザのQoE(Quality of Experience)に影響を与える可能性がある。 さらに、ファイルダウンロードアクティビティ(Google Docsなど)のクオリティ・オブ・サービス(QoS)も強化できる。

The increasing popularity of online services has made Internet Traffic Classification a critical field of study. However, the rapid development of internet protocols and encryption limits usable data availability. This paper addresses the challenges of classifying encrypted internet traffic, focusing on the scarcity of open-source datasets and limitations of existing ones. We propose two Data Augmentation (DA) techniques to synthetically generate data based on real samples: Average augmentation and MTU augmentation. Both augmentations are aimed to improve the performance of the classifier, each from a different perspective: The Average augmentation aims to increase dataset size by generating new synthetic samples, while the MTU augmentation enhances classifier robustness to varying Maximum Transmission Units (MTUs). Our experiments, conducted on two well-known academic datasets and a commercial dataset, demonstrate the effectiveness of these approaches in improving model performance and mitigating constraints associated with limited and homogeneous datasets. Our findings underscore the potential of data augmentation in addressing the challenges of modern internet traffic classification. Specifically, we show that our augmentation techniques significantly enhance encrypted traffic classification models. This improvement can positively impact user Quality of Experience (QoE) by more accurately classifying traffic as video streaming (e.g., YouTube) or chat (e.g., Google Chat). Additionally, it can enhance Quality of Service (QoS) for file downloading activities (e.g., Google Docs).
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# QPT V2: マスク付き画像モデリングがビジュアルスコーリングを向上

QPT V2: Masked Image Modeling Advances Visual Scoring ( http://arxiv.org/abs/2407.16541v1 )

ライセンス: Link先を確認
Qizhi Xie, Kun Yuan, Yunpeng Qu, Mingda Wu, Ming Sun, Chao Zhou, Jihong Zhu, (参考訳) 品質評価と美学評価は,視覚コンテンツの品質と美学を評価することを目的としている。 現在の学習ベースの手法はラベル付きデータの不足に悩まされており、通常は一般化の面で準最適に実行される。 マスク画像モデリング(MIM)は、様々なハイレベルなタスク(例えば、分類、検出など)において注目すべき進歩を遂げている。 本研究は,品質と美学の両面からその能力を検討するために,新しい視点を採っている。 そこで本研究では,MIMに基づく最初の事前学習フレームワークであるQPT V2(Quality- and Aesthetics-Aware Pretraining)を提案する。 高レベルのセマンティクスときめ細かい詳細を知覚するために、事前学習データをキュレートする。 品質関連および美学関連因子を包括的に包括的に包括的に包括するために、劣化を導入する。 マルチスケールの品質と美的情報をキャプチャするために、モデル構造を変更する。 11のダウンストリームベンチマークによる大規模な実験結果は、現在の最先端アプローチや他の事前学習パラダイムと比較して、QPT V2の優れた性能を示している。 コードとモデルは \url{https://github.com/KeiChiTse/QPT-V2} でリリースされる。

Quality assessment and aesthetics assessment aim to evaluate the perceived quality and aesthetics of visual content. Current learning-based methods suffer greatly from the scarcity of labeled data and usually perform sub-optimally in terms of generalization. Although masked image modeling (MIM) has achieved noteworthy advancements across various high-level tasks (e.g., classification, detection etc.). In this work, we take on a novel perspective to investigate its capabilities in terms of quality- and aesthetics-awareness. To this end, we propose Quality- and aesthetics-aware pretraining (QPT V2), the first pretraining framework based on MIM that offers a unified solution to quality and aesthetics assessment. To perceive the high-level semantics and fine-grained details, pretraining data is curated. To comprehensively encompass quality- and aesthetics-related factors, degradation is introduced. To capture multi-scale quality and aesthetic information, model structure is modified. Extensive experimental results on 11 downstream benchmarks clearly show the superior performance of QPT V2 in comparison with current state-of-the-art approaches and other pretraining paradigms. Code and models will be released at \url{https://github.com/KeiChiTse/QPT-V2}.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 最近近傍を用いたカーネル型条件付き2サンプル試験(校正・回帰曲線・シミュレーションベース推論への応用)

A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference) ( http://arxiv.org/abs/2407.16550v1 )

ライセンス: Link先を確認
Anirban Chatterjee, Ziang Niu, Bhaswar B. Bhattacharya, (参考訳) 本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。 カーネルトリック」と最寄りのグラフを用いて、ほぼ線形時間(近傍の固定数)で計算できるこの測度を一貫した推定法を提案する。 さらに、2つの条件分布が同じ場合、推定はガウス極限を持ち、その漸近分散はデータから容易に推定できる単純な形式を持つ。 結果として得られた試験は、正確な漸近レベルに達し、2つの条件分布の差を検出するために普遍的に一致している。 また, 有限サンプルにおけるタイプI誤差を制御し, 有限個の再サンプルのみと漸近的に整合性を有する条件付き善良性問題に適用可能な, 推定値を用いた再サンプリングベーステストも提供する。 再サンプリングテストの非ランダム化方法も提示する。 提案手法は、古典的非パラメトリック統計学から現代の機械学習まで、幅広い問題に容易に適用できる。 具体的には,実験モデルキャリブレーション,回帰曲線評価,シミュレーションベース推論におけるエミュレータモデルの検証の3つの応用について検討する。 シミュレーションと実データの両方において,本手法の優れた性能について述べる。 具体的には,(1)CIFAR-10データセットでトレーニングしたニューラルネットワークモデルの校正,(2)2つの異なるタービン間での風力発電の回帰関数の比較,(3)銀河画像に付随する合成「赤方偏移」を生成するためのエミュレータモデルの有効性を検証する。

In this paper we introduce a kernel-based measure for detecting differences between two conditional distributions. Using the `kernel trick' and nearest-neighbor graphs, we propose a consistent estimate of this measure which can be computed in nearly linear time (for a fixed number of nearest neighbors). Moreover, when the two conditional distributions are the same, the estimate has a Gaussian limit and its asymptotic variance has a simple form that can be easily estimated from the data. The resulting test attains precise asymptotic level and is universally consistent for detecting differences between two conditional distributions. We also provide a resampling based test using our estimate that applies to the conditional goodness-of-fit problem, which controls Type I error in finite samples and is asymptotically consistent with only a finite number of resamples. A method to de-randomize the resampling test is also presented. The proposed methods can be readily applied to a broad range of problems, ranging from classical nonparametric statistics to modern machine learning. Specifically, we explore three applications: testing model calibration, regression curve evaluation, and validation of emulator models in simulation-based inference. We illustrate the superior performance of our method for these tasks, both in simulations as well as on real data. In particular, we apply our method to (1) assess the calibration of neural network models trained on the CIFAR-10 dataset, (2) compare regression functions for wind power generation across two different turbines, and (3) validate emulator models on benchmark examples with intractable posteriors and for generating synthetic `redshift' associated with galaxy images.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# MicroEmo:ビデオ対話におけるマイクロ圧縮ダイナミクスを用いた時間感度マルチモーダル感情認識

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues ( http://arxiv.org/abs/2407.16552v1 )

ライセンス: Link先を確認
Liyun Zhang, (参考訳) マルチモーダル大言語モデル(MLLM)は、視覚的、音響的、言語的文脈から多モーダルなキューを統合し、人間の感情状態を認識することで、目覚ましいマルチモーダルな感情認識能力を示した。 しかし、既存の手法では、マイクロ表現の時間的ダイナミクスの局所的な顔の特徴を捉えることを無視し、ビデオ中の発話認識時間セグメントの文脈依存性を活用せず、期待される効果をある程度制限する。 本研究では,局所的な顔のマイクロ圧縮ダイナミクスと発話認識ビデオクリップの文脈依存性に注意を向けた,時間に敏感なMLLMであるMicroEmoを提案する。 提案モデルでは,(1)グローバルなフレームレベルのタイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴を統合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成して,複数のスケールおよびコンテキスト依存性をキャプチャする発話対応ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。 予備的な質的実験では、複数モーダルおよび多面的手がかりを利用して、オープンボキャブラリ(OV)方式で感情を予測するEMER(Explainable Multimodal Emotion Recognition)タスクにおいて、MicroEmoは最新の手法と比較してその効果を示す。

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal emotion recognition capabilities, integrating multimodal cues from visual, acoustic, and linguistic contexts in the video to recognize human emotional states. However, existing methods ignore capturing local facial features of temporal dynamics of micro-expressions and do not leverage the contextual dependencies of the utterance-aware temporal segments in the video, thereby limiting their expected effectiveness to a certain extent. In this work, we propose MicroEmo, a time-sensitive MLLM aimed at directing attention to the local facial micro-expression dynamics and the contextual dependencies of utterance-aware video clips. Our model incorporates two key architectural contributions: (1) a global-local attention visual encoder that integrates global frame-level timestamp-bound image features with local facial features of temporal dynamics of micro-expressions; (2) an utterance-aware video Q-Former that captures multi-scale and contextual dependencies by generating visual token sequences for each utterance segment and for the entire video then combining them. Preliminary qualitative experiments demonstrate that in a new Explainable Multimodal Emotion Recognition (EMER) task that exploits multi-modal and multi-faceted clues to predict emotions in an open-vocabulary (OV) manner, MicroEmo demonstrates its effectiveness compared with the latest methods.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 貯留層工学による量子電池の超最適充電

Super-Optimal Charging of Quantum Batteries via Reservoir Engineering ( http://arxiv.org/abs/2407.16553v1 )

ライセンス: Link先を確認
Borhan Ahmadi, Paweł Mazurek, Shabir Barzanjeh, Paweł Horodecki, (参考訳) エネルギー散逸は、通常は望ましくないプロセスと見なされるが、近年、量子電池の性能を最適化するための資源として利用されることが示されている。 この観点から、コヒーレント充電器と電池の相互作用を、エンジニアリングされた共有貯水池による散逸相互作用に置き換える新しい充電技術を紹介した。 我々は, 工学的共有貯水池の集合的効果を利用して, エネルギーの最適再分配をもたらす余分な最適化が可能であり, 充電効率が著しく向上することが実証された。 この記事では、共有環境のコンテキストにおける内蔵デチューニングの複雑さを明らかにし、関連する充電メカニズムをより深く理解する。 これらの知見は、量子回路のバッテリアーキテクチャーに自然に適用され、これらのシステムにおける効率的なエネルギー貯蔵の可能性を示している。 さらに、超最適充電は、充電器バッテリ構成の実用的な正当性を提供する。

Energy dissipation, typically considered an undesirable process, has recently been shown to be harnessed as a resource to optimize the performance of a quantum battery. Following this perspective, we introduce a novel technique of charging in which coherent charger-battery interaction is replaced by a dissipative interaction via an engineered shared reservoir. We demonstrate that exploiting collective effects of the engineered shared reservoir allows for extra optimization giving rise to optimal redistribution of energy, which leads to a significant enhancement in the efficiency of the charging process. The article unveils the intricacies of built-in detuning within the context of a shared environment, offering a deeper understanding of the charging mechanisms involved. These findings apply naturally to quantum circuit battery architectures, suggesting the feasibility of efficient energy storage in these systems. Moreover, the super-optimal charging offers a practical justification for charger-battery configurations.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# 音声の時間的偽造検出と位置推定のための粗大な提案補充フレームワーク

Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization ( http://arxiv.org/abs/2407.16554v1 )

ライセンス: Link先を確認
Junyan Wu, Wei Lu, Xiangyang Luo, Rui Yang, Qian Wang, Xiaochun Cao, (参考訳) 近年、音声部分偽造の新たな形態が法医学に課題を提起し、長期音響における微妙な偽造操作を検出するための高度な対策を必要としている。 しかし、既存の対策はいまだに分類の目的を果たすものであり、部分的フォージェリーセグメントの開始と終了のタイムスタンプを有意義に分析することができない。 この課題に対処するために,フレームレベル検出ネットワーク(FDN)と提案改善ネットワーク(PRN)を組み込んだCFPRF(coarse-to-fine proposal refinement framework)を導入する。 具体的には、FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。 PRNは、FDNから派生した粗いきめ細かな提案を洗練させるために、信頼スコアと回帰オフセットを予測する責任がある。 頑健な識別特徴を学習するために,コントラスト表現学習によって誘導される差分認識特徴学習(DAFL)モジュールを考案し,微調整によって引き起こされる異なるフレーム間の感度差を増大させる。 さらに,複数の遷移境界のコンテキスト情報を捕捉し,境界情報と時間的特徴との相互作用を相互注意機構を介して導く境界対応機能拡張(BAFE)モジュールを設計する。 我々のCFPRFは,LAV-DF,ASVS2019PS,HADなど,さまざまなデータセットで最先端のパフォーマンスを実現している。

Recently, a novel form of audio partial forgery has posed challenges to its forensics, requiring advanced countermeasures to detect subtle forgery manipulations within long-duration audio. However, existing countermeasures still serve a classification purpose and fail to perform meaningful analysis of the start and end timestamps of partial forgery segments. To address this challenge, we introduce a novel coarse-to-fine proposal refinement framework (CFPRF) that incorporates a frame-level detection network (FDN) and a proposal refinement network (PRN) for audio temporal forgery detection and localization. Specifically, the FDN aims to mine informative inconsistency cues between real and fake frames to obtain discriminative features that are beneficial for roughly indicating forgery regions. The PRN is responsible for predicting confidence scores and regression offsets to refine the coarse-grained proposals derived from the FDN. To learn robust discriminative features, we devise a difference-aware feature learning (DAFL) module guided by contrastive representation learning to enlarge the sensitive differences between different frames induced by minor manipulations. We further design a boundary-aware feature enhancement (BAFE) module to capture the contextual information of multiple transition boundaries and guide the interaction between boundary information and temporal features via a cross-attention mechanism. Extensive experiments show that our CFPRF achieves state-of-the-art performance on various datasets, including LAV-DF, ASVS2019PS, and HAD.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# DCが必要なのは、信号処理の観点からReLUを記述することだけだ。

DC is all you need: describing ReLU from a signal processing standpoint ( http://arxiv.org/abs/2407.16556v1 )

ライセンス: Link先を確認
Christodoulos Kechris, Jonathan Dan, Jose Miranda, David Atienza, (参考訳) 非線形活性化関数は畳み込みニューラルネットワークにおいて重要である。 しかし、これまで周波数領域ではよく説明されていなかった。 本研究では,一般的なアクティベーション機能であるReLUのスペクトル挙動について検討する。 我々はReLUのTaylor拡張を用いて周波数領域の振る舞いを導出する。 我々は、ReLUが信号と定数DC成分に高周波数発振を導入することを実証した。 さらに、この直流成分の重要性について検討し、入力周波数の内容に関連する意味のある特徴をモデルが抽出するのに役立つことを示す。 実験と実世界の実例による理論的導出に付随する。 まず、周波数応答モデルについて数値的に検証する。 次に、ReLUのスペクトル挙動を2つの例モデルと実世界のモデルで観察する。 最後に,ReLUによるCNN表現におけるDC成分の役割について実験的に検討する。 以上の結果から,直流は初期ランダムウェイトに近い重み構成に収束することが示唆された。

Non-linear activation functions are crucial in Convolutional Neural Networks. However, until now they have not been well described in the frequency domain. In this work, we study the spectral behavior of ReLU, a popular activation function. We use the ReLU's Taylor expansion to derive its frequency domain behavior. We demonstrate that ReLU introduces higher frequency oscillations in the signal and a constant DC component. Furthermore, we investigate the importance of this DC component, where we demonstrate that it helps the model extract meaningful features related to the input frequency content. We accompany our theoretical derivations with experiments and real-world examples. First, we numerically validate our frequency response model. Then we observe ReLU's spectral behavior on two example models and a real-world one. Finally, we experimentally investigate the role of the DC component introduced by ReLU in the CNN's representations. Our results indicate that the DC helps to converge to a weight configuration that is close to the initial random weights.
翻訳日:2024-07-24 16:55:42 公開日:2024-07-23
# Patched RTC: 多様なソフトウェア開発タスクのためのLCMの評価

Patched RTC: evaluating LLMs for diverse software development tasks ( http://arxiv.org/abs/2407.16557v1 )

ライセンス: Link先を確認
Asankhaya Sharma, (参考訳) 本稿では,多種多様なソフトウェア開発タスクに適用された大規模言語モデル(LLM)の新たな評価手法であるPatched Round-Trip Correctness (Patched RTC)を紹介する。 Patched RTCは、オリジナルのラウンドトリップ補正手法を拡張して、LLMおよびダウンストリームタスクで作業し、人間の介入なしにモデルの応答の一貫性と堅牢性を測定する自己評価フレームワークを提供する。 本研究は、オープンドメインタスク評価におけるLLM-as-Judgeパラダイムの代替として、Patched RTCスコアとタスク固有の精度指標の相関を示す。 パッチワークと呼ばれるオープンソースのフレームワークにPatched RTCを実装し、さまざまなパッチフローをまたいだ推論中に透過的な評価を可能にする。 GPT-3.5とGPT-4を異なるソフトウェア開発タスクで比較した結果、Patched RTCはモデルの性能とタスクの難易度を効果的に区別することがわかった。 さらに,一貫性の促進がモデル精度の向上に与える影響についても検討し,Patched RTCが複雑なソフトウェア開発ワークフローの迅速な改善とモデル選択を導出できることを示唆した。

This paper introduces Patched Round-Trip Correctness (Patched RTC), a novel evaluation technique for Large Language Models (LLMs) applied to diverse software development tasks, particularly focusing on "outer loop" activities such as bug fixing, code review, and documentation updates. Patched RTC extends the original Round-Trip Correctness method to work with any LLM and downstream task, offering a self-evaluating framework that measures consistency and robustness of model responses without human intervention. The study demonstrates a correlation between Patched RTC scores and task-specific accuracy metrics, presenting it as an alternative to the LLM-as-Judge paradigm for open-domain task evaluation. We implement Patched RTC in an open-source framework called patchwork, allowing for transparent evaluation during inference across various patchflows. Experiments comparing GPT-3.5 and GPT-4 models across different software development tasks reveal that Patched RTC effectively distinguishes model performance and task difficulty. The paper also explores the impact of consistency prompts on improving model accuracy, suggesting that Patched RTC can guide prompt refinement and model selection for complex software development workflows.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 不均一コインを用いた量子ウォークにおけるパロンドのパラドックス

Parrondo's paradox in quantum walks with inhomogeneous coins ( http://arxiv.org/abs/2407.16558v1 )

ライセンス: Link先を確認
Vikash Mittal, Yi-Ping Huang, (参考訳) パロンドのパラドックス(英: Parrondo's paradox)は、2つの敗戦戦略が組み合わさって勝利をもたらす反直観的な現象であり、量子力学を含む様々な科学分野の関心の対象となっている。 本研究では,離散時間量子ウォークにおけるパロンドのパラドックスの出現について検討する。 我々は,高次元の硬貨やデコヒーレンスをシステムに追加することなく,空間および時間依存の硬貨を用いたパロンドのパラドックスの存在を実証する。 本研究は,実用的な実装の実現可能性を高め,基礎となる量子力学,特に量子ウォークの干渉パターンに制約された伝播についてより深い知見を提供する。 この結果から、量子輸送におけるよりアクセシブルで効率的な設計の可能性が示唆され、従来のフレームワークを超えてパロンドのパラドックスの範囲と適用範囲を広げた。

Parrondo's paradox, a counterintuitive phenomenon where two losing strategies combine to produce a winning outcome, has been a subject of interest across various scientific fields, including quantum mechanics. In this study, we investigate the manifestation of Parrondo's paradox in discrete-time quantum walks. We demonstrate the existence of Parrondo's paradox using space and time-dependent coins without the need for a higher-dimensional coin or adding decoherence to the system. Our results enhance the feasibility of practical implementations and provide deeper insights into the underlying quantum dynamics, specifically the propagation constrained by the interference pattern of quantum walks. The implications of our results suggest the potential for more accessible and efficient designs in quantum transport, broadening the scope and application of Parrondo's paradox beyond conventional frameworks.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# COALA: 実践的でビジョン中心のフェデレーション学習プラットフォーム

COALA: A Practical and Vision-Centric Federated Learning Platform ( http://arxiv.org/abs/2407.16560v1 )

ライセンス: Link先を確認
Weiming Zhuang, Jian Xu, Chen Chen, Jingtao Li, Lingjuan Lyu, (参考訳) 我々は、ビジョン中心のフェデレートラーニング(FL)プラットフォームであるCOALAと、実用的なFLシナリオのためのベンチマークスイートを提示し、タスク、データ、モデルという3つのレベルに分類する。 タスクレベルでは、COALAは単純な分類から、オブジェクト検出、セグメンテーション、ポーズ推定などを含む15のコンピュータビジョンタスクまでサポートを拡張している。 また、フェデレートされたマルチタスク学習を促進し、クライアントが複数のタスクを同時に処理できるようにする。 データレベルでは、COALAは監督FLを超え、半監督FLと教師なしFLの両方をベンチマークする。 また、一般的に考慮されているラベル分布シフト以外の特徴分布シフトもベンチマークする。 静的データを扱うことに加えて、実際のシナリオでデータを継続的に変更するためのフェデレーション付き連続学習をサポートする。 モデルレベルでは、COALAはFLを異なるクライアントの分割モデルと異なるモデルでベンチマークする。 COALAプラットフォームは、構成のカスタマイズ、コンポーネントのカスタマイズ、ワークフローのカスタマイズを含む、これらの実用的なFLシナリオに対して、3度のカスタマイズを提供する。 本研究では,FLシナリオの系統的なベンチマーク実験を行い,FLのさらなる発展の可能性を明らかにする。 コードはhttps://github.com/SonyResearch/COALA.comで公開されている。

We present COALA, a vision-centric Federated Learning (FL) platform, and a suite of benchmarks for practical FL scenarios, which we categorize into three levels: task, data, and model. At the task level, COALA extends support from simple classification to 15 computer vision tasks, including object detection, segmentation, pose estimation, and more. It also facilitates federated multiple-task learning, allowing clients to tackle multiple tasks simultaneously. At the data level, COALA goes beyond supervised FL to benchmark both semi-supervised FL and unsupervised FL. It also benchmarks feature distribution shifts other than commonly considered label distribution shifts. In addition to dealing with static data, it supports federated continual learning for continuously changing data in real-world scenarios. At the model level, COALA benchmarks FL with split models and different models in different clients. COALA platform offers three degrees of customization for these practical FL scenarios, including configuration customization, components customization, and workflow customization. We conduct systematic benchmarking experiments for the practical FL scenarios and highlight potential opportunities for further advancements in FL. Codes are open sourced at https://github.com/SonyResearch/COALA.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 量子計算のためのパスカルピラミッドと数投影演算子

Pascal's pyramid and number projection operators for quantum computation ( http://arxiv.org/abs/2407.16561v1 )

ライセンス: Link先を確認
Dario Picozzi, (参考訳) 量子コンピュータ上での多体量子システムのシミュレーションにおける量子優位性の追求は、量子ハードウェアの進歩とともに勢いを増している。 この研究は、これらの系の対称性、特に粒子数保存の活用に焦点を当てている。 標準ジョルダン・ウィグナーフェルミオン・ツー・キュービット写像における数値射影演算子に対応するキュービットオブジェクトについて検討し、その性質を証明した。 このことは、これらの作用素と Kravchuk が直交多項式の研究で最初に導入した一般化二項係数との間の関係を明らかにする。 一般化された二項係数はパスカルのピラミッド構造で可視化される。

The pursuit of quantum advantage in simulating many-body quantum systems on quantum computers has gained momentum with advancements in quantum hardware. This work focuses on leveraging the symmetry properties of these systems, particularly particle number conservation. We investigate the qubit objects corresponding to number projection operators in the standard Jordan-Wigner fermion-to-qubit mapping, and prove a number of their properties. This reveals connections between these operators and the generalised binomial coefficients originally introduced by Kravchuk in his research on orthogonal polynomials. The generalized binomial coefficients are visualized in a Pascal's pyramid structure.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# オーディオ・プロンプト・アダプタ:ライトウェイト・ファインタニングによるテキスト・トゥ・ミュージックの編集能力の解放

Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning ( http://arxiv.org/abs/2407.16564v1 )

ライセンス: Link先を確認
Fang-Duo Tsai, Shih-Lun Wu, Haven Kim, Bo-Yu Chen, Hao-Chung Cheng, Yi-Hsuan Yang, (参考訳) テキストから音楽へのモデルでは、ユーザーはテキストコマンドでほぼリアルな音楽オーディオを生成できる。 しかし、単純なユーザインタフェースを維持しながら、オーディオのきめ細かい変更を行うという、相反するデシダラタのために、音楽オーディオの編集は依然として困難である。 この課題に対処するために、事前訓練されたテキストから音楽モデルへの軽量な追加であるAudio Prompt Adapter(AP-Adapter)を提案する。 我々はAudioMAEを用いて、入力オーディオから特徴を抽出し、注意に基づくアダプタを構築し、拡散ベースのテキスト-音楽モデルであるAudioLDM2の内部層に特徴を供給した。 2200万のトレーニング可能なパラメータで、AP-Adapterはユーザーが元のオーディオと短いテキストを入力として使用して、グローバル(例えば、ジャンルと音色)とローカル(例えば、メロディ)の両方を活用できるようにする。 主観的,主観的な研究を通じて,音色伝達,ジャンル移動,伴奏生成の3つの課題についてAP-Adapterの評価を行った。 さらに、トレーニング中に目に見えない楽器を含むドメイン外のオーディオに対して、その効果を実証する。

Text-to-music models allow users to generate nearly realistic musical audio with textual commands. However, editing music audios remains challenging due to the conflicting desiderata of performing fine-grained alterations on the audio while maintaining a simple user interface. To address this challenge, we propose Audio Prompt Adapter (or AP-Adapter), a lightweight addition to pretrained text-to-music models. We utilize AudioMAE to extract features from the input audio, and construct attention-based adapters to feedthese features into the internal layers of AudioLDM2, a diffusion-based text-to-music model. With 22M trainable parameters, AP-Adapter empowers users to harness both global (e.g., genre and timbre) and local (e.g., melody) aspects of music, using the original audio and a short text as inputs. Through objective and subjective studies, we evaluate AP-Adapter on three tasks: timbre transfer, genre transfer, and accompaniment generation. Additionally, we demonstrate its effectiveness on out-of-domain audios containing unseen instruments during training.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 検索・生成・評価:小言語モデルを用いた医療用語生成の事例研究

Retrieve, Generate, Evaluate: A Case Study for Medical Paraphrases Generation with Small Language Models ( http://arxiv.org/abs/2407.16565v1 )

ライセンス: Link先を確認
Ioana Buhnila, Aman Sinha, Mathieu Constant, (参考訳) 大規模言語モデル(LLM)の一般人口へのアクセシビリティの近年の上昇は、そのようなモデルを医療関連レコメンデーションとして、追跡不能な利用につながる可能性がある。 LLMモデルによる言語生成には2つの大きな問題がある: 第一に、幻覚を起こす傾向があり、それゆえ、科学的な目的や事実的な根拠を必要とする。 そこで本研究では,Small Language Models (SLM) を用いた検索用拡張生成パイプライン pRAGe と医療用パラフレーズ生成の評価について紹介する。 フランスの医療パラフレーズ生成におけるSLMの有効性と外部知識ベースの影響について検討した。

Recent surge in the accessibility of large language models (LLMs) to the general population can lead to untrackable use of such models for medical-related recommendations. Language generation via LLMs models has two key problems: firstly, they are prone to hallucination and therefore, for any medical purpose they require scientific and factual grounding; secondly, LLMs pose tremendous challenge to computational resources due to their gigantic model size. In this work, we introduce pRAGe, a pipeline for Retrieval Augmented Generation and evaluation of medical paraphrases generation using Small Language Models (SLM). We study the effectiveness of SLMs and the impact of external knowledge base for medical paraphrase generation in French.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# TLCR:人間のフィードバックによるきめ細かい強化学習のためのToken-Level Continuous Reward

TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2407.16574v1 )

ライセンス: Link先を確認
Eunseop Yoon, Hee Suk Yoon, SooHwan Eom, Gunsoo Han, Daniel Wontae Nam, Daejin Jo, Kyoung-Woon On, Mark A. Hasegawa-Johnson, Sungwoong Kim, Chang D. Yoo, (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、人間の嗜好データを利用して言語モデルを訓練し、人間の本質とより緊密に整合させる。 しかし、これらの人間の嗜好データはシーケンスレベルでラベル付けされ、言語モデルから自動回帰的に生成されるシーケンスレベルの選好ラベルとトークンのミスマッチを生成する。 最近のいくつかのアプローチでは、トークン単位の報酬(すなわち、個々のトークンに対して密度の高い報酬)を提供しようとしているが、それらは通常、事前に定義された離散的な報酬値(例えば、正:+1、負:-1、中性:0)に依存しており、各トークン固有の好みの度合いを考慮に入れていない。 この制限に対処するため, RLHF に TLCR (Token-Level Continuous Reward) を導入し, 正負のトークンと負のトークンを区別するよう訓練された識別器を組み込んだ。 大規模な実験により,提案したTLCRは,オープンエンド生成ベンチマークにおいて,前回のシーケンスレベルやトークンレベルの離散的な報酬よりも一貫した性能向上をもたらすことが示された。

Reinforcement Learning from Human Feedback (RLHF) leverages human preference data to train language models to align more closely with human essence. These human preference data, however, are labeled at the sequence level, creating a mismatch between sequence-level preference labels and tokens, which are autoregressively generated from the language model. Although several recent approaches have tried to provide token-level (i.e., dense) rewards for each individual token, these typically rely on predefined discrete reward values (e.g., positive: +1, negative: -1, neutral: 0), failing to account for varying degrees of preference inherent to each token. To address this limitation, we introduce TLCR (Token-Level Continuous Reward) for RLHF, which incorporates a discriminator trained to distinguish positive and negative tokens, and the confidence of the discriminator is used to assign continuous rewards to each token considering the context. Extensive experiments show that our proposed TLCR leads to consistent performance improvements over previous sequence-level or token-level discrete rewards on open-ended generation benchmarks.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 3次元シーン表現における時間-忠実トレードオフ

Timeliness-Fidelity Tradeoff in 3D Scene Representations ( http://arxiv.org/abs/2407.16575v1 )

ライセンス: Link先を確認
Xiangmin Xu, Zhen Meng, Yichi Zhang, Changyang She, Philip G. Zhao, (参考訳) リアルタイム3次元シーン表現は、デジタル製造、VR/AR/XR/MR(Virtual/Augmented/Extended/Mixed Reality)、メタバース(Metaverse)など、様々な革新的な応用を促進するビルディングブロックの1つとして機能する。 リアルタイム通信とコンピューティングに多大な努力を払っているにもかかわらず、リアルタイムの3Dシーン表現は依然として難しい課題である。 本稿では,リアルタイム3次元シーン表現におけるタイムラインと忠実さのトレードオフについて検討する。 具体的には,エッジサーバと通信する複数のカメラで実世界のシナリオを監視し,通信遅延がトレードオフに与える影響を評価する枠組みを確立する。 3次元シーン表現の忠実性を改善するために,情報化時代(AoI)を利用した一段階のPPO手法を用いて,受信した画像が3次元シーン表現やレンダリングに関与する必要があるかどうかを判断する。 我々は,このフレームワークと提案手法を,よく知られた3次元シーン表現手法を用いて検証する。 シミュレーションの結果,リアルタイムな3次元シーン表現は通信遅延の影響を受けやすいことが明らかとなり,提案手法は最適な3次元シーン表現を実現することができる。

Real-time three-dimensional (3D) scene representations serve as one of the building blocks that bolster various innovative applications, e.g., digital manufacturing, Virtual/Augmented/Extended/Mixed Reality (VR/AR/XR/MR), and the metaverse. Despite substantial efforts that have been made to real-time communications and computing, real-time 3D scene representations remain a challenging task. This paper investigates the tradeoff between timeliness and fidelity in real-time 3D scene representations. Specifically, we establish a framework to evaluate the impact of communication delay on the tradeoff, where the real-world scenario is monitored by multiple cameras that communicate with an edge server. To improve fidelity for 3D scene representations, we propose to use a single-step Proximal Policy Optimization (PPO) method that leverages the Age of Information (AoI) to decide if the received image needs to be involved in 3D scene representations and rendering. We test our framework and the proposed approach with different well-known 3D scene representation methods. Simulation results reveal that real-time 3D scene representation can be sensitively affected by communication delay, and our proposed method can achieve optimal 3D scene representation results.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# LLM時代における自動暗号APIミス検出の探索

Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs ( http://arxiv.org/abs/2407.16576v1 )

ライセンス: Link先を確認
Yifan Xia, Zichen Xie, Peiyu Liu, Kangjie Lu, Yan Liu, Wenhai Wang, Shouling Ji, (参考訳) 暗号化APIの誤用の自動検出は大幅に進歩しているが、手動で定義されたパターンに依存するため、その精度は複雑なターゲットに対して低下している。 大きな言語モデル(LLM)は、文脈的理解で有名だが、既存の欠点に対処するための有望な道を提供する。 しかし、このセキュリティクリティカルドメインにLSMを適用することは、特にLSMの確率的性質と幻覚の問題から生じる信頼性の欠如により、課題を提起する。 本稿では, LLMの信頼性の低い解析手法と潜在的な解の妥当性を検討するために, 手作業によるサンプルと実世界のプロジェクトの両方を包含した包括的データセットを用いて, 暗号誤用の検出におけるLCMの評価を行うための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。 しかし,LLMの自己補正能力と組み合わさった制約付き問題の範囲が,検出の信頼性を著しく向上させることを示す。 最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。 さらに,暗号知識不足やコードセマンティクスの誤解釈など,LLMの信頼性を持続的に損なう障害パターンを同定する。 これらの知見に導かれて、オープンソースリポジトリを調べるためのLLMベースのワークフローを開発し、63の現実世界の暗号誤用の発見につながった。 このうち46が開発コミュニティによって承認されており、23が現在対処され、6が解決されている。 開発者のフィードバックを反映して,今後の研究とLLMベースのセキュリティツールの開発を推奨する。

While the automated detection of cryptographic API misuses has progressed significantly, its precision diminishes for intricate targets due to the reliance on manually defined patterns. Large Language Models (LLMs), renowned for their contextual understanding, offer a promising avenue to address existing shortcomings. However, applying LLMs in this security-critical domain presents challenges, particularly due to the unreliability stemming from LLMs' stochastic nature and the well-known issue of hallucination. To explore the prevalence of LLMs' unreliable analysis and potential solutions, this paper introduces a systematic evaluation framework to assess LLMs in detecting cryptographic misuses, utilizing a comprehensive dataset encompassing both manually-crafted samples and real-world projects. Our in-depth analysis of 11,940 LLM-generated reports highlights that the inherent instabilities in LLMs can lead to over half of the reports being false positives. Nevertheless, we demonstrate how a constrained problem scope, coupled with LLMs' self-correction capability, significantly enhances the reliability of the detection. The optimized approach achieves a remarkable detection rate of nearly 90%, surpassing traditional methods and uncovering previously unknown misuses in established benchmarks. Moreover, we identify the failure patterns that persistently hinder LLMs' reliability, including both cryptographic knowledge deficiency and code semantics misinterpretation. Guided by these insights, we develop an LLM-based workflow to examine open-source repositories, leading to the discovery of 63 real-world cryptographic misuses. Of these, 46 have been acknowledged by the development community, with 23 currently being addressed and 6 resolved. Reflecting on developers' feedback, we offer recommendations for future research and the development of LLM-based security tools.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 種々の支持制限を有する大規模試料におけるマトリックスの偏極化

Matrix majorization in large samples with varying support restrictions ( http://arxiv.org/abs/2407.16581v1 )

ライセンス: Link先を確認
Frits Verhagen, Marco Tomamichel, Erkka Haapasalo, (参考訳) 非負の成分を持つ行列 $P$ が別の行列 $Q$ を乗算すると、確率行列 $T$ が存在して$Q=TP$ となる。 本研究では, 行列列が等しく支えられなくてもよい場合において, 大規模試料および触媒系における行列の偏極性について検討した。 サポートの制限がない(サポートの空でない交差点が不要である場合を除いて)か、最終列が他の部分を支配している2つのケースに焦点を合わせます。 実代数的手法を用いて, 大規模試料や触媒状態を用いた場合, 大規模化に十分な, ほぼ必要な条件を同定する。 これらの条件は R'enyi の発散を一般化する多粒子発散という観点で与えられる。 様々な支援条件が関連する相違点に劇的な影響を及ぼすことに気づきました。 この結果は、量子熱力学における触媒状態変換の理論に応用できる。

We say that a matrix $P$ with non-negative entries majorizes another such matrix $Q$ if there is a stochastic matrix $T$ such that $Q=TP$. We study matrix majorization in large samples and in the catalytic regime in the case where the columns of the matrices need not have equal support, as has been assumed in earlier works. We focus on two cases: either there are no support restrictions (except for requiring a non-empty intersection for the supports) or the final column dominates the others. Using real-algebraic methods, we identify sufficient and almost necessary conditions for majorization in large samples or when using catalytic states under these support conditions. These conditions are given in terms of multi-partite divergences that generalize the R\'enyi divergences. We notice that varying support conditions dramatically affect the relevant set of divergences. Our results find an application in the theory of catalytic state transformation in quantum thermodynamics.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 結局のところ、量子力学を破る絡み合いと最終的なEBの多様性

Eventually entanglement breaking quantum dynamics and eventual EB-divisibility ( http://arxiv.org/abs/2407.16583v1 )

ライセンス: Link先を確認
Krzysztof Szczygielski, Dariusz Chruściński, (参考訳) 最終的に絡み合う破壊力学(eEB-divisible dynamics)という新しい概念が導入された。 動的写像は、任意のプロパゲータが有限時間で絡み合うようになるとき、eEB分割可能である。 特異な忠実な定常状態を持つ任意の正の動的半群が、この性質を享受していることが判明した。 興味深いことに、eEBの可除性は非常に一般的であり、量子進化のかなり大きなクラスを保っている。

A new concept of eventually entanglement breaking divisible (eEB-divisible) dynamics is introduced. A dynamical map is eEB-divisible if any propagator becomes entanglement breaking in finite time. It turns out that any completely positive dynamical semigroup with a unique faithful stationary state enjoys this property. Interestingly, it is shown that eEB-divisibility is quite general and holds for a pretty large class of quantum evolutions.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 最大$k$-defective Clique問題に対する高速分岐アルゴリズム

A Faster Branching Algorithm for the Maximum $k$-Defective Clique Problem ( http://arxiv.org/abs/2407.16588v1 )

ライセンス: Link先を確認
Chunyu Luo, Yi Zhou Zhengren Wang, Mingyu Xiao, (参考訳) 無向グラフの$k$-defective cliqueは、頂点のサブセットであり、最大で$k$の欠損エッジを持つほぼ完全なグラフを誘導する。 与えられたグラフから最大の$k$$-defective Cliqueを求める最大$k$-defective Clique問題は、社会的および生物学的ネットワーク分析のような多くのアプリケーションにおいて重要である。 本稿では,$k$-defective cliqueの構造特性を活かし,効率的な最大傾きアルゴリズムをサブルーチンとして利用する分岐アルゴリズムを提案する。 結果として、アルゴリズムは既存のアルゴリズムよりも漸近的な実行時間を持つ。 また, 頂点対間の「textit{conflict relationship}」を利用した上界法についても検討し, 新たな上界法を提案する。 多くのグラフ問題では競合関係が一般的であるため、この手法は潜在的に一般化できると考えている。 最後に、実験により、我々のアルゴリズムは幅広いオープンベンチマークにおいて最先端の解法よりも優れていることが示された。

A $k$-defective clique of an undirected graph $G$ is a subset of its vertices that induces a nearly complete graph with a maximum of $k$ missing edges. The maximum $k$-defective clique problem, which asks for the largest $k$-defective clique from the given graph, is important in many applications, such as social and biological network analysis. In the paper, we propose a new branching algorithm that takes advantage of the structural properties of the $k$-defective clique and uses the efficient maximum clique algorithm as a subroutine. As a result, the algorithm has a better asymptotic running time than the existing ones. We also investigate upper-bounding techniques and propose a new upper bound utilizing the \textit{conflict relationship} between vertex pairs. Because conflict relationship is common in many graph problems, we believe that this technique can be potentially generalized. Finally, experiments show that our algorithm outperforms state-of-the-art solvers on a wide range of open benchmarks.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# オンライン・ヘルス・ディスカッションにおける効果的な患者音声分類のための治療領域横断の患者言語の比較検討

A Comparative Study on Patient Language across Therapeutic Domains for Effective Patient Voice Classification in Online Health Discussions ( http://arxiv.org/abs/2407.16593v1 )

ライセンス: Link先を確認
Giorgos Lysandrou, Roma English Owen, Vanja Popovic, Grant Le Brun, Aryo Pradipta Gema, Beatrice Alex, Elizabeth A. L. Fairley, (参考訳) 患者の臨床経験に対する医療専門家の認識と現実との間には、目に見えない障壁が存在する。 この障壁は、患者が医療専門家とオープンに経験を共有するのを妨げる環境によって引き起こされる可能性がある。 患者は、ソーシャルメディア上での知識の議論や交換がより率直に行われるので、これらのプラットフォームから貴重な洞察を活用できる。 しかし,ソーシャルメディア上での非患者投稿の多さは,患者の真の声を区別するために,そのような無関係な内容のフィルタリングを必要とする。 本研究では,患者音声の正確な分類における言語的特徴の重要性を分析する。 本研究は,患者集団における共通パターンの同定において,言語学的および統計的テキスト類似性分析が不可欠であることを示すものである。 これらの結果は、患者が病気のレベルや様々な治療領域で自己表現する方法において、スターカーの違いさえも意味している。 さらに、類似の言語パターンと組み合わせたデータセットに基づいて事前学習した言語モデルを微調整し、高い精度で患者音声を自動分類する。 この話題の先駆的な研究として、ソーシャルメディアから真正の患者体験を抽出することに注力することは、医療基準の進歩と患者中心のアプローチの育成に向けた重要なステップである。

There exists an invisible barrier between healthcare professionals' perception of a patient's clinical experience and the reality. This barrier may be induced by the environment that hinders patients from sharing their experiences openly with healthcare professionals. As patients are observed to discuss and exchange knowledge more candidly on social media, valuable insights can be leveraged from these platforms. However, the abundance of non-patient posts on social media necessitates filtering out such irrelevant content to distinguish the genuine voices of patients, a task we refer to as patient voice classification. In this study, we analyse the importance of linguistic characteristics in accurately classifying patient voices. Our findings underscore the essential role of linguistic and statistical text similarity analysis in identifying common patterns among patient groups. These results allude to even starker differences in the way patients express themselves at a disease level and across various therapeutic domains. Additionally, we fine-tuned a pre-trained Language Model on the combined datasets with similar linguistic patterns, resulting in a highly accurate automatic patient voice classification. Being the pioneering study on the topic, our focus on extracting authentic patient experiences from social media stands as a crucial step towards advancing healthcare standards and fostering a patient-centric approach.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# GenRec:レコメンデーションのための柔軟なデータジェネレータ

GenRec: A Flexible Data Generator for Recommendations ( http://arxiv.org/abs/2407.16594v1 )

ライセンス: Link先を確認
Erica Coppolillo, Simone Mungari, Ettore Ritacco, Giuseppe Manco, (参考訳) 現実的なデータセットの不足は、レコメンデータシステムやソーシャルネットワーク分析手法やテクニックのベンチマークにおいて大きな課題となっている。 一般的な効果的な解決策は、現実的な相互作用をシミュレートする合成データを生成することである。 しかし、様々な手法が提案されているが、既存の文献には、完全に適応可能で、基礎となるデータ分布や構造特性を容易に操作できるジェネレータが欠けている。 この問題に対処するために,提案するGenRecは,レコメンデーションシナリオで観測される現実的でよく知られた特性を示す合成ユーザ・イテムインタラクションを生成する新しいフレームワークである。 このフレームワークは、潜在因子モデリングに基づく確率的生成プロセスに基づいている。 ここでは、潜伏要因を利用して長期の好み分布を得ることができ、同時に、ユーザやトピックベースのアイテムクラスタのサブポピュレーションを特徴付けることができる。 特に,提案フレームワークは柔軟性が高く,ユーザ・イテムインタラクションの生成をカスタマイズするための幅広いハイパーパラメータを提供する。 実験に使われたコードはhttps://anonymous.4open.science/r/GenRec-DED3で公開されている。

The scarcity of realistic datasets poses a significant challenge in benchmarking recommender systems and social network analysis methods and techniques. A common and effective solution is to generate synthetic data that simulates realistic interactions. However, although various methods have been proposed, the existing literature still lacks generators that are fully adaptable and allow easy manipulation of the underlying data distributions and structural properties. To address this issue, the present work introduces GenRec, a novel framework for generating synthetic user-item interactions that exhibit realistic and well-known properties observed in recommendation scenarios. The framework is based on a stochastic generative process based on latent factor modeling. Here, the latent factors can be exploited to yield long-tailed preference distributions, and at the same time they characterize subpopulations of users and topic-based item clusters. Notably, the proposed framework is highly flexible and offers a wide range of hyper-parameters for customizing the generation of user-item interactions. The code used to perform the experiments is publicly available at https://anonymous.4open.science/r/GenRec-DED3.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# DHGS:ハイブリッド・ガウシアン・スプレイティングを分離して運転シーンを撮影

DHGS: Decoupled Hybrid Gaussian Splatting for Driving Scene ( http://arxiv.org/abs/2407.16600v1 )

ライセンス: Link先を確認
Xi Shi, Lingli Chen, Peng Wei, Xi Wu, Tian Jiang, Yonggang Luo, Lecheng Xie, (参考訳) 既存のガウシアンスプレイティング手法は、工芸デザインの欠如と関連する要素の幾何学的制約により、運転シーンにおいて満足のいく斬新なビュー合成を実現するのに苦労している。 本稿では,DHGS(Decoupled Hybrid Gaussian Splatting)と呼ばれる新しい手法を提案する。 この研究の斬新さは、道路層と非道路層のための分離されたハイブリッドピクセルレベルブレンダーであり、従来の一様微分可能レンダリングロジックをシーン全体に含まない一方で、提案した深度順序レンダリング戦略による一貫した連続的な重ね合わせを維持している。 さらに、SDF(Signed Distance Field)からなる暗黙の道路表現を訓練し、微妙な幾何学的特性で道路表面を監督する。 補助透過率損失と整合性損失とを併用して、知覚不能境界と高次忠実度を有する新規な画像を得る。 Waymoデータセットの実質的な実験は、DHGSが最先端の手法より優れていることを証明している。

Existing Gaussian splatting methods struggle to achieve satisfactory novel view synthesis in driving scenes due to the lack of crafty design and geometric constraints of related elements. This paper introduces a novel method called Decoupled Hybrid Gaussian Splatting (DHGS), which aims at promoting the rendering quality of novel view synthesis for driving scenes. The novelty of this work lies in the decoupled and hybrid pixel-level blender for road and non-road layers, without conventional unified differentiable rendering logic for the entire scene, meanwhile maintaining consistent and continuous superimposition through the proposed depth-ordered rendering strategy. Beyond that, an implicit road representation comprised of Signed Distance Field (SDF) is trained to supervise the road surface with subtle geometric attributes. Accompanied by the use of auxiliary transmittance loss and consistency loss, novel images with imperceptible boundary and elevated fidelity are ultimately obtained. Substantial experiments on Waymo dataset prove that DHGS outperforms the state-of-the-art methods.
翻訳日:2024-07-24 16:45:46 公開日:2024-07-23
# 政策ミラーの老化のための機能加速

Functional Acceleration for Policy Mirror Descent ( http://arxiv.org/abs/2407.16602v1 )

ライセンス: Link先を確認
Veronica Chelu, Doina Precup, (参考訳) 本稿では,Reinforcement Learning (RL) における多種多様な新しい基本手法を網羅した,PMD(Policy Mirror Descent) 一般アルゴリズムに関数加速度を適用した。 双対性を利用して運動量に基づくPMD更新を提案する。 機能的経路をとることで、我々のアプローチは政策パラメトリゼーションとは独立して、大規模最適化に適用でき、特に政策パラメータのレベルでの過去の運動量の適用をカバーできる。 この手法のいくつかの特性を理論的に解析し、この空間における異なるアルゴリズム設計の選択と比較して、ポリトープの値に関するポリシー最適化のダイナミクスを説明するのに役立つ数値アブレーション研究を補完する。 さらに,機能的加速に関連する問題設定の特徴を数値的に特徴付けるとともに,近似が学習力学に与える影響について検討する。

We apply functional acceleration to the Policy Mirror Descent (PMD) general family of algorithms, which cover a wide range of novel and fundamental methods in Reinforcement Learning (RL). Leveraging duality, we propose a momentum-based PMD update. By taking the functional route, our approach is independent of the policy parametrization and applicable to large-scale optimization, covering previous applications of momentum at the level of policy parameters as a special case. We theoretically analyze several properties of this approach and complement with a numerical ablation study, which serves to illustrate the policy optimization dynamics on the value polytope, relative to different algorithmic design choices in this space. We further characterize numerically several features of the problem setting relevant for functional acceleration, and lastly, we investigate the impact of approximation on their learning mechanics.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 共有イマジネーション:LLMは幻覚的

Shared Imagination: LLMs Hallucinate Alike ( http://arxiv.org/abs/2407.16604v1 )

ライセンス: Link先を確認
Yilun Zhou, Caiming Xiong, Silvio Savarese, Chien-Sheng Wu, (参考訳) 最近の大規模言語モデル(LLM)の普及にもかかわらず、それらのトレーニングレシピ(モデルアーキテクチャ、事前トレーニングデータ、最適化アルゴリズム)は、しばしば非常によく似ている。 このことは、結果のモデル間の類似性に関する疑問を自然に提起する。 本稿では,モデル類似性をよりよく理解するために,新しい設定,想像的質問応答(IQA)を提案する。 IQAでは、あるモデルに純粋に想像的な質問(例えば、物理学における完全に作り上げられた概念)を生成し、別のモデルに答えるよう促す。 驚くべきことに、これらの疑問の完全なフィクション性にもかかわらず、全てのモデルは互いの質問に答えることができ、顕著な成功を収め、これらのモデルがこのような幻覚の中で機能する「共有された想像空間」を示唆している。 我々は、この現象に関する一連の研究を行い、モデル同質性、幻覚、および計算的創造性への影響について論じる。

Despite the recent proliferation of large language models (LLMs), their training recipes -- model architecture, pre-training data and optimization algorithm -- are often very similar. This naturally raises the question of the similarity among the resulting models. In this paper, we propose a novel setting, imaginary question answering (IQA), to better understand model similarity. In IQA, we ask one model to generate purely imaginary questions (e.g., on completely made-up concepts in physics) and prompt another model to answer. Surprisingly, despite the total fictionality of these questions, all models can answer each other's questions with remarkable success, suggesting a "shared imagination space" in which these models operate during such hallucinations. We conduct a series of investigations into this phenomenon and discuss implications on model homogeneity, hallucination, and computational creativity.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# Foosballの遊び方を学ぶ:システムとベースライン

Learning to Play Foosball: System and Baselines ( http://arxiv.org/abs/2407.16606v1 )

ライセンス: Link先を確認
Janosch Moos, Cedric Derstroff, Niklas Schröder, Debora Clever, (参考訳) この研究は、科学研究、特にロボット学習の領域において、フォスボールを多用途プラットフォームとして活用する。 本稿では,Fosball環境内のタスクを例に,さまざまな課題を呈示しながら,それに対応するFosballテーブルを提示する。 最初の発見は単純なベースラインアプローチで共有される。 Foosballは汎用的な学習環境を構成しており、人工知能や機械学習のさまざまな分野における最先端の研究、特に堅牢な学習、さらには産業用ロボティクスや自動化システムへの適用性を拡大する可能性がある。 物理フォスボールテーブルを研究フレンドリーなシステムにするために、ゴールキーパーロッドをできるだけ早くフルゲームに拡張する意図で初期設定として制御するために、2自由度キネマティックチェーンで拡張した。 我々の実験は、複雑なロボットタスクをマスターするためには現実的なシミュレーションが不可欠であることを示しているが、これらの成果を実際のシステムに翻訳することは、しばしばパフォーマンスの低下を伴う難しいままである。 これは、この方向における研究の重要さを強調している。 そこで我々は,ロボット工学と自動化研究を推進するための学習環境として,多くの望ましい属性を持つ貴重なツールとして,自動化されたFosballテーブルを注目する。

This work stages Foosball as a versatile platform for advancing scientific research, particularly in the realm of robot learning. We present an automated Foosball table along with its corresponding simulated counterpart, showcasing a diverse range of challenges through example tasks within the Foosball environment. Initial findings are shared using a simple baseline approach. Foosball constitutes a versatile learning environment with the potential to yield cutting-edge research in various fields of artificial intelligence and machine learning, notably robust learning, while also extending its applicability to industrial robotics and automation setups. To transform our physical Foosball table into a research-friendly system, we augmented it with a 2 degrees of freedom kinematic chain to control the goalkeeper rod as an initial setup with the intention to be extended to the full game as soon as possible. Our experiments reveal that a realistic simulation is essential for mastering complex robotic tasks, yet translating these accomplishments to the real system remains challenging, often accompanied by a performance decline. This emphasizes the critical importance of research in this direction. In this concern, we spotlight the automated Foosball table as an invaluable tool, possessing numerous desirable attributes, to serve as a demanding learning environment for advancing robotics and automation research.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# データ混合推論:BPEトークン作成者はトレーニングデータについて何を知っているか?

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? ( http://arxiv.org/abs/2407.16607v1 )

ライセンス: Link先を確認
Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith, (参考訳) 今日の最強言語モデルの事前学習データは不透明です。 特に、様々なドメインや言語の比率についてはほとんど分かっていない。 本研究では,学習データの分布的構成を明らかにすることを目的として,データ混合推論と呼ばれる課題に取り組む。 従来見過ごされていた情報源であるバイトペア符号化(BPE)トークン化器をベースとした,現代的な言語モデルの大部分で使用されている新たな攻撃手法を提案する。 我々の重要な洞察は、BPEトークンエータが学習したマージ規則の順序リストが、そのトレーニングデータ中のトークン周波数に関する情報を自然に明らかにすることである: 第一マージは最も一般的なバイトペアであり、第二マージは第一トークンをマージした後で最も一般的なペアである。 トークンライザのマージリストと興味のあるカテゴリ毎のデータサンプルが与えられた場合、トークンライザのトレーニングセット内の各カテゴリの比率を解決する線形プログラムを定式化する。 重要なことは、トークン化者のトレーニングデータが事前学習データの代表である範囲において、間接的に事前学習データについて学ぶことである。 制御された実験では、自然言語、プログラミング言語、データソースの既知の混合に基づいて訓練されたトークン化剤に対して、高い精度で混合比を回復することを示した。 次に、最近のLMでリリースされたオフ・ザ・シェルフトークンーザに適用する。 GPT-4oのトークンライザは前任者よりもはるかに多言語的であり、39%の非英語データでのトレーニング、Llama3は多言語(48%)の使用のためにGPT-3.5のトークンライザを拡張し、GPT-3.5とClaudeのトークンライザは主としてコード(~60%)でトレーニングされている。 私たちは、データ事前トレーニングの現在の設計プラクティスに光を当て、LMのデータ混合推論に関する継続的な研究を刺激することを期待しています。

The pretraining data of today's strongest language models is opaque. In particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information -- byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data: the first merge is the most common byte pair, the second is the most common pair after merging the first token, and so on. Given a tokenizer's merge list along with data samples for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer's training set. Importantly, to the extent to which tokenizer training data is representative of the pretraining data, we indirectly learn about the pretraining data. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o's tokenizer is much more multilingual than its predecessors, training on 39% non-English data; Llama3 extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and Claude's tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 大腸ポリープに対する深部ベイズ分画 : 医用画像の精度評価

Deep Bayesian segmentation for colon polyps: Well-calibrated predictions in medical imaging ( http://arxiv.org/abs/2407.16608v1 )

ライセンス: Link先を確認
Daniela L. Ramos, Hector J. Hortua, (参考訳) 大腸ポリープは一般的に良性な変化であり、もし早期に同定され、うまく管理されていないと、がんに進展し、腺癌として知られる大腸に影響を及ぼす可能性がある。 今日、Deep Learningの進歩は、画像の分類と診断において、医療診断の分野で大きな性能を発揮することを実証している。 しかし、これらのモデルは過度に適合する傾向があり、点推定のみに基づく決定は誤った予測をもたらす可能性がある。 したがって、より情報的な決定を得るためには、その信頼性の高い不確実性定量化とともに、点推定を考慮しなければならない。 本稿では, 後方分布の柔軟性に基づいて, 異なるベイズニューラルネットワークアプローチを構築し, 大腸ポリプ画像のセマンティックセグメンテーションを開発する。 その結果、これらのモデルが、この医療データセットのセグメンテーションにおける最先端のパフォーマンスを提供するだけでなく、正確な不確実性の推定値が得られることがわかった。 我々は、UNET、FPN、LINKNETアーキテクチャに対して、決定論的およびベイズ的バージョンで複数のバックボーンでテストした乗法正規化フロー(MNF)と再パラメータ化トリックを適用した。 MNFを用いたFPN+EfficientnetB7アーキテクチャは,0.94のIOUと0.004の期待校正誤差(ECE)を考えると最も有望な選択肢である。

Colorectal polyps are generally benign alterations that, if not identified promptly and managed successfully, can progress to cancer and cause affectations on the colon mucosa, known as adenocarcinoma. Today advances in Deep Learning have demonstrated the ability to achieve significant performance in image classification and detection in medical diagnosis applications. Nevertheless, these models are prone to overfitting, and making decisions based only on point estimations may provide incorrect predictions. Thus, to obtain a more informed decision, we must consider point estimations along with their reliable uncertainty quantification. In this paper, we built different Bayesian neural network approaches based on the flexibility of posterior distribution to develop semantic segmentation of colorectal polyp images. We found that these models not only provide state-of-the-art performance on the segmentation of this medical dataset but also, yield accurate uncertainty estimates. We applied multiplicative normalized flows(MNF) and reparameterization trick on the UNET, FPN, and LINKNET architectures tested with multiple backbones in deterministic and Bayesian versions. We report that the FPN + EfficientnetB7 architecture with MNF is the most promising option given its IOU of 0.94 and Expected Calibration Error (ECE) of 0.004, combined with its superiority in identifying difficult-to-detect colorectal polyps, which is effective in clinical areas where early detection prevents the development of colon cancer.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 地域対グローバル継続学習

Local vs Global continual learning ( http://arxiv.org/abs/2407.16611v1 )

ライセンス: Link先を確認
Giulia Lanzillotta, Sidak Pal Singh, Benjamin F. Grewe, Thomas Hofmann, (参考訳) 連続学習は、過去に獲得した知識を維持しながら、モデルに新しい情報を統合する問題である。 近年の具体的な改善にもかかわらず、継続的学習の問題はまだ未解決である。 既存の継続的学習アルゴリズムの成功と失敗の背後にあるメカニズムをより深く理解することで、新たな成功戦略の開発を解き放つことができる。 本研究では,マルチタスク損失近似の観点から連続学習を考察し,局所的およびグローバル的近似という2つの代替戦略を比較した。 我々は、使用した近似に基づいて既存の連続学習アルゴリズムを分類し、この区別の実践的効果を共通の連続学習環境で評価し、さらに、局所多項式近似の場合の最適連続学習目標について検討し、最適目的を実装する既存アルゴリズムの例を示す。

Continual learning is the problem of integrating new information in a model while retaining the knowledge acquired in the past. Despite the tangible improvements achieved in recent years, the problem of continual learning is still an open one. A better understanding of the mechanisms behind the successes and failures of existing continual learning algorithms can unlock the development of new successful strategies. In this work, we view continual learning from the perspective of the multi-task loss approximation, and we compare two alternative strategies, namely local and global approximations. We classify existing continual learning algorithms based on the approximation used, and we assess the practical effects of this distinction in common continual learning settings.Additionally, we study optimal continual learning objectives in the case of local polynomial approximations and we provide examples of existing algorithms implementing the optimal objectives
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# No-brainer: ソフトロボットのモルフォロジー計算駆動型適応行動

No-brainer: Morphological Computation driven Adaptive Behavior in Soft Robots ( http://arxiv.org/abs/2407.16613v1 )

ライセンス: Link先を確認
Alican Mertan, Nick Cheney, (参考訳) 現代のAIやロボット工学において、ニューラルネットワークによってモデル化された脳を別々に仮定し、インテリジェントで適応的な振る舞いを学ぶために使用することが一般的である。 この方法は、多くのタスクに対して非常にうまく機能していますが、自然に存在する唯一のインテリジェンスタイプではありません。 本研究では,ロボットの身体内で発生する計算の結果として,ロボット制御のための別々で明示的な脳を使わずに,知的行動が生成できる方法について検討する。 具体的には,ボクセルをベースとした仮想ソフトロボットにおいて,ロボットの形状を積極的に変化させるシンプルな反応材料を用いることで,適応的かつ複雑な動作を創出できることを示す。 本研究では,閉ループ形態計算の概念の実証を行い,論理ゲートを模倣する動作が可能であることを示す。

It is prevalent in contemporary AI and robotics to separately postulate a brain modeled by neural networks and employ it to learn intelligent and adaptive behavior. While this method has worked very well for many types of tasks, it isn't the only type of intelligence that exists in nature. In this work, we study the ways in which intelligent behavior can be created without a separate and explicit brain for robot control, but rather solely as a result of the computation occurring within the physical body of a robot. Specifically, we show that adaptive and complex behavior can be created in voxel-based virtual soft robots by using simple reactive materials that actively change the shape of the robot, and thus its behavior, under different environmental cues. We demonstrate a proof of concept for the idea of closed-loop morphological computation, and show that in our implementation, it enables behavior mimicking logic gates, enabling us to demonstrate how such behaviors may be combined to build up more complex collective behaviors.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# モバイル技術 - ナイジェリアにおける食品セキュリティのパナセア--SELL HARVESTを事例として

Mobile Technology: A Panacea to Food Insecurity In Nigeria -- A Case Study of SELL HARVEST Application ( http://arxiv.org/abs/2407.16614v1 )

ライセンス: Link先を確認
Mudathir Muhammad Salahudeen, Muhammad Auwal Mukhtar, Saadu Salihu Abubakar, Salawu I. S, (参考訳) 時間とともに農業は最も一貫した活動であり、毎日進化している。 ナイジェリアのグロース・ドメスティック・プロダクツ(GDP)の大部分に貢献するが、皮肉なことに、農業の生産性が低く、また人口の幾何学的増加と比較すると、依然として国内のかなりの地域で飢餓が続いている。 2022年前半、農業は国内GDPの約23%を占め、産業とサービス部門は残りの77%を占めた。 この結果、農業活動が盛んに行われており、ナイジェリアはテムリング人口の食料安全保障を達成できていないことが判明した。 生産性が向上します テクノロジーはナイジェリアが世界の貧困を克服し、農村部と都市部の両方で飢餓を早めるのに役立てることができる。 現在、世界中の農家が生産性を高めるために、様々なタイプの農業技術が利用可能である。 主な技術進歩としては、屋内垂直農業、自動化、ロボット工学、家畜技術、近代的な温室技術、精密農業、人工知能、ブロックチェーンなどがある。 携帯電話は、前世紀に開発されたテクノロジーの最も高い採用率の1つだ。 デジタル化により、消費者と農家は最短のサプライチェーンにアクセスし、農村部の貧困と飢餓を減らすことができる。 本論文は,異なる農業技術についてレビューし,農業をより持続的かつ安全な食品にするための移動型ソリューションであるコード・セル・ハーベストを提案する。 キーワード:ハーベスト、農業、技術、人工知能、デジタル農業を売却する。

Over time, agriculture is the most consistent activity, and it evolves every day. It contributes to a vast majority of the Gross Domestic Product (GDP) of Nigeria but as ironic as it may be, there is still hunger in significant parts of the country due to low productivity in the agricultural sector and comparison to the geometric population growth. During the first half of 2022, agriculture contributed about 23% of the country's GDP while the industry and services sector had a share of the remaining 77%. This showed that with the high rate of agricultural activities, Nigeria has not achieved food security for the teeming population. and more productivity levels can be attained. Technology can/will assist Nigeria in overcoming global poverty and hunger quicker in both rural and urban areas. Today, there are many types of agricultural technologies available for farmers all over the world to increase productivity. Major technological advancements include indoor vertical farming, automation, robotics, livestock technology, modern greenhouse practices, precision agriculture, artificial intelligence, and blockchain. Mobile phones have one of the highest adoption rates of technologies developed within the last century. Digitalization will bring consumers and farmers closer together to access the shortest supply chain possible and reduce rural poverty and hunger. The paper will review the different agricultural technologies and propose a mobile solution, code Sell Harvest, to make farming more sustainable and secure food. Keywords: Sell Harvest, Agriculture, Technology, Artificial Intelligence, and Digital Farming.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# Lawma: 法務業務の専門化の力

Lawma: The Power of Specialization for Legal Tasks ( http://arxiv.org/abs/2407.16615v1 )

ライセンス: Link先を確認
Ricardo Dominguez-Olmedo, Vedant Nanda, Rediet Abebe, Stefan Bechtold, Christoph Engel, Jens Frankenreiter, Krishna Gummadi, Moritz Hardt, Michael Livermore, (参考訳) 法文の注釈と分類は、実証法的研究の中心的な構成要素である。 伝統的に、これらのタスクは、しばしば訓練された研究助手に委譲される。 言語モデリングの進歩に触発されて、実証的な法学者たちは、人間のアノテーションの大幅なコストを軽減できることを期待して、商業モデルを促進する傾向にある。 使用量の増加にもかかわらず、大規模言語モデルを法的タスクに最適に利用する方法についての理解は依然として限られている。 われわれは260の法的テキスト分類タスクを包括的に研究し、ほぼ全て機械学習コミュニティにとって新しいものである。 GPT-4をベースラインとして、非自明だが非常に多様なゼロショットの精度を示し、多くの場合、法的な作業には不十分なパフォーマンスを示す。 次に、軽微調整のLlama 3モデルが、ほぼすべてのタスク(典型的には2桁のパーセンテージポイント)において、GPT-4を大幅に上回ることを示した。 より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。 数十から数百の例は高い分類精度を達成するのに十分である。 特に、260タスクの1つのモデルを同時に微調整することは、タスク毎に別々のモデルを持つことと比較して、精度の低下を少なくすることができる。 私たちの研究は、商業モデルを推進する主要なプラクティスに代わる、実行可能な代替手段であることを示している。 ラベル付きデータの具体的な法的タスクには、微調整のオープンソースモデルを使う方がよい。

Annotation and classification of legal text are central components of empirical legal research. Traditionally, these tasks are often delegated to trained research assistants. Motivated by the advances in language modeling, empirical legal scholars are increasingly turning to prompting commercial models, hoping that it will alleviate the significant cost of human annotation. Despite growing use, our understanding of how to best utilize large language models for legal tasks remains limited. We conduct a comprehensive study of 260 legal text classification tasks, nearly all new to the machine learning community. Starting from GPT-4 as a baseline, we show that it has non-trivial but highly varied zero-shot accuracy, often exhibiting performance that may be insufficient for legal work. We then demonstrate that a lightly fine-tuned Llama 3 model vastly outperforms GPT-4 on almost all tasks, typically by double-digit percentage points. We find that larger models respond better to fine-tuning than smaller models. A few tens to hundreds of examples suffice to achieve high classification accuracy. Notably, we can fine-tune a single model on all 260 tasks simultaneously at a small loss in accuracy relative to having a separate model for each task. Our work points to a viable alternative to the predominant practice of prompting commercial models. For concrete legal tasks with some available labeled data, researchers are better off using a fine-tuned open-source model.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 機械学習の観点からのエングラムの実装--潜在空間の関連性

Implementing engrams from a machine learning perspective: the relevance of a latent space ( http://arxiv.org/abs/2407.16616v1 )

ライセンス: Link先を確認
J Marco de Lucas, (参考訳) これまでの研究では、脳内のエングラムを、リカレントニューラルネットワーク上でのオートエンコーダとして生物学的に実装することを提案した。 これらのオートエンコーダは、単純なホメオスタティックな基準から派生した、基本的な興奮/抑制モチーフから構成される。 本稿では,これらのオートエンコーダにおける潜伏空間の関連性について述べる。 我々は、これらのオートエンコーダの次元性と、符号化される情報の複雑さとの関係を考察する。 本研究では,コネクトームの種間の違いが認知能力とどのように関連しているかを論じる。 最後に、この分析を基本的だが見落とされがちな事実と結びつけます。 しかし、この制限は機械学習システムには適用されず、この強化された自然ビジョンの活用方法を学ぶ必要があることに留意する必要がある。

In our previous work, we proposed that engrams in the brain could be biologically implemented as autoencoders over recurrent neural networks. These autoencoders would comprise basic excitatory/inhibitory motifs, with credit assignment deriving from a simple homeostatic criterion. This brief note examines the relevance of the latent space in these autoencoders. We consider the relationship between the dimensionality of these autoencoders and the complexity of the information being encoded. We discuss how observed differences between species in their connectome could be linked to their cognitive capacities. Finally, we link this analysis with a basic but often overlooked fact: human cognition is likely limited by our own brain structure. However, this limitation does not apply to machine learning systems, and we should be aware of the need to learn how to exploit this augmented vision of the nature.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 逆粒子とアンサンブルカルマンフィルタ

Inverse Particle and Ensemble Kalman Filters ( http://arxiv.org/abs/2407.16623v1 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay, Kumar Vijay Mishra, (参考訳) 認知システムでは、行動が認知反応の主焦点であった被験者の認知過程を研究することが近年強調されている。 このアプローチは逆認識(inverse cognition)と呼ばれ、逆逆の応用に現れ、逆ベイズフィルタの開発を動機付けている。 この文脈では、レーダーのような認知的敵はフォワードベイズフィルタを使って関心の対象を追跡する。 次に、逆フィルタを用いて、敵の目標または防御者の状態の推定を推測する。 従来の研究では、逆カルマンフィルタ(I-KF)、逆拡張KF(I-EKF)、逆無感覚KF(I-UKF)などの手法を導入して、この逆フィルタリング問題に対処してきた。 しかし、これらの逆フィルタは加法的ガウス雑音を仮定し、あるいは状態推定における非線形力学の局所近似に依存して、実用的応用を制限している。 本稿では,大域的フィルタリング手法を採用し,逆粒子フィルタ(I-PF)を開発した。 粒子フィルタフレームワークは、任意の後部分布を近似するためにモンテカルロ法(MC)を用いる。 さらに, システムレベルの低い条件下では, 提案したI-PFは最適逆フィルタへの収束を示す。 さらに,ガウス後部を近似するMC手法を探求し,逆ガウス PF (I-GPF) と逆アンサンブル KF (I-EnKF) を導入する。 我々のI-GPFとI-EnKFは、適切な修正で非ガウス雑音を効率的に処理できる。 さらに,識別可能なI-PF,識別可能なI-EnKF,カーネルHilbert空間をベースとしたEnKF(RKHS-EnKF)手法を提案する。 NCI(Recursive Cram\'er-Rao lower bound and non-credibility index)を用いて,提案したフィルタの予測性能と時間的複雑さについて数値実験を行った。

In cognitive systems, recent emphasis has been placed on studying cognitive processes of the subject whose behavior was the primary focus of the system's cognitive response. This approach, known as inverse cognition, arises in counter-adversarial applications and has motivated the development of inverse Bayesian filters. In this context, a cognitive adversary, such as a radar, uses a forward Bayesian filter to track its target of interest. An inverse filter is then employed to infer adversary's estimate of target's or defender's state. Previous studies have addressed this inverse filtering problem by introducing methods like inverse Kalman filter (I-KF), inverse extended KF (I-EKF), and inverse unscented KF (I-UKF). However, these inverse filters assume additive Gaussian noises and/or rely on local approximations of non-linear dynamics at the state estimates, limiting their practical application. Contrarily, this paper adopts a global filtering approach and develops an inverse particle filter (I-PF). The particle filter framework employs Monte Carlo (MC) methods to approximate arbitrary posterior distributions. Moreover, under mild system-level conditions, the proposed I-PF demonstrates convergence to the optimal inverse filter. Additionally, we explore MC techniques to approximate Gaussian posteriors and introduce inverse Gaussian PF (I-GPF) and inverse ensemble KF (I-EnKF). Our I-GPF and I-EnKF can efficiently handle non-Gaussian noises with suitable modifications. Additionally, we propose the differentiable I-PF, differentiable I-EnKF, and reproducing kernel Hilbert space-based EnKF (RKHS-EnKF) methods to address scenarios where system information is unknown to defender. Using recursive Cram\'er-Rao lower bound and non-credibility index (NCI), our numerical experiments for different applications demonstrate the estimation performance and time complexity of the proposed filters.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# レオロジーを用いたLLMの意味的変化評価

Semantic Change Characterization with LLMs using Rhetorics ( http://arxiv.org/abs/2407.16624v1 )

ライセンス: Link先を確認
Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski, (参考訳) 言語は社会的な出来事に反応して継続的に進化し、新しい用語と意味の変化をもたらす。 これらの変更は、自動翻訳やチャットボットなど、コンピュータアプリケーションに重要な意味を持ち、それらを正確に特徴付けることが不可欠である。 近年のLLMの発展は、特に意味推論や推論において、自然言語の理解が高度化している。 本稿では,LLMが3種類の意味変化(次元,関係,方向)を特徴づける可能性について検討する。 LLMのChain-of-Thoughtと修辞装置を組み合わせて、新たに作成したデータセットを用いて、我々のアプローチを実験的に評価することで、これを実現する。 本結果は,意味的変化の捕捉と解析におけるLLMの有効性を強調し,計算言語応用を改善する上で有用な知見を提供するものである。

Languages continually evolve in response to societal events, resulting in new terms and shifts in meanings. These changes have significant implications for computer applications, including automatic translation and chatbots, making it essential to characterize them accurately. The recent development of LLMs has notably advanced natural language understanding, particularly in sense inference and reasoning. In this paper, we investigate the potential of LLMs in characterizing three types of semantic change: dimension, relation, and orientation. We achieve this by combining LLMs' Chain-of-Thought with rhetorical devices and conducting an experimental assessment of our approach using newly created datasets. Our results highlight the effectiveness of LLMs in capturing and analyzing semantic changes, providing valuable insights to improve computational linguistic applications.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 2つのDLシティの物語:ライブラリーテストがコンパイラに遭遇した時

A Tale of Two DL Cities: When Library Tests Meet Compiler ( http://arxiv.org/abs/2407.16626v1 )

ライセンス: Link先を確認
Qingchao Shen, Yongqiang Tian, Haoyang Ma, Junjie Chen, Lili Huang, Ruifeng Fu, Shing-Chi Cheung, Zan Wang, (参考訳) DL(Deep Learning)コンパイラは通常、DLモデルをロードして中間表現で最適化するが、既存のDLコンパイラテスト技術は主にモデルの最適化段階に焦点を当てているが、モデルローディング段階でバグ検出を検討することはめったにない。 モデルローディングステージを効果的にテストするには、DLライブラリテストと共通の目的を共有し、DLライブラリテストに組み込まれた知識が、DLコンパイラのモデルローディングステージをテストするのに有用であることを示している。 本稿では,DLライブラリのテストインプットから,そのようなドメイン知識を抽出するOPERAを提案する。 OPERAは、DLライブラリの様々なテストインプット(DLライブラリで文書化されたテストインプットや、最近のファズーによって生成されたテストインプットを含む)から様々なテストを構築する。 さらに、多様なバグを早期に検出する可能性が高いテストインプットを移行して実行する、多様性ベースのテスト優先順位付け戦略も組み込まれている。 我々は,DLライブラリの3つのソースについて検討し,3つのDLコンパイラ(例えば,TVM,TensorRT,OpenVINO)から8つのフロントエンドを用いて評価を行った。 OPERAは、合計で170の既知のバグを検出し、90のバグが開発者によって確認・修正され、そのような移行ベースのアイデアの有効性が実証された。 OPERAのテスト優先戦略は、一般的なテスト優先戦略と比較して、移行テストによるテスト効率を平均で11.9%〜47.4%向上させる。

Deep Learning (DL) compilers typically load a DL model and optimize it with intermediate representation.Existing DL compiler testing techniques mainly focus on model optimization stages, but rarely explore bug detection at the model loading stage. Effectively testing the model loading stage requires covering diverse usages of each DL operator from various DL libraries, which shares a common objective with DL library testing, indicating that the embedded knowledge in DL library tests is beneficial for testing the model loading stage of DL compilers. In this work, we propose OPERA to extract such domain knowledge from the test inputs for DL libraries. OPERA constructs diverse tests from the various test inputs for DL libraries (including the test inputs documented in DL libraries and those generated by recent fuzzers). In addition, it incorporates a diversity-based test prioritization strategy to migrate and execute those test inputs that are more likely to detect diverse bugs earlier. We considered three sources of tests in DL libraries for migration and used eight frontends from three DL compilers (e.g., TVM, TensorRT, and OpenVINO) for evaluation. OPERA detected 170 previously unknown bugs in total, 90 of which have been confirmed/fixed by developers, demonstrating the effectiveness of such the migration-based idea. The test prioritization strategy in OPERA improves testing efficiency with migrated tests by 11.9%~47.4% on average compared to general test prioritization strategies.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 最大エントロピー法による分子分光における時間分解量子トモグラフィ

Time resolved quantum tomography in molecular spectroscopy by the Maximal Entropy Approach ( http://arxiv.org/abs/2407.16630v1 )

ライセンス: Link先を確認
Varun Makhija, Rishabh Gupta, Simon Neville, Micheal Schuurman, Joseph Francisco, Sabre Kais, (参考訳) アト秒科学は化学反応の初期モーメントの探索において前例のない精度を提供し、反応経路を形成する分子電子のダイナミクスを明らかにしている。 光化学反応における分子電子状態間の量子コヒーレンスの役割は何か? この疑問に答えるには、量子トモグラフィー(電子密度行列を実験データから決定する)が必要である。 最大エントロピー(MaxEnt)に基づく量子状態トモグラフィ(Quantum State Tomography、QST)アプローチは、特に部分トモグラフィーデータを用いた分子動力学の研究において、ユニークな利点を提供する。 ここでは,MaxEntをベースとしたQSTの光励起アンモニアへの応用について検討し,その測定に特有の可観測物の演算子形式を必要とする。 本稿では,分子の配向に依存した振動ダイナミクスを正確に捉える分子角分布モーメント(MADM)と,対称上層における全ロビブロニック密度行列の測定演算子を構築するためにAngular Momentum Coherence Operatorsを利用する2つの方法を提案する。 我々の研究の重要な発表は、MaxEnt形式主義におけるラグランジュ乗算器とMADMのユニークな集合との直接的なリンクである。 さらに、電子サブシステムの絡み合いエントロピーを初めて構築することで、画期的なマイルストーンを達成する。 エントロピーは励起電子と核自由度の間のカップリングの効果を鮮明に明らかにし、定量化する。 その結果、量子情報科学の幅広い領域における超高速分子分光研究の新たな道が開かれた。

Attosecond science offers unprecedented precision in probing the initial moments of chemical reactions, revealing the dynamics of molecular electrons that shape reaction pathways. A fundamental question emerges: what role, if any, do quantum coherences between molecular electron states play in photochemical reactions? Answering this question necessitates quantum tomography: the determination of the electronic density matrix from experimental data, where the off-diagonal elements represent these coherences. The Maximal Entropy (MaxEnt) based Quantum State Tomography (QST) approach offers unique advantages in studying molecular dynamics, particularly with partial tomographic data. Here, we explore the application of MaxEnt-based QST on photoexcited ammonia, necessitating the operator form of observables specific to the performed measurements. We present two methodologies for constructing these operators: one leveraging Molecular Angular Distribution Moments (MADMs) which accurately capture the orientation-dependent vibronic dynamics of molecules; and another utilizing Angular Momentum Coherence Operators to construct measurement operators for the full rovibronic density matrix in the symmetric top basis. A key revelation of our study is the direct link between Lagrange multipliers in the MaxEnt formalism and the unique set of MADMs. Furthermore, we achieve a groundbreaking milestone by constructing, for the first time, the entanglement entropy of the electronic subsystem: a metric that was previously inaccessible. The entropy vividly reveals and quantifies the effects of coupling between the excited electron and nuclear degrees of freedom. Consequently, our findings open new avenues for research in ultrafast molecular spectroscopy within the broader domain of quantum information science.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 正確な乳房超音波診断のための知識駆動型AI生成データ

Knowledge-driven AI-generated data for accurate and interpretable breast ultrasound diagnoses ( http://arxiv.org/abs/2407.16634v1 )

ライセンス: Link先を確認
Haojun Yu, Youcheng Li, Nan Zhang, Zihan Niu, Xuantong Gong, Yanwen Luo, Quanlin Wu, Wangyan Qin, Mengyuan Zhou, Jie Han, Jia Tao, Ziwei Zhao, Di Dai, Di He, Dong Wang, Binghui Tang, Ling Huo, Qingli Zhu, Yong Wang, Liwei Wang, (参考訳) データ駆動型ディープラーニングモデルは、乳房超音波(US)診断において、放射線科医を支援する優れた能力を示している。 しかし、その効果は訓練データの長期分布によって制限され、稀に不正確な結果となる。 本研究では,長期データを用いた稀な症例における診断モデルの性能向上に向けた長期的課題に対処する。 具体的には,知識駆動型生成モデルを構築するパイプラインTAILORを導入する。 生成モデルは、ソースデータとして3,749の病変を使用し、特にエラーを起こしやすいまれな症例において、数百万の乳房US画像を生成することができる。 生成されたデータは、正確かつ解釈可能な診断のための診断モデルを構築するためにさらに使用できる。 今後の外部評価では,9名の放射線技師の平均成績を33.5%の感度で上回り,解釈可能な意思決定プロセスで予測を行い,その性能を向上する。 また, 胆管癌 in situ (DCIS) では, ソースデータに34例のDCIS病変がみられた。 TAILORは様々な疾患や画像モダリティに拡張できる可能性があると考えている。

Data-driven deep learning models have shown great capabilities to assist radiologists in breast ultrasound (US) diagnoses. However, their effectiveness is limited by the long-tail distribution of training data, which leads to inaccuracies in rare cases. In this study, we address a long-standing challenge of improving the diagnostic model performance on rare cases using long-tailed data. Specifically, we introduce a pipeline, TAILOR, that builds a knowledge-driven generative model to produce tailored synthetic data. The generative model, using 3,749 lesions as source data, can generate millions of breast-US images, especially for error-prone rare cases. The generated data can be further used to build a diagnostic model for accurate and interpretable diagnoses. In the prospective external evaluation, our diagnostic model outperforms the average performance of nine radiologists by 33.5% in specificity with the same sensitivity, improving their performance by providing predictions with an interpretable decision-making process. Moreover, on ductal carcinoma in situ (DCIS), our diagnostic model outperforms all radiologists by a large margin, with only 34 DCIS lesions in the source data. We believe that TAILOR can potentially be extended to various diseases and imaging modalities.
翻訳日:2024-07-24 16:36:00 公開日:2024-07-23
# 速度駆動型ビジョン:自律走行車のための非同期センサーフュージョンバードアイビューモデル

Velocity Driven Vision: Asynchronous Sensor Fusion Birds Eye View Models for Autonomous Vehicles ( http://arxiv.org/abs/2407.16636v1 )

ライセンス: Link先を確認
Seamie Hayes, Sushil Sharma, Ciarán Eising, (参考訳) 異なるセンサーのモダリティを融合させることは、特に非同期である場合、難しい作業になる可能性がある。 同期化は、キャリブレーション中の長い処理時間や不適切な同期によって起こりうるものであり、安全運転のためにこの以前の情報を引き続き活用する方法と、エゴ車/マルチエージェント軌道予測における物体検出が存在する必要がある。 困難は、センサーのモジュラリティが異なる時間と異なる空間の異なる位置で情報をキャプチャしたという事実から生じる。 そのため、空間的にも時間的にも一致しない。 本稿では,レーダセンサとLiDARセンサがカメラセンサに対して非同期であることの課題について,様々な時間帯で検討する。 空間アライメントは、レーダー/LiDAR点雲を新しいエゴフレーム座標系に変換することで、BEV空間に昇降する前に解決される。 この後のみ、レーダー/LiDAR点雲とリフトカメラの特徴を結合できる。 レーダデータのみの時間的アライメントを補正し、速度情報を用いて将来のレーダポイント位置を推定する新しい手法を実装する。 センサ非同期の問題を解決するアプローチは,有望な結果をもたらす。 速度情報は、360ミリ秒 (ms) の時間レイテンシにおいて、49.54から53.63に改善されるため、非同期データセットのIoUを大幅に改善できることを示す。 さらに550msのレイテンシでは、カメラ+レーダー(C+R)モデルは、カメラ+LiDAR(C+L)モデルよりも0.18IoU性能が向上する。 これは、しばしば無視されるレーダーセンサーのモダリティの活用の進歩であり、自動運転のためにLiDARよりもあまり好まれない。

Fusing different sensor modalities can be a difficult task, particularly if they are asynchronous. Asynchronisation may arise due to long processing times or improper synchronisation during calibration, and there must exist a way to still utilise this previous information for the purpose of safe driving, and object detection in ego vehicle/ multi-agent trajectory prediction. Difficulties arise in the fact that the sensor modalities have captured information at different times and also at different positions in space. Therefore, they are not spatially nor temporally aligned. This paper will investigate the challenge of radar and LiDAR sensors being asynchronous relative to the camera sensors, for various time latencies. The spatial alignment will be resolved before lifting into BEV space via the transformation of the radar/LiDAR point clouds into the new ego frame coordinate system. Only after this can we concatenate the radar/LiDAR point cloud and lifted camera features. Temporal alignment will be remedied for radar data only, we will implement a novel method of inferring the future radar point positions using the velocity information. Our approach to resolving the issue of sensor asynchrony yields promising results. We demonstrate velocity information can drastically improve IoU for asynchronous datasets, as for a time latency of 360 milliseconds (ms), IoU improves from 49.54 to 53.63. Additionally, for a time latency of 550ms, the camera+radar (C+R) model outperforms the camera+LiDAR (C+L) model by 0.18 IoU. This is an advancement in utilising the often-neglected radar sensor modality, which is less favoured than LiDAR for autonomous driving purposes.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# コース・コレクション:合成選好を用いた安全アライメント

Course-Correction: Safety Alignment Using Synthetic Preferences ( http://arxiv.org/abs/2407.16637v1 )

ライセンス: Link先を確認
Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu, (参考訳) 大規模言語モデル(LLM)が生み出す有害なコンテンツのリスクは重要な問題となっている。 本稿では, 有害なコンテンツを自律的に生成することを避けるため, LLMの課題を遂行する能力の評価と改善に関する体系的研究を行う。 まず,<textsc{C$^2$-Eval} ベンチマークを導入し,10種類のLLMの定量的評価と解析を行った。 そこで本研究では,時間的コース補正の嗜好を重視した選好学習による微調整 LLM を提案する。 自動パイプラインを用いて750K対の選好を持つ合成データセットである \textsc{C$^2$-Syn} を作成し、データ駆動の選好学習を通じてタイムリーなコース補正の概念をモデルに教える。 2つのLLM, \textsc{Llama2-Chat 7B} と \textsc{Qwen2 7B} を実験した結果, 一般的な性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。 さらに、特に脱獄攻撃に対するLLMの安全性を効果的に向上させる。

The risk of harmful content generated by large language models (LLMs) becomes a critical concern. This paper presents a systematic study on assessing and improving LLMs' capability to perform the task of \textbf{course-correction}, \ie, the model can steer away from generating harmful content autonomously. To start with, we introduce the \textsc{C$^2$-Eval} benchmark for quantitative assessment and analyze 10 popular LLMs, revealing varying proficiency of current safety-tuned LLMs in course-correction. To improve, we propose fine-tuning LLMs with preference learning, emphasizing the preference for timely course-correction. Using an automated pipeline, we create \textsc{C$^2$-Syn}, a synthetic dataset with 750K pairwise preferences, to teach models the concept of timely course-correction through data-driven preference learning. Experiments on 2 LLMs, \textsc{Llama2-Chat 7B} and \textsc{Qwen2 7B}, show that our method effectively enhances course-correction skills without affecting general performance. Additionally, it effectively improves LLMs' safety, particularly in resisting jailbreak attacks.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 聴覚視覚的セグメンテーションにおけるバイアスの発見と緩和

Unveiling and Mitigating Bias in Audio Visual Segmentation ( http://arxiv.org/abs/2407.16638v1 )

ライセンス: Link先を確認
Peiwen Sun, Honggang Zhang, Di Hu, (参考訳) コミュニティ研究者は、物体のマスクの音質を改善することを目的とした、高度な音声視覚セグメンテーションモデルを開発した。 これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。 我々はこれを、複雑な視覚的グラウンドリングよりも学習の信号として現実世界固有の嗜好や分布を考慮し、重要なモダリティ情報の無視につながると考えている。 一般に、異常現象はしばしば複雑であり、体系的に直接観察することはできない。 本研究では, 適切な合成データを用いて, 現象を「オーディオプライミングバイアス」と「視覚的先行」の2種類に分類・解析する手法を考案した。 音声プライミングバイアスに対して、異なる強度や意味に対する音声の感度を高めるために、音声用の知覚モジュールは、潜在意味情報を知覚し、情報を限られたクエリ、すなわちアクティブなクエリに組み込む。 さらに、トランスデコーダにおけるこのようなアクティブクエリに関連するインタラクションメカニズムをカスタマイズして、音声意味論間のインタラクション制御の必要性に適応させる。 視覚的事前については、モデルの構造を変えることなく、偏りのある分岐を組み込むことでモデルを最適化するために、複数のコントラスト的トレーニング戦略が検討されている。 実験中、観測は既存のモデルのバイアスによって生み出された存在と影響を実証する。 最後に、AVSベンチマークを実験的に評価することにより、3つのサブセットにまたがる競合性能を達成し、両方のバイアスを扱う方法の有効性を実証する。

Community researchers have developed a range of advanced audio-visual segmentation models aimed at improving the quality of sounding objects' masks. While masks created by these models may initially appear plausible, they occasionally exhibit anomalies with incorrect grounding logic. We attribute this to real-world inherent preferences and distributions as a simpler signal for learning than the complex audio-visual grounding, which leads to the disregard of important modality information. Generally, the anomalous phenomena are often complex and cannot be directly observed systematically. In this study, we made a pioneering effort with the proper synthetic data to categorize and analyze phenomena as two types "audio priming bias" and "visual prior" according to the source of anomalies. For audio priming bias, to enhance audio sensitivity to different intensities and semantics, a perception module specifically for audio perceives the latent semantic information and incorporates information into a limited set of queries, namely active queries. Moreover, the interaction mechanism related to such active queries in the transformer decoder is customized to adapt to the need for interaction regulating among audio semantics. For visual prior, multiple contrastive training strategies are explored to optimize the model by incorporating a biased branch, without even changing the structure of the model. During experiments, observation demonstrates the presence and the impact that has been produced by the biases of the existing model. Finally, through experimental evaluation of AVS benchmarks, we demonstrate the effectiveness of our methods in handling both types of biases, achieving competitive performance across all three subsets.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 双曲空間における階層的埋め込み学習のための幾何学的アルゴリズム

A Geometry-Aware Algorithm to Learn Hierarchical Embeddings in Hyperbolic Space ( http://arxiv.org/abs/2407.16641v1 )

ライセンス: Link先を確認
Zhangyu Wang, Lantian Xu, Zhifeng Kong, Weilong Wang, Xuyu Peng, Enyang Zheng, (参考訳) ハイパーボリック埋め込み(英: Hyperbolic embeddeds)は、木のようなグラフとしてデータを抽象化する際の競合的なパフォーマンスを提供する表現学習手法のクラスである。 しかし実際には、双曲空間とユークリッド空間の間の幾何学の違いから、階層データの双曲埋め込みを学習することは困難である。 このような課題に対処するために、まず埋め込みの性能を損なう3種類の病気を分類する。 そこで我々は,これらの問題に対処するために,拡張演算と推移的クロージャ正規化を用いた幾何認識アルゴリズムを開発した。 本稿では,これらの手法を実証的に検証し,拡張操作の背後にあるメカニズムに関する理論的解析を行う。 合成および実世界のデータセットに対する実験により、我々のアルゴリズムの優れた性能が明らかとなった。

Hyperbolic embeddings are a class of representation learning methods that offer competitive performances when data can be abstracted as a tree-like graph. However, in practice, learning hyperbolic embeddings of hierarchical data is difficult due to the different geometry between hyperbolic space and the Euclidean space. To address such difficulties, we first categorize three kinds of illness that harm the performance of the embeddings. Then, we develop a geometry-aware algorithm using a dilation operation and a transitive closure regularization to tackle these illnesses. We empirically validate these techniques and present a theoretical analysis of the mechanism behind the dilation operation. Experiments on synthetic and real-world datasets reveal superior performances of our algorithm.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 専門家の助言の集合、再考

Aggregation of expert advice, revisited ( http://arxiv.org/abs/2407.16642v1 )

ライセンス: Link先を確認
Aryeh Kontorovich, (参考訳) 我々は、条件に依存しない専門家からのバイナリアドバイスを集約する古典的な問題を再考する。 我々の関心事は、最適決定規則の誤り確率である。 対称の場合(感度 = 特異性)では、最適誤差確率の適度な厳密な境界が知られている。 一般の非対称の場合、この量に関する非自明な推定を意識していない。 我々の貢献は、一般の場合における最適誤差確率の鋭い上と下の境界から成り、対称特殊の場合において最もよく知られた結果を回復し、鋭くする。 これは2つの積分布間の総変動距離を推定するため、この重要かつ挑戦的な問題にも関係している。

We revisit the classic problem of aggregating binary advice from conditionally independent experts, also known as the Naive Bayes setting. Our quantity of interest is the error probability of the optimal decision rule. In the symmetric case (sensitivity = specificity), reasonably tight bounds on the optimal error probability are known. In the general asymmetric case, we are not aware of any nontrivial estimates on this quantity. Our contribution consists of sharp upper and lower bounds on the optimal error probability in the general case, which recover and sharpen the best known results in the symmetric special case. Since this amounts to estimating the total variation distance between two product distributions, our results also have bearing on this important and challenging problem.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 音響スペクトログラム変換器を用いた合成器音響マッチング

Synthesizer Sound Matching Using Audio Spectrogram Transformers ( http://arxiv.org/abs/2407.16643v1 )

ライセンス: Link先を確認
Fred Bruford, Frederik Blang, Shahan Nercessian, (参考訳) 入力音をエミュレートするシンセサイザーのパラメータを自動的に設定するシンセサイザー音響マッチングシステムでは、初心者や経験豊富なミュージシャンにとって、シンセサイザープログラミングのプロセスが迅速かつ容易になる可能性があり、シンセサイザーとの新たな対話手段も用意されている。 市場における膨大な数のシンセサイザーと、その複雑さを考えると、基礎となるシンセサイザーアーキテクチャに関する最小限の知識や事前の仮定で機能する汎用サウンドマッチングシステムは特に望ましい。 そこで我々は,Audio Spectrogram Transformerに基づく合成音声マッチングモデルを提案する。 一般のMassiveシンセサイザーからランダムに生成されたサンプルの大規模な合成データセットをトレーニングすることで、このモデルの有効性を実証する。 本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成し,多層パーセプトロンと畳み込みニューラルネットワークのベースラインに対する忠実度の向上を強調した。 また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例や、他のシンセサイザーや楽器の音響例も提供する。

Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# ペナル化フル次元スケーリングによる大域最小化

Global Minima by Penalized Full-dimensional Scaling ( http://arxiv.org/abs/2407.16645v1 )

ライセンス: Link先を確認
Jan de Leeuw, (参考訳) 実次元(計量、ユークリッド、最小二乗)の多次元スケーリングストレス損失関数は、二次的外部ペナルティ関数項と組み合わせられる。 次に、ペナルティパラメータの値の増大に対する応力の最小値の軌跡を用いて、低次元の多次元スケーリングのための(tentative)大域最小値を求める。 これはいくつかの1次元および2次元の例で示される。

The full-dimensional (metric, Euclidean, least squares) multidimensional scaling stress loss function is combined with a quadratic external penalty function term. The trajectory of minimizers of stress for increasing values of the penalty parameter is then used to find (tentative) global minima for low-dimensional multidimensional scaling. This is illustrated with several one-dimensional and two-dimensional examples.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# ExaWorks Software Development Kit - 相互運用可能なワークフロー技術のロバストでスケーラブルなコレクション

ExaWorks Software Development Kit: A Robust and Scalable Collection of Interoperable Workflow Technologies ( http://arxiv.org/abs/2407.16646v1 )

ライセンス: Link先を確認
Matteo Turilli, Mihael Hategan-Marandiuc, Mikhail Titov, Ketan Maheshwari, Aymen Alsaadi, Andre Merzky, Ramon Arambula, Mikhail Zakharchanka, Matt Cowan, Justin M. Wozniak, Andreas Wilke, Ozgur Ozan Kilic, Kyle Chard, Rafael Ferreira da Silva, Shantenu Jha, Daniel Laney, (参考訳) 科学的発見はますます、ハイパフォーマンスコンピューティング(HPC)プラットフォーム上で異種科学ワークフローを実行する必要がある。 不均一ワークフローには、さまざまなコンピュータ上でマッピング、スケジュール、起動を必要とするさまざまなタイプのタスク(シミュレーション、分析、学習など)が含まれている。 ユーザは自分のワークフローをコーディングし、リソース管理とワークフローの実行を自動化するソフトウェアスタックが必要だ。 現在、さまざまなレベルの堅牢性と能力を持つワークフロー技術が数多く存在しており、特に最新のエクサスケールプラットフォームを考えると、HPCマシンでのユースケースを効果的に効率的にサポートできるソフトウェアの難しい選択に直面しています。 私たちはExaWorks Software Development Kit(SDK)の開発でこの問題に対処することに貢献しました。 SDKは、現在のベストプラクティスに従って開発されたワークフロー技術のキュレートされたコレクションであり、特にHPCプラットフォームで動作するように設計されている。 我々は,(1)これらの技術のキュレーション,(2)新たな機能の提供のための統合,(3) DOE HPCプラットフォーム上でSDKをテストする継続的インテグレーションプラットフォームの開発,(4) テスト結果を公開するためのダッシュボードの設計,(5) ユーザがこれらの技術を使用するための革新的なドキュメンテーションプラットフォームの開発について紹介する。 私たちの経験では、ワークフロー技術をキュレートするために必要な要件とベストプラクティスを詳述しています。また、新たに利用可能な大規模HPCプラットフォーム上で、さまざまな科学的異種ワークフローをサポートするために、DOEが提供しなければならない機能とサービスの青写真としても機能します。

Scientific discovery increasingly requires executing heterogeneous scientific workflows on high-performance computing (HPC) platforms. Heterogeneous workflows contain different types of tasks (e.g., simulation, analysis, and learning) that need to be mapped, scheduled, and launched on different computing. That requires a software stack that enables users to code their workflows and automate resource management and workflow execution. Currently, there are many workflow technologies with diverse levels of robustness and capabilities, and users face difficult choices of software that can effectively and efficiently support their use cases on HPC machines, especially when considering the latest exascale platforms. We contributed to addressing this issue by developing the ExaWorks Software Development Kit (SDK). The SDK is a curated collection of workflow technologies engineered following current best practices and specifically designed to work on HPC platforms. We present our experience with (1) curating those technologies, (2) integrating them to provide users with new capabilities, (3) developing a continuous integration platform to test the SDK on DOE HPC platforms, (4) designing a dashboard to publish the results of those tests, and (5) devising an innovative documentation platform to help users to use those technologies. Our experience details the requirements and the best practices needed to curate workflow technologies, and it also serves as a blueprint for the capabilities and services that DOE will have to offer to support a variety of scientific heterogeneous workflows on the newly available exascale HPC platforms.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 変形可能な畳み込みに基づく魚眼画像の自律走行における道路シーンセマンティックセマンティックセグメンテーション

Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving ( http://arxiv.org/abs/2407.16647v1 )

ライセンス: Link先を確認
Anam Manzoor, Aryan Singh, Ganesh Sistu, Reenu Mohandas, Eoin Grua, Anthony Scanlan, Ciarán Eising, (参考訳) 本研究では, 魚眼画像を用いた自律走行シナリオにおいて, セマンティックセグメンテーションタスクにおける, 現代の変形可能な畳み込みニューラルネットワーク(DCNN)の有効性について検討した。 これらの画像は広い視野を提供し、オブジェクト属性の動的変化による空間的および幾何学的情報の抽出にユニークな課題を提起する。 実験では,WoodScapeの魚眼画像データセットを10の異なるクラスに分割し,複雑な空間関係を捕捉し,セグメンテーション精度を向上させるデフォルマブルネットワークの能力を評価する。 さらに,従来のCNNアーキテクチャと,Vanilla U-NetやResidual U-Netを含むDeformable ConvolutionベースのCNNの性能を比較した。 変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に現れる幾何学的歪みを扱う上で、従来のCNNアーキテクチャよりも優れていることを示す。 このことは、魚眼画像のセマンティックセグメンテーション性能を高める上で、変形可能な畳み込みが重要な役割を担っていることを示している。

This study investigates the effectiveness of modern Deformable Convolutional Neural Networks (DCNNs) for semantic segmentation tasks, particularly in autonomous driving scenarios with fisheye images. These images, providing a wide field of view, pose unique challenges for extracting spatial and geometric information due to dynamic changes in object attributes. Our experiments focus on segmenting the WoodScape fisheye image dataset into ten distinct classes, assessing the Deformable Networks' ability to capture intricate spatial relationships and improve segmentation accuracy. Additionally, we explore different loss functions to address class imbalance issues and compare the performance of conventional CNN architectures with Deformable Convolution-based CNNs, including Vanilla U-Net and Residual U-Net architectures. The significant improvement in mIoU score resulting from integrating Deformable CNNs demonstrates their effectiveness in handling the geometric distortions present in fisheye imagery, exceeding the performance of traditional CNN architectures. This underscores the significant role of Deformable convolution in enhancing semantic segmentation performance for fisheye imagery.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 3次元セグメンテーションモデルの説明的分析のための集約的属性

Aggregated Attributions for Explanatory Analysis of 3D Segmentation Models ( http://arxiv.org/abs/2407.16653v1 )

ライセンス: Link先を確認
Maciej Chrabaszcz, Hubert Baniecki, Piotr Komorowski, Szymon Płotka, Przemyslaw Biecek, (参考訳) 3Dセグメンテーションモデルの解析は、特に医用画像の文脈において、説明可能性とバイアスの重要な側面を無視するセグメンテーションパフォーマンス指標に限られることが多い。 現在、これらのモデルに精度マップを効果的に説明することは、セグメント化されたクラスラベルの数の増加に乗じて、入力画像の高次元化が困難である。 そこで本研究では,セグメンテーションモデルの予測の微細なボクセル属性を集約する手法であるAgg^2Expを紹介する。 Agg^2Expは、局所的特徴属性に主に焦点をあてる古典的な説明法とは異なり、3D画像における予測セグメントの重要性に関するより包括的なグローバルな見解を可能にする。 我々のベンチマーク実験は、摂動に基づく説明よりも勾配に基づくボクセル属性の方がモデルの予測に忠実であることを示している。 具体的なユースケースとして,Agg^2Expを応用して,TotalSegmentator v2データセットでトレーニングしたSwin UNEt TRansformerモデルによって得られた知識を,CT画像中の解剖学的構造を抽出する。 Agg^2Expは、予測性能以上の大きなセグメンテーションモデルの説明分析を容易にする。

Analysis of 3D segmentation models, especially in the context of medical imaging, is often limited to segmentation performance metrics that overlook the crucial aspect of explainability and bias. Currently, effectively explaining these models with saliency maps is challenging due to the high dimensions of input images multiplied by the ever-growing number of segmented class labels. To this end, we introduce Agg^2Exp, a methodology for aggregating fine-grained voxel attributions of the segmentation model's predictions. Unlike classical explanation methods that primarily focus on the local feature attribution, Agg^2Exp enables a more comprehensive global view on the importance of predicted segments in 3D images. Our benchmarking experiments show that gradient-based voxel attributions are more faithful to the model's predictions than perturbation-based explanations. As a concrete use-case, we apply Agg^2Exp to discover knowledge acquired by the Swin UNEt TRansformer model trained on the TotalSegmentator v2 dataset for segmenting anatomical structures in computed tomography medical images. Agg^2Exp facilitates the explanatory analysis of large segmentation models beyond their predictive performance.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# MovieDreamer:コヒーレントなロングビジュアルシーケンスの階層的生成

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence ( http://arxiv.org/abs/2407.16655v1 )

ライセンス: Link先を確認
Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen, (参考訳) ビデオ生成の最近の進歩は、主に短調コンテンツに対する拡散モデルを活用している。 しかし、これらのアプローチは、複雑な物語をモデル化し、映画のような長編ビデオ制作に欠かせない、長い期間にわたってキャラクターの一貫性を維持することにしばしば失敗する。 自己回帰モデルと拡散に基づくレンダリングを融合した新しい階層型フレームワークであるMovieDreamerを提案する。 提案手法では,グローバルな物語コヒーレンスに自己回帰モデルを用いて,拡散レンダリングにより高品質な映像フレームに変換される視覚トークンのシーケンスを予測する。 この方法は、複雑なストーリーを、管理可能なシーンキャプチャーに分解する従来の映画制作プロセスに似ている。 さらに,シーン記述に詳細な文字情報と視覚的スタイルを付加したマルチモーダルスクリプトを用いて,シーン間の連続性とキャラクタの同一性を向上する。 様々な映画ジャンルにまたがって広範な実験を行い、我々のアプローチが優れた視覚的・物語的品質を達成できるだけでなく、生成したコンテンツの持続時間を現在の能力を超えて効果的に拡張できることを実証した。 ホームページ:https://aim-uofa.github.io/MovieDreamer/。

Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# EgoCVR: 細粒度合成ビデオ検索のためのエゴセントリックベンチマーク

EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval ( http://arxiv.org/abs/2407.16658v1 )

ライセンス: Link先を確認
Thomas Hummel, Shyamgopal Karthik, Mariana-Iuliana Georgescu, Zeynep Akata, (参考訳) Composed Video Retrievalでは、モデルへの入力としてビデオ内容を変更するビデオとテキスト記述が提供される。 目的は、ビデオのデータベースから修正されたコンテンツで関連ビデオを取得することである。 この挑戦的なタスクでは、最初のステップは、大規模なトレーニングデータセットを取得し、評価のための高品質なベンチマークを集めることです。 本研究では,大規模なエゴセントリックなビデオデータセットを用いた細粒度合成ビデオ検索のための新しい評価ベンチマークであるEgoCVRを紹介する。 EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。 既存のComposted Video Retrievalフレームワークは,このタスクに必要な高品質な時間的ビデオ理解を達成できないことがわかった。 この欠点に対処するために、簡単なトレーニング不要の手法を適用し、コンポジションビデオ検索のための汎用的な再分類フレームワークを提案し、これがEgoCVR上で強力な結果をもたらすことを実証する。 私たちのコードとベンチマークはhttps://github.com/ExplainableML/EgoCVR.orgで無料で公開されています。

In Composed Video Retrieval, a video and a textual description which modifies the video content are provided as inputs to the model. The aim is to retrieve the relevant video with the modified content from a database of videos. In this challenging task, the first step is to acquire large-scale training datasets and collect high-quality benchmarks for evaluation. In this work, we introduce EgoCVR, a new evaluation benchmark for fine-grained Composed Video Retrieval using large-scale egocentric video datasets. EgoCVR consists of 2,295 queries that specifically focus on high-quality temporal video understanding. We find that existing Composed Video Retrieval frameworks do not achieve the necessary high-quality temporal video understanding for this task. To address this shortcoming, we adapt a simple training-free method, propose a generic re-ranking framework for Composed Video Retrieval, and demonstrate that this achieves strong results on EgoCVR. Our code and benchmark are freely available at https://github.com/ExplainableML/EgoCVR.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 自然仮説クラスの計算可能学習

Computable learning of natural hypothesis classes ( http://arxiv.org/abs/2407.16663v1 )

ライセンス: Link先を確認
Matthew Harrison-Trainor, Syed Akbari, (参考訳) 本稿では,学習者に対する計算的要求が存在しない統計的学習理論と,学習者が多項式的に有界でなければならない効率的なPACとの間にある,計算学的にほぼ正しい学習の概念について述べる。 PACを学習できるが計算可能なPACを学習できない仮説クラスが最近与えられたが、これらの仮説クラスは証明、公式、プログラムの数に依存するという意味で非自然あるいは非正則である。 計算可能性理論のon-a-cone 機械を用いて、仮説クラスが計算可能リスト化可能であるような軽微な仮定の下では、学習可能な自然仮説クラスは計算可能リスト化可能であることを証明する。 したがって、以前に与えられた反例は必ずしも非自然である。

This paper is about the recent notion of computably probably approximately correct learning, which lies between the statistical learning theory where there is no computational requirement on the learner and efficient PAC where the learner must be polynomially bounded. Examples have recently been given of hypothesis classes which are PAC learnable but not computably PAC learnable, but these hypothesis classes are unnatural or non-canonical in the sense that they depend on a numbering of proofs, formulas, or programs. We use the on-a-cone machinery from computability theory to prove that, under mild assumptions such as that the hypothesis class can be computably listable, any natural hypothesis class which is learnable must be computably learnable. Thus the counterexamples given previously are necessarily unnatural.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# 転送学習によるスケーラブルなデバイス上でのASRの実現に向けて

Towards scalable efficient on-device ASR with transfer learning ( http://arxiv.org/abs/2407.16664v1 )

ライセンス: Link先を確認
Laxmi Pandey, Ke Li, Jinxi Guo, Debjyoti Paul, Arthur Guo, Jay Mahadeokar, Xuedong Zhang, (参考訳) 転送学習のための多言語事前学習は、低リソース単言語ASRモデルのロバスト性を大幅に向上させる。 本研究は3つの主要な側面を体系的に研究する。 (a)移行学習が初等訓練や微調整時のモデル性能に及ぼす影響 b)データセットドメインや言語間の伝達学習の影響 (c)非まれな単語と比較して希少な単語認識に影響を及ぼす。 我々の発見は、RNNT-loss pretrainingに続いて、MinWER(Minmum Word Error Rate)による単言語微調整により、イタリア語やフランス語などの言語での単語誤り率(WER)が一貫して減少することを示している。 WER Reductions (WERR) は、MLSや社内データセットのモノリンガルベースラインと比較して36.2%、42.8%に達する。 ドメイン外プレトレーニングは、ドメイン内プレトレーニングよりも28%高いWERRをもたらす。 希少な単語と非希少な単語の両方が有用であり、希少な単語は非非希少な単語と非希少な単語はドメイン内事前訓練により改善されている。

Multilingual pretraining for transfer learning significantly boosts the robustness of low-resource monolingual ASR models. This study systematically investigates three main aspects: (a) the impact of transfer learning on model performance during initial training or fine-tuning, (b) the influence of transfer learning across dataset domains and languages, and (c) the effect on rare-word recognition compared to non-rare words. Our finding suggests that RNNT-loss pretraining, followed by monolingual fine-tuning with Minimum Word Error Rate (MinWER) loss, consistently reduces Word Error Rates (WER) across languages like Italian and French. WER Reductions (WERR) reach 36.2% and 42.8% compared to monolingual baselines for MLS and in-house datasets. Out-of-domain pretraining leads to 28% higher WERR than in-domain pretraining. Both rare and non-rare words benefit, with rare words showing greater improvements with out-of-domain pretraining, and non-rare words with in-domain pretraining.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# イベントカメラを用いたプルトラッキングフレームワーク

A Framework for Pupil Tracking with Event Cameras ( http://arxiv.org/abs/2407.16665v1 )

ライセンス: Link先を確認
Khadija Iddrisu, Waseem Shariff, Suzanne Little, (参考訳) サッカデス(英: Saccades)は、通常、個人が焦点をある物体から別の物体に移すときに観察される、両眼の非常に速い動きである。 これらの運動は、人間が生み出す最も急激な動きの一つであり、瞬きよりも速い速度を達成できる可能性を持っている。 ササード中の眼の最高角速度は、人間では700{\deg}/sに達し、特に25{\deg}の視角をカバーする大きなササードでは、最大で700{\deg}/sに達する。 これまでの研究では、サッケードの研究を通じて、神経疾患の理解が促進されることが示されている。 ササード検出に必要なステップは、目の内にある瞳孔の正確な位置を正確に特定することであり、そこから視線角などの追加情報を推測することができる。 従来のフレームベースのカメラは、非常に速い動きを追跡するのに必要な高い時間的精度に苦しむことが多く、動きのぼやけや遅延の問題を引き起こす。 一方、イベントカメラは、視覚シーンの変更を非同期に記録し、高時間分解能と低レイテンシを提供することで、有望な代替手段を提供する。 従来のコンピュータビジョンとイベントベースビジョンのギャップを埋めることで、標準的なディープラーニングアルゴリズムで簡単に利用できるフレームとしてイベントを提示する。 このアプローチでは、最先端のオブジェクト検出技術であるYOLOv8を使用して、一般にアクセス可能なEv-Eyeデータセットを使用して、これらのフレームを瞳孔追跡のために処理する。 実験の結果、このフレームワークの有効性が示され、神経科学、眼科、人間とコンピュータの相互作用における潜在的な応用が強調された。

Saccades are extremely rapid movements of both eyes that occur simultaneously, typically observed when an individual shifts their focus from one object to another. These movements are among the swiftest produced by humans and possess the potential to achieve velocities greater than that of blinks. The peak angular speed of the eye during a saccade can reach as high as 700{\deg}/s in humans, especially during larger saccades that cover a visual angle of 25{\deg}. Previous research has demonstrated encouraging outcomes in comprehending neurological conditions through the study of saccades. A necessary step in saccade detection involves accurately identifying the precise location of the pupil within the eye, from which additional information such as gaze angles can be inferred. Conventional frame-based cameras often struggle with the high temporal precision necessary for tracking very fast movements, resulting in motion blur and latency issues. Event cameras, on the other hand, offer a promising alternative by recording changes in the visual scene asynchronously and providing high temporal resolution and low latency. By bridging the gap between traditional computer vision and event-based vision, we present events as frames that can be readily utilized by standard deep learning algorithms. This approach harnesses YOLOv8, a state-of-the-art object detection technology, to process these frames for pupil tracking using the publicly accessible Ev-Eye dataset. Experimental results demonstrate the framework's effectiveness, highlighting its potential applications in neuroscience, ophthalmology, and human-computer interaction.
翻訳日:2024-07-24 16:26:03 公開日:2024-07-23
# RedAgent: コンテキスト対応の自律型言語エージェントで大規模言語モデルと組む

RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent ( http://arxiv.org/abs/2407.16667v1 )

ライセンス: Link先を確認
Huiyu Xu, Wenhui Zhang, Zhibo Wang, Feng Xiao, Rui Zheng, Yunhe Feng, Zhongjie Ba, Kui Ren, (参考訳) 近年、GPT-4のような高度なLarge Language Models (LLM) が、Code Copilotのような多くの現実世界のアプリケーションに統合されている。 これらのアプリケーションはLSMの攻撃面を大きく拡張し、様々な脅威にさらされている。 中でも、脱獄プロンプトを通じて有害な反応を引き起こす脱獄攻撃は、重大な安全上の懸念を引き起こしている。 これらの脅威を特定するために、多くのレッド・チーム・アプローチは、ターゲットのLSMをテストするためのジェイルブレイクプロンプトを作成することで、潜在的な敵シナリオをシミュレートする。 しかし、既存のレッドチーム方式では、異なるシナリオでLLMのユニークな脆弱性を考慮せず、コンテキスト固有の脆弱性を見つけるためのジェイルブレイクプロンプトを調整するのが困難である。 一方、これらのメソッドは、いくつかの変更操作を使用してJailbreakテンプレートを書き換えることに制限されており、異なるシナリオに適応するための自動化とスケーラビリティが欠如している。 ユルブレイク戦略」と呼ばれるコヒーレントな概念に既存の攻撃を抽象化し、モデル化し、これらの戦略を利用して文脈対応のジェイルブレイクプロンプトを生成するRedAgentというマルチエージェントLLMシステムを提案する。 追加のメモリバッファでコンテキストフィードバックを自己参照することで、RedAgentは、これらの戦略を活用して、特定のコンテキストで効果的なジェイルブレイクを実現する方法を継続的に学習する。 大規模な実験により,我々のシステムは5つのクエリでほとんどのブラックボックスLEMをジェイルブレークし,既存のレッドチーム方式の効率を2倍に向上させることができた。 さらにRedAgentは、JailbreakでLLMアプリケーションをより効率的にカスタマイズできる。 GPT上のアプリケーションに対してコンテキスト対応のjailbreakプロンプトを生成することで、脆弱性1つ当たり2クエリしか持たない実世界のアプリケーションに対して、60の深刻な脆弱性を発見します。 すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。

Recently, advanced Large Language Models (LLMs) such as GPT-4 have been integrated into many real-world applications like Code Copilot. These applications have significantly expanded the attack surface of LLMs, exposing them to a variety of threats. Among them, jailbreak attacks that induce toxic responses through jailbreak prompts have raised critical safety concerns. To identify these threats, a growing number of red teaming approaches simulate potential adversarial scenarios by crafting jailbreak prompts to test the target LLM. However, existing red teaming methods do not consider the unique vulnerabilities of LLM in different scenarios, making it difficult to adjust the jailbreak prompts to find context-specific vulnerabilities. Meanwhile, these methods are limited to refining jailbreak templates using a few mutation operations, lacking the automation and scalability to adapt to different scenarios. To enable context-aware and efficient red teaming, we abstract and model existing attacks into a coherent concept called "jailbreak strategy" and propose a multi-agent LLM system named RedAgent that leverages these strategies to generate context-aware jailbreak prompts. By self-reflecting on contextual feedback in an additional memory buffer, RedAgent continuously learns how to leverage these strategies to achieve effective jailbreaks in specific contexts. Extensive experiments demonstrate that our system can jailbreak most black-box LLMs in just five queries, improving the efficiency of existing red teaming methods by two times. Additionally, RedAgent can jailbreak customized LLM applications more efficiently. By generating context-aware jailbreak prompts towards applications on GPTs, we discover 60 severe vulnerabilities of these real-world applications with only two queries per vulnerability. We have reported all found issues and communicated with OpenAI and Meta for bug fixes.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# FakingRecipe: 短いビデオプラットフォーム上のフェイクニュースを創造的プロセスの観点から検出する

FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process ( http://arxiv.org/abs/2407.16670v1 )

ライセンス: Link先を確認
Yuyan Bu, Qiang Sheng, Juan Cao, Peng Qi, Danding Wang, Jintao Li, (参考訳) ショートフォームビデオ共有プラットフォームがニュース消費の重要なチャネルとなるにつれ、ショートビデオにおけるフェイクニュースはオンライン情報エコシステムにおいて深刻な脅威として浮上し、この新しいシナリオの検知方法の開発が緊急のニーズとなっている。 テキストや画像のフォーマットと比較すると、ショートビデオプラットフォーム上のフェイクニュースは、多様だが異質な情報を多様に含んでいるため、効果的な機能利用の難しさを浮き彫りにしている。 提示されるものを主に分析することに焦点を当てた既存の作品とは異なり、どのように作成されるかを考える新しい視点を導入します。 ニュースビデオ制作の背景にある創造的プロセスのレンズを通して、我々の経験的分析により、偽ニュースビデオの素材選択と編集におけるユニークな特徴が明らかになった。 得られた知見に基づいて、フェイクニュースショートビデオを検出するクリエイティブなプロセス認識モデルであるFakingRecipeを設計する。 感傷的・意味的な側面から素材選択における偽ニュース選好を捉え、空間的・時間的側面から素材編集の特質を考察する。 評価の包括性を改善するために、まず、このタスクのための英語データセットであるFakeTTを構築し、FakeTTと既存の中国語FakeSVデータセットの両方で実験を行う。 その結果、短いビデオプラットフォームでのフェイクニュースの検出において、FakingRecipeの優位性が示された。

As short-form video-sharing platforms become a significant channel for news consumption, fake news in short videos has emerged as a serious threat in the online information ecosystem, making developing detection methods for this new scenario an urgent need. Compared with that in text and image formats, fake news on short video platforms contains rich but heterogeneous information in various modalities, posing a challenge to effective feature utilization. Unlike existing works mostly focusing on analyzing what is presented, we introduce a novel perspective that considers how it might be created. Through the lens of the creative process behind news video production, our empirical analysis uncovers the unique characteristics of fake news videos in material selection and editing. Based on the obtained insights, we design FakingRecipe, a creative process-aware model for detecting fake news short videos. It captures the fake news preferences in material selection from sentimental and semantic aspects and considers the traits of material editing from spatial and temporal aspects. To improve evaluation comprehensiveness, we first construct FakeTT, an English dataset for this task, and conduct experiments on both FakeTT and the existing Chinese FakeSV dataset. The results show FakingRecipe's superiority in detecting fake news on short video platforms.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# Kan または MLP: より公正な比較

KAN or MLP: A Fairer Comparison ( http://arxiv.org/abs/2407.16674v1 )

ライセンス: Link先を確認
Runpeng Yu, Weihao Yu, Xinchao Wang, (参考訳) 本論文では,新しい方法を紹介しない。 代わりに、機械学習、コンピュータビジョン、オーディオ処理、自然言語処理、記号式表現など、さまざまなタスクにわたるKanとMLPモデルのより公平で包括的な比較を提供する。 具体的には,パラメータ数とFLOPを制御して,kan と MLP のパフォーマンスを比較する。 我々の主な観察は、記号式表現タスクを除くと、MLPは一般的にKanより優れています。 また, カンに関するアブレーション研究を行い, 記号式表現におけるその優位性は主にB-スプライン活性化関数に由来することを見出した。 MLPにB-スプラインを適用すると、シンボリック式表現の性能は、Kanよりも大幅に向上する。 しかし,すでに Kan に勝っている他のタスクでは,B-spline は MLP の性能を大幅に向上させるものではない。 さらに, 標準クラス増分連続学習環境においては, カンの忘れる問題は, MLPよりも深刻であることが確認された。 これらの結果がkanや他のMLP代替品の今後の研究に役立つことを願っている。 プロジェクトリンク:https://github.com/yu-rp/KanbeFair

This paper does not introduce a novel method. Instead, it offers a fairer and more comprehensive comparison of KAN and MLP models across various tasks, including machine learning, computer vision, audio processing, natural language processing, and symbolic formula representation. Specifically, we control the number of parameters and FLOPs to compare the performance of KAN and MLP. Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN. We also conduct ablation studies on KAN and find that its advantage in symbolic formula representation mainly stems from its B-spline activation function. When B-spline is applied to MLP, performance in symbolic formula representation significantly improves, surpassing or matching that of KAN. However, in other tasks where MLP already excels over KAN, B-spline does not substantially enhance MLP's performance. Furthermore, we find that KAN's forgetting issue is more severe than that of MLP in a standard class-incremental continual learning setting, which differs from the findings reported in the KAN paper. We hope these results provide insights for future research on KAN and other MLP alternatives. Project link: https://github.com/yu-rp/KANbeFair
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# イミテーションからリファインメントへ - 精密ビジュアルアセンブリのための残留RL-

From Imitation to Refinement -- Residual RL for Precise Visual Assembly ( http://arxiv.org/abs/2407.16677v1 )

ライセンス: Link先を確認
Lars Ankile, Anthony Simeonov, Idan Shenfeld, Marcel Torne, Pulkit Agrawal, (参考訳) 行動クローニング(BC)は、現在、現実世界の視覚的操作を学ぶための主要なパラダイムである。 しかし、マルチパートアセンブリのような局所的な修正行動を必要とするタスクでは、人間のデモから純粋に堅牢なポリシーを学ぶことは難しいままである。 強化学習(Reinforcement Learning, RL)は、タスク報酬の監督と探索を通じて、ポリシーが局所的な修正行動を取得することによって、これらの制限を緩和することができる。 本稿では、精密な操作タスクにおいて、BC訓練ポリシーを改善するためにRLファインチューニングを用いることについて検討する。 我々は、拡散モデルやアクションチャンキングといったモダンなアーキテクチャコンポーネントを組み込んだポリシーネットワークを直接トレーニングするためにRLを使用することに関連する技術的課題を分析し、克服する。 本稿では,標準方針勾配法とスパース報酬法(ResiP, Residual for Precise Operations)を用いて,凍結したBC訓練拡散モデル上での残留ポリシーのトレーニングを提案する。 実験結果から, この残差学習フレームワークは, 精度の高い組立作業において, 基礎となるBC訓練モデルを超えて, 精度の高い学習動作を学習することで, 成功率を大幅に向上させることができることが示された。 また,ResiPと教師学生の蒸留と視覚領域のランダム化を組み合わせることで,RGB画像から直接ロボット集合の現実的なポリシーを学習できることを示す。 ビデオとコードは \url{https://residual-assembly.github.io} で見つける。

Behavior cloning (BC) currently stands as a dominant paradigm for learning real-world visual manipulation. However, in tasks that require locally corrective behaviors like multi-part assembly, learning robust policies purely from human demonstrations remains challenging. Reinforcement learning (RL) can mitigate these limitations by allowing policies to acquire locally corrective behaviors through task reward supervision and exploration. This paper explores the use of RL fine-tuning to improve upon BC-trained policies in precise manipulation tasks. We analyze and overcome technical challenges associated with using RL to directly train policy networks that incorporate modern architectural components like diffusion models and action chunking. We propose training residual policies on top of frozen BC-trained diffusion models using standard policy gradient methods and sparse rewards, an approach we call ResiP (Residual for Precise manipulation). Our experimental results demonstrate that this residual learning framework can significantly improve success rates beyond the base BC-trained models in high-precision assembly tasks by learning corrective actions. We also show that by combining ResiP with teacher-student distillation and visual domain randomization, our method can enable learning real-world policies for robotic assembly directly from RGB images. Find videos and code at \url{https://residual-assembly.github.io}.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# 大規模人的データを用いた自律レースのシミュレーションベンチマーク

A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data ( http://arxiv.org/abs/2407.16680v1 )

ライセンス: Link先を確認
Adrian Remonda, Nicklas Hansen, Ayoub Raji, Nicola Musiu, Marko Bertogna, Eduardo Veas, Xiaolong Wang, (参考訳) 国際通貨コンペティション、スケールされた車両、シミュレーション環境が利用可能であるにもかかわらず、自動運転車の研究やハンドリングの限界に近いスポーツカーの制御は、自動車の獲得と管理のコストが高いこと、オープンソースシミュレータの物理精度の制限によって制限されている。 本稿では,シミュレータAssetto Corsaをベースとしたレースシミュレーションプラットフォームを提案し,現実的かつ困難なシナリオにおいて,強化学習(RL)や古典的モデル予測制御(MPC)を含む自律走行アルゴリズムのテスト,検証,ベンチマークを行う。 私たちのコントリビューションには、このシミュレーションプラットフォームの開発、レース環境に適した最先端のアルゴリズム、人間ドライバーから収集された包括的なデータセットなどが含まれています。 さらに,オフラインRL設定におけるアルゴリズムの評価を行った。 必要なコード(環境やベンチマークを含む)、作業例、データセット、ビデオはすべて公開されており、以下のとおりである。

Despite the availability of international prize-money competitions, scaled vehicles, and simulation environments, research on autonomous racing and the control of sports cars operating close to the limit of handling has been limited by the high costs of vehicle acquisition and management, as well as the limited physics accuracy of open-source simulators. In this paper, we propose a racing simulation platform based on the simulator Assetto Corsa to test, validate, and benchmark autonomous driving algorithms, including reinforcement learning (RL) and classical Model Predictive Control (MPC), in realistic and challenging scenarios. Our contributions include the development of this simulation platform, several state-of-the-art algorithms tailored to the racing environment, and a comprehensive dataset collected from human drivers. Additionally, we evaluate algorithms in the offline RL setting. All the necessary code (including environment and benchmarks), working examples, datasets, and videos are publicly released and can be found at: \url{https://assetto-corsa-gym.github.io}.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# SAM-CP:Versatile Segmentationのための構成可能なプロンプトでSAMをマーリングする

SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation ( http://arxiv.org/abs/2407.16682v1 )

ライセンス: Link先を確認
Pengfei Chen, Lingxi Xie, Xinyue Huo, Xuehui Yu, Xiaopeng Zhang, Yingfei Sun, Zhenjun Han, Qi Tian, (参考訳) Segment Anything Model (SAM)は、画像ピクセルをパッチにグループ化する一般的な能力を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。 本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。 具体的には、一組のクラス(テキスト)と一組のSAMパッチが与えられた場合、Type-IはSAMパッチがテキストラベルと一致しているかどうかを判断し、Type-IIはSAMパッチが同じテキストラベルを持つ2つが同じインスタンスに属するかどうかを判断する。 多数のセマンティッククラスやパッチを扱う際の複雑さを軽減するため、クエリ(セマンティックおよびインスタンス)とSAMパッチの親和性を計算し、クエリに親和性の高いパッチをマージする統合フレームワークを構築した。 実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。 特に、オープン語彙セグメンテーションにおける最先端のパフォーマンスを実現する。 本研究は,SAMのような視覚基盤モデルと多粒な意味知覚能力とを両立させる,新しい,一般化された方法論を提供する。

The Segment Anything model (SAM) has shown a generalized ability to group image pixels into patches, but applying it to semantic-aware segmentation still faces major challenges. This paper presents SAM-CP, a simple approach that establishes two types of composable prompts beyond SAM and composes them for versatile segmentation. Specifically, given a set of classes (in texts) and a set of SAM patches, the Type-I prompt judges whether a SAM patch aligns with a text label, and the Type-II prompt judges whether two SAM patches with the same text label also belong to the same instance. To decrease the complexity in dealing with a large number of semantic classes and patches, we establish a unified framework that calculates the affinity between (semantic and instance) queries and SAM patches and merges patches with high affinity to the query. Experiments show that SAM-CP achieves semantic, instance, and panoptic segmentation in both open and closed domains. In particular, it achieves state-of-the-art performance in open-vocabulary segmentation. Our research offers a novel and generalized methodology for equipping vision foundation models like SAM with multi-grained semantic perception abilities.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# AutoRG-Brain:脳MRIのためのグラウンドドレポート生成

AutoRG-Brain: Grounded Report Generation for Brain MRI ( http://arxiv.org/abs/2407.16684v1 )

ライセンス: Link先を確認
Jiayu Lei, Xiaoman Zhang, Chaoyi Wu, Lisong Dai, Ya Zhang, Yanyong Zhang, Yanfeng Wang, Weidi Xie, Yuehua Li, (参考訳) 放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。 この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。 これらの課題に対処するために、脳MRIの解釈システムから始まり、脳構造のデライン化、異常の局所化、よく組織された発見の生成を支援する、基盤となる自動報告生成(AutoRG)の一連の研究を開始する。 まず、データセット構築に関して、異常領域のセグメンテーションマスクとRadGenome-Brain MRIと呼ばれる手動オーサリングレポートを含む包括的なデータセットをリリースする。 このデータリソースは、AI支援レポート生成システムの分野で進行中の研究と開発を触媒することを目的としている。 第2に, システム設計において, 画素レベルの接地による視覚的手がかりを持つ最初の脳MRIレポート生成システムであるAutoRG-Brainを提案する。 第3に,脳構造セグメンテーションの定量的評価と人的評価を行い,その信頼性と正確性を示すために,異常な局所化とレポート生成タスクを行った。 このシステムは実際の臨床シナリオに組み込まれており、放射線技師は、生成した結果と異常なセグメンテーションマスクに基づいてレポートを書くように指示された。 以上の結果から, 若年者医師のレポート作成能力の向上が図られ, 成績の整合性が向上し, 総合的生産性が向上することが示唆された。

Radiologists are tasked with interpreting a large number of images in a daily base, with the responsibility of generating corresponding reports. This demanding workload elevates the risk of human error, potentially leading to treatment delays, increased healthcare costs, revenue loss, and operational inefficiencies. To address these challenges, we initiate a series of work on grounded Automatic Report Generation (AutoRG), starting from the brain MRI interpretation system, which supports the delineation of brain structures, the localization of anomalies, and the generation of well-organized findings. We make contributions from the following aspects, first, on dataset construction, we release a comprehensive dataset encompassing segmentation masks of anomaly regions and manually authored reports, termed as RadGenome-Brain MRI. This data resource is intended to catalyze ongoing research and development in the field of AI-assisted report generation systems. Second, on system design, we propose AutoRG-Brain, the first brain MRI report generation system with pixel-level grounded visual clues. Third, for evaluation, we conduct quantitative assessments and human evaluations of brain structure segmentation, anomaly localization, and report generation tasks to provide evidence of its reliability and accuracy. This system has been integrated into real clinical scenarios, where radiologists were instructed to write reports based on our generated findings and anomaly segmentation masks. The results demonstrate that our system enhances the report-writing skills of junior doctors, aligning their performance more closely with senior doctors, thereby boosting overall productivity.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# 大規模言語モデルでは GPT-4V が自動脱獄可能か?

Can Large Language Models Automatically Jailbreak GPT-4V? ( http://arxiv.org/abs/2407.16686v1 )

ライセンス: Link先を確認
Yuanwei Wu, Yue Huang, Yixin Liu, Xiang Li, Pan Zhou, Lichao Sun, (参考訳) GPT-4Vは、マルチモーダル情報の統合と処理に異常な能力があるため、かなりの注目を集めている。 同時に、顔認識能力は、プライバシー漏洩に対する新たな安全上の懸念を提起する。 RLHFや前処理フィルタによる安全性確保への研究者の努力にもかかわらず、脆弱性はいまだに悪用されている。 本研究では,迅速な最適化にインスパイアされた革新的自動ジェイルブレイク技術であるAutoJailbreakを紹介する。 我々は、大規模言語モデル(LLM)をレッドチームに活用し、ジェイルブレイクのプロンプトを洗練させ、弱いテキスト内学習プロンプトを使用して効率を向上する。 さらに,最適化時間とトークン支出を最小化するために,早期停止を組み込んだ効率的な探索手法を提案する。 実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3倍のアタック成功率(ASR)を達成した。 この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。

GPT-4V has attracted considerable attention due to its extraordinary capacity for integrating and processing multimodal information. At the same time, its ability of face recognition raises new safety concerns of privacy leakage. Despite researchers' efforts in safety alignment through RLHF or preprocessing filters, vulnerabilities might still be exploited. In our study, we introduce AutoJailbreak, an innovative automatic jailbreak technique inspired by prompt optimization. We leverage Large Language Models (LLMs) for red-teaming to refine the jailbreak prompt and employ weak-to-strong in-context learning prompts to boost efficiency. Furthermore, we present an effective search method that incorporates early stopping to minimize optimization time and token expenditure. Our experiments demonstrate that AutoJailbreak significantly surpasses conventional methods, achieving an Attack Success Rate (ASR) exceeding 95.3\%. This research sheds light on strengthening GPT-4V security, underscoring the potential for LLMs to be exploited in compromising GPT-4V integrity.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# 畳み込みニューラルネットワークを用いた個々の楽器トラックの自動等化

Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks ( http://arxiv.org/abs/2407.16691v1 )

ライセンス: Link先を確認
Florian Mockenhaupt, Joscha Simon Rieber, Shahan Nercessian, (参考訳) 本稿では,個々の楽器トラックの自動等化のための新しい手法を提案する。 本手法は,対象とする理想スペクトルを選択するために,音源記録中に存在する機器を同定することから始める。 次に、記録と目標とのスペクトル差を算出し、等化器マッチングモデルを用いてパラメトリック等化器の設定を予測する。 この目的のために我々は,従来確立されていた最先端技術に対する改善を示す,微分可能なパラメトリック等化器マッチングニューラルネットワークを構築した。 過去のアプローチとは違って,本システムでは,マッチングモデルのトレーニング中に,実世界の音声データを自然に活用し,推論時の自動ミラーリング条件で,適切に生成されたトレーニング目標を効果的に生成する方法を示す。 その結果、実世界のシナリオにおけるパラメトリック等化器マッチング性能を大幅に向上させ、自己教師付き学習戦略としてランダムパラメータサンプリング技術にのみ依存する手法と比較して平均絶対誤差を24%削減した。 我々は,聴取試験を行い,提案した自動等化解が共通楽器の録音における音色特性を主観的に向上させることを示した。

We propose a novel approach for the automatic equalization of individual musical instrument tracks. Our method begins by identifying the instrument present within a source recording in order to choose its corresponding ideal spectrum as a target. Next, the spectral difference between the recording and the target is calculated, and accordingly, an equalizer matching model is used to predict settings for a parametric equalizer. To this end, we build upon a differentiable parametric equalizer matching neural network, demonstrating improvements relative to previously established state-of-the-art. Unlike past approaches, we show how our system naturally allows real-world audio data to be leveraged during the training of our matching model, effectively generating suitably produced training targets in an automated manner mirroring conditions at inference time. Consequently, we illustrate how fine-tuning our matching model on such examples considerably improves parametric equalizer matching performance in real-world scenarios, decreasing mean absolute error by 24% relative to methods relying solely on random parameter sampling techniques as a self-supervised learning strategy. We perform listening tests, and demonstrate that our proposed automatic equalization solution subjectively enhances the tonal characteristics for recordings of common instrument types.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# 属性レンズによる説明規則化

Explanation Regularisation through the Lens of Attributions ( http://arxiv.org/abs/2407.16693v1 )

ライセンス: Link先を確認
Pedro Ferreira, Wilker Aziz, Ivan Titov, (参考訳) 説明正則化(英: Explanation regularisation, ER)は、モデルが人間に似通った方法で予測を導く方法、すなわち、その属性を「称賛できる」ものにする手段として導入された。 これは、モデルに対する入力帰属手法の出力が、関連する人間の注釈付き有理数とどの程度うまく一致しているかを測定する補助的な説明損失を導入することで達成される。 ERの使用による肯定的な結果の1つは、ドメイン外(OOD)設定のパフォーマンスの改善である。 しかし、従来の研究はERの目的がモデル属性に与える影響を過小評価しており、特にERの訓練に使用される技術以外の技術で得られる場合は、その影響を未然に調査している。 本研究は,ERが可視トークンの分類決定を通知する上での有効性と,OOD条件に対する可視性の増加と堅牢性の関係について考察する。 一連の分析の結果、ERと分類器の関連性は、可視的特徴に依存する能力は過大評価されており、可視的トークンへの依存がOOD改善の原因とはなっていないことが判明した。

Explanation regularisation (ER) has been introduced as a way to guide models to make their predictions in a manner more akin to humans, i.e., making their attributions "plausible". This is achieved by introducing an auxiliary explanation loss, that measures how well the output of an input attribution technique for the model agrees with relevant human-annotated rationales. One positive outcome of using ER appears to be improved performance in out-of-domain (OOD) settings, presumably due to an increased reliance on "plausible" tokens. However, previous work has under-explored the impact of the ER objective on model attributions, in particular when obtained with techniques other than the one used to train ER. In this work, we contribute a study of ER's effectiveness at informing classification decisions on plausible tokens, and the relationship between increased plausibility and robustness to OOD conditions. Through a series of analyses, we find that the connection between ER and the ability of a classifier to rely on plausible features has been overstated and that a stronger reliance on plausible tokens does not seem to be the cause for any perceived OOD improvements.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# Aster: Arm CCAでAndroid TEEエコシステムを修正

Aster: Fixing the Android TEE Ecosystem with Arm CCA ( http://arxiv.org/abs/2407.16694v1 )

ライセンス: Link先を確認
Mark Kuhne, Supraja Sridhara, Andrin Bertschi, Nicolas Dutly, Srdjan Capkun, Shweta Shinde, (参考訳) Androidエコシステムは、TrustZone(例えば、OP-TEE、QTEE、Trusty)または信頼できるハイパーバイザ(pKVM、Gunyah)を使用して、悪意のあるアプリやAndroidバグからセキュリティに敏感なサービスを分離する。 TrustZoneを使えば、セキュアなワールドコードでも、Androidを動かす通常の世界にアクセスできます。 同様に、信頼できるハイパーバイザは、ひとつのVMで実行されているAndroidと、他のVMで実行されるセキュリティサービスに完全にアクセスできる。 本稿では,Android,ハイパーバイザ,セキュアな世界を相互に分離する相互隔離の必要性を動機づける。 次に、サンドボックス化された実行では、サンドボックス、Android、ハイパーバイザ、セキュアなワールドメモリにアクセスできないサンドボックスサービス抽象化を提案する。 サンドボックス化された実行がAndroidと通信してインプットを取得し、出力を安全に提供できることを保証しながら、これらの目標を達成するAsterを紹介します。 私たちの主な洞察は、Arm Confidential Computing Architecture(CCA)が提供するハードウェア分離を活用することです。 しかし、CCAは当社のサンドボックス化や相互分離の要件を満たしていないため、Asterはハードウェアの執行機関をその目標を達成するために再利用し、セキュアなインターフェース、Virtio、割り込みに対する保護といった課題に対処する。 我々は、その実現可能性を示し、互換性を評価するためにAsterを実装した。 現在Androidスマートフォンにデプロイされ、信頼されたハイパーバイザを使って十分に保護されていないものを含む3つのケーススタディを取り、Asterによって保護できることを示す。

The Android ecosystem relies on either TrustZone (e.g., OP-TEE, QTEE, Trusty) or trusted hypervisors (pKVM, Gunyah) to isolate security-sensitive services from malicious apps and Android bugs. TrustZone allows any secure world code to access the normal world that runs Android. Similarly, a trusted hypervisor has full access to Android running in one VM and security services in other VMs. In this paper, we motivate the need for mutual isolation, wherein Android, hypervisors, and the secure world are isolated from each other. Then, we propose a sandboxed service abstraction, such that a sandboxed execution cannot access any other sandbox, Android, hypervisor, or secure world memory. We present Aster which achieves these goals while ensuring that sandboxed execution can still communicate with Android to get inputs and provide outputs securely. Our main insight is to leverage the hardware isolation offered by Arm Confidential Computing Architecture (CCA). However, since CCA does not satisfy our sandboxing and mutual isolation requirements, Aster repurposes its hardware enforcement to meet its goals while addressing challenges such as secure interfaces, virtio, and protection against interrupts. We implement Aster to demonstrate its feasibility and assess its compatibility. We take three case studies, including one currently deployed on Android phones and insufficiently secured using a trusted hypervisor, to demonstrate that they can be protected by Aster.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# Lifelong ICL と Task Haystack を用いたストレステストロングコンテキスト言語モデル

Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack ( http://arxiv.org/abs/2407.16695v1 )

ライセンス: Link先を確認
Xiaoyue Xu, Qinyuan Ye, Xiang Ren, (参考訳) 本稿では、長いコンテキスト言語モデル(LM)に挑戦し、テキスト内学習(ICL)を通して言語タスクのシーケンスから学習する問題設定であるLifelong ICLを紹介する。 長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackについても紹介する。 タスク命令とテスト入力が与えられた場合、長いコンテキストのLMは、Lifelong ICLプロンプトの関連するデモを活用し、他のタスクからの邪魔や干渉を避け、シングルタスクのICLベースラインよりも著しく悪いテスト精度を達成することが期待される。 Task Haystackは、広く採用されている"needle-in-a-haystack"(NIAH)評価からインスピレーションを得ているが、新しくユニークな課題を提示している。 モデルは(1)単純なコピーやペーストに頼るのではなく、より深い理解でコンテキストを活用すること、(2)進化するトピックやタスクの長いストリームをナビゲートすることを要求する。 さらにTask Haystackは、NIAHのコントロール可能性という側面を継承し、モデル脆弱性を効果的に識別するツールと視覚化を提供する。 Task Haystackを使って12の長文LMをベンチマークする。 GPT-4oのような最先端のクローズドモデルは、平均して15%のケースで失敗する一方、我々の評価するオープンウェイトモデルは、大きなマージンでさらに不足し、最大61%のケースで失敗する。 制御分析では,これらの障害事例に寄与する要因として,注意散逸や傾向バイアスなどの要因を同定した。 さらに、テスト時にタスク命令が言い換えられたり、ICLのデモが過度に繰り返された場合のパフォーマンス低下を観察し、ロバスト性、命令理解、現在の長文LMの真のコンテキスト利用に対する懸念を提起する。

We introduce Lifelong ICL, a problem setting that challenges long-context language models (LMs) to learn from a sequence of language tasks through in-context learning (ICL). We further introduce Task Haystack, an evaluation suite dedicated to assessing and diagnosing how long-context LMs utilizes contexts in Lifelong ICL. When given a task instruction and test inputs, long-context LMs are expected to leverage the relevant demonstrations in the Lifelong ICL prompt, avoid distraction and interference from other tasks, and achieve test accuracies that are not significantly worse than the Single-task ICL baseline. Task Haystack draws inspiration from the widely-adopted "needle-in-a-haystack" (NIAH) evaluation, but presents new and unique challenges. It demands that models (1) utilize the contexts with deeper understanding, rather than resorting to simple copying and pasting; (2) navigate through long streams of evolving topics and tasks, which closely approximates the complexities of real-world usage of long-context LMs. Additionally, Task Haystack inherits the controllability aspect of NIAH, providing model developers with tools and visualizations to identify model vulnerabilities effectively. We benchmark 12 long-context LMs using Task Haystack. We find that state-of-the-art closed models such as GPT-4o still struggle in this setting, failing 15% of the cases on average, while all open-weight models we evaluate further lack behind by a large margin, failing up to 61% of the cases. In our controlled analysis, we identify factors such as distraction and recency bias as contributors to these failure cases. Further, we observe declines in performance when task instructions are paraphrased at test time or when ICL demonstrations are repeated excessively, raising concerns about the robustness, instruction understanding, and true context utilization of current long-context LMs.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# PartGLEE:任意のオブジェクトを認識し解析するための基礎モデル

PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects ( http://arxiv.org/abs/2407.16696v1 )

ライセンス: Link先を確認
Junyi Li, Junfeng Wu, Weizhi Zhao, Song Bai, Xiang Bai, (参考訳) 画像中の物体と部分の位置と識別のための部分レベル基礎モデルであるPartGLEEを提案する。 PartGLEEは統一されたフレームワークを通じて、オープンワールドシナリオにおけるあらゆる粒度のインスタンスの検出、セグメンテーション、グラウンド化を実現している。 具体的には、オブジェクトとパーツ間の階層的関係を構築するためのQ-Formerを提案し、各オブジェクトを対応する意味部分に解析する。 大量のオブジェクトレベルのデータを組み込むことで、階層的な関係を拡張することができ、PartGLEEは多様な部分を認識することができる。 提案手法の有効性を検証するために包括的研究を行い,その成果を様々な部分レベルタスクで達成し,オブジェクトレベルタスクの競争結果を得る。 提案したPartGLEEは,従来のGLEEモデルよりも階層的モデリング能力と部分レベルの認識能力を大幅に向上させる。 さらに分析したところ、PartGLEEの階層的認知能力は、mLLMの画像の詳細な理解を促進することができることが示された。 モデルとコードはhttps://provencestar.github.io/PartGLEE-Vision/でリリースされる。

We present PartGLEE, a part-level foundation model for locating and identifying both objects and parts in images. Through a unified framework, PartGLEE accomplishes detection, segmentation, and grounding of instances at any granularity in the open world scenario. Specifically, we propose a Q-Former to construct the hierarchical relationship between objects and parts, parsing every object into corresponding semantic parts. By incorporating a large amount of object-level data, the hierarchical relationships can be extended, enabling PartGLEE to recognize a rich variety of parts. We conduct comprehensive studies to validate the effectiveness of our method, PartGLEE achieves the state-of-the-art performance across various part-level tasks and obtain competitive results on object-level tasks. The proposed PartGLEE significantly enhances hierarchical modeling capabilities and part-level perception over our previous GLEE model. Further analysis indicates that the hierarchical cognitive ability of PartGLEE is able to facilitate a detailed comprehension in images for mLLMs. The model and code will be released at https://provencestar.github.io/PartGLEE-Vision/ .
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# AbdomenAtlas: 効率的なトランスファー学習とオープンアルゴリズムベンチマークのための大規模、詳細な注釈付き、マルチセンターデータセット

AbdomenAtlas: A Large-Scale, Detailed-Annotated, & Multi-Center Dataset for Efficient Transfer Learning and Open Algorithmic Benchmarking ( http://arxiv.org/abs/2407.16697v1 )

ライセンス: Link先を確認
Wenxuan Li, Chongyu Qu, Xiaoxi Chen, Pedro R. A. S. Bassi, Yijia Shi, Yuxiang Lai, Qian Yu, Huimin Xue, Yixiong Chen, Xiaorui Lin, Yutong Tang, Yining Cao, Haoqi Han, Zheyuan Zhang, Jiawei Liu, Tiezheng Zhang, Yujiu Ma, Jincheng Wang, Guang Zhang, Alan Yuille, Zongwei Zhou, (参考訳) 我々は, 多様な人口, 地理, 施設にまたがる112の病院から得られた3次元CTボリューム20,460の腹部CTデータセット(AbdomenAtlasと推定される)について紹介した。 AbdomenAtlasは、AIアルゴリズムの助けを借りて10人の放射線学者のチームが注釈を付けた腹部領域の解剖学的構造の、673Kの高品質マスクを提供する。 専門医に22の解剖学的構造を5,246のCTで手動で注釈させるところから始める。 その後、残りのCTボリュームに対して半自動アノテーションの手順が行われ、そこでは、放射線学者がAIによって予測されるアノテーションを改訂し、その結果、AIは修正されたアノテーションから学習することで予測を改善する。 このような大規模、詳細な注釈付き、マルチセンターのデータセットは2つの理由から必要である。 第一に、AbdomenAtlasは大規模なAI開発のための重要なリソースを提供し、大規模な事前訓練されたモデルとしてブランド化することで、専門家の放射線技師のアノテーションの負荷を軽減し、より広範な臨床応用に移行することができる。 次に、AbdomenAtlas氏は、AIアルゴリズムを評価するための大規模なベンチマークを確立している。 ISBI & MICCAIの課題であるBodyMaps: Towards 3D Atlas of Human Bodyは、私たちのAbdomenAtlasのサブセットを使って立ち上げられ、AIイノベーションを刺激し、セグメンテーションの精度、推論効率、ドメインの一般化性をベンチマークすることを目的としています。 当社のAbdomenAtlasが、より大規模な臨床試験のステージを築き、医療画像コミュニティの実践者には例外的な機会を与えられることを願っています。 コード、モデル、データセットはhttps://www.zongweiz.com/datasetで入手できる。

We introduce the largest abdominal CT dataset (termed AbdomenAtlas) of 20,460 three-dimensional CT volumes sourced from 112 hospitals across diverse populations, geographies, and facilities. AbdomenAtlas provides 673K high-quality masks of anatomical structures in the abdominal region annotated by a team of 10 radiologists with the help of AI algorithms. We start by having expert radiologists manually annotate 22 anatomical structures in 5,246 CT volumes. Following this, a semi-automatic annotation procedure is performed for the remaining CT volumes, where radiologists revise the annotations predicted by AI, and in turn, AI improves its predictions by learning from revised annotations. Such a large-scale, detailed-annotated, and multi-center dataset is needed for two reasons. Firstly, AbdomenAtlas provides important resources for AI development at scale, branded as large pre-trained models, which can alleviate the annotation workload of expert radiologists to transfer to broader clinical applications. Secondly, AbdomenAtlas establishes a large-scale benchmark for evaluating AI algorithms -- the more data we use to test the algorithms, the better we can guarantee reliable performance in complex clinical scenarios. An ISBI & MICCAI challenge named BodyMaps: Towards 3D Atlas of Human Body was launched using a subset of our AbdomenAtlas, aiming to stimulate AI innovation and to benchmark segmentation accuracy, inference efficiency, and domain generalizability. We hope our AbdomenAtlas can set the stage for larger-scale clinical trials and offer exceptional opportunities to practitioners in the medical imaging community. Codes, models, and datasets are available at https://www.zongweiz.com/dataset
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# 単眼深度推定のための拡散モデル:カオス条件を克服する

Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions ( http://arxiv.org/abs/2407.16698v1 )

ライセンス: Link先を確認
Fabio Tosi, Pierluigi Zama Ramirez, Matteo Poggi, (参考訳) 本稿では, 単一画像深度推定タスクにおいて, ディストリビューションデータの挑戦によって生じる複雑さに対処する新しい手法を提案する。 好ましくない要因の欠如による深度予測を容易にする画像から始め,包括的課題と関連する深度情報を備えた,ユーザ定義の新たなシーンを体系的に生成する。 これは、テキストプロンプトから高品質な画像コンテンツを合成することで知られ、生成された画像とソース画像の3D構造のコヒーレンスを保ちながら、最先端のテキスト・ツー・イメージ拡散モデルと深度認識制御を活用することで実現される。 単分子深度ネットワークのその後の微調整は、我々の戦略を用いて生成した画像と、単純で不整合なシーンにおけるそれ自身の深度予測を考慮に入れた自己蒸留プロトコルによって行われる。 我々の目的に適したベンチマークの実験は、提案の有効性と汎用性を示している。

We present a novel approach designed to address the complexities posed by challenging, out-of-distribution data in the single-image depth estimation task. Starting with images that facilitate depth prediction due to the absence of unfavorable factors, we systematically generate new, user-defined scenes with a comprehensive set of challenges and associated depth information. This is achieved by leveraging cutting-edge text-to-image diffusion models with depth-aware control, known for synthesizing high-quality image content from textual prompts while preserving the coherence of 3D structure between generated and source imagery. Subsequent fine-tuning of any monocular depth network is carried out through a self-distillation protocol that takes into account images generated using our strategy and its own depth predictions on simple, unchallenging scenes. Experiments on benchmarks tailored for our purposes demonstrate the effectiveness and versatility of our proposal.
翻訳日:2024-07-24 16:16:18 公開日:2024-07-23
# 長距離横フィールドイジングチェーンにおける動的量子臨界現象の確率的パラメータ最適化解析

Stochastic parameter optimization analysis of dynamical quantum critical phenomena in long-range transverse-field Ising chain ( http://arxiv.org/abs/2305.14121v3 )

ライセンス: Link先を確認
Sora Shiratani, Synge Todo, (参考訳) 量子モンテカルロ法と確率的パラメータ最適化を組み合わせた一次元長距離横場イジングモデルの量子位相遷移について検討し、空間と虚時が等方的に等方性を持つように相関比を調整することによって特に達成した。 シミュレーションでは, 臨界点と普遍性に関する事前知識がなくても, サンプリング対象のパラメータを自動的に決定する。 異なる大きさの2つのシステムを比較することにより、先頭の有限サイズ補正を排除し、この手順も自動的に行われる。 長距離相互作用の減衰指数である$\sigma$を変数として、力学指数と他の臨界指数を平均場、非ユニバーサル、および2次元古典的イジング普遍性系において正確に調べる。 我々は、力学指数に基づいて、後者の 2 間の普遍性境界を $\sigma = 7/4$ と決定し、普遍性境界の位置に関する長年の論争を解決した。

The quantum phase transition of the one-dimensional long-range transverse-field Ising model is explored by combining the quantum Monte Carlo method and stochastic parameter optimization, specifically achieved by tuning correlation ratios so that space and imaginary time are isotropic. In our simulations, the simulator automatically determines the parameters to sample from, even without prior knowledge of the critical point and universality class. The leading order finite-size corrections are eliminated by comparing two systems with different sizes; this procedure is also performed automatically. Varying the decay exponent of the long-range interaction, $\sigma$, we investigate $\sigma$-dependence of the dynamical exponent and the other critical exponents precisely in the mean-field, non-universal, and two-dimensional classical Ising universality regimes. We successfully determine the universality boundary between the latter two as $\sigma = 7/4$ based on the dynamical exponent and settle a long-standing dispute on the location of the universality boundary.
翻訳日:2024-07-24 12:24:14 公開日:2024-07-23
# SemiSFL: ラベルなしおよび非IIDデータによるフェデレーション学習

SemiSFL: Split Federated Learning on Unlabeled and Non-IID Data ( http://arxiv.org/abs/2307.15870v4 )

ライセンス: Link先を確認
Yang Xu, Yunming Liao, Hongli Xu, Zhipeng Sun, Liusheng Huang, Chunming Qiao, (参考訳) フェデレートラーニング(FL)は、複数のクライアントがネットワークエッジでプライベートデータ上で機械学習モデルを協調的にトレーニングできるようにするためのものだ。 しかし、リソース制約のあるデバイス上での大規模モデルのトレーニングとデプロイは困難である。 幸いなことに、SFL(Split Federated Learning)は、クライアントの計算や通信の負担を軽減することで、実現可能なソリューションを提供します。 しかし、既存のSFLの作業は、クライアントに十分なラベル付きデータを仮定することが多い。 さらに、データ非IIDnessは、効率的なモデルトレーニングを保証するために別の課題となる。 我々の知る限りでは、上記の2つの問題はSFLでは同時に解決されていない。 そこで本研究では,クラスタリング正規化を組み込んで,ラベルなしおよび非IIDクライアントデータでSFLを実行する,Semi-supervised SFLシステムを提案する。 さらに、モデル収束に関する理論的および実験的研究により、ラベル付きおよびラベルなしデータの一貫性のないトレーニングプロセスがクラスタリング正則化の有効性に影響を及ぼすことが明らかとなった。 トレーニングの不整合を軽減するため,グローバルな更新頻度を動的に調整し,トレーニング性能を向上させるアルゴリズムを開発した。 ベンチマークモデルとデータセットの大規模な実験により、我々のシステムはトレーニング時間の3.8倍のスピードアップを提供し、目標精度に達しながら通信コストを約70.3%削減し、最先端のベースラインと比較して、非IIDシナリオで最大5.8%の精度向上を実現している。

Federated Learning (FL) has emerged to allow multiple clients to collaboratively train machine learning models on their private data at the network edge. However, training and deploying large-scale models on resource-constrained devices is challenging. Fortunately, Split Federated Learning (SFL) offers a feasible solution by alleviating the computation and/or communication burden on clients. However, existing SFL works often assume sufficient labeled data on clients, which is usually impractical. Besides, data non-IIDness poses another challenge to ensure efficient model training. To our best knowledge, the above two issues have not been simultaneously addressed in SFL. Herein, we propose a novel Semi-supervised SFL system, termed SemiSFL, which incorporates clustering regularization to perform SFL with unlabeled and non-IID client data. Moreover, our theoretical and experimental investigations into model convergence reveal that the inconsistent training processes on labeled and unlabeled data have an influence on the effectiveness of clustering regularization. To mitigate the training inconsistency, we develop an algorithm for dynamically adjusting the global updating frequency, so as to improve training performance. Extensive experiments on benchmark models and datasets show that our system provides a 3.8x speed-up in training time, reduces the communication cost by about 70.3% while reaching the target accuracy, and achieves up to 5.8% improvement in accuracy under non-IID scenarios compared to the state-of-the-art baselines.
翻訳日:2024-07-24 12:24:14 公開日:2024-07-23
# 量子チャネルを介した情報・エネルギー同時伝送について

On Simultaneous Information and Energy Transmission through Quantum Channels ( http://arxiv.org/abs/2309.13691v5 )

ライセンス: Link先を確認
Bishal Kumar Das, Lav R. Varshney, Vaibhav Madhok, (参考訳) 送信された信号が同時に最小限のエネルギーを輸送しなければならない場合に、情報を量子チャネルを介して送信できる最適な速度が特徴付けられる。 そこで我々は,キャパシティ・パワー関数の量子古典的アナログを導入し,古典情報理論におけるノイズチャネルを通じて古典情報を伝達する結果を一般化する。 古典的量子チャネルのキャパシティ・パワー関数は、非アシストプロトコルとプライベートプロトコルの両方において共役であり、また、そのようなチャネルに対する入力信号のアンサンブルと無相関なアンサンブルの加算性も証明している。 これは、計算に正規化された公式は必要ないことを意味する。 これらの性質は、入力状態の集合を純粋量子状態に制限する場合に、すべてのノイズのないチャネルを保持できることを示す。 一般的なチャネルでは、キャパシティ・パワー関数は断片的凹凸である。 我々はこれを数値シミュレーションで裏付けるエレガントな視覚的証明を与える。 ランダム量子状態のチャネル容量と特性を結合する。 特に、エネルギー制約下でのランダムな量子状態の性質と大きなヒルベルト空間における濃度現象を用いて、ノイズレスチャネルの場合のキャパシティ・パワー関数の解析式を得る。

The optimal rate at which information can be sent through a quantum channel when the transmitted signal must simultaneously carry some minimum amount of energy is characterized. To do so, we introduce the quantum-classical analogue of the capacity-power function and generalize results in classical information theory for transmitting classical information through noisy channels. We show that the capacity-power function for a classical-quantum channel, for both unassisted and private protocol, is concave and also prove additivity for unentangled and uncorrelated ensembles of input signals for such channels. This implies we do not need regularized formulas for calculation. We show these properties also hold for all noiseless channels when we restrict the set of input states to be pure quantum states. For general channels, we find that the capacity-power function is piece-wise concave. We give an elegant visual proof for this supported by numerical simulations. We connect channel capacity and properties of random quantum states. In particular, we obtain analytical expressions for the capacity-power function for the case of noiseless channels using properties of random quantum states under an energy constraint and concentration phenomena in large Hilbert spaces.
翻訳日:2024-07-24 12:24:14 公開日:2024-07-23
# タクシーの局所ホットスポットの空間配置における階層的付随と抑制パターン

Hierarchical accompanying and inhibiting patterns on the spatial arrangement of taxis' local hotspots ( http://arxiv.org/abs/2310.11806v3 )

ライセンス: Link先を確認
Xiao-Jian Chen, Quanhua Dong, Changjiang Xiao, Zhou Huang, Keli Wang, Weiyu Zhang, Yu Liu, (参考訳) タクシーホットスポットの空間配置は, 空間構造を反映した分布関係を示し, 都市研究で注目されている。 従来の研究では、視覚分析や単純な指標によって大規模なホットスポットを探索しており、ホットスポットは通常中央の事業地区全体、駅、あるいは密集した住宅地をカバーし、半径は数百から数千メートルに達する。 しかし, 小型ホットスポットの空間配置パターンは, 一般的なピックアップ・アンド・ドロップオフの場所を反映したもので, あまり注目されていない。 本研究は,中国武漢市と北京市において,タクシーの軌跡データを用いて,微粒な局部ホットスポットの空間配置を定量的に検討した。 ホットスポットは、武漢では90m*90m、北京では105m*105mと同一視されている。 人気のホットスポットは一般的にあまり人気のないホットスポットに囲まれているが、人気のあるホットスポットが多い地域では人気が低いホットスポットの存在を妨げている。 これらの構成は階層的な伴奏であり、パターンを阻害する。 最後に、両方のパターンにインスパイアされ、これらの関係を記述するためにKNNベースのモデルが開発され、最もポピュラーでないホットスポットの空間分布を再現することに成功した。 これらの知見は、都市構造の理解を高め、都市計画を支援する。

The spatial arrangement of taxi hotspots indicates their inherent distribution relationships, reflecting spatial organization structure and has received attention in urban studies. Previous studies mainly explore large-scale hotspots by visual analysis or simple indexes, where hotspots usually cover the entire central business district, train stations, or dense residential areas, reaching a radius of hundreds or even thousands of meters. However, the spatial arrangement patterns of small-scale hotspots, reflecting the specific popular pick-up and drop-off locations, have not received much attention. This study quantitatively examines the spatial arrangement of fine-grained local hotspots in Wuhan and Beijing, China, using taxi trajectory data. Hotspots are adaptatively identified with sizes of 90m*90m in Wuhan and 105m*105m in Beijing according to identification method. Findings show popular hotspots are typically surrounded by less popular ones, though regions with many popular hotspots inhibit the presence of less popular ones. We term these configurations as hierarchical accompany and inhibiting patterns. Finally, inspired by both patterns, a KNN-based model is developed to describe these relationships, successfully reproducing the spatial distribution of less popular hotspots based on the most popular ones. These insights enhance understanding of local urban structures and support urban planning.
翻訳日:2024-07-24 12:24:14 公開日:2024-07-23
# 3D-GOI:多面・多対象編集のための3D GAN Omni-Inversion

3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing ( http://arxiv.org/abs/2311.12050v5 )

ライセンス: Link先を確認
Haoran Li, Long Ma, Haolin Shi, Yanbin Hao, Yong Liao, Lechao Cheng, Pengyuan Zhou, (参考訳) 現在のGANインバージョン法は、通常、空間情報を見下ろしながら、単一のオブジェクトと背景の外観と形状を編集するだけである。 本研究では,アフィン情報(スケール,翻訳,回転)の多面的編集を可能にする3D編集フレームワークである3D-GOIを提案する。 3D-GOIは、有名な3D GANであるGIRAFFEによって制御された属性コード(オブジェクト形状/外観/スケール/回転/変換、背景形状/外観、カメラポーズ)を反転させることで、複雑な編集機能を実現する。 3D-GOIは、この課題を3つの主要なステップに従って解決する。 まず、対象物と背景を多目的画像に分割する。 第二に、各オブジェクトの粗いコードを取得するために、カスタムのNeural Inversion Encoderを使用します。 最後に、ラウンドロビン最適化アルゴリズムを用いて正確なコードを取得し、画像を再構成する。 私たちの知る限りでは、3D-GOIは複数のオブジェクトで多面的な編集を可能にする最初のフレームワークです。 定性的かつ定量的な実験は、3D-GOIが複雑な多目的シーンで柔軟で多面的な編集の可能性を秘めていることを示している。

The current GAN inversion methods typically can only edit the appearance and shape of a single object and background while overlooking spatial information. In this work, we propose a 3D editing framework, 3D-GOI, to enable multifaceted editing of affine information (scale, translation, and rotation) on multiple objects. 3D-GOI realizes the complex editing function by inverting the abundance of attribute codes (object shape/appearance/scale/rotation/translation, background shape/appearance, and camera pose) controlled by GIRAFFE, a renowned 3D GAN. Accurately inverting all the codes is challenging, 3D-GOI solves this challenge following three main steps. First, we segment the objects and the background in a multi-object image. Second, we use a custom Neural Inversion Encoder to obtain coarse codes of each object. Finally, we use a round-robin optimization algorithm to get precise codes to reconstruct the image. To the best of our knowledge, 3D-GOI is the first framework to enable multifaceted editing on multiple objects. Both qualitative and quantitative experiments demonstrate that 3D-GOI holds immense potential for flexible, multifaceted editing in complex multi-object scenes.Our project and code are released at https://3d-goi.github.io .
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# WorkArena: 共通知識作業タスクの解決におけるWebエージェントの能力

WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? ( http://arxiv.org/abs/2403.07718v5 )

ライセンス: Link先を確認
Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H. Laradji, Manuel Del Verme, Tom Marty, Léo Boisvert, Megh Thakkar, Quentin Cappart, David Vazquez, Nicolas Chapados, Alexandre Lacoste, (参考訳) 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 従来の作業とは違って,エンタープライズソフトウェアシステムを利用した知識労働者の日常業務にまたがる作業を行うエージェントの能力の測定に重点を置いている。 この目的のために,広く使用されているServiceNowプラットフォームに基づく33タスクのリモートホスト型ベンチマークであるWorkArenaを提案する。 また,このようなエージェントの設計と評価のための環境であるBrowserGymを紹介する。 私たちの経験的評価は、現在のエージェントがWorkArenaを約束している一方で、完全なタスク自動化を達成するための大きなギャップがまだ残っていることを示している。 特に,オープンソースLLMとクローズドソースLLMの大幅な性能格差が明らかとなり,今後の研究・開発における重要な領域が浮かび上がっている。

We study the use of large language model-based agents for interacting with software via web browsers. Unlike prior work, we focus on measuring the agents' ability to perform tasks that span the typical daily work of knowledge workers utilizing enterprise software systems. To this end, we propose WorkArena, a remote-hosted benchmark of 33 tasks based on the widely-used ServiceNow platform. We also introduce BrowserGym, an environment for the design and evaluation of such agents, offering a rich set of actions as well as multimodal observations. Our empirical evaluation reveals that while current agents show promise on WorkArena, there remains a considerable gap towards achieving full task automation. Notably, our analysis uncovers a significant performance disparity between open and closed-source LLMs, highlighting a critical area for future exploration and development in the field.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# 真のリンダは立ち上がるか...大規模言語モデルへ? : LLMにおける代表性ヒューリスティックの検討

Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs ( http://arxiv.org/abs/2404.01461v4 )

ライセンス: Link先を確認
Pengda Wang, Zilin Xiao, Hanjie Chen, Frederick L. Oswald, (参考訳) 大規模言語モデル(LLM)は、テキストをモデル化し、人間に似たテキストを生成するのに顕著な習熟性を示したが、訓練データから得られたバイアスを示す可能性がある。 特に、LSMは、代表性ヒューリスティックと呼ばれる人間の意思決定において共通の認知的罠に陥る可能性がある。 これは心理学における概念であり、より広い事実や統計的証拠を考えるよりも、よく知られたプロトタイプや典型的な例にどの程度近いかに基づいて事象の可能性を判断するものである。 本研究は, LLM推論における代表性ヒューリスティックの影響について検討する。 ReHeAT(Representativeness Heuristic AI Testing、表現性ヒューリスティックAIテスト)は、6種類の代表性ヒューリスティックにまたがる一連の問題を含むデータセットである。 実験の結果、ReHeATに適用された4つのLLMはいずれも代表性ヒューリスティックバイアスを示していた。 さらに、モデルの推論ステップが問題の記述よりもステレオタイプに基づいている場合が多いことを確認します。 興味深いことに、モデルにその知識を思い出させるプロンプトにヒントを加えると、パフォーマンスが向上する。 これは、従来の偏見と比較して代表性ヒューリスティックの独特さを示唆している。 LLMが認知的罠に陥りながら正しい知識を持っている場合でも起こりうる。 このことは、モデル推論と意思決定における代表性ヒューリスティックとそれに対応するソリューションの開発に焦点を当てた将来の研究の重要性を強調している。

Although large language models (LLMs) have demonstrated remarkable proficiency in modeling text and generating human-like text, they may exhibit biases acquired from training data in doing so. Specifically, LLMs may be susceptible to a common cognitive trap in human decision-making called the representativeness heuristic. This is a concept in psychology that refers to judging the likelihood of an event based on how closely it resembles a well-known prototype or typical example, versus considering broader facts or statistical evidence. This research investigates the impact of the representativeness heuristic on LLM reasoning. We created ReHeAT (Representativeness Heuristic AI Testing), a dataset containing a series of problems spanning six common types of representativeness heuristics. Experiments reveal that four LLMs applied to ReHeAT all exhibited representativeness heuristic biases. We further identify that the model's reasoning steps are often incorrectly based on a stereotype rather than on the problem's description. Interestingly, the performance improves when adding a hint in the prompt to remind the model to use its knowledge. This suggests the uniqueness of the representativeness heuristic compared to traditional biases. It can occur even when LLMs possess the correct knowledge while falling into a cognitive trap. This highlights the importance of future research focusing on the representativeness heuristic in model reasoning and decision-making and on developing solutions to address it.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# CrossScore: マルチビューイメージ評価とスコーリングを目指して

CrossScore: Towards Multi-View Image Evaluation and Scoring ( http://arxiv.org/abs/2404.14409v4 )

ライセンス: Link先を確認
Zirui Wang, Wenjing Bian, Victor Adrian Prisacariu, (参考訳) 本稿では,画像評価環境のギャップを効果的に埋める新しいクロスリファレンス画像品質評価手法を提案する。SSIMなどの全参照指標,NIQEなどのノン参照指標,FIDなどの一般参照指標,CLIPScoreなどのマルチモーダル参照指標など,確立された評価スキームの配列を補完する。 ニューラルネットワークをNVS最適化のクロスアテンション機構とユニークなデータ収集パイプラインで利用することにより,地上の真理参照を必要とせず,正確な画像品質評価を可能にする。 クエリ画像を同一シーンの複数のビューと比較することにより、新しいビュー合成(NVS)における既存のメトリクスの限界と、直接参照画像が利用できないようなタスクに対処する。 実験結果から,本手法は実測値SSIMと密接に相関するが,真理参照は不要であることがわかった。

We introduce a novel cross-reference image quality assessment method that effectively fills the gap in the image assessment landscape, complementing the array of established evaluation schemes -- ranging from full-reference metrics like SSIM, no-reference metrics such as NIQE, to general-reference metrics including FID, and Multi-modal-reference metrics, e.g., CLIPScore. Utilising a neural network with the cross-attention mechanism and a unique data collection pipeline from NVS optimisation, our method enables accurate image quality assessment without requiring ground truth references. By comparing a query image against multiple views of the same scene, our method addresses the limitations of existing metrics in novel view synthesis (NVS) and similar tasks where direct reference images are unavailable. Experimental results show that our method is closely correlated to the full-reference metric SSIM, while not requiring ground truth references.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# プラトン表現仮説

The Platonic Representation Hypothesis ( http://arxiv.org/abs/2405.07987v3 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, (参考訳) AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。 まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。 次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。 我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。 このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。 最後に、これらの傾向、その限界、分析に対する反例について論じる。

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# 対話型人工知能が心の理論と自律行動の体系化に有効か : 比較分析

The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis ( http://arxiv.org/abs/2406.13813v5 )

ライセンス: Link先を確認
Marcin Rządeczka, Anna Sterna, Julia Stolińska, Paulina Kaczyńska, Marcin Moskalewicz, (参考訳) 背景: メンタルヘルス介入における会話型人工知能(CAI)の展開の増加は、認知バイアスの是正と人間とAIの相互作用に対する影響の認識において、その効果を評価する必要がある。 心の理論や自律バイアスを含むこれらのバイアスは、うつ病や不安などのメンタルヘルス状態を悪化させる可能性がある。 目的: 本研究は, 認知バイアスの同定と修正, ユーザインタラクションへの影響認識における汎用言語モデル (GPT-3.5, GPT-4, Gemini Pro) に対する治療用チャットボット (Wysa, Youper) の有効性を評価することを目的とした。 メソッド: この研究は、典型的なユーザとボットのインタラクションをシミュレートする仮想ケースシナリオを採用した。 評価された認知バイアスには、マインドバイアスの理論(擬人化、過信、帰属)と自律バイアス(制御のイリュージョン、基本的な帰属誤り、ジャストワールド仮説)が含まれていた。 認知行動療法(Cognitive Behavioral Therapy, CBT)の原理を, 基準尺度を用いて, 精度, 治療品質, 順応性で評価した。 この評価には、認知科学者と臨床心理学者の二重審査が含まれていた。 結果: 汎用チャットボットは, 認知バイアス, 特に過信バイアス, 基本帰属誤り, およびジャストワールド仮説の修正において, 治療用チャットボットよりも優れていたことが明らかとなった。 GPT-4はすべてのバイアスで最高点を獲得し、Wysaのような治療用ボットは最低点を獲得した。 Affect Recognitionも同様の傾向を示し、一般的なボットは6つのバイアスのうち4つで治療ボットを上回った。 しかし、この結果は、その効果を高め、デジタルメンタルヘルス介入における安全かつ効果的な使用を確保するために、治療用チャットボットのさらなる改良の必要性を強調している。 今後の研究は、感情反応の改善とAIベースの治療における倫理的配慮に焦点をあてるべきである。

Background: The increasing deployment of Conversational Artificial Intelligence (CAI) in mental health interventions necessitates an evaluation of their efficacy in rectifying cognitive biases and recognizing affect in human-AI interactions. These biases, including theory of mind and autonomy biases, can exacerbate mental health conditions such as depression and anxiety. Objective: This study aimed to assess the effectiveness of therapeutic chatbots (Wysa, Youper) versus general-purpose language models (GPT-3.5, GPT-4, Gemini Pro) in identifying and rectifying cognitive biases and recognizing affect in user interactions. Methods: The study employed virtual case scenarios simulating typical user-bot interactions. Cognitive biases assessed included theory of mind biases (anthropomorphism, overtrust, attribution) and autonomy biases (illusion of control, fundamental attribution error, just-world hypothesis). Responses were evaluated on accuracy, therapeutic quality, and adherence to Cognitive Behavioral Therapy (CBT) principles, using an ordinal scale. The evaluation involved double review by cognitive scientists and a clinical psychologist. Results: The study revealed that general-purpose chatbots outperformed therapeutic chatbots in rectifying cognitive biases, particularly in overtrust bias, fundamental attribution error, and just-world hypothesis. GPT-4 achieved the highest scores across all biases, while therapeutic bots like Wysa scored the lowest. Affect recognition showed similar trends, with general-purpose bots outperforming therapeutic bots in four out of six biases. However, the results highlight the need for further refinement of therapeutic chatbots to enhance their efficacy and ensure safe, effective use in digital mental health interventions. Future research should focus on improving affective response and addressing ethical considerations in AI-based therapy.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# Mobius:テキスト・ビデオ生成タスクのための高能率空間時間並列学習パラダイム

Mobius: A High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task ( http://arxiv.org/abs/2407.06617v4 )

ライセンス: Link先を確認
Yiran Yang, Jinchao Zhang, Ying Deng, Jie Zhou, (参考訳) テキスト・トゥ・イメージ(T2I)生成タスクの成功に触発されて、多くの研究者がテキスト・トゥ・ビデオ(T2V)生成タスクに力を注いでいる。 T2Vフレームワークの多くは、通常、T2Iモデルから継承し、動的ビデオを生成するための時間外トレーニング層を追加します。 しかし、従来の3D-Unetはシリアルモードであり、時空間層は空間層に追従する。 我々は、このシリアルモードは、環境に優しいものではなく、T2Vの開発に適さない大規模な拡散モデルと大規模なデータセットで、より多くのトレーニングコストをもたらすと信じている。 そこで本稿では,T2Vタスクのための高効率な時空間並列訓練パラダイムであるMobiusを提案する。 我々の3D-Unetでは、時間層と空間層は並列であり、特徴フローとバックプロパゲーションを最適化する。 Mobiusは24%のGPUメモリと12%のトレーニング時間を節約し、T2Vの微調整タスクを大幅に改善し、AIGCコミュニティに新たな洞察を与える。 将来、コードをリリースします。

Inspired by the success of the text-to-image (T2I) generation task, many researchers are devoting themselves to the text-to-video (T2V) generation task. Most of the T2V frameworks usually inherit from the T2I model and add extra-temporal layers of training to generate dynamic videos, which can be viewed as a fine-tuning task. However, the traditional 3D-Unet is a serial mode and the temporal layers follow the spatial layers, which will result in high GPU memory and training time consumption according to its serial feature flow. We believe that this serial mode will bring more training costs with the large diffusion model and massive datasets, which are not environmentally friendly and not suitable for the development of the T2V. Therefore, we propose a highly efficient spatial-temporal parallel training paradigm for T2V tasks, named Mobius. In our 3D-Unet, the temporal layers and spatial layers are parallel, which optimizes the feature flow and backpropagation. The Mobius will save 24% GPU memory and 12% training time, which can greatly improve the T2V fine-tuning task and provide a novel insight for the AIGC community. We will release our codes in the future.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査

The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v4 )

ライセンス: Link先を確認
Nuo Chen, Yang Deng, Jia Li, (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。 当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。 データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。 この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。 目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。 関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。

This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# 分子トポロジープロファイル(MOLTOP) -- 分子グラフ分類のための単純で強力なベースライン

Molecular Topological Profile (MOLTOP) -- Simple and Strong Baseline for Molecular Graph Classification ( http://arxiv.org/abs/2407.12136v3 )

ライセンス: Link先を確認
Jakub Adamczyk, Wojciech Czech, (参考訳) 分子グラフ分類におけるトポロジカル記述子の有効性を再検討し、単純で強力なベースラインを設計する。 本稿では,エッジディスクリプタのヒストグラムアグリゲーションと原子番号と結合型のワンホットエンコーディングを併用した機能工学への簡単なアプローチが,ランダムフォレスト分類器と組み合わせることで,グラフニューラルネットワーク(GNN)の強力なベースラインを確立することを実証する。 新たなアルゴリズムである分子トポロジカルプロファイル(MOLTOP)は、エッジ間の中央性、調整されたランダムインデックス、SCAN構造類似度スコアを統合している。 このアプローチは、現代的なGNNと比較して、非常に競争力がある一方で、単純で、高速で、低分散で、ハイパーパラメータフリーであることを示す。 提案手法は, Open Graph Benchmark による公正な評価プロトコルを用いて, MoleculeNet データセット上で厳密に検証されている。 また、Long Range Graph Benchmarkのペプチド分類タスクにおいて、ドメインのアウトオブドメイン生成機能を示す。 11のベンチマークデータセットに対する評価では、MOLTOPの強力な識別能力が、グラフのクラスで1ドル=WLテスト、さらに3ドル=WLテストを超えていることが明らかになった。 我々の結論は、GNNドメインの進歩を正確に評価するためには、記述子ベースのベースライン(例えば、提案するもの)が依然として不可欠であるということだ。

We revisit the effectiveness of topological descriptors for molecular graph classification and design a simple, yet strong baseline. We demonstrate that a simple approach to feature engineering - employing histogram aggregation of edge descriptors and one-hot encoding for atomic numbers and bond types - when combined with a Random Forest classifier, can establish a strong baseline for Graph Neural Networks (GNNs). The novel algorithm, Molecular Topological Profile (MOLTOP), integrates Edge Betweenness Centrality, Adjusted Rand Index and SCAN Structural Similarity score. This approach proves to be remarkably competitive when compared to modern GNNs, while also being simple, fast, low-variance and hyperparameter-free. Our approach is rigorously tested on MoleculeNet datasets using fair evaluation protocol provided by Open Graph Benchmark. We additionally show out-of-domain generation capabilities on peptide classification task from Long Range Graph Benchmark. The evaluations across eleven benchmark datasets reveal MOLTOP's strong discriminative capabilities, surpassing the $1$-WL test and even $3$-WL test for some classes of graphs. Our conclusion is that descriptor-based baselines, such as the one we propose, are still crucial for accurately assessing advancements in the GNN domain.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# 知識グラフ補完のためのテキストベース手法のテキスト認識学習

Subgraph-Aware Training of Text-based Methods for Knowledge Graph Completion ( http://arxiv.org/abs/2407.12703v3 )

ライセンス: Link先を確認
Youmin Ko, Hyemin Yang, Taeuk Kim, Hyunjoon Kim, (参考訳) 微調整事前学習言語モデル(PLM)は、最近知識グラフ補完(KGC)を改善する可能性を示している。 しかし、ほとんどの PLM ベースの手法は、知識グラフ(KG)の様々なトポロジ構造を無視して、テキスト情報のみを符号化する。 本稿では,KGsの構造特性とPLM法の性能との有意な関係を実証的に検証する。 構造的知識を活用するために,KGC(SATKGC)のためのサブグラフ・アウェア・トレーニング・フレームワークを提案する。 一 ハードネガティブサンプリングを奨励するサブグラフ対応ミニバッチ、及び (II) 構造的特性の観点から, より強固な実体と強硬な負の三重項に焦点をあてる新しいコントラスト学習法。 我々の知る限りでは、この研究は、サブグラフの構造的帰納バイアスを微調整 PLM に包括的に組み込む最初の研究である。 4つのKGCベンチマークの大規模な実験はSATKGCの優位性を示している。 私たちのコードは利用可能です。

Fine-tuning pre-trained language models (PLMs) has recently shown a potential to improve knowledge graph completion (KGC). However, most PLM-based methods encode only textual information, neglecting various topological structures of knowledge graphs (KGs). In this paper, we empirically validate the significant relations between the structural properties of KGs and the performance of the PLM-based methods. To leverage the structural knowledge, we propose a Subgraph-Aware Training framework for KGC (SATKGC) that combines (i) subgraph-aware mini-batching to encourage hard negative sampling, and (ii) a new contrastive learning method to focus more on harder entities and harder negative triples in terms of the structural properties. To the best of our knowledge, this is the first study to comprehensively incorporate the structural inductive bias of the subgraphs into fine-tuning PLMs. Extensive experiments on four KGC benchmarks demonstrate the superiority of SATKGC. Our code is available.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# Stack Overflowによるコードスニペットのスマートコントラクトセキュリティ問題の検出

Identifying Smart Contract Security Issues in Code Snippets from Stack Overflow ( http://arxiv.org/abs/2407.13271v2 )

ライセンス: Link先を確認
Jiachi Chen, Chong Chen, Jiang Hu, John Grundy, Yanlin Wang, Ting Chen, Zibin Zheng, (参考訳) スマートコントラクト開発者は、Stack Overflow(SO)など、Q&Aプラットフォームにおける開発上の課題に対する解決策を探すことが多い。 コミュニティ対応はしばしば実行可能なソリューションを提供するが、組み込みコードスニペットには隠れた脆弱性も含まれている。 このようなコードをスマートコントラクトに直接統合することで、悪意のある攻撃を受けやすい可能性がある。 オンライン調査を行い、スマートコントラクト開発者から74の回答を得た。 この調査の結果、参加者の過半数(86.4%)がSOコードスニペットの再利用時にセキュリティを十分に考慮していないことが示唆された。 スマートコントラクトの脆弱性を検出するために設計されたさまざまなツールが存在するにもかかわらず、これらのツールは一般的に、完全に完成したスマートコントラクトを分析するために開発されており、SOで見られる典型的なコードスニペットを分析するのに効果がない。 SOCheckerは、不完全なSOスマートコントラクトコードスニペットの潜在的な脆弱性を特定するために設計された最初のツールである。 SOCheckerはまずコード補完のために微調整されたLlama2モデルを利用し、続いて脆弱性検出にシンボル実行メソッドを適用する。 スマートコントラクト関連SOポストから収集した897個のコードスニペットからなるデータセットから得られた実験結果から,SOCheckerのF1スコアは68.2%,GPT-3.5とGPT-4を大きく上回った(20.9%,33.2%)。 この結果から,Q&A Webサイトのコードスニペットのセキュリティ向上の必要性が浮き彫りになった。

Smart contract developers frequently seek solutions to developmental challenges on Q&A platforms such as Stack Overflow (SO). Although community responses often provide viable solutions, the embedded code snippets can also contain hidden vulnerabilities. Integrating such code directly into smart contracts may make them susceptible to malicious attacks. We conducted an online survey and received 74 responses from smart contract developers. The results of this survey indicate that the majority (86.4%) of participants do not sufficiently consider security when reusing SO code snippets. Despite the existence of various tools designed to detect vulnerabilities in smart contracts, these tools are typically developed for analyzing fully-completed smart contracts and thus are ineffective for analyzing typical code snippets as found on SO. We introduce SOChecker, the first tool designed to identify potential vulnerabilities in incomplete SO smart contract code snippets. SOChecker first leverages a fine-tuned Llama2 model for code completion, followed by the application of symbolic execution methods for vulnerability detection. Our experimental results, derived from a dataset comprising 897 code snippets collected from smart contract-related SO posts, demonstrate that SOChecker achieves an F1 score of 68.2%, greatly surpassing GPT-3.5 and GPT-4 (20.9% and 33.2% F1 Scores respectively). Our findings underscore the need to improve the security of code snippets from Q&A websites.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# 時系列データのソート性

Sortability of Time Series Data ( http://arxiv.org/abs/2407.13313v2 )

ライセンス: Link先を確認
Christopher Lohse, Jonas Wahl, (参考訳) 時間依存プロセス間の因果関係の探索を目的とした因果発見アルゴリズムの性能評価は依然として課題である。 本稿では,自己相関型定常時系列のデータセットにおいても,可変性(Reisach et al 2021)や$R^2$-sortability(Reisach et al 2023)などのデータセットの特徴が生じることを示す。 SVARモデルとErd\H{o}s-R\enyiグラフに基づくシミュレーションデータ、2019年の因果的気候問題(Runge et al 2019)で使用されるデータ、現実世界の河川ストリームデータセット、およびCausal Chamber of (Gamella et al 2024)によって生成された実世界のデータである。 そのため, var- および $R^2$-sortability を時系列データに適用する。 また,スコアに基づく因果探索手法の性能が,高いソート性とともにどの程度向上するかについても検討した。 おそらく最も驚くべき発見は、調査された実世界のデータセットは高いバラツキ性を示し、R^2$-sortabilityはスケールが相当量の因果情報を持つ可能性があることを示すことである。

Evaluating the performance of causal discovery algorithms that aim to find causal relationships between time-dependent processes remains a challenging topic. In this paper, we show that certain characteristics of datasets, such as varsortability (Reisach et al. 2021) and $R^2$-sortability (Reisach et al. 2023), also occur in datasets for autocorrelated stationary time series. We illustrate this empirically using four types of data: simulated data based on SVAR models and Erd\H{o}s-R\'enyi graphs, the data used in the 2019 causality-for-climate challenge (Runge et al. 2019), real-world river stream datasets, and real-world data generated by the Causal Chamber of (Gamella et al. 2024). To do this, we adapt var- and $R^2$-sortability to time series data. We also investigate the extent to which the performance of score-based causal discovery methods goes hand in hand with high sortability. Arguably, our most surprising finding is that the investigated real-world datasets exhibit high varsortability and low $R^2$-sortability indicating that scales may carry a significant amount of causal information.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# MeshSegmenter: テクスチャ合成によるゼロショットメッシュセマンティックセマンティックセグメンテーション

MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis ( http://arxiv.org/abs/2407.13675v2 )

ライセンス: Link先を確認
Ziming Zhong, Yanxu Xu, Jing Li, Jiale Xu, Zhengxin Li, Chaohui Yu, Shenghua Gao, (参考訳) ゼロショット3Dセマンティックセグメンテーション用に設計されたシンプルで効果的なフレームワークであるMeshSegmenterを提案する。 このモデルは、2Dセグメンテーションモデルの強力な能力を3Dメッシュに拡張し、さまざまなメッシュとセグメント記述の正確な3Dセグメンテーションを実現する。 具体的には,Segment Anything Model(SAM)モデルを用いて,対象領域を3次元形状から描画した画像から分割する。 セグメンテーションにおけるテクスチャの重要性を鑑み,事前訓練した安定拡散モデルを用いて3次元形状のテクスチャ画像を生成し,SAMを利用してテクスチャ画像からターゲット領域をセグメンテーションする。 テクスチャはセグメンテーションの形状を補い、カーメッシュ内の車のドアをセグメンテーションするなど、幾何学的に不明瞭な領域でも正確な3Dセグメンテーションを促進する。 3Dセグメントを実現するために、異なるビューから2D画像を描画し、テクスチャ化された画像と非テクスチャ化された画像の両方に対してセグメンテーションを行う。 最後に,2次元セグメンテーション結果と様々なビューからの信頼スコアを3次元メッシュに統合し,セグメンテーション結果の3次元一貫性を確保し,特定の視点からの不正確さを解消する多視点リボッティング手法を開発した。 これらのイノベーションを通じて、MeshSegmenterは安定的で信頼性の高い3Dセグメンテーションの結果を定量的かつ質的に提供し、3Dゼロショットセグメンテーションの分野におけるトランスフォーメーションツールとしての可能性を強調している。 コードは \url{https://github.com/zimingzhong/MeshSegmenter} で公開されている。

We present MeshSegmenter, a simple yet effective framework designed for zero-shot 3D semantic segmentation. This model successfully extends the powerful capabilities of 2D segmentation models to 3D meshes, delivering accurate 3D segmentation across diverse meshes and segment descriptions. Specifically, our model leverages the Segment Anything Model (SAM) model to segment the target regions from images rendered from the 3D shape. In light of the importance of the texture for segmentation, we also leverage the pretrained stable diffusion model to generate images with textures from 3D shape, and leverage SAM to segment the target regions from images with textures. Textures supplement the shape for segmentation and facilitate accurate 3D segmentation even in geometrically non-prominent areas, such as segmenting a car door within a car mesh. To achieve the 3D segments, we render 2D images from different views and conduct segmentation for both textured and untextured images. Lastly, we develop a multi-view revoting scheme that integrates 2D segmentation results and confidence scores from various views onto the 3D mesh, ensuring the 3D consistency of segmentation results and eliminating inaccuracies from specific perspectives. Through these innovations, MeshSegmenter offers stable and reliable 3D segmentation results both quantitatively and qualitatively, highlighting its potential as a transformative tool in the field of 3D zero-shot segmentation. The code is available at \url{https://github.com/zimingzhong/MeshSegmenter}.
翻訳日:2024-07-24 12:19:26 公開日:2024-07-23
# Dyn-Adapter:効率的な視覚認識のためのアンタングル表現に向けて

Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition ( http://arxiv.org/abs/2407.14302v2 )

ライセンス: Link先を確認
Yurong Zhang, Honghao Chen, Xinyu Zhang, Xiangxiang Chu, Li Song, (参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデルの下流タスクへの適応を比較的控えめなコストで実現する,有望な課題である。 しかし、現在のPETL法は計算複雑性の圧縮に苦慮し、完全なフォワードプロセスのために重い推論負荷を負う。 本稿では,複数のレベルの特徴を包含することによってPETL効率を向上させる動的適応(Dyn-Adapter)と呼ばれる,効率的な視覚認識パラダイムを提案する。 まず、適応的なトレーニング戦略とともに、複数レベルの特徴抽出のためのバランスの取れた初期ヘッドを持つ動的アーキテクチャを考案します。 第二に、強力な一般化能力の追求による双方向の疎性戦略を導入する。 これらの特性により、推論中のFLOPを50%削減し、高い認識精度を維持したり、取得したりすることができる。 多様なデータセットと事前訓練されたバックボーンに関する広範な実験は、視覚認識タスクにおけるPETLの一般的な効率向上剤として機能するDyn-Adapterの可能性を示している。

Parameter-efficient transfer learning (PETL) is a promising task, aiming to adapt the large-scale pre-trained model to downstream tasks with a relatively modest cost. However, current PETL methods struggle in compressing computational complexity and bear a heavy inference burden due to the complete forward process. This paper presents an efficient visual recognition paradigm, called Dynamic Adapter (Dyn-Adapter), that boosts PETL efficiency by subtly disentangling features in multiple levels. Our approach is simple: first, we devise a dynamic architecture with balanced early heads for multi-level feature extraction, along with adaptive training strategy. Second, we introduce a bidirectional sparsity strategy driven by the pursuit of powerful generalization ability. These qualities enable us to fine-tune efficiently and effectively: we reduce FLOPs during inference by 50%, while maintaining or even yielding higher recognition accuracy. Extensive experiments on diverse datasets and pretrained backbones demonstrate the potential of Dyn-Adapter serving as a general efficiency booster for PETL in vision recognition tasks.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# Modality-Order Matters! CoSAmのための新しい階層的特徴融合法:コード変換自閉症コーパス

Modality-Order Matters! A Novel Hierarchical Feature Fusion Method for CoSAm: A Code-Switched Autism Corpus ( http://arxiv.org/abs/2407.14328v2 )

ライセンス: Link先を確認
Mohd Mujtaba Akhtar, Girish, Muskaan Singh, Orchid Chetia Phukan, (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は複雑な神経発達障害であり、社会的相互作用、コミュニケーション、そして異なる状況における反復行動の表現において困難を呈する。 この頻度の増大は、主要な公衆衛生問題としてのASDの重要性と、障害とその早期発見方法の理解を深めるための総合的な研究イニシアチブの必要性を浮き彫りにしている。 本研究は, 音声のコードスイッチング(英語とヒンディー語)の分析を通じて, 幼児の早期ASD検出を促進するための新しい階層的特徴融合手法を提案する。 高度なオーディオ処理技術を用いて、トランスフォーマーエンコーダを用いた音響情報、パラ言語情報、言語情報を統合する。 この革新的な融合戦略は、分類の堅牢性と正確性を改善するために設計されており、早期かつ正確なSD識別に不可欠である。 この手法は、コードスイッチされた音声コーパスであるCoSAmを、ASDと一致した制御グループと診断された子供から収集する。 このデータセットは、ALDと診断された30人の子供から61人の音声記録と、3歳から13歳までの神経型児から31人の音声記録からなり、合計159.75分間の音声記録が得られた。 この特徴分析は、音声パターンの多様性と複雑さを捉えるために、MFCCと広範な統計属性に焦点を当てている。 最良のモデル性能は、まず音響的特徴と言語学的特徴の組み合わせを用いて98.75%の精度で階層的融合法を用いて達成され、次いで階層的手法でパラ言語的特徴を呈する。

Autism Spectrum Disorder (ASD) is a complex neuro-developmental challenge, presenting a spectrum of difficulties in social interaction, communication, and the expression of repetitive behaviors in different situations. This increasing prevalence underscores the importance of ASD as a major public health concern and the need for comprehensive research initiatives to advance our understanding of the disorder and its early detection methods. This study introduces a novel hierarchical feature fusion method aimed at enhancing the early detection of ASD in children through the analysis of code-switched speech (English and Hindi). Employing advanced audio processing techniques, the research integrates acoustic, paralinguistic, and linguistic information using Transformer Encoders. This innovative fusion strategy is designed to improve classification robustness and accuracy, crucial for early and precise ASD identification. The methodology involves collecting a code-switched speech corpus, CoSAm, from children diagnosed with ASD and a matched control group. The dataset comprises 61 voice recordings from 30 children diagnosed with ASD and 31 from neurotypical children, aged between 3 and 13 years, resulting in a total of 159.75 minutes of voice recordings. The feature analysis focuses on MFCCs and extensive statistical attributes to capture speech pattern variability and complexity. The best model performance is achieved using a hierarchical fusion technique with an accuracy of 98.75% using a combination of acoustic and linguistic features first, followed by paralinguistic features in a hierarchical manner.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# 合理化を用いたデータ中心の人間選好最適化

Data-Centric Human Preference Optimization with Rationales ( http://arxiv.org/abs/2407.14477v2 )

ライセンス: Link先を確認
Hoang Anh Just, Ming Jin, Anit Sahu, Huy Phan, Ruoxi Jia, (参考訳) 人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担います。 多くの研究は、そのようなデータからの学習を最適化するアルゴリズム技術を強化してきたが、この研究は、データ中心のアプローチによる嗜好学習の改善に焦点を移している。 具体的には、選択の背景にある理由を説明する機械生成論理を用いた既存の嗜好データセットの強化を提案する。 我々は、合理的な情報で現在の嗜好学習方法を強化するための、シンプルで原則化されたフレームワークを開発する。 我々の総合的な分析は、合理性が学習効率を高める方法を強調している。 データ効率を改善し、より高いパフォーマンスのモデルへの収束を加速し、冗長性バイアスと幻覚を減らす。 さらに、このフレームワークは様々な選好最適化アルゴリズムを統合するのに十分な汎用性がある。 全体としては、選好学習のためのデータ設計を再定義する可能性を強調し、自由に利用できる機械生成の合理性でさえ、複数の次元にわたる性能を著しく向上させることができることを示した。 コードリポジトリはhttps: //github.com/reds-lab/preference-learning-with-rationalesで入手できる。

Reinforcement learning from human feedback plays a crucial role in aligning language models towards human preferences, traditionally represented through comparisons between pairs or sets of responses within a given context. While many studies have enhanced algorithmic techniques to optimize learning from such data, this work shifts focus to improving preference learning through a data-centric approach. Specifically, we propose enriching existing preference datasets with machine-generated rationales that explain the reasons behind choices. We develop a simple and principled framework to augment current preference learning methods with rationale information. Our comprehensive analysis highlights how rationales enhance learning efficiency. Extensive experiments reveal that rationale-enriched preference learning offers multiple advantages: it improves data efficiency, accelerates convergence to higher-performing models, and reduces verbosity bias and hallucination. Furthermore, this framework is versatile enough to integrate with various preference optimization algorithms. Overall, our findings highlight the potential of re-imagining data design for preference learning, demonstrating that even freely available machine-generated rationales can significantly boost performance across multiple dimensions. The code repository is available at https: //github.com/reds-lab/preference-learning-with-rationales
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# ハンドクラフトフィルターはAI生成画像の寄与に役立つか?

Are handcrafted filters helpful for attributing AI-generated images? ( http://arxiv.org/abs/2407.14570v2 )

ライセンス: Link先を確認
Jialiang Li, Haoyue Wang, Sheng Li, Zhenxing Qian, Xinpeng Zhang, Athanasios V. Vasilakos, (参考訳) 近年、画像生成モデルが多数提案されており、偽画像を生成するための人工知能(AI)技術の誤用が懸念されている。 AI生成画像の属性として、既存のスキームは通常、モデル指紋を学ぶためにディープニューラルネットワーク(DNN)を設計し、訓練する。 本稿では,AIが生成する画像の属性について,以下の2つの疑問に答えることを目的とする。 1)指紋学習を容易にする手作りフィルタを設計することは可能か? そして 2)手作りフィルタを組み込んだ後、トレーニングデータの量を減らすにはどうすればいいのか? まず,様々な方向から微妙な指紋を抽出できるMHF(Multi-Directional High-Pass Filter)を提案する。 そこで本研究では,MHFとランダム初期化フィルタの両方を考慮した指向性拡張特徴学習ネットワーク(DEFL)を提案する。 DEFLの出力はセマンティックな特徴と融合してコンパクトな指紋を生成する。 異なるモデル間でコンパクトな指紋識別を可能にするために,DECをチューニングするためのDual-Margin Contrastive (DMC)損失を提案する。 最後に,画像属性に対する参照型指紋分類手法を提案する。 実験結果から,AI生成画像の属性化にMHFを使うことは確かに有用であることがわかった。 提案手法の性能は,訓練に少量の画像しか必要としない,クローズドセットとオープンセットの両方のイメージ属性に対して,最先端の手法よりも大幅に向上する。

Recently, a vast number of image generation models have been proposed, which raises concerns regarding the misuse of these artificial intelligence (AI) techniques for generating fake images. To attribute the AI-generated images, existing schemes usually design and train deep neural networks (DNNs) to learn the model fingerprints, which usually requires a large amount of data for effective learning. In this paper, we aim to answer the following two questions for AI-generated image attribution, 1) is it possible to design useful handcrafted filters to facilitate the fingerprint learning? and 2) how we could reduce the amount of training data after we incorporate the handcrafted filters? We first propose a set of Multi-Directional High-Pass Filters (MHFs) which are capable to extract the subtle fingerprints from various directions. Then, we propose a Directional Enhanced Feature Learning network (DEFL) to take both the MHFs and randomly-initialized filters into consideration. The output of the DEFL is fused with the semantic features to produce a compact fingerprint. To make the compact fingerprint discriminative among different models, we propose a Dual-Margin Contrastive (DMC) loss to tune our DEFL. Finally, we propose a reference based fingerprint classification scheme for image attribution. Experimental results demonstrate that it is indeed helpful to use our MHFs for attributing the AI-generated images. The performance of our proposed method is significantly better than the state-of-the-art for both the closed-set and open-set image attribution, where only a small amount of images are required for training.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# 単一セル単一スパイク分解能におけるニューラルダイナミクスのための「ユニバーサルトランスレータ」を目指して

Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution ( http://arxiv.org/abs/2407.14668v2 )

ライセンス: Link先を確認
Yizi Zhang, Yanchen Wang, Donato Jimenez-Beneto, Zixuan Wang, Mehdi Azabou, Blake Richards, Olivier Winter, International Brain Laboratory, Eva Dyer, Liam Paninski, Cole Hurwitz, (参考訳) 神経科学の研究は過去10年間で大きな進歩を遂げてきましたが、脳の理解は断片化され、断片化され続けています。 本研究では、複数の脳領域にまたがる多様なタスクを解くことができるニューラルスパイクデータのための第1の基盤モデルを構築する。 そこで本研究では,異なる時間ステップ,ニューロン,脳領域にまたがる神経活動のマスクアウトと再構築を交互に行う,集団活動の自己教師型モデリング手法を提案する。 本研究のアプローチを評価するため,48種の動物を対象にした同じ脳位置をターゲットとした神経画素記録と実験セッションからなる,国際脳研究所反復サイトデータセットを用いて,教師なしおよび教師なしの予測タスクを設計した。 予測タスクには、単一ニューロンとリージョンレベルのアクティビティ予測、前方予測、行動復号が含まれる。 我々のマルチタスク・マスキング(MtM)アプローチは、現在最先端の人口モデルの性能を大幅に向上させ、マルチタスク学習を可能にすることを実証する。 また、複数の動物を訓練することにより、モデルが見えない動物に一般化する能力を向上させることができ、単一セルの単一スパイク解像度で脳の基礎モデルを構築する道を開くことができることを示した。

Neuroscience research has made immense progress over the last decade, but our understanding of the brain remains fragmented and piecemeal: the dream of probing an arbitrary brain region and automatically reading out the information encoded in its neural activity remains out of reach. In this work, we build towards a first foundation model for neural spiking data that can solve a diverse set of tasks across multiple brain areas. We introduce a novel self-supervised modeling approach for population activity in which the model alternates between masking out and reconstructing neural activity across different time steps, neurons, and brain regions. To evaluate our approach, we design unsupervised and supervised prediction tasks using the International Brain Laboratory repeated site dataset, which is comprised of Neuropixels recordings targeting the same brain locations across 48 animals and experimental sessions. The prediction tasks include single-neuron and region-level activity prediction, forward prediction, and behavior decoding. We demonstrate that our multi-task-masking (MtM) approach significantly improves the performance of current state-of-the-art population models and enables multi-task learning. We also show that by training on multiple animals, we can improve the generalization ability of the model to unseen animals, paving the way for a foundation model of the brain at single-cell, single-spike resolution.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# AGLLDiff:教師なし非教師なし実世界の低照度画像強調に向けての拡散モデル

AGLLDiff: Guiding Diffusion Models Towards Unsupervised Training-free Real-world Low-light Image Enhancement ( http://arxiv.org/abs/2407.14900v2 )

ライセンス: Link先を確認
Yunlong Lin, Tian Ye, Sixiang Chen, Zhenqi Fu, Yingying Wang, Wenhao Chai, Zhaohu Xing, Lei Zhu, Xinghao Ding, (参考訳) 既存の低照度画像強調法 (LIE) は合成歪みの解法において顕著な成功を収めてきたが、実際は不十分であることが多い。 この制限は、現実世界のLIEにおける2つの固有の課題から生じる。 1)歪んだ/クリーンな画像対の収集は、しばしば非現実的であり、時には不可能である。 2) 複雑な劣化を正確にモデル化すると,非自明な問題が発生する。 そこで本研究では,AGLLDiff(Atribute Guidance Diffusion framework)を提案する。 劣化過程を具体的に定義する代わりに、AGLLDiffはパラダイムをシフトし、通常光画像の露出、構造、色など、望ましい属性をモデル化する。 これらの属性は容易に利用でき、分解過程について仮定を課すことなく、拡散サンプリングプロセスは信頼性の高い高品質な解空間に導かれる。 大規模な実験により、我々の手法は、歪みベースおよび知覚ベースメトリクスの点で、現在の非教師なしのLIEメソッドよりも優れており、洗練された荒野劣化においてもうまく機能することを示した。

Existing low-light image enhancement (LIE) methods have achieved noteworthy success in solving synthetic distortions, yet they often fall short in practical applications. The limitations arise from two inherent challenges in real-world LIE: 1) the collection of distorted/clean image pairs is often impractical and sometimes even unavailable, and 2) accurately modeling complex degradations presents a non-trivial problem. To overcome them, we propose the Attribute Guidance Diffusion framework (AGLLDiff), a training-free method for effective real-world LIE. Instead of specifically defining the degradation process, AGLLDiff shifts the paradigm and models the desired attributes, such as image exposure, structure and color of normal-light images. These attributes are readily available and impose no assumptions about the degradation process, which guides the diffusion sampling process to a reliable high-quality solution space. Extensive experiments demonstrate that our approach outperforms the current leading unsupervised LIE methods across benchmarks in terms of distortion-based and perceptual-based metrics, and it performs well even in sophisticated wild degradation.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# RayFormer:Ray-Centric Strategiesによるクエリベースのマルチカメラ3Dオブジェクト検出の改善

RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric Strategies ( http://arxiv.org/abs/2407.14923v2 )

ライセンス: Link先を確認
Xiaomeng Chu, Jiajun Deng, Guoliang You, Yifan Duan, Yao Li, Yanyong Zhang, (参考訳) 近年のクエリベースのマルチカメラ3Dオブジェクト検出の進歩は,オブジェクトクエリを3次元空間で初期化し,視点画像から特徴を抽出してマルチラウンドクエリ精細化を行うことによって特徴付けられる。 このようなフレームワークでは、同じカメラ線に近いクエリポイントは、非常に近いピクセルから同様の特徴をサンプリングし、あいまいなクエリ特徴と劣化検出精度をもたらす。 この目的のために、カメラにインスパイアされたクエリに基づく3Dオブジェクト検出器であるRayFormerを導入し、カメラの光学特性とオブジェクトクエリの初期化と特徴抽出を一致させる。 具体的には、RayFormerは、視線画像の特徴をリフトスプラット撮影法により鳥の目視(BEV)に変換し、カメラ線に基づいてBEVマップをセクターに分割する。 オブジェクトクエリは、各カメラ線に沿って、均一かつ疎結合に初期化され、画像内の異なる領域への異なるクエリの投影を容易にし、異なる特徴を抽出する。 さらに、画像のインスタンス情報を利用して、一様に初期化されたオブジェクトクエリを補う。 異なるクエリに適合するユニークなオブジェクトレベルの特徴を抽出するために,画像と鳥の視線の両方に特徴サンプリング点の分布を適切に整理するレイサンプリング法を設計する。 提案したレイインスパイアモデル設計を検証するため, nuScenesデータセット上で大規模な実験を行った。 提案されたRayFormerは、それぞれ55.5%のmAPと63.3%のNDSを達成している。 私たちのコードは利用可能になります。

The recent advances in query-based multi-camera 3D object detection are featured by initializing object queries in the 3D space, and then sampling features from perspective-view images to perform multi-round query refinement. In such a framework, query points near the same camera ray are likely to sample similar features from very close pixels, resulting in ambiguous query features and degraded detection accuracy. To this end, we introduce RayFormer, a camera-ray-inspired query-based 3D object detector that aligns the initialization and feature extraction of object queries with the optical characteristics of cameras. Specifically, RayFormer transforms perspective-view image features into bird's eye view (BEV) via the lift-splat-shoot method and segments the BEV map to sectors based on the camera rays. Object queries are uniformly and sparsely initialized along each camera ray, facilitating the projection of different queries onto different areas in the image to extract distinct features. Besides, we leverage the instance information of images to supplement the uniformly initialized object queries by further involving additional queries along the ray from 2D object detection boxes. To extract unique object-level features that cater to distinct queries, we design a ray sampling method that suitably organizes the distribution of feature sampling points on both images and bird's eye view. Extensive experiments are conducted on the nuScenes dataset to validate our proposed ray-inspired model design. The proposed RayFormer achieves 55.5% mAP and 63.3% NDS, respectively. Our codes will be made available.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# フレームスコーリング機構と適応サンプリングによるエンドツーエンドビデオ質問応答

End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling ( http://arxiv.org/abs/2407.15047v2 )

ライセンス: Link先を確認
Jianxin Liang, Xiaojun Meng, Yueqian Wang, Chang Liu, Qun Liu, Dongyan Zhao, (参考訳) Video Question Answering (VideoQA)は、マルチメディア処理分野における挑戦的なフロンティアとして現れ、視覚とテキストのモダリティの複雑な相互作用を必要としている。 フレームを一様にサンプリングしたり、フレームレベルの視覚的特徴を無差別に集約したりすることは、ビデオQAを適切に実行するために、ビデオのニュアンスと関連するコンテキストをキャプチャするのに不足することが多い。 これらの問題を緩和するために,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。 本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。 さらに,フレームセレクタと応答生成器のエンドツーエンドトレーニングを容易にする適応型フレームサンプリング機構を設計する。 NExT-QA(+0.3%)、STAR(+0.9%)、TVQA(+1.0%)にまたがる新しいSOTAを確立することで、我々のモデルは既存のビデオQA法より一貫して優れていることを示した。 さらに,定量的および定性的な分析により,各設計選択の有効性を検証した。

Video Question Answering (VideoQA) has emerged as a challenging frontier in the field of multimedia processing, requiring intricate interactions between visual and textual modalities. Simply uniformly sampling frames or indiscriminately aggregating frame-level visual features often falls short in capturing the nuanced and relevant contexts of videos to well perform VideoQA. To mitigate these issues, we propose VidF4, a novel VideoQA framework equipped with tailored frame selection strategy for effective and efficient VideoQA. We propose three frame-scoring mechanisms that consider both question relevance and inter-frame similarity to evaluate the importance of each frame for a given question on the video. Furthermore, we design a differentiable adaptive frame sampling mechanism to facilitate end-to-end training for the frame selector and answer generator. The experimental results across three widely adopted benchmarks demonstrate that our model consistently outperforms existing VideoQA methods, establishing a new SOTA across NExT-QA (+0.3%), STAR (+0.9%), and TVQA (+1.0%). Furthermore, through both quantitative and qualitative analyses, we validate the effectiveness of each design choice.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# ビデオモーメント検索のためのLLMエンコーディングと擬似イベントレギュレーションによる事前知識統合

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval ( http://arxiv.org/abs/2407.15051v2 )

ライセンス: Link先を確認
Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, Qing Li, (参考訳) 本稿では,ビデオモーメント検索(VMR)モデルにおいて,大規模言語モデル(LLM)を一般知識の統合や擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。 この研究の背後にあるモチベーションは、離散テキスト記述を生成するデコーダとしてLLMを使うことの限界からきており、サリエンススコアやフレーム間の関係をキャプチャするフレーム間埋め込みといった連続的な出力への直接的適用を妨げる。 これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。 実現可能性研究を通じて,LLMエンコーダは,テキスト埋め込みの訓練を受けなくても,マルチモーダル埋め込みにおける概念間関係を効果的に洗練することを示した。 また,これらの埋め込みがCLIP埋め込みと類似した概念間類似パターンを示す限り,LLMエンコーダの精細化能力をBLIPやT5などの他の埋め込みに転送可能であることを示す。 LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。 実験により,VMRにおける最先端性能を実現することにより,提案手法の有効性を実証する。 ソースコードはhttps://github.com/fletcherjiang/LLMEPETでアクセスできる。

In this paper, we investigate the feasibility of leveraging large language models (LLMs) for integrating general knowledge and incorporating pseudo-events as priors for temporal content distribution in video moment retrieval (VMR) models. The motivation behind this study arises from the limitations of using LLMs as decoders for generating discrete textual descriptions, which hinders their direct application to continuous outputs like salience scores and inter-frame embeddings that capture inter-frame relations. To overcome these limitations, we propose utilizing LLM encoders instead of decoders. Through a feasibility study, we demonstrate that LLM encoders effectively refine inter-concept relations in multimodal embeddings, even without being trained on textual embeddings. We also show that the refinement capability of LLM encoders can be transferred to other embeddings, such as BLIP and T5, as long as these embeddings exhibit similar inter-concept similarity patterns to CLIP embeddings. We present a general framework for integrating LLM encoders into existing VMR architectures, specifically within the fusion module. Through experimental validation, we demonstrate the effectiveness of our proposed methods by achieving state-of-the-art performance in VMR. The source code can be accessed at https://github.com/fletcherjiang/LLMEPET.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# 長期特許文書からの化学反応抽出

Chemical Reaction Extraction from Long Patent Documents ( http://arxiv.org/abs/2407.15124v2 )

ライセンス: Link先を確認
Aishwarya Jadhav, Ritam Dutt, (参考訳) 特許文書を検索する作業は、化学特許の推薦と検索に不可欠である。 これは、先行技術検索を支援するために特許知識ベース(ChemPatKB)を作成し、ドメインの専門家が化合物合成とユースケースの新しいイノベーションを探求するためのプラットフォームを提供することによって強化することができる。 このKBの基本的な構成要素は、長い特許文書から重要な反応スニペットを抽出し、反応共参照分解や化学体の役割同定などの下流の複数のタスクを容易にすることである。 本研究では,反応資源データベースを作成するために化学特許から反応を抽出する問題について検討する。 我々は,このタスクを段落レベルのシーケンスタギング問題として定式化し,反応の記述を含む段落のシーケンスをシステムに返却する。 基礎モデルのいくつかのアプローチと修正を提案し、異なる手法が化学特許の異なる領域にまたがってどのように一般化するかを研究する。

The task of searching through patent documents is crucial for chemical patent recommendation and retrieval. This can be enhanced by creating a patent knowledge base (ChemPatKB) to aid in prior art searches and to provide a platform for domain experts to explore new innovations in chemical compound synthesis and use-cases. An essential foundational component of this KB is the extraction of important reaction snippets from long patents documents which facilitates multiple downstream tasks such as reaction co-reference resolution and chemical entity role identification. In this work, we explore the problem of extracting reactions spans from chemical patents in order to create a reactions resource database. We formulate this task as a paragraph-level sequence tagging problem, where the system is required to return a sequence of paragraphs that contain a description of a reaction. We propose several approaches and modifications of the baseline models and study how different methods generalize across different domains of chemical patents.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# DOPRA: 特定の重み付け層における過剰蓄積のペナル化と再配置をデコードする

DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer ( http://arxiv.org/abs/2407.15130v2 )

ライセンス: Link先を確認
Jinfeng Wei, Xiaofeng Zhang, (参考訳) 本研究では,マルチモーダル大言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。 通常、高価な補足的なトレーニングデータや外部知識ソースの統合を含む既存のソリューションとは異なり、DOPRAは特定の重み付けされたレイヤーの罰則と再分配を復号することで幻覚に対処し、追加資源なしで経済的かつ効果的なソリューションを提供する。 DOPRAは、MLLM内の幻覚を制御する固有のメカニズム、特にモデルが自己注意行列内の要約トークンのサブセットに過度に頼り、重要な画像関連情報を無視する傾向について独自の洞察を基礎としている。 この現象は特に特定の層で顕著である。 この過度な信頼性に対抗するため、DOPRAはデコードプロセス中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。 さらに、DOPRAは、生成されたトークンのシーケンスを再検査し、トークン選択を再配置して実際の画像内容との整合性を向上し、自動生成されたキャプションにおける幻覚的記述の発生を減少させるレトロスペクティブ割り当てプロセスを含む。 全体として、DOPRAは、復号過程における目標調整による幻覚を体系的に低減し、MLLMの出力品質を改善するための重要な一歩である。

In this work, we introduce DOPRA, a novel approach designed to mitigate hallucinations in multi-modal large language models (MLLMs). Unlike existing solutions that typically involve costly supplementary training data or the integration of external knowledge sources, DOPRA innovatively addresses hallucinations by decoding specific weighted layer penalties and redistribution, offering an economical and effective solution without additional resources. DOPRA is grounded in unique insights into the intrinsic mechanisms controlling hallucinations within MLLMs, especially the models' tendency to over-rely on a subset of summary tokens in the self-attention matrix, neglecting critical image-related information. This phenomenon is particularly pronounced in certain strata. To counteract this over-reliance, DOPRA employs a strategy of weighted overlay penalties and redistribution in specific layers, such as the 12th layer, during the decoding process. Furthermore, DOPRA includes a retrospective allocation process that re-examines the sequence of generated tokens, allowing the algorithm to reallocate token selection to better align with the actual image content, thereby reducing the incidence of hallucinatory descriptions in auto-generated captions. Overall, DOPRA represents a significant step forward in improving the output quality of MLLMs by systematically reducing hallucinations through targeted adjustments during the decoding process.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# 単眼映像からの高速で快楽な動的人体再構成のためのサーフェルベースガウス逆レンダリング

Surfel-based Gaussian Inverse Rendering for Fast and Relightable Dynamic Human Reconstruction from Monocular Video ( http://arxiv.org/abs/2407.15212v2 )

ライセンス: Link先を確認
Yiqun Zhao, Chenming Wu, Binbin Huang, Yihao Zhi, Chen Zhao, Jingdong Wang, Shenghua Gao, (参考訳) モノクラービデオから、快楽でダイナミックな服を着た人間のアバターを効率的に再現することは、エンターテイメント産業にとって不可欠である。 本稿では,Surfel-based Gaussian Inverse Avatar (SGIA)法を提案する。 SGIAは従来のガウスアバター法を進歩させ、布を被った人間のアバターの物理的ベースレンダリング(PBR)特性を包括的にモデル化し、様々な照明条件下でアバターを新しいポーズに操ることを可能にする。 具体的には、既存の暗黙的手法の性能を超越した高速光計算のために、事前積分と画像ベースの照明を統合する。 材料照明のゆがみと正確な幾何再構成に関わる課題に対処するために,革新的なオクルージョン近似戦略とプログレッシブトレーニングアプローチを提案する。 大規模な実験により、SGIAは高度に正確な物理的特性を達成できるだけでなく、ダイナミックな人間のアバターのリアルなリライティングを著しく向上させ、かなりの速度の優位性をもたらすことが示されている。 プロジェクトページでは、さらに多くの結果が示されています。

Efficient and accurate reconstruction of a relightable, dynamic clothed human avatar from a monocular video is crucial for the entertainment industry. This paper introduces the Surfel-based Gaussian Inverse Avatar (SGIA) method, which introduces efficient training and rendering for relightable dynamic human reconstruction. SGIA advances previous Gaussian Avatar methods by comprehensively modeling Physically-Based Rendering (PBR) properties for clothed human avatars, allowing for the manipulation of avatars into novel poses under diverse lighting conditions. Specifically, our approach integrates pre-integration and image-based lighting for fast light calculations that surpass the performance of existing implicit-based techniques. To address challenges related to material lighting disentanglement and accurate geometry reconstruction, we propose an innovative occlusion approximation strategy and a progressive training approach. Extensive experiments demonstrate that SGIA not only achieves highly accurate physical properties but also significantly enhances the realistic relighting of dynamic human avatars, providing a substantial speed advantage. We exhibit more results in our project page: https://GS-IA.github.io.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# CGB-DM:変圧器を用いた拡散モデルによるコンテンツとグラフィカルバランスレイアウト生成

CGB-DM: Content and Graphic Balance Layout Generation with Transformer-based Diffusion Model ( http://arxiv.org/abs/2407.15233v2 )

ライセンス: Link先を確認
Yu Li, Yifan Chen, Gongye Liu, Jie Wu, Yujiu Yang, (参考訳) レイアウト生成は知的デザインの基礎的なタスクであり、視覚美学の統合とコンテンツ配信の調和した表現を必要とする。 しかし、既存の手法は、図形レイアウトの空間構造と密接に関連しているレイアウト間のブロッキング、重複、空間的ミスアライメントを含む、正確で視覚的に魅力的なレイアウトを生成するという課題に直面している。 これらの手法は、コンテンツ情報に過度にフォーカスし、レイアウト空間構造に制約がないため、コンテンツ認識とグラフィック認識の特徴を学習する不均衡が生じている。 この問題に対処するために,変換器ベース拡散モデル(CGB-DM)を用いたコンテンツとグラフバランスレイアウト生成を提案する。 具体的には、まず、予測されたコンテンツとグラフィック重量のバランスをとるレギュレータを設計し、キャンバス上のコンテンツにより多くの注意を払う傾向を克服する。 第2に、レイアウト表現と画像間の幾何学的特徴のアライメントをさらに高めるために、サリエンシ境界ボックスのグラフィック制約を導入する。 さらに,トランスフォーマーに基づく拡散モデルをバックボーンとして適用することにより,レイアウト生成における品質を保証する。 実験結果から,本手法は定量評価と定性評価の両方において最先端の性能を達成できたことが示唆された。 我々のモデルフレームワークは他のグラフィックデザイン分野にも拡張できる。

Layout generation is the foundation task of intelligent design, which requires the integration of visual aesthetics and harmonious expression of content delivery. However, existing methods still face challenges in generating precise and visually appealing layouts, including blocking, overlap, or spatial misalignment between layouts, which are closely related to the spatial structure of graphic layouts. We find that these methods overly focus on content information and lack constraints on layout spatial structure, resulting in an imbalance of learning content-aware and graphic-aware features. To tackle this issue, we propose Content and Graphic Balance Layout Generation with Transformer-based Diffusion Model (CGB-DM). Specifically, we first design a regulator that balances the predicted content and graphic weight, overcoming the tendency of paying more attention to the content on canvas. Secondly, we introduce a graphic constraint of saliency bounding box to further enhance the alignment of geometric features between layout representations and images. In addition, we adapt a transformer-based diffusion model as the backbone, whose powerful generation capability ensures the quality in layout generation. Extensive experimental results indicate that our method has achieved state-of-the-art performance in both quantitative and qualitative evaluations. Our model framework can also be expanded to other graphic design fields.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# BIGbench:マルチモーダルLCMに基づくテキスト・画像生成モデルにおけるソーシャルバイアスの統一ベンチマーク

BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM ( http://arxiv.org/abs/2407.15240v2 )

ライセンス: Link先を確認
Hanjun Luo, Haoyu Huang, Ziye Deng, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは、複雑な高品質の画像を生成する能力においてより重要になっている。 社会学的研究は、バイアスの体系的な分類を確立してきたが、既存のT2Iモデルの研究は、しばしば異なる種類のバイアスを混同し、これらの手法の進歩を妨げる。 本稿では,ビジェス・オブ・イメージ・ジェネレーションのための統一ベンチマークであるBIGbenchを,よく設計されたデータセットで紹介する。 既存のベンチマークとは対照的に、BIGbenchは複雑なバイアスを4つの次元に分類し評価している。 さらに、BIGbenchは高度なマルチモーダル大言語モデル(MLLM)を適用し、高い精度を維持しながら完全な自動評価を実現する。 BIGbenchを応用して,最近の一般的なT2Iモデルと3つのデバイアスド手法を評価する。 また,画像のアライメントと様々なバイアスの同定において,BIGbenchの有効性を実証した。 また,無関係な保護属性の副作用や蒸留など,バイアスに関する新たな研究方向も明らかにした。 私たちのデータセットとベンチマークは、再現性を確保するために、研究コミュニティに公開アクセスできます。

Text-to-Image (T2I) generative models are becoming more crucial in terms of their ability to generate complex and high-quality images, which also raises concerns about the social biases in their outputs, especially in human generation. Sociological research has established systematic classifications of bias; however, existing research of T2I models often conflates different types of bias, hindering the progress of these methods. In this paper, we introduce BIGbench, a unified benchmark for Biases of Image Generation with a well-designed dataset. In contrast to existing benchmarks, BIGbench classifies and evaluates complex biases into four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. Additionally, BIGbench applies advanced multi-modal large language models (MLLM), achieving fully automated evaluation while maintaining high accuracy. We apply BIGbench to evaluate eight recent general T2I models and three debiased methods. We also conduct human evaluation, whose results demonstrated the effectiveness of BIGbench in aligning images and identifying various biases. Besides, our study also revealed new research directions about biases, including the side-effect of irrelevant protected attributes and distillation. Our dataset and benchmark is openly accessible to the research community to ensure the reproducibility.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# TimeInf: 影響関数による時系列データコントリビューション

TimeInf: Time Series Data Contribution via Influence Functions ( http://arxiv.org/abs/2407.15247v2 )

ライセンス: Link先を確認
Yizi Zhang, Jingyan Shen, Xiaoxue Xiong, Yongchan Kwon, (参考訳) モデルの予測に対する個々のデータポイントの寄与を評価することは、モデルの予測を解釈し、モデルの性能を改善するために重要である。 既存のデータコントリビューション手法は、表データ、画像、テキストなど様々なデータタイプに適用されているが、その主な焦点はi.d.設定である。 時系列データセットに合わせた原則化されたアプローチの必要性が強まっているにもかかわらず、そのような設定におけるデータコントリビューションを見積もるという問題は、おそらくは、本質的に時間的依存関係を扱うことに関連する問題によって、未解決のままである。 本稿では時系列データセットのデータコントリビューション推定手法であるTimeInfを紹介する。 TimeInfはインフルエンス関数を使用して、時間構造を保持しながら個々の時間ポイントにモデル予測を属性付けする。 実験の結果,TimeInfは有害な異常と予測に有用な時間点を同定し,最先端の手法よりも優れていることがわかった。 さらに、TimeInfはデータ値の直感的で解釈可能な属性を提供しており、可視化によって様々な異常パターンを容易に識別することができる。

Evaluating the contribution of individual data points to a model's prediction is critical for interpreting model predictions and improving model performance. Existing data contribution methods have been applied to various data types, including tabular data, images, and texts; however, their primary focus has been on i.i.d. settings. Despite the pressing need for principled approaches tailored to time series datasets, the problem of estimating data contribution in such settings remains unexplored, possibly due to challenges associated with handling inherent temporal dependencies. This paper introduces TimeInf, a data contribution estimation method for time-series datasets. TimeInf uses influence functions to attribute model predictions to individual time points while preserving temporal structures. Our extensive empirical results demonstrate that TimeInf outperforms state-of-the-art methods in identifying harmful anomalies and helpful time points for forecasting. Additionally, TimeInf offers intuitive and interpretable attributions of data values, allowing us to easily distinguish diverse anomaly patterns through visualizations.
翻訳日:2024-07-24 12:09:42 公開日:2024-07-23
# LLMExplainer:グラフ記述生成のための大言語モデルに基づくベイズ推論

LLMExplainer: Large Language Model based Bayesian Inference for Graph Explanation Generation ( http://arxiv.org/abs/2407.15351v2 )

ライセンス: Link先を確認
Jiaxing Zhang, Jiayi Liu, Dongsheng Luo, Jennifer Neville, Hua Wei, (参考訳) 最近の研究は、複数の教師なし学習モデルを通してグラフニューラルネットワーク(GNN)の解釈可能性を提供することを目指している。 データセットが不足しているため、現在の手法ではバイアスの学習が困難になる。 この問題を解決するため,GNN説明ネットワークにLarge Language Model (LLM) を知識として組み込んで学習バイアス問題を回避する。 学習バイアスを軽減するため,LLMをベイズ推論(BI)モジュールとして注入する。 BIモジュールの有効性は理論的にも実験的にも証明されている。 合成データセットと実世界のデータセットの両方で実験を行う。 私たちの仕事の革新は2つの部分に分かれています。 1. 既存のアルゴリズムの性能を向上させるため, ベイズ推論として機能するLLMの可能性について, 新たな視点を提供する。 2) GNN説明問題における学習バイアス問題について,まず議論する。

Recent studies seek to provide Graph Neural Network (GNN) interpretability via multiple unsupervised learning models. Due to the scarcity of datasets, current methods easily suffer from learning bias. To solve this problem, we embed a Large Language Model (LLM) as knowledge into the GNN explanation network to avoid the learning bias problem. We inject LLM as a Bayesian Inference (BI) module to mitigate learning bias. The efficacy of the BI module has been proven both theoretically and experimentally. We conduct experiments on both synthetic and real-world datasets. The innovation of our work lies in two parts: 1. We provide a novel view of the possibility of an LLM functioning as a Bayesian inference to improve the performance of existing algorithms; 2. We are the first to discuss the learning bias issues in the GNN explanation problem.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# IPブロードキャストとオーディオタグの統合:ワークフローと課題

Integrating IP Broadcasting with Audio Tags: Workflow and Challenges ( http://arxiv.org/abs/2407.15423v2 )

ライセンス: Link先を確認
Rhys Burchett-Vass, Arshdeep Singh, Gabriel Bibbó, Mark D. Plumbley, (参考訳) 放送業界は、ニュース収集からライブ音楽イベントまで、生放送と録画されたコンテンツ制作の両方に革命をもたらすIP技術の採用をますます進めている。 IPブロードキャストは、最新のネットワーク技術と整合して、容易に構成可能な方法でオーディオおよびビデオ信号の転送を可能にする。 このIPワークフローへの移行により、ルーティング信号だけでなく、標準的なWeb開発技術を使用したツールの統合によって、はるかに柔軟性が向上します。 考えられる1つのツールは、ライブオーディオタグの使用であり、コンテンツの生産に多くの用途がある。 これには、自動クローズドキャプションから、シーン内の望ましくない音のイベントを特定することが含まれる。 本稿では,複数の異なるネットワーク構成に統合可能な,小さな分離コードモジュールであるマイクロサービスにオーディオタグモデルをコンテナ化するプロセスについて述べる。 目標は、小さなプロダクションから大企業まで、あらゆる規模のブロードキャストワークフローにシームレスにデプロイできるモジュール式でアクセス可能で柔軟なツールを開発することです。 選択した音声タグ付けモデルのレイテンシに関する課題とその製品の有用性への影響について論じる。

The broadcasting industry is increasingly adopting IP techniques, revolutionising both live and pre-recorded content production, from news gathering to live music events. IP broadcasting allows for the transport of audio and video signals in an easily configurable way, aligning with modern networking techniques. This shift towards an IP workflow allows for much greater flexibility, not only in routing signals but with the integration of tools using standard web development techniques. One possible tool could include the use of live audio tagging, which has a number of uses in the production of content. These include from automated closed captioning to identifying unwanted sound events within a scene. In this paper, we describe the process of containerising an audio tagging model into a microservice, a small segregated code module that can be integrated into a multitude of different network setups. The goal is to develop a modular, accessible, and flexible tool capable of seamless deployment into broadcasting workflows of all sizes, from small productions to large corporations. Challenges surrounding latency of the selected audio tagging model and its effect on the usefulness of the end product are discussed.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# ドメイン内不一致によるビデオ異常検出のための双方向スキップフレーム予測

Bidirectional skip-frame prediction for video anomaly detection with intra-domain disparity-driven attention ( http://arxiv.org/abs/2407.15424v2 )

ライセンス: Link先を確認
Jiahao Lyu, Minghua Zhao, Jing Hu, Runtao Xi, Xuewen Huang, Shuangli Du, Cheng Shi, Tian Ma, (参考訳) ビデオ監視装置の普及とインテリジェントなシステム開発への需要により、ビデオ異常検出(VAD)はインテリジェントな監視システムの構築において重要な役割を担っている。 正常事象と異常事象の識別境界を広げてパフォーマンスを高めることが、VADの共通の目標と課題である。 この問題に対処するため,両ストリームオートエンコーダをベースとしたBidirectional Skip-frame Prediction (BiSP) ネットワークを提案する。 BiSPは、トレーニングフェーズのフレームをスキップして、それぞれ前方および後方のフレーム予測を行い、テストフェーズでは、双方向連続フレームを使用して、同一の中間フレームを同時予測し、通常のイベントと異常イベントの相違度を拡大する。 BiSPは, 移動パターンと物体スケールの視点から, 分散チャネルの注意とコンテキスト空間の注意をそれぞれ設計し, 特徴抽出における正常と異常の相違の最大化を, 異なる次元で確保する。 4つのベンチマークデータセットによる大規模な実験は、提案したBiSPの有効性を示し、最先端の競合手法を大幅に上回っている。

With the widespread deployment of video surveillance devices and the demand for intelligent system development, video anomaly detection (VAD) has become an important part of constructing intelligent surveillance systems. Expanding the discriminative boundary between normal and abnormal events to enhance performance is the common goal and challenge of VAD. To address this problem, we propose a Bidirectional Skip-frame Prediction (BiSP) network based on a dual-stream autoencoder, from the perspective of learning the intra-domain disparity between different features. The BiSP skips frames in the training phase to achieve the forward and backward frame prediction respectively, and in the testing phase, it utilizes bidirectional consecutive frames to co-predict the same intermediate frames, thus expanding the degree of disparity between normal and abnormal events. The BiSP designs the variance channel attention and context spatial attention from the perspectives of movement patterns and object scales, respectively, thus ensuring the maximization of the disparity between normal and abnormal in the feature extraction and delivery with different dimensions. Extensive experiments from four benchmark datasets demonstrate the effectiveness of the proposed BiSP, which substantially outperforms state-of-the-art competing methods.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 極低光環境下での二重教師によるドメイン適応型2次元人物位置推定

Domain-Adaptive 2D Human Pose Estimation via Dual Teachers in Extremely Low-Light Conditions ( http://arxiv.org/abs/2407.15451v2 )

ライセンス: Link先を確認
Yihao Ai, Yifei Qi, Bo Wang, Yu Cheng, Xinchao Wang, Robby T. Tan, (参考訳) 既存の2次元ポーズ推定研究は主に、生活の一般的な側面である照明条件の少ない探索に焦点を絞った、明るいシナリオに焦点を当てている。 低照度ポーズ推定の最近の研究は、低照度画像のアノテーションにかかわる固有の課題のため、地上の真理とペアの良照度画像と低照度画像の併用を訓練に必要としている。 そこで本研究では,低照度地平の真理を排除した新しいアプローチを提案する。 我々の主な特徴は、2つの補完的な教員ネットワークを利用してより信頼性の高い擬似ラベルを生成することである。 私たちのフレームワークは2つのステージで構成されています。 第一段階では、我々のモデルは、低照度拡張を伴う明るいデータに基づいて訓練されている。 第2段階では,主教官が比較的可視なケースに対して擬似ラベルを生成するのに対して,主教官の欠席者に対して擬似ラベルを生成するのに主教官が主教官の擬似ラベルを作成するという,ラベルのない低照度データを利用するための二重教官フレームワークを提案する。 両教師の擬似ラベルを用いて,学生モデルに挑戦する個人固有の低照度増進を提案し,教師に優越する結果を得た。 実際の低照度データセット(ExLPose-OCN)による実験結果から,SOTA法とは対照的に,SOTA法に比べて6.8%(2.4 AP)の改善が得られた。 私たちのコードは、https://github.com/ayh015-dev/DA-LLPose.comで公開されます。

Existing 2D human pose estimation research predominantly concentrates on well-lit scenarios, with limited exploration of poor lighting conditions, which are a prevalent aspect of daily life. Recent studies on low-light pose estimation require the use of paired well-lit and low-light images with ground truths for training, which are impractical due to the inherent challenges associated with annotation on low-light images. To this end, we introduce a novel approach that eliminates the need for low-light ground truths. Our primary novelty lies in leveraging two complementary-teacher networks to generate more reliable pseudo labels, enabling our model achieves competitive performance on extremely low-light images without the need for training with low-light ground truths. Our framework consists of two stages. In the first stage, our model is trained on well-lit data with low-light augmentations. In the second stage, we propose a dual-teacher framework to utilize the unlabeled low-light data, where a center-based main teacher produces the pseudo labels for relatively visible cases, while a keypoints-based complementary teacher focuses on producing the pseudo labels for the missed persons of the main teacher. With the pseudo labels from both teachers, we propose a person-specific low-light augmentation to challenge a student model in training to outperform the teachers. Experimental results on real low-light dataset (ExLPose-OCN) show, our method achieves 6.8% (2.4 AP) improvement over the state-of-the-art (SOTA) method, despite no low-light ground-truth data is used in our approach, in contrast to the SOTA method. Our code will be available at:https://github.com/ayh015-dev/DA-LLPose.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 時間反転のない橋のスコアマッチング

Score matching for bridges without time-reversals ( http://arxiv.org/abs/2407.15455v2 )

ライセンス: Link先を確認
Elizabeth L. Baker, Moritz Schauer, Stefan Sommer, (参考訳) スコアマッチング手法を用いてブリッジ拡散過程を学習するための新しいアルゴリズムを提案する。 提案手法は前処理のダイナミクスを逆転させてスコア関数を学習することで,Doobの$h$-transformを通じて,エンドポイント上で条件付けられたプロセスであるブリッジ拡散プロセスを提供する。 従来の方法とは対照的に、我々はスコア項 $\nabla_x \log p(t, x; T, y)$, for given $t, Y$ を直接学習し、時間逆転を初めて学習する必要を完全に回避する。 アルゴリズムの性能を既存の手法と比較し、(学習した)時間反転を用いてスコア項を学習することで性能が向上することを示す。 コードはhttps://github.com/libbylbaker/forward_bridgeで見ることができる。

We propose a new algorithm for learning a bridged diffusion process using score-matching methods. Our method relies on reversing the dynamics of the forward process and using this to learn a score function, which, via Doob's $h$-transform, gives us a bridged diffusion process; that is, a process conditioned on an endpoint. In contrast to prior methods, ours learns the score term $\nabla_x \log p(t, x; T, y)$, for given $t, Y$ directly, completely avoiding the need for first learning a time reversal. We compare the performance of our algorithm with existing methods and see that it outperforms using the (learned) time-reversals to learn the score term. The code can be found at https://github.com/libbylbaker/forward_bridge.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# マルチスペクトルフィルタアレイ画像からの深部照明特性の学習

Learning deep illumination-robust features from multispectral filter array images ( http://arxiv.org/abs/2407.15472v2 )

ライセンス: Link先を確認
Anis Amziane, (参考訳) マルチスペクトル(MS)スナップショットカメラはMSフィルタアレイ(MSFA)を備え、1枚のショットで複数のスペクトル帯域をキャプチャし、各ピクセルが1つのチャネル値しか持たないモザイク画像を生成する。 完全に定義されたMS画像は生画像から$\textit{demosaicing}$まで推定される。 さらに、完全に定義されたMS画像のトレーニングは、特にディープニューラルネットワーク(DNN)で計算集約され、時空間相互作用の最適下学習による識別能力の欠如が生じる可能性がある。 さらに、屋外のMS画像の取得は様々な照明条件下で行われ、照明に依存した特徴をもたらす。 本稿では, 原画像から直接, 識別的・照明的特徴を学習するための独自のアプローチを提案する。 $\textit{raw spectrum constancy}$ 照明の影響を軽減するために、$\textit{MSFA-preserving}$ さまざまな生のテクスチャでDNNをトレーニングするための生のイメージ拡張に適した変換、生のイメージにおける差別的な時空間相互作用をキャプチャするために$\textit{raw-mixing}$ である。 MS画像分類実験により,本手法は手工芸法と近年の深層学習法の両方に優れ,計算労力も大幅に削減された。

Multispectral (MS) snapshot cameras equipped with a MS filter array (MSFA), capture multiple spectral bands in a single shot, resulting in a raw mosaic image where each pixel holds only one channel value. The fully-defined MS image is estimated from the raw one through $\textit{demosaicing}$, which inevitably introduces spatio-spectral artifacts. Moreover, training on fully-defined MS images can be computationally intensive, particularly with deep neural networks (DNNs), and may result in features lacking discrimination power due to suboptimal learning of spatio-spectral interactions. Furthermore, outdoor MS image acquisition occurs under varying lighting conditions, leading to illumination-dependent features. This paper presents an original approach to learn discriminant and illumination-robust features directly from raw images. It involves: $\textit{raw spectral constancy}$ to mitigate the impact of illumination, $\textit{MSFA-preserving}$ transformations suited for raw image augmentation to train DNNs on diverse raw textures, and $\textit{raw-mixing}$ to capture discriminant spatio-spectral interactions in raw images. Experiments on MS image classification show that our approach outperforms both handcrafted and recent deep learning-based methods, while also requiring significantly less computational effort.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 符号化量子アニールの誤差補正

Error correction for encoded quantum annealing revisited ( http://arxiv.org/abs/2407.15480v2 )

ライセンス: Link先を確認
Yoshihiro Nambu, (参考訳) F. Pastawski と J. Preskill は、Sourlas-Lechner-Hauke-Zoller (SLHZ) と呼ばれるパリティ符号化スピン系に基づく量子アニール(QA)の誤り訂正について議論した。 彼らは、SLHZシステムは古典的な低密度パリティチェック(LDPC)符号と密接な関係があることを指摘し、独立ランダムスピンフリップ誤差を仮定した信念伝搬(BP)アルゴリズムを用いて、その誤り訂正能力を実証した。 これとは対照的に、AblashらはSLHZシステムはポスト・リードアウト・デコーディングの恩恵を受けていないことを示唆した。 理由は、無作為なスピンフリップは、閉系の場合や開系の場合であっても、アニーリング過程中に励起状態のサンプリングによって生じる最も関連性の高い誤差ではないからである。 本稿では,SLHZシステムの読み出しにおける誤りを除去する,非常に単純な復号アルゴリズムを提案する。 我々の新しいアルゴリズムはLDPC符号のビットフリップアルゴリズムと考えることができる。 独立かつ同一のノイズモデルと仮定すると,我々のアルゴリズムの性能はBPアルゴリズムに匹敵することがわかった。 最終時間分布を模擬したモンテカルロ計算を用いて,サンプル読み出しにおける誤り訂正能力について検討した。 その結果, 誤りのない状態やコード状態が全くサンプリングされない条件下で, サンプリング済みの読み出しにおけるエラーの除去に成功していることがわかった。 本シミュレーションは, 従来の復号プロセスの前処理として, 復号化処理により復号化処理が可能である場合, 復号化処理が成功し, 復号化処理が可能であることを示唆している。 この知識は近い将来,SLHZシステムに基づく実用的なQAの設計・開発に有用である。

F. Pastawski and J. Preskill discussed error correction of quantum annealing (QA) based on a parity-encoded spin system, known as the Sourlas-Lechner-Hauke-Zoller (SLHZ) system. They pointed out that the SLHZ system is closely related to a classical low-density parity-check (LDPC) code and demonstrated its error-correcting capability through a belief propagation (BP) algorithm assuming independent random spin-flip errors. In contrast, Ablash et al. suggested that the SLHZ system does not receive the benefits of post-readout decoding. The reason is that independent random spin-flips are not the most relevant error arising from sampling excited states during the annealing process, whether in closed or open system cases. In this work, we revisit this issue: we propose a very simple decoding algorithm to eliminate errors in the readout of SLHZ systems and show experimental evidence suggesting that SLHZ system exhibits error-correcting capability in decoding annealing readouts. Our new algorithm can be thought of as a bit-flipping algorithm for LDPC codes. Assuming an independent and identical noise model, we found that the performance of our algorithm is comparable to that of the BP algorithm. The error correcting-capability for the sampled readouts was investigated using Monte Carlo calculations that simulate the final time distribution of QA. The results show that the algorithm successfully eliminates errors in the sampled readouts under conditions where error-free state or even code state is not sampled at all. Our simulation suggests that decoding of annealing readouts will be successful if the correctable states can be sampled by annealing, and annealing can be considered to play a role as a pre-process of the classical decoding process. This knowledge will be useful for designing and developing practical QA based on the SLHZ system in the near future.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 文書に基づくゼロショット学習のための視覚的意味分解と部分的アライメント

Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning ( http://arxiv.org/abs/2407.15613v2 )

ライセンス: Link先を確認
Xiangyan Qu, Jing Yu, Keke Gai, Jiamin Zhuang, Yuanmin Tang, Gang Xiong, Gaopeng Gou, Qi Wu, (参考訳) 近年の研究では、百科事典の文書がゼロショット学習の補助情報として役立っていることが示されている。 既存の手法は、文書のセマンティクス全体と対応する画像とを一致させて、知識を伝達する。 しかし、セマンティック情報はそれらの間に等価ではないことを無視し、結果として準最適アライメントをもたらす。 本研究では,文書や画像から多視点意味概念を抽出し,概念全体ではなくマッチングを整合させる新しいネットワークを提案する。 具体的には、視覚的側面とテキスト的側面から多視点のセマンティック埋め込みを生成する意味分解モジュールを提案し、部分的アライメントの基本概念を提供する。 埋め込みにおける情報冗長性の問題を軽減するため,ローカル・セマンティックな分散損失と,埋め込み間の直交性を強制する複数の意味的多様性損失を提案する。 その後、ビューとワード・ツー・パッチのレベルにおける意味的関連性に応じて、視覚的セマンティックな埋め込みペアを部分的に整合させる2つの損失が導入された。 その結果、文書ベースのゼロショット学習のための3つの標準ベンチマークにおいて、2つの文書ソースにおける最先端の手法を一貫して上回ります。 定性的に、我々のモデルは解釈可能な部分的関連を学習することを示す。

Recent work shows that documents from encyclopedias serve as helpful auxiliary information for zero-shot learning. Existing methods align the entire semantics of a document with corresponding images to transfer knowledge. However, they disregard that semantic information is not equivalent between them, resulting in a suboptimal alignment. In this work, we propose a novel network to extract multi-view semantic concepts from documents and images and align the matching rather than entire concepts. Specifically, we propose a semantic decomposition module to generate multi-view semantic embeddings from visual and textual sides, providing the basic concepts for partial alignment. To alleviate the issue of information redundancy among embeddings, we propose the local-to-semantic variance loss to capture distinct local details and multiple semantic diversity loss to enforce orthogonality among embeddings. Subsequently, two losses are introduced to partially align visual-semantic embedding pairs according to their semantic relevance at the view and word-to-patch levels. Consequently, we consistently outperform state-of-the-art methods under two document sources in three standard benchmarks for document-based zero-shot learning. Qualitatively, we show that our model learns the interpretable partial association.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# モルフォ骨格制御による冠状動脈解剖シミュレーションのための拡散モデル

A Diffusion Model for Simulation Ready Coronary Anatomy with Morpho-skeletal Control ( http://arxiv.org/abs/2407.15631v2 )

ライセンス: Link先を確認
Karim Kadry, Shreya Gupta, Jonas Sogbadji, Michiel Schaap, Kersten Petersen, Takuya Mizukami, Carlos Collet, Farhad R. Nezami, Elazer R. Edelman, (参考訳) 仮想的介入は、物理学に基づく冠動脈内のデバイス配置のシミュレーションを可能にする。 このフレームワークは、異なる動脈解剖に同じデバイスを配置することで、反ファクトな推論を可能にする。 しかし、このような反事実的動脈を作るための現在の手法は、コントロール可能性とリアリズムのトレードオフに直面している。 本研究では, 局所形態, 大域的な骨格構造といった中程度の解剖学的制約に基づいて, 冠動脈解剖学をカスタムに合成する方法について検討した。 また,拡散モデル誘導戦略を形態・骨格条件の文脈にまで拡張し,サンプリング全体を通じて負の誘導条件を適応的に更新する連続属性のための新しいガイダンス手法を提案する。 本フレームワークは, 冠動脈の解剖学を制御可能な方法で生成・編集し, 装置設計者が解剖学的変化やシミュレーション装置の展開に関する機械的知見を導き出すことを可能にする。

Virtual interventions enable the physics-based simulation of device deployment within coronary arteries. This framework allows for counterfactual reasoning by deploying the same device in different arterial anatomies. However, current methods to create such counterfactual arteries face a trade-off between controllability and realism. In this study, we investigate how Latent Diffusion Models (LDMs) can custom synthesize coronary anatomy for virtual intervention studies based on mid-level anatomic constraints such as topological validity, local morphological shape, and global skeletal structure. We also extend diffusion model guidance strategies to the context of morpho-skeletal conditioning and propose a novel guidance method for continuous attributes that adaptively updates the negative guiding condition throughout sampling. Our framework enables the generation and editing of coronary anatomy in a controllable manner, allowing device designers to derive mechanistic insights regarding anatomic variation and simulated device deployment.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# Cinemo: 動き拡散モデルによる一貫性と制御可能な画像アニメーション

Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models ( http://arxiv.org/abs/2407.15642v2 )

ライセンス: Link先を確認
Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao, (参考訳) 拡散モデルは、強力な生成能力により画像アニメーションにおいて大きな進歩を遂げている。 しかし、入力された静的画像からの詳細な情報(例えば、スタイル、背景、および入力された静的画像のオブジェクト)との時空間的整合性を維持し、テキストプロンプトで案内されたアニメーション映像の滑らかさを確保することは依然として困難である。 本稿では、より優れた動き制御性を実現するための新しい画像アニメーションであるCinemoを紹介し、時間的一貫性と滑らかさを向上する。 一般に,Cinemoの学習・推論段階における3つの効果的な戦略を提案する。 トレーニング段階では、Cinemoは、運動拡散モデルを介して後続を直接予測するのではなく、運動残差の分布の学習に重点を置いている。 さらに、Cinemoの運動強度の制御性を改善するために、構造的類似度指数に基づく戦略が提案されている。 推定段階では、離散コサイン変換に基づくノイズ改善手法を導入し、突発的な動きの変化を緩和する。 このような3つの戦略により、シネモは高度に一貫性があり、滑らかで、運動制御可能な結果が得られる。 従来の方法と比較して、Cinemoはよりシンプルで正確なユーザコントロール機能を提供する。 提案手法の有効性と優位性を実証するために, 市販のツールや研究手法を含むいくつかの最先端手法に対する大規模な実験を行った。

Diffusion models have achieved great progress in image animation due to powerful generative capabilities. However, maintaining spatio-temporal consistency with detailed information from the input static image over time (e.g., style, background, and object of the input static image) and ensuring smoothness in animated video narratives guided by textual prompts still remains challenging. In this paper, we introduce Cinemo, a novel image animation approach towards achieving better motion controllability, as well as stronger temporal consistency and smoothness. In general, we propose three effective strategies at the training and inference stages of Cinemo to accomplish our goal. At the training stage, Cinemo focuses on learning the distribution of motion residuals, rather than directly predicting subsequent via a motion diffusion model. Additionally, a structural similarity index-based strategy is proposed to enable Cinemo to have better controllability of motion intensity. At the inference stage, a noise refinement technique based on discrete cosine transformation is introduced to mitigate sudden motion changes. Such three strategies enable Cinemo to produce highly consistent, smooth, and motion-controllable results. Compared to previous methods, Cinemo offers simpler and more precise user controllability. Extensive experiments against several state-of-the-art methods, including both commercial tools and research approaches, across multiple metrics, demonstrate the effectiveness and superiority of our proposed approach.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 効率的な骨格に基づく行動認識のための多モード共学習

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v2 )

ライセンス: Link先を確認
Jinfu Liu, Chen Chen, Mengyuan Liu, (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。 それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。 そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。 私たちのMMCLフレームワークは主に2つのモジュールで構成されています。 まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。 第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。 これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。 一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。 私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。

Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 物理インフォームされたコルモゴロフ・アルノルドネットワークを用いたラグランジュ速度測定による乱流速度と温度場の推定とその統計

Inferring turbulent velocity and temperature fields and their statistics from Lagrangian velocity measurements using physics-informed Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.15727v2 )

ライセンス: Link先を確認
Juan Diego Toscano, Theo Käufer, Zhibo Wang, Martin Maxey, Christian Cierpka, George Em Karniadakis, (参考訳) 実験乱流速度データから隠れた温度場を推定するためのAIVT法を提案する。 この物理インフォームド機械学習により,スパース速度データのみを用いて連続温度場を推定できるので,直接温度測定の必要がなくなる。 特に、AIVTは、物理インフォームドされたコルモゴロフ・アルノルドネットワーク(ニューラルネットワークではない)に基づいており、速度データ、境界条件、および支配方程式の残差を最小化する複合損失関数を最適化することによって訓練されている。 粒子画像サーモメトリーとラグランジアン粒子追跡を併用して得られたレイリー・ブエナード対流(RBC)の,実験体積・同時温度・速度データにAIVTを適用した。 これにより、AIVT予測と測定を直接比較することができます。 乱流の直接数値シミュレーション (DNS) に匹敵する忠実度でスパース実験データから連続的, 即時的な速度場と温度場を再構成し, 推定できることを実証した。 これにより, ゆらぎ, 粘性, 熱散逸, QR分布などの乱流を定量化するための重要な量を計算することができる。 DNSレベルの乱流場を推定するためにAIVTを用いた実験データを処理するこのパラダイムシフトは、DNSが計算不可能なレイノルズ数での乱流の定量的理解の現在のデッドロックを破る上で有望な方法である。

We propose the Artificial Intelligence Velocimetry-Thermometry (AIVT) method to infer hidden temperature fields from experimental turbulent velocity data. This physics-informed machine learning method enables us to infer continuous temperature fields using only sparse velocity data, hence eliminating the need for direct temperature measurements. Specifically, AIVT is based on physics-informed Kolmogorov-Arnold Networks (not neural networks) and is trained by optimizing a combined loss function that minimizes the residuals of the velocity data, boundary conditions, and the governing equations. We apply AIVT to a unique set of experimental volumetric and simultaneous temperature and velocity data of Rayleigh-B\'enard convection (RBC) that we acquired by combining Particle Image Thermometry and Lagrangian Particle Tracking. This allows us to compare AIVT predictions and measurements directly. We demonstrate that we can reconstruct and infer continuous and instantaneous velocity and temperature fields from sparse experimental data at a fidelity comparable to direct numerical simulations (DNS) of turbulence. This, in turn, enables us to compute important quantities for quantifying turbulence, such as fluctuations, viscous and thermal dissipation, and QR distribution. This paradigm shift in processing experimental data using AIVT to infer turbulent fields at DNS-level fidelity is a promising avenue in breaking the current deadlock of quantitative understanding of turbulence at high Reynolds numbers, where DNS is computationally infeasible.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# The syzygy distinguisher―the syzygy distinguisher

The syzygy distinguisher ( http://arxiv.org/abs/2407.15740v2 )

ライセンス: Link先を確認
Hugues Randriambololona, (参考訳) そこで我々は,誤り訂正能力において複雑性が劣る交代符号とゴッパ符号の区別器を新たに提案する。 これは、以前の区別器や構造回復アルゴリズムの強い規則的制限に苦しめられず、特に、ポスト量子暗号標準化のための古典的なマッケイリーの候補で使われるコードに適用される。 区別できる不変量は、双対符号の短縮の同次座標環のベッチ数である。 1978年に導入されて以来、McEliece暗号系の解析が指数障壁を破るのはこれが初めてである。

We present a new distinguisher for alternant and Goppa codes, whose complexity is subexponential in the error-correcting capability. It does not suffer from the strong regime limitations of the previous distinguishers or structure recovery algorithms: in particular, it applies to the codes used in the Classic McEliece candidate for postquantum cryptography standardization. The invariants that allow us to distinguish are graded Betti numbers of the homogeneous coordinate ring of a shortening of the dual code. Since its introduction in 1978, this is the first time an analysis of the McEliece cryptosystem breaks the exponential barrier.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# 手術映像における弱教師付き物体検出とセグメンテーションのための空間的時間的知識の遠心化

Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video ( http://arxiv.org/abs/2407.15794v2 )

ライセンス: Link先を確認
Guiqiu Liao, Matjaz Jogan, Sai Koushik, Eric Eaton, Daniel A. Hashimoto, (参考訳) 弱教師付きビデオオブジェクトセグメンテーション(WSVOS)は、オブジェクトマスクの広範なトレーニングデータセットを必要としないセグメンテーションマップの識別を可能にし、代わりに、オブジェクトの存在を示す粗いビデオラベルに依存する。 現在の最先端の手法では、モーションキューを使用する複数の独立した処理段階を必要とするか、あるいはエンドツーエンドのトレーニング可能なネットワークの場合、セグメント化の精度が欠如している。 これにより、複数の手術ツールが視野内を頻繁に移動する手術ビデオのセマンティックアノテーションに対するWSVOSの適用が制限されるが、WSVOSでは通常遭遇するよりも難しい問題である。 本稿では,半分離型知識蒸留を用いて時空間情報を分散し,高品質なクラスアクティベーションマップ(CAM)を予測するフレームワークであるVDST-Netを提案する。 ビデオ中の物体の位置やタイミングに関する特定情報が提供されていない場合の時間的矛盾を解決するために設計された教師ネットワークは、時間的依存を活用して情報を統合する学生ネットワークで動作する。 提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60倍未満のアノテートフレームに存在するような,より困難な手術用ビデオデータセット上で有効であることを示す。 本手法は最先端技術より優れ,映像レベルの弱い監督下で優れたセグメンテーションマスクを生成する。

Weakly supervised video object segmentation (WSVOS) enables the identification of segmentation maps without requiring an extensive training dataset of object masks, relying instead on coarse video labels indicating object presence. Current state-of-the-art methods either require multiple independent stages of processing that employ motion cues or, in the case of end-to-end trainable networks, lack in segmentation accuracy, in part due to the difficulty of learning segmentation maps from videos with transient object presence. This limits the application of WSVOS for semantic annotation of surgical videos where multiple surgical tools frequently move in and out of the field of view, a problem that is more difficult than typically encountered in WSVOS. This paper introduces Video Spatio-Temporal Disentanglement Networks (VDST-Net), a framework to disentangle spatiotemporal information using semi-decoupled knowledge distillation to predict high-quality class activation maps (CAMs). A teacher network designed to resolve temporal conflicts when specifics about object location and timing in the video are not provided works with a student network that integrates information over time by leveraging temporal dependencies. We demonstrate the efficacy of our framework on a public reference dataset and on a more challenging surgical video dataset where objects are, on average, present in less than 60\% of annotated frames. Our method outperforms state-of-the-art techniques and generates superior segmentation masks under video-level weak supervision.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23
# タスクグラフの実行が可能なシンプルで高速なC++スレッドプール実装

A simple and fast C++ thread pool implementation capable of running task graphs ( http://arxiv.org/abs/2407.15805v2 )

ライセンス: Link先を確認
Dmytro Puyda, (参考訳) 本稿では,タスクグラフの実行が可能な単純かつ高速なC++スレッドプールの実装を提案する。 実装はGitHubで公開されており、https://github.com/dpuyda/scheduling.comを参照してほしい。

In this paper, the author presents a simple and fast C++ thread pool implementation capable of running task graphs. The implementation is publicly available on GitHub, see https://github.com/dpuyda/scheduling.
翻訳日:2024-07-24 11:59:35 公開日:2024-07-23