このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240730となっている論文です。

PDF登録状況(公開日: 20240730)

TitleAuthorsAbstract論文公表日・翻訳日
# 英国のバイオバンクによる網膜画像分類モデルにおけるバイアスについて

On Biases in a UK Biobank-based Retinal Image Classification Model ( http://arxiv.org/abs/2408.02676v1 )

ライセンス: Link先を確認
Anissa Alloula, Rima Mustafa, Daniel R McGowan, Bartłomiej W. Papież, (参考訳) 最近の研究は、医療における機械学習モデルの性能の相違を警告している。 本研究では,イギリスバイオバンクの眼底網膜画像にこのような格差が存在するかどうかを,これらの画像を用いた疾患分類モデルのトレーニングと評価により検討する。 モデル全体の性能は高いものの,様々な集団間での相違について検討し,実質的な相違点を見出した。 特に、厳格なデータ標準化プロトコルを考えると、特定の評価センタに対する不公平なパフォーマンスが明らかになる。 これらの違いがどのように出現するかを比較し、既存のバイアス緩和手法をそれぞれに適用する。 重要な洞察は、それぞれの相違がユニークな性質を持ち、緩和法に異なる反応をするということである。 また、これらの手法は公平性を高めることができず、特定のバイアスに合わせたより良いバイアス緩和法の必要性を強調している。

Recent work has uncovered alarming disparities in the performance of machine learning models in healthcare. In this study, we explore whether such disparities are present in the UK Biobank fundus retinal images by training and evaluating a disease classification model on these images. We assess possible disparities across various population groups and find substantial differences despite strong overall performance of the model. In particular, we discover unfair performance for certain assessment centres, which is surprising given the rigorous data standardisation protocol. We compare how these differences emerge and apply a range of existing bias mitigation methods to each one. A key insight is that each disparity has unique properties and responds differently to the mitigation methods. We also find that these methods are largely unable to enhance fairness, highlighting the need for better bias mitigation methods tailored to the specific type of bias.
翻訳日:2024-08-19 04:49:14 公開日:2024-07-30
# 大規模言語モデルの時代における影響コンピューティング:NLPの視点から

Affective Computing in the Era of Large Language Models: A Survey from the NLP Perspective ( http://arxiv.org/abs/2408.04638v1 )

ライセンス: Link先を確認
Yiqun Zhang, Xiaocui Yang, Xingle Xu, Zeran Gao, Yijie Huang, Shiyi Mu, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song, Ge Yu, (参考訳) コンピュータ科学、心理学、認知科学の知識を統合するAffective Computing(AC)は、機械が人間の感情を認識し、解釈し、シミュレートできるようにすることを目的としており、より多くの価値を生み出すために、ACはソーシャルメディア、金融、医療、教育など様々なシナリオに適用できる。 Affective Computing(AC)は、Affective Understanding(AU)とAffective Generation(AG)の2つの主要なタスクを含む。 AUタスクのための微調整事前学習言語モデル(PLM)はかなり成功した。 しかし、これらのモデルは一般化能力に欠け、特定のタスクに特別なモデルを必要とする。 さらに、従来のPLMはAGの課題、特に多様で感情的に豊かな反応を生み出すことに直面する。 ChatGPTシリーズやLLaMAモデルのような大規模言語モデル(LLM)の出現は、ACのパラダイムシフトを触媒する新たな機会と課題をもたらす。 LLMには、文脈内学習、常識推論、高度なシーケンス生成の能力があり、これはAUにとって前例のない機会である。 NLPの観点からのLCM時代のACの包括的概要を提供するため,本分野におけるLCM研究の展開を概観し,新たな知見の提供を目的としている。 具体的には、まずACに関連する従来の課題を要約し、LCMに基づく予備研究を紹介する。 続いて,命令チューニングやプロンプトエンジニアリングなどのACタスクを改善するために,人気のあるLCMの関連技術について概説する。 Instruction Tuningでは、LoRA、P-Tuning、Prompt Tuningといったパラメータの微調整とパラメータ効率のよい手法について議論する。 In Prompt Engineering, we examined Zero-shot, Few-shot, Chain of Thought (CoT), and Agent-based methods for AU and AG。 各種のAffective ComputingタスクにおけるLCMの性能を明らかにするために,既存のベンチマークと評価手法をさらに要約する。

Affective Computing (AC), integrating computer science, psychology, and cognitive science knowledge, aims to enable machines to recognize, interpret, and simulate human emotions.To create more value, AC can be applied to diverse scenarios, including social media, finance, healthcare, education, etc. Affective Computing (AC) includes two mainstream tasks, i.e., Affective Understanding (AU) and Affective Generation (AG). Fine-tuning Pre-trained Language Models (PLMs) for AU tasks has succeeded considerably. However, these models lack generalization ability, requiring specialized models for specific tasks. Additionally, traditional PLMs face challenges in AG, particularly in generating diverse and emotionally rich responses. The emergence of Large Language Models (LLMs), such as the ChatGPT series and LLaMA models, brings new opportunities and challenges, catalyzing a paradigm shift in AC. LLMs possess capabilities of in-context learning, common sense reasoning, and advanced sequence generation, which present unprecedented opportunities for AU. To provide a comprehensive overview of AC in the LLMs era from an NLP perspective, we summarize the development of LLMs research in this field, aiming to offer new insights. Specifically, we first summarize the traditional tasks related to AC and introduce the preliminary study based on LLMs. Subsequently, we outline the relevant techniques of popular LLMs to improve AC tasks, including Instruction Tuning and Prompt Engineering. For Instruction Tuning, we discuss full parameter fine-tuning and parameter-efficient methods such as LoRA, P-Tuning, and Prompt Tuning. In Prompt Engineering, we examine Zero-shot, Few-shot, Chain of Thought (CoT), and Agent-based methods for AU and AG. To clearly understand the performance of LLMs on different Affective Computing tasks, we further summarize the existing benchmarks and evaluation methods.
翻訳日:2024-08-19 04:27:34 公開日:2024-07-30
# 音声転写からの抽象的要約

Abstractive summarization from Audio Transcription ( http://arxiv.org/abs/2408.04639v1 )

ライセンス: Link先を確認
Ilia Derkach, (参考訳) 現在、大規模な言語モデルが人気を集めており、その成果はテキスト翻訳からクエリへの回答生成まで、多くの分野で利用されている。 しかし、これらの新しい機械学習アルゴリズムの大きな問題は、そのようなモデルのトレーニングには、大規模なIT企業しか持たない巨大なコンピューティングリソースが必要であることである。 この問題を回避するために、既存のモデルを特定のタスクに対して効果的に微調整できるように、多くの手法(LoRA、量子化)が提案されている。 本稿では,これらの手法を用いたE2E(End to End)音声要約モデルを提案する。 さらに,本手法の有効性を考察し,本手法の適用性について結論を導出する。

Currently, large language models are gaining popularity, their achievements are used in many areas, ranging from text translation to generating answers to queries. However, the main problem with these new machine learning algorithms is that training such models requires large computing resources that only large IT companies have. To avoid this problem, a number of methods (LoRA, quantization) have been proposed so that existing models can be effectively fine-tuned for specific tasks. In this paper, we propose an E2E (end to end) audio summarization model using these techniques. In addition, this paper examines the effectiveness of these approaches to the problem under consideration and draws conclusions about the applicability of these methods.
翻訳日:2024-08-19 04:27:34 公開日:2024-07-30
# 農業気象レコメンデーションのためのLCM

LLMs for Enhanced Agricultural Meteorological Recommendations ( http://arxiv.org/abs/2408.04640v1 )

ライセンス: Link先を確認
Ji-jun Park, Soo-joon Choi, (参考訳) 農業気象学の勧告は、天気予報、土壌条件、作物固有のデータに基づいて、農家に実用的な洞察を提供することによって、作物の生産性と持続可能性を高めるために不可欠である。 本稿では,大規模言語モデル(LLM)を活用した新しい手法を提案する。 そこで我々は,ChatGPT,Claude2,GPT-4上に実装された,更新データとフィードバックを用いてリコメンデーションを反復的に洗練するマルチラウンドプロンプトフレームワークを設計した。 本手法は,手動で収集したデータセットを用いて,ベースラインモデルとChain-of-Thought(CoT)アプローチに対して評価を行った。 その結果,最大90%の精度と高いGPT-4スコアが得られた。 実世界のパイロット研究によるさらなる検証により,本手法の実用的メリットが確認され,農業の実践や意思決定を変革する可能性も浮き彫りにされた。

Agricultural meteorological recommendations are crucial for enhancing crop productivity and sustainability by providing farmers with actionable insights based on weather forecasts, soil conditions, and crop-specific data. This paper presents a novel approach that leverages large language models (LLMs) and prompt engineering to improve the accuracy and relevance of these recommendations. We designed a multi-round prompt framework to iteratively refine recommendations using updated data and feedback, implemented on ChatGPT, Claude2, and GPT-4. Our method was evaluated against baseline models and a Chain-of-Thought (CoT) approach using manually collected datasets. The results demonstrate significant improvements in accuracy and contextual relevance, with our approach achieving up to 90\% accuracy and high GPT-4 scores. Additional validation through real-world pilot studies further confirmed the practical benefits of our method, highlighting its potential to transform agricultural practices and decision-making.
翻訳日:2024-08-19 04:27:34 公開日:2024-07-30
# ニューラルフォッグを超えて:交流最適潮流の解釈可能な学習

Beyond the Neural Fog: Interpretable Learning for AC Optimal Power Flow ( http://arxiv.org/abs/2408.05228v1 )

ライセンス: Link先を確認
Salvador Pineda, Juan Pérez-Ruiz, Juan Miguel Morales, (参考訳) AC最適電力流(AC-OPF)問題は電力系統の運用には不可欠であるが、その非凸性は解決を困難にしている。 広く用いられている単純化は、線形化されたDC最適電力流(DC-OPF)問題であり、これは大域的最適性に解決できるが、その最適解は常に元のAC-OPF問題では実現できない。 近年,より高速な計算時間でAC-OPF問題を解決するニューラルネットワーク(NN)が導入されている。 しかし、これらの手法は広範なデータセットを必要とし、訓練が困難であり、しばしばブラックボックスと見なされるため、より透明で解釈可能なソリューションを好むオペレーターの抵抗に繋がる。 本稿では,従来の近似手法とブラックボックス学習手法の橋渡しとして,シンプルさと解釈性を融合した新しい学習ベースアプローチを提案する。 我々のアプローチは演算子に対して透明性を提供するだけでなく、競争精度も達成します。 各種電力ネットワークにおける数値的な結果から,トレーニングデータセットが制限された場合,我々の手法がニューラルネットワークの精度に匹敵し,しばしば超える精度を提供することが示された。

The AC optimal power flow (AC-OPF) problem is essential for power system operations, but its non-convex nature makes it challenging to solve. A widely used simplification is the linearized DC optimal power flow (DC-OPF) problem, which can be solved to global optimality, but whose optimal solution is always infeasible in the original AC-OPF problem. Recently, neural networks (NN) have been introduced for solving the AC-OPF problem at significantly faster computation times. However, these methods necessitate extensive datasets, are difficult to train, and are often viewed as black boxes, leading to resistance from operators who prefer more transparent and interpretable solutions. In this paper, we introduce a novel learning-based approach that merges simplicity and interpretability, providing a bridge between traditional approximation methods and black-box learning techniques. Our approach not only provides transparency for operators but also achieves competitive accuracy. Numerical results across various power networks demonstrate that our method provides accuracy comparable to, and often surpassing, that of neural networks, particularly when training datasets are limited.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-30
# 人間のための歌詞の書き起こし:可読性を考慮したベンチマーク

Lyrics Transcription for Humans: A Readability-Aware Benchmark ( http://arxiv.org/abs/2408.06370v1 )

ライセンス: Link先を確認
Ondřej Cífka, Hendrik Schreiber, Luke Miner, Fabian-Robert Stöter, (参考訳) 人間の消費のために歌詞を書き下すには、単語のシーケンスを正確にキャプチャするだけでなく、句読点とフォーマッティングを組み込んで明確化し、文脈情報を伝える必要がある。 これには、歌の構造、感情的な強調、リードとバックグラウンドのボーカルのコントラストが含まれる。 自動合成文字起こし(ALT)システムは、構造化されていない単語の文字列を生成でき、より広い文脈で描画できるが、ALTベンチマークはペースを保っておらず、単語のみに集中し続けている。 このギャップに対処するために、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。 ベンチマークでは、歌詞の書き起こしとフォーマッティングの業界標準に準拠したJamendoLyricsデータセットの完全な改訂と、歌詞固有のニュアンスをキャプチャして評価するための評価指標が特徴で、歌詞の可読性の向上の基礎となっている。 このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。

Writing down lyrics for human consumption involves not only accurately capturing word sequences, but also incorporating punctuation and formatting for clarity and to convey contextual information. This includes song structure, emotional emphasis, and contrast between lead and background vocals. While automatic lyrics transcription (ALT) systems have advanced beyond producing unstructured strings of words and are able to draw on wider context, ALT benchmarks have not kept pace and continue to focus exclusively on words. To address this gap, we introduce Jam-ALT, a comprehensive lyrics transcription benchmark. The benchmark features a complete revision of the JamendoLyrics dataset, in adherence to industry standards for lyrics transcription and formatting, along with evaluation metrics designed to capture and assess the lyric-specific nuances, laying the foundation for improving the readability of lyrics. We apply the benchmark to recent transcription systems and present additional error analysis, as well as an experimental comparison with a classical music dataset.
翻訳日:2024-08-19 03:47:26 公開日:2024-07-30
# 片頭痛関連網膜微小血管と神経の鑑別 : 深層学習に基づく横断的研究

Discriminating retinal microvascular and neuronal differences related to migraines: Deep Learning based Crossectional Study ( http://arxiv.org/abs/2408.07293v1 )

ライセンス: Link先を確認
Feilong Tang, Matt Trinh, Annita Duong, Angelica Ly, Fiona Stapleton, Zhe Chen, Zongyuan Ge, Imran Razzak, (参考訳) ミグライン(Migraine)は、神経障害や微小血管障害を示唆する様々な眼症状と関連付けられている。 しかし、網膜イメージングが片頭痛と片頭痛とを区別する範囲は限定されている。 本研究では、畳み込みニューラルネットワークをカラー・ファンドス・フォトグラフィ(CFP)と光コヒーレンス・トモグラフィー(OCT)データに適用し、従来のヒトによる網膜イメージングの解釈では明らかでない網膜の差を調べる。 369例と336例のCFP1型(後極)と2型(視神経頭)の観察データをそれぞれ分析した。 全ての被験者は両側に正常な視神経とマキュラを有し、網膜にかかわる疾患は無かった。 CFP画像はOCTデフォルトのONH測定と結合し、VGG-16、ResNet-50、Inceptionv3という3つの畳み込みニューラルネットワークを介して入力された。 その結果,片頭痛と片頭痛の鑑別成績は,網膜微小血管像と神経画像所見を用いて評価された。 CFPタイプ1データを用いて、差別(AUC [95% CI])は高い(0.84 [0.8, 0.88] から 0.87 [0.84, 0.91] であり、VGG-16、ResNet-50、Inceptionv3と大きく異なるものではない。 CFPタイプ2[ONH]データを用いて、差別を減らし、貧弱から公正(0.69[0.62, 0.77]から0.74[0.67, 0.81])まで範囲を拡大した。 OCTのデフォルトONH測定はモデル性能に大きく寄与しなかった。 クラスアクティベーションマップ (CAM) では, 副血管アーケードが興味のある領域であることを強調した。 その結果,片頭痛の個体は片頭痛の個体と比較して神経学的差異よりも微小血管の差が大きいことが示唆された。

Migraine, a prevalent neurological disorder, has been associated with various ocular manifestations suggestive of neuronal and microvascular deficits. However, there is limited understanding of the extent to which retinal imaging may discriminate between individuals with migraines versus without migraines. In this study, we apply convolutional neural networks to color fundus photography (CFP) and optical coherence tomography (OCT) data to investigate differences in the retina that may not be apparent through traditional human-based interpretations of retinal imaging. Retrospective data of CFP type 1 [posterior pole] and type 2 [optic nerve head (ONH)] from 369 and 336 participants respectively were analyzed. All participants had bilaterally normal optic nerves and maculae, with no retinal-involving diseases. CFP images were concatenated with OCT default ONH measurements, then inputted through three convolutional neural networks - VGG-16, ResNet-50, and Inceptionv3. The primary outcome was performance of discriminating between with migraines versus without migraines, using retinal microvascular and neuronal imaging characteristics. Using CFP type 1 data, discrimination (AUC [95% CI]) was high (0.84 [0.8, 0.88] to 0.87 [0.84, 0.91]) and not significantly different between VGG-16, ResNet-50, and Inceptionv3. Using CFP type 2 [ONH] data, discrimination was reduced and ranged from poor to fair (0.69 [0.62, 0.77] to 0.74 [0.67, 0.81]). OCT default ONH measurements overall did not significantly contribute to model performance. Class activation maps (CAMs) highlighted that the paravascular arcades were regions of interest. The findings suggest that individuals with migraines demonstrate microvascular differences more so than neuronal differences in comparison to individuals without migraines.
翻訳日:2024-08-19 03:35:49 公開日:2024-07-30
# 実世界ヒューマノイドロボットのための多モード全体制御の学習

Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots ( http://arxiv.org/abs/2408.07295v1 )

ライセンス: Link先を確認
Pranay Dugar, Aayam Shrestha, Fangzhou Yu, Bart van Marum, Alan Fern, (参考訳) そこで我々は,MHC (Masked Humanoid Controller) を導入し,ヒューマノイド状態変数の任意の部分集合上での目標軌道の全体追跡を行う。 これにより、ビデオ、モーションキャプチャ、VRといった様々なソースから全身の動きを実現することができ、障害に対するバランスと堅牢性を確保することができる。 MHCは、事前訓練されたポリシーのロールアウト、最適化された基準軌跡、再ターゲットされたビデオクリップ、人間のモーションキャプチャーデータにまたがる行動のライブラリから部分的にマスクされた動きを模倣する、慎重に設計されたカリキュラムを使用してシミュレーションで訓練されている。 本稿では、MHCが部分的に特定された目標運動から多種多様な動作を実行する能力を検証したシミュレーション実験を紹介する。 さらに、Digitoのヒューマノイドロボットの現実世界での試行で実証されたシム・トゥ・リアル・トランスファーも強調する。 我々の知る限りでは、このような多様なマルチモーダルターゲットに対して、現実世界のヒューマノイドの全身制御を実現することができる学習コントローラとしては、これが初めてである。

We introduce the Masked Humanoid Controller (MHC) for whole-body tracking of target trajectories over arbitrary subsets of humanoid state variables. This enables the realization of whole-body motions from diverse sources such as video, motion capture, and VR, while ensuring balance and robustness against disturbances. The MHC is trained in simulation using a carefully designed curriculum that imitates partially masked motions from a library of behaviors spanning pre-trained policy rollouts, optimized reference trajectories, re-targeted video clips, and human motion capture data. We showcase simulation experiments validating the MHC's ability to execute a wide variety of behavior from partially-specified target motions. Moreover, we also highlight sim-to-real transfer as demonstrated by real-world trials on the Digit humanoid robot. To our knowledge, this is the first instance of a learned controller that can realize whole-body control of a real-world humanoid for such diverse multi-modal targets.
翻訳日:2024-08-19 03:35:49 公開日:2024-07-30
# プロンプト・エンジニアリング・インターベンションが大学生のAI自己効力,AI知識,およびプロンプト・エンジニアリング能力に及ぼす影響:混合手法による研究

Effects of a Prompt Engineering Intervention on Undergraduate Students' AI Self-Efficacy, AI Knowledge and Prompt Engineering Ability: A Mixed Methods Study ( http://arxiv.org/abs/2408.07302v1 )

ライセンス: Link先を確認
David James Woo, Deliang Wang, Tim Yung, Kai Guo, (参考訳) プロンプトエンジニアリングはChatGPTのような大規模言語モデル(LLM)との効果的な相互作用において重要である。 しかし、この技術を学生に教える努力は限られている。 本研究は、学生のAI自己効力、AI知識、効果的なプロンプト作成能力に対する影響を考察し、迅速な工学的介入を設計、実施した。 この介入には、香港の大学の歴史講習会で100分間のワークショップに参加した27人の学生が参加した。 ワークショップの間、学生はエンジニアリング戦略の推進のために紹介され、コースの最終エッセイタスクの計画に応募した。 複数のデータソースが収集され, 学生の作業前・作業後アンケートに対する回答, 作業前・作業後プロンプトライブラリ, リフレクションが得られた。 研究の結果、学生はより高いレベルのAI自己効力、AI概念の理解の強化、介入による迅速なエンジニアリングスキルの向上が示された。 これらの知見は、AIリテラシー教育に影響を及ぼし、特定の高等教育のユースケースにおいて、迅速なエンジニアリングトレーニングの重要性を強調している。 これは、見苦しい、直感的に学ぶ学生から、エンジニアのプロンプトへの大きなシフトである。 工学教育を迅速に進めることで、教育者は学生の効果的なナビゲーションを円滑にし、LLMを活用してコースを支援することができる。

Prompt engineering is critical for effective interaction with large language models (LLMs) such as ChatGPT. However, efforts to teach this skill to students have been limited. This study designed and implemented a prompt engineering intervention, examining its influence on undergraduate students' AI self-efficacy, AI knowledge, and proficiency in creating effective prompts. The intervention involved 27 students who participated in a 100-minute workshop conducted during their history course at a university in Hong Kong. During the workshop, students were introduced to prompt engineering strategies, which they applied to plan the course's final essay task. Multiple data sources were collected, including students' responses to pre- and post-workshop questionnaires, pre- and post-workshop prompt libraries, and written reflections. The study's findings revealed that students demonstrated a higher level of AI self-efficacy, an enhanced understanding of AI concepts, and improved prompt engineering skills because of the intervention. These findings have implications for AI literacy education, as they highlight the importance of prompt engineering training for specific higher education use cases. This is a significant shift from students haphazardly and intuitively learning to engineer prompts. Through prompt engineering education, educators can faciitate students' effective navigation and leverage of LLMs to support their coursework.
翻訳日:2024-08-19 03:35:49 公開日:2024-07-30
# WebApp1K:Webアプリ開発のための実用的なコード生成ベンチマーク

WebApp1K: A Practical Code-Generation Benchmark for Web App Development ( http://arxiv.org/abs/2408.00019v1 )

ライセンス: Link先を確認
Yi Cui, (参考訳) 我々は,LLMによるWebアプリ開発能力を測定するための,実用的なコード生成ベンチマークであるWebApp1Kを紹介する。 このベンチマークは、LCM出力の校正と、モデルのコードの正しさと機能の漸進的な改善を支援することを目的としている。 ベンチマークは軽量で、実行も簡単です。 我々は、WebApp1Kの初期バージョンを示し、最新のフロンティアLSMに対してベンチマークを実行した結果を共有します。 まず、オープンソースのLLMは、GPT-4oとClaude 3.5に追随して、素晴らしいパフォーマンスを提供する。 第二に、モデルのサイズはコードの正確性と強い相関関係がある。 第3に、すべてのモデルで、または単一のモデルで、パフォーマンスを上げるプロンプト技術は見出されていない。

We introduce WebApp1K, a practical code-generation benchmark to measure LLM ability to develop web apps. This benchmark aims to calibrate LLM output and aid the models to progressively improve code correctness and functionality. The benchmark is lightweight and easy to run. We present the initial version of WebApp1K, and share our findings of running the benchmark against the latest frontier LLMs. First, open source LLMs deliver impressive performance, closely trailing behind GPT-4o and Claude 3.5. Second, model size has strong correlation with code correctness. Third, no prompting techniques have been found to lift performance either universally to all models, or significantly to a single model.
翻訳日:2024-08-05 00:36:46 公開日:2024-07-30
# 非拘束映像における時間的グラウンドインストラクショナルダイアグラム

Temporally Grounding Instructional Diagrams in Unconstrained Videos ( http://arxiv.org/abs/2407.12066v3 )

ライセンス: Link先を確認
Jiahao Zhang, Frederic Z. Zhang, Cristian Rodriguez, Yizhak Ben-Shabat, Anoop Cherian, Stephen Gould, (参考訳) ビデオ中の命令図の形式でクエリのシーケンスを同時にローカライズするという課題について検討する。 これは個々のクエリだけでなく、相互関係も理解する必要がある。 しかし、既存のほとんどの手法は、汎用的な相互排他性や時間的順序といったクエリの固有の構造を無視して、一度に1つのクエリを基底にすることに焦点を当てている。 これにより、異なるステップダイアグラムの予測タイムパンが著しく重複したり、時間順序に反したりし、精度を損なう可能性がある。 本稿では,一連のステップ図を同時に構築することにより,この問題に対処する。 具体的には、ステップダイアグラムの視覚的特徴と学習可能な定数の位置埋め込みとを徹底的に組み合わせて構築した複合クエリを提案する。 コンテントの特徴が異なる複合クエリ間の自己アテンションが抑制され,予測の時間的重複が減少するのに対して,クロスアテンションはコンテンツと位置ジョイントガイダンスによって時間的ミスアライメントを補正する。 ステップダイアグラムのグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。

We study the challenging problem of simultaneously localizing a sequence of queries in the form of instructional diagrams in a video. This requires understanding not only the individual queries but also their interrelationships. However, most existing methods focus on grounding one query at a time, ignoring the inherent structures among queries such as the general mutual exclusiveness and the temporal order. Consequently, the predicted timespans of different step diagrams may overlap considerably or violate the temporal order, thus harming the accuracy. In this paper, we tackle this issue by simultaneously grounding a sequence of step diagrams. Specifically, we propose composite queries, constructed by exhaustively pairing up the visual content features of the step diagrams and a fixed number of learnable positional embeddings. Our insight is that self-attention among composite queries carrying different content features suppress each other to reduce timespan overlaps in predictions, while the cross-attention corrects the temporal misalignment via content and position joint guidance. We demonstrate the effectiveness of our approach on the IAW dataset for grounding step diagrams and the YouCook2 benchmark for grounding natural language queries, significantly outperforming existing methods while simultaneously grounding multiple queries.
翻訳日:2024-08-02 13:45:15 公開日:2024-07-30
# イマジネーションを実践する:モデルに基づく強化学習における想像軌道を信頼する時

Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning ( http://arxiv.org/abs/2105.05716v6 )

ライセンス: Link先を確認
Adrian Remonda, Eduardo Veas, Granit Luzhnica, (参考訳) モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。 モデルのフォワード適用は、期待される報酬を最大化する候補アクションのセットを最適化するために使用される想像軌道(行動系列、予測状態逆)と呼ばれるものをもたらす。 MBRLはモデル予測制御(MPC)に頼り、スクラッチから連続的に再計画し、計算コストが大幅に増加し、より長い水平線でタスクの複雑さが増大することでこれを克服する。 提案手法は,今後の計画行動が信頼でき,許容できる報酬を得られるかどうかを評価するための,仮想軌道のオンライン評価のための不確実性評価手法である。 これらの手法には、最終動作の実行後のエラーと標準予測エラーを比較し、モデル不確実性を用いて予測結果から逸脱を評価することが含まれる。 さらに,計画の残りが期待結果と一致しているかを評価するために,ダイナミックスモデルの前方伝播を利用した手法を導入し,その効果を期待報酬の観点から評価する。 本実験では,MBRL設定における不確実性評価手法の有効性を,不必要な軌道変更を避けるために適用した。 その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。

Model-based reinforcement learning (MBRL) aims to learn model(s) of the environment dynamics that can predict the outcome of its actions. Forward application of the model yields so called imagined trajectories (sequences of action, predicted state-reward) used to optimize the set of candidate actions that maximize expected reward. The outcome, an ideal imagined trajectory or plan, is imperfect and typically MBRL relies on model predictive control (MPC) to overcome this by continuously re-planning from scratch, incurring thus major computational cost and increasing complexity in tasks with longer receding horizon. We propose uncertainty estimation methods for online evaluation of imagined trajectories to assess whether further planned actions can be trusted to deliver acceptable reward. These methods include comparing the error after performing the last action with the standard expected error and using model uncertainty to assess the deviation from expected outcomes. Additionally, we introduce methods that exploit the forward propagation of the dynamics model to evaluate if the remainder of the plan aligns with expected results and assess the remainder of the plan in terms of the expected reward. Our experiments demonstrate the effectiveness of the proposed uncertainty estimation methods by applying them to avoid unnecessary trajectory replanning in a shooting MBRL setting. Results highlight significant reduction on computational costs without sacrificing performance.
翻訳日:2024-08-01 22:39:37 公開日:2024-07-30
# NU-AIR -- 歩行者と車両の検出と位置決定のためのニューロモルフィックな都市空域データセット

NU-AIR -- A Neuromorphic Urban Aerial Dataset for Detection and Localization of Pedestrians and Vehicles ( http://arxiv.org/abs/2302.09429v3 )

ライセンス: Link先を確認
Craig Iaboni, Thomas Kelly, Pramod Abichandani, (参考訳) 本稿では,都市環境を走行する歩行者や車両を捕捉する,オープンソースの空中ニューロモルフィックデータセットを提案する。 NU-AIRと題されたこのデータセットは、70.75分間のイベント映像を640 x 480の分解能ニューロモルフィックセンサーで取得し、都市環境で動作している四極子に装着する。 歩行者の群衆、様々な種類の車両、繁華な都市環境を特徴とするストリートシーンは、異なる標高と照明条件で撮影されている。 録音に含まれる車両や歩行者の手動拘束ボックスアノテーションは30Hzの周波数で提供され、合計93,204個のラベルが得られた。 データセットの忠実度の評価は、3つのスパイキングニューラルネットワーク(SNN)の包括的なアブレーション研究と10のディープニューラルネットワーク(DNN)のトレーニングを通じて行われ、データセットと対応するアノテーションの品質と信頼性が検証される。 データをVoxelizeし、その後SNN/DNNをトレーニングするすべてのデータとPythonコードがオープンソース化された。

This paper presents an open-source aerial neuromorphic dataset that captures pedestrians and vehicles moving in an urban environment. The dataset, titled NU-AIR, features 70.75 minutes of event footage acquired with a 640 x 480 resolution neuromorphic sensor mounted on a quadrotor operating in an urban environment. Crowds of pedestrians, different types of vehicles, and street scenes featuring busy urban environments are captured at different elevations and illumination conditions. Manual bounding box annotations of vehicles and pedestrians contained in the recordings are provided at a frequency of 30 Hz, yielding 93,204 labels in total. Evaluation of the dataset's fidelity is performed through comprehensive ablation study for three Spiking Neural Networks (SNNs) and training ten Deep Neural Networks (DNNs) to validate the quality and reliability of both the dataset and corresponding annotations. All data and Python code to voxelize the data and subsequently train SNNs/DNNs has been open-sourced.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# 火星の時系列が明らかになった:因子的変分オートエンコーダを用いたマルチスケールネスト型アプローチ

Martian time-series unraveled: A multi-scale nested approach with factorial variational autoencoders ( http://arxiv.org/abs/2305.16189v4 )

ライセンス: Link先を確認
Ali Siahkoohi, Rudy Morel, Randall Balestriero, Erwan Allys, Grégory Sainton, Taichi Kawamura, Maarten V. de Hoop, (参考訳) 教師なしのソース分離は、ミキシング演算子を通じて記録された未知のソース信号のセットを解き放ち、ソースに関する事前知識が限定され、信号混合のデータセットのみにアクセスする。 この問題は本質的に不適切であり、惑星の宇宙ミッションの時系列データから得られる様々な時間スケールによってさらに問題視されている。 そのため、異なる時間スケールでソースを特定し、分離するためには、体系的なマルチスケールの教師なしアプローチが必要である。 既存のメソッドは、通常、選択されたウィンドウサイズに依存して、操作の時間スケールを決定し、マルチスケールソースを扱う能力を制限する。 そこで本稿では,非ガウス的確率過程の低次元表現を提供するウェーブレット散乱スペクトルを利用して,教師なしマルチスケールクラスタリングとソース分離の枠組みを提案する。 この表現空間に内在し、異なる時間スケールで確率的にソースをクラスタリングするように訓練された因子的変分オートエンコーダを開発する。 ソース分離を行うために,因子変動オートエンコーダを用いて得られた複数のタイムスケールのクラスタからのサンプルを事前情報として使用し,ウェーブレット散乱スペクトル表現空間における最適化問題を定式化する。 火星でのNASA InSightミッションで記録されたすべての地震観測データに、時間スケールで大きく異なるソースを含むと、我々のアプローチは、例えば、分長の片側パルス(グリッチと呼ばれる)や、通常数分間続く大気活動から生じる環境騒音を解き、孤立したソースについてさらなる調査を行う機会を提供する。

Unsupervised source separation involves unraveling an unknown set of source signals recorded through a mixing operator, with limited prior knowledge about the sources, and only access to a dataset of signal mixtures. This problem is inherently ill-posed and is further challenged by the variety of timescales exhibited by sources in time series data from planetary space missions. As such, a systematic multi-scale unsupervised approach is needed to identify and separate sources at different timescales. Existing methods typically rely on a preselected window size that determines their operating timescale, limiting their capacity to handle multi-scale sources. To address this issue, we propose an unsupervised multi-scale clustering and source separation framework by leveraging wavelet scattering spectra that provide a low-dimensional representation of stochastic processes, capable of distinguishing between different non-Gaussian stochastic processes. Nested within this representation space, we develop a factorial variational autoencoder that is trained to probabilistically cluster sources at different timescales. To perform source separation, we use samples from clusters at multiple timescales obtained via the factorial variational autoencoder as prior information and formulate an optimization problem in the wavelet scattering spectra representation space. When applied to the entire seismic dataset recorded during the NASA InSight mission on Mars, containing sources varying greatly in timescale, our approach disentangles such different sources, e.g., minute-long transient one-sided pulses (known as "glitches") and structured ambient noises resulting from atmospheric activities that typically last for tens of minutes, and provides an opportunity to conduct further investigations into the isolated sources.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# 次世代マルチコア光ファイバーを用いた高速オープン量子系の非マルコビアン性

Non-Markovianity in High-Dimensional Open Quantum Systems using Next-generation Multicore Optical Fibers ( http://arxiv.org/abs/2308.00094v2 )

ライセンス: Link先を確認
Santiago Rojas-Rojas, Daniel Martínez, Kei Sawada, Luciano Pereira, Stephen P. Walborn, Esteban S. Gómez, Nadja K. Bernardes, Gustavo Lima, (参考訳) 量子技術の出現に伴い、量子システムによるコミュニケーションタスクへの関心は、学術と産業の両方において高まっている。 それでも、現実のシナリオにおける量子状態の伝達は環境ノイズに縛られ、量子チャネルはオープンな量子システムである。 本研究では, 環境相互作用を量子演算として特徴付けることで, マルチコア光ファイバにおける高次元非マルコフ開量子系について検討する。 実験プラットフォームは現在、光ファイバー通信の空間分割多重化のための最先端技術であり、高次元量子通信のための堅牢なチャネルとして機能することができる。 チャネルをテストするために、我々は準備と測定のシナリオで量子通信タスクを実行する。 このシステムのマルコフ的でない性質は量子Vaultプロトコルの実装によって実証される。 マルチコアファイバにおける位相ノイズのより深い理解は、世界中の通信通信速度を向上する主要な候補であるため、いくつかの実世界の通信プロトコルの安定性と品質を向上させる可能性がある。

With the advent of quantum technology, the interest in communication tasks assisted by quantum systems has increased both in academia and industry. Nonetheless, the transmission of a quantum state in real-world scenarios is bounded by environmental noise, so that the quantum channel is an open quantum system. In this work, we study a high dimensional non-Markovian open quantum system in a multi-core optical fiber by characterizing the environmental interaction as quantum operations, which here correspond to phase flips between pairs of computational basis states. The experimental platform is currently state-of-the-art for space division multiplexing optical fiber communication, which can serve as a robust channel for high-dimensional quantum communication. To test the channel, we perform a quantum communication task in the prepare-and-measure scenario. The non-Markovian nature of the system is demonstrated by implementing a Quantum Vault protocol. A better understanding of the phase noise in multi-core fibers could improve the stability and quality of several real-world communication protocols since they are a prime candidate to increase the telecom data transmission rate worldwide.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# コードモデルに基づく単体テストケース生成のためのドメイン適応

Domain Adaptation for Code Model-based Unit Test Case Generation ( http://arxiv.org/abs/2308.08033v3 )

ライセンス: Link先を確認
Jiho Shin, Sepehr Hashtroudi, Hadi Hemmati, Song Wang, (参考訳) 近年,単体テストケースの自動生成のためのディープラーニングベースのテストケース生成手法が提案されている。 本研究では、Transformerベースのコードモデルを用いて、ドメイン適応(DA)の助けを借りて、プロジェクトレベルで単体テストを生成する。 具体的には、ソースコードデータに基づいて訓練された比較的小さな言語モデルであるCodeT5を使用し、それをテスト生成タスクで微調整します。 そして、プロジェクト固有の知識(プロジェクトレベルのDA)を学習するために、各対象プロジェクトデータにドメイン適応を適用します。 Methods2testデータセットを使用してテスト生成タスクにCodeT5を微調整し、Defects4jデータセットをプロジェクトレベルのドメイン適応と評価に使用します。 私たちは我々のアプローチと比べる (a) DAなしでテスト生成を微調整したCodeT5 (b)A3Testツール、および (c)Defects4jデータセットから5つのプロジェクトでのGPT-4。 その結果,DAを用いて生成した試験は,線量18.62%,19.88%,18.02%に増加し,突然変異率は16.45%,16.01%,12.99%に増加した。 (a) (b)及び (c)それぞれ基準値。 全体的な結果は、パース率、コンパイル率、BLEU、CodeBLEUといったメトリクスの一貫性のある改善を示している。 また,EvoSuiteなどの既存の検索ベーステスト生成ツールと相補的な手法として,平均34.42%と6.8%で,ラインカバレッジと突然変異スコアをそれぞれ増加させる方法を示した。

Recently, deep learning-based test case generation approaches have been proposed to automate the generation of unit test cases. In this study, we leverage Transformer-based code models to generate unit tests with the help of Domain Adaptation (DA) at a project level. Specifically, we use CodeT5, a relatively small language model trained on source code data, and fine-tune it on the test generation task. Then, we apply domain adaptation to each target project data to learn project-specific knowledge (project-level DA). We use the Methods2test dataset to fine-tune CodeT5 for the test generation task and the Defects4j dataset for project-level domain adaptation and evaluation. We compare our approach with (a) CodeT5 fine-tuned on the test generation without DA, (b) the A3Test tool, and (c) GPT-4 on five projects from the Defects4j dataset. The results show that tests generated using DA can increase the line coverage by 18.62%, 19.88%, and 18.02% and mutation score by 16.45%, 16.01%, and 12.99% compared to the above (a), (b), and (c) baselines, respectively. The overall results show consistent improvements in metrics such as parse rate, compile rate, BLEU, and CodeBLEU. In addition, we show that our approach can be seen as a complementary solution alongside existing search-based test generation tools such as EvoSuite, to increase the overall coverage and mutation scores with an average of 34.42% and 6.8%, for line coverage and mutation score, respectively.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# 言語モデルの事前学習における学習曲線の特徴--学習・予測・安定性

Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability ( http://arxiv.org/abs/2308.15419v2 )

ライセンス: Link先を確認
Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen, (参考訳) 事前学習中に、言語モデルはどのように予測を学習するか? そこで本研究では,5つの自己回帰型英語モデルから学習曲線を抽出し,文脈における100万個の未確認トークンについて検討する。 より長く一貫性のあるテキストを生成するために学習する前に,言語モデルが短い反復句を生成するのを観察する。 また、個別のトークンは、トレーニング前の実行中に驚くほど一貫性のある、突然の増加または損失の減少を示すことが多いこともわかりました。 これらの変動をよりよく理解するために、個々のトークンに対する学習曲線の最終的な前提、内部変動、取得年齢、忘れやすさ、および相互変動の定量化を行う。 より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。 高いn-gram確率はこれらの効果をさらに強調する。 ターゲットトークンとは独立して、より短く頻繁なコンテキストは、より安定で素早く取得された予測と相関する。 そこで本研究では,異なるモデル能力間での逐次学習依存性の存在を論じ,言語モデル学習を,末尾n-gram予測の段階的洗練前の早期n-gram学習として特徴づける。

How do language models learn to make predictions during pre-training? To study this, we extract learning curves from five autoregressive English language model pre-training runs, for 1M unseen tokens in context. We observe that the language models generate short repetitive phrases before learning to generate longer and more coherent text. We also find that individual tokens often exhibit sudden increases or decreases in loss that are surprisingly consistent across pre-training runs. To better understand these fluctuations, we quantify the final surprisal, within-run variability, age of acquisition, forgettability, and cross-run variability of learning curves for individual tokens in context. More frequent tokens reach lower final surprisals, exhibit less variability within and across pre-training runs, are learned earlier, and are less likely to be "forgotten" during pre-training. Higher n-gram probabilities further accentuate these effects. Independent of the target token, shorter and more frequent contexts correlate with marginally more stable and quickly acquired predictions. Based on our results, we argue for the existence of sequential learning dependencies between different model capabilities, and we characterize language model learning as early n-gram learning before gradual refinement of tail n-gram predictions.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# 授業におけるデータ分析の意義 : 理科の授業を通して

In-class Data Analysis Replications: Teaching Students while Testing Science ( http://arxiv.org/abs/2308.16491v2 )

ライセンス: Link先を確認
Kristina Gligoric, Tiziano Piccardi, Jake Hofman, Robert West, (参考訳) 科学は再現可能性の危機に直面している。 従来の研究では、潜在的な解決策としてデータ分析のレプリケーションを教室に組み込むことが提案されている。 しかし、潜在的な利点にもかかわらず、このアプローチが実現可能かどうかは不明であり、もしそうであったとしても、利害関係者や教育者、科学者が何を期待するかは明らかではない。 生徒は授業中にデータ分析のレプリケーションを実行できますか? 教育者にとってのコストとメリットは何でしょう? そして、このソリューションは科学の状態のベンチマークと改善にどのように役立つのか? 本研究では,EPFL(N=354人)で教えられた応用データ分析コース(CS-401)のプロジェクトコンポーネントにデータ解析の複製を組み込んだ。 本報告では, コース全体を通して実施した調査に基づいて, 事前登録した調査結果について報告する。 まず、学生が以前公表した科学論文を再現できることを実証する。 再現性に対する期待の変化とともに、学生がデータ分析の複製を期待していることと、学生の批判的思考を育むための態度転換の証拠として、学生が経験したこととの間には相違がある。 第二に、教室にレプリケーションを組み込むにはどの程度のオーバーヘッドが必要か教育者に対して情報を提供し、従来の課題と比較してレプリケーションがもたらす懸念を特定する。 第3に, 科学的研究における複製レポートの収集や複製障壁に関する洞察など, 科学コミュニティにおけるデータ分析レプリケーションの目覚ましいメリットを明らかにし, 今後は避けるべきである。 全体として、大規模なデータサイエンスクラスに複製タスクを組み込むことで、データサイエンス指導の副産物としての科学的作業の再現性が向上し、科学と学生の両方に利益をもたらすことを実証する。

Science is facing a reproducibility crisis. Previous work has proposed incorporating data analysis replications into classrooms as a potential solution. However, despite the potential benefits, it is unclear whether this approach is feasible, and if so, what the involved stakeholders-students, educators, and scientists-should expect from it. Can students perform a data analysis replication over the course of a class? What are the costs and benefits for educators? And how can this solution help benchmark and improve the state of science? In the present study, we incorporated data analysis replications in the project component of the Applied Data Analysis course (CS-401) taught at EPFL (N=354 students). Here we report pre-registered findings based on surveys administered throughout the course. First, we demonstrate that students can replicate previously published scientific papers, most of them qualitatively and some exactly. We find discrepancies between what students expect of data analysis replications and what they experience by doing them along with changes in expectations about reproducibility, which together serve as evidence of attitude shifts to foster students' critical thinking. Second, we provide information for educators about how much overhead is needed to incorporate replications into the classroom and identify concerns that replications bring as compared to more traditional assignments. Third, we identify tangible benefits of the in-class data analysis replications for scientific communities, such as a collection of replication reports and insights about replication barriers in scientific work that should be avoided going forward. Overall, we demonstrate that incorporating replication tasks into a large data science class can increase the reproducibility of scientific work as a by-product of data science instruction, thus benefiting both science and students.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# CompA:音声言語モデルにおける合成推論のギャップに対処する

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models ( http://arxiv.org/abs/2310.08753v4 )

ライセンス: Link先を確認
Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, (参考訳) 音声の基本的特徴は、その構成的性質である。 音声と言語モダリティの共有表現を学習するコントラストアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。 しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。 本稿では,ALMの合成推論を評価するために,実世界の音声サンプルの大多数を専門家がアノテートした2つのベンチマークの集合であるCompAを提案する。 提案したCompA-orderは、ALMが音声中の音響イベントの順序や発生をいかによく理解しているかを評価し、CompA-attributeは音響イベントの属性結合を評価する。 どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。 ALMは、正しい音声と正しいキャプションとの適合性を評価する。 このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。 次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。 CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。 次に,モデルが構成理解の微粒化を学習し,利用可能な構成音声の急激な不足を克服するのに役立つ,新しいモジュール型コントラスト損失を提案する。 CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。

A fundamental characteristic of audio is its compositional nature. Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP) that learns a shared representation between audio and language modalities have improved performance in many downstream applications, including zero-shot audio classification, audio retrieval, etc. However, the ability of these models to effectively perform compositional reasoning remains largely unexplored and necessitates additional research. In this paper, we propose CompA, a collection of two expert-annotated benchmarks with a majority of real-world audio samples, to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates how well an ALM understands the order or occurrence of acoustic events in audio, and CompA-attribute evaluates attribute-binding of acoustic events. An instance from either benchmark consists of two audio-caption pairs, where both audios have the same acoustic events but with different compositions. An ALM is evaluated on how well it matches the right audio to the right caption. Using this benchmark, we first show that current ALMs perform only marginally better than random chance, thereby struggling with compositional reasoning. Next, we propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to improve its compositional reasoning abilities. To train CompA-CLAP, we first propose improvements to contrastive training with composition-aware hard negatives, allowing for more focused training. Next, we propose a novel modular contrastive loss that helps the model learn fine-grained compositional understanding and overcomes the acute scarcity of openly available compositional audios. CompA-CLAP significantly improves over all our baseline models on the CompA benchmark, indicating its superior compositional reasoning capabilities.
翻訳日:2024-08-01 20:47:15 公開日:2024-07-30
# アライメントに基づく原子磁気センサのスピンノイズ分光

Spin noise spectroscopy of an alignment-based atomic magnetometer ( http://arxiv.org/abs/2312.05577v2 )

ライセンス: Link先を確認
Marcin Kozbial, Lucy Elson, Lucas M. Rushton, Ali Akbar, Adil Meraki, Kasper Jensen, Jan Kolodynski, (参考訳) 光ポンピング磁気センサ(OPM)は、小型化と小型化の両立により、非常に高感度な磁場センシングの課題に革命をもたらしている。 OPMは、それぞれ円偏光または直線偏光による光ポンピングによってスピン偏光されるスピン配向原子アンサンブルまたはスピン配向原子アンサンブルに基づいている。 OPMのキャラクタリゼーションとノイズの動的特性はリアルタイムセンシングタスクへの応用において重要である。 本研究では,アライメント型磁気センサのスピンノイズ分光実験を行った。 さらに, スピンのラーモア沈降に寄与する強磁場とは別に, 揚水ビームに沿う垂直方向に白色雑音を印加した場合に, デバイスが提示するノイズパワースペクトルを予測する確率的モデルを提案する。 入射光の線形偏光角度とともに印加される雑音の強度を変化させることで,ラーモアのスペクトルピークと対応する線幅の高さを正確に予測するモデルを検証した。 我々の研究は、アライメントベースの磁気センサがリアルタイムセンシングタスクで動作するための道を開いた。

Optically pumped magnetometers (OPMs) are revolutionising the task of magnetic-field sensing due to their extremely high sensitivity combined with technological improvements in miniaturisation which have led to compact and portable devices. OPMs can be based on spin-oriented or spin-aligned atomic ensembles which are spin-polarized through optical pumping with circular or linear polarized light, respectively. Characterisation of OPMs and the dynamical properties of their noise is important for applications in real-time sensing tasks. In our work, we experimentally perform spin noise spectroscopy of an alignment-based magnetometer. Moreover, we propose a stochastic model that predicts the noise power spectra exhibited by the device when, apart from the strong magnetic field responsible for the Larmor precession of the spin, white noise is applied in the perpendicular direction aligned with the pumping-probing beam. By varying the strength of the noise applied as well as the linear-polarisation angle of incoming light, we verify the model to accurately predict the heights of the Larmor-induced spectral peaks and their corresponding line-widths. Our work paves the way for alignment-based magnetometers to become operational in real-time sensing tasks.
翻訳日:2024-08-01 20:35:03 公開日:2024-07-30
# LLM in a flash: メモリ制限付き効率的な大言語モデル推論

LLM in a flash: Efficient Large Language Model Inference with Limited Memory ( http://arxiv.org/abs/2312.11514v3 )

ライセンス: Link先を確認
Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rastegari, Mehrdad Farajtabar, (参考訳) 大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。 しかし、特にDRAM容量が限られているデバイスでは、その相当な計算およびメモリ要件が問題となる。 本稿では,フラッシュメモリにモデルパラメータを格納することで,利用可能なDRAM容量を超えるLCMを効率的に動作させるという課題に対処する。 提案手法では,フラッシュメモリの特性を考慮した推論コストモデルの構築と,フラッシュから転送されるデータの量削減と,より連続的なチャンク内でのデータ読取量削減という,2つの重要な領域における最適化を指導する。 このハードウェアインフォームド・フレームワークには2つの主要な技術が導入されている。 第一に、"ウィンドウ"は、以前活性化されたニューロンを再利用することで、戦略的にデータ転送を減らし、第二に、フラッシュメモリのシーケンシャルなデータアクセス強度に合わせて、フラッシュメモリから読み取ったデータチャンクのサイズを増大させる。 これらの手法により、利用可能なDRAMの最大2倍のモデルの実行が可能となり、CPUとGPUの単純なロードアプローチと比較して4-5xと20-25xの推論速度が向上した。 空間認識、コンテキスト適応ロード、ハードウェア指向設計の統合は、メモリ制限のあるデバイス上でのLLMの効果的な推論方法である。

Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their substantial computational and memory requirements present challenges, especially for devices with limited DRAM capacity. This paper tackles the challenge of efficiently running LLMs that exceed the available DRAM capacity by storing the model parameters in flash memory, but bringing them on demand to DRAM. Our method involves constructing an inference cost model that takes into account the characteristics of flash memory, guiding us to optimize in two critical areas: reducing the volume of data transferred from flash and reading data in larger, more contiguous chunks. Within this hardware-informed framework, we introduce two principal techniques. First, "windowing" strategically reduces data transfer by reusing previously activated neurons, and second, "row-column bundling", tailored to the sequential data access strengths of flash memory, increases the size of data chunks read from flash memory. These methods collectively enable running models up to twice the size of the available DRAM, with a 4-5x and 20-25x increase in inference speed compared to naive loading approaches in CPU and GPU, respectively. Our integration of sparsity awareness, context-adaptive loading, and a hardware-oriented design paves the way for effective inference of LLMs on devices with limited memory.
翻訳日:2024-08-01 20:25:13 公開日:2024-07-30
# パラメトリックマトリックスモデル

Parametric Matrix Models ( http://arxiv.org/abs/2401.11694v5 )

ライセンス: Link先を確認
Patrick Cook, Danny Jammooa, Morten Hjorth-Jensen, Daniel D. Lee, Dean Lee, (参考訳) パラメトリック行列モデルと呼ばれる機械学習アルゴリズムの一般クラスを示す。 ニューロンの生物学を模倣する既存の機械学習モデルとは異なり、パラメトリック行列モデルは量子系の物理をエミュレートする行列方程式を使用する。 物理問題の解法と同様に、パラメトリック行列モデルは所望の出力につながる支配方程式を学習する。 パラメトリック行列モデルは経験的データから効率的に訓練することができ、方程式は代数的、微分的、あるいは積分的関係を用いることができる。 もともと科学計算用に設計されたが、パラメトリック行列モデルは一般的な機械学習問題に適用可能な普遍関数近似器であることが証明されている。 基礎となる理論を導入した後、パラメトリック行列モデルを幅広い問題に対してそれらの性能を示す一連の異なる課題に適用する。 ここで検証された全ての課題に対して、パラメトリック行列モデルは、入力特徴外挿を可能にする効率的で解釈可能な計算フレームワーク内で正確な結果を生成する。

We present a general class of machine learning algorithms called parametric matrix models. In contrast with most existing machine learning models that imitate the biology of neurons, parametric matrix models use matrix equations that emulate the physics of quantum systems. Similar to how physics problems are usually solved, parametric matrix models learn the governing equations that lead to the desired outputs. Parametric matrix models can be efficiently trained from empirical data, and the equations may use algebraic, differential, or integral relations. While originally designed for scientific computing, we prove that parametric matrix models are universal function approximators that can be applied to general machine learning problems. After introducing the underlying theory, we apply parametric matrix models to a series of different challenges that show their performance for a wide range of problems. For all the challenges tested here, parametric matrix models produce accurate results within an efficient and interpretable computational framework that allows for input feature extrapolation.
翻訳日:2024-08-01 20:25:13 公開日:2024-07-30
# 学習可能なウェイトとして機能を有する言語モデルエージェントのオフライントレーニング

Offline Training of Language Model Agents with Functions as Learnable Weights ( http://arxiv.org/abs/2402.11359v4 )

ライセンス: Link先を確認
Shaokun Zhang, Jieyu Zhang, Jiale Liu, Linxin Song, Chi Wang, Ranjay Krishna, Qingyun Wu, (参考訳) 研究者や実践者が最近、強力なLarge Language Models(LLM)をエージェントとして再構成し、主に特殊な関数を使って複雑なタスクを自動化した。 LLM エージェントの開発を容易にするため,LLM エージェントを LLM 重量を変更することなくトレーニングする新たなパラダイムを提案する。 静的なツールセットに適合するように我々の生物学的構造を変えるのではなく、人間が現実世界のタスクに適応するためのツールを継続的に鍛造する方法に着想を得て、我々は、LCMの重みを変更するのではなく、下流タスクをよりよく解決するために、エージェントの機能を段階的に鍛造することを提案する。 学習可能な「エージェントパラメータ」として処理し、人工知能におけるモデルトレーニングの基本的な考え方を活用することにより、エージェントの機能を更新し、エージェントトレーニングアルゴリズムを2つの戦略(ロールバックとアーリーストップ)で考案し、トレーニングプロセスを合理化するエージェントオプティマイザを開発する。 広範囲な実験により、エージェント訓練パラダイムは、様々な下流タスクにおける代表的LLMエージェントの性能を著しく向上させることができることを示した。 また、学習曲線やドメイン転送可能性といった側面に関するエージェント訓練の振る舞いについても検討する。

Researchers and practitioners have recently reframed powerful Large Language Models (LLMs) as agents, enabling them to automate complex tasks largely via the use of specialized functions. To facilitate the development of LLM agents, we present a novel paradigm of training LLM agents without modifying the LLM weights, which is particularly useful when the LLMs are difficult or inaccessible for modifications. Inspired by how humans continuously forge tools to adapt to real-world tasks, rather than change our biological structure to fit a static set of tools, we propose to progressively forge agent's functions to better solve the downstream tasks instead of modifying the LLM weights. By treating the functions as learnable `agent parameters' and leveraging the fundamental idea of model training in artificial intelligence, we develop AgentOptimizer that employs the LLM to update agents' functions and devise an agent training algorithm with two strategies, roll-back, and early-stop, to streamline the training process. With extensive experiments, we showcase that the agent training paradigm could significantly improve the performance of representative LLM agents in various downstream tasks. We also study the behavior of the agent training regarding aspects like the learning curve and domain transferability.
翻訳日:2024-08-01 20:25:13 公開日:2024-07-30
# ファウショット事例選択のためのインフォーマティブメトリックの設計

Designing Informative Metrics for Few-Shot Example Selection ( http://arxiv.org/abs/2403.03861v3 )

ライセンス: Link先を確認
Rishabh Adiga, Lakshminarayanan Subramanian, Varun Chandrasekaran, (参考訳) 事前訓練された言語モデル(PLM)は、適切にフォーマットされた例を提供すると、顕著な数ショットの学習能力を示す。 しかしながら、"ベスト"の例を選択することは、依然としてオープンな課題である。 本稿では,複雑性に基づく逐次タギングタスクのプロンプト選択手法を提案する。 このアプローチは、サンプルの選択専用のモデルのトレーニングを回避し、代わりに特定のメトリクスを使用して、テスト文や例の構文と意味の複雑さを調整する。 文レベルと単語レベルの両方のメトリクスを用いて、例の複雑さと検討中の(テスト)文とを一致させる。 GPT-4のCoNLL2003データセットのF1スコアを5%改善し,NERの最先端性能を実現した。 また、GPT-j-6Bのような小型モデルでは28.85ポイント(F1/Acc.)までの大きなゲインも見られる。

Pretrained language models (PLMs) have shown remarkable few-shot learning capabilities when provided with properly formatted examples. However, selecting the "best" examples remains an open challenge. We propose a complexity-based prompt selection approach for sequence tagging tasks. This approach avoids the training of a dedicated model for selection of examples, and instead uses certain metrics to align the syntactico-semantic complexity of test sentences and examples. We use both sentence- and word-level metrics to match the complexity of examples to the (test) sentence being considered. Our results demonstrate that our approach extracts greater performance from PLMs: it achieves state-of-the-art performance on few-shot NER, achieving a 5% absolute improvement in F1 score on the CoNLL2003 dataset for GPT-4. We also see large gains of upto 28.85 points (F1/Acc.) in smaller models like GPT-j-6B.
翻訳日:2024-08-01 20:25:13 公開日:2024-07-30
# 3Dカラーコードのマジック境界

Magic Boundaries of 3D Color Codes ( http://arxiv.org/abs/2404.05033v3 )

ライセンス: Link先を確認
Zijian Song, Guanyu Zhu, (参考訳) 本稿では,3次元カラーコードの境界について検討し,2つの新しいクラスを含む101の異なる境界タイプに分類する。 最初のクラスは1つの境界から成り、コメンジョン-1 (2D) の$T$ドメインの壁を網羅し、磁束のみを凝縮する$X$境界にアタッチすることで生成される。 $T$ドメインの壁は$X$バウンダリで凝縮できないため、境界安定化器は従来のパウリ安定化器の定式化を超えて$XS$安定化器を含み、したがって「魔法」を含む新しいマジック境界が生成される。 電気的・磁気的な励起はそのような魔法の境界に凝縮せず、磁束と余次元2(1D)$S$-ドメインの壁の合成だけが凝縮し、魔界はラグランジアン部分群の分類を超えたものとなる。 第2のクラスは70のバウンダリで構成され、余次元-1のサブマニフォールドを越えて$S$ドメインの壁を掃除し、バウンダリにアタッチすることで生成される。 これにより、交点における余次元2 (1D) のネスト境界が生成される。 また、これらの新しい境界は、以前に発見された$\mathbb{Z}_2^3$ゲージ理論の3つの3次元トーリック符号のコピーと等価であり、$S$と$T$ドメインの壁は、ゲージ付き対称性保護位相(SPT)欠陥に対応する。 新たな境界は、SPT欠陥の対応する対称性が境界上で破れていないときに生成される。 マジックバウンダリの応用には、フラクタルトポロジカルコード(英語版)の文脈でフォールトトレラントな非クリフォード論理ゲート(例えば、g)を実装することが含まれる。

We investigate boundaries of 3D color codes and provide a systematic classification into 101 distinct boundary types, including two novel classes. The first class consists of 1 boundary and is generated by sweeping the codimension-1 (2D) $T$-domain wall across the system and attaching it to the $X$-boundary that condenses only magnetic fluxes. Since the $T$-domain wall cannot condense on the $X$-boundary, a new magic boundary is produced, where the boundary stabilizers contain $XS$-stabilizers going beyond the conventional Pauli stabilizer formalism, and hence contains 'magic'. Neither electric nor magnetic excitations can condense on such a magic boundary, and only the composite of the magnetic flux and codimension-2 (1D) $S$-domain wall can condense on it, which makes the magic boundary going beyond the classification of the Lagrangian subgroup. The second class consists of 70 boundaries and is generated by sweeping the $S$-domain wall across a codimension-1 submanifold and attaching it to the boundary. This generates a codimension-2 (1D) nested boundary at the intersection. We also connect these novel boundaries to their previously discovered counterpart in the $\mathbb{Z}_2^3$ gauge theory, equivalent to three copies of 3D toric codes, where the $S$ and $T$ domain walls correspond to gauged symmetry-protected topological (SPT) defects. New boundaries are produced whenever the corresponding symmetry of the SPT defect remains unbroken on the boundary. Applications of the magic boundaries include implementing fault-tolerant non-Clifford logical gates, e.g., in the context of fractal topological codes.
翻訳日:2024-08-01 20:15:23 公開日:2024-07-30
# マルチビューX線画像合成法

Multi-view X-ray Image Synthesis with Multiple Domain Disentanglement from CT Scans ( http://arxiv.org/abs/2404.11889v2 )

ライセンス: Link先を確認
Lixing Tan, Shuang Song, Kangneng Zhou, Chengbo Duan, Lanying Wang, Huayang Ren, Linlin Liu, Wei Zhang, Ruoxiu Xiao, (参考訳) X線画像は、高分解能で高速な撮像速度のため、術中プロセスにおいて重要な役割を担い、その後のセグメンテーション、登録、再構築を大いに促進する。 しかし、過剰投与されたX線は、ある程度人間の健康への潜在的なリスクを重畳している。 ボリュームスキャンからX線画像へのデータ駆動アルゴリズムは、ペア化されたX線とボリュームデータの不足によって制限される。 既存の手法は主にX線画像全体のモデリングによって実現されている。 本研究では,CT2X-GANという学習手法を用いて,3つの異なる画像領域からのコンテンツとスタイルのゆがみを利用して,X線画像をエンドツーエンドに合成する手法を提案する。 本手法は,CTスキャンから解剖学的構造情報を分離し,非対面実X線画像/デジタル再構成ラジオグラフィ(DRR)画像から一連のデカップリングエンコーダを介してスタイル情報を抽出する。 さらに,合成X線画像と実X線画像とのスタイル的類似性を改善するために,新しい整合性正規化項を導入する。 また,実DRRと合成DRR画像の類似性を計算し,教師付き処理を行う。 我々はさらに、CTスキャンから分離されたコンテンツコードの包括的情報を強化するために、ポーズアテンションモジュールを開発し、低次元空間における高品質なマルチビュー画像合成を容易にする。 CTSpine1Kデータセットを公開し、FID、KID、定義されたX線類似度で97.8350、0.0842、3.0938を達成した。 また,CT2X-GANは3次元認識法(\pi$-GAN, EG3D)と比較して, 合成品質の向上に優れ, 現実のX線画像よりもリアルである。

X-ray images play a vital role in the intraoperative processes due to their high resolution and fast imaging speed and greatly promote the subsequent segmentation, registration and reconstruction. However, over-dosed X-rays superimpose potential risks to human health to some extent. Data-driven algorithms from volume scans to X-ray images are restricted by the scarcity of paired X-ray and volume data. Existing methods are mainly realized by modelling the whole X-ray imaging procedure. In this study, we propose a learning-based approach termed CT2X-GAN to synthesize the X-ray images in an end-to-end manner using the content and style disentanglement from three different image domains. Our method decouples the anatomical structure information from CT scans and style information from unpaired real X-ray images/ digital reconstructed radiography (DRR) images via a series of decoupling encoders. Additionally, we introduce a novel consistency regularization term to improve the stylistic resemblance between synthesized X-ray images and real X-ray images. Meanwhile, we also impose a supervised process by computing the similarity of computed real DRR and synthesized DRR images. We further develop a pose attention module to fully strengthen the comprehensive information in the decoupled content code from CT scans, facilitating high-quality multi-view image synthesis in the lower 2D space. Extensive experiments were conducted on the publicly available CTSpine1K dataset and achieved 97.8350, 0.0842 and 3.0938 in terms of FID, KID and defined user-scored X-ray similarity, respectively. In comparison with 3D-aware methods ($\pi$-GAN, EG3D), CT2X-GAN is superior in improving the synthesis quality and realistic to the real X-ray images.
翻訳日:2024-08-01 20:15:23 公開日:2024-07-30
# CriSp:犯罪現場のショットプリントマッチングを強化したトレッド深度マップ

CriSp: Leveraging Tread Depth Maps for Enhanced Crime-Scene Shoeprint Matching ( http://arxiv.org/abs/2404.16972v2 )

ライセンス: Link先を確認
Samia Shafique, Shu Kong, Charless Fowlkes, (参考訳) ショットプリントは、犯罪現場で見られる一般的なタイプの証拠であり、法医学的な調査で定期的に使用される。 しかし, 既存の手法では, トレーニングデータの不足により, 靴データベースにノイズや隠蔽された犯罪現場の靴跡をマッチングするために, ディープラーニングを効果的に活用することはできない。 さらに, 既存の手法はすべて犯罪現場の靴版と一致し, 基準印刷のクリーン化を図っているが, より情報に富んだトレッド深度マップとのマッチングにより, より優れた検索結果が得られることを示す。 マッチングタスクは、印刷物や靴のトレッドの対応する領域(ヒール、つま先等)にのみ類似性を識別する必要があるため、さらに複雑になる。 これらの課題を克服するために、オンライン小売業者の靴のトレッド画像を活用し、市販の予測器を用いて深度マップとクリーンプリントを推定する。 このデータに基づいて,犯罪現場の靴のプリントと深度マップのトレッド・デプス・マップのマッチングを行う。 CriSpには、犯罪現場の靴のプリントをシミュレートするデータ拡張、空間的に認識される特徴を学習するエンコーダ、犯罪現場のプリントの可視領域だけが検索結果に影響を与えることを保証するマスクモジュールが含まれている。 提案手法を検証するために,既存の犯罪現場の靴のデータセットを再処理し,比較のためのベンチマークプロトコルを確立することにより,2つの検証セットを導入する。 このベンチマークでは、CriSpは、このタスクに適した自動靴形マッチングと画像検索の両方において、最先端の手法を大幅に上回っている。

Shoeprints are a common type of evidence found at crime scenes and are used regularly in forensic investigations. However, existing methods cannot effectively employ deep learning techniques to match noisy and occluded crime-scene shoeprints to a shoe database due to a lack of training data. Moreover, all existing methods match crime-scene shoeprints to clean reference prints, yet our analysis shows matching to more informative tread depth maps yields better retrieval results. The matching task is further complicated by the necessity to identify similarities only in corresponding regions (heels, toes, etc) of prints and shoe treads. To overcome these challenges, we leverage shoe tread images from online retailers and utilize an off-the-shelf predictor to estimate depth maps and clean prints. Our method, named CriSp, matches crime-scene shoeprints to tread depth maps by training on this data. CriSp incorporates data augmentation to simulate crime-scene shoeprints, an encoder to learn spatially-aware features, and a masking module to ensure only visible regions of crime-scene prints affect retrieval results. To validate our approach, we introduce two validation sets by reprocessing existing datasets of crime-scene shoeprints and establish a benchmarking protocol for comparison. On this benchmark, CriSp significantly outperforms state-of-the-art methods in both automated shoeprint matching and image retrieval tailored to this task.
翻訳日:2024-08-01 20:15:23 公開日:2024-07-30
# ACE:プロセステンソルに基づく汎用的非マルコフ開量子系シミュレーションツールキット

ACE: A general-purpose non-Markovian open quantum systems simulation toolkit based on process tensors ( http://arxiv.org/abs/2405.19319v2 )

ライセンス: Link先を確認
Moritz Cygorek, Erik M. Gauger, (参考訳) オープン量子系をシミュレートするための汎用計算ツールキットについて述べる。これは、ゼロ次元量子系の合成に対して、複数の、非常に一般的な非マルコフ環境に強く結合されるような、数値的に正確な解を提供する。 プロセステンソル行列積演算子(PT-MPO)に基づいており、環境影響を効率的にカプセル化している。 このコードはいくつかのPT-MPOアルゴリズムの実装、特に独立モードからなる一般的な環境のための自動圧縮(ACE)と、一般化されたスピンボソンモデルのためのスキームを特徴としている。 後者には、周期的なPT-MPOの分割とコンカヤスキームが含まれており、現実的なモデルのための100万のタイムステップシミュレーションを可能にしている。 PT-MPOは、異なる時間依存系のハミルトニアンを効率的に探索するために、事前計算と再利用が可能である。 それらを積み重ねて組み合わせることで、オープン量子系の小さなネットワークの数値的に完備な解が得られる。 コードはC++で記述されており、構成ファイルによって完全に制御可能である。

We describe a general-purpose computational toolkit for simulating open quantum systems, which provides numerically exact solutions for composites of zero-dimensional quantum systems that may be strongly coupled to multiple, quite general non-Markovian environments. It is based on process tensor matrix product operators (PT-MPOs), which efficiently encapsulate environment influences. The code features implementations of several PT-MPO algorithms, in particular, Automated Compression of Environments (ACE) for general environments comprised of independent modes as well as schemes for generalized spin boson models. The latter includes a divide-and-conquer scheme for periodic PT-MPOs, which enable million time step simulations for realistic models. PT-MPOs can be precalculated and reused for efficiently probing different time-dependent system Hamiltonians. They can also be stacked together and combined to provide numerically complete solutions of small networks of open quantum systems. The code is written in C++ and is fully controllable by configuration files, for which we have developed a versatile and compact human-readable format.
翻訳日:2024-08-01 20:05:33 公開日:2024-07-30
# RoseLoRA:知識編集と微調整のための事前学習言語モデルの低ランク適応

RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning ( http://arxiv.org/abs/2406.10777v2 )

ライセンス: Link先を確認
Haoyu Wang, Tianci Liu, Ruirui Li, Monica Cheng, Tuo Zhao, Jing Gao, (参考訳) 大規模コーパスで訓練された事前学習言語モデルは、様々なNLPタスクに対して強力な一般化性を示す。 特定のタスクのためにこれらのモデルを微調整するには、通常、リソース集約的な全てのパラメータを更新する必要がある。 パラメータ効率のよい微調整法(PEFT)では、LoRAファミリのような低ランク行列を導入し、いくつかのパラメータを効率的に学習する。 しかし、推論の間、これらの行列の製品は、事前訓練されたパラメータをすべて更新し、選択的な更新を必要とする知識編集のようなタスクを複雑にする。 本稿では,この課題に対処するため,新しいPEFT法を提案する。 RoseLoRAは、特定のタスクにおいて最も重要なパラメータのみを特定し、更新し、他のモデルの知識を維持しながら効率を維持する。 低ランク行列の積にスパーシリティ制約を加え、行や列の幅に変換することで、効率的かつ正確なモデル更新を確実にする。 我々の理論的解析は、行列積のそれぞれに対する空間境界の低いことを保証している。 20のデータセットにまたがる5つのベンチマークの大規模な実験により、RoseLoRAは一般的な微調整タスクと知識編集タスクの両方においてベースラインを上回っていることが示された。

Pre-trained language models, trained on large-scale corpora, demonstrate strong generalizability across various NLP tasks. Fine-tuning these models for specific tasks typically involves updating all parameters, which is resource-intensive. Parameter-efficient fine-tuning (PEFT) methods, such as the popular LoRA family, introduce low-rank matrices to learn only a few parameters efficiently. However, during inference, the product of these matrices updates all pre-trained parameters, complicating tasks like knowledge editing that require selective updates. We propose a novel PEFT method, which conducts \textbf{r}ow and c\textbf{o}lumn-wise spar\textbf{se} \textbf{lo}w-\textbf{r}ank \textbf{a}daptation (RoseLoRA), to address this challenge. RoseLoRA identifies and updates only the most important parameters for a specific task, maintaining efficiency while preserving other model knowledge. By adding a sparsity constraint on the product of low-rank matrices and converting it to row and column-wise sparsity, we ensure efficient and precise model updates. Our theoretical analysis guarantees the lower bound of the sparsity with respective to the matrix product. Extensive experiments on five benchmarks across twenty datasets demonstrate that RoseLoRA outperforms baselines in both general fine-tuning and knowledge editing tasks.
翻訳日:2024-08-01 20:05:33 公開日:2024-07-30
# 自律走行車におけるリアルタイムレーントポロジー予測のためのレーンセグネットの最適化

Optimizing LaneSegNet for Real-Time Lane Topology Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2406.15946v2 )

ライセンス: Link先を確認
William Stevens, Vishal Urs, Karthik Selvaraj, Gabriel Torres, Gaurish Lakhanpal, (参考訳) 自動運転車の普及に伴い、コンピュータビジョンアルゴリズムはリアルタイムで道路の特徴を正確に評価することが不可欠である。 本研究では,車線情報と車線データを統合して道路環境をより文脈的に理解する,車線トポロジー予測の新しいアプローチであるレーンセグネットアーキテクチャについて検討する。 LaneSegNetアーキテクチャには、機能抽出器、レーンエンコーダ、レーンデコーダ、予測ヘッドが含まれており、ResNet-50、BEVFormer、および様々な注意機構のコンポーネントを活用している。 特徴抽出器およびトランスフォーマーエンコーダ-デコーダスタック修正によるLaneSegNetアーキテクチャの最適化実験を行った。 エンコーダスタックとデコーダスタックを変更することで、トレーニング時間と予測精度の間に興味深いトレードオフが生じ、いくつかの組み合わせが有望な結果を示していることがわかった。 我々の実装は1台のNVIDIA Tesla A100 GPUでトレーニングされ、2:4の比率でトレーニング時間を22.3%削減し、平均的精度は7.1%しか低下せず、4:8の比率でトレーニング時間を11.1%向上しなかったが、平均的精度は23.7%向上した。 これらの結果から, 戦略的ハイパーパラメータチューニングは, 利用者の資源によって大幅に改善される可能性が示唆された。 この研究は、利用可能な計算能力に応じてLaneSegNetを最適化し、限られたリソースを持つユーザにとってよりアクセスしやすくし、より強力なリソースを持つユーザの能力を高めるための貴重な洞察を提供する。

With the increasing prevalence of autonomous vehicles, it is essential for computer vision algorithms to accurately assess road features in real-time. This study explores the LaneSegNet architecture, a new approach to lane topology prediction which integrates topological information with lane-line data to provide a more contextual understanding of road environments. The LaneSegNet architecture includes a feature extractor, lane encoder, lane decoder, and prediction head, leveraging components from ResNet-50, BEVFormer, and various attention mechanisms. We experimented with optimizations to the LaneSegNet architecture through feature extractor modification and transformer encoder-decoder stack modification. We found that modifying the encoder and decoder stacks offered an interesting tradeoff between training time and prediction accuracy, with certain combinations showing promising results. Our implementation, trained on a single NVIDIA Tesla A100 GPU, found that a 2:4 ratio reduced training time by 22.3% with only a 7.1% drop in mean average precision, while a 4:8 ratio increased training time by only 11.1% but improved mean average precision by a significant 23.7%. These results indicate that strategic hyperparameter tuning can yield substantial improvements depending on the resources of the user. This study provides valuable insights for optimizing LaneSegNet according to available computation power, making it more accessible for users with limited resources and increasing the capabilities for users with more powerful resources.
翻訳日:2024-08-01 20:05:33 公開日:2024-07-30
# LFFR:(単一出力)回帰のためのロジスティック関数

LFFR: Logistic Function For (single-output) Regression ( http://arxiv.org/abs/2407.09955v2 )

ライセンス: Link先を確認
John Chiang, (参考訳) 機械学習におけるプライバシ保存レグレッションは、個人のプライバシを保護しながら強力な機械学習技術の使用を可能にすることを目的とした、研究の重要な領域である。 本稿では,完全同型暗号方式で暗号化されたデータを用いて,プライバシ保護型回帰トレーニングを実装した。 まず、一般的な線形回帰アルゴリズムを検証し、線形回帰トレーニングのための(単純化された)固定ヘシアンを提案し、このアルゴリズムは、正規化されていない任意のデータセットに対しても、$[0, 1]$の範囲で適用することができる。 また、この定数 Hessian 行列をリッジ回帰版、すなわち、大きな係数をペナライズする正規化項を含む線形回帰版に一般化する。 しかし、ロジスティック関数を用いて、線形回帰と比較して入力値と出力予測の間のより複雑な関係をモデル化可能な、新しい、効率的なアルゴリズムLFFRを開発することが主な貢献である。 また、Newtonライクな手法を用いてLFFRアルゴリズムをトレーニングするために、定常的に単純化されたHessianを、2つの実世界のデータセット上の新しい固定されたHessian線形回帰トレーニングと比較する。 例えば、[5, +5]$は、暗号文の設定パラメータのリフレッシュに役立ち、正規化パラメータ$\lambda$をクロスバリデーション経由でチューニングするのを避ける。 正規化予測を伴う線形回帰はリッジ回帰の代替となる可能性がある。

Privacy-preserving regression in machine learning is a crucial area of research, aimed at enabling the use of powerful machine learning techniques while protecting individuals' privacy. In this paper, we implement privacy-preserving regression training using data encrypted under a fully homomorphic encryption scheme. We first examine the common linear regression algorithm and propose a (simplified) fixed Hessian for linear regression training, which can be applied for any datasets even not normalized into the range $[0, 1]$. We also generalize this constant Hessian matrix to the ridge regression version, namely linear regression which includes a regularization term to penalize large coefficients. However, our main contribution is to develop a novel and efficient algorithm called LFFR for homomorphic regression using the logistic function, which could model more complex relations between input values and output prediction in comparison with linear regression. We also find a constant simplified Hessian to train our LFFR algorithm using the Newton-like method and compare it against to with our new fixed Hessian linear regression training over two real-world datasets. We suggest normalizing not only the data but also the target predictions even for the original linear regression used in a privacy-preserving manner, which is helpful to remain weights in a small range, say $[-5, +5]$ good for refreshing ciphertext setting parameters, and avoid tuning the regularization parameter $\lambda$ via cross validation. The linear regression with normalized predictions could be a viable alternative to ridge regression.
翻訳日:2024-08-01 19:55:28 公開日:2024-07-30
# 臨床会話の内容からバイアス付き社会信号の自動検出に向けて

Toward Automated Detection of Biased Social Signals from the Content of Clinical Conversations ( http://arxiv.org/abs/2407.17477v2 )

ライセンス: Link先を確認
Feng Chen, Manas Satish Bedmutha, Ray-Yuan Chung, Janice Sabin, Wanda Pratt, Brian R. Wood, Nadir Weibel, Andrea L. Hartzler, Trevor Cohen, (参考訳) 過度なバイアスは患者と患者の間の相互作用を阻害し、不適切なケアにつながる。 このようなバイアスを緩和するためには、意識を高めることが重要であるが、患者と研究者のコミュニケーションの社会的ダイナミクスにおけるその顕在化は、検出が困難である。 本研究では,自動音声認識 (ASR) と自然言語処理 (NLP) を用いて患者-研究者間相互作用における社会的信号の同定を行った。 われわれは、782回のプライマリケア訪問の音声記録から社会信号を自動で予測するパイプラインを構築し、このパイプラインはコード全体で平均90.1%の精度を達成し、白人と非白人の患者の予測に公正さを示した。 このパイプラインを応用して、白と非白の患者に対する提供者コミュニケーション行動の統計的に有意な差異を同定した。 特に、提供者は、より暖かさ、エンゲージメント、注意力を含む白人患者に対してより患者中心の行動を示した。 我々の研究は、偏見と結びつき、医療の質や株式に影響を及ぼす可能性のある微妙なコミュニケーションシグナルを識別する自動化ツールの可能性を強調した。

Implicit bias can impede patient-provider interactions and lead to inequities in care. Raising awareness is key to reducing such bias, but its manifestations in the social dynamics of patient-provider communication are difficult to detect. In this study, we used automated speech recognition (ASR) and natural language processing (NLP) to identify social signals in patient-provider interactions. We built an automated pipeline to predict social signals from audio recordings of 782 primary care visits that achieved 90.1% average accuracy across codes, and exhibited fairness in its predictions for white and non-white patients. Applying this pipeline, we identified statistically significant differences in provider communication behavior toward white versus non-white patients. In particular, providers expressed more patient-centered behaviors towards white patients including more warmth, engagement, and attentiveness. Our study underscores the potential of automated tools in identifying subtle communication signals that may be linked with bias and impact healthcare quality and equity.
翻訳日:2024-08-01 19:45:44 公開日:2024-07-30
# 自己監督型早期出力による大規模言語モデル推論の高速化

Accelerating Large Language Model Inference with Self-Supervised Early Exits ( http://arxiv.org/abs/2407.21082v1 )

ライセンス: Link先を確認
Florian Valade, (参考訳) 本稿では,大規模・事前学習型言語モデル(LLM)における推論を高速化するための新しい手法を提案する。 これらのモデルの計算要求は、広範囲のアプリケーションで使用されるが、かなり大きい。 トークンの複雑さに固有の変動性を利用することで,提案手法は推論プロセスの選択的加速を可能にする。 具体的には,既存の変圧器層上に早期出口「頭」を統合することを提案する。 これらのヘッドは、モデル自身の予測をトレーニングデータとして、自己教師型の方法で訓練されるため、追加の注釈付きデータを必要としない。 キャリブレーションセットを用いて確立された信頼度計は、信頼度が所定の閾値を超えた場合に早期終了を可能とし、所望の精度を確保する。 特に,本手法は元の精度を保ち,既存の学習済みLLMの知識を活用して計算時間を短縮する。 この軽量でモジュラーな修正は、特に資源制約のある環境におけるリアルタイム言語処理のようなアプリケーションにおいて、LLMの実用性を大幅に向上させる可能性がある。

This paper presents a novel technique for accelerating inference in large, pre-trained language models (LLMs) by introducing early exits during inference. The computational demands of these models, used across a wide range of applications, can be substantial. By capitalizing on the inherent variability in token complexity, our approach enables selective acceleration of the inference process. Specifically, we propose the integration of early exit ''heads'' atop existing transformer layers, which facilitate conditional terminations based on a confidence metric. These heads are trained in a self-supervised manner using the model's own predictions as training data, thereby eliminating the need for additional annotated data. The confidence metric, established using a calibration set, ensures a desired level of accuracy while enabling early termination when confidence exceeds a predetermined threshold. Notably, our method preserves the original accuracy and reduces computational time on certain tasks, leveraging the existing knowledge of pre-trained LLMs without requiring extensive retraining. This lightweight, modular modification has the potential to greatly enhance the practical usability of LLMs, particularly in applications like real-time language processing in resource-constrained environments.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# 最適信号時間論理決定木を学習して分類する:最大フローMILP定式化

Learning Optimal Signal Temporal Logic Decision Trees for Classification: A Max-Flow MILP Formulation ( http://arxiv.org/abs/2407.21090v1 )

ライセンス: Link先を確認
Kaier Liang, Gustavo A. Cardona, Disha Kamale, Cristian-Ioan Vasile, (参考訳) 本稿では,データから時間的時間的論理特性を推定するための新しい枠組みを提案する。 このデータセットは、有限時間システムトレースと対応するラベルのペアで構成されており、船が安全な経路をたどるかどうかなど、トレースが特定の望ましい振る舞いを示すかどうかを示している。 提案手法は,信号時間論理分類器をプリミティブ式を用いて推定するために決定木に基づく手法を利用する。 我々は、データ分類と木構造の両方を決定するために制約を再帰的に生成する混合整数線形プログラミング最適化問題として推論過程を定式化する。 結果木に最大フローアルゴリズムを適用すると、この問題はグローバルな最適化課題に変換され、従来の手法と比較して分類率が改善される。 さらに,STLプリミティブに固有の対称性を利用して制約数を減らし,アルゴリズムの時間性能と解釈可能性を向上させる手法を提案する。 アルゴリズムの有効性と分類性能を評価するために,2クラス,複数クラス,複雑な式分類シナリオを含む3つのケーススタディを行った。

This paper presents a novel framework for inferring timed temporal logic properties from data. The dataset comprises pairs of finite-time system traces and corresponding labels, denoting whether the traces demonstrate specific desired behaviors, e.g. whether the ship follows a safe route or not. Our proposed approach leverages decision-tree-based methods to infer Signal Temporal Logic classifiers using primitive formulae. We formulate the inference process as a mixed integer linear programming optimization problem, recursively generating constraints to determine both data classification and tree structure. Applying a max-flow algorithm on the resultant tree transforms the problem into a global optimization challenge, leading to improved classification rates compared to prior methodologies. Moreover, we introduce a technique to reduce the number of constraints by exploiting the symmetry inherent in STL primitives, which enhances the algorithm's time performance and interpretability. To assess our algorithm's effectiveness and classification performance, we conduct three case studies involving two-class, multi-class, and complex formula classification scenarios.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# エントロピー・熱力学と言語モデルのジオメトリゼーション

Entropy, Thermodynamics and the Geometrization of the Language Model ( http://arxiv.org/abs/2407.21092v1 )

ライセンス: Link先を確認
Wenzhe Yang, (参考訳) 本稿では,純粋数学と理論物理学が言語モデル研究にどのように応用できるかを論じる。 集合論と解析を用いて、言語モデルの数学的に厳密な定義を定式化し、言語モデルに対する分布のモジュライ空間の概念を導入する。 関数解析とトポロジーを用いて一般化分布仮説を定式化する。 言語モデルに関連するエントロピー関数を定義し、それが言語における多くの興味深い現象をいかに理解できるかを示す。 エントロピー関数の零点とエントロピーが 0 に近い点が、LLM が知的言語モデルに近似する鍵となる障害であり、なぜ優れた LLM が何十億ものパラメータを必要とするのかを説明する。 エントロピー関数を用いて、AGIに関する予想を定式化する。 次に,熱力学が言語モデルに対する即時解釈をいかに提供するかを示す。 特に、分配関数、内部エネルギー、言語モデルに対する自由エネルギーの概念を定義し、言語モデルがどのように機能するかについての洞察を提供する。 これらの結果に基づき、言語モデルのジオメトリゼーションの一般的な概念を導入し、ボルツマン多様体と呼ばれるものを定義する。 現在の LLM はボルツマン多様体の特別な場合である。

In this paper, we discuss how pure mathematics and theoretical physics can be applied to the study of language models. Using set theory and analysis, we formulate mathematically rigorous definitions of language models, and introduce the concept of the moduli space of distributions for a language model. We formulate a generalized distributional hypothesis using functional analysis and topology. We define the entropy function associated with a language model and show how it allows us to understand many interesting phenomena in languages. We argue that the zero points of the entropy function and the points where the entropy is close to 0 are the key obstacles for an LLM to approximate an intelligent language model, which explains why good LLMs need billions of parameters. Using the entropy function, we formulate a conjecture about AGI. Then, we show how thermodynamics gives us an immediate interpretation to language models. In particular we will define the concepts of partition function, internal energy and free energy for a language model, which offer insights into how language models work. Based on these results, we introduce a general concept of the geometrization of language models and define what is called the Boltzmann manifold. While the current LLMs are the special cases of the Boltzmann manifold.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# Palu: 低ランクプロジェクションでKVキャッシュを圧縮する

Palu: Compressing KV-Cache with Low-Rank Projection ( http://arxiv.org/abs/2407.21118v1 )

ライセンス: Link先を確認
Chi-Chih Chang, Wei-Cheng Lin, Chien-Yu Lin, Chong-Yan Chen, Yu-Fang Hu, Pei-Shuo Wang, Ning-Chi Huang, Luis Ceze, Kai-Chiang Wu, (参考訳) KVキャッシュ圧縮法は一般的に、実効トークンのKVキャッシュをサンプリングするか、より低いビットに量子化する。 しかし、これらの手法はKVテンソルの隠れ次元の冗長性を利用することはできない。 本稿では,低ランクプロジェクションを利用した新しいKVキャッシュ圧縮フレームワークPaluについて検討する。 Paluは線形層を低ランクの行列に分解し、小さな中間状態をキャッシュし、フルキーと値をオンザフライで再構築する。 精度、圧縮速度、効率を向上させるため、Paluはさらに(1)中粒度低ランク分解方式、(2)効率的なランク探索アルゴリズム、(3)低ランク対応量子化アルゴリズム、(4)最適化GPUカーネルによるマトリックス融合を含む。 一般的なLCMを用いた大規模な実験により、Palu は KV-Cache を91.25% 以上圧縮できる一方で、最先端の KV-Cache 量子化手法よりもはるかに高い精度(最大 1.19 低いパープレキシティ)を、同じまたはそれ以上のメモリ使用量で維持できることが示された。 KVキャッシュを50%圧縮すると、Paluはアテンションモジュールのエンドツーエンドのスピードアップを最大1.61倍に向上させる。 私たちのコードはhttps://github.com/shadowpa0327/Palu.comで公開されています。

KV-Cache compression methods generally sample a KV-Cache of effectual tokens or quantize it into lower bits. However, these methods cannot exploit the redundancy of the hidden dimension of KV tensors. This paper investigates a unique hidden dimension approach called Palu, a novel KV-Cache compression framework that utilizes low-rank projection. Palu decomposes the linear layers into low-rank matrices, caches the smaller intermediate states, and reconstructs the full keys and values on the fly. To improve accuracy, compression rate, and efficiency, Palu further encompasses (1) a medium-grained low-rank decomposition scheme, (2) an efficient rank search algorithm, (3) a low-rank-aware quantization algorithm, and (4) matrix fusion with optimized GPU kernels. Our extensive experiments with popular LLMs show that Palu can compress KV-Cache by more than 91.25% while maintaining a significantly better accuracy (up to 1.19 lower perplexity) than state-of-the-art KV-Cache quantization methods at a similar or even higher memory usage. When compressing KV-Cache for 50%, Palu delivers up to 1.61x end-to-end speedup for the attention module. Our code is publicly available at https://github.com/shadowpa0327/Palu.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# 正弦波ネットワークの周波数ファクトリーのモデリング

Taming the Frequency Factory of Sinusoidal Networks ( http://arxiv.org/abs/2407.21121v1 )

ライセンス: Link先を確認
Tiago Novello, Diana Aldana, Luiz Velho, (参考訳) 本稿では,低次元信号の符号化における有望な結果を示す$sinusoidal$ MLPの構造と表現能力について検討する。 この成功は、その滑らかさと高い表現能力に起因する。 1つ目は、トレーニング中にネットワークのデリバティブを使用することを可能にし、正規化を可能にする。 しかし、アーキテクチャを定義し、そのパラメータを初期化して所望の能力を達成することは、実証的な課題である。 この研究は、正弦波MLPの容量特性を正当化する理論的および実験的結果を提供し、初期化と訓練のための制御メカニズムを提供する。 フーリエ級数の観点からこれをアプローチし、トレーニングとモデルのスペクトルを結びつける。 我々の分析は、正弦波層の構成が入力周波数(入力層の重み)の整数線形結合として表される多数の新しい周波数を生成するという、正弦波MLPの高調波$拡張に基づく。 我々はこの新しい$identity$を使って信号スペクトルのサンプリングとして機能する入力ニューロンを初期化する。 また、隠れたニューロンは、隠れた重みによって完全に決定された振幅で同じ周波数を発生させる。 最後に、これらの振幅に上限を与え、トレーニング中にネットワークのスペクトルに$bounding$のスキームを与える。

This work investigates the structure and representation capacity of $sinusoidal$ MLPs, which have recently shown promising results in encoding low-dimensional signals. This success can be attributed to its smoothness and high representation capacity. The first allows the use of the network's derivatives during training, enabling regularization. However, defining the architecture and initializing its parameters to achieve a desired capacity remains an empirical task. This work provides theoretical and experimental results justifying the capacity property of sinusoidal MLPs and offers control mechanisms for their initialization and training. We approach this from a Fourier series perspective and link the training with the model's spectrum. Our analysis is based on a $harmonic$ expansion of the sinusoidal MLP, which says that the composition of sinusoidal layers produces a large number of new frequencies expressed as integer linear combinations of the input frequencies (weights of the input layer). We use this novel $identity$ to initialize the input neurons which work as a sampling in the signal spectrum. We also note that each hidden neuron produces the same frequencies with amplitudes completely determined by the hidden weights. Finally, we give an upper bound for these amplitudes, which results in a $bounding$ scheme for the network's spectrum during training.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# 変圧器を用いたゼロショットの健康軌道予測

Zero Shot Health Trajectory Prediction Using Transformer ( http://arxiv.org/abs/2407.21124v1 )

ライセンス: Link先を確認
Pawel Renc, Yugang Jia, Anthony E. Samir, Jaroslaw Was, Quanzheng Li, David W. Bates, Arkadiusz Sitek, (参考訳) 現代の機械学習と臨床的意思決定を統合することは、医療のコストと複雑さの増大を緩和する大きな約束である。 ETHOS(Enhanced Transformer for Health Outcome Simulation)は,高次元・不均一・エピソードな健康データを解析するためのトランスフォーマー深層学習アーキテクチャの新しい応用法である。 ETHOSは、患者健康タイムライン(PHT)の詳細とトークン化された健康イベントの記録を使用して、将来の健康トラジェクトリを予測し、ゼロショット学習アプローチを活用する。 ETHOSは、医療分析のための基盤モデル開発において、ラベル付きデータやモデル微調整の必要性を排除し、大きな進歩を示している。 様々な治療経路をシミュレートし、ETHOSを医療提供の最適化とバイアスに対処するためのツールとして位置づける。 今後は、ETHOSの機能を拡張して、幅広いデータタイプとデータソースを組み込む予定だ。 私たちの研究は、医療におけるAI開発とデプロイメントを加速するための道筋を示しています。

Integrating modern machine learning and clinical decision-making has great promise for mitigating healthcare's increasing cost and complexity. We introduce the Enhanced Transformer for Health Outcome Simulation (ETHOS), a novel application of the transformer deep-learning architecture for analyzing high-dimensional, heterogeneous, and episodic health data. ETHOS is trained using Patient Health Timelines (PHTs)-detailed, tokenized records of health events-to predict future health trajectories, leveraging a zero-shot learning approach. ETHOS represents a significant advancement in foundation model development for healthcare analytics, eliminating the need for labeled data and model fine-tuning. Its ability to simulate various treatment pathways and consider patient-specific factors positions ETHOS as a tool for care optimization and addressing biases in healthcare delivery. Future developments will expand ETHOS' capabilities to incorporate a wider range of data types and data sources. Our work demonstrates a pathway toward accelerated AI development and deployment in healthcare.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# 自律運転のための自己監督型マルチフューチャー作業予測

Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving ( http://arxiv.org/abs/2407.21126v1 )

ライセンス: Link先を確認
Bernard Lange, Masha Itkina, Jiachen Li, Mykel J. Kochenderfer, (参考訳) 環境予測フレームワークは、ダイナミックな環境での自動運転車(AV)の安全なナビゲーションに不可欠である。 LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑健な鳥眼ビューを提供し、部分観測性や知覚検出障害に対するレジリエンスを示しながら、自己監督された共同シーン予測を可能にする。 従来のアプローチでは、グリッドセル空間内の決定論的L-OGM予測アーキテクチャに焦点が当てられていた。 これらの手法はいくつかの成功を見てきたが、しばしば非現実的な予測を生み出し、環境の確率的な性質を捉えられなかった。 さらに、それらはAVに存在する追加のセンサーモダリティを効果的に統合しない。 提案フレームワークは,RGBカメラや地図,計画された軌道上での条件付けが可能な,遺伝的L-OGM予測を行う。 我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードし、時間的一貫性の問題に対処し、圧縮損失を低減する。 nuScenesとWaymo Openデータセットに関する我々の実験は、我々のアプローチのすべての変種が、定性的かつ定量的に以前のアプローチより優れていることを示している。

Environment prediction frameworks are critical for the safe navigation of autonomous vehicles (AVs) in dynamic settings. LiDAR-generated occupancy grid maps (L-OGMs) offer a robust bird's-eye view for the scene representation, enabling self-supervised joint scene predictions while exhibiting resilience to partial observability and perception detection failures. Prior approaches have focused on deterministic L-OGM prediction architectures within the grid cell space. While these methods have seen some success, they frequently produce unrealistic predictions and fail to capture the stochastic nature of the environment. Additionally, they do not effectively integrate additional sensor modalities present in AVs. Our proposed framework performs stochastic L-OGM prediction in the latent space of a generative architecture and allows for conditioning on RGB cameras, maps, and planned trajectories. We decode predictions using either a single-step decoder, which provides high-quality predictions in real-time, or a diffusion-based batch decoder, which can further refine the decoded frames to address temporal consistency issues and reduce compression losses. Our experiments on the nuScenes and Waymo Open datasets show that all variants of our approach qualitatively and quantitatively outperform prior approaches.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# ソフトウェア工学における調査研究の指導

Teaching Survey Research in Software Engineering ( http://arxiv.org/abs/2407.21127v1 )

ライセンス: Link先を確認
Marcos Kalinowski, Allysson Allex Araújo, Daniel Mendez, (参考訳) 本章では,このトピックに関するいくつかの国際教育経験から学んだ教訓と,様々な学術会議や雑誌で発表された大規模調査の実践に基づいて,調査研究を効果的に教える方法についてアドバイスする。 まず,教師に,学習目的,講義,実践課題の例など,調査研究を教えるための潜在的シラバスを提供する。 その後、調査設計、サンプリング、データ収集、統計的・質的分析、妥当性と信頼性への脅威、倫理的考察など、各学習目標に関連するトピックをどう教えるかについての実践的なアドバイスを提供する。 この章は、コース全体をカバーするスライドを含む、オンラインの教育リソースによって補完されている。

In this chapter, we provide advice on how to effectively teach survey research based on lessons learned from several international teaching experiences on the topic and from conducting large-scale surveys published at various scientific conferences and journals. First, we provide teachers with a potential syllabus for teaching survey research, including learning objectives, lectures, and examples of practical assignments. Thereafter, we provide actionable advice on how to teach the topics related to each learning objective, including survey design, sampling, data collection, statistical and qualitative analysis, threats to validity and reliability, and ethical considerations. The chapter is complemented by online teaching resources, including slides covering an entire course.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-30
# 全身運動生成にマルチモーダル制御を加える

Adding Multi-modal Controls to Whole-body Human Motion Generation ( http://arxiv.org/abs/2407.21136v1 )

ライセンス: Link先を確認
Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu, (参考訳) テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。 しかし、異なる条件条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なる生成シナリオ間での運動分布のドリフトと、異なる粒度を持つ混合条件の複雑な最適化の2つの主な課題が提示される。 さらに、既存のデータセットにおける一貫性のないモーションフォーマットは、より効果的なマルチモーダルモーション生成を妨げる。 本稿では,プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。 そこで我々は,静的・動的トポロジーグラフの並列モデリングのための制御MM-Attnを提案する。 粒度の異なる条件に対処するため、ControlMMでは、セマンティック生成のためのステージ1テキスト・ツー・モーション事前学習や、低レベル粒度の条件に対するステージ2マルチモーダル制御適応など、粗い訓練戦略を採用している。 既存のベンチマークの様々な動作フォーマット制限に対処するために,統一された全体SMPL-Xフォーマットに基づく,初めて公開されたマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを導入する。 広汎な実験により、制御MMは様々な標準動作生成タスクにおいて最先端の性能を達成することが示された。 私たちのウェブサイトはhttps://yxbian23.github.io/ControlMMにあります。

Whole-body multi-modal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to accomplish various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different generation scenarios and the complex optimization of mixed conditions with varying granularity. Furthermore, inconsistent motion formats in existing datasets further hinder effective multi-modal motion generation. In this paper, we propose ControlMM, a unified framework to Control whole-body Multi-modal Motion generation in a plug-and-play manner. To effectively learn and transfer motion knowledge across different motion distributions, we propose ControlMM-Attn, for parallel modeling of static and dynamic human topology graphs. To handle conditions with varying granularity, ControlMM employs a coarse-to-fine training strategy, including stage-1 text-to-motion pre-training for semantic generation and stage-2 multi-modal control adaptation for conditions of varying low-level granularity. To address existing benchmarks' varying motion format limitations, we introduce ControlMM-Bench, the first publicly available multi-modal whole-body human motion generation benchmark based on the unified whole-body SMPL-X format. Extensive experiments show that ControlMM achieves state-of-the-art performance across various standard motion generation tasks. Our website is at https://yxbian23.github.io/ControlMM.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# Nested Embedding Learning を用いたアラビア語NLPにおける意味的類似性理解の強化

Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning ( http://arxiv.org/abs/2407.21139v1 )

ライセンス: Link先を確認
Omer Nacar, Anis Koubaa, (参考訳) この研究は、多言語、アラビア語固有の、英語ベースのモデルを活用し、様々なアラビア語のNLP下流タスクにおける入れ子埋め込みモデルのパワーを強調するために、Matryoshka Embedding Learningを通じて、アラビア語の入れ子埋め込みモデルをトレーニングするための新しいフレームワークを提示している。 我々の革新的な貢献には、様々な文類似性データセットをアラビア語に翻訳することが含まれており、様々な次元でこれらのモデルを総合的な評価フレームワークで比較することができる。 アラビア自然言語推論三重項データセットを用いたネスト埋め込みモデルの訓練を行い,コサイン類似性,マンハッタン距離,ユークリッド距離,ドット製品類似性などのPearsonとSpearmanの相関関係など,複数の評価指標を用いて評価を行った。 この結果は、マトリオシュカの埋め込みモデルの優れた性能を示し、特にアラビア語特有の意味的ニュアンスを捉えた。 その結果、アラビア・マトリオシュカの埋め込みモデルは、アラビア語固有の意味的ニュアンスを捉えるのに優れた性能を示し、様々な類似度指標で従来のモデルよりも最大20~25倍高い性能を示した。 これらの結果は、アラビア語NLPにおける意味的テキスト類似性タスクの強化において、言語固有の訓練の有効性を強調し、Matryoshkaモデルの可能性を強調した。

This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# 獣医医療管理集団における胸部X線写真分類におけるドメインシフト解析

Domain Shift Analysis in Chest Radiographs Classification in a Veterans Healthcare Administration Population ( http://arxiv.org/abs/2407.21149v1 )

ライセンス: Link先を確認
Mayanka Chandrashekar, Ian Goethert, Md Inzamam Ul Haque, Benjamin McMahon, Sayera Dhaubhadel, Kathryn Knight, Joseph Erdos, Donna Reagan, Caroline Taylor, Peter Kuzmak, John Michael Gaziano, Eileen McAllister, Lauren Costa, Yuk-Lam Ho, Kelly Cho, Suzanne Tamang, Samah Fodeh-Jarad, Olga S. Ovchinnikova, Amy C. Justice, Jacob Hinkle, Ioana Danciu, (参考訳) 目的: 本研究は, 領域シフトが胸部X線分類精度に及ぼす影響を評価し, 真実ラベルの品質と年齢群, 性別, 研究年度などの人口構成因子の影響を分析することを目的とする。 資料と方法:我々は深層学習に基づく多ラベル分類にDenseNet121モデルのMIMIC-CXRを用いた。 MIMIC-CXR と Veterans Healthcare Administration の胸部X-ray データセット (VA-CXR) を用いて, 胸部X-ray ラベルの評価を行った。 VA-CXRデータセットは、2010年から2022年の間に259k以上の胸部X線画像を含む。 その結果, VA-CXRデータセットはMIMIC-CXRデータセットよりも低い不一致率を示した。 さらに、CheXpertとCheXbertを利用するモデル間でAUCスコアに顕著な違いがあった。 異なるデータセット間でのマルチラベル分類性能を評価する際、"Enlarged Cardiomediastinum"というラベルを除いて、目に見えないデータセットでは最小限のドメインシフトが観察された。 調査年度のサブグループ分析は,多ラベル分類モデルの性能において最も有意な変動を示した。 これらの結果は, 胸部X線分類課題, 特に研究年数における領域シフトを検討することの重要性を浮き彫りにした。 結論:本研究は,領域シフトと人口動態因子が胸部X線分類に与える影響を明らかにし,転写学習の改善と同値モデル開発の必要性を強調した。 これらの課題に対処することは、医療画像の進歩と患者ケアの強化に不可欠である。

Objectives: This study aims to assess the impact of domain shift on chest X-ray classification accuracy and to analyze the influence of ground truth label quality and demographic factors such as age group, sex, and study year. Materials and Methods: We used a DenseNet121 model pretrained MIMIC-CXR dataset for deep learning-based multilabel classification using ground truth labels from radiology reports extracted using the CheXpert and CheXbert Labeler. We compared the performance of the 14 chest X-ray labels on the MIMIC-CXR and Veterans Healthcare Administration chest X-ray dataset (VA-CXR). The VA-CXR dataset comprises over 259k chest X-ray images spanning between the years 2010 and 2022. Results: The validation of ground truth and the assessment of multi-label classification performance across various NLP extraction tools revealed that the VA-CXR dataset exhibited lower disagreement rates than the MIMIC-CXR datasets. Additionally, there were notable differences in AUC scores between models utilizing CheXpert and CheXbert. When evaluating multi-label classification performance across different datasets, minimal domain shift was observed in unseen datasets, except for the label "Enlarged Cardiomediastinum." The study year's subgroup analyses exhibited the most significant variations in multi-label classification model performance. These findings underscore the importance of considering domain shifts in chest X-ray classification tasks, particularly concerning study years. Conclusion: Our study reveals the significant impact of domain shift and demographic factors on chest X-ray classification, emphasizing the need for improved transfer learning and equitable model development. Addressing these challenges is crucial for advancing medical imaging and enhancing patient care.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# PLANesT-3D:3次元植物点雲のセグメンテーションのための新しい注釈付きデータセット

PLANesT-3D: A new annotated dataset for segmentation of 3D plant point clouds ( http://arxiv.org/abs/2407.21150v1 )

ライセンス: Link先を確認
Kerem Mertoğlu, Yusuf Şalk, Server Karahan Sarıkaya, Kaya Turgut, Yasemin Evrenesoğlu, Hakan Çevikalp, Ömer Nezih Gerek, Helin Dutağacı, David Rousseau, (参考訳) 新しいアノテートされた公開データセットの作成は、3Dコンピュータービジョンと機械学習の進歩が、3Dプラントモデルの自動解釈の可能性を十分に満たすのに不可欠である。 本稿では,植物の3次元色点雲の注釈付きデータセットであるPLANesT-3Dを紹介する。 PLANesT-3Dは34点の雲モデルからなり、34点の植物種である \textit{Capsicum annuum} 、 \textit{Rosa kordana} 、 \textit{Ribes rubrum} から構成されている。 リーフ"と"ステム"という2つの意味ラベルとオルガンインスタンスラベルは、フルポイントのクラウドに対して手動でアノテートされた。 さらにSP-LSCnetは,教師なしスーパーポイント抽出と3Dポイントに基づくディープラーニング手法を組み合わせたセマンティックセグメンテーション手法である。 既存の2つのディープニューラルネットワークアーキテクチャであるPointNet++とRoseSegNetも、セマンティックセグメンテーションのためにPLANesT-3Dのポイントクラウド上でテストされた。

Creation of new annotated public datasets is crucial in helping advances in 3D computer vision and machine learning meet their full potential for automatic interpretation of 3D plant models. In this paper, we introduce PLANesT-3D; a new annotated dataset of 3D color point clouds of plants. PLANesT-3D is composed of 34 point cloud models representing 34 real plants from three different plant species: \textit{Capsicum annuum}, \textit{Rosa kordana}, and \textit{Ribes rubrum}. Both semantic labels in terms of "leaf" and "stem", and organ instance labels were manually annotated for the full point clouds. As an additional contribution, SP-LSCnet, a novel semantic segmentation method that is a combination of unsupervised superpoint extraction and a 3D point-based deep learning approach is introduced and evaluated on the new dataset. Two existing deep neural network architectures, PointNet++ and RoseSegNet were also tested on the point clouds of PLANesT-3D for semantic segmentation.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# オーバー・ザ・エア計算によるプライベート・コラボレーティブエッジ推論

Private Collaborative Edge Inference via Over-the-Air Computation ( http://arxiv.org/abs/2407.21151v1 )

ライセンス: Link先を確認
Selim F. Yilmaz, Burak Hasircioglu, Li Qiao, Deniz Gunduz, (参考訳) 我々は、各クライアントのモデルをローカルデータセットで独立してトレーニングするワイヤレスエッジでの協調推論を検討する。 クライアントは、正確な意思決定を協調的に行うために、並列にクエリされる。 推論精度の最大化に加えて、ローカルモデルのプライバシも確保したいと考えています。 この目的のために,マルチアクセスチャネルの重畳特性を活用し,帯域効率のよいマルチユーザ推論手法を実装した。 具体的には,オーバ・ザ・エア(Over-the-air)計算を利用するアンサンブルとマルチビュー分類の異なる手法を提案する。 これらのスキームは,資源を減らし,プライバシ保証を提供しながら,統計的に有意な差のある直交方式よりも優れた性能を示す。 また,提案手法の利点を検証する実験結果も提供し,設計選択の有効性を実証するためのアブレーション実験を行った。 フレームワークのソースコードをGithubで公開し、さらなる研究と再現性を促進します。

We consider collaborative inference at the wireless edge, where each client's model is trained independently on their local datasets. Clients are queried in parallel to make an accurate decision collaboratively. In addition to maximizing the inference accuracy, we also want to ensure the privacy of local models. To this end, we leverage the superposition property of the multiple access channel to implement bandwidth-efficient multi-user inference methods. Specifically, we propose different methods for ensemble and multi-view classification that exploit over-the-air computation. We show that these schemes perform better than their orthogonal counterparts with statistically significant differences while using fewer resources and providing privacy guarantees. We also provide experimental results verifying the benefits of the proposed over-the-air multi-user inference approach and perform an ablation study to demonstrate the effectiveness of our design choices. We share the source code of the framework publicly on Github to facilitate further research and reproducibility.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# WIP: TLA+を使ったソフトウエアエンジニアリングにおけるモデルチェックのための大学院生の紹介

WIP: An Engaging Undergraduate Intro to Model Checking in Software Engineering Using TLA+ ( http://arxiv.org/abs/2407.21152v1 )

ライセンス: Link先を確認
Konstantin Läufer, Gunda Mertin, George K. Thiruvathukal, (参考訳) 背景: 本稿では, 時間的行動論理(TLA+)で記述されたモデルチェック仕様を, 大学生や大学院生を対象にしたコンピュータサイエンス教育に取り入れることを目的とした, フォーマルな手法の統合に向けた最初の取り組みについて述べる。 形式的手法は、安全クリティカルなシステムの正しい行動を保証する上で重要な役割を果たすが、教育や産業の文脈では未利用のままである。 目的:(1)コンピュータサイエンスプログラムにおける形式的手法の実態を質的に評価すること,(2)学部生の学習の途中で含めることができるレベル適合例の構築,(3)段階的に厳格な安全性と生活性の要件を通じて連続した「障害」に対処する方法の実証,(4)学生の関心と関連性を評価するための継続的な枠組みを確立することを目指す。 方法: 数学的論理学のリフレッシュから始めると、生徒はTLA+の単純なパズルのルールを指定し、その内包されたモデルチェッカー(TLC)を使って解を見つける。 マイクロ波オーブンの制御ロジックなど、より複雑でダイナミックなイベント駆動システムに徐々にエスカレートし、学生は安全と生活性の要件を学習する。 その後、境界カウンタとバッファをモデル化することにより、スレッド安全性とデッドロック回避とともに、明示的な並行性について議論する。 結果: 初期の知見から, 慎重に設計し, 実例やツールの選択を行うことで, 新世代のソフトウェアエンジニアが形式的な手法で熟達し, 育成できることが示唆された。 結論:最初の取り組みは,学生の84%が形式的方法のコースで肯定的な経験をしていたことを示唆した。 今後の計画には、当社の機関内での縦断的な分析や、他の機関とパートナーシップを結び、当社のオープンソースおよびオープンアクセスモジュールの有効性を探求する提案が含まれます。

Background: In this paper, we present our initial efforts to integrate formal methods, with a focus on model-checking specifications written in Temporal Logic of Actions (TLA+), into computer science education, targeting undergraduate juniors/seniors and graduate students. Formal methods can play a key role in ensuring correct behavior of safety-critical systems, yet remain underutilized in educational and industry contexts. Aims: We aim to (1) qualitatively assess the state of formal methods in computer science programs, (2) construct level-appropriate examples that could be included midway into one's undergraduate studies, (3) demonstrate how to address successive "failures" through progressively stringent safety and liveness requirements, and (4) establish an ongoing framework for assessing interest and relevance among students. Methods: After starting with a refresher on mathematical logic, students specify the rules of simple puzzles in TLA+ and use its included model checker (known as TLC) to find a solution. We gradually escalate to more complex, dynamic, event-driven systems, such as the control logic of a microwave oven, where students will study safety and liveness requirements. We subsequently discuss explicit concurrency, along with thread safety and deadlock avoidance, by modeling bounded counters and buffers. Results: Our initial findings suggest that through careful curricular design and choice of examples and tools, it is possible to inspire and cultivate a new generation of software engineers proficient in formal methods. Conclusions: Our initial efforts suggest that 84% of our students had a positive experience in our formal methods course. Future plans include a longitudinal analysis within our own institution and proposals to partner with other institutions to explore the effectiveness of our open-source and open-access modules.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# アラビア語におけるBERTを用いたイベント列抽出コーパスとモデリング

Event-Arguments Extraction Corpus and Modeling using BERT for Arabic ( http://arxiv.org/abs/2407.21153v1 )

ライセンス: Link先を確認
Alaa Aljabari, Lina Duaibes, Mustafa Jarrar, Mohammed Khalilia, (参考訳) イベント・アグメントの抽出は難しい課題であり、特にアラビア語では言語資源が乏しいためである。 このギャップを埋めるために、Wojoodの拡張としてShahadath corpus(550$kトークン)を紹介します。 イベント引数には、$agent$、$location$、$date$という3つのタイプを使用しました。 アノテーション間の合意評価の結果、$Kappa$スコアが82.23\%、$F_1$スコアが87.2\%となった。 また,BERTを用いたイベント関係抽出手法を提案する。 この方法は、$F_1$-scoreの94.01\%$を達成する。 提案手法の一般化を更に評価するため,我々は,testNLIと呼ばれる別のドメイン外コーパス(約80$kトークン)を収集し,第2のテストセットとして使用し,提案手法が有望な結果(83.59\%$$F_1$-score)を達成した。 最後に,イベント抽出のためのエンドツーエンドシステムを提案する。 このシステムはSinaToolsの一部として実装されており、両方のコーパスは {\small \url{https://sina.birzeit.edu/wojood}} で公開されている。

Event-argument extraction is a challenging task, particularly in Arabic due to sparse linguistic resources. To fill this gap, we introduce the \hadath corpus ($550$k tokens) as an extension of Wojood, enriched with event-argument annotations. We used three types of event arguments: $agent$, $location$, and $date$, which we annotated as relation types. Our inter-annotator agreement evaluation resulted in $82.23\%$ $Kappa$ score and $87.2\%$ $F_1$-score. Additionally, we propose a novel method for event relation extraction using BERT, in which we treat the task as text entailment. This method achieves an $F_1$-score of $94.01\%$. To further evaluate the generalization of our proposed method, we collected and annotated another out-of-domain corpus (about $80$k tokens) called \testNLI and used it as a second test set, on which our approach achieved promising results ($83.59\%$ $F_1$-score). Last but not least, we propose an end-to-end system for event-arguments extraction. This system is implemented as part of SinaTools, and both corpora are publicly available at {\small \url{https://sina.birzeit.edu/wojood}}
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# 生成モデルにおける記憶と指紋検出のための埋め込み空間選択

Embedding Space Selection for Detecting Memorization and Fingerprinting in Generative Models ( http://arxiv.org/abs/2407.21159v1 )

ライセンス: Link先を確認
Jack He, Jianxing Zhao, Andrew Bai, Cho-Jui Hsieh, (参考訳) 人工知能の急速な発展の中で、ジェネレーティブ・アドバイサル・ネットワーク(GAN)やディフュージョン・モデル(Diffusion Models)のようなジェネレーティブ・モデルが画期的な技術となり、芸術創造から医療まで様々な分野のイノベーションを推進してきた。 それらの可能性にもかかわらず、これらのモデルはデータ記憶の重大な課題に直面し、プライバシと生成されたコンテンツの完全性にリスクをもたらす。 メモリ化検出の指標として,エンコーダ層埋め込みから算出したメモリ化スコアについて検討した。 特に,視覚変換器(ViT)の層埋め込みから算出した記憶スコアが顕著な傾向を示した。 初期層からの記憶スコアは、低レベルの記憶(例えば、画像の色や単純なパターン)に対してより敏感であるのに対し、後者層からの記憶スコアは高レベルの記憶(例えば、画像の意味)に対してより敏感であることが判明した。 また、特定のモデルアーキテクチャでは、異なるレベルの情報に対する記憶の度合いがユニークであることも観察する。 それはアーキテクチャの本質的な特性と見なすことができる。 この知見に基づいて,ユニークな指紋認証手法を導入する。 この方法は、ViTの異なる層にまたがる暗記スコアのユニークな分布を活かし、ディープフェイクや悪意のあるコンテンツを生成するモデルを特定するための新しいアプローチを提供する。 提案手法は,既存のベースライン手法よりも30%の精度で識別精度が向上し,デジタル誤報と戦うための効果的なツールを提供する。

In the rapidly evolving landscape of artificial intelligence, generative models such as Generative Adversarial Networks (GANs) and Diffusion Models have become cornerstone technologies, driving innovation in diverse fields from art creation to healthcare. Despite their potential, these models face the significant challenge of data memorization, which poses risks to privacy and the integrity of generated content. Among various metrics of memorization detection, our study delves into the memorization scores calculated from encoder layer embeddings, which involves measuring distances between samples in the embedding spaces. Particularly, we find that the memorization scores calculated from layer embeddings of Vision Transformers (ViTs) show an notable trend - the latter (deeper) the layer, the less the memorization measured. It has been found that the memorization scores from the early layers' embeddings are more sensitive to low-level memorization (e.g. colors and simple patterns for an image), while those from the latter layers are more sensitive to high-level memorization (e.g. semantic meaning of an image). We also observe that, for a specific model architecture, its degree of memorization on different levels of information is unique. It can be viewed as an inherent property of the architecture. Building upon this insight, we introduce a unique fingerprinting methodology. This method capitalizes on the unique distributions of the memorization score across different layers of ViTs, providing a novel approach to identifying models involved in generating deepfakes and malicious content. Our approach demonstrates a marked 30% enhancement in identification accuracy over existing baseline methods, offering a more effective tool for combating digital misinformation.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# データマイニングによるカルガリーの公衆安全動向の理解

Understanding Public Safety Trends in Calgary through data mining ( http://arxiv.org/abs/2407.21163v1 )

ライセンス: Link先を確認
Zack Dewis, Apratim Sen, Jeffrey Wong, Yujia Zhang, (参考訳) 本稿では,カルガリーの様々なオープンデータセットの統計データを用いて,地域犯罪,障害,交通事故のパターンと洞察を明らかにする。 人口統計,住宅,ペットの登録などの地域属性は地理空間の可視化と相関分析によって収集・分析された。 カイ二乗検定により相関の強い特徴を同定し,相関ルールマイニングと機械学習アルゴリズムを用いて予測モデルを構築した。 この結果は、犯罪率は人口密度などの要因と密接に関連していることを示し、ペットの登録は影響が小さいことを示唆している。 本研究は, 市町村の安全戦略を強化する上で, 市町村の管理者に貴重な洞察を与えるものである。

This paper utilizes statistical data from various open datasets in Calgary to to uncover patterns and insights for community crimes, disorders, and traffic incidents. Community attributes like demographics, housing, and pet registration were collected and analyzed through geospatial visualization and correlation analysis. Strongly correlated features were identified using the chi-square test, and predictive models were built using association rule mining and machine learning algorithms. The findings suggest that crime rates are closely linked to factors such as population density, while pet registration has a smaller impact. This study offers valuable insights for city managers to enhance community safety strategies.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# 選択関数への選択評価の拡張:自然拡張を計算するためのアルゴリズム

Extending choice assessments to choice functions: An algorithm for computing the natural extension ( http://arxiv.org/abs/2407.21164v1 )

ライセンス: Link先を確認
Arne Decadt, Alexander Erreygers, Jasper De Bock, (参考訳) 選好順序の集合に基づく意思決定のための統一的な数学的枠組みである選択関数の枠組みを用いて、事前選択から新しい選択を推測する方法を検討する。 特に、与えられた選択評価の自然(最も保守的な)拡張を、可能な限りコヒーレントな選択関数に定義し、この自然な拡張を使って新しい選択を行う。 我々は、この自然な拡張を計算するための実用的なアルゴリズムと、スケーラビリティを改善する様々な方法を提供する。 最後に、これらのアルゴリズムを様々な種類の選択評価のためにテストする。

We study how to infer new choices from prior choices using the framework of choice functions, a unifying mathematical framework for decision-making based on sets of preference orders. In particular, we define the natural (most conservative) extension of a given choice assessment to a coherent choice function -- whenever possible -- and use this natural extension to make new choices. We provide a practical algorithm for computing this natural extension and various ways to improve scalability. Finally, we test these algorithms for different types of choice assessments.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# AIの安全性の実践:マルチモーダル画像キャプションにおける敵のロバスト性を高める

AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning ( http://arxiv.org/abs/2407.21174v1 )

ライセンス: Link先を確認
Maisha Binte Rashid, Pablo Rivas, (参考訳) 視覚的データとテキストデータを組み合わせたマルチモーダル機械学習モデルは、ますます重要なアプリケーションにデプロイされている。 本稿では,このような攻撃に対するマルチモーダル画像キャプションモデルのロバスト性を高めるための効果的な戦略を提案する。 本稿では,FGSM(Fast Gradient Sign Method)を応用して,敵対的な例を生成するとともに,2つのベンチマークデータセット(Flickr8kとCOCO)に対して,モデルロバスト性の向上を実証する。 その結果,マルチモーダルアーキテクチャのテキストデコーダのみを選択的にトレーニングすると,計算効率が向上し,完全対角トレーニングに匹敵する性能が得られることがわかった。 このターゲットのアプローチは、堅牢性とトレーニングコストのバランスを示唆し、さまざまなドメインにまたがるマルチモーダルAIシステムの倫理的展開を促進する。

Multimodal machine learning models that combine visual and textual data are increasingly being deployed in critical applications, raising significant safety and security concerns due to their vulnerability to adversarial attacks. This paper presents an effective strategy to enhance the robustness of multimodal image captioning models against such attacks. By leveraging the Fast Gradient Sign Method (FGSM) to generate adversarial examples and incorporating adversarial training techniques, we demonstrate improved model robustness on two benchmark datasets: Flickr8k and COCO. Our findings indicate that selectively training only the text decoder of the multimodal architecture shows performance comparable to full adversarial training while offering increased computational efficiency. This targeted approach suggests a balance between robustness and training costs, facilitating the ethical deployment of multimodal AI systems across various domains.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# DKL-KAN:Kolmogorov-Arnoldネットワークを用いたスケーラブルなディープカーネル学習

DKL-KAN: Scalable Deep Kernel Learning using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.21176v1 )

ライセンス: Link先を確認
Shrenik Zinage, Sudeepta Mondal, Soumalya Sarkar, (参考訳) 機械学習におけるスケーラブルで表現力のあるモデルの必要性は、特に構造的な深さと柔軟性の両方を必要とするアプリケーションにおいて最重要である。 多層パーセプトロン(MLP)のような従来のディープラーニング手法は、深さを提供するが、ディープラーニングアーキテクチャの構造的特性とカーネルメソッドの非パラメトリックな柔軟性を統合する能力は欠如している。 これを解決するために、ディープラーニングアーキテクチャを用いてベースカーネルへの入力を変換するディープカーネル学習(DKL)が導入された。 これらのカーネルは標準的なカーネルを置き換えることができ、表現力と拡張性の両方を可能にする。 Kolmogorov-Arnold Networks (KAN) の出現は、科学分野の研究者の間でかなりの注目と議論をもたらした。 本稿では,MLP(DKL-MLP)を用いたDKLの代替として,kan(DKL-KAN)を用いたスケーラブルなディープカーネルを提案する。 提案手法では,これらのカーネル属性をガウスプロセスフレームワーク内の限界確率を用いて同時に最適化する。 2種類のDKL-KANをDKL-MLPと比較し,DKL-MLPと同数のニューロンと層,およびほぼ同数のトレーニング可能なパラメータを解析した。 大規模データセットの処理には、低次元入力にはスケーラブルな構造化ガウス過程(KISS-GP)、高次元入力には製品カーネルとKISS-GPを用いる。 DKL-KANの有効性は、幅広いアプリケーションにわたる計算訓練時間とテスト予測精度の観点から評価される。 さらに,不連続性をモデル化し,予測の不確実性を正確に推定する上で,DKL-KANの有効性についても検討した。 その結果,DKL-KANは観測回数の少ないデータセットにおいてDKL-MLPよりも優れていた。 逆に、DKL-MLPは、多数の観測結果を持つデータセットに対して、より良いスケーラビリティと高いテスト予測精度を示す。

The need for scalable and expressive models in machine learning is paramount, particularly in applications requiring both structural depth and flexibility. Traditional deep learning methods, such as multilayer perceptrons (MLP), offer depth but lack ability to integrate structural characteristics of deep learning architectures with non-parametric flexibility of kernel methods. To address this, deep kernel learning (DKL) was introduced, where inputs to a base kernel are transformed using a deep learning architecture. These kernels can replace standard kernels, allowing both expressive power and scalability. The advent of Kolmogorov-Arnold Networks (KAN) has generated considerable attention and discussion among researchers in scientific domain. In this paper, we introduce a scalable deep kernel using KAN (DKL-KAN) as an effective alternative to DKL using MLP (DKL-MLP). Our approach involves simultaneously optimizing these kernel attributes using marginal likelihood within a Gaussian process framework. We analyze two variants of DKL-KAN for a fair comparison with DKL-MLP: one with same number of neurons and layers as DKL-MLP, and another with approximately same number of trainable parameters. To handle large datasets, we use kernel interpolation for scalable structured Gaussian processes (KISS-GP) for low-dimensional inputs and KISS-GP with product kernels for high-dimensional inputs. The efficacy of DKL-KAN is evaluated in terms of computational training time and test prediction accuracy across a wide range of applications. Additionally, the effectiveness of DKL-KAN is also examined in modeling discontinuities and accurately estimating prediction uncertainty. The results indicate that DKL-KAN outperforms DKL-MLP on datasets with a low number of observations. Conversely, DKL-MLP exhibits better scalability and higher test prediction accuracy on datasets with large number of observations.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# 推論ゲームフレームワークと情報集合エントロピー探索

Deduction Game Framework and Information Set Entropy Search ( http://arxiv.org/abs/2407.21178v1 )

ライセンス: Link先を確認
Fandi Meng, Simon Lucas, (参考訳) そこで本研究では,シャノンエントロピーの変動を考慮した構造化解析が可能なゲームフレームワークを提案する。 さらに,新しいフォワード検索アルゴリズムである情報集合エントロピー探索(ISES)を導入し,多くのシングルプレイヤー演目ゲームを効果的に解決する。 ISESアルゴリズムはサンプリング技術で拡張され、エージェントが制御された計算資源と時間制約内で決定することができる。 本フレームワークの8つのゲームに対する実験結果から,限定的な決定時間制約下でのモンテカルロ木探索(SO-ISMCTS)アルゴリズムに対して,本手法が有意な優位性を示した。 本フレームワークにおけるゲーム状態のエントロピー変化は,説明可能な意思決定を可能にし,推論ゲームの魅力を分析し,ゲームデザイナに洞察を与えるためにも使用できる。

We present a game framework tailored for deduction games, enabling structured analysis from the perspective of Shannon entropy variations. Additionally, we introduce a new forward search algorithm, Information Set Entropy Search (ISES), which effectively solves many single-player deduction games. The ISES algorithm, augmented with sampling techniques, allows agents to make decisions within controlled computational resources and time constraints. Experimental results on eight games within our framework demonstrate the significant superiority of our method over the Single Observer Information Set Monte Carlo Tree Search(SO-ISMCTS) algorithm under limited decision time constraints. The entropy variation of game states in our framework enables explainable decision-making, which can also be used to analyze the appeal of deduction games and provide insights for game designers.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# Amelia:空港表面の動き予測のための大規模モデルとデータセット

Amelia: A Large Model and Dataset for Airport Surface Movement Forecasting ( http://arxiv.org/abs/2407.21185v1 )

ライセンス: Link先を確認
Ingrid Navarro, Pablo Ortega-Kral, Jay Patrikar, Haichuan Wang, Zelin Ye, Jong Hoon Park, Jean Oh, Sebastian Scherer, (参考訳) 航空輸送需要の増大は、航空交通管理の技術的進歩と、安全かつ効率的な運用の監視と確保のメカニズムを必要とする。 ターミナル空域では、将来の動きや交通の流れの予測モデルは、積極的な計画と効率的な調整に役立つが、空港のトポロジや他のエージェントとの相互作用は、正確な予測を困難にしている。 データ駆動予測モデルは、衝突リスク評価、タクシーアウト時間予測、出発測度、放出推定など、さまざまな下流タスクを可能にするために、多数の変数を扱うことを約束している。 データ駆動手法はこれらのタスクの改善を示したが、以前の研究では、パブリックドメイン内の大規模な曲面運動データセットや一般化可能な軌道予測モデルの開発が欠如していた。 そこで我々は,(1) Amelia-48, System Wide Information Management (SWIM) Surface Movement Event Service (SMES) を用いて収集した大規模表面運動データセットを提案する。 2022年12月にデータ収集が開始されたこのデータセットは、1年分のSMESデータ(約30TB)を提供し、アメリカ国立航空宇宙システム内の48の空港をカバーしている。 また、これらのデータをパブリックドメインで公開することに加えて、後処理スクリプトや関連する空港マップも提供し、予報領域等での研究を可能にする。 2) Amelia-TFモデル, 変圧器をベースとした大規模マルチエージェント多目的航路予測モデル。 オープンソースのモデルは、様々な予測水平線長、エゴエージェント選択戦略、一般化能力を示すためのトレーニングレシピを示す実験により、未確認の空港で検証されている。

The growing demand for air travel requires technological advancements in air traffic management as well as mechanisms for monitoring and ensuring safe and efficient operations. In terminal airspaces, predictive models of future movements and traffic flows can help with proactive planning and efficient coordination; however, varying airport topologies, and interactions with other agents, among other factors, make accurate predictions challenging. Data-driven predictive models have shown promise for handling numerous variables to enable various downstream tasks, including collision risk assessment, taxi-out time prediction, departure metering, and emission estimations. While data-driven methods have shown improvements in these tasks, prior works lack large-scale curated surface movement datasets within the public domain and the development of generalizable trajectory forecasting models. In response to this, we propose two contributions: (1) Amelia-48, a large surface movement dataset collected using the System Wide Information Management (SWIM) Surface Movement Event Service (SMES). With data collection beginning in Dec 2022, the dataset provides more than a year's worth of SMES data (~30TB) and covers 48 airports within the US National Airspace System. In addition to releasing this data in the public domain, we also provide post-processing scripts and associated airport maps to enable research in the forecasting domain and beyond. (2) Amelia-TF model, a transformer-based next-token-prediction large multi-agent multi-airport trajectory forecasting model trained on 292 days or 9.4 billion tokens of position data encompassing 10 different airports with varying topology. The open-sourced model is validated on unseen airports with experiments showcasing the different prediction horizon lengths, ego-agent selection strategies, and training recipes to demonstrate the generalization capabilities.
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# マルチタスクフォトニック貯留層計算:シリコンマイクロリング共振器を用いた並列計算のための波長分割多重化

Multi-task Photonic Reservoir Computing: Wavelength Division Multiplexing for Parallel Computing with a Silicon Microring Resonator ( http://arxiv.org/abs/2407.21189v1 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar, Francesco Da Ros, (参考訳) 今日では、より強力なコンピューティングリソースに対する需要がますます高まっているため、代替の先進的なコンピューティングパラダイムは広範な調査を受けている。 従来のフォン・ノイマン建築から逸脱するための重要な努力がなされている。 インメモリコンピューティングは、メモリとコンピュータプロセッサの間の悪名高いボトルネックに対する解決策として、電子工学の分野で登場し、データの効率的なスループットを低下させている。 フォトニクスにおいて、新しいスキームは単一のデバイスでコンピュータプロセッサとメモリをコロケーションしようとする。 Photonicsは、空間的および時間的だけでなく、周波数的にも、波長的にもデータの多重化の柔軟性を提供し、並列コンピューティングに非常に適している。 本稿では,1枚のフォトニックチップにおいて,4つの独立タスクを同時に解くために,時間と波長分割多重化(WDM)を用いることを数値的に示す。 このシステムはマイクロリング共振器(MRR)に基づく時間遅延貯水池計算(TDRC)である。 対処されたタスクは、時系列予測、波形信号分類、無線チャネル等化、レーダ信号予測など、さまざまな応用をカバーしている。 このシステムは、同じタスクの最大10インスタンスの同時計算でもテストされており、優れた性能を示している。 システムのフットプリントは、研究されたニューラルネットワークスキームのニューロンとして機能するノードの時間分割多重化を用いて削減される。 WDMは波長チャネルの並列化に使われ、それぞれが単一のタスクに対処する。 それぞれの光チャネルの入力電力と周波数を調整することで、単一タスク操作に焦点を当てた最先端のレポートに引用されたタスクに匹敵するパフォーマンスのレベルを達成することができる。

Nowadays, as the ever-increasing demand for more powerful computing resources continues, alternative advanced computing paradigms are under extensive investigation. Significant effort has been made to deviate from conventional Von Neumann architectures. In-memory computing has emerged in the field of electronics as a possible solution to the infamous bottleneck between memory and computing processors, which reduces the effective throughput of data. In photonics, novel schemes attempt to collocate the computing processor and memory in a single device. Photonics offers the flexibility of multiplexing streams of data not only spatially and in time, but also in frequency or, equivalently, in wavelength, which makes it highly suitable for parallel computing. Here, we numerically show the use of time and wavelength division multiplexing (WDM) to solve four independent tasks at the same time in a single photonic chip, serving as a proof of concept for our proposal. The system is a time-delay reservoir computing (TDRC) based on a microring resonator (MRR). The addressed tasks cover different applications: Time-series prediction, waveform signal classification, wireless channel equalization, and radar signal prediction. The system is also tested for simultaneous computing of up to 10 instances of the same task, exhibiting excellent performance. The footprint of the system is reduced by using time-division multiplexing of the nodes that act as the neurons of the studied neural network scheme. WDM is used for the parallelization of wavelength channels, each addressing a single task. By adjusting the input power and frequency of each optical channel, we can achieve levels of performance for each of the tasks that are comparable to those quoted in state-of-the-art reports focusing on single-task operation...
翻訳日:2024-08-01 19:24:51 公開日:2024-07-30
# GenRec: 生成するパーソナライズされたシーケンスレコメンデーション

GenRec: Generative Personalized Sequential Recommendation ( http://arxiv.org/abs/2407.21191v1 )

ライセンス: Link先を確認
Panfeng Cao, Pietro Lio, (参考訳) シークエンシャルレコメンデーション(Sequential recommendation)は、歴史的なユーザアイテムのインタラクションデータから隠れたユーザの好みをキャプチャするタスクである。 分類に基づく学習手法を活用することで,この領域で重要な進歩を遂げた。 近年のNLPにおける「プレトレイン、プロンプト、予測」のパラダイムに着想を得て、シーケンシャルレコメンデーションをシーケンス生成タスクのシーケンスとして検討し、ジェネレーティブレコメンデーション(GenRec)と呼ばれる新しいモデルを提案する。 明示的なユーザとアイテム表現を学習する分類ベースモデルとは異なり、GenRecはTransformerのシーケンスモデリング機能を使用し、マスクされたアイテム予測目標を採用して、隠れた双方向のシーケンシャルパターンを効果的に学習する。 既存の生成シーケンシャルレコメンデーションモデルとは異なり、GenRecは手動で設計されたハードプロンプトに依存しない。 GenRecへの入力はテキストのユーザアイテムシーケンスであり、出力は次のアイテムのトップである。 さらに、GenRecは軽量で、低リソース環境で効果的にトレーニングするのに数時間しか必要とせず、現実世界のシナリオに非常に適用でき、シーケンシャルレコメンデーションドメインで大きな言語モデルを民主化するのに役立ちます。 我々の広範な実験は、GenRecが様々な公開現実世界のデータセットを一般化し、最先端の結果を得ることを示した。 また,提案手法の有効性を検証し,提案手法の有効性を検証した。

Sequential recommendation is a task to capture hidden user preferences from historical user item interaction data. Significant progress has been made in this domain by leveraging classification based learning methods. Inspired by the recent paradigm of 'pretrain, prompt and predict' in NLP, we consider sequential recommendation as a sequence to sequence generation task and propose a novel model named Generative Recommendation (GenRec). Unlike classification based models that learn explicit user and item representations, GenRec utilizes the sequence modeling capability of Transformer and adopts the masked item prediction objective to effectively learn the hidden bidirectional sequential patterns. Different from existing generative sequential recommendation models, GenRec does not rely on manually designed hard prompts. The input to GenRec is textual user item sequence and the output is top ranked next items. Moreover, GenRec is lightweight and requires only a few hours to train effectively in low-resource settings, making it highly applicable to real-world scenarios and helping to democratize large language models in the sequential recommendation domain. Our extensive experiments have demonstrated that GenRec generalizes on various public real-world datasets and achieves state-of-the-art results. Our experiments also validate the effectiveness of the the proposed masked item prediction objective that improves the model performance by a large margin.
翻訳日:2024-08-01 19:14:53 公開日:2024-07-30
# 時系列予測とモンテカルロ技術を用いた顧客対応ベンダーエクスペリエンスの分析

Analyzing Customer-Facing Vendor Experiences with Time Series Forecasting and Monte Carlo Techniques ( http://arxiv.org/abs/2407.21193v1 )

ライセンス: Link先を確認
Vivek Kaushik, Jason Tang, (参考訳) eBayは外部ベンダーと提携しており、顧客は自由にベンダーを選択してeBay体験を完成させることができる。 しかし、ベンダーの停止は顧客体験を妨げる可能性がある。 結果としてeBayは、問題のあるベンダーを無効にし、顧客の損失を防ぐことができる。 ベンダーを無効にするのは、顧客が他のベンダーに乗り換える気のあることを失うリスクを負う一方で、変更を望まない顧客を失うリスクを早期に無効にするリスクがある。 本稿では、eBayが問題のあるベンダーを無効にすべきなのか、いつ無効にすべきかを問う、データ駆動型ソリューションを提案する。 私たちのソリューションは顧客の行動を予測します。 まず、すべてのベンダーが完全に機能している場合の振る舞いを表現するために、乗法的季節性モデルを使用します。 次に、問題のあるベンダーがまだ有効である場合の振る舞いを表現するためにMonte Carloシミュレーションを使用します。 最後に、ベンダーが無効になった場合の振る舞いを表現するために線形モデルを使用します。 これらの予測を比較して、eBayが問題のあるベンダーを無効にする最適なタイミングを決定する。

eBay partners with external vendors, which allows customers to freely select a vendor to complete their eBay experiences. However, vendor outages can hinder customer experiences. Consequently, eBay can disable a problematic vendor to prevent customer loss. Disabling the vendor too late risks losing customers willing to switch to other vendors, while disabling it too early risks losing those unwilling to switch. In this paper, we propose a data-driven solution to answer whether eBay should disable a problematic vendor and when to disable it. Our solution involves forecasting customer behavior. First, we use a multiplicative seasonality model to represent behavior if all vendors are fully functioning. Next, we use a Monte Carlo simulation to represent behavior if the problematic vendor remains enabled. Finally, we use a linear model to represent behavior if the vendor is disabled. By comparing these forecasts, we determine the optimal time for eBay to disable the problematic vendor.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# 認知とAIバイアスの深部におけるロールイン

Rolling in the deep of cognitive and AI biases ( http://arxiv.org/abs/2407.21202v1 )

ライセンス: Link先を確認
Athena Vakali, Nicoleta Tantalaki, (参考訳) 今日では、医療、金融サービス、法執行機関など、いくつかの機密性の高いドメインをサポートするための決定において、単独または人間の仲間として行動する人工知能(AI)に、私たちの決定の多くを委譲しています。 公平にデザインされたAIシステムは、個人やグループに対して誤った判断と差別された結果をもたらすことで、非常に批判されている。 AIアルゴリズムの公正性に関する多くの研究は、バイアスに対処し、純粋な計算ビューの下で公正性を定量化する機械学習パイプラインに費やされている。 しかし、継続的な不公平で不公平なAIの結果は、AIが設計、開発、デプロイされる状況と区別できない社会技術システムとして理解する必要があることを示唆している。 人間と機械のシナジーは、AIを機能させるのに欠かせないように見えるが、人間と社会的要因がAIバイアスに与える影響は、現在見過ごされている。 我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。 人間のヒューリスティックの認知科学の定義と分類に触発されて、人間の有害な行動がAI全体のライフサイクルにどのように影響するかを特定し、人間のAIに対するバイアスが隠された経路を明らかにする。 我々は、人間のヒューリスティックをAIバイアスの反射に正当化する新しいマッピングを導入し、関連する公正な強度と相互依存を検出する。 このアプローチは、より深い人間中心のケーススタディの下でAIフェアネスを再考し、隠れたバイアスの原因と影響を明らかにするのに役立ちます。

Nowadays, we delegate many of our decisions to Artificial Intelligence (AI) that acts either in solo or as a human companion in decisions made to support several sensitive domains, like healthcare, financial services and law enforcement. AI systems, even carefully designed to be fair, are heavily criticized for delivering misjudged and discriminated outcomes against individuals and groups. Numerous work on AI algorithmic fairness is devoted on Machine Learning pipelines which address biases and quantify fairness under a pure computational view. However, the continuous unfair and unjust AI outcomes, indicate that there is urgent need to understand AI as a sociotechnical system, inseparable from the conditions in which it is designed, developed and deployed. Although, the synergy of humans and machines seems imperative to make AI work, the significant impact of human and societal factors on AI bias is currently overlooked. We address this critical issue by following a radical new methodology under which human cognitive biases become core entities in our AI fairness overview. Inspired by the cognitive science definition and taxonomy of human heuristics, we identify how harmful human actions influence the overall AI lifecycle, and reveal human to AI biases hidden pathways. We introduce a new mapping, which justifies the human heuristics to AI biases reflections and we detect relevant fairness intensities and inter-dependencies. We envision that this approach will contribute in revisiting AI fairness under deeper human-centric case studies, revealing hidden biases cause and effects.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# 都市騒音強調のための機械学習を用いたLoRaWANを用いた動的騒音マッピング

LoRaWAN Based Dynamic Noise Mapping with Machine Learning for Urban Noise Enforcement ( http://arxiv.org/abs/2407.21204v1 )

ライセンス: Link先を確認
H. Emre Erdem, Henry Leung, (参考訳) 広域にわたる長期騒音レベルを示す静的騒音マップは、住民の騒音曝露を減らす自治体にとって貴重な都市計画資産である。 しかし、過渡的な振る舞いを頻繁に訴える非交通ノイズ源は通常、静的マップによって無視される。 本稿では,低消費電力広帯域ネットワーク(LPWAN,特にLoRaWAN)ベースのモノのインターネット(IoT)インフラストラクチャを通じて収集したデータを用いた動的ノイズマッピング手法を提案する。 LPWANに基づくノイズマッピングは,これらのプロトコルのデータレートが低いため困難である。 提案した動的ノイズマッピング手法は、不足データに基づく非交通源の事象および位置予測に機械学習(ML)を用いて、データレート制限の負の影響を低減させる。 これらのモデルの強みは、都市環境における建物による音響的挙動の空間的ばらつきを考慮したものである。 提案手法の有効性と結果の動的マップの精度を実地試験で評価した。 その結果,提案システムでは,非トラヒックソースによるマップエラーを51%まで低減し,パケット損失が大きい場合の有効性を維持できることがわかった。

Static noise maps depicting long-term noise levels over wide areas are valuable urban planning assets for municipalities in decreasing noise exposure of residents. However, non-traffic noise sources with transient behavior, which people complain frequently, are usually ignored by static maps. We propose here a dynamic noise mapping approach using the data collected via low-power wide-area network (LPWAN, specifically LoRaWAN) based internet of things (IoT) infrastructure, which is one of the most common communication backbones for smart cities. Noise mapping based on LPWAN is challenging due to the low data rates of these protocols. The proposed dynamic noise mapping approach diminishes the negative implications of data rate limitations using machine learning (ML) for event and location prediction of non-traffic sources based on the scarce data. The strength of these models lies in their consideration of the spatial variance in acoustic behavior caused by the buildings in urban settings. The effectiveness of the proposed method and the accuracy of the resulting dynamic maps are evaluated in field tests. The results show that the proposed system can decrease the map error caused by non-traffic sources up to 51% and can stay effective under significant packet losses.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# 連続MRI分割のための分布認識リプレイ

Distribution-Aware Replay for Continual MRI Segmentation ( http://arxiv.org/abs/2407.21216v1 )

ライセンス: Link先を確認
Nick Lemke, Camila González, Anirban Mukhopadhyay, Martin Mundt, (参考訳) 医用画像の分布は、画像取得における患者数の変化と不一致により、常に変化している。 これらの分布の変化は性能の劣化をもたらし、継続的な学習がもたらす劣化は緩和される。 しかし, 医用画像のセグメンテーションにおいて, データリハーサル戦略にのみ適応することで, 実用的に望ましい性能が得られる。 このようなリハーサルは患者のプライバシーを侵害し、ほとんどの継続的な学習アプローチは、アウト・オブ・ディストリビューションのインスタンスから予期せぬ変化を見落としている。 両課題を克服するために,機能の自動エンコーディングによる忘れを軽減し,同時に学習した機能の分散を利用してモデル故障を検出する分散対応リプレイ戦略を導入する。 海馬と前立腺MRIのセグメンテーションにおける経験的コロンボレーションについて検討した。

Medical image distributions shift constantly due to changes in patient population and discrepancies in image acquisition. These distribution changes result in performance deterioration; deterioration that continual learning aims to alleviate. However, only adaptation with data rehearsal strategies yields practically desirable performance for medical image segmentation. Such rehearsal violates patient privacy and, as most continual learning approaches, overlooks unexpected changes from out-of-distribution instances. To transcend both of these challenges, we introduce a distribution-aware replay strategy that mitigates forgetting through auto-encoding of features, while simultaneously leveraging the learned distribution of features to detect model failure. We provide empirical corroboration on hippocampus and prostate MRI segmentation.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# DeepBaR: ディープニューラルネットワーク層に対するフォールトバックドア攻撃

DeepBaR: Fault Backdoor Attack on Deep Neural Network Layers ( http://arxiv.org/abs/2407.21220v1 )

ライセンス: Link先を確認
C. A. Martínez-Mejía, J. Solano, J. Breier, D. Bucko, X. Hou, (参考訳) ニューラルネットワークを用いた機械学習は、特にコンピュータビジョンの分野で、様々な計算タスクを解くことに成功しているため、近年注目を集めている。 しかし、そのようなネットワークの訓練と実装に関わる潜在的なセキュリティリスクについて、いくつかの研究が注目されている。 本研究では,ニューラルネットワークにバックドアを埋め込む新しいアプローチであるDeepBaRを紹介する。 本手法は, 画像にほとんど見えないトリガを付加しながら, 埋め込んだバックドアを模倣するカスタムロス関数を最適化することにより, 敵のサンプルを生成することを目的としている。 私たちは3つの一般的な畳み込みニューラルネットワークアーキテクチャを攻撃し、DeepBaR攻撃が最大98.30\%の成功率を示す。 さらに、DeepBaRは、悪意のない入力が与えられると、デプロイ後の攻撃ネットワークの精度に大きく影響しない。 注目すべきは、DeepBaRによって攻撃者は、人間の視点から、与えられたクラスに似た入力を選択することができるが、それは任意のターゲットクラスに属するものと分類される。

Machine Learning using neural networks has received prominent attention recently because of its success in solving a wide variety of computational tasks, in particular in the field of computer vision. However, several works have drawn attention to potential security risks involved with the training and implementation of such networks. In this work, we introduce DeepBaR, a novel approach that implants backdoors on neural networks by faulting their behavior at training, especially during fine-tuning. Our technique aims to generate adversarial samples by optimizing a custom loss function that mimics the implanted backdoors while adding an almost non-visible trigger in the image. We attack three popular convolutional neural network architectures and show that DeepBaR attacks have a success rate of up to 98.30\%. Furthermore, DeepBaR does not significantly affect the accuracy of the attacked networks after deployment when non-malicious inputs are given. Remarkably, DeepBaR allows attackers to choose an input that looks similar to a given class, from a human perspective, but that will be classified as belonging to an arbitrary target class.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# ソフトワーズドネットワークにおけるソフトウェア信頼性の予測

Predicting Software Reliability in Softwarized Networks ( http://arxiv.org/abs/2407.21224v1 )

ライセンス: Link先を確認
Hasan Yagiz Ozkan, Madeleine Kaufmann, Wolfgang Kellerer, Carmen Mas-Machuca, (参考訳) 高品質なソフトウェアを提供し、ソフトワーズドネットワークにおけるソフトウェア信頼性を評価することは、ベンダーや顧客にとって非常に重要です。 これらのネットワークは、多数のバグを含むことに敏感なオープンソースコードに依存している。 以前のリリースのコードおよび特定のプロジェクトのバグ履歴に関する知識は、SRGMに基づいた新しいソフトウェアリリースのソフトウェア信頼性を評価するために使用できる。 この作業では、新しいリリースのバグの数と他の信頼性パラメータを予測するフレームワークが提案されている。 このフレームワークを2つの特定のオープンソースプロジェクトに実装した例が、詳しく説明されている。 2つのプロジェクトの予測精度の違いを示す。 本稿では,予測精度を向上させるための代替案を提案し,比較した。

Providing high quality software and evaluating the software reliability in softwarized networks are crucial for vendors and customers. These networks rely on open source code, which are sensitive to contain high number of bugs. Both, the knowledge about the code of previous releases as well as the bug history of the particular project can be used to evaluate the software reliability of a new software release based on SRGM. In this work a framework to predict the number of the bugs of a new release, as well as other reliability parameters, is proposed. An exemplary implementation of this framework to two particular open source projects, is described in detail. The difference between the prediction accuracy of the two projects is presented. Different alternatives to increase the prediction accuracy are proposed and compared in this paper.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# ユニタリの近似コンパイルのためのAI手法

AI methods for approximate compiling of unitaries ( http://arxiv.org/abs/2407.21225v1 )

ライセンス: Link先を確認
David Kremer, Victor Villar, Sanjay Vishwakarma, Ismael Faro, Juan Cruz-Benito, (参考訳) 本稿では,超伝導ハードウェアに典型的な固定2量子ゲートと任意の1量子回転の利用に着目し,ユニタリの近似コンパイルのための人工知能(AI)手法について検討する。 提案手法は,ターゲットのユニタリを近似した初期テンプレートを同定し,初期パラメータを予測し,回路の忠実度を最大化する。 最初の2段階でAIによるアプローチを提案し,初期テンプレートを提案するディープラーニングモデルと,パラメータ値を提案するオートエンコーダのようなモデルを提案する。 本研究では, 2 および 3 ビットのユニタリ上での手法を実証し,徹底的な探索とランダムなパラメータ初期化よりも有望な改善を示す。 結果は、トランスパイリングプロセスを強化するAIの可能性を強調し、現在のおよび将来の量子ハードウェア上でより効率的な量子計算をサポートする。

This paper explores artificial intelligence (AI) methods for the approximate compiling of unitaries, focusing on the use of fixed two-qubit gates and arbitrary single-qubit rotations typical in superconducting hardware. Our approach involves three main stages: identifying an initial template that approximates the target unitary, predicting initial parameters for this template, and refining these parameters to maximize the fidelity of the circuit. We propose AI-driven approaches for the first two stages, with a deep learning model that suggests initial templates and an autoencoder-like model that suggests parameter values, which are refined through gradient descent to achieve the desired fidelity. We demonstrate the method on 2 and 3-qubit unitaries, showcasing promising improvements over exhaustive search and random parameter initialization. The results highlight the potential of AI to enhance the transpiling process, supporting more efficient quantum computations on current and future quantum hardware.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# 大規模言語モデルの効率的な評価に難渋するプログラミングタスクの評価

Assessing Programming Task Difficulty for Efficient Evaluation of Large Language Models ( http://arxiv.org/abs/2407.21227v1 )

ライセンス: Link先を確認
Florian Tambon, Amin Nikanjam, Foutse Khomh, Giuliano Antoniol, (参考訳) 大規模言語モデル(LLM)は、特にコード補完やコード生成といったコード関連のタスクにおいて、ソフトウェア工学において有望な可能性を示している。 LLMの評価は一般にベンチマーク上で計算される一般的なメトリクスを中心に行われる。 ベンチマークのマクロビューとLCMのキャパシティを描いているが、これらのベンチマークにおける各プログラミングタスクがどのようにLCMの能力を評価するかは明らかではない。 特に、ベンチマークにおけるタスクの難易度は、モデルの性能を報告するためのスコアに反映されない。 しかし、最も簡単なタスクのベンチマークで90%のスコアを達成するモデルは、非常に難しいタスクを含むベンチマークで90%のスコアを達成するモデルよりも、おそらく能力が低い。 本稿では,LLMにおけるタスクの難易度を評価するためのフレームワークであるHardEvalを考案し,特定されたハードタスクに基づいて新しいタスクを作成する。 このフレームワークは、複数のLCMにまたがる1つのタスクに対して多様なプロンプトを使用して、ベンチマークの各タスクの難易度スコアを取得する。 HumanEval+とClassEvalの2つのコード生成ベンチマークを使用して、HumanEval+の21%とClassEvalタスクの27%だけがLSMにとって難しいことを強調して、HardEvalがこれらのベンチマーク内のハードタスクを確実に識別できることを示します。 また,課題難易度の分析を通じて,新しい課題を生成するために使用した6つの実践的課題を特徴付ける。 現在のベンチマーク評価の取り組みと直交して、HardEvalは研究者や実践者がLCMのより良い評価を促進するのを助けることができる。 難易度スコアは、既存のベンチマーク内の難しいタスクを特定するために使用することができる。 これは、LLMの評価や改善のために、特定のトピックを中心としたより難しいタスクを生成するために活用することができる。 HardEvalの一般的なアプローチは、コード補完やQ/Aといった他のドメインにも適用できる。

Large Language Models (LLMs) show promising potential in Software Engineering, especially for code-related tasks like code completion and code generation. LLMs' evaluation is generally centred around general metrics computed over benchmarks. While painting a macroscopic view of the benchmarks and of the LLMs' capacity, it is unclear how each programming task in these benchmarks assesses the capabilities of the LLMs. In particular, the difficulty level of the tasks in the benchmarks is not reflected in the score used to report the performance of the model. Yet, a model achieving a 90% score on a benchmark of predominantly easy tasks is likely less capable than a model achieving a 90% score on a benchmark containing predominantly difficult tasks. This paper devises a framework, HardEval, for assessing task difficulty for LLMs and crafting new tasks based on identified hard tasks. The framework uses a diverse array of prompts for a single task across multiple LLMs to obtain a difficulty score for each task of a benchmark. Using two code generation benchmarks, HumanEval+ and ClassEval, we show that HardEval can reliably identify the hard tasks within those benchmarks, highlighting that only 21% of HumanEval+ and 27% of ClassEval tasks are hard for LLMs. Through our analysis of task difficulty, we also characterize 6 practical hard task topics which we used to generate new hard tasks. Orthogonal to current benchmarking evaluation efforts, HardEval can assist researchers and practitioners in fostering better assessments of LLMs. The difficulty score can be used to identify hard tasks within existing benchmarks. This, in turn, can be leveraged to generate more hard tasks centred around specific topics either for evaluation or improvement of LLMs. HardEval generalistic approach can be applied to other domains such as code completion or Q/A.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# 変圧器と畳み込み統合によるベトナム語視覚質問応答の改善

Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration ( http://arxiv.org/abs/2407.21229v1 )

ライセンス: Link先を確認
Ngoc Son Nguyen, Van Son Nguyen, Tung Le, (参考訳) VQA(Visual Question Answering)は、人工知能とコンピュータビジョンの分野で多くの人々の関心を惹きつける、潜在的研究領域として最近登場した。 英語のアプローチが普及しているにもかかわらず、特定の言語、特にベトナム語向けに特別に開発されたシステムが欠如している。 本研究の目的は,ベトナムの視覚質問応答(ViVQA)データセットに関する総合的な実験を行うことで,このギャップを埋めることであり,提案モデルの有効性を実証することである。 コミュニティの関心に応えて、画像表現能力を向上し、VivQAシステム全体の性能を向上させるモデルを開発した。 具体的には,Bootstrapping Language- Image Pre-training と凍結したユニモーダルモデル (BLIP-2) と畳み込みニューラルネットワーク EfficientNet を統合し,画像から局所的特徴とグローバル的特徴の両方を抽出・処理する。 この統合は、トランスフォーマーベースのアーキテクチャの強みを活用して、包括的なコンテキスト情報と、詳細なローカル機能のための畳み込みネットワークをキャプチャする。 これらの事前学習モデルのパラメータを凍結することにより、高い性能を維持しつつ、計算コストとトレーニング時間を著しく削減する。 このアプローチは画像表現を大幅に改善し、既存のVQAシステムの性能を向上させる。 次に、汎用多目的基礎モデル(BEiT-3)に基づく多目的融合モジュールを用いて、視覚的特徴とテキスト的特徴の融合を行う。 実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。 これはViVQAデータセットのテストセットで71.04\%の精度で特に顕著であり、我々の研究領域で顕著な進歩を示している。 コードはhttps://github.com/nngocson2002/ViVQA.comで入手できる。

Visual Question Answering (VQA) has recently emerged as a potential research domain, captivating the interest of many in the field of artificial intelligence and computer vision. Despite the prevalence of approaches in English, there is a notable lack of systems specifically developed for certain languages, particularly Vietnamese. This study aims to bridge this gap by conducting comprehensive experiments on the Vietnamese Visual Question Answering (ViVQA) dataset, demonstrating the effectiveness of our proposed model. In response to community interest, we have developed a model that enhances image representation capabilities, thereby improving overall performance in the ViVQA system. Specifically, our model integrates the Bootstrapping Language-Image Pre-training with frozen unimodal models (BLIP-2) and the convolutional neural network EfficientNet to extract and process both local and global features from images. This integration leverages the strengths of transformer-based architectures for capturing comprehensive contextual information and convolutional networks for detailed local features. By freezing the parameters of these pre-trained models, we significantly reduce the computational cost and training time, while maintaining high performance. This approach significantly improves image representation and enhances the performance of existing VQA systems. We then leverage a multi-modal fusion module based on a general-purpose multi-modal foundation model (BEiT-3) to fuse the information between visual and textual features. Our experimental findings demonstrate that our model surpasses competing baselines, achieving promising performance. This is particularly evident in its accuracy of $71.04\%$ on the test set of the ViVQA dataset, marking a significant advancement in our research area. The code is available at https://github.com/nngocson2002/ViVQA.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# TMA-Grid: FAIR tissue MicroArray De-arrayingのためのオープンソースのゼロフットプリントWebアプリケーション

TMA-Grid: An open-source, zero-footprint web application for FAIR Tissue MicroArray De-arraying ( http://arxiv.org/abs/2407.21233v1 )

ライセンス: Link先を確認
Aaron Ge, Monjoy Saha, Maire A. Duggan, Petra Lenz, Mustapha Abubakar, Montserrat García-Closas, Jeya Balasubramanian, Jonas S. Almeida, Praphulla MS Bhawsar, (参考訳) 背景: 組織マイクロアレイ(TMA)は、複数の組織コアを単一のスライドでスキャンすることで、病理組織学および大規模疫学研究における分析効率を著しく向上させる。 個々のコアはデジタル的に抽出され、デアレイと呼ばれるプロセスで分析のためのメタデータにリンクされる。 しかしながら、TMAは組立誤差によるコアのミスアライメントやアーティファクトを多く含み、デアレイ処理中に抽出されたコアの信頼性に悪影響を及ぼす可能性がある。 さらに、従来のTMAデアレイ手法はデスクトップソリューションに依存しており、これらの不正確さを考慮し、効果的な下流解析を確保するためには、頑健で柔軟なデアレイ方式が不可欠である。 結果: ブラウザ内, ゼロフットプリント, インタラクティブな Web アプリケーションである TMA-Grid を開発した。 このウェブアプリケーションは、組織の精密なセグメンテーションのための畳み込みニューラルネットワークと、識別されたコアと期待された位置とを一致させるグリッド推定アルゴリズムを統合する。 このアプリケーションは対話性を重視しており、ユーザーはセグメンテーションやグリッド化の結果を容易に調整できる。 Webブラウザで完全に動作するTMA-Gridは、ダウンロードやインストールの必要性を排除し、データのプライバシを確保する。 FAIR原則(Findable、Accessible、Interoperable、Reusable)に準拠したアプリケーションとそのコンポーネントは、TMAリサーチワークフローへのシームレスな統合のために設計されています。 結論: TMA-Gridは、Web上でTMAを優先する堅牢でユーザフレンドリなソリューションを提供します。 オープンで自由にアクセスできるプラットフォームとして、TMAと類似の病理画像データの共同解析の基礎を築いている。 可用性: Web アプリケーション: https://episphere.github.io/tma-grid Code: https://github.com/episphere/tma-grid Tutorial: https://youtu.be/miajqyw4BVk

Background: Tissue Microarrays (TMAs) significantly increase analytical efficiency in histopathology and large-scale epidemiologic studies by allowing multiple tissue cores to be scanned on a single slide. The individual cores can be digitally extracted and then linked to metadata for analysis in a process known as de-arraying. However, TMAs often contain core misalignments and artifacts due to assembly errors, which can adversely affect the reliability of the extracted cores during the de-arraying process. Moreover, conventional approaches for TMA de-arraying rely on desktop solutions.Therefore, a robust yet flexible de-arraying method is crucial to account for these inaccuracies and ensure effective downstream analyses. Results: We developed TMA-Grid, an in-browser, zero-footprint, interactive web application for TMA de-arraying. This web application integrates a convolutional neural network for precise tissue segmentation and a grid estimation algorithm to match each identified core to its expected location. The application emphasizes interactivity, allowing users to easily adjust segmentation and gridding results. Operating entirely in the web-browser, TMA-Grid eliminates the need for downloads or installations and ensures data privacy. Adhering to FAIR principles (Findable, Accessible, Interoperable, and Reusable), the application and its components are designed for seamless integration into TMA research workflows. Conclusions: TMA-Grid provides a robust, user-friendly solution for TMA dearraying on the web. As an open, freely accessible platform, it lays the foundation for collaborative analyses of TMAs and similar histopathology imaging data. Availability: Web application: https://episphere.github.io/tma-grid Code: https://github.com/episphere/tma-grid Tutorial: https://youtu.be/miajqyw4BVk
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# GNUMAP:グラフニューラルネットワークによる教師なし次元性低減のためのパラメータフリーアプローチ

GNUMAP: A Parameter-Free Approach to Unsupervised Dimensionality Reduction via Graph Neural Networks ( http://arxiv.org/abs/2407.21236v1 )

ライセンス: Link先を確認
Jihee You, So Won Jeong, Claire Donnat, (参考訳) グラフニューラルネットワーク(GNN)の拡散に伴い,グラフデータに対する教師なしノード表現学習は,生物学から分子動力学まで,様々な分野において急速に普及し,次元削減ツールとしてしばしば使用されている。 しかし、これらの手法が生み出す低次元ノード表現の質の理解には大きなギャップがある。 このギャップに対処するため、我々は、様々な性能指標とともに、多様体学習タスクを含む次元削減に適した、教師なしノード埋め込み技術の総合的なベンチマークを初めて提案する。 厳密なハイパーパラメータ選択の確立された方法論が存在しない現実の環境での適用性に関する根本的な問題を明らかにする。 この問題に対処するために,従来のUMAPアプローチとGNNフレームワークの表現性を融合した,教師なしノード表現学習のための頑健でパラメータフリーな手法であるGNUMAPを紹介した。 GNUMAPは、合成幾何学的データセット、引用ネットワーク、現実世界のバイオメディカルデータなど、さまざまな文脈において、既存の最先端のGNN埋め込み手法よりも一貫して優れており、シンプルで信頼性の高い次元削減ツールである。

With the proliferation of Graph Neural Network (GNN) methods stemming from contrastive learning, unsupervised node representation learning for graph data is rapidly gaining traction across various fields, from biology to molecular dynamics, where it is often used as a dimensionality reduction tool. However, there remains a significant gap in understanding the quality of the low-dimensional node representations these methods produce, particularly beyond well-curated academic datasets. To address this gap, we propose here the first comprehensive benchmarking of various unsupervised node embedding techniques tailored for dimensionality reduction, encompassing a range of manifold learning tasks, along with various performance metrics. We emphasize the sensitivity of current methods to hyperparameter choices -- highlighting a fundamental issue as to their applicability in real-world settings where there is no established methodology for rigorous hyperparameter selection. Addressing this issue, we introduce GNUMAP, a robust and parameter-free method for unsupervised node representation learning that merges the traditional UMAP approach with the expressivity of the GNN framework. We show that GNUMAP consistently outperforms existing state-of-the-art GNN embedding methods in a variety of contexts, including synthetic geometric datasets, citation networks, and real-world biomedical data -- making it a simple but reliable dimensionality reduction tool.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# バグの分解時間予測に向けたバグ解析

Bug Analysis Towards Bug Resolution Time Prediction ( http://arxiv.org/abs/2407.21241v1 )

ライセンス: Link先を確認
Hasan Yagiz Ozkan, Poul Einer Heegaard, Wolfgang Kellerer, Carmen Mas-Machuca, (参考訳) バグはソフトウェア開発では避けられないものであり、オープンリポジトリでの報告は、ソフトウェアの透明性と信頼性の評価を高めることができる。 本研究では,イシュートラッキングシステムであるJiraから情報を抽出し,新たなバグの解決時間を推定する手法を提案する。 本手法はネットワーク事業者や製造業者の懸念に対処するネットワークプロジェクトONAPに適用される。 この研究は、ネットワークソフトウォーズプロジェクトにおけるバグ解決時間と関連する側面に関する洞察を提供する。

Bugs are inevitable in software development, and their reporting in open repositories can enhance software transparency and reliability assessment. This study aims to extract information from the issue tracking system Jira and proposes a methodology to estimate resolution time for new bugs. The methodology is applied to network project ONAP, addressing concerns of network operators and manufacturers. This research provides insights into bug resolution times and related aspects in network softwarization projects.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# 離散拡散モデルのためのインフォームド補正器

Informed Correctors for Discrete Diffusion Models ( http://arxiv.org/abs/2407.21243v1 )

ライセンス: Link先を確認
Yixiu Zhao, Jiaxin Shi, Lester Mackey, Scott Linderman, (参考訳) 離散拡散モデリングは離散空間のデータモデリングと生成のための有望なフレームワークである。 これらのモデルからサンプルを得るには、計算とサンプルの品質のトレードオフを示す戦略が異なる。 主要なサンプリング戦略は、予測子-相関子$\tau$-leapingであり、これは離散化された予測子ステップで連続時間生成プロセスをシミュレートし、修正子ステップを介して離散化エラーの蓄積に対処する。 しかし、離散拡散モデルの重要なクラスである状態拡散を吸収するためには、標準前方補正器はそのような誤りを修正するのに効果がなく、結果としてサンプルの品質が低下する。 この問題を解決するために、モデルで学習した情報を活用することにより、より確実に離散化誤差に対処できる情報修正器のファミリーを提案する。 さらなる効率向上のために,各モデル評価をよりよく活用するサンプリングアルゴリズムである$k$-Gillespie'sも提案する。 いくつかの実・合成データセットにおいて,情報付き修正器を用いた$k$-Gillespieは,より低い計算コストで高い品質のサンプルを確実に生成することを示す。

Discrete diffusion modeling is a promising framework for modeling and generating data in discrete spaces. To sample from these models, different strategies present trade-offs between computation and sample quality. A predominant sampling strategy is predictor-corrector $\tau$-leaping, which simulates the continuous time generative process with discretized predictor steps and counteracts the accumulation of discretization error via corrector steps. However, for absorbing state diffusion, an important class of discrete diffusion models, the standard forward-backward corrector can be ineffective in fixing such errors, resulting in subpar sample quality. To remedy this problem, we propose a family of informed correctors that more reliably counteracts discretization error by leveraging information learned by the model. For further efficiency gains, we also propose $k$-Gillespie's, a sampling algorithm that better utilizes each model evaluation, while still enjoying the speed and flexibility of $\tau$-leaping. Across several real and synthetic datasets, we show that $k$-Gillespie's with informed correctors reliably produces higher quality samples at lower computational cost.
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# VITAL:ロボットの視覚的遠隔操作による学習支援

VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections ( http://arxiv.org/abs/2407.21244v1 )

ライセンス: Link先を確認
Hamidreza Kasaei, Mohammadreza Kasaei, (参考訳) イミテーション・ラーニング(IL)はロボット工学において強力なアプローチとして登場し、ロボットは人間の行動を模倣することで新しいスキルを身につけることができる。 その可能性にもかかわらず、ILのデータ収集プロセスは、ロジスティックな困難と高品質なデモンストレーションの獲得に伴う高コストのため、依然として重大な課題である。 これらの課題に対処するために,VITALと呼ばれる双方向操作タスクのための低コストな視覚遠隔操作システムを提案する。 当社のアプローチでは、安価なハードウェアとビジュアル処理技術を活用してデモを収集し、それを拡張して、模倣学習のための広範なトレーニングデータセットを作成する。 実環境とシミュレーション環境の両方を利用して学習方針の一般化性と堅牢性を向上する。 本手法は,ボトル収集,積み重ね,ハンマー処理など,様々な複雑さのタスクに着目し,シミュレーションおよび実ロボット設定におけるいくつかの実験を通じて評価した。 シミュレーションデータからロバストなロボットポリシーを学習する上でのアプローチの有効性を実験により検証した。 さらに,ドリンクトレイの設定,適応性を示すこと,および多種多様な実世界のバイマニュアル操作タスクを扱う可能性など,新たなタスクに一般化するフレームワークの能力を実証する。 実験のビデオは、https://youtu.be/YeVAMRqRe64? si=R179xDlEGc7nPu8i

Imitation Learning (IL) has emerged as a powerful approach in robotics, allowing robots to acquire new skills by mimicking human actions. Despite its potential, the data collection process for IL remains a significant challenge due to the logistical difficulties and high costs associated with obtaining high-quality demonstrations. To address these issues, we propose a low-cost visual teleoperation system for bimanual manipulation tasks, called VITAL. Our approach leverages affordable hardware and visual processing techniques to collect demonstrations, which are then augmented to create extensive training datasets for imitation learning. We enhance the generalizability and robustness of the learned policies by utilizing both real and simulated environments and human-in-the-loop corrections. We evaluated our method through several rounds of experiments in simulated and real-robot settings, focusing on tasks of varying complexity, including bottle collecting, stacking objects, and hammering. Our experimental results validate the effectiveness of our approach in learning robust robot policies from simulated data, significantly improved by human-in-the-loop corrections and real-world data integration. Additionally, we demonstrate the framework's capability to generalize to new tasks, such as setting a drink tray, showcasing its adaptability and potential for handling a wide range of real-world bimanual manipulation tasks. A video of the experiments can be found at: https://youtu.be/YeVAMRqRe64?si=R179xDlEGc7nPu8i
翻訳日:2024-08-01 19:14:52 公開日:2024-07-30
# プライシングトークンによる大規模言語モデルに対する適応型事前学習データ検出

Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens ( http://arxiv.org/abs/2407.21248v1 )

ライセンス: Link先を確認
Anqi Zhang, Chaofeng Wu, (参考訳) 大規模言語モデル(LLM)は広く使用されているが、不透明なトレーニングデータのためにプライバシー、セキュリティ、著作権に関する懸念が高まっている。 この問題に対する現在の解決策は、LLMの冗長記憶能力に大きく依存する、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。 しかし、この依存は、特に膨大なトレーニングデータと効果的なトレーニングエポックの制限数を考えると、課題を提起する。 本稿では、この信頼性を軽減し、識別を効果的に増幅する適応型事前学習データ検出法を提案する。 本手法は入力の <textit{surprising tokens} を適応的に検出する。 トークンがLLMに驚くべきのは、トークン上の予測が"確かだが間違った"場合であり、これは確率分布のシャノンエントロピーが低く、基底真理トークンの確率が低いことを指す。 予期せぬトークンの予測確率を用いて, 未知のデータと比較すると, 目に見えないデータを見ることは, モデルにとって意外ではないという単純な仮説に基づいて, 検出を行う。 この方法は、事前トレーニングデータコーパスへのアクセスや、参照モデルのような追加のトレーニングを必要とせずに適用することができる。 提案手法は, 各種ベンチマークおよびモデルを用いた各種実験において, 既存手法と比較して一貫した拡張性を示し, 29.5 % の最大改善を実現している。 また、モデルトレーニング前後に収集した書籍データを用いて、新たな評価を行う新しいフレームワーク上で開発されたDolma-Bookベンチマークも導入した。

While large language models (LLMs) are extensively used, there are raising concerns regarding privacy, security, and copyright due to their opaque training data, which brings the problem of detecting pre-training data on the table. Current solutions to this problem leverage techniques explored in machine learning privacy such as Membership Inference Attacks (MIAs), which heavily depend on LLMs' capability of verbatim memorization. However, this reliance presents challenges, especially given the vast amount of training data and the restricted number of effective training epochs. In this paper, we propose an adaptive pre-training data detection method which alleviates this reliance and effectively amplify the identification. Our method adaptively locates \textit{surprising tokens} of the input. A token is surprising to a LLM if the prediction on the token is "certain but wrong", which refers to low Shannon entropy of the probability distribution and low probability of the ground truth token at the same time. By using the prediction probability of surprising tokens to measure \textit{surprising}, the detection method is achieved based on the simple hypothesis that seeing seen data is less surprising for the model compared with seeing unseen data. The method can be applied without any access to the the pre-training data corpus or additional training like reference models. Our approach exhibits a consistent enhancement compared to existing methods in diverse experiments conducted on various benchmarks and models, achieving a maximum improvement of 29.5\%. We also introduce a new benchmark Dolma-Book developed upon a novel framework, which employs book data collected both before and after model training to provide further evaluation.
翻訳日:2024-08-01 19:04:58 公開日:2024-07-30
# K-Deep Simplex: ローカル辞書による深層マニフォールド学習

K-Deep Simplex: Deep Manifold Learning via Local Dictionaries ( http://arxiv.org/abs/2012.02134v4 )

ライセンス: Link先を確認
Pranay Tankala, Abiy Tasissa, James M. Murphy, Demba Ba, (参考訳) そこで我々は,K-Deep Simplex(KDS)を提案する。このK-Deep Simplex(KDS)は,合成ランドマークからなる辞書を,単純度に支持された表現係数とともに学習する。 KDSは局所重み付き$\ell_1$ペナルティを採用しており、各データポイントが近傍のランドマークの凸結合として自身を表現することを奨励している。 本稿では,最小化の交互化による最適化プログラムを解くとともに,アルゴリズムアンローリングを用いた効率よく解釈可能なオートエンコーダを設計する。 KDSの重み付き$\ell_1$ペナルティを重み付き$\ell_0$プログラムに関連付けて提案プログラムを理論的に解析する。 データがデラウネー三角測量から生成されると仮定すると、重み付き$\ell_1$と重み付き$\ell_0$プログラムの等価性を証明する。 さらに、軽微な幾何学的仮定の下での表現係数の安定性を示す。 表現係数が固定された場合、辞書上で最小化する部分確率が一意解となることを証明する。 さらに,係数行列の共分散から低次元表現を効率よく得ることを示す。 実験により,アルゴリズムは効率が高く,合成データセットや実データに対して競争力があることが示された。

We propose K-Deep Simplex(KDS) which, given a set of data points, learns a dictionary comprising synthetic landmarks, along with representation coefficients supported on a simplex. KDS employs a local weighted $\ell_1$ penalty that encourages each data point to represent itself as a convex combination of nearby landmarks. We solve the proposed optimization program using alternating minimization and design an efficient, interpretable autoencoder using algorithm unrolling. We theoretically analyze the proposed program by relating the weighted $\ell_1$ penalty in KDS to a weighted $\ell_0$ program. Assuming that the data are generated from a Delaunay triangulation, we prove the equivalence of the weighted $\ell_1$ and weighted $\ell_0$ programs. We further show the stability of the representation coefficients under mild geometrical assumptions. If the representation coefficients are fixed, we prove that the sub-problem of minimizing over the dictionary yields a unique solution. Further, we show that low-dimensional representations can be efficiently obtained from the covariance of the coefficient matrix. Experiments show that the algorithm is highly efficient and performs competitively on synthetic and real data sets.
翻訳日:2024-08-01 13:43:16 公開日:2024-07-30
# 多次元スケーリングに対する二元的アプローチ

A dual basis approach to multidimensional scaling ( http://arxiv.org/abs/2303.05682v2 )

ライセンス: Link先を確認
Samuel Lichtenberg, Abiy Tasissa, (参考訳) 古典多次元スケーリング(英: Classical multidimensional scaling、CMDS)とは、ユークリッド空間に対象の集合を埋め込む手法である。 CMDSの主部分は平方距離行列の二重中心化と、点座標の回復に切り離された固有分解を用いる。 本稿では,ユークリッド距離幾何学の研究を動機とし,CMDSに対する二元的アプローチについて検討する。 双対基底ベクトルに対して明示的な公式を与え、双対基底フレームワークにおける本質行列のスペクトルを完全に特徴づける。 距離近接性における関連する問題に接続する。

Classical multidimensional scaling (CMDS) is a technique that embeds a set of objects in a Euclidean space given their pairwise Euclidean distances. The main part of CMDS involves double centering a squared distance matrix and using a truncated eigendecomposition to recover the point coordinates. In this paper, motivated by a study in Euclidean distance geometry, we explore a dual basis approach to CMDS. We give an explicit formula for the dual basis vectors and fully characterize the spectrum of an essential matrix in the dual basis framework. We make connections to a related problem in metric nearness.
翻訳日:2024-08-01 13:43:16 公開日:2024-07-30
# 低ランク行列回復による構造的距離行列からの局所化

Localization from structured distance matrices via low-rank matrix recovery ( http://arxiv.org/abs/2311.18076v2 )

ライセンス: Link先を確認
Samuel Lichtenberg, Abiy Tasissa, (参考訳) アンカーノードと呼ばれる$m$ノードへの距離を用いて,$n$ポイントの設定を決定する問題について検討する。 1つのサンプリングスキームはナイストロームサンプリングであり、アンカーとアンカーと$n$ポイントの間の既知の距離を仮定するが、$n$ポイント間の距離は未知である。 このスキームでは、カーネル近似によく用いられるナイストローム法の簡単な適応は、アンカーと$n$ポイントの設定を推定する実行可能な手法である。 本稿では,各ノードから1つの中央ノードまでの距離が知られているが,他のすべての距離が不完全であるNystromサンプリングの修正版を提案する。 この設定では、標準的なナイストロームのアプローチは適用不可能であり、アンカーと$n$ポイントの設定を見積もる別の手法を必要とする。 この問題は、グラム行列の低ランク部分行列の回復として表すことができる。 合成データと実データを用いて,提案手法が十分な距離サンプルを与えられた点の構成を正確に復元できることを実証した。 このことは、距離行列を大域的にサンプリングする手法とは対照的に、ポイントの設定を推定するタスクは、信頼度の高いアンカーを用いた構造化サンプリングによって効率的に行うことができることを示している。 最後に、我々の主な分析は、ポイントの特定の中心にある。 このことを念頭にして、ユークリッド距離幾何学における以前の研究を、どこでも中心とする点に対する一般的な双対基底的アプローチを提供することによって拡張する。

We study the problem of determining the configuration of $n$ points by using their distances to $m$ nodes, referred to as anchor nodes. One sampling scheme is Nystrom sampling, which assumes known distances between the anchors and between the anchors and the $n$ points, while the distances among the $n$ points are unknown. For this scheme, a simple adaptation of the Nystrom method, which is often used for kernel approximation, is a viable technique to estimate the configuration of the anchors and the $n$ points. In this manuscript, we propose a modified version of Nystrom sampling, where the distances from every node to one central node are known, but all other distances are incomplete. In this setting, the standard Nystrom approach is not applicable, necessitating an alternative technique to estimate the configuration of the anchors and the $n$ points. We show that this problem can be framed as the recovery of a low-rank submatrix of a Gram matrix. Using synthetic and real data, we demonstrate that the proposed approach can exactly recover configurations of points given sufficient distance samples. This underscores that, in contrast to methods that rely on global sampling of distance matrices, the task of estimating the configuration of points can be done efficiently via structured sampling with well-chosen reliable anchors. Finally, our main analysis is grounded in a specific centering of the points. With this in mind, we extend previous work in Euclidean distance geometry by providing a general dual basis approach for points centered anywhere.
翻訳日:2024-08-01 13:37:09 公開日:2024-07-30
# スクリーニングされた核クーロン場を有する1次元水素イオン

One-dimensional hydrogenic ions with screened nuclear Coulomb field ( http://arxiv.org/abs/2312.04033v2 )

ライセンス: Link先を確認
Suchindram Dasgupta, Chirag Khurana, A. Shadi Tahvildar-Zadeh, (参考訳) 我々は、核が原点に固定されていると仮定されるボルン・オッペンハイマー近似において、点核の静電ポテンシャルにおける1つの電子の1つの空間次元におけるディラック・ハミルトンのスペクトルを研究する。 ポテンシャルは広い距離で遮蔽され、空間無限遠で指数関数的にゼロになる。 我々は、ハミルトニアンが本質的に自己随伴であり、本質的なスペクトルは通常のギャップ$(-mc^2,mc^2)$を持ち、そのギャップには、系の基底状態と励起状態に対応する有限個の固有値しか存在しないことを示す。 このハミルトニアンの固有関数と、有限シリンダー上のある力学系のヘテロクリニックサドル-サドルコネクタの1対1対応を見いだす。 この対応を利用して、核電荷によって境界状態の数がどのように変化するかを研究する。

We study the spectrum of the Dirac hamiltonian in one space dimension for a single electron in the electrostatic potential of a point nucleus, in the Born-Oppenheimer approximation where the nucleus is assumed fixed at the origin. The potential is screened at large distances so that it goes to zero exponentially at spatial infinity. We show that the hamiltonian is essentially self-adjoint, the essential spectrum has the usual gap $(-mc^2,mc^2)$ in it, and that there are only finitely many eigenvalues in that gap, corresponding to ground and excited states for the system. We find a one-to-one correspondence between the eigenfunctions of this hamiltonian and the heteroclinic saddle-saddle connectors of a certain dynamical system on a finite cylinder. We use this correspondence to study how the number of bound states changes with the nuclear charge.
翻訳日:2024-08-01 13:37:09 公開日:2024-07-30
# カシミール効果を誘発する二重キラル密度波

Dual chiral density wave induced oscillating Casimir effect ( http://arxiv.org/abs/2402.17638v2 )

ライセンス: Link先を確認
Daisuke Fujii, Katsumasa Nakayama, Kei Suzuki, (参考訳) カシミール効果は、小さな体積で閉じ込められた光子場から誘導されることが知られ、そのフェルミオン効果は幅広い量子系で予測されている。 ここでは,高密度および薄いクォーク物質中のクォーク場からカシミール効果が生じるかを検討する。 特に、密度の強いクォーク物質の基底状態である二重カイラル密度波では、カシミールエネルギーが物質の厚さの関数として振動する。 この振動カシミール効果は、ワイル半金属の類似と見なされ、クォーク場の運動量空間におけるワイル点に起因している。 さらに, クォークフェルミ海からの発振も誘発され, 総カシミールエネルギーは多重発振で構成されていることを示す。

The Casimir effect is known to be induced from photon fields confined by a small volume, and also its fermionic counterpart has been predicted in a wide range of quantum systems. Here, we investigate what types of Casimir effects can occur from quark fields in dense and thin quark matter. In particular, in the dual chiral density wave, which is a possible ground state of dense quark matter, we find that the Casimir energy oscillates as a function of the thickness of matter. This oscillating Casimir effect is regarded as an analog of that in Weyl semimetals and is attributed to the Weyl points in the momentum space of quark fields. In addition, we show that an oscillation is also induced from the quark Fermi sea, and the total Casimir energy is composed of multiple oscillations.
翻訳日:2024-08-01 13:27:16 公開日:2024-07-30
# 損失の切り替えはバッチ強化学習のコストを削減する

Switching the Loss Reduces the Cost in Batch Reinforcement Learning ( http://arxiv.org/abs/2403.05385v4 )

ライセンス: Link先を確認
Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James McInerney, Dawen Liang, Nathan Kallus, Csaba Szepesvári, (参考訳) バッチ強化学習(RL)のためのログロス付きQ-iteration(FQI-log)のトレーニングを提案する。 本稿では,FQI-logを用いた準最適政策の学習に必要なサンプルの数が最適政策の累積コストと一致していることを示す。 そのような場合、バッチ RL において、最適な達成可能なコストでスケールする小さなコスト境界を証明するための一般的なフレームワークを提供する。 さらに,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。

We propose training fitted Q-iteration with log-loss (FQI-log) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-log scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving small-cost bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-log uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal.
翻訳日:2024-08-01 13:27:16 公開日:2024-07-30
# 機械学習アンサンブルにおける予測不安定性

Prediction Instability in Machine Learning Ensembles ( http://arxiv.org/abs/2407.03194v2 )

ライセンス: Link先を確認
Jeremy Kedziora, (参考訳) 機械学習では、複数のモデルからの予測が集約される。 応用問題におけるアンサンブルの広範な使用と強力な性能にもかかわらず、アグリゲーションモデルの数学的性質や、そのようなモデルの安全で説明可能な使用に関する結果についてはほとんど知られていない。 本稿では,任意のアンサンブルが以下の予測不安定性の少なくとも1つの形式を示すことを示す定理を証明した。 基礎となるすべてのモデル間の合意を無視したり、基礎となるモデルが存在しない場合、その考えを変更したり、実際に予測することのないオプションを除外したりすることで、操作可能になります。 結果として、アンサンブルアグリゲーションの手順は、情報利用の利点とこれらの予測不安定性のリスクのバランスをとる必要がある。 この分析はまた、特定のアンサンブルアルゴリズムから予想される特定の形の予測不安定性(例えば、ランダムな森やxgboostのような一般的な樹木のアンサンブル)が、基本的な直感的なフェアネス特性に反する、ということにも光を当てている。 最後に、これは漸近的条件下で一貫したモデルを用いて改善可能であることを示す。

In machine learning ensembles predictions from multiple models are aggregated. Despite widespread use and strong performance of ensembles in applied problems little is known about the mathematical properties of aggregating models and associated consequences for safe, explainable use of such models. In this paper we prove a theorem that shows that any ensemble will exhibit at least one of the following forms of prediction instability. It will either ignore agreement among all underlying models, change its mind when none of the underlying models have done so, or be manipulable through inclusion or exclusion of options it would never actually predict. As a consequence, ensemble aggregation procedures will always need to balance the benefits of information use against the risk of these prediction instabilities. This analysis also sheds light on what specific forms of prediction instability to expect from particular ensemble algorithms; for example popular tree ensembles like random forest, or xgboost will violate basic, intuitive fairness properties. Finally, we show that this can be ameliorated by using consistent models in asymptotic conditions.
翻訳日:2024-08-01 13:17:29 公開日:2024-07-30
# YourMT3+: 拡張トランスフォーマーアーキテクチャとデータセット間ステム拡張によるマルチインストラクト音楽の書き起こし

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation ( http://arxiv.org/abs/2407.04822v2 )

ライセンス: Link先を確認
Sungkyun Chang, Emmanouil Benetos, Holger Kirchhoff, Simon Dixon, (参考訳) マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。 このタスクは、複数の楽器を同時に識別し、ピッチと正確なタイミングを記述する必要があるため、モデリングには困難である。 本稿では,MT3の最近の言語トークン復号法に基づくマルチストラクチャ・ミュージック・書き起こしの強化モデルであるYourMT3+を紹介する。 我々は、時間周波数領域における階層型アテンショントランスフォーマーを採用し、専門家の混在を統合することでエンコーダを強化する。 データ制限に対処するため、不完全なアノテーションでトレーニングを行うための新しいマルチチャネルデコーディング手法を導入し、データセット混合のためのイントラおよびクロスステム拡張を提案する。 実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。 10の公開データセットのベンチマークは、既存の転写モデルとの競合性、あるいは優位性を示しています。 ポップミュージック録音のさらなるテストは、現在のモデルの限界を強調している。 完全な再現可能なコードとデータセットは、 \url{https://github.com/mimbres/YourMT3}でデモが公開されている。

Multi-instrument music transcription aims to convert polyphonic music recordings into musical scores assigned to each instrument. This task is challenging for modeling as it requires simultaneously identifying multiple instruments and transcribing their pitch and precise timing, and the lack of fully annotated data adds to the training difficulties. This paper introduces YourMT3+, a suite of models for enhanced multi-instrument music transcription based on the recent language token decoding approach of MT3. We enhance its encoder by adopting a hierarchical attention transformer in the time-frequency domain and integrating a mixture of experts. To address data limitations, we introduce a new multi-channel decoding method for training with incomplete annotations and propose intra- and cross-stem augmentation for dataset mixing. Our experiments demonstrate direct vocal transcription capabilities, eliminating the need for voice separation pre-processors. Benchmarks across ten public datasets show our models' competitiveness with, or superiority to, existing transcription models. Further testing on pop music recordings highlights the limitations of current models. Fully reproducible code and datasets are available with demos at \url{https://github.com/mimbres/YourMT3}.
翻訳日:2024-08-01 13:17:29 公開日:2024-07-30
# カーネル支援ベクトルマシンの確率共役次数アルゴリズム

The Stochastic Conjugate Subgradient Algorithm For Kernel Support Vector Machines ( http://arxiv.org/abs/2407.21091v1 )

ライセンス: Link先を確認
Di Zhang, Suvrajeet Sen, (参考訳) Stochastic First-Order (SFO) メソッドは、機械学習(ML)の幅広い課題に対処する上で、基盤となっている。 しかし、特に経験的証拠が潜在的な性能限界を示す大規模アプリケーションでは、それらの効果はますます疑問視されている。 本稿では,カーネルサポートベクトルマシン(SVM)に特化して設計された革新的な手法を提案する。 この手法はイテレーション毎の収束を高速化するだけでなく,従来のSFO手法と比較して拡張性も向上する。 カーネルSVMを「オールインワン」擬似プログラム(QP)とみなす従来のサンプル平均近似戦略から逸脱し、適応サンプリングを採用する。 この戦略は「必要」に基づいて近似精度を漸進的に改善する。 重要なことに、このアプローチは分解に基づくアルゴリズムを刺激し、エラー推定からパラメータ選択を効果的に分解し、後者は各データポイントに対して独立に決定される。 カーネル行列の二次性を活用するために,確率共役次数法を導入する。 この方法は、SVM問題の非線形性と非滑らか性の両方を十分に扱いながら、一階述語アプローチの多くの利点を保っている。 したがって、非滑らか凸最適化のための標準SFOアルゴリズムの能力を超えて拡張される。 本論文では,本手法の収束率について概説する。 実験の結果,提案アルゴリズムはSFO法のスケーラビリティを維持できるだけでなく,潜在的に超越していることが示された。 さらに、最適化プロセスの速度と精度を大幅に向上させる。

Stochastic First-Order (SFO) methods have been a cornerstone in addressing a broad spectrum of modern machine learning (ML) challenges. However, their efficacy is increasingly questioned, especially in large-scale applications where empirical evidence indicates potential performance limitations. In response, this paper proposes an innovative method specifically designed for kernel support vector machines (SVMs). This method not only achieves faster convergence per iteration but also exhibits enhanced scalability when compared to conventional SFO techniques. Diverging from traditional sample average approximation strategies that typically frame kernel SVM as an 'all-in-one' Quadratic Program (QP), our approach adopts adaptive sampling. This strategy incrementally refines approximation accuracy on an 'as-needed' basis. Crucially, this approach also inspires a decomposition-based algorithm, effectively decomposing parameter selection from error estimation, with the latter being independently determined for each data point. To exploit the quadratic nature of the kernel matrix, we introduce a stochastic conjugate subgradient method. This method preserves many benefits of first-order approaches while adeptly handling both nonlinearity and non-smooth aspects of the SVM problem. Thus, it extends beyond the capabilities of standard SFO algorithms for non-smooth convex optimization. The convergence rate of this novel method is thoroughly analyzed within this paper. Our experimental results demonstrate that the proposed algorithm not only maintains but potentially exceeds the scalability of SFO methods. Moreover, it significantly enhances both speed and accuracy of the optimization process.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# 単位の確率的組合せによる量子シミュレーション

Quantum Simulation via Stochastic Combination of Unitaries ( http://arxiv.org/abs/2407.21095v1 )

ライセンス: Link先を確認
Joseph Peetz, Scott E. Smart, Prineha Narang, (参考訳) 量子シミュレーションアルゴリズムは、多くのアンシラ量子ビットとディープ回路を必要とすることが多い。 我々は、多ビットディレーションの代わりに低深度回路のアンサンブルを用いて量子チャネルをシミュレートするフレームワークを提案する。 これにより、ibm_hanoi上に減衰した多ビットGHZ状態を作成することで、オープンシステムのシミュレーションが自然に可能となる。 この技術は、スペクトル精度の漸近独立性を持つ2つのハミルトンシミュレーションアルゴリズムを刺激し、ベンチマークシステムに対するリソース要求を数桁削減する。

Quantum simulation algorithms often require numerous ancilla qubits and deep circuits, prohibitive for near-term hardware. We introduce a framework for simulating quantum channels using ensembles of low-depth circuits in place of many-qubit dilations. This naturally enables simulations of open systems, which we demonstrate by preparing damped many-qubit GHZ states on ibm_hanoi. The technique further inspires two Hamiltonian simulation algorithms with asymptotic independence of the spectral precision, reducing resource requirements by several orders of magnitude for a benchmark system.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# 第一原理からの計算音楽解析

Computational music analysis from first principles ( http://arxiv.org/abs/2407.21130v1 )

ライセンス: Link先を確認
Dmitri Tymoczko, Mark Newman, (参考訳) 我々は隠れマルコフモデルを用いて、約10万の音符と2万の和音を含むコーパスであるリーメンシュナイダー版(Riemenschneider)の371のバッハ合唱曲を自動的に注釈付けした。 音楽構文についてより強い仮定をするコストで,段階的に高い精度を達成できる3つの異なる分析法を提案する。 提案手法は人間の入力をほとんど利用しないが, 専門家による人間の分析と比較すると, 85%以上の精度でコードとキーを識別できる。 我々の研究は、標準西洋調和理論によって仮定された構造物の客観的現実に関する長年にわたる議論と、西洋調和構文の性質に関する特定の疑問に焦点をあてている。

We use coupled hidden Markov models to automatically annotate the 371 Bach chorales in the Riemenschneider edition, a corpus containing approximately 100,000 notes and 20,000 chords. We give three separate analyses that achieve progressively greater accuracy at the cost of making increasingly strong assumptions about musical syntax. Although our method makes almost no use of human input, we are able to identify both chords and keys with an accuracy of 85% or greater when compared to an expert human analysis, resulting in annotations accurate enough to be used for a range of music-theoretical purposes, while also being free of subjective human judgments. Our work bears on longstanding debates about the objective reality of the structures postulated by standard Western harmonic theory, as well as on specific questions about the nature of Western harmonic syntax.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# 入射揮発性表面フィードバック情報によるオプションの深いヘッジ化

Enhancing Deep Hedging of Options with Implied Volatility Surface Feedback Information ( http://arxiv.org/abs/2407.21138v1 )

ライセンス: Link先を確認
Pascal François, Geneviève Gauthier, Frédéric Godin, Carlos Octavio Pérez Mendoza, (参考訳) 本稿では,S&P500 オプションに対する動的ヘッジ方式を提案する。 最適なヘッジ戦略は、訓練性能を向上させる新しいハイブリッドニューラルネットワークアーキテクチャを用いて、ディープポリシー勾配型強化学習アルゴリズムによって得られる。 ボラティリティサーフェスに埋め込まれた前方視認性情報を含めることで、シミュレーションやバックテスト実験において、実践者や笑顔で実装されたデルタヘッジ手順など、いくつかの従来のベンチマークを上回ります。

We present a dynamic hedging scheme for S&P 500 options, where rebalancing decisions are enhanced by integrating information about the implied volatility surface dynamics. The optimal hedging strategy is obtained through a deep policy gradient-type reinforcement learning algorithm, with a novel hybrid neural network architecture improving the training performance. The favorable inclusion of forward-looking information embedded in the volatility surface allows our procedure to outperform several conventional benchmarks such as practitioner and smiled-implied delta hedging procedures, both in simulation and backtesting experiments.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# フレキシブルな幾何を持つ射影エンタングルペア状態

Projected Entangled Pair States with flexible geometry ( http://arxiv.org/abs/2407.21140v1 )

ライセンス: Link先を確認
Siddhartha Patra, Sukhbinder Singh, Román Orús, (参考訳) 射影絡み合ったペア状態(英: Projected Entangled Pair States、PEPS)は、一次元系の行列積状態を高次元に一般化する量子多体状態のクラスである。 近年、PEPSは特に量子スピン液体のような2次元の強い相関系の理解を深めている。 通常、正則格子上のテンソルネットワーク(例えば、正方形、立方形)によって記述されるPEPSもまた不規則グラフに適応しているが、計算コストは大きな頂点次数を持つ高次グラフに対しては禁じられている。 本稿では, 任意の, ゆらぎ, 密接なグラフ上に定義された低エネルギー状態と力学をシミュレートするPEPSアルゴリズムを提案する。 我々は,PEPSの頂点度を,単純なエッジ削除規則を適用して最適化に強制し,PEPSの幾何学がシステムの相関構造に動的に変化し適応できるようにする,カットオフの$\kappa \in \mathbb{N}$を導入する。 我々は、古典的なスピングラスと数百のスピンを持つ密結合グラフ上の量子アニールのシミュレーションを用いて、フレキシブルPEPSアルゴリズムをベンチマークし、また、正則(二乗)格子上の一様量子スピンモデルをシミュレートする際に、$\kappa$のチューニングが与える影響を調べた。 我々の研究は、テンソルネットワークアルゴリズムを任意の、あるいは変動するバックグラウンドジオメトリに適用する方法を開く。

Projected Entangled Pair States (PEPS) are a class of quantum many-body states that generalize Matrix Product States for one-dimensional systems to higher dimensions. In recent years, PEPS have advanced understanding of strongly correlated systems, especially in two dimensions, e.g., quantum spin liquids. Typically described by tensor networks on regular lattices (e.g., square, cubic), PEPS have also been adapted for irregular graphs, however, the computational cost becomes prohibitive for dense graphs with large vertex degrees. In this paper, we present a PEPS algorithm to simulate low-energy states and dynamics defined on arbitrary, fluctuating, and densely connected graphs. We introduce a cut-off, $\kappa \in \mathbb{N}$, to constrain the vertex degree of the PEPS to a set but tunable value, which is enforced in the optimization by applying a simple edge-deletion rule, allowing the geometry of the PEPS to change and adapt dynamically to the system's correlation structure. We benchmark our flexible PEPS algorithm with simulations of classical spin glasses and quantum annealing on densely connected graphs with hundreds of spins, and also study the impact of tuning $\kappa$ when simulating a uniform quantum spin model on a regular (square) lattice. Our work opens the way to apply tensor network algorithms to arbitrary, even fluctuating, background geometries.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# FL-DECO-BC: VANET用のブロックチェーン上に分散化されたOracleを備えたプライバシ保護、保護、そして保護されたフェデレーションラーニングフレームワーク

FL-DECO-BC: A Privacy-Preserving, Provably Secure, and Provenance-Preserving Federated Learning Framework with Decentralized Oracles on Blockchain for VANETs ( http://arxiv.org/abs/2407.21141v1 )

ライセンス: Link先を確認
Sathwik Narkedimilli, Rayachoti Arun Kumar, N. V. Saran Kumar, Ramapathruni Praneeth Reddy, Pavan Kumar C, (参考訳) Vehicular Ad-Hoc Networks (VANETs) は、交通の安全と効率を改善する大きな可能性を秘めている。 しかし、VANETにおける機械学習の従来の集中型アプローチは、データのプライバシとセキュリティに関する懸念を提起している。 Federated Learning (FL)は、生データを共有せずに協調的なモデルトレーニングを可能にするソリューションを提供する。 本稿では,VANET に特化して設計された新しいプライバシ保護・安全・実証性保護型フェデレーション学習フレームワークとして FL-DECO-BC を提案する。 FL-DECO-BCはブロックチェーン上の分散オーラクルを活用して、高度な技術を通じてデータのプライバシを確保しながら、外部データソースをセキュアにアクセスする。 このフレームワークは、暗号化プリミティブと正式な検証方法を通じて、証明可能なセキュリティを保証する。 さらにFL-DECO-BCは、データの起源と履歴を追跡し、信頼と説明責任を育むために、実績保存設計を取り入れている。 この組み合わせにより、VANETはセキュアでプライバシを重視した機械学習機能を提供し、高度なトラフィック管理と安全アプリケーションへの道を開くことができる。

Vehicular Ad-Hoc Networks (VANETs) hold immense potential for improving traffic safety and efficiency. However, traditional centralized approaches for machine learning in VANETs raise concerns about data privacy and security. Federated Learning (FL) offers a solution that enables collaborative model training without sharing raw data. This paper proposes FL-DECO-BC as a novel privacy-preserving, provably secure, and provenance-preserving federated learning framework specifically designed for VANETs. FL-DECO-BC leverages decentralized oracles on blockchain to securely access external data sources while ensuring data privacy through advanced techniques. The framework guarantees provable security through cryptographic primitives and formal verification methods. Furthermore, FL-DECO-BC incorporates a provenance-preserving design to track data origin and history, fostering trust and accountability. This combination of features empowers VANETs with secure and privacy-conscious machine-learning capabilities, paving the way for advanced traffic management and safety applications.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# 講座委員会における質問に対する解答プロンプト

Decomposed Prompting to Answer Questions on a Course Discussion Board ( http://arxiv.org/abs/2407.21170v1 )

ライセンス: Link先を確認
Brandon Jaipersaud, Paul Zhang, Jimmy Ba, Andrew Petersen, Lisa Zhang, Michael R. Zhang, (参考訳) 本稿では,学生の質問を分類・回答するために,解答プロンプトを用いた質問応答システムを提案し,評価する。 我々のシステムは,質問を概念,宿題,物流,解答不能の4つのタイプのうちの1つに分類するために,大きな言語モデル(LLM)を使用している。 これにより、異なるタイプに該当する質問に答えるための異なる戦略が採用できます。 GPT-3 の変種を用いて,分類精度が 81 % である。 本稿では,機械学習コースと様々な障害モードから概念的疑問に答えるシステムの性能について論じる。

We propose and evaluate a question-answering system that uses decomposed prompting to classify and answer student questions on a course discussion board. Our system uses a large language model (LLM) to classify questions into one of four types: conceptual, homework, logistics, and not answerable. This enables us to employ a different strategy for answering questions that fall under different types. Using a variant of GPT-3, we achieve $81\%$ classification accuracy. We discuss our system's performance on answering conceptual questions from a machine learning course and various failure modes.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# 超伝導線中の非平衡準粒子エネルギー分布からの電荷と磁束ノイズ

Charge and Flux Noise from Nonequilibrium Quasiparticle Energy Distributions in Superconducting Wires ( http://arxiv.org/abs/2407.21177v1 )

ライセンス: Link先を確認
José Alberto Nava Aquino, Rogério de Sousa, (参考訳) 低温超伝導回路で観測される準粒子密度は、熱平衡で期待される値よりも数桁高い。 ジョセフソン接合部におけるこの過剰な準粒子のトンネルは超伝導量子ビットにおける主要な損失と脱コヒーレンス機構の1つとして認識されている。 ここでは,非平衡準粒子密度から生じる損失機構について述べる。 我々の理論は、過剰な準粒子が準平衡[T]にあるという最近の実験的証明を利用する。 Connolly et al , $\href{https://doi.org/10.1103/PhysRevLett.132.217001}{Phys レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ bf 132}, 217001 (2024)}$] で、一般化されたゆらぎ散逸定理を用いて、それらによって生じる電荷とフラックスノイズの量を予測する。 その結果、MHz帯における非晶質2レベル系による誘電体損失よりも大きい電荷雑音が得られ、実験で観測されたフラックスノイズに匹敵する「近白色」の対数的寄与が得られた。 このことは、準粒子がジョセフソン接合から遠く離れている場合でも、ワイヤー抵抗準粒子が損失と脱コヒーレンスの普遍的な源であることが示される。

The quasiparticle density observed in low-temperature superconducting circuits is several orders of magnitude higher than the value expected at thermal equilibrium. The tunneling of this excess of quasiparticles across Josephson junctions is recognized as one of the main loss and decoherence mechanisms in superconducting qubits. Here we propose an additional loss mechanism arising from nonequilibrium quasiparticle densities: Ohmic loss due to quasiparticles residing in superconducting wires away from the junctions. Our theory leverages the recent experimental demonstration that the excess quasiparticles are in quasiequilibrium [T. Connolly et al., $\href{https://doi.org/10.1103/PhysRevLett.132.217001}{Phys. Rev. Lett. {\bf 132}, 217001 (2024)}$] and uses a generalized fluctuation-dissipation theorem to predict the amount of charge and flux noise generated by them. We show that the resulting charge noise can be larger than dielectric loss due to amorphous two-level systems at frequencies in the MHz range, and find a logarithmic-in-frequency ``nearly white" contribution to flux noise that is comparable to the flux noise observed in experiments. This shows that wire-resident quasiparticles are a universal source of loss and decoherence even when the quasiparticles are far away from Josephson junctions.
翻訳日:2024-08-01 13:07:45 公開日:2024-07-30
# ディープニューラルネットワーク加速のための光コンピューティング:基礎、最近の発展、新しい方向性

Optical Computing for Deep Neural Network Acceleration: Foundations, Recent Developments, and Emerging Directions ( http://arxiv.org/abs/2407.21184v1 )

ライセンス: Link先を確認
Sudeep Pasricha, (参考訳) コンピュータビジョン、自然言語処理、グラフ処理、シーケンス予測といった分野にまたがる人工知能の応用は、ディープニューラルネットワーク(DNN)にますます依存している。 これらのDNNは、トレーニングと推論のためにかなりの計算とメモリ資源を必要とする。 CPU、GPU、TPUといった従来のコンピューティングプラットフォームは、ますます複雑で多様なDNNの要求に応えようと苦労している。 光コンピューティングは、DNNワークロードの光速加速のためのエキサイティングな新しいパラダイムである。 本稿では、DNN加速に着目し、光コンピューティングにおける基礎と最先端の開発について論じる。 様々な有望なアプローチが、工学的な光学デバイス、光学回路の強化、様々なDNNワークロードに光コンピューティングを適応できるアーキテクチャの設計のために説明されている。 DNNモデルをインテリジェントにチューニングし、マッピングして、高性能でリソース制約のある組み込み、エッジ、IoTプラットフォームにわたる光コンピューティングプラットフォームのパフォーマンスとエネルギー効率を向上させる、ハードウェア/ソフトウェア共同設計のための新しい技術についても論じる。 最後に、この領域におけるいくつかのオープンな問題と今後の研究の方向性を強調した。

Emerging artificial intelligence applications across the domains of computer vision, natural language processing, graph processing, and sequence prediction increasingly rely on deep neural networks (DNNs). These DNNs require significant compute and memory resources for training and inference. Traditional computing platforms such as CPUs, GPUs, and TPUs are struggling to keep up with the demands of the increasingly complex and diverse DNNs. Optical computing represents an exciting new paradigm for light-speed acceleration of DNN workloads. In this article, we discuss the fundamentals and state-of-the-art developments in optical computing, with an emphasis on DNN acceleration. Various promising approaches are described for engineering optical devices, enhancing optical circuits, and designing architectures that can adapt optical computing to a variety of DNN workloads. Novel techniques for hardware/software co-design that can intelligently tune and map DNN models to improve performance and energy-efficiency on optical computing platforms across high performance and resource constrained embedded, edge, and IoT platforms are also discussed. Lastly, several open problems and future directions for research in this domain are highlighted.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# 時空変動によるエントロピー生成

Entropy production due to spacetime fluctuations ( http://arxiv.org/abs/2407.21186v1 )

ライセンス: Link先を確認
Thiago H Moreira, Lucas C. Céleri, (参考訳) 重力場の量子的性質を理解することは、理論物理学における最大の課題の一つであることは間違いない。 かなりの進歩にもかかわらず、完全で一貫した理論はいまだ解明されていない。 しかし、曲率効果が小さい弱場近似では、そのような理論のいくつかの期待された性質を探求することができる。 この研究に特に関係しているのは、重力波の量子的性質であり、これは平らな時空の小さな摂動として表される。 この枠組みでは、量子場としてのこれらの摂動の量子的記述が実現可能であり、グラビトンが出現する。 ここでは、そのような場と相互作用する非相対論的量子系を考える。 我々は、量子力学に対する一貫したヒストリーアプローチを用いて、古典的な質問を量子コンテキストでフレーム化して、このシステムのゆらぎ関係を定義する。 結果として、熱力学的エントロピーは、時空の量子ゆらぎと避けられない相互作用のために、システム内で生成されなければならない。

Understanding the quantum nature of the gravitational field is undoubtedly one of the greatest challenges in theoretical physics. Despite significant progress, a complete and consistent theory remains elusive. However, in the weak field approximation -- where curvature effects are small -- we can explore some expected properties of such a theory. Particularly relevant to this study is the quantum nature of gravitational waves, which are represented as small perturbations in flat spacetime. In this framework, a quantum description of these perturbations, as a quantum field, is feasible, leading to the emergence of the graviton. Here we consider a non-relativistic quantum system interacting with such a field. We employ the consistent histories approach to quantum mechanics, which allows us to frame classical questions in a quantum context, to define a fluctuation relation for this system. As a result, thermodynamic entropy must be produced in the system due to its unavoidable interaction with the quantum fluctuations of spacetime.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# LFFR:(複数出力)回帰のためのロジスティック関数

LFFR: Logistic Function For (multi-output) Regression ( http://arxiv.org/abs/2407.21187v1 )

ライセンス: Link先を確認
John Chiang, (参考訳) 本書では, 完全同型暗号方式で暗号化されたデータを用いて, 多出力回帰問題に対処するために, プライバシ保存レグレッションに関するこれまでの研究を拡張した。 線形回帰とリッジ回帰を単純化したHessianアプローチを構築し、最初は単一出力のロジスティック回帰のために設計された新しいLFFRアルゴリズムを適用し、複数の出力を処理する。 計算効率とロバスト性を確保するため,マルチアウトプット・コンテキストに対する定数単純化ヘッセン法をさらに洗練する。 複数の実世界のデータセットに対する評価は、我々の多出力LFFRアルゴリズムの有効性を示し、高い予測精度を達成しつつ、プライバシを維持する能力を強調している。 データとターゲット予測の両方を正規化することは、同型暗号パラメータの最適化に不可欠であり、安全かつ効率的な多出力回帰タスクに対する我々のアプローチの実用性を確認している。

In this manuscript, we extend our previous work on privacy-preserving regression to address multi-output regression problems using data encrypted under a fully homomorphic encryption scheme. We build upon the simplified fixed Hessian approach for linear and ridge regression and adapt our novel LFFR algorithm, initially designed for single-output logistic regression, to handle multiple outputs. We further refine the constant simplified Hessian method for the multi-output context, ensuring computational efficiency and robustness. Evaluations on multiple real-world datasets demonstrate the effectiveness of our multi-output LFFR algorithm, highlighting its capability to maintain privacy while achieving high predictive accuracy. Normalizing both data and target predictions remains essential for optimizing homomorphic encryption parameters, confirming the practicality of our approach for secure and efficient multi-output regression tasks.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# 拡散に基づく絡み合った潜在符号からの神経活動の生成

Diffusion-Based Generation of Neural Activity from Disentangled Latent Codes ( http://arxiv.org/abs/2407.21195v1 )

ライセンス: Link先を確認
Jonathan D. McCart, Andrew R. Sedler, Christopher Versteeg, Domenick Mifsud, Mattia Rigotti-Thompson, Chethan Pandarinath, (参考訳) 記録技術の最近の進歩により、神経科学者は何千ものニューロンからの活動を同時に監視できるようになった。 潜在変数モデルは、これらの記録をコンパクトで解釈可能な表現に蒸留するのにますます有用である。 本稿では、条件付き生成モデリングの進歩を活用するニューラルデータ解析の新しいアプローチを提案し、記録されたニューラルアクティビティから非教師なしの非教師付き行動変数の推論を可能にする。 我々のアプローチはInfoDiffusionに基づいており、データの変化の重要な要因を捉える潜伏変数のセットで拡散モデルを拡張する。 我々は、GNOCCHI(Generating Neural Observations Conditioned on Codes with High Information)と呼ばれるモデルを用いて、時系列ニューラルネットワークデータに適用し、到達時の神経活動の合成および生物学的記録への応用を検証した。 VAEベースのシーケンシャルオートエンコーダと比較して、GNOCCHIは、鍵となる振る舞い変数に関してより明確に構造化され、よりゆがみのある高品質な潜在空間を学習する。 これらの性質は、GNOCCHIによって生成される潜伏空間の単純な線形トラバーサルを通して、新しいサンプル(目に見えない振る舞い条件)を正確に生成することができる。 我々の研究は、ニューラルネットワークから解釈可能な潜在空間を発見するための教師なし情報ベースモデルの可能性を示し、研究者たちは目に見えない条件から高品質なサンプルを生成することができる。

Recent advances in recording technology have allowed neuroscientists to monitor activity from thousands of neurons simultaneously. Latent variable models are increasingly valuable for distilling these recordings into compact and interpretable representations. Here we propose a new approach to neural data analysis that leverages advances in conditional generative modeling to enable the unsupervised inference of disentangled behavioral variables from recorded neural activity. Our approach builds on InfoDiffusion, which augments diffusion models with a set of latent variables that capture important factors of variation in the data. We apply our model, called Generating Neural Observations Conditioned on Codes with High Information (GNOCCHI), to time series neural data and test its application to synthetic and biological recordings of neural activity during reaching. In comparison to a VAE-based sequential autoencoder, GNOCCHI learns higher-quality latent spaces that are more clearly structured and more disentangled with respect to key behavioral variables. These properties enable accurate generation of novel samples (unseen behavioral conditions) through simple linear traversal of the latent spaces produced by GNOCCHI. Our work demonstrates the potential of unsupervised, information-based models for the discovery of interpretable latent spaces from neural data, enabling researchers to generate high-quality samples from unseen conditions.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# ランダム浅部回路における測定誘起絡み合いの量子的利点

Quantum advantage from measurement-induced entanglement in random shallow circuits ( http://arxiv.org/abs/2407.21203v1 )

ライセンス: Link先を確認
Adam Bene Watts, David Gosset, Yinchen Liu, Mehdi Soleimanifar, (参考訳) 二次元アーキテクチャにおけるランダムな定数深さ量子回路について検討する。 これらの回路は格子上の近傍の量子ビット間の絡み合いしか発生しないが、出力状態の量子ビットのサブセットを測定することで長距離絡み合いを生成することができる。 この長距離測定誘起絡み合い(MIE)は、回路深さが少なくとも一定の臨界値であるときに増加すると推測されている。 Haar-random 2-qubit ゲートからなる回路の場合、これは出力分布からのサンプリングの古典的硬さにおける量子優位相転移と一致すると考えられている。 ここでは、ランダムなクリフォード回路の設定における量子優位相転移の証拠を提供する。 我々の研究は、定数深度量子回路と古典回路の計算パワーの最近の分離の範囲を広げ、このような利点が正準ランダム回路サンプリングタスクに存在していることを示す。 特に、ランダムな浅いクリフォード回路の任意のアーキテクチャにおいて、長距離MIEの存在は無条件の量子優位性をもたらすことを示す。 対照的に、短距離MIE特性を満たすディープd2D量子回路は、古典的に効率よく、深さ O(d) でシミュレートできる。 最後に、O(log n)量子ビットに作用するランダムなクリフォードゲートからなる2次元の深さ2"粗粒"回路アーキテクチャを導入し、長距離MIEの存在を証明し、非条件量子優位性を確立する。

We study random constant-depth quantum circuits in a two-dimensional architecture. While these circuits only produce entanglement between nearby qubits on the lattice, long-range entanglement can be generated by measuring a subset of the qubits of the output state. It is conjectured that this long-range measurement-induced entanglement (MIE) proliferates when the circuit depth is at least a constant critical value. For circuits composed of Haar-random two-qubit gates, it is also believed that this coincides with a quantum advantage phase transition in the classical hardness of sampling from the output distribution. Here we provide evidence for a quantum advantage phase transition in the setting of random Clifford circuits. Our work extends the scope of recent separations between the computational power of constant-depth quantum and classical circuits, demonstrating that this kind of advantage is present in canonical random circuit sampling tasks. In particular, we show that in any architecture of random shallow Clifford circuits, the presence of long-range MIE gives rise to an unconditional quantum advantage. In contrast, any depth-d 2D quantum circuit that satisfies a short-range MIE property can be classically simulated efficiently and with depth O(d). Finally, we introduce a two-dimensional, depth-2, "coarse-grained" circuit architecture, composed of random Clifford gates acting on O(log n) qubits, for which we prove the existence of long-range MIE and establish an unconditional quantum advantage.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# NeuroSEM: PINNとスペクトル要素の結合による多物理問題シミュレーションのためのハイブリッドフレームワーク

NeuroSEM: A hybrid framework for simulating multiphysics problems by coupling PINNs and spectral elements ( http://arxiv.org/abs/2407.21217v1 )

ライセンス: Link先を確認
Khemraj Shukla, Zongren Zou, Chi Hin Chan, Additi Pandey, Zhicheng Wang, George Em Karniadakis, (参考訳) 流体力学、熱伝達、構造力学、電磁学の複雑な相互作用を特徴とする多物理問題は、その結合の性質から本質的に困難である。 特定の状態変数に関する実験データは利用可能であるが、これらのデータを数値解法と統合することは依然として重要な課題である。 物理情報ニューラルネットワーク(PINN)は様々な工学分野、特にノイズの多いデータ処理や逆問題解決において有望な結果を示している。 しかし、多物理系における非線形現象の予測における効果は、まだ完全には確立されていない。 本研究では、PINNと高忠実度スペクトル要素法(SEM)を融合したハイブリッドフレームワークであるNeuroSEMを紹介した。 NeuroSEMはPINNとSEMの両方の強度を活用し、多物理問題に対する堅牢な解決策を提供する。 PINNは特定のサブドメインでデータと物理現象を同化し、Nektar++に統合するように訓練される。 キャビティフローおよびシリンダーを過ぎる流れにおける熱対流に対するNeuroSEMの有効性と精度を実証した。 このフレームワークは、データの利用可能なサブドメインや状態変数に対処することで、データ同化を効果的に処理する。 熱境界条件の欠如を含むレイリー・ブエナード対流系にNeuroSEMを適用した。 以上の結果から,NeuroSEMは物理現象を正確にモデル化し,特定のサブドメイン内のデータを同化していることがわかった。 このフレームワークのプラグ・アンド・プレイの性質は、他のマルチ物理問題やマルチスケール問題への拡張を促進する。 さらに、NeuroSEMは、新興のGPU-CPUアーキテクチャ上での効率的な実行に最適化されている。 このハイブリッドアプローチはシミュレーションの精度と効率を高め、様々な科学領域で複雑なエンジニアリング課題に取り組むための強力なツールとなる。

Multiphysics problems that are characterized by complex interactions among fluid dynamics, heat transfer, structural mechanics, and electromagnetics, are inherently challenging due to their coupled nature. While experimental data on certain state variables may be available, integrating these data with numerical solvers remains a significant challenge. Physics-informed neural networks (PINNs) have shown promising results in various engineering disciplines, particularly in handling noisy data and solving inverse problems. However, their effectiveness in forecasting nonlinear phenomena in multiphysics regimes is yet to be fully established. This study introduces NeuroSEM, a hybrid framework integrating PINNs with the high-fidelity Spectral Element Method (SEM) solver, Nektar++. NeuroSEM leverages strengths of both PINNs and SEM, providing robust solutions for multiphysics problems. PINNs are trained to assimilate data and model physical phenomena in specific subdomains, which are then integrated into Nektar++. We demonstrate the efficiency and accuracy of NeuroSEM for thermal convection in cavity flow and flow past a cylinder. The framework effectively handles data assimilation by addressing those subdomains and state variables where data are available. We applied NeuroSEM to the Rayleigh-B\'enard convection system, including cases with missing thermal boundary conditions. Our results indicate that NeuroSEM accurately models the physical phenomena and assimilates the data within the specified subdomains. The framework's plug-and-play nature facilitates its extension to other multiphysics or multiscale problems. Furthermore, NeuroSEM is optimized for an efficient execution on emerging integrated GPU-CPU architectures. This hybrid approach enhances the accuracy and efficiency of simulations, making it a powerful tool for tackling complex engineering challenges in various scientific domains.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# ボゾン量子準結晶における低エネルギー励起

Low energy excitations in bosonic quantum quasicrystals ( http://arxiv.org/abs/2407.21230v1 )

ライセンス: Link先を確認
Alejandro Mendoza-Coto, Mariano Bonifacio, Francesco Piazza, (参考訳) ボゾン自己組織量子準結晶に対する低エネルギー有効作用の第一原理について述べる。 一般化された弾性法は、ゴールドストーンモードの適切な記述に必要な位相および対応する共役密度-自由度を適切に保持する。 ドデカゴナルおよびデカゴナル準結晶構造では、音の等方的な速度で、集合的長手および横方向の励起が得られる。 一方、八角形構造では、音速と音速の次数の結合は、後者と凝縮音モードのハイブリッド化につながり、縦・横成分の集合励起と異方性音速を生成する。 最後に、量子準結晶相を制限する低密度および高密度相転移における各励起モードの運命について論じる。

We present the first principles construction of the low-energy effective action for bosonic self-organized quantum quasicrystals. Our generalized elasticity approach retains the appropriate number of phase- and corresponding conjugate density- degrees-of-freedom required for a proper description of the Goldstone modes. For the dodecagonal and decagonal quasicrystal structures we obtain collective longitudinal and transversal excitations with an isotropic speed of sound. Meanwhile, for the octagonal structure, the coupling between phononic and phasonic degrees of freedom leads in turn to hybridization of the latter with the condensate sound mode, producing collective excitations with a longitudinal and transversal component, and an anisotropic speed of sound. Finally, we discuss the fate of each excitation mode at the low and high density phase transitions limiting the quantum quasicrystal phase.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# ファイヤーサイエンスとマネジメントワークフローのための総合的なパフォーマンスフレームワークを目指して

Towards an Integrated Performance Framework for Fire Science and Management Workflows ( http://arxiv.org/abs/2407.21231v1 )

ライセンス: Link先を確認
H. Ahmed, R. Shende, I. Perez, D. Crawl, S. Purawat, I. Altintas, (参考訳) 信頼性の高いパフォーマンスメトリクスは、コラボレーション科学研究のための大規模エンドツーエンド統合ワークフローを構築するために必要不可欠である。 この研究はNational Data Platformのビルディングブロックであり、WIFIRE DataやModel Commonsといった複数のユースケースを山火事の行動モデリングに利用し、EarthScope Consortiumを共同で地球物理学の研究に利用している。 本稿では,人工知能と機械学習(AI/ML)による科学ワークフローの性能評価と最適化について述べる。 パフォーマンスデータ収集、予測、最適化を対象とする、関連するAI/MLフレームワークが、WIFIRE BurnPro3D(BP3D)プラットフォーム内の野火科学アプリケーションに適用され、アクティブな火災管理と緩和が実現されている。

Reliable performance metrics are necessary prerequisites to building large-scale end-to-end integrated workflows for collaborative scientific research, particularly within context of use-inspired decision making platforms with many concurrent users and when computing real-time and urgent results using large data. This work is a building block for the National Data Platform, which leverages multiple use-cases including the WIFIRE Data and Model Commons for wildfire behavior modeling and the EarthScope Consortium for collaborative geophysical research. This paper presents an artificial intelligence and machine learning (AI/ML) approach to performance assessment and optimization of scientific workflows. An associated early AI/ML framework spanning performance data collection, prediction and optimization is applied to wildfire science applications within the WIFIRE BurnPro3D (BP3D) platform for proactive fire management and mitigation.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# 半ユニバーサリティの枠組み:3量子SU(d)-不変ゲートの半ユニバーサリティ

A framework for semi-universality: Semi-universality of 3-qudit SU(d)-invariant gates ( http://arxiv.org/abs/2407.21249v1 )

ライセンス: Link先を確認
Austin Hulse, Hanqing Liu, Iman Marvian, (参考訳) 対称反射ゲートを持つ量子回路は、量子情報科学に広く関心を集めている。 近年の研究では、アベリアの対称性を持つ回路の理論が発展し、アベリアと非アベリアのケースの間に重要な違いが浮かび上がっているが、非アベリアの対称性に対する包括的な枠組みは欠如している。 本研究では,非アベリア対称性を持つ回路の理解に特に有用な,新しい手法と強力なフレームワークを開発する。 この枠組みを用いて、SU(d)対称性を持つ量子回路の開問題を解決する。 3qudit SU(d)-不変ゲートは半ユニバーサルであり、すなわちすべての SU(d)-不変ユニタリを生成する。 さらに,これらのゲートは3つのアンシラクイディットを補足すると全普遍性が得られることを証明した。 興味深いことに、3量子ゲートを用いた回路の研究は、2量子ゲートを用いた回路の理解を深める上でも有用である。 特に、2-立方体 SU(d)-不変ゲートはそれ自体が半ユニバーサルではないが、少なくとも11個のアンシラ四重項を持つ普遍となる。 さらに、ランダムなSU(d)-不変ゲートからなる回路の統計的特性について検討する。 その結果、2量子ゲートを持つ回路は、SU(d)-不変ユニタリ上のハール測度に対して2-設計を成さないが、3量子ゲートを持つ回路は、クォーディット数に二次的なtを持つt-設計を生成することがわかった。

Quantum circuits with symmetry-respecting gates have attracted broad interest in quantum information science. While recent work has developed a theory for circuits with Abelian symmetries, revealing important distinctions between Abelian and non-Abelian cases, a comprehensive framework for non-Abelian symmetries has been lacking. In this work, we develop novel techniques and a powerful framework that is particularly useful for understanding circuits with non-Abelian symmetries. Using this framework we settle an open question on quantum circuits with SU(d) symmetry. We show that 3-qudit SU(d)-invariant gates are semi-universal, i.e., generate all SU(d)-invariant unitaries, up to certain constraints on the relative phases between sectors with inequivalent representation of symmetry. Furthermore, we prove that these gates achieve full universality when supplemented with 3 ancilla qudits. Interestingly, we find that studying circuits with 3-qudit gates is also useful for a better understanding of circuits with 2-qudit gates. In particular, we establish that even though 2-qudit SU(d)-invariant gates are not themselves semi-universal, they become universal with at most 11 ancilla qudits. Additionally, we investigate the statistical properties of circuits composed of random SU(d)-invariant gates. Our findings reveal that while circuits with 2-qudit gates do not form a 2-design for the Haar measure over SU(d)-invariant unitaries, circuits with 3-qudit gates generate a t-design, with t that is quadratic in the number of qudits.
翻訳日:2024-08-01 12:56:56 公開日:2024-07-30
# 半パラメトリックベイズ加法的回帰木における共有共変量の説明

Accounting for shared covariates in semi-parametric Bayesian additive regression trees ( http://arxiv.org/abs/2108.07636v7 )

ライセンス: Link先を確認
Estevão B. Prado, Andrew C. Parnell, Keefe Murphy, Nathan McJames, Ann O'Shea, Rafael A. Moral, (参考訳) ベイズ加法回帰木(BART)に基づく半パラメトリックモデルの拡張を提案する。 半パラメトリックなBARTパラダイムでは、応答変数は線形予測器とBARTモデルによって近似される。 従来のBARTに基づく半パラメトリックモデルでは、線形予測器における共変量とBARTモデルの集合は、粗大なカバレッジ特性を回避し、線形予測器におけるパラメータの推定におけるバイアスを低減するために、互いに排他的であると仮定されている。 我々のアプローチの主な新規性は、このバイアスに対処し、パラメトリック成分と非パラメトリック成分の間の非同一性の問題を解決するために、BARTのツリージェネレーションの動きを変える方法にある。 これにより、プライマリ・インテンシブの共変量を含む複雑な相互作用を、BARTコンポーネント内およびBARTコンポーネント内の両方でモデル化することができる。 本手法は,数学における学生の業績の予測者が特に解釈的関心を持つ国際的教育評価からデータを分析するために開発された。 さらなるシミュレーション研究と、よく知られたベンチマークデータセットへの別の応用を通じて、回帰モデル、半パラメトリックBARTの代替定式化、その他の木に基づく手法と比較して、競合性能を示す。 提案手法の実装は \url{https://github.com/ebprado/CSP-BART} で公開されている。

We propose some extensions to semi-parametric models based on Bayesian additive regression trees (BART). In the semi-parametric BART paradigm, the response variable is approximated by a linear predictor and a BART model, where the linear component is responsible for estimating the main effects and BART accounts for non-specified interactions and non-linearities. Previous semi-parametric models based on BART have assumed that the set of covariates in the linear predictor and the BART model are mutually exclusive in an attempt to avoid poor coverage properties and reduce bias in the estimates of the parameters in the linear predictor. The main novelty in our approach lies in the way we change the tree-generation moves in BART to deal with this bias and resolve non-identifiability issues between the parametric and non-parametric components, even when they have covariates in common. This allows us to model complex interactions involving the covariates of primary interest, both among themselves and with those in the BART component. Our novel method is developed with a view to analysing data from an international education assessment, where certain predictors of students' achievements in mathematics are of particular interpretational interest. Through additional simulation studies and another application to a well-known benchmark dataset, we also show competitive performance when compared to regression models, alternative formulations of semi-parametric BART, and other tree-based methods. The implementation of the proposed method is available at \url{https://github.com/ebprado/CSP-BART}.
翻訳日:2024-07-31 23:24:35 公開日:2024-07-30
# Savile (複数形 Saviles)

Savile Row Manual ( http://arxiv.org/abs/2201.03472v2 )

ライセンス: Link先を確認
Peter Nightingale, (参考訳) 本稿では,制約モデリングツールであるSaveile Rowの入力言語とその主な特徴について述べる。 Savile Rowは、制約、SAT、SMTソルバを含む様々なソルバに対して、ソルバ非依存の制約モデリング言語を入力言語に翻訳する。 簡単な紹介の後、マニュアルではSaveile Rowの入力言語であるEssence Prime言語について記述している。 次に、ツールの機能、主な機能とオプション、インストールと使用方法について説明します。

We describe the constraint modelling tool Savile Row, its input language and its main features. Savile Row translates a solver-independent constraint modelling language to the input languages for various solvers including constraint, SAT, and SMT solvers. After a brief introduction, the manual describes the Essence Prime language, which is the input language of Savile Row. Then we describe the functions of the tool, its main features and options and how to install and use it.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 楕円曲線の項

Murmurations of elliptic curves ( http://arxiv.org/abs/2204.10140v2 )

ライセンス: Link先を確認
Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver, Alexey Pozdnyakov, (参考訳) 与えられたランクの固定導体範囲における楕円曲線上のpにおけるフロベニウストレースの平均値について検討する。 p が素数上で変化するにつれて、この平均をとると、発振パターンが生まれ、その詳細は階数によって異なる。 この観測に基づいて,楕円曲線をランクに応じて分類する目的で,様々なデータ科学実験を行う。

We investigate the average value of the Frobenius trace at p over elliptic curves in a fixed conductor range with given rank. Plotting this average as p varies over the primes yields a striking oscillating pattern, the details of which vary with the rank. Based on this observation, we perform various data-scientific experiments with the goal of classifying elliptic curves according to their ranks.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# Distributed Symmetric Key Establishment: スケーラブルで量子保護的なキー配布システム

Distributed Symmetric Key Establishment: A scalable, quantum-proof key distribution system ( http://arxiv.org/abs/2205.00615v4 )

ライセンス: Link先を確認
Hoi-Kwong Lo, Mattia Montagna, Manfred von Willich, (参考訳) 本稿では,スケーラブルで費用対効果が高く,情報理論的にセキュアな鍵配布・管理システムのためのプロトコルを提案し,実装する。 このシステムはDSKE(Distributed Symmetric Key Establishment)と呼ばれ、DSKEクライアントとセキュリティハブのグループの間で、事前共有された乱数に依存する。 DSKEクライアントの任意のグループは、DSKEプロトコルを使用して、事前共有された番号から秘密鍵を抽出することができる。 クライアントはSecurity Hubの妥協から保護され、個々のSecurity Hubを信頼することなく最終キーの作成を可能にする秘密の共有スキームによって保護される。 正確には、妥協されたSecurity Hubの数が一定のしきい値を超えなければ、機密性はDSKEクライアントに保証され、同時にDoS(DoS)攻撃に対する堅牢性も保証される。 DSKEシステムは、量子セキュア通信に利用でき、既存のネットワークインフラに容易に統合でき、キーにアクセスする通信関係者の任意のグループをサポートすることができる。 我々は、高レベルのプロトコルについて議論し、そのセキュリティを分析し、破壊に対する堅牢性について論じる。 Amazon Web Server(AWS)ノード上のSecurity Hubsを使用して、DSKEベースのVPNを使用した2つのリモートクライアント間のセキュアな通信の実証デモが行われた。

We propose and implement a protocol for a scalable, cost-effective, information-theoretically secure key distribution and management system. The system, called Distributed Symmetric Key Establishment (DSKE), relies on pre-shared random numbers between DSKE clients and a group of Security Hubs. Any group of DSKE clients can use the DSKE protocol to distill from the pre-shared numbers a secret key. The clients are protected from Security Hub compromise via a secret sharing scheme that allows the creation of the final key without the need to trust individual Security Hubs. Precisely, if the number of compromised Security Hubs does not exceed a certain threshold, confidentiality is guaranteed to DSKE clients and, at the same time, robustness against denial-of-service (DoS) attacks. The DSKE system can be used for quantum-secure communication, can be easily integrated into existing network infrastructures, and can support arbitrary groups of communication parties that have access to a key. We discuss the high-level protocol, analyze its security, including its robustness against disruption. A proof-of-principle demonstration of secure communication between two distant clients with a DSKE-based VPN using Security Hubs on Amazon Web Server (AWS) nodes thousands of kilometres away from them was performed, demonstrating the feasibility of DSKE-enabled secret sharing one-time-pad encryption with a data rate above 50 Mbit/s and a latency below 70 ms.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 医用画像分割のための構造的不偏逆モデル

Structure Unbiased Adversarial Model for Medical Image Segmentation ( http://arxiv.org/abs/2205.12857v4 )

ライセンス: Link先を確認
Tianyang Zhang, Shaoming Zheng, Jun Cheng, Xi Jia, Joseph Bartlett, Xinxing Cheng, Huazhu Fu, Zhaowen Qiu, Jiang Liu, Jinming Duan, (参考訳) 画像認識において、分布が実際のものと類似した画像を生成するために、生成モデルが広く提案されている。 しばしば、生成されたデータと実際のデータを区別する差別化ネットワークを導入する。 このようなモデルでは、ターゲットデータセットに含まれるデータからスタイル転送されたデータを識別するディミネータネットワークを利用する。 しかし、ネットワークは強度分布の相違に重点を置いており、データセット間の構造的差異を見落としている可能性がある。 本稿では,生成した画像の構造がターゲットデータセットに類似していることを保証するために,新たな画像間翻訳問題を定式化する。 画像セグメンテーションを行う際のトレーニングセットとテストセットの強度と構造的差異を考慮に入れた,シンプルで強力な構造的アンバシッド・アドバイザリアル(SUA)ネットワークを提案する。 空間変換ブロックと、強度分布レンダリングモジュールから構成される。 空間変換ブロックは、2つの画像間の構造的ギャップを小さくし、また、最終セグメント画像の逆方向の変形場を生成するために提案される。 そして、強度分布レンダリングモジュールは、目標強度分布を有する画像に変形した構造を描画する。 実験結果から,SUA法は複数のデータセット間の強度分布と構造的内容の両方を転送できることがわかった。

Generative models have been widely proposed in image recognition to generate more images where the distribution is similar to that of the real ones. It often introduces a discriminator network to differentiate the real data from the generated ones. Such models utilise a discriminator network tasked with differentiating style transferred data from data contained in the target dataset. However in doing so the network focuses on discrepancies in the intensity distribution and may overlook structural differences between the datasets. In this paper we formulate a new image-to-image translation problem to ensure that the structure of the generated images is similar to that in the target dataset. We propose a simple, yet powerful Structure-Unbiased Adversarial (SUA) network which accounts for both intensity and structural differences between the training and test sets when performing image segmentation. It consists of a spatial transformation block followed by an intensity distribution rendering module. The spatial transformation block is proposed to reduce the structure gap between the two images, and also produce an inverse deformation field to warp the final segmented image back. The intensity distribution rendering module then renders the deformed structure to an image with the target intensity distribution. Experimental results show that the proposed SUA method has the capability to transfer both intensity distribution and structural content between multiple datasets.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 閉じ込められたイオン機械振動子のコヒーレントカップリングと非破壊測定

Coherent coupling and non-destructive measurement of trapped-ion mechanical oscillators ( http://arxiv.org/abs/2205.14841v3 )

ライセンス: Link先を確認
Pan-Yu Hou, Jenny J. Wu, Stephen D. Erickson, Daniel C. Cole, Giorgio Zarantonello, Adam D. Brandt, Shawn Geller, Alex Kwiatkowski, Scott Glancy, Emanuel Knill, Andrew C. Wilson, Daniel H. Slichter, Dietrich Leibfried, (参考訳) キャビティ内の電磁界のモードや機械運動のようないくつかの高調波発振器の精密な量子制御と測定は、量子プラットフォームとしての使用の鍵となる。 捕捉されたイオンの運動モードは個別に制御でき、良好なコヒーレンス特性を持つ。 しかし,高忠実度2モード動作の実現と運動状態の非破壊計測は困難である。 ここでは、トラップイオン結晶のスペクトル分離された高調波運動モード間の単一運動量子のコヒーレントな交換を示す。 結合のタイミング、強度、位相は、適切な空間変動を有する振動電位を介して制御される。 デコヒーレンスレートよりもはるかに大きいカップリングレートは、高忠実度量子状態移動とビームスプリッター演算、運動モードの絡み合い、香港・ウー・マンデル型干渉の実証を可能にする。 さらに, 固定されたイオン運動状態の非破壊的射影測定を繰り返すために, 運動結合を用いる。 本研究は, 連続可変量子コンピューティングと誤差補正のための捕捉イオン運動の適合性を高め, 運動冷却および移動媒介の絡み合い相互作用の性能向上の機会を与える。

Precise quantum control and measurement of several harmonic oscillators, such as the modes of the electromagnetic field in a cavity or of mechanical motion, are key for their use as quantum platforms. The motional modes of trapped ions can be individually controlled and have good coherence properties. However, achieving high-fidelity two-mode operations and nondestructive measurements of the motional state has been challenging. Here we demonstrate the coherent exchange of single motional quanta between spectrally separated harmonic motional modes of a trapped-ion crystal. The timing, strength, and phase of the coupling are controlled through an oscillating electric potential with suitable spatial variation. Coupling rates that are much larger than decoherence rates enable demonstrations of high fidelity quantum state transfer and beamsplitter operations, entanglement of motional modes, and Hong-Ou-Mandel-type interference. Additionally, we use the motional coupling to enable repeated non-destructive projective measurement of a trapped-ion motional state. Our work enhances the suitability of trapped-ion motion for continuous-variable quantum computing and error correction and may provide opportunities to improve the performance of motional cooling and motion-mediated entangling interactions.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 磁場下での複合粒子のトンネル加工

Tunnelling of a composite particle in presence of a magnetic field ( http://arxiv.org/abs/2206.06698v2 )

ライセンス: Link先を確認
Bernard Faulend, Jan Dragašević, (参考訳) 磁場下での矩形電位障壁を貫通する複合粒子トンネルの簡単なモデルを提案する。 問題の正確な数値解が提供され、実際の物理的状況への適用性について論じる。 磁気相互作用のないトンネルの定性的特徴は保持されているが、いくつかの新しい特徴も観察されている。 伝送スペクトルの共鳴ピークは通常、磁場がオンになったときに100\%$送信確率に到達しない。 我々は分割を観察し、場合によっては送信確率ピークを拡大する。 磁場を持つ領域の幅$b$が大きければ、スピンフリップ確率の振動をエネルギーで観測し、その振動は磁場のベクトルに関するスピンのLarmor偏差によって引き起こされる。 関連するパラメータのいくつかの値については、単一粒子の場合の低エネルギーに対するトンネルの確率の顕著な増加も観察する。

We present a simple model of composite particle tunnelling through a rectangular potential barrier in presence of magnetic field. The exact numerical solution of the problem is provided and the applicability to real physical situations is discussed. Some qualitative features of tunnelling with no magnetic interaction are retained, but some new ones are also observed. The resonance peaks in transmission spectrum generally do not reach $100\%$ transmission probability when the magnetic field is turned on. We observe splitting and in some cases widening of transmission probability peaks. When the width $b$ of area with magnetic field is large, we observe oscillations of spin-flip probability with energy and $b$ which are caused by Larmor precession of spin about the vector of magnetic field. For some values of relevant parameters we also observe significant increase of tunnelling probability for low energies in the single particle case.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 量子コンピュータによるスピンダイナミクスのシミュレーション

Simulating spin dynamics with quantum computers ( http://arxiv.org/abs/2207.10567v2 )

ライセンス: Link先を確認
Jarrett L. Lancaster, D. Brysen Allen, (参考訳) IBM量子コンピュータは、相互作用する量子スピンの小さな系の力学をシミュレートするために用いられる。 3スピン未満の時間独立系では、任意の時間で正確な時間進化を計算し、スピン期待値とエネルギーを測定する。 このような小さなシステムであっても、モデル内の保存法則と対称性の間の関係を観察できることが示されている。 より大規模なシステムは時間進化作用素の近似を必要とし、N=3$スピンの場合を明示的に検討する。 このような装置を用いて、より高度なアルゴリズムや信頼性のある誤り訂正を行わずに、そのような大規模システムを探索することは不可能であることが示されているが、量子回路シミュレータは、$N\sim\mathcal{O}(10)$のスピンを持つ系のスピンダイナミクスを研究するための、使いやすい方法であることを示す。 提示された計算は、学部の量子力学コースにおける量子スピンの標準的な処理に興味深い実験的要素を提供する。

IBM quantum computers are used to simulate the dynamics of small systems of interacting quantum spins. For time-independent systems with fewer than three spins, we compute the exact time evolution at arbitrary times and measure spin expectation values and energy. It is demonstrated that even in such small systems, one can observe the connection between conservation laws and symmetries in the model. Larger systems require approximating the time-evolution operator, and we investigate the case of $N=3$ spins explicitly. While it is shown to be unfeasible to use such devices to probe such larger systems without more advanced algorithms or reliable error correction, we demonstrate that the quantum circuit simulator is an easy-to-use method for studying spin dynamics in systems with $N\sim\mathcal{O}(10)$) spins. The computations presented provide an interesting experimental component to the standard treatment of quantum spin in an undergraduate quantum mechanics course.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# ScreenQA: モバイルアプリのスクリーンショットに関する大規模質問応答ペア

ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots ( http://arxiv.org/abs/2209.08199v3 )

ライセンス: Link先を確認
Yu-Chung Hsiao, Fedir Zubach, Gilles Baechler, Victor Carbune, Jason Lin, Maria Wang, Srinivas Sunkara, Yun Zhu, Jindong Chen, (参考訳) 質問応答による画面コンテンツ理解のための新しいベンチマークとデータセットScreenQAを提案する。 既存のスクリーンデータセットは、構造とコンポーネントレベルの理解、あるいはナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。 我々は,画面読取能力のベンチマークを期待して,86K問合せペアをRICOデータセット上にアノテートすることで,この2つのギャップを埋めようとしている。 この作業は、フル文とショートフォームの両方を含むさまざまなアプリケーションシナリオに対するアノテート回答として、スクリーン上のUIコンテンツとバウンディングボックスをサポートする最初のものでもある。 リッチアノテーションでは、ベンチマークの評価基準について議論し、データセットの応用例を示し、クローズドおよびオープンソースモデルを使用していくつかのベースラインを提供する。

We present a new benchmark and dataset, ScreenQA, for screen content understanding via question answering. The existing screen datasets are focused either on structure and component-level understanding, or on a much higher-level composite task such as navigation and task completion. We attempt to bridge the gap between these two by annotating 86K question-answer pairs over the RICO dataset in hope to benchmark the screen reading comprehension capacity. This work is also the first to annotate answers for different application scenarios, including both full sentences and short forms, as well as supporting UI contents on screen and their bounding boxes. With the rich annotation, we discuss and define the evaluation metrics of the benchmark, show applications of the dataset, and provide a few baselines using closed and open source models.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 高忠実度シミュレーション環境における歩行者の安全評価

Evaluation of Pedestrian Safety in a High-Fidelity Simulation Environment Framework ( http://arxiv.org/abs/2210.08731v4 )

ライセンス: Link先を確認
Lin Ma, Longrui Chen, Yan Zhang, Mengdi Chu, Wenjie Jiang, Jiahao Shen, Chuxuan Li, Yifeng Shi, Nairui Luo, Jirui Yuan, Guyue Zhou, Jiangtao Gong, (参考訳) 歩行者の安全は、自動運転シナリオを評価する上で重要な要素である。 しかし、既存の自動運転シミュレーションプラットフォームでは、歩行者の安全評価はめったに考慮されない。 本稿では,衝突事故だけでなく,歩行者の特徴を考慮した衝突事故も考慮した自動運転の歩行者安全評価手法を提案する。 さらに,歩行者の安全評価システムに適用するために,歩行者の安全クリティカルな特徴を組み込んだ高忠実度シミュレーションフレームワークを構築した。 本研究では,車車認識と車車間協調認識(V2I)の2種類の自律走行認識アルゴリズムの比較実験により,シミュレーションの枠組みと歩行者の安全評価を実証した。 その結果,本フレームワークは,歩行者の安全度を詳細に,定量的に評価できることがわかった。 この目的のために提案したシミュレーション手法とフレームワークは、異なる自律運転アルゴリズムにアクセスし、将来の自律運転シミュレーションにおいて歩行者の安全性能を評価するために使用することができ、より歩行者に優しい自律運転アルゴリズムを刺激することができる。

Pedestrians' safety is a crucial factor in assessing autonomous driving scenarios. However, pedestrian safety evaluation is rarely considered by existing autonomous driving simulation platforms. This paper proposes a pedestrian safety evaluation method for autonomous driving, in which not only the collision events but also the conflict events together with the characteristics of pedestrians are fully considered. Moreover, to apply the pedestrian safety evaluation system, we construct a high-fidelity simulation framework embedded with pedestrian safety-critical characteristics. We demonstrate our simulation framework and pedestrian safety evaluation with a comparative experiment with two kinds of autonomous driving perception algorithms -- single-vehicle perception and vehicle-to-infrastructure (V2I) cooperative perception. The results show that our framework can evaluate different autonomous driving algorithms with detailed and quantitative pedestrian safety indexes. To this end, the proposed simulation method and framework can be used to access different autonomous driving algorithms and evaluate pedestrians' safety performance in future autonomous driving simulations, which can inspire more pedestrian-friendly autonomous driving algorithms.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 高調波振動子の非ガウス状態に対するダイナミクスに基づく絡み合いウィットネス

Dynamics-Based Entanglement Witnesses for Non-Gaussian States of Harmonic Oscillators ( http://arxiv.org/abs/2210.10357v4 )

ライセンス: Link先を確認
Pooja Jayachandran, Lin Htoo Zaw, Valerio Scarani, (参考訳) 連続変数系に対する絡み合いの目撃者の族を導入するが、これはそれらの力学がテスト時に結合された調和振動子のものであるという唯一の仮定に依存する。 エンタングルメントは、通常のモードの1つにおけるツィレルソンの非古典性テストから推測される。 各ラウンドにおいて、プロトコルは1つの座標(eg, position)の符号のみを数回にわたって測定する必要がある。 この動的ベースの絡み合いの証人は、不確実性の関係よりもベルの不等式に似ており、特に古典理論の偽陽性は認めない。 我々の基準は非ガウス状態を検出し、そのうちのいくつかは他の基準によって見逃されている。

We introduce a family of entanglement witnesses for continuous variable systems, which rely on the sole assumption that their dynamics is that of coupled harmonic oscillators at the time of the test. Entanglement is inferred from the Tsirelson nonclassicality test on one of the normal modes, without any knowledge about the state of the other mode. In each round, the protocol requires measuring only the sign of one coordinate (e.g., position) at one among several times. This dynamic-based entanglement witness is more akin to a Bell inequality than to an uncertainty relation: in particular, it does not admit false positives from classical theory. Our criterion detects non-Gaussian states, some of which are missed by other criteria.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# 深層因果学習 : 表現、発見、推論

Deep Causal Learning: Representation, Discovery and Inference ( http://arxiv.org/abs/2211.03374v2 )

ライセンス: Link先を確認
Zizhen Deng, Xiaolong Zheng, Hu Tian, Daniel Dajun Zeng, (参考訳) 因果学習は、現象の基盤となり、世界が進化するメカニズムを規定する本質的な関係を明らかにするため、近年大きな注目を集めている。 それでも、従来の因果学習手法は、高次元、非構造変数、組合せ最適化問題、保存されていない共同設立者、選択バイアス、推定不正確さなど、多くの課題や制限に直面している。 ディープ・因果学習はディープ・ニューラルネットワークを活用し、これらの課題に対処するための革新的な洞察と解決策を提供する。 因果的発見と推論のための多くの深層学習に基づく手法が提案されているが、深層学習が因果的学習を強化するメカニズムについて、多くのレビューが続いている。 本稿では,3つの重要な側面 – 表現,発見,推論 – にまたがる従来の課題に取り組むことによって,ディープラーニングが因果学習にどのように貢献するかを概観する。 我々は、深い因果学習が理論的フロンティアを前進させ、因果科学の実践的応用を広げるために重要であることを強調する。 オープンな問題を要約し、今後の研究の方向性を概説することで結論付ける。

Causal learning has garnered significant attention in recent years because it reveals the essential relationships that underpin phenomena and delineates the mechanisms by which the world evolves. Nevertheless, traditional causal learning methods face numerous challenges and limitations, including high-dimensional, unstructured variables, combinatorial optimization problems, unobserved confounders, selection biases, and estimation inaccuracies. Deep causal learning, which leverages deep neural networks, offers innovative insights and solutions for addressing these challenges. Although numerous deep learning-based methods for causal discovery and inference have been proposed, there remains a dearth of reviews examining the underlying mechanisms by which deep learning can enhance causal learning. In this article, we comprehensively review how deep learning can contribute to causal learning by tackling traditional challenges across three key dimensions: representation, discovery, and inference. We emphasize that deep causal learning is pivotal for advancing the theoretical frontiers and broadening the practical applications of causal science. We conclude by summarizing open issues and outlining potential directions for future research.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-30
# ソフトウェア要件ペアにおける競合と重複検出のための伝達学習

Transfer learning for conflict and duplicate detection in software requirement pairs ( http://arxiv.org/abs/2301.03709v2 )

ライセンス: Link先を確認
Garima Malik, Savas Yildirim, Mucahit Cevik, Ayse Bener, Devang Parikh, (参考訳) ソフトウェアプロジェクトの成功には、ソフトウェア要件の一貫性と全体的な表現が重要です。 本研究では,ソフトウェア要件仕様の矛盾や重複を自動的に識別することで,ソフトウェア開発プロセスの効率を向上させることを目的とする。 要求対分類タスクとして競合と重複検出問題を定式化する。 コンフリクトと重複識別タスクのために,Sentence-BERTとBiエンコーダを組み込んだ新しいトランスフォーマーアーキテクチャSR-BERTを設計する。 さらに,教師付きマルチステージ微調整を事前学習したトランスモデルに適用する。 4つの異なるデータセットを用いて、異なる転送モデルの性能をテストする。 逐次訓練および微調整されたトランスフォーマーモデルは、SR-BERTでデータセット全体にわたって良好に動作し、より大きなデータセットに対して最高のパフォーマンスを実現している。 また、競合検出モデルのドメイン間性能についても検討し、モデル分類を検証するためにルールベースのフィルタリング手法を採用する。 分析の結果,文対分類手法とトランスフォーマーに基づく自然言語処理手法が競合の自動化と重複検出の達成に大きく貢献することが示された。

Consistent and holistic expression of software requirements is important for the success of software projects. In this study, we aim to enhance the efficiency of the software development processes by automatically identifying conflicting and duplicate software requirement specifications. We formulate the conflict and duplicate detection problem as a requirement pair classification task. We design a novel transformers-based architecture, SR-BERT, which incorporates Sentence-BERT and Bi-encoders for the conflict and duplicate identification task. Furthermore, we apply supervised multi-stage fine-tuning to the pre-trained transformer models. We test the performance of different transfer models using four different datasets. We find that sequentially trained and fine-tuned transformer models perform well across the datasets with SR-BERT achieving the best performance for larger datasets. We also explore the cross-domain performance of conflict detection models and adopt a rule-based filtering approach to validate the model classifications. Our analysis indicates that the sentence pair classification approach and the proposed transformer-based natural language processing strategies can contribute significantly to achieving automation in conflict and duplicate detection
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 対立的マイノリティの影響による協調的マルチエージェント強化学習の攻撃

Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence ( http://arxiv.org/abs/2302.03322v3 )

ライセンス: Link先を確認
Simin Li, Jun Guo, Jingqiao Xiu, Yuwei Zheng, Pu Feng, Xin Yu, Aishan Liu, Yaodong Yang, Bo An, Wenjun Wu, Xianglong Liu, (参考訳) 本研究は,c-MARLが現実世界に導入される前の最悪の性能を示す重要な要因である敵攻撃下での協調型マルチエージェント強化学習(c-MARL)の脆弱性を調査する。 現在の観測ベースの攻撃は、ホワイトボックスの仮定に制約され、c-MARLの複雑なマルチエージェント相互作用と協調目的を見落とし、非現実的かつ限定的な攻撃能力をもたらす。 これらの欠点に対処するために,我々は,c-MARL の実践的で強力な Adversarial Minority Influence (AMI) を提案する。 AMIは実用的なブラックボックス攻撃であり、犠牲者のパラメータを知らずに起動できる。 また、AMIは複雑なマルチエージェントの相互作用とエージェントの協調的目標を考慮し、一方の敵エージェントが一方的に大多数の犠牲者を誤解させ、標的となる最悪の協力を形成することができる。 これは社会心理学における少数派の影響を反映している。 複雑なエージェント・ワイド・インタラクションの下での被害者政策の最大偏差を達成するために,我々の一方的攻撃は,被害者に対する敵の影響を特徴づけ,最大化することを目的としている。 これは、相互情報から引き起こされた一方的なエージェント関係のメトリクスを適応させることで、敵に対する被害者の影響を緩和する。 被害者を共同で有害な状況に導くために, 強化学習エージェントが実施した試行錯誤プロセスを通じて, 被害者を特定の目標に向かって誘導し, 長期的かつ協力的に有害な状況に陥る。 AMIにより,実世界のロボット群に対する最初の攻撃が成功し,シミュレーション環境におけるエージェントを効果的に騙して,Starcraft IIやMulti-agent Mujocoなどの最悪のシナリオに展開する。 ソースコードとデモは、https://github.com/DIG-Beihang/AMIで見ることができる。

This study probes the vulnerabilities of cooperative multi-agent reinforcement learning (c-MARL) under adversarial attacks, a critical determinant of c-MARL's worst-case performance prior to real-world implementation. Current observation-based attacks, constrained by white-box assumptions, overlook c-MARL's complex multi-agent interactions and cooperative objectives, resulting in impractical and limited attack capabilities. To address these shortcomes, we propose Adversarial Minority Influence (AMI), a practical and strong for c-MARL. AMI is a practical black-box attack and can be launched without knowing victim parameters. AMI is also strong by considering the complex multi-agent interaction and the cooperative goal of agents, enabling a single adversarial agent to unilaterally misleads majority victims to form targeted worst-case cooperation. This mirrors minority influence phenomena in social psychology. To achieve maximum deviation in victim policies under complex agent-wise interactions, our unilateral attack aims to characterize and maximize the impact of the adversary on the victims. This is achieved by adapting a unilateral agent-wise relation metric derived from mutual information, thereby mitigating the adverse effects of victim influence on the adversary. To lead the victims into a jointly detrimental scenario, our targeted attack deceives victims into a long-term, cooperatively harmful situation by guiding each victim towards a specific target, determined through a trial-and-error process executed by a reinforcement learning agent. Through AMI, we achieve the first successful attack against real-world robot swarms and effectively fool agents in simulated environments into collectively worst-case scenarios, including Starcraft II and Multi-agent Mujoco. The source code and demonstrations can be found at: https://github.com/DIG-Beihang/AMI.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 周りを見回して学ぶ:探索による自己学習対象検出

Look Around and Learn: Self-Training Object Detection by Exploration ( http://arxiv.org/abs/2302.03566v4 )

ライセンス: Link先を確認
Gianluca Scarpellini, Stefano Rosa, Pietro Morerio, Lorenzo Natale, Alessio Del Bue, (参考訳) オブジェクト検出器が新しい環境でデプロイされると、しばしばパフォーマンスが低下する。 本稿では,既存の物体検出装置を人間の介入に頼らずに,新たな環境下で画像の探索と取得を行なえる方法,すなわち,完全に自己管理されたアプローチについて考察する。 私たちの設定では、エージェントはまず、事前訓練されたオフザシェルフ検出器を使って、オブジェクトを検出し、擬似ラベルを関連付けることで、環境を探索することを学びます。 同一対象の擬似ラベルは異なる視点で一致しなくてはならないと仮定することで、探索政策を学習し、硬いサンプルを採掘し、観察のコンセンサスから洗練された擬似ラベルを生成するための「診断和解」と呼ばれる新しいメカニズムを考案する。 我々は現在の最先端の統一されたベンチマークを実装し、既存の探索政策や知覚メカニズムと比較する。 提案手法は既存の手法よりも優れており,シミュレーションシナリオでは対象検出器を6.2%改善し,他の最先端手法よりも3.59%向上し,実際のロボット試験では9.97%向上した。 提案されたアプローチとベースラインのコードはhttps://iit-pavis.github.io/Look_Around_And_Learn/で公開されている。

When an object detector is deployed in a novel setting it often experiences a drop in performance. This paper studies how an embodied agent can automatically fine-tune a pre-existing object detector while exploring and acquiring images in a new environment without relying on human intervention, i.e., a fully self-supervised approach. In our setting, an agent initially learns to explore the environment using a pre-trained off-the-shelf detector to locate objects and associate pseudo-labels. By assuming that pseudo-labels for the same object must be consistent across different views, we learn the exploration policy Look Around to mine hard samples, and we devise a novel mechanism called Disagreement Reconciliation for producing refined pseudo-labels from the consensus among observations. We implement a unified benchmark of the current state-of-the-art and compare our approach with pre-existing exploration policies and perception mechanisms. Our method is shown to outperform existing approaches, improving the object detector by 6.2% in a simulated scenario, a 3.59% advancement over other state-of-the-art methods, and by 9.97% in the real robotic test without relying on ground-truth. Code for the proposed approach and baselines are available at https://iit-pavis.github.io/Look_Around_And_Learn/.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 医療応用における機械学習技術の調査

A survey of machine learning techniques in medical applications ( http://arxiv.org/abs/2302.13268v5 )

ライセンス: Link先を確認
M. Keramy, K. Jahanian, R. Sani, A. Agha, I. Dehzangy, M. Yan, H. Rokni, (参考訳) 近年、機械学習(ML)は医学的意思決定を含む幅広い問題を解決する強力なツールとして出現している。 過去20年間の医療データの指数的な成長は、手動分析の能力を超え、自動化されたデータ分析と処理への関心が高まりました。 人間の介入を最小限に抑えたデータから学習できるMLアルゴリズムは、医療データ分析と解釈に特に適している。 MLの大きな利点の1つは、教師あり学習に必要なラベル付きトレーニングデータを収集するコストの削減である。 医学におけるMLの応用について多くの研究が行われてきたが、この調査は特に様々な医学研究分野におけるMLの利用に焦点を当てている。 我々は、医学におけるML応用に関する既存の研究を包括的に技術的に概観し、これらのアプローチの強みと限界を強調した。 また,今後の研究の方向性についても論じる。 報酬関数の精度は、MLのパフォーマンスに不可欠であるため、より洗練された報酬関数の開発、MLと他の技術の統合、MLのゲノム研究の新しい分野や新興分野への応用などである。 最後に,この知見を要約し,領域の現状と医療応用におけるMLの将来展望について述べる。

In recent years, machine learning (ML) has emerged as a powerful tool for solving a wide range of problems, including medical decision-making. The exponential growth of medical data over the past two decades has surpassed the capacity for manual analysis, prompting increased interest in automated data analysis and processing. ML algorithms, capable of learning from data with minimal human intervention, are particularly well-suited for medical data analysis and interpretation. One significant advantage of ML is the reduced cost of collecting labeled training data necessary for supervised learning. While numerous studies have explored the applications of ML in medicine, this survey specifically focuses on the use of ML across various medical research fields. We provide a comprehensive technical overview of existing studies on ML applications in medicine, highlighting the strengths and limitations of these approaches. Additionally, we discuss potential research directions for future exploration. These include the development of more sophisticated reward functions, as the accuracy of the reward function is crucial for ML performance, the integration of ML with other techniques, and the application of ML to new and emerging areas in genomics research. Finally, we summarize our findings and present the current state of the field and the future outlook for ML in medical application.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 連続可変量子状態の効率的な学習

Efficient Learning of Continuous-Variable Quantum States ( http://arxiv.org/abs/2303.05097v3 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Giulio Chiribella, Nana Liu, (参考訳) 連続可変量子状態のキャラクタリゼーションは、量子通信、センシング、シミュレーション、計算における応用に不可欠である。 しかし、マルチモード量子状態の完全な特徴づけは、モードの数とともに指数関数的に成長する多くの実験を必要とする。 ここでは、目的が完全な量子状態の再構成ではなく、その特性関数を与えられた点集合で見積もることである別のアプローチを提案する。 反射対称性を持つ多モード状態に対しては、モードの数によらず、状態の O(log M ) コピーのみを用いて M 点の特徴関数を推定できることが示される。 圧縮真空状態の場合のように特性関数が正であることが知られている場合、ビームスプリッタとホモダイン測定のみを用いて実験的にフレンドリーな設定により推定が達成される。

The characterization of continuous-variable quantum states is crucial for applications in quantum communication, sensing, simulation and computing. However, a full characterization of multimode quantum states requires a number of experiments that grows exponentially with the number of modes. Here we propose an alternative approach where the goal is not to reconstruct the full quantum state, but rather to estimate its characteristic function at a given set of points. For multimode states with reflection symmetry, we show that the characteristic function at M points can be estimated using only O(log M ) copies of the state, independently of the number of modes. When the characteristic function is known to be positive, as in the case of squeezed vacuum states, the estimation is achieved by an experimentally friendly setup using only beamsplitters and homodyne measurements.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 一般Su(1, 1)系における量子力学と臨界性の関係

Relations between quantum metrology and criticality in general su(1, 1) systems ( http://arxiv.org/abs/2303.10655v3 )

ライセンス: Link先を確認
Rui Zhang, Wenkui Ding, Zhucheng Zhang, Lei Shao, Yuyu Zhang, Xiaoguang Wang, (参考訳) 臨界度を用いて量子化メトロジーを達成するための試みが広く行われている。 しかし、臨界度によって推定精度が向上する程度は、有限時間資源の制約の下でさらに探究する必要がある。 Su(1, 1) リー代数が支配するハミルトニアンとのユニタリパラメトリゼーション過程を通して、量子距離論と臨界性の関係を明らかにする。 パラメータ化におけるジェネレータの決定は、拡張ブラキストロン問題として扱うことができることを示す。 さらに、パラメータに関する動的量子フィッシャー情報は、システムが臨界点に近づくにつれて、進化の時間に依存する。 3つの量子臨界系の動的センシングの提案を調べた結果、感度の漸近的挙動は予測と一致していることが判明した。 我々の理論は量子力学と臨界の相互作用を深く理解し、量子現象と古典的問題の両方を含む基礎的な関係についての洞察を提供する。

There is a prevalent effort to achieve quantum-enhanced metrology using criticality. However, the extent to which estimation precision is enhanced through criticality still needs further exploration under the constraint of finite time resources. We clarify relations between quantum metrology and criticality through a unitary parametrization process with a Hamiltonian governed by su(1, 1) Lie algebra. We demonstrate that the determination of the generator in the parameterization can be treated as an extended brachistochrone problem. Furthermore, the dynamic quantum Fisher information about the parameter exhibits a power-law dependence on the evolution time as the system approaches its critical point. By investigating the dynamic sensing proposals of three quantum critical systems, we show that the asymptotic behavior of sensitivity is consistent with our predictions. Our theory provides a deep understanding on the interplay of quantum metrology and criticality, providing insights into the underlying connections that involve both quantum phenomena and classical problems.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 量子アルゴリズムにおけるロバストスピン量子ビットのコヒーレント制御に向けて

Towards the coherent control of robust spin qubits in quantum algorithms ( http://arxiv.org/abs/2303.12655v2 )

ライセンス: Link先を確認
Luis Escalera-Moreno, (参考訳) スピン量子ビットが自由進化の下で量子情報を損失する時間スケールを延長する努力は、過去10年間で成功した。 ユーザ主導のコヒーレントな進化を必要とするアプリケーションに関して、キュービットは望ましいアルゴリズム内で動作し、評価されるべきである。 これは、緩和や不完全化が活発である間、外部制御下で量子ビットをテストし、アルゴリズムの忠実度を実際のメリットの指標として最大化することを意味する。 そこで本研究では,緩和対象の1スピン量子ゲートベースアルゴリズムを実行するために考案されたマスター方程式をポーズし,解析的に解く。 これはQBithmという自家製のコードで処理され、ゲートシーケンスと緩和レートを入力し、$\textit{ab initio}$計算に費やされた長年の作業と接続する。 計算された忠実度における緩和および潜在的実験不完全性の影響を評価し,実験データと定量的に一致したよく知られたパルスシーケンスを実装した。 この研究は量子アルゴリズムにおける多スピン量子ビットの研究を刺激し、強靭なスピン量子ビットをデコヒーレンスに対して設計し、より良いキャラクタライズされた実験を行うのに役立つことを期待している。

Many efforts have succeeded over the last decade at lengthening the timescale in which spin qubits loss quantum information under free evolution. With these design principles at a mature stage, it is now timely to widen the scope and take the whole picture: concerning applications that require user-driven coherent evolutions, qubits should be assessed operating within the desired algorithm. This means to test qubits under external control while relaxation and imperfections are active, and to maximize the algorithm fidelity as the actual figure of merit. Herein, we pose and analytically solve a master equation devised to run one-spin-qubit gate-based algorithms subject to relaxation. It is handled via a home-made code, QBithm, which inputs gate sequences and relaxation rates thus connecting with the longstanding work devoted to their $\textit{ab initio}$ computation. We evaluate the impact of relaxation and potential experimental imperfections in the calculated fidelities, and implement well-known pulse sequences quantitatively agreeing with experimental data. Hopefully, this work will stimulate the study of many-spin-qubit systems in quantum algorithms, and will serve as a help to design robust spin qubits against decoherence and to perform better-characterized experiments.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 強化学習における可変選択のための逐次ノックオフ

Sequential Knockoffs for Variable Selection in Reinforcement Learning ( http://arxiv.org/abs/2303.14281v2 )

ライセンス: Link先を確認
Tao Ma, Jin Zhu, Hengrui Cai, Zhengling Qi, Yunxiao Chen, Chengchun Shi, Eric B. Laber, (参考訳) 実世界の強化学習の応用において、前もって知識のないマルコフ特性を満足する状態表現を得ることは、しばしば困難である。 したがって、連続時間点上での測定を連結することで、必要以上の状態(例えば、等)を構築するのが一般的である。 しかし、必然的に国家の次元を増大させると、学習が遅くなり、学習方針が難解になる可能性がある。 我々は、マルコフ決定過程(MDP)において、その過程がMDPのままであり、元のプロセスと同じ報酬関数を共有する元の状態のサブベクターとして、最小の十分状態の概念を導入する。 本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。 大規模なサンプルでは,提案手法は選択整合性を実現する。 本手法は強化学習アルゴリズムの適用に非依存であるため,政策学習などの下流課題に有効である。 実験的実験により理論的結果が検証され,提案手法は変数選択精度と後悔に関するいくつかの競合する手法よりも優れていることが示された。

In real-world applications of reinforcement learning, it is often challenging to obtain a state representation that is parsimonious and satisfies the Markov property without prior knowledge. Consequently, it is common practice to construct a state larger than necessary, e.g., by concatenating measurements over contiguous time points. However, needlessly increasing the dimension of the state may slow learning and obfuscate the learned policy. We introduce the notion of a minimal sufficient state in a Markov decision process (MDP) as the subvector of the original state under which the process remains an MDP and shares the same reward function as the original process. We propose a novel SEquEntial Knockoffs (SEEK) algorithm that estimates the minimal sufficient state in a system with high-dimensional complex nonlinear dynamics. In large samples, the proposed method achieves selection consistency. As the method is agnostic to the reinforcement learning algorithm being applied, it benefits downstream tasks such as policy learning. Empirical experiments verify theoretical results and show the proposed approach outperforms several competing methods regarding variable selection accuracy and regret.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# アナログ情報支援多重絡み合いランキングを用いた全フォトニックGKP量子リピータ

All-photonic GKP-qubit repeater using analog-information-assisted multiplexed entanglement ranking ( http://arxiv.org/abs/2303.14923v3 )

ライセンス: Link先を確認
Filip Rozpędek, Kaushik P. Seshadreesan, Paul Polakos, Liang Jiang, Saikat Guha, (参考訳) 長距離量子通信では、距離のある信号の指数減衰を克服するために量子リピータを使用する必要がある。 そのようなリピータの1つのクラスは、通信チャネルの損失を克服するために量子エラー補正を利用する。 本稿では,ボソニックな Gottesman-Kitaev-Preskill (GKP) 符号を多重化した双方向リピータアーキテクチャで使用するための新しい戦略を提案する。 我々が利用しているGKP符号の重要な特徴は、GKP量子ビットが決定論的2量子ビットゲートを容易に受け入れることである。 さらに、このようなclique-clustersの必要性を軽減するには、単一のプロトコル実行から少なくとも1つのエンドツーエンドの絡み合ったペアの抽出に制限されなくなります。 実際、GKP量子ビットの測定中に生成されたアナログ情報の可用性により、推定品質に基づいてリンクを接続するより良い絡み替え手順を設計できる。 これにより、すべての多重化されたリンクを使用することができ、単一のプロトコルから大量のリンクが実行され、エンドツーエンドの絡み合いの発生に寄与する。 このアーキテクチャは,GKP状態の有限スキーズとホモダイン検出の非効率性から生じる不完全性に対して,高速なエンドツーエンドの絡み合い生成を可能にする。 特に、1000kmを超える長距離量子通信は、GKPのスキーズが13dB未満であっても可能であることを示す。 また,提案方式の実装に必要なGKP量子ビット数を定量化し,優れたハードウェアパラメータに対して,プロトコルの実行毎に約10^3-10^4$GKP量子ビットを必要とすることを確認する。

Long distance quantum communication will require the use of quantum repeaters to overcome the exponential attenuation of signal with distance. One class of such repeaters utilizes quantum error correction to overcome losses in the communication channel. Here we propose a novel strategy of using the bosonic Gottesman-Kitaev-Preskill (GKP) code in a two-way repeater architecture with multiplexing. The crucial feature of the GKP code that we make use of is the fact that GKP qubits easily admit deterministic two-qubit gates, hence allowing for multiplexing without the need for generating large cluster states as required in previous all-photonic architectures based on discrete-variable codes. Moreover, alleviating the need for such clique-clusters entails that we are no longer limited to extraction of at most one end-to-end entangled pair from a single protocol run. In fact, thanks to the availability of the analog information generated during the measurements of the GKP qubits, we can design better entanglement swapping procedures in which we connect links based on their estimated quality. This enables us to use all the multiplexed links so that large number of links from a single protocol run can contribute to the generation of the end-to-end entanglement. We find that our architecture allows for high-rate end-to-end entanglement generation and is resilient to imperfections arising from finite squeezing in the GKP state preparation and homodyne detection inefficiency. In particular we show that long-distance quantum communication over more than 1000 km is possible even with less than 13 dB of GKP squeezing. We also quantify the number of GKP qubits needed for the implementation of our scheme and find that for good hardware parameters our scheme requires around $10^3-10^4$ GKP qubits per repeater per protocol run.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 量子ネットワークにおけるマルチパートエンタングルメントのスケーラブル決定

Scalable Determination of Multipartite Entanglement in Quantum Networks ( http://arxiv.org/abs/2303.17771v4 )

ライセンス: Link先を確認
Wei-Ting Kao, Chien-Ying Huang, Tung-Ju Tsai, Shih-Hsuan Chen, Sheng-Yan Sun, Yu-Cheng Li, Teh-Lu Liao, Chih-Sung Chuu, He Lu, Che-Ming Li, (参考訳) 絡み合った終端ノードからなる量子ネットワークは、非並列な量子インターネットアプリケーションに対する古典的相関よりも強く機能する。 しかし、現実的な量子ネットワークはノイズの影響を受けており、最悪の場合、終端ノードは既存の古典的なデータによって記述される。 このような信頼できないネットワークでは、量子ネットワークの忠実度と真のマルチノードの絡み合いを決定することが重要である。 ここでは、信頼できない恒星ネットワークにおける量子ネットワークの忠実度と真の$N$ノードの絡み合いを決定するには、たったの$N+1$の設定が必要であることを示す。 この手法は半信頼の枠組みを確立し、いくつかのノードが仮定を緩和することを可能にする。 本手法は,真に$N$のEinstein-Podolsky-Rosenステアビリティを検出することで実現されている。 実験では、自発的なパラメトリックダウンコンバージョンエンタングルメント源を用いて、真の3光子および4光子量子ネットワークの決定と、広く使われているエンタングルメント証人の偽陽性、すなわち1/2$のフィデリティ基準を実証した。 本研究は,現実的な量子ネットワークにおけるマルチパーティ・エンタングルメントを決定するためのスケーラブルな手法を提案する。

Quantum networks comprised of entangled end nodes serve stronger than the classical correlation for unparalleled quantum internet applications. However, practical quantum networking is affected by noise, which at its worst, causes end nodes to be described by pre-existing classical data. In such untrusted networks, determining quantum network fidelity and genuine multi-node entanglement becomes crucial. Here, we show that determining quantum network fidelity and genuine $N$-node entanglement in an untrusted star network requires only $N+1$ measurement settings. This method establishes a semi-trusted framework, allowing some nodes to relax their assumptions. Our network determination method is enabled by detecting genuine $N$-node Einstein-Podolsky-Rosen steerability. Experimentally, using spontaneous parametric down-conversion entanglement sources, we demonstrate the determinations of genuine 3-photon and 4-photon quantum networks and the false positives of the widely used entanglement witness, the fidelity criterion of $1/2$. Our results provide a scalable method for the determination of multipartite entanglement in realistic quantum networks.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# グラフディリクレエネルギーの観点からのデータ計算

Data Imputation from the Perspective of Graph Dirichlet Energy ( http://arxiv.org/abs/2304.04474v2 )

ライセンス: Link先を確認
Weiqi Zhang, Guanlue Li, Jianheng Tang, Jia Li, Fugee Tsung, (参考訳) データ計算は、欠落したデータが広範囲に発生するため、重要なタスクである。 多くの手法が2段階のアプローチを採用する: 最初は予備的な計算("draft")を作成し、次にそれを精製して、最後に欠落したデータ計算結果("draft-then-refine"と呼ばれる)を生成する。 本研究では,グラフディリクレエネルギーのレンズを用いて,この戦略を検証した。 我々は、基本的な「ドラフト」計算がディリクレエネルギーを減少させる傾向があることを観察する。 したがって、全体のエネルギー収支を回復するためには、その後の「細かな」ステップが必要である。 グラフ畳み込みネットワーク(GCN)のような既存の改良技術は、しばしばさらなるエネルギー削減をもたらす。 そこで我々は,新しいフレームワークであるGraph Laplacian Pyramid Network (GLPN)を紹介した。 GLPNはU字型のオートエンコーダと残余ネットワークを組み込んで、グローバルとローカルの両方の詳細を効果的にキャプチャする。 複数の実世界のデータセットに関する広範な実験を通じて、GLPNは3つの異なるデータメカニズムで常に最先端のメソッドよりも優れています。 コードはhttps://github.com/liguanlue/GLPN.comで公開されている。

Data imputation is a crucial task due to the widespread occurrence of missing data. Many methods adopt a two-step approach: initially crafting a preliminary imputation (the "draft") and then refining it to produce the final missing data imputation result, commonly referred to as "draft-then-refine". In our study, we examine this prevalent strategy through the lens of graph Dirichlet energy. We observe that a basic "draft" imputation tends to decrease the Dirichlet energy. Therefore, a subsequent "refine" step is necessary to restore the overall energy balance. Existing refinement techniques, such as the Graph Convolutional Network (GCN), often result in further energy reduction. To address this, we introduce a new framework, the Graph Laplacian Pyramid Network (GLPN). GLPN incorporates a U-shaped autoencoder and residual networks to capture both global and local details effectively. Through extensive experiments on multiple real-world datasets, GLPN consistently outperforms state-of-the-art methods across three different missing data mechanisms. The code is available at https://github.com/liguanlue/GLPN.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# モチベーションが要求工学的活動に及ぼす影響の理解

Understanding the Influence of Motivation on Requirements Engineering-related Activities ( http://arxiv.org/abs/2304.08074v3 )

ライセンス: Link先を確認
Dulaji Hidellaarachchi, John Grundy, Rashina Hoda, Ingo Mueller, (参考訳) コンテキスト: 要求工学(RE)関連のアクティビティは、品質ソフトウェアの開発において重要であり、ソフトウェア工学(SE)において最も人間に依存したプロセスの1つです。 したがって、SEの文脈では、多種多様な人間関係の要素がREに与える影響を特定することが重要である。 目的:本研究は,より深い理解と実践的ガイダンスの提供を目的とした,最も影響力のある人間的側面の1つ,REに対するモチベーションの影響を探求する。 方法: 実践者21名を対象に半構造化面接を行い, 文脈的・因果的・介入的条件がRE関連活動のモチベーションに影響を及ぼす状況を説明する社会技術基盤理論(STGT)を用いた理論を開発した。 結果: モチベーションの強化や,モチベーションを緩和する戦略と,これらの戦略を適用した結果を見出した。 結論:我々の発見は,ソフトウェア実践者がREに対するモチベーションの影響を管理し,将来,様々なSEコンテキストにおけるその役割をさらに調査する上で有効な洞察を提供するものです。

Context: Requirements Engineering (RE)-related activities are critical in developing quality software and one of the most human-dependent processes in software engineering (SE). Hence, identifying the impact of diverse human-related aspects on RE is crucial in the SE context. Objective: Our study explores the impact of one of the most influential human aspects, motivation on RE, aiming to deepen understanding and provide practical guidance. Method: By conducting semi-structured interviews with 21 RE-involved practitioners, we developed a theory using socio-technical grounded theory(STGT) that explains the contextual, causal, and intervening conditions influencing motivation in RE-related activities. Result: We identified strategies to enhance motivating situations or mitigate demotivating ones, and the consequences resulting from applying these strategies. Conclusion: Our findings offer actionable insights for software practitioners to manage the influence of motivation on RE and help researchers further investigate its role across various SE contexts in the future.
翻訳日:2024-07-31 23:09:12 公開日:2024-07-30
# 有限エネルギー Gottesman-Kitaev-Preskill 符号化のための2量子演算

Two-qubit operations for finite-energy Gottesman-Kitaev-Preskill encodings ( http://arxiv.org/abs/2305.05262v2 )

ライセンス: Link先を確認
Ivan Rojkov, Paul Moser Röggla, Martin Wagener, Moritz Fontboté-Schmidt, Stephan Welte, Jonathan Home, Florentin Reiter, (参考訳) ゴッテマン・キタエフ・プレスキル符号(GKP)の2ビットゲートを有限エネルギーで動作させる手法を提案する。 提案手法は,最近開発された局所誤り訂正プロトコルを用いて緩和できることを示し,その結果の性能評価を行う。 また,エネルギー保存型有限エネルギーゲートの実装も提案する。

We present techniques for performing two-qubit gates on Gottesman-Kitaev-Preskill (GKP) codes with finite energy, and find that operations designed for ideal infinite-energy codes create undesired entanglement when applied to physically realistic states. We demonstrate that this can be mitigated using recently developed local error-correction protocols, and evaluate the resulting performance. We also propose energy-conserving finite-energy gate implementations which largely avoid the need for further correction.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# 配向点雲正規分布推定のための符号付きハイパー曲面の学習

Learning Signed Hyper Surfaces for Oriented Point Cloud Normal Estimation ( http://arxiv.org/abs/2305.05873v2 )

ライセンス: Link先を確認
Qing Li, Huifang Feng, Kanle Shi, Yue Gao, Yi Fang, Yu-Shen Liu, Zhizhong Han, (参考訳) 本研究では, 符号付き超曲面を学習することで, 様々な点群から大域的一貫した向きで正規性を正確に予測できる, SHS-Net という新しい手法を提案する。 既存の手法のほとんど全てが2段階のパイプライン、すなわち非向きの正規推定と正規向きを推定し、各ステップは別個のアルゴリズムによって実装される。 しかし、従来の手法はパラメータ設定に敏感であり、ノイズ、密度変化、複雑なジオメトリーを持つ点雲による結果が不十分である。 本研究では,多層パーセプトロン(MLP)層によってパラメータ化される符号付きハイパーサーフェス(SHS)を導入し,点雲から端から端までの方向の正規性を推定する。 符号付き超曲面は、局所的および大域的な情報を集約する高次元特徴空間において暗黙的に学習される。 具体的には、3Dポイントクラウドをローカルの潜伏コードとグローバルな潜伏コードにエンコードするパッチ符号化モジュールと形状符号化モジュールを導入する。 次に、注意重み付き正規予測モジュールをデコーダとして提案し、局所的および大域的潜在符号を入力として向き付けられた正規予測を行う。 実験結果から,我々のSHS-Netは,広範に使用されているベンチマークにおいて,非オブジェクト指向とオブジェクト指向の正規推定の両方において,最先端の手法よりも優れていることが示された。

We propose a novel method called SHS-Net for oriented normal estimation of point clouds by learning signed hyper surfaces, which can accurately predict normals with global consistent orientation from various point clouds. Almost all existing methods estimate oriented normals through a two-stage pipeline, i.e., unoriented normal estimation and normal orientation, and each step is implemented by a separate algorithm. However, previous methods are sensitive to parameter settings, resulting in poor results from point clouds with noise, density variations and complex geometries. In this work, we introduce signed hyper surfaces (SHS), which are parameterized by multi-layer perceptron (MLP) layers, to learn to estimate oriented normals from point clouds in an end-to-end manner. The signed hyper surfaces are implicitly learned in a high-dimensional feature space where the local and global information is aggregated. Specifically, we introduce a patch encoding module and a shape encoding module to encode a 3D point cloud into a local latent code and a global latent code, respectively. Then, an attention-weighted normal prediction module is proposed as a decoder, which takes the local and global latent codes as input to predict oriented normals. Experimental results show that our SHS-Net outperforms the state-of-the-art methods in both unoriented and oriented normal estimation on the widely used benchmarks.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# 感情認識のためのVersatile Audio-Viual Learning

Versatile audio-visual learning for emotion recognition ( http://arxiv.org/abs/2305.07216v2 )

ライセンス: Link先を確認
Lucas Goncalves, Seong-Gyun Leem, Wei-Cheng Lin, Berrak Sisman, Carlos Busso, (参考訳) 現在の音声・視覚的感情認識モデルのほとんどは、実用的なアプリケーションに展開するのに必要な柔軟性を欠いている。 1つのモダリティのみが利用可能であっても機能し、感情的属性の予測やカテゴリー的感情の認識に相互に実装できるマルチモーダルシステムを構想する。 このような柔軟性をマルチモーダルな感情認識システムで達成することは、様々なデータソースの正確な解釈と統合に固有の課題のために困難である。 また、リグレッションや分類タスクを直接切り替えることなく、欠落した情報や部分的な情報を堅牢に扱うことも課題である。 本研究は,感情の回帰や感情の分類作業のための非モーダル・マルチモーダルシステムを扱うために,多目的音声視覚学習(VAVL)フレームワークを提案する。 我々は、トレーニングセットの一部(オーディオのみ、またはビデオのみ)で、オーディオと視覚のペアリングデータが利用できない場合でも、トレーニング可能なオーディオ視覚フレームワークを実装した。 我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。 実験の結果,私たちのアーキテクチャはCREMA-D, MSP-IMPROV, CMU-MOSEIコーパスのベースラインを著しく上回ることがわかった。 特に、VAVLは、MSP-IMPROVコーパスの感情属性予測タスクにおいて、新しい最先端性能を得る。

Most current audio-visual emotion recognition models lack the flexibility needed for deployment in practical applications. We envision a multimodal system that works even when only one modality is available and can be implemented interchangeably for either predicting emotional attributes or recognizing categorical emotions. Achieving such flexibility in a multimodal emotion recognition system is difficult due to the inherent challenges in accurately interpreting and integrating varied data sources. It is also a challenge to robustly handle missing or partial information while allowing direct switch between regression or classification tasks. This study proposes a versatile audio-visual learning (VAVL) framework for handling unimodal and multimodal systems for emotion regression or emotion classification tasks. We implement an audio-visual framework that can be trained even when audio and visual paired data is not available for part of the training set (i.e., audio only or only video is present). We achieve this effective representation learning with audio-visual shared layers, residual connections over shared layers, and a unimodal reconstruction task. Our experimental results reveal that our architecture significantly outperforms strong baselines on the CREMA-D, MSP-IMPROV, and CMU-MOSEI corpora. Notably, VAVL attains a new state-of-the-art performance in the emotional attribute prediction task on the MSP-IMPROV corpus.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# RDA-INR:入射神経表現によるリーマン微分同相自己符号化

RDA-INR: Riemannian Diffeomorphic Autoencoding via Implicit Neural Representations ( http://arxiv.org/abs/2305.12854v3 )

ライセンス: Link先を確認
Sven Dummer, Nicola Strisciuglio, Christoph Brune, (参考訳) コンピュータグラフィックスやアトラス構築のための医学領域、統計的潜在モデリング、ペアワイズおよびグループワイズ登録において、LDDMM(Large deformation Diffeomorphic Metric Mapping)などの微分型登録フレームワークが使用される。 近年, 従来の手法の精度と計算効率を向上させるために, 拡散型登録に関するニューラルネットワークに基づくアプローチが開発されている。 本研究では、ニューラルネットワークに基づくアトラス構築の制限と統計的潜在モデリング手法、すなわちそれらがいずれであるかの制限に焦点を当てる。 i)分解能に依存しているか、または (II)適切な平均分散分析に必要なデータや問題固有の幾何学は無視する。 特に、分解能に依存しない暗黙的ニューラル表現に基づく新しいエンコーダを設計することで、この制限を克服する。 エンコーダは, LDDMMに基づく統計的潜在モデリングのための分解能不変性を実現する。 さらに、エンコーダはLDDMMリーマン幾何学を統計的潜在モデルのための解像度非依存のディープラーニングモデルに追加する。 リーマン幾何学が潜在モデリングをどのように改善するかを考察し、適切な平均分散解析のために必要となる。 LDDMMに基づくデータ可変性モデリングにおける分解能独立性の利点を強調するため、本手法は現在のニューラルネットワークベースのLCDMM潜時符号モデルよりも優れていることを示す。 我々の研究は、リーマン幾何学、形状、画像解析、深層学習の組み合わせに関するさらなる研究の道を開く。

Diffeomorphic registration frameworks such as Large Deformation Diffeomorphic Metric Mapping (LDDMM) are used in computer graphics and the medical domain for atlas building, statistical latent modeling, and pairwise and groupwise registration. In recent years, researchers have developed neural network-based approaches regarding diffeomorphic registration to improve the accuracy and computational efficiency of traditional methods. In this work, we focus on a limitation of neural network-based atlas building and statistical latent modeling methods, namely that they either are (i) resolution dependent or (ii) disregard any data- or problem-specific geometry needed for proper mean-variance analysis. In particular, we overcome this limitation by designing a novel encoder based on resolution-independent implicit neural representations. The encoder achieves resolution invariance for LDDMM-based statistical latent modeling. Additionally, the encoder adds LDDMM Riemannian geometry to resolution-independent deep learning models for statistical latent modeling. We investigate how the Riemannian geometry improves latent modeling and is required for a proper mean-variance analysis. To highlight the benefit of resolution independence for LDDMM-based data variability modeling, we show that our approach outperforms current neural network-based LDDMM latent code models. Our work paves the way for more research into how Riemannian geometry, shape respectively image analysis, and deep learning can be combined.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# 不正確なグラウンド・トゥルース・ラベルによる評価のための論理的評価式の実用性検証:乳癌の腫瘍切除への応用

Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer ( http://arxiv.org/abs/2307.02709v2 )

ライセンス: Link先を確認
Yongquan Yang, Hong Bu, (参考訳) 論理的評価公式 (LAF) は、人工知能応用の予測モデルを評価するために、不正確な基底真実ラベル (IAGTL) を用いた評価のために提案された新しい理論である。 しかし, IAGTLを用いた評価におけるLAFの実践性は実世界ではまだ検証されていない。 本報告では,乳腺癌に対する腫瘍分節法(TSfBC)の2つの課題にLAFを応用し,医用病理組織像解析(MHWSIA)を用いてIAGTLを用いた評価を行った。 実験結果と解析結果から, IAGTLを用いたRAFによる評価は, TSfBCの1つの簡単なタスクにおいて, 正確な接地木ラベルによる通常の評価のように確実に行うことができず, TSfBCのもう1つの難しいタスクにおけるAGTLによる通常の評価のように合理的に行うことが可能であった。 これらの結果は, IAGTL を用いた評価において, MHWSIA に適用された LAF の可能性を反映している。 本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。

The logical assessment formula (LAF) is a new theory proposed for evaluations with inaccurate ground-truth labels (IAGTLs) to assess the predictive models for artificial intelligence applications. However, the practicability of LAF for evaluations with IAGTLs has not yet been validated in real-world practice. In this paper, we applied LAF to two tasks of tumour segmentation for breast cancer (TSfBC) in medical histopathology whole slide image analysis (MHWSIA) for evaluations with IAGTLs. Experimental results and analysis show that the LAF-based evaluations with IAGTLs were unable to confidently act like usual evaluations with accurate ground-truth labels on the one easier task of TSfBC while being able to reasonably act like usual evaluations with AGTLs on the other more difficult task of TSfBC. These results and analysis reflect the potential of LAF applied to MHWSIA for evaluations with IAGTLs. This paper presents the first practical validation of LAF for evaluations with IAGTLs in a real-world application.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# 相関センシングによる50スピン量子ビットネットワークのマッピング

Mapping a 50-spin-qubit network through correlated sensing ( http://arxiv.org/abs/2307.06939v2 )

ライセンス: Link先を確認
G. L. van de Stolpe, D. P. Kwiatkowski, C. E. Bradley, J. Randall, M. H. Abobeih, S. A. Breitweiser, L. C. Bassett, M. Markham, D. J. Twitchen, T. H. Taminiau, (参考訳) 光学的にアクセス可能な固体欠陥に関連するスピンは、量子シミュレーション、量子センシング、量子通信を探索するための汎用的なプラットフォームとして登場した。 パイオニアリング実験では、単一の電子スピン欠陥を取り巻く複数の核スピンの検知、イメージング、制御が示されている。 しかし、これらのスピンネットワークのアクセス可能なサイズは、現在の手法のスペクトル分解能によって制限されている。 ここでは,ダイヤモンド中の窒素空孔中心1つを用いて,高分解能相関センシング手法を用いて50個の結合スピンのネットワークをマッピングする。 我々は、ネットワークを介してスピン鎖を識別する連結二重共振列を開発する。 これらの鎖は、特徴的なスピン周波数とその相互接続を高スペクトル分解能で明らかにし、ネットワークをマッピングするために融合することができる。 この結果は、利用可能なスピン量子ビットの数を増やすことにより、量子シミュレーションの新しい機会を提供する。 さらに,本手法は,ホスト結晶以外の複雑なスピン系のナノスケールイメージングにも応用できるかもしれない。

Spins associated to optically accessible solid-state defects have emerged as a versatile platform for exploring quantum simulation, quantum sensing and quantum communication. Pioneering experiments have shown the sensing, imaging, and control of multiple nuclear spins surrounding a single electron-spin defect. However, the accessible size of these spin networks has been constrained by the spectral resolution of current methods. Here, we map a network of 50 coupled spins through high-resolution correlated sensing schemes, using a single nitrogen-vacancy center in diamond. We develop concatenated double-resonance sequences that identify spin-chains through the network. These chains reveal the characteristic spin frequencies and their interconnections with high spectral resolution, and can be fused together to map out the network. Our results provide new opportunities for quantum simulations by increasing the number of available spin qubits. Additionally, our methods might find applications in nano-scale imaging of complex spin systems external to the host crystal.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# Exploit the Leak: バイオメトリックマッチングのリスクを理解する

Exploit the Leak: Understanding Risks in Biometric Matchers ( http://arxiv.org/abs/2307.13717v5 )

ライセンス: Link先を確認
Axel Durbet, Kevin Thiry-Atighehchi, Dorine Chagnon, Paul-Marie Grollemund, (参考訳) 生体認証または識別システムにおいて、マッチング者は、格納されたテンプレートと新しいテンプレートを比較して、マッチがあるかどうかを判断する。 この評価は、類似度スコアと予め定義された閾値の両方に基づいている。 プライバシー法の遵守性を高めるために、マーカはプライバシー保護距離の上に構築することができる。 2進出力('yes' または 'no')の他に、ほとんどのスキームはより正確な計算、例えば距離の値を実行することができる。 このような正確な情報は、システムが返さない場合でも漏れやすい。 これはマルウェアの感染や、サイドチャネル攻撃や部分的に難読化された設計によって実証された、プライバシー保護の弱い距離の使用によって起こりうる。 本稿では,距離評価における情報漏洩の解析を行う。 データプライバシに影響を及ぼす情報漏洩シナリオのカタログを提供する。 それぞれのシナリオは、計算コストの観点から定量化されたインパクトを持つユニークな攻撃を引き起こし、セキュリティレベルをよりよく理解する。

In a biometric authentication or identification system, the matcher compares a stored and a fresh template to determine whether there is a match. This assessment is based on both a similarity score and a predefined threshold. For better compliance with privacy legislation, the matcher can be built upon a privacy-preserving distance. Beyond the binary output (`yes' or `no'), most schemes may perform more precise computations, e.g., the value of the distance. Such precise information is prone to leakage even when not returned by the system. This can occur due to a malware infection or the use of a weakly privacy-preserving distance, exemplified by side channel attacks or partially obfuscated designs. This paper provides an analysis of information leakage during distance evaluation. We provide a catalog of information leakage scenarios with their impacts on data privacy. Each scenario gives rise to unique attacks with impacts quantified in terms of computational costs, thereby providing a better understanding of the security level.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# DocDeshadower: シャドウ除去のための周波数対応変換器

DocDeshadower: Frequency-Aware Transformer for Document Shadow Removal ( http://arxiv.org/abs/2307.15318v2 )

ライセンス: Link先を確認
Ziyang Zhou, Yingtie Lei, Xuhang Chen, Shenghong Luo, Wenjun Zhang, Chi-Man Pun, Zhen Wang, (参考訳) スキャンされた文書の影は、視覚的品質と可読性に悪影響を及ぼすため、文書分析と認識タスクに重大な課題をもたらす。 従来の手法やディープラーニングアプローチを含む現在のシャドウ除去技術は、さまざまなシャドウインテンシティの扱いやドキュメントの詳細の保存において制限に直面している。 これらの問題に対処するために,ラプラシアンピラミッド上に構築された新しい多周波トランスフォーマーモデルであるDocDeshadowerを提案する。 シャドウ画像を複数の周波数帯域に分解し、低周波シャドウ除去のためのアテンション・アグリゲーション・ネットワークとグローバルリファインメントのためのGated Multi-scale Fusion Transformerの2つの重要なモジュールを使用する。 DocDeshadowerは、ドキュメントの内容を保持しながら、さまざまなスケールの影を効果的に除去する。 DocDeshadowerは最先端の手法に比べて優れた性能を示し、文書のシャドウ除去技術を大幅に改善する可能性を強調している。 コードはhttps://github.com/leiyingtie/DocDeshadower.comで入手できる。

Shadows in scanned documents pose significant challenges for document analysis and recognition tasks due to their negative impact on visual quality and readability. Current shadow removal techniques, including traditional methods and deep learning approaches, face limitations in handling varying shadow intensities and preserving document details. To address these issues, we propose DocDeshadower, a novel multi-frequency Transformer-based model built upon the Laplacian Pyramid. By decomposing the shadow image into multiple frequency bands and employing two critical modules: the Attention-Aggregation Network for low-frequency shadow removal and the Gated Multi-scale Fusion Transformer for global refinement. DocDeshadower effectively removes shadows at different scales while preserving document content. Extensive experiments demonstrate DocDeshadower's superior performance compared to state-of-the-art methods, highlighting its potential to significantly improve document shadow removal techniques. The code is available at https://github.com/leiyingtie/DocDeshadower.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# 大規模言語モデルのモデル圧縮に関する調査

A Survey on Model Compression for Large Language Models ( http://arxiv.org/abs/2308.07633v4 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang, (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクをうまく変換した。 しかし、その大きなサイズと高い計算要求は、特にリソース制限された設定において、実用上の課題を提起する。 モデル圧縮はこれらの課題に対処するための重要な研究領域として浮上している。 本稿では,LLMのモデル圧縮技術について述べる。 我々は、量子化、プルーニング、知識蒸留といった手法を取り上げ、最近の進歩を強調している。 また,圧縮LDMの評価に不可欠なベンチマーク戦略と評価指標についても論じる。 本調査は,LLMの効率性と実世界の適用性を高めるとともに,今後の発展のための基盤を構築することを目的とした,研究者や実践者にとって貴重な知見を提供する。

Large Language Models (LLMs) have transformed natural language processing tasks successfully. Yet, their large size and high computational needs pose challenges for practical use, especially in resource-limited settings. Model compression has emerged as a key research area to address these challenges. This paper presents a survey of model compression techniques for LLMs. We cover methods like quantization, pruning, and knowledge distillation, highlighting recent advancements. We also discuss benchmarking strategies and evaluation metrics crucial for assessing compressed LLMs. This survey offers valuable insights for researchers and practitioners, aiming to enhance efficiency and real-world applicability of LLMs while laying a foundation for future advancements.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# スパイキング反強磁性ニューロンを用いたパターン認識

Pattern recognition using spiking antiferromagnetic neurons ( http://arxiv.org/abs/2308.09071v3 )

ライセンス: Link先を確認
Hannah Bradley, Steven Louis, Andrei Slavin, Vasyl Tyberkevych, (参考訳) スピントロニクスデバイスは、ニューロモルフィックコンピューティングのためのナノスケールでエネルギー効率の良い人工ニューロンの開発に有望な道を提供する。 反強磁性(AFM)振動子では、生物学的ニューロンの多くの特徴を模倣する超高速な人工ニューロンが作られることが示されている。 本研究では、パターン認識を行うために、AFMニューロンのニューラルネットワークを訓練する。 ニューロンスパイクの時間的位置に依存するスパイクパターン関連ニューロン(SPAN)と呼ばれる単純な機械学習アルゴリズムが訓練中に使用される。 物理時間のマイクロ秒未満では、AMMニューラルネットワークは、指定された時間ウィンドウ内でスパイクを生成してグリッドから構成されたシンボルを認識するように訓練される。 さらに、望ましくないスパイクを抑制するために出力層を追加することで、マルチシンボル認識を実現する。 AFMニューロンとSPANアルゴリズムを利用して、ピコジュールの順序に基づいて、全体の消費電力で高精度な認識が可能なニューラルネットワークを構築する。

Spintronic devices offer a promising avenue for the development of nanoscale, energy-efficient artificial neurons for neuromorphic computing. It has previously been shown that with antiferromagnetic (AFM) oscillators, ultra-fast spiking artificial neurons can be made that mimic many unique features of biological neurons. In this work, we train an artificial neural network of AFM neurons to perform pattern recognition. A simple machine learning algorithm called spike pattern association neuron (SPAN), which relies on the temporal position of neuron spikes, is used during training. In under a microsecond of physical time, the AFM neural network is trained to recognize symbols composed from a grid by producing a spike within a specified time window. We further achieve multi-symbol recognition with the addition of an output layer to suppress undesirable spikes. Through the utilization of AFM neurons and the SPAN algorithm, we create a neural network capable of high-accuracy recognition with overall power consumption on the order of picojoules.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# 生成型AIを用いた自動学生フィードバックの開発

The Responsible Development of Automated Student Feedback with Generative AI ( http://arxiv.org/abs/2308.15334v2 )

ライセンス: Link先を確認
Euan D Lindsay, Mike Zhang, Aditya Johri, Johannes Bjerva, (参考訳) コントリビューション: 学生に自動フィードバックを提供するため, 生成型AIツールを実装する上で, 批判的倫理的考察を4つ挙げる。 背景:学生に豊かなフィードバックを提供することは、学生の学習を支援するのに不可欠である。 生成AIの最近の進歩、特に大規模言語モデル(LLM)は、学生に繰り返し、スケーラブルで、即座に生成されたフィードバックを提供する機会を提供する。 このようなアプローチは、最近の人工知能(AI)と自然言語処理(NLP)の進歩により、技術的な観点から実現可能である。 Intended Outcomes: この作業の目標は、自動化が難しいため、長い尾のマイノリティのニーズが見過ごされる"多数派の暴徒"を導入することなく、AIシステムを使用して日常的な評価とフィードバックタスクを自動化することです。 アプリケーション設計: この論文は、AIと機械学習に使われている既存の倫理的枠組みを、学生エンジニアに自動フィードバックを提供するという特定の課題に適用する。 このタスクは、自動フィードバックツールが時間とともにどのように進化し、どのように使用されるかを考慮して、開発とメンテナンスの両方の観点から検討されている。 Findings: 本論文は,学生に対する自動フィードバックの実装に関する4つの重要な倫理的考察を明らかにする。

Contribution: This paper identifies four critical ethical considerations for implementing generative AI tools to provide automated feedback to students. Background: Providing rich feedback to students is essential for supporting student learning. Recent advances in generative AI, particularly with large language models (LLMs), provide the opportunity to deliver repeatable, scalable and instant automatically generated feedback to students, making abundant a previously scarce and expensive learning resource. Such an approach is feasible from a technical perspective due to these recent advances in Artificial Intelligence (AI) and Natural Language Processing (NLP); while the potential upside is a strong motivator, doing so introduces a range of potential ethical issues that must be considered as we apply these technologies. Intended Outcomes: The goal of this work is to enable the use of AI systems to automate mundane assessment and feedback tasks, without introducing a "tyranny of the majority", where the needs of minorities in the long tail are overlooked because they are difficult to automate. Application Design: This paper applies an extant ethical framework used for AI and machine learning to the specific challenge of providing automated feedback to student engineers. The task is considered from both a development and maintenance perspective, considering how automated feedback tools will evolve and be used over time. Findings: This paper identifies four key ethical considerations for the implementation of automated feedback for students: Participation, Development, Impact on Learning and Evolution over Time.
翻訳日:2024-07-31 22:59:28 公開日:2024-07-30
# クラス適応的クロスアテンションによる意味的画像合成

Semantic Image Synthesis via Class-Adaptive Cross-Attention ( http://arxiv.org/abs/2308.16071v3 )

ライセンス: Link先を確認
Tomaso Fontanini, Claudio Ferrari, Giuseppe Lisanti, Massimo Bertozzi, Andrea Prati, (参考訳) セマンティック画像合成において、最先端技術はSPADE(SPatially-Adaptive DE-normalization)層のカスタマイズされたバリエーションを使用する方法に支配されている。 設計によって、これらのレイヤはピクセルワイドな変調パラメータを学習し、各ピクセルが属するセマンティッククラスに基づいてジェネレータのアクティベーションを非正規化する。 したがって、彼らはグローバルな画像統計を見落とし、最終的にローカルなスタイルの編集を難しくし、色や照明の分布シフトのようなグローバルな不整合を引き起こす傾向にある。 また、SPADEレイヤはジェネレータのスタイルをマッピングするためにセマンティックセグメンテーションマスクを必要とし、手動で介入することなく形状操作を防止する。 そこで我々は,SPADEの代わりにクロスアテンション層を用いて形状相関を学習し,画像生成プロセスの条件付けを行う新しいアーキテクチャを設計した。 我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。 コードとモデルはhttps://github.com/TFonta/CA2SISで公開されている。

In semantic image synthesis the state of the art is dominated by methods that use customized variants of the SPatially-Adaptive DE-normalization (SPADE) layers, which allow for good visual generation quality and editing versatility. By design, such layers learn pixel-wise modulation parameters to de-normalize the generator activations based on the semantic class each pixel belongs to. Thus, they tend to overlook global image statistics, ultimately leading to unconvincing local style editing and causing global inconsistencies such as color or illumination distribution shifts. Also, SPADE layers require the semantic segmentation mask for mapping styles in the generator, preventing shape manipulations without manual intervention. In response, we designed a novel architecture where cross-attention layers are used in place of SPADE for learning shape-style correlations and so conditioning the image generation process. Our model inherits the versatility of SPADE, at the same time obtaining state-of-the-art generation quality, as well as improved global and local style transfer. Code and models available at https://github.com/TFonta/CA2SIS.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# 臨界点を越えた量子多体系の不変系制御

Invariant-based control of quantum many-body systems across critical points ( http://arxiv.org/abs/2309.05469v2 )

ライセンス: Link先を確認
Hilario Espinós, Loris Maria Cangemi, Amikam Levy, Ricardo Puebla, Erik Torrontegui, (参考訳) 量子多体系は、量子ベースの技術や基礎物理学の研究において重要な要素として浮上している。 本研究では,量子相転移における高速かつ高忠実な進化を実現するという課題に対処する。 逆場イジングモデルと長距離キタエフモデルにより記述された多体系の低エネルギー部分空間内での断熱的進化を保証するために, 動的不変量に基づく制御手法を提案する。 制御可能なパラメータを解析的制御結果に従って調整することにより,速度限界に近い高忠実度進化を実現する。 注目すべきは、我々のアプローチがKibble-Zurekスケーリングの法則を破り、チューニング可能で時間スケーリングの振る舞いを大幅に改善したことです。 本稿では,本研究の成果を説明するための数値シミュレーションを行い,ノイズ制御や障害に対するシステムサイズと堅牢性,および非可積分システムへの適用性について述べる。

Quantum many-body systems are emerging as key elements in the quest for quantum-based technologies and in the study of fundamental physics. In this study, we address the challenge of achieving fast and high-fidelity evolutions across quantum phase transitions, a crucial requirement for practical applications. We introduce a control technique based on dynamical invariants tailored to ensure adiabatic-like evolution within the lowest-energy subspace of the many-body systems described by the transverse-field Ising and long-range Kitaev models. By tuning the controllable parameter according to analytical control results, we achieve high-fidelity evolutions operating close to the speed limit. Remarkably, our approach leads to the breakdown of Kibble-Zurek scaling laws, offering tunable and significantly improved time scaling behavior. We provide detailed numerical simulations to illustrate our findings, demonstrating scalability with the system size and robustness against noisy controls and disorder, as well as its applicability to a non-integrable system.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# STUPD:空間的・時間的関係推論のための合成データセット

STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning ( http://arxiv.org/abs/2309.06680v2 )

ライセンス: Link先を確認
Palaash Agrawal, Haidi Azaman, Cheston Tan, (参考訳) オブジェクト間の関係を理解することは、視覚的なシーンの意味を理解するために不可欠である。 また、ビジュアルモデルと言語モデルを橋渡しするための重要なステップでもある。 しかし、現在の最先端のコンピュータビジョンモデルには、空間推論をうまく行う能力がない。 既存のデータセットは、相対的に少数の空間関係をカバーしており、これらは全て、本質的な動きを伴わない静的関係である。 本稿では,英語の前置詞から得られる静的・動的空間的関係を理解するための大規模ビデオデータセットSTUPDを提案する。 データセットには150Kの視覚的描写(ビデオと画像)が含まれており、Unity3Dを用いて合成されたオブジェクトインタラクションシミュレーションの形式で、30の異なる空間的前提感で構成されている。 また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。 我々の知る限りでは、視覚的設定による時間的関係を表すデータセットは存在しない。 本データセットでは,フレームワイド座標などのオブジェクトインタラクションの3次元情報や,使用するオブジェクトの記述も提供する。 この合成データセットの目標は、モデルが現実世界の設定における視覚的関係の検出を改善することを支援することである。 実世界の2つのデータセット(ImageNet-VidVRDとSpatial Senses)のSTUPDデータセット上で事前トレーニングを行った場合、他の事前トレーニングデータセットと比較して、様々なモデルの性能が向上することを示した。

Understanding relations between objects is crucial for understanding the semantics of a visual scene. It is also an essential step in order to bridge visual and language models. However, current state-of-the-art computer vision models still lack the ability to perform spatial reasoning well. Existing datasets mostly cover a relatively small number of spatial relations, all of which are static relations that do not intrinsically involve motion. In this paper, we propose the Spatial and Temporal Understanding of Prepositions Dataset (STUPD) -- a large-scale video dataset for understanding static and dynamic spatial relationships derived from prepositions of the English language. The dataset contains 150K visual depictions (videos and images), consisting of 30 distinct spatial prepositional senses, in the form of object interaction simulations generated synthetically using Unity3D. In addition to spatial relations, we also propose 50K visual depictions across 10 temporal relations, consisting of videos depicting event/time-point interactions. To our knowledge, no dataset exists that represents temporal relations through visual settings. In this dataset, we also provide 3D information about object interactions such as frame-wise coordinates, and descriptions of the objects used. The goal of this synthetic dataset is to help models perform better in visual relationship detection in real-world settings. We demonstrate an increase in the performance of various models over 2 real-world datasets (ImageNet-VidVRD and Spatial Senses) when pretrained on the STUPD dataset, in comparison to other pretraining datasets.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# DOMAIN:軽度保存モデルベースオフリン強化学習

DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning ( http://arxiv.org/abs/2309.08925v3 )

ライセンス: Link先を確認
Xiao-Yin Liu, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Hao Li, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou, (参考訳) オフラインデータセットから環境モデルを学習し,より多くのアウト・オブ・ディストリビューションモデルデータを生成するモデルベース強化学習(RL)は,オフラインRLにおける分布シフト問題に対する効果的なアプローチとなっている。 学習環境と実際の環境のギャップのため、正確なオフラインデータと不正確なモデルデータのバランスをとるために、保守性はアルゴリズムに組み込まれるべきである。 現在のアルゴリズムの保守性は、主にモデルの不確実性推定に依存している。 しかし、不確実性推定は信頼性が低く、特定のシナリオでは性能が低下する。 そこで本稿では,モデルの不確実性を推定することなく,MilDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。 DOMAINはモデルサンプルの適応的なサンプリング分布を導入し、モデルデータペナルティを適応的に調整することができる。 本稿では,領域外においてDOMAINが学習したQ値が真のQ値の下限であること,DOMAINが従来のモデルベースオフラインRLアルゴリズムよりも保守的でないこと,安全ポリシーの改善が保証されていることを理論的に示す。 大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。

Model-based reinforcement learning (RL), which learns environment model from offline dataset and generates more out-of-distribution model data, has become an effective approach to the problem of distribution shift in offline RL. Due to the gap between the learned and actual environment, conservatism should be incorporated into the algorithm to balance accurate offline data and imprecise model data. The conservatism of current algorithms mostly relies on model uncertainty estimation. However, uncertainty estimation is unreliable and leads to poor performance in certain scenarios, and the previous methods ignore differences between the model data, which brings great conservatism. Therefore, this paper proposes a milDly cOnservative Model-bAsed offlINe RL algorithm (DOMAIN) without estimating model uncertainty to address the above issues. DOMAIN introduces adaptive sampling distribution of model samples, which can adaptively adjust the model data penalty. In this paper, we theoretically demonstrate that the Q value learned by the DOMAIN outside the region is a lower bound of the true Q value, the DOMAIN is less conservative than previous model-based offline RL algorithms and has the guarantee of safety policy improvement. The results of extensive experiments show that DOMAIN outperforms prior RL algorithms on the D4RL dataset benchmark.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# vSHARP:変数分割半四分法Admmアルゴリズムによる逆プロブレムの再構成

vSHARP: variable Splitting Half-quadratic Admm algorithm for Reconstruction of inverse-Problems ( http://arxiv.org/abs/2309.09954v2 )

ライセンス: Link先を確認
George Yiasemis, Nikita Moriakov, Jan-Jakob Sonke, Jonas Teuwen, (参考訳) メディカルイメージング(MI)タスク、例えば加速平行磁気共鳴イメージング(MRI)は、しばしばノイズや不完全な測定からイメージを再構成する。 これは、満足のいく閉形式解析解が得られない不測の逆問題を解くことを意味する。 MRI再構成における圧縮センシング(CS)のような従来の手法は、低忠実度画像を得るのに時間がかかるか、時間がかかりやすい。 近年, 逆確率解法において, 従来の手法を超越して優れた性能を示した深層学習(DL)手法が多数存在する。 本研究では, 逆問題再構成のためのvSHARP (可変分割半四分法ADMMアルゴリズム) を提案する。 vSHARPは半量子可変分割法を用いており、最適化プロセスのアンロールには Alternating Direction Method of Multipliers (ADMM) を用いる。 データ一貫性のために、vSHARPは画像領域で微分勾配降下過程をアンロールし、一方、U-NetアーキテクチャのようなDLベースのデノイザは画質を高めるために適用される。 vSHARPはまた、ADMM初期化のためのラグランジュ乗算器を予測するために拡張畳み込みDLベースのモデルも採用している。 我々は,2つの異なるデータセットを用いた並列MRI再構成タスクと,他のデータセットを用いた並列MRI再構成タスクにおけるvSHARPの評価を行った。 我々の最先端手法との比較分析は,これらの応用におけるvSHARPの優れた性能を示すものである。

Medical Imaging (MI) tasks, such as accelerated parallel Magnetic Resonance Imaging (MRI), often involve reconstructing an image from noisy or incomplete measurements. This amounts to solving ill-posed inverse problems, where a satisfactory closed-form analytical solution is not available. Traditional methods such as Compressed Sensing (CS) in MRI reconstruction can be time-consuming or prone to obtaining low-fidelity images. Recently, a plethora of Deep Learning (DL) approaches have demonstrated superior performance in inverse-problem solving, surpassing conventional methods. In this study, we propose vSHARP (variable Splitting Half-quadratic ADMM algorithm for Reconstruction of inverse Problems), a novel DL-based method for solving ill-posed inverse problems arising in MI. vSHARP utilizes the Half-Quadratic Variable Splitting method and employs the Alternating Direction Method of Multipliers (ADMM) to unroll the optimization process. For data consistency, vSHARP unrolls a differentiable gradient descent process in the image domain, while a DL-based denoiser, such as a U-Net architecture, is applied to enhance image quality. vSHARP also employs a dilated-convolution DL-based model to predict the Lagrange multipliers for the ADMM initialization. We evaluate vSHARP on tasks of accelerated parallel MRI Reconstruction using two distinct datasets and on accelerated parallel dynamic MRI Reconstruction using another dataset. Our comparative analysis with state-of-the-art methods demonstrates the superior performance of vSHARP in these applications.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# 量子チャネルを介した情報・エネルギー同時伝送について

On Simultaneous Information and Energy Transmission through Quantum Channels ( http://arxiv.org/abs/2309.13691v6 )

ライセンス: Link先を確認
Bishal Kumar Das, Lav R. Varshney, Vaibhav Madhok, (参考訳) 送信された信号が同時に最小限のエネルギーを輸送しなければならない場合に、情報を量子チャネルを介して送信できる最適な速度が特徴付けられる。 そこで我々は,キャパシティ・パワー関数の量子古典的アナログを導入し,古典情報理論におけるノイズチャネルを通じて古典情報を伝達する結果を一般化する。 古典的量子チャネルのキャパシティ・パワー関数は、非アシストプロトコルとプライベートプロトコルの両方において共役であり、また、そのようなチャネルに対する入力信号のアンサンブルと無相関なアンサンブルの加算性も証明している。 これは、計算に正規化された公式は必要ないことを意味する。 これらの性質は、入力状態の集合を純粋量子状態に制限する場合に、すべてのノイズのないチャネルを保持できることを示す。 一般的なチャネルでは、キャパシティ・パワー関数は断片的凹凸である。 我々はこれを数値シミュレーションで裏付けるエレガントな視覚的証明を与える。 ランダム量子状態のチャネル容量と特性を結合する。 特に、エネルギー制約下でのランダムな量子状態の性質と大きなヒルベルト空間における濃度現象を用いて、ノイズレスチャネルの場合のキャパシティ・パワー関数の解析式を得る。

The optimal rate at which information can be sent through a quantum channel when the transmitted signal must simultaneously carry some minimum amount of energy is characterized. To do so, we introduce the quantum-classical analogue of the capacity-power function and generalize results in classical information theory for transmitting classical information through noisy channels. We show that the capacity-power function for a classical-quantum channel, for both unassisted and private protocol, is concave and also prove additivity for unentangled and uncorrelated ensembles of input signals for such channels. This implies we do not need regularized formulas for calculation. We show these properties also hold for all noiseless channels when we restrict the set of input states to be pure quantum states. For general channels, we find that the capacity-power function is piece-wise concave. We give an elegant visual proof for this supported by numerical simulations. We connect channel capacity and properties of random quantum states. In particular, we obtain analytical expressions for the capacity-power function for the case of noiseless channels using properties of random quantum states under an energy constraint and concentration phenomena in large Hilbert spaces.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# 視覚言語モデルに対する耐雑音性Few-Shotunsupervised Adapter

Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models ( http://arxiv.org/abs/2309.14928v3 )

ライセンス: Link先を確認
Eman Ali, Muhammad Haris Khan, (参考訳) 大規模視覚言語モデルの最近の進歩は、様々なゼロショット画像分類タスクにおいて印象的な性能を達成している。 従来の研究では、少数のラベル付きターゲットサンプルを導入することで、大幅な改善が見られたが、それでもターゲットサンプルのラベル付けが必要であり、様々な視覚認識タスクを処理しながら、そのスケーラビリティと一般化性を著しく低下させる。 NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。 NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。 2つの相補的なデザインで構成されている。 1つ目は、擬似ラベルノイズに対処する適応的なキャッシュ形成であり、その予測信頼度に応じてキーと値のペアを重み付けする。 2つ目は知識誘導型キャッシュ改良であり、大規模な視覚言語モデルからの知識蒸留を活用してペア値(擬似ラベル)とキャッシュ重み付けを洗練させる。 大規模な実験により、NtUAは複数の広く採用されているベンチマークにおいて、一貫して優れた性能を発揮することが示された。

Recent advances in large-scale vision-language models have achieved impressive performance in various zero-shot image classification tasks. While prior studies have demonstrated significant improvements by introducing few-shot labelled target samples, they still require labelling of target samples, which greatly degrades their scalability and generalizability while handling various visual recognition tasks. We design NtUA, a Noise-tolerant Unsupervised Adapter that allows the learning of effective target models with few unlabelled target samples. NtUA works as a key-value cache that formulates visual features and predicted pseudo-labels of the few unlabelled target samples as key-value pairs. It consists of two complementary designs. The first is adaptive cache formation that combats pseudo-label noises by weighting the key-value pairs according to their prediction confidence. The second is knowledge-guided cache refinement, which refines pair values (i.e., pseudo-labels) and cache weights by leveraging knowledge distillation from large-scale vision language models. Extensive experiments show that NtUA achieves superior performance consistently across multiple widely adopted benchmarks.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# PlotMap:ゲームワールド構築のためのレイアウト自動設計

PlotMap: Automated Layout Design for Building Game Worlds ( http://arxiv.org/abs/2309.15242v3 )

ライセンス: Link先を確認
Yi Wang, Jieliang Luo, Adam Gaier, Evan Atherton, Hilmar Koch, (参考訳) ゲームにおける物語と物理的世界の両方を開発する過程であるワールドビルディングは、ゲーム体験において重要な役割を担っている。 批判的に評価された独立系ゲームとAAAのビデオゲームは、強い世界構築を称賛され、物語に巧みに介入し、高揚させ、プレイヤーを魅了し、持続的な印象を残すゲームマップが提供される。 しかし、様々な考察から複雑な制約を満たす必要があるため、所望の物語をサポートするゲームマップの設計は困難である。 既存の地図生成手法の多くは、ゲームプレイの仕組みや地図地形に関する考察に重点を置いているが、ストーリーをサポートする必要性は通常無視されている。 結果として、特定のストーリーを促進するゲーム世界を設計するためには、手作業による広範囲な調整が依然として必要である。 本研究では,世界構築パイプラインにおけるマップ生成手法に依存しないプロット配置設計の余分なレイヤを導入することで,この問題に対処する。 具体的には,ゲームマップ上の具体的位置を,あるストーリー(プロット施設)に言及された抽象的な場所に割り当てる作業として,ストーリーから生じる空間的制約に従って,(プロット)施設配置タスクを定義する。 本稿では,CMA-ES(Covariance Matrix Adaptation Evolution Strategy)による進化的計算に基づく手法と,強化学習(Reinforcement Learning, RL)に基づく手法を提案する。 施設配置タスクのデータセットを生成し,異なる手法を実験・評価するためのジムのような環境を構築し,さらに総合的な実験により2つの手法を解析し,施設配置タスクを解くための洞察を提供することを目的としている。 コードと10万のタスクを含むデータセットをさまざまなスケールでリリースします。

World-building, the process of developing both the narrative and physical world of a game, plays a vital role in the game's experience. Critically-acclaimed independent and AAA video games are praised for strong world-building, with game maps that masterfully intertwine with and elevate the narrative, captivating players and leaving a lasting impression. However, designing game maps that support a desired narrative is challenging, as it requires satisfying complex constraints from various considerations. Most existing map generation methods focus on considerations about gameplay mechanics or map topography, while the need to support the story is typically neglected. As a result, extensive manual adjustment is still required to design a game world that facilitates particular stories. In this work, we approach this problem by introducing an extra layer of plot facility layout design that is independent of the underlying map generation method in a world-building pipeline. Concretely, we define (plot) facility layout tasks as the tasks of assigning concrete locations on a game map to abstract locations mentioned in a given story (plot facilities), following spatial constraints derived from the story. We present two methods for solving these tasks automatically: an evolutionary computation based approach through Covariance Matrix Adaptation Evolution Strategy (CMA-ES), and a Reinforcement Learning (RL) based approach. We develop a method of generating datasets of facility layout tasks, create a gym-like environment for experimenting with and evaluating different methods, and further analyze the two methods with comprehensive experiments, aiming to provide insights for solving facility layout tasks. We will release the code and a dataset containing 10, 000 tasks of different scales.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# カスケード拡散モデルによる熱帯サイクロンの予測

Forecasting Tropical Cyclones with Cascaded Diffusion Models ( http://arxiv.org/abs/2310.01690v7 )

ライセンス: Link先を確認
Pritthijit Nath, Pancham Shukla, Shuai Wang, César Quilodrán-Casas, (参考訳) 気候変動により熱帯性サイクロンが強くなるにつれて、Alベースのモデリングの台頭は、数学的モデルに基づく伝統的な手法に比べて、より手頃で手頃なアプローチを提供する。 この研究は、生成拡散モデルを利用して、衛星画像、リモートセンシング、大気データを統合することでサイクロン軌道と降水パターンを予測する。 予測、超解像、降水モデルという3つの主要なタスクを取り入れたケースケードアプローチを採用している。 トレーニングデータセットには、2019年1月から2023年3月までの6つの主要な熱帯サイクロン盆地から51のサイクロンが含まれている。 実験により, 3つのタスクでそれぞれ0.5および20dBを超える優れた構造類似度(SSIM)とピーク・シンガル・トゥ・ノイズ比(PSNR)の36時間ロールアウトの正確な予測が得られた。 36時間の予測は1台のNvidia A30/RTX 2080 Tiで30分で作成できる。 この研究は、熱帯性サイクロン予測のような気象予報における高性能需要のための拡散モデルのようなAl手法の有望な効率性を強調しつつ、計算に手頃な価格のままであり、重要な予測ニーズと金融制限のある高度に脆弱な領域に理想的であることを強調した。 https://github.com/nathzi1505/forecast-diffmodels.comでアクセス可能。

As tropical cyclones become more intense due to climate change, the rise of Al-based modelling provides a more affordable and accessible approach compared to traditional methods based on mathematical models. This work leverages generative diffusion models to forecast cyclone trajectories and precipitation patterns by integrating satellite imaging, remote sensing, and atmospheric data. It employs a cascaded approach that incorporates three main tasks: forecasting, super-resolution, and precipitation modelling. The training dataset includes 51 cyclones from six major tropical cyclone basins from January 2019 - March 2023. Experiments demonstrate that the final forecasts from the cascaded models show accurate predictions up to a 36-hour rollout, with excellent Structural Similarity (SSIM) and Peak-Singal-To-Noise Ratio (PSNR) values exceeding 0.5 and 20 dB, respectively, for all three tasks. The 36-hour forecasts can be produced in as little as 30 mins on a single Nvidia A30/RTX 2080 Ti. This work also highlights the promising efficiency of Al methods such as diffusion models for high-performance needs in weather forecasting, such as tropical cyclone forecasting, while remaining computationally affordable, making them ideal for highly vulnerable regions with critical forecasting needs and financial limitations. Code accessible at https://github.com/nathzi1505/forecast-diffmodels.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# サイレントへのアドボケート:非参加型クライアントのためのフェデレーションの強化

Advocating for the Silent: Enhancing Federated Generalization for Non-Participating Clients ( http://arxiv.org/abs/2310.07171v5 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Dun Zeng, Qifan Wang, Jie Liu, (参考訳) Federated Learning (FL)は、直接的なデータ共有を伴わない協調モデルトレーニングの能力により、人気が高まっている。 しかし、クライアント間でのローカルデータ分散の相違は、しばしば非独立性独立分散(Non-IID)チャレンジと呼ばれ、FLの一般化効果に大きなハードルとなる。 すべてのクライアントがトレーニングプロセスに参加するわけではない場合、このシナリオはさらに複雑になる。 これは、訓練されたモデルの一般化能力の評価を大幅に複雑にすることができる。 近年, 多様な分布を持つクライアントの未確認データに関する一般化のギャップが注目されているが, 参加クライアントのトレーニング分布と非参加クライアントの試験分布との区別は概ね見過ごされている。 そこで本稿では,FLのための情報理論の一般化フレームワークについて紹介する。 具体的には、局所分布の情報エントロピーを評価し、これらの分布にまたがる差分を識別することによって一般化誤差を定量化する。 導出一般化境界に着想を得て、重み付け集約アプローチとクライアント選択戦略の二重化を導入する。 これらの革新は、FLの一般化能力を強化し、より多様なクライアントデータ分散を組み込むことで、訓練されたモデルが非参加型クライアントでより良く機能することを保証するように設計されている。 提案手法の有効性を再確認し,理論的構成とシームレスに一致させた。

Federated Learning (FL) has surged in prominence due to its capability of collaborative model training without direct data sharing. However, the vast disparity in local data distributions among clients, often termed the Non-Independent Identically Distributed (Non-IID) challenge, poses a significant hurdle to FL's generalization efficacy. The scenario becomes even more complex when not all clients participate in the training process, a common occurrence due to unstable network connections or limited computational capacities. This can greatly complicate the assessment of the trained models' generalization abilities. While a plethora of recent studies has centered on the generalization gap pertaining to unseen data from participating clients with diverse distributions, the distinction between the training distributions of participating clients and the testing distributions of non-participating ones has been largely overlooked. In response, our paper unveils an information-theoretic generalization framework for FL. Specifically, it quantifies generalization errors by evaluating the information entropy of local distributions and discerning discrepancies across these distributions. Inspired by our deduced generalization bounds, we introduce a weighted aggregation approach and a duo of client selection strategies. These innovations are designed to strengthen FL's ability to generalize and thus ensure that trained models perform better on non-participating clients by incorporating a more diverse range of client data distributions. Our extensive empirical evaluations reaffirm the potency of our proposed methods, aligning seamlessly with our theoretical construct.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# 高速多極型アテンション:長周期の分極型アテンション機構

Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences ( http://arxiv.org/abs/2310.11960v3 )

ライセンス: Link先を確認
Yanming Kang, Giang Tran, Hans De Sterck, (参考訳) トランスフォーマーベースのモデルは、多くの分野で最先端のパフォーマンスを達成した。 しかし、入力長に関する自己注意の二次的複雑さは、トランスフォーマーモデルが長い列に適用可能であることを妨げている。 これを解決するために、Fast Multipole Attentionという新しいアテンションメカニズムを提案する。これは、長さ$n$から$\mathcal{O}(n^2)$から$\mathcal{O}(n \log n)$または$O(n)$へのアテンションの時間とメモリの複雑さを減らし、グローバルな受容場を保持しながら、新しいアテンションメカニズムである。 階層的なアプローチは、クエリ、キー、値を$\mathcal{O}( \log n)$の解像度レベルに分類する。 このように、互いに遠く離れたトークン間の相互作用は、効率的な階層的な方法で低い分解能で考慮される。 Fast Multipole Attentionの全体的な複雑さは、クエリがダウンサンプリングされているかどうかによって、$\mathcal{O}(n)$または$\mathcal{O}(n \log n)$である。 このマルチレベル分割・分散戦略は、$n$ボディ物理学の高速和法と高速乗極法に着想を得たものである。 自動回帰および双方向言語モデリングタスクの評価を行い、中規模データセット上での高速多極性注意モデルと他の効率的な注意モデルとの比較を行った。 我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。 Fast Multipole Attentionメカニズムは、トレーニング中や長いシーケンスを生成する際に、完全なコンテキストを効率的で自然に階層的な方法で考慮し、はるかに大きなシーケンス長の言語モデルを強化する可能性がある。

Transformer-based models have achieved state-of-the-art performance in many areas. However, the quadratic complexity of self-attention with respect to the input length hinders the applicability of Transformer-based models to long sequences. To address this, we present Fast Multipole Attention, a new attention mechanism that uses a divide-and-conquer strategy to reduce the time and memory complexity of attention for sequences of length $n$ from $\mathcal{O}(n^2)$ to $\mathcal{O}(n \log n)$ or $O(n)$, while retaining a global receptive field. The hierarchical approach groups queries, keys, and values into $\mathcal{O}( \log n)$ levels of resolution, where groups at greater distances are increasingly larger in size and the weights to compute group quantities are learned. As such, the interaction between tokens far from each other is considered in lower resolution in an efficient hierarchical manner. The overall complexity of Fast Multipole Attention is $\mathcal{O}(n)$ or $\mathcal{O}(n \log n)$, depending on whether the queries are down-sampled or not. This multi-level divide-and-conquer strategy is inspired by fast summation methods from $n$-body physics and the Fast Multipole Method. We perform evaluation on autoregressive and bidirectional language modeling tasks and compare our Fast Multipole Attention model with other efficient attention variants on medium-size datasets. We find empirically that the Fast Multipole Transformer performs much better than other efficient transformers in terms of memory size and accuracy. The Fast Multipole Attention mechanism has the potential to empower large language models with much greater sequence lengths, taking the full context into account in an efficient, naturally hierarchical manner during training and when generating long sequences.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# KI-PMF:知識統合可塑性運動予測

KI-PMF: Knowledge Integrated Plausible Motion Forecasting ( http://arxiv.org/abs/2310.12007v3 )

ライセンス: Link先を確認
Abhishek Vivekanandan, Ahmed Abouelazm, Philip Schörner, J. Marius Zöllner, (参考訳) 交通機関の正確な動きを予測することは、大規模な自動運転車の配備に不可欠である。 現在の軌道予測アプローチは、主に特定の計量で損失関数を最適化することに集中しており、これは物理的法則に従わない、あるいは外部の制約に反しない予測をもたらす可能性がある。 本研究の目的は,車両の運動的制約と運転環境の幾何学的制約に適合して,ネットワークが将来の軌跡を予測できる明示的な知識を組み込むことである。 これを実現するために、定義した知識事前を統合するために、非パラメトリックプルーニング層とアテンション層を導入する。 提案手法は,複雑な状況と動的状況の両方において,交通アクタの到達可能性を保証するように設計されている。 ネットワークに物理法則に従うよう条件付けすることで、現実の環境での自動運転車の安全性と効率を維持する上で不可欠な正確かつ安全な予測が得られ、要約して、トレーニングプロセスに知識を取り入れることで、安全で信頼性の高い動き予測のためのオフロード予測を防止する概念を提示する。

Accurately forecasting the motion of traffic actors is crucial for the deployment of autonomous vehicles at a large scale. Current trajectory forecasting approaches primarily concentrate on optimizing a loss function with a specific metric, which can result in predictions that do not adhere to physical laws or violate external constraints. Our objective is to incorporate explicit knowledge priors that allow a network to forecast future trajectories in compliance with both the kinematic constraints of a vehicle and the geometry of the driving environment. To achieve this, we introduce a non-parametric pruning layer and attention layers to integrate the defined knowledge priors. Our proposed method is designed to ensure reachability guarantees for traffic actors in both complex and dynamic situations. By conditioning the network to follow physical laws, we can obtain accurate and safe predictions, essential for maintaining autonomous vehicles' safety and efficiency in real-world settings.In summary, this paper presents concepts that prevent off-road predictions for safe and reliable motion forecasting by incorporating knowledge priors into the training process.
翻訳日:2024-07-31 22:49:41 公開日:2024-07-30
# 正に分解可能なカーネルを用いた幾何学的学習

Geometric Learning with Positively Decomposable Kernels ( http://arxiv.org/abs/2310.13821v2 )

ライセンス: Link先を確認
Nathael Da Costa, Cyrus Mostajeran, Juan-Pablo Ortega, Salem Said, (参考訳) カーネルメソッドは機械学習の強力なツールである。 古典的なカーネル法は、データ空間を再現されたカーネルヒルベルト空間(RKHS)にマッピングする正定カーネルに基づいている。 ユークリッドでないデータ空間では、正定値のカーネルは成立し難い。 本稿では、正の分解を許容するカーネルのみを必要とするカーネルKrein空間(RKKS)を再現する手法を提案する。 RKKSで学習するためには、この分解にアクセスする必要はない。 次に、カーネルが正に分解可能な条件について検討する。 不変核は、トラクタブル正則性仮定の下で同次空間上で正の分解を持つことを示す。 これにより、正定値のカーネルよりもはるかに簡単に構築でき、非ユークリッドデータのためにカーネルで学習するためのルートを提供する。 同じトークンにより、これは一般にRKKSベースの方法の理論的基礎を提供する。

Kernel methods are powerful tools in machine learning. Classical kernel methods are based on positive-definite kernels, which map data spaces into reproducing kernel Hilbert spaces (RKHS). For non-Euclidean data spaces, positive-definite kernels are difficult to come by. In this case, we propose the use of reproducing kernel Krein space (RKKS) based methods, which require only kernels that admit a positive decomposition. We show that one does not need to access this decomposition in order to learn in RKKS. We then investigate the conditions under which a kernel is positively decomposable. We show that invariant kernels admit a positive decomposition on homogeneous spaces under tractable regularity assumptions. This makes them much easier to construct than positive-definite kernels, providing a route for learning with kernels for non-Euclidean data. By the same token, this provides theoretical foundations for RKKS-based methods in general.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 幾何学的測度による部分空間絡みの定量化

Quantifying subspace entanglement with geometric measures ( http://arxiv.org/abs/2311.10353v2 )

ライセンス: Link先を確認
Xuanran Zhu, Chao Zhang, Bei Zeng, (参考訳) ある種の量子状態によって区切られた部分空間が絡み合っており、その絡み合っている次元性は、量子情報科学における根本的な課題である。 本稿では、与えられた部分空間$\mathcal{S}$に対して、$r$-bounded rank, $E_r(\mathcal{S})$の幾何測度を導入する。 確立された幾何的絡み合いの測度から派生したこの測度は、$\mathcal{S}$内の絡み合いを評価するために特別に設計されている。 エンタングルメント次元を決定するための道具として機能するだけでなく、そのようなエンタングルメントを保持するための部分空間の能力も照らしている。 機械学習領域で利用される非凸最適化技術を用いることで、多様体最適化フレームワーク内で$E_r(\mathcal{S})$を正確に計算できる。 提案手法は, 既存の階層的手法, PPT緩和手法, シーソー戦略に対して, 特に計算効率と広い適用性を組み合わせることにより, 顕著な優位性を示す。 さらに重要なのは、多くの量子情報タスクにとって重要な、高次元の絡み合い認証の道を開くことだ。 両部類系における高次元の絡み合った部分空間の検証、多部類純状態の境界ランクの決定、真あるいは完全に絡み合った部分空間の同定に有効であることを示す。

Determining whether a subspace spanned by certain quantum states is entangled and its entanglement dimensionality remains a fundamental challenge in quantum information science. This paper introduces a geometric measure of $r$-bounded rank, $E_r(\mathcal{S})$, for a given subspace $\mathcal{S}$. Derived from the established geometric measure of entanglement, this measure is specifically designed to assess the entanglement within $\mathcal{S}$. It not only serves as a tool for determining the entanglement dimensionality but also illuminates the subspace's capacity to preserve such entanglement. By employing developed non-convex optimization techniques utilized in machine learning area, we can accurately calculate $E_r(\mathcal{S})$ within the manifold optimization framework. Our approach demonstrates notable advantages over existing hierarchical methods, PPT relaxation techniques, and the seesaw strategy, particularly by combining computational efficiency with broad applicability. More importantly, it paves the way for high-dimensional entanglement certification, which is crucial for numerous quantum information tasks. We showcase its effectiveness in validating high-dimensional entangled subspaces in bipartite systems, determining the border rank of multipartite pure states, and identifying genuinely or completely entangled subspaces.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 量子計算による暗黒物質検出の量子化

Quantum Enhancement in Dark Matter Detection with Quantum Computation ( http://arxiv.org/abs/2311.10413v2 )

ライセンス: Link先を確認
Shion Chen, Hajime Fukuda, Toshiaki Inada, Takeo Moroi, Tatsumi Nitta, Thanaporn Sichanugrist, (参考訳) 本稿では,量子干渉の助けを借りて,量子ビットを用いた暗黒物質検出実験において,信号速度を著しく向上させる新しい手法を提案する。 様々な量子センサは、波状暗黒物質を検出するのに理想的な性質を持ち、量子コンピュータで一般的に使用される量子ビットは、暗黒物質検出器の優れた候補である。 量子ビットを操作するための適切な量子回路を設計することにより、信号レートは$n_{\rm q}^2$に比例してスケールし、$n_{\rm q}$は$n_{\rm q}$と線形ではなく、センサキュービットの数であることを示した。 その結果、かなりの数のセンサ量子ビットによる暗黒物質検出では、信号速度が大幅に増加することが期待できる。 暗黒物質との相互作用により各量子ビットの位相進化をコヒーレントに組み合わせることで、この拡張を実現する量子回路の具体例を示す。 また、回路は量子コンピュータにおける臨界量子ノイズ源である劣化ノイズに耐性があることを実証した。 ここで提案されるエンハンスメントメカニズムは、暗黒物質信号の強化に関連する量子操作がこれらのデバイスに適用可能であることを前提として、量子コンピュータの様々なモダリティに適用できる。

We propose a novel method to significantly enhance the signal rate in qubit-based dark matter detection experiments with the help of quantum interference. Various quantum sensors possess ideal properties for detecting wave-like dark matter, and qubits, commonly employed in quantum computers, are excellent candidates for dark matter detectors. We demonstrate that, by designing an appropriate quantum circuit to manipulate the qubits, the signal rate scales proportionally to $n_{\rm q}^2$, with $n_{\rm q}$ being the number of sensor qubits, rather than linearly with $n_{\rm q}$. Consequently, in the dark matter detection with a substantial number of sensor qubits, a significant increase in the signal rate can be expected. We provide a specific example of a quantum circuit that achieves this enhancement by coherently combining the phase evolution in each individual qubit due to its interaction with dark matter. We also demonstrate that the circuit is fault tolerant to de-phasing noises, a critical quantum noise source in quantum computers. The enhancement mechanism proposed here is applicable to various modalities for quantum computers, provided that the quantum operations relevant to enhancing the dark matter signal can be applied to these devices.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 視覚知覚の連鎖:ゼロショットカモフラージュ物体検出のための多モード大言語モデルの調和

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection ( http://arxiv.org/abs/2311.11273v2 )

ライセンス: Link先を確認
Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li, (参考訳) 本稿では,Multimodal Large Language Models(MLLM)の強力な機能を活用して,ゼロショットカモフラージュ物体検出(COD)の処理を目的とした,新しいマルチモーダルカモ知覚フレームワーク(MMCPF)を提案する。 広範かつ正確に注釈付けされたデータセットを必要とする教師付き学習モデルに大きく依存する現在のCOD方法論の本質的な限界を認識し,その結果,これらの課題を回避できるゼロショットMMCPFを提案する。 MLLMは幅広い用途において大きな可能性を秘めているが、CODの有効性は妨げられ、カモフラージュされた物体の誤解釈が生じる。 この課題に対処するために,我々はさらに,視覚知覚の連鎖 (CoVP) と呼ばれる戦略的な拡張を提案し,言語的・視覚的手がかりをより効果的に活用することにより,カモフラージュシーンにおけるMLLMの知覚能力を大幅に向上させる。 MMCPFがCAMO, COD10K, NC4K, MoCA-Mask, OVCamoを含む5種類のCODデータセットに対して有効であることを示す。 実験により,MMCPFは既存のゼロショットCOD法よりも優れており,MMCPFの可能性を示す弱教師付きおよび完全教師付き手法と比較して競争性能が向上することが示された。 この論文のGithubリンクは \url{https://github.com/luckybird 1994/MMCPF} である。

In this paper, we introduce a novel multimodal camo-perceptive framework (MMCPF) aimed at handling zero-shot Camouflaged Object Detection (COD) by leveraging the powerful capabilities of Multimodal Large Language Models (MLLMs). Recognizing the inherent limitations of current COD methodologies, which predominantly rely on supervised learning models demanding extensive and accurately annotated datasets, resulting in weak generalization, our research proposes a zero-shot MMCPF that circumvents these challenges. Although MLLMs hold significant potential for broad applications, their effectiveness in COD is hindered and they would make misinterpretations of camouflaged objects. To address this challenge, we further propose a strategic enhancement called the Chain of Visual Perception (CoVP), which significantly improves the perceptual capabilities of MLLMs in camouflaged scenes by leveraging both linguistic and visual cues more effectively. We validate the effectiveness of MMCPF on five widely used COD datasets, containing CAMO, COD10K, NC4K, MoCA-Mask and OVCamo. Experiments show that MMCPF can outperform all existing state-of-the-art zero-shot COD methods, and achieve competitive performance compared to weakly-supervised and fully-supervised methods, which demonstrates the potential of MMCPF. The Github link of this paper is \url{https://github.com/luckybird1994/MMCPF}.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 因果関係改善による放射線学報告の再考

Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation ( http://arxiv.org/abs/2311.13307v3 )

ライセンス: Link先を確認
Xiao Song, Jiafan Liu, Yun Li, Yan Liu, Wenbin Lei, Ruxin Wang, (参考訳) 放射線医学報告生成(RRG)は、生体医学分野の視覚・言語相互作用として注目されている。 従来の言語生成タスクのイデオロギーは、レポートとして高い可読性を持つ段落を生成することを目的として、従来の言語生成タスクのイデオロギーを継承した。 大きな進歩にもかかわらず、RRGの特定の性質である疾患間の独立性は無視され、バイアスデータ分布によって引き起こされる疾患の共起によってモデルが混乱し、不正確な報告が生み出された。 本稿では,本問題を再考するため,まず因果的観点から変数間の因果関係をモデル化し,偏りのある分布関数上の疾患間の共起関係が共同創設者であることを示す。 そこで我々は,P-CSS (Prototype-based Counterfactual Sample Synthesis) とMagic-Cube-like Counterfactual Report Reconstruction (Cube) の2つの戦略を含むモデル非依存の反現実的拡張手法を提案し,RRGモデルの精度と一般化を高めた。 提案手法の有効性を示すMIMIC-CXRデータセットの実験的検討を行った。 さらに、IU X-Rayデータセット上での一般化性能を評価し、その結果に異なる分布による共起の影響を効果的に低減できることを示した。

Radiology Report Generation (RRG) draws attention as a vision-and-language interaction of biomedical fields. Previous works inherited the ideology of traditional language generation tasks, aiming to generate paragraphs with high readability as reports. Despite significant progress, the independence between diseases-a specific property of RRG-was neglected, yielding the models being confused by the co-occurrence of diseases brought on by the biased data distribution, thus generating inaccurate reports. In this paper, to rethink this issue, we first model the causal effects between the variables from a causal perspective, through which we prove that the co-occurrence relationships between diseases on the biased distribution function as confounders, confusing the accuracy through two backdoor paths, i.e. the Joint Vision Coupling and the Conditional Sequential Coupling. Then, we proposed a novel model-agnostic counterfactual augmentation method that contains two strategies, i.e. the Prototype-based Counterfactual Sample Synthesis (P-CSS) and the Magic-Cube-like Counterfactual Report Reconstruction (Cube), to intervene the backdoor paths, thus enhancing the accuracy and generalization of RRG models. Experimental results on the widely used MIMIC-CXR dataset demonstrate the effectiveness of our proposed method. Additionally, a generalization performance is evaluated on IU X-Ray dataset, which verifies our work can effectively reduce the impact of co-occurrences caused by different distributions on the results.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# ゼロインフレーション計数結果のためのトンプソンサンプリングとDrink Less Mobile Health研究への応用

Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study ( http://arxiv.org/abs/2311.14359v2 )

ライセンス: Link先を確認
Xueqing Liu, Nina Deliu, Tanujit Chakraborty, Lauren Bell, Bibhas Chakraborty, (参考訳) モバイルヘルス(mHealth)の介入は、ジャスト・イン・タイム・アダプティブ・イン・タイム(ジャスト・イン・タイム・アダプティブ・イン・タイム)による近位結果の最適化によって、臨床などの遠位結果を改善することを目的としていることが多い。 コンテキストブレイディットは、個々の時間によって異なるコンテキストに応じて、そのような介入をカスタマイズするための適切なフレームワークを提供する。 しかしながら、バンディットフレームワーク内でのカウント結果のモデリングのようなユニークな課題は、文脈的バンディットをmHealth研究に広く適用することを妨げている。 現在の作業では、カウントデータモデルをオンライン意思決定アプローチに活用することで、この問題に対処している。 具体的には、一般的なオフラインカウントデータモデル(Poisson, negative binomial, zero-inflated Poisson, zero-inflated negative binomial regressions)と、一般的な文脈的バンディットアルゴリズムであるThompsonサンプリングを組み合わせた。 提案アルゴリズムは,mHealthプラットフォームとのユーザエンゲージメントを改善するために,ドリンク・スリート・トライアル(Drink Less trial)の実際のデータセットを用いて,モチベーションと評価を行う。 提案手法はシミュレーションデータに基づいてさらに評価され,既存のアルゴリズムよりも累積近似結果の最大化の改善が達成される。 後悔の限界に関する理論的結果も導かれる。 countts Rパッケージは、我々のアプローチの実装を提供します。

Mobile health (mHealth) interventions often aim to improve distal outcomes, such as clinical conditions, by optimizing proximal outcomes through just-in-time adaptive interventions. Contextual bandits provide a suitable framework for customizing such interventions according to individual time-varying contexts. However, unique challenges, such as modeling count outcomes within bandit frameworks, have hindered the widespread application of contextual bandits to mHealth studies. The current work addresses this challenge by leveraging count data models into online decision-making approaches. Specifically, we combine four common offline count data models (Poisson, negative binomial, zero-inflated Poisson, and zero-inflated negative binomial regressions) with Thompson sampling, a popular contextual bandit algorithm. The proposed algorithms are motivated by and evaluated on a real dataset from the Drink Less trial, where they are shown to improve user engagement with the mHealth platform. The proposed methods are further evaluated on simulated data, achieving improvement in maximizing cumulative proximal outcomes over existing algorithms. Theoretical results on regret bounds are also derived. The countts R package provides an implementation of our approach.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 不定因数順序における非安定化化の促進

Enhancement of non-Stabilizerness within Indefinite Causal Order ( http://arxiv.org/abs/2311.15494v2 )

ライセンス: Link先を確認
Yin Mo, Chengkai Zhu, Zhiping Liu, Mingrui Jing, Xin Wang, (参考訳) 量子コンピューティングでは、量子演算の非安定化性は量子スピードアップの理解と定量化に不可欠である。 本研究では,量子SWITCHの非安定化現象について考察する。これは,量子状態が異なる順序の重ね合わせで演算を通し,多くのタスクにおいて従来の回路より優れる新しい構造である。 その非安定化性を評価するため、一般的な量子変換の非安定化性について定量的に検証するために、量子プロセスの魔法の資源容量を提案する。 標準条件下ではマジック状態が生成できない完全安定化器保存操作は、量子SWITCHによって処理された場合、そのように変換できる。 さらに、騒音の影響を考慮すると、各経路の非安定化性は消滅する可能性があるが、それらの重ね合わせは全体の非安定化性を維持することができる。 これらの知見は、一般的な量子アーキテクチャの非安定化資源の研究において、量子SWITCHのユニークな性質と開水路を明らかにした。

In quantum computing, the nonstabilizerness of quantum operations is crucial for understanding and quantifying quantum speedups. In this study, we explore the phenomena of nonstabilizerness of the quantum SWITCH, a novel structure that allows quantum states to pass through operations in a superposition of different orders, outperforming traditional circuits in numerous tasks. To assess its nonstabilizerness, we propose the magic resource capacity of a quantum process to quantitatively examine the nonstabilizerness of general quantum transformations. We find that the completely stabilizer-preserving operations, which cannot generate magic states under standard conditions, can be transformed to do so when processed by the quantum SWITCH. Furthermore, when considering the impact of noise, although the nonstabilizerness of each path may be annihilated, their superposition could still preserve the overall nonstabilizerness. These findings reveal the unique properties of the quantum SWITCH and open avenues in research on nonstabilizer resources of general quantum architecture.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# JSSL:MRI再建のための共同指導と自己指導型学習

JSSL: Joint Supervised and Self-supervised Learning for MRI Reconstruction ( http://arxiv.org/abs/2311.15856v2 )

ライセンス: Link先を確認
George Yiasemis, Nikita Moriakov, Clara I. Sánchez, Jan-Jakob Sonke, Jonas Teuwen, (参考訳) 目的:MRIは重要な診断モダリティを示すが、その本質的に遅い取得プロセスは、完全にサンプリングされたk空間のデータを動作下で取得する上で困難を生じさせる。 根底的な真実として機能する完全サンプリングされた買収がなければ、根底にある真実のイメージを予測するために、教師付き方法でディープラーニングアルゴリズムを訓練することは困難になる。 この制限に対処するために、自己教師付き手法が実現可能な代替手段として登場し、利用可能なサブサンプルk空間データを活用して、MRI再構成のためのディープニューラルネットワークをトレーニングしている。 それにもかかわらず、これらのアプローチは、教師付き手法と比較すると、しばしば不足する。 方法: 完全サンプリングされたk空間計測を含むターゲットデータセットが利用できない場合に, 再構成品質を向上させることを目的とした, 深層学習に基づくMRI再構成アルゴリズムの新しいトレーニング手法であるJSSLを提案する。 JSSLは、自己教師付き学習環境でモデルを同時にトレーニングし、ターゲットデータセットからのサブサンプルデータを使用し、教師付き学習方法で、プロキシデータセットと呼ばれる完全なサンプル付きkスペースデータを使用したデータセットを活用する。 対象データセットとして,脳,膝,脳,膝,前立腺k領域のそれぞれをプロキシデータセットとして,サブサンプリング前立腺,心臓MRIデータを用いてJSSLの有効性を実証した。 結果: 画像品質指標を用いて, 従来の自己監督手法よりも大幅に改善した。 また、JSSLの理論的モチベーションを提供し、MRI再建モデルのトレーニングのためのルール・オブ・サンプ・ガイドラインを確立する。 結論: JSSLは、完全にサンプル化されたkスペースデータが利用できないシナリオでMRI再構成の品質を効果的に向上させ、プロキシデータセットを組み込むことで教師あり学習の強みを活用する。

Purpose: MRI represents an important diagnostic modality; however, its inherently slow acquisition process poses challenges in obtaining fully-sampled k-space data under motion. In the absence of fully-sampled acquisitions, serving as ground truths, training deep learning algorithms in a supervised manner to predict the underlying ground truth image becomes challenging. To address this limitation, self-supervised methods have emerged as a viable alternative, leveraging available subsampled k-space data to train deep neural networks for MRI reconstruction. Nevertheless, these approaches often fall short when compared to supervised methods. Methods: We propose Joint Supervised and Self-supervised Learning (JSSL), a novel training approach for deep learning-based MRI reconstruction algorithms aimed at enhancing reconstruction quality in cases where target datasets containing fully-sampled k-space measurements are unavailable. JSSL operates by simultaneously training a model in a self-supervised learning setting, using subsampled data from the target dataset(s), and in a supervised learning manner, utilizing datasets with fully-sampled k-space data, referred to as proxy datasets. We demonstrate JSSL's efficacy using subsampled prostate or cardiac MRI data as the target datasets, with fully-sampled brain and knee, or brain, knee and prostate k-space acquisitions, respectively, as proxy datasets. Results: Our results showcase substantial improvements over conventional self-supervised methods, validated using common image quality metrics. Furthermore, we provide theoretical motivations for JSSL and establish rule-of-thumb guidelines for training MRI reconstruction models. Conclusion: JSSL effectively enhances MRI reconstruction quality in scenarios where fully-sampled k-space data is not available, leveraging the strengths of supervised learning by incorporating proxy datasets.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 空の限界:スカイピクセルを制約した照度前と外部視認性による再照準可能な屋外シーン

The Sky's the Limit: Re-lightable Outdoor Scenes via a Sky-pixel Constrained Illumination Prior and Outside-In Visibility ( http://arxiv.org/abs/2311.16937v2 )

ライセンス: Link先を確認
James A. D. Gardner, Evgenii Kashin, Bernhard Egger, William A. P. Smith, (参考訳) 制約のない画像コレクションからの屋外シーンの逆レンダリングは、特に照明/アルベドの曖昧さと幾何学による照明環境(シェードイング)の排除が困難な課題である。 しかし、画像には幾何、アルベド、影の絡み合いを助長する手がかりが数多くある。 空は最先端の方法で隠蔽されることが多いが、あらゆる天のピクセルが対応する方向の遠方の光を直接観察し、それ以前の神経照明を通して、残りの照明環境を導出するための統計的手がかりを生かしている。 従来の照明の組み入れは,ニューラル指向距離関数に基づく微分可能空の可視性を計算する新しい「外界」手法によって実現されている。 これは非常に効率的で、ニューラルシーンの表現と並行してトレーニングすることが可能で、外観損失から影からの流れへの勾配が照明と幾何学の推定に影響を与える。 提案手法は,高品質なアルベド,幾何学,照明,空の視認性を推定し,NeRF-OSRリライティングベンチマークの最先端結果を得た。 私たちのコードとモデルはhttps://github.com/JADGardner/neuskyにある。

Inverse rendering of outdoor scenes from unconstrained image collections is a challenging task, particularly illumination/albedo ambiguities and occlusion of the illumination environment (shadowing) caused by geometry. However, there are many cues in an image that can aid in the disentanglement of geometry, albedo and shadows. Whilst sky is frequently masked out in state-of-the-art methods, we exploit the fact that any sky pixel provides a direct observation of distant lighting in the corresponding direction and, via a neural illumination prior, a statistical cue to derive the remaining illumination environment. The incorporation of our illumination prior is enabled by a novel `outside-in' method for computing differentiable sky visibility based on a neural directional distance function. This is highly efficient and can be trained in parallel with the neural scene representation, allowing gradients from appearance loss to flow from shadows to influence the estimation of illumination and geometry. Our method estimates high-quality albedo, geometry, illumination and sky visibility, achieving state-of-the-art results on the NeRF-OSR relighting benchmark. Our code and models can be found at https://github.com/JADGardner/neusky
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# X-Dreamer:テキスト対2Dとテキスト対3Dの領域ギャップを埋めて高品質な3Dコンテンツを作成する

X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation ( http://arxiv.org/abs/2312.00085v3 )

ライセンス: Link先を確認
Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji, (参考訳) 近年,事前訓練された2次元拡散モデルの開発により,テキストから3次元のコンテンツの自動生成が著しく進展している。 既存のテキスト・トゥ・3D法は、事前訓練された2D拡散モデルにより評価されるように、3D表現を最適化し、レンダリングされた画像が与えられたテキストと適切に一致することを保証するのが一般的である。 それでも、2D画像と3Dアセットの間にはかなりの領域ギャップがあり、主にカメラ関連属性のバリエーションと前景オブジェクトの排他的存在に起因する。 したがって、3次元表現を最適化するために直接2次元拡散モデルを用いることは、最適以下の結果をもたらす可能性がある。 この問題に対処するために,テキスト・ツー・3D合成とテキスト・ツー・3D合成のギャップを効果的に埋める,高品質なテキスト・ツー・3Dコンテンツ作成のための新しいアプローチであるX-Dreamerを提案する。 X-Dreamerの主なコンポーネントは、カメラ誘導低ランク適応(CG-LoRA)とアテンションマスクアライメント(AMA)ロスの2つの革新的な設計である。 CG-LoRAは、トレーニング可能なパラメータにカメラ依存生成を用いることで、事前訓練された拡散モデルにカメラ情報を動的に組み込む。 この統合により、生成された3Dアセットとカメラの視点とのアライメントが強化される。 AMA損失は、前景オブジェクトの生成を優先して、3Dオブジェクトのバイナリマスクを用いて、事前訓練された拡散モデルの注意マップを導出する。 このモジュールは、モデルが正確で詳細なフォアグラウンドオブジェクトを生成することに集中することを保証します。 提案手法の有効性を,既存のテキスト・ツー・3D手法と比較して評価した。 プロジェクトWebページ: https://xmu-xiaoma666.github.io/Projects/X-Dreamer/。

In recent times, automatic text-to-3D content creation has made significant progress, driven by the development of pretrained 2D diffusion models. Existing text-to-3D methods typically optimize the 3D representation to ensure that the rendered image aligns well with the given text, as evaluated by the pretrained 2D diffusion model. Nevertheless, a substantial domain gap exists between 2D images and 3D assets, primarily attributed to variations in camera-related attributes and the exclusive presence of foreground objects. Consequently, employing 2D diffusion models directly for optimizing 3D representations may lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a novel approach for high-quality text-to-3D content creation that effectively bridges the gap between text-to-2D and text-to-3D synthesis. The key components of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically incorporates camera information into the pretrained diffusion models by employing camera-dependent generation for trainable parameters. This integration enhances the alignment between the generated 3D assets and the camera's perspective. AMA loss guides the attention map of the pretrained diffusion model using the binary mask of the 3D object, prioritizing the creation of the foreground object. This module ensures that the model focuses on generating accurate and detailed foreground objects. Extensive evaluations demonstrate the effectiveness of our proposed method compared to existing text-to-3D approaches. Our project webpage: https://xmu-xiaoma666.github.io/Projects/X-Dreamer/ .
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# 超ポリジウム構造

Hyperpolyadic structures ( http://arxiv.org/abs/2312.01366v5 )

ライセンス: Link先を確認
Steven Duplij, (参考訳) 分割代数の新しいクラスである双対代数(英語版)(hyperpolyadic algebra)を導入し、これは二元除算代数 $\mathbb{R}$, $\mathbb{C}$, $\mathbb{H}$, $\mathbb{O}$ に対応する。 まず、代数の次元を増大させる前に提案した行列多元化法を用いる。 この方法で得られる代数は二進加法と非線型乗法に従属し、それらの部分代数は n-項代数である。 各可逆元に対して、多元乗法的な新しいノルムを定義し、対応する写像は$n$-ary準同型である。 本稿では, 単相行列の連続埋め込みに対応するケイリー・ディクソン構成の多進的類似を, 多元化法から定義する。 次に、中間アーニティに比例する高次元を持つ二元除算代数に対応する別の n-項代数を得る。 第二に、任意のベクトル空間におけるベクトルの新しい多進積が定義される。 この積に内包されたベクトル空間は、ある可逆条件下での分割代数である多進代数となり、その構造定数が計算される。 第3に、「半四元数」および「半八元数」と呼ばれる次元の半分の非単位非独立な三元除算代数を導く新しい反復過程(虚数塔)を提案する。 後者は二元除算代数の部分代数ではなく、アーリー性が異なるため部分環のみである。 それでも、それらは3次分割代数であり、それは分割を許容し、それらの非零元は可逆であるからである。 導入された「半四元数」ノルムの乗法性から、2つの正方形の和の3次アナログを得る。 虚数的「半オクトニオン」の三元除算代数は単数で完全連想的であることを示す。

We introduce a new class of division algebras, the hyperpolyadic algebras, which correspond to the binary division algebras $\mathbb{R}$, $\mathbb{C}$, $\mathbb{H}$, $\mathbb{O}$ without considering new elements. First, we use the matrix polyadization procedure proposed earlier which increases the dimension of the algebra. The algebras obtained in this way obey binary addition and a nonderived n-ary multiplication and their subalgebras are division n-ary algebras. For each invertible element we define a new norm which is polyadically multiplicative, and the corresponding map is a $n$-ary homomorphism. We define a polyadic analog of the Cayley-Dickson construction which corresponds to the consequent embedding of monomial matrices from the polyadization procedure. We then obtain another series of n-ary algebras corresponding to the binary division algebras which have a higher dimension, that is proportional to the intermediate arities. Second, a new polyadic product of vectors in any vector space is defined. Endowed with this product the vector space becomes a polyadic algebra which is a division algebra under some invertibility conditions, and its structure constants are computed. Third, we propose a new iterative process ("imaginary tower"), which leads to nonunital nonderived ternary division algebras of half the dimension, which we call "half-quaternions" and "half-octonions". The latter are not subalgebras of the binary division algebras, but subsets only, since they have different arity. Nevertheless, they are actually ternary division algebras, because they allow division, and their nonzero elements are invertible. From the multiplicativity of the introduced "half-quaternion" norm we obtain the ternary analog of the sum of two squares identity. We show that the ternary division algebra of imaginary "half-octonions" is unitless and totally associative.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# グラフ生成のためのシンプルでスケーラブルな表現法

A Simple and Scalable Representation for Graph Generation ( http://arxiv.org/abs/2312.02230v3 )

ライセンス: Link先を確認
Yunhui Jang, Seul Lee, Sungsoo Ahn, (参考訳) 近年、分子設計やコミュニティ分析といった重要な応用において、基本的な統計的学習問題であるグラフ生成にニューラルネットワークを採用することへの関心が高まっている。 しかし、ほとんどのアプローチは大規模グラフを生成する際に重大な制限に直面する。 これは、ノード数が2倍に大きくなるような完全な隣接行列を出力する必要があるためである。 この課題に対応するために、我々は、エッジの個数に合わせて小さな表現サイズを持つギャップ符号化エッジリスト(GEEL)という、新しい、シンプルでスケーラブルなグラフ表現を導入した。 さらに、GEELは、ギャップエンコーディングと帯域幅制限スキームを組み込むことにより、語彙サイズを著しく削減する。 GEELはノード位置エンコーディングを組み込んだ自動回帰生成が可能であり、新たな文法を設計して属性グラフを扱うようにGEELをさらに拡張する。 その結果, このコンパクト表現の採用はスケーラビリティの向上だけでなく, グラフ生成プロセスの簡素化による性能向上にも寄与することがわかった。 我々は、GEELの有効性を実証し、10の非分散および2つの分子グラフ生成タスクを総合的に評価する。

Recently, there has been a surge of interest in employing neural networks for graph generation, a fundamental statistical learning problem with critical applications like molecule design and community analysis. However, most approaches encounter significant limitations when generating large-scale graphs. This is due to their requirement to output the full adjacency matrices whose size grows quadratically with the number of nodes. In response to this challenge, we introduce a new, simple, and scalable graph representation named gap encoded edge list (GEEL) that has a small representation size that aligns with the number of edges. In addition, GEEL significantly reduces the vocabulary size by incorporating the gap encoding and bandwidth restriction schemes. GEEL can be autoregressively generated with the incorporation of node positional encoding, and we further extend GEEL to deal with attributed graphs by designing a new grammar. Our findings reveal that the adoption of this compact representation not only enhances scalability but also bolsters performance by simplifying the graph generation process. We conduct a comprehensive evaluation across ten non-attributed and two molecular graph generation tasks, demonstrating the effectiveness of GEEL.
翻訳日:2024-07-31 22:39:45 公開日:2024-07-30
# ROSE:多目的学習を用いた航空交通制御における音声認識指向音声強調フレームワーク

ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning ( http://arxiv.org/abs/2312.06118v2 )

ライセンス: Link先を確認
Xincheng Yu, Dongyue Guo, Jianwei Zhang, Yi Lin, (参考訳) 無線音声エコーは、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、さらに自動音声認識(ASR)の精度に影響を及ぼす。 本研究では,ATCシナリオのプラグイン・アンド・プレイツールとして機能する畳み込みエンコーダ・デコーダ・ベースのU-Netフレームワークに基づいて,音声認識の信頼性の向上と,ASRモデルの追加的な再訓練を必要としない,時間領域認識指向音声強調(ROSE)フレームワークを提案する。 具体的には 1)U-Netアーキテクチャでは,アテンションベースのスキップ融合(ABSF)モジュールがアテンションマスクを用いたエンコーダの共有機能に応用され,階層的特徴を効果的に融合させることができる。 2) チャネル・シーケンス・アテンション (CSAtt) モジュールは, 効果的な表現を強化し, 干渉雑音を抑制することを目的として, 二重並列アテンション経路における情報的特徴に焦点を合わせるために, モデルに革新的に設計されている。 3)手作りの特徴に基づいて,ASR指向の最適化ターゲットは,頑健な特徴表現を学習することにより,ATC環境における認識性能を向上させるように設計されている。 SE指向とASR指向の両方の損失を取り入れることで、ROSEは2つのタスク目標に対して共有表現を最適化することにより、多目的学習方式で実装される。 実験の結果、ROSEはSEタスクとASRタスクの両方において、他の最先端手法よりも大幅に優れており、提案した改善は設計実験によって確認されている。 さらに、提案されたアプローチは、パブリックデータセットにおける望ましいパフォーマンス改善に寄与することができる。

Radio speech echo is a specific phenomenon in the air traffic control (ATC) domain, which degrades speech quality and further impacts automatic speech recognition (ASR) accuracy. In this work, a time-domain recognition-oriented speech enhancement (ROSE) framework is proposed to improve speech intelligibility and also advance ASR accuracy based on convolutional encoder-decoder-based U-Net framework, which serves as a plug-and-play tool in ATC scenarios and does not require additional retraining of the ASR model. Specifically, 1) In the U-Net architecture, an attention-based skip-fusion (ABSF) module is applied to mine shared features from encoders using an attention mask, which enables the model to effectively fuse the hierarchical features. 2) A channel and sequence attention (CSAtt) module is innovatively designed to guide the model to focus on informative features in dual parallel attention paths, aiming to enhance the effective representations and suppress the interference noises. 3) Based on the handcrafted features, ASR-oriented optimization targets are designed to improve recognition performance in the ATC environment by learning robust feature representations. By incorporating both the SE-oriented and ASR-oriented losses, ROSE is implemented in a multi-objective learning manner by optimizing shared representations across the two task objectives. The experimental results show that the ROSE significantly outperforms other state-of-the-art methods for both the SE and ASR tasks, in which all the proposed improvements are confirmed by designed experiments. In addition, the proposed approach can contribute to the desired performance improvements on public datasets.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# COLMAPフリー3次元ガウス平滑化

COLMAP-Free 3D Gaussian Splatting ( http://arxiv.org/abs/2312.07504v2 )

ライセンス: Link先を確認
Yang Fu, Sifei Liu, Amey Kulkarni, Jan Kautz, Alexei A. Efros, Xiaolong Wang, (参考訳) ニューラルレンダリングはシーンの再構築や新しいビュー合成に顕著な進歩をもたらしたが、正確に計算されたカメラのポーズに大きく依存している。 この制約を緩和するために、予め処理されたカメラポーズを使わずにNeural Radiance Fields(NeRF)をトレーニングするための複数の取り組みが行われた。 しかし、NeRFの暗黙的な表現は、3D構造とカメラのポーズを同時に最適化する余分な課題をもたらす。 一方、最近提案された3D Gaussian Splattingは、その明示的なポイントクラウド表現を考えると、新たな機会を提供する。 本稿では,SfM前処理を使わずに新たなビュー合成を行うために,明示的な幾何学的表現と入力ビデオストリームの連続性を両立させる。 入力フレームを逐次的に処理し、カメラのポーズをプリコンプリートすることなく、一度に1つの入力フレームを取ることで設定した3Dガウスを徐々に成長させる。 提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。 私たちのプロジェクトページはhttps://oasisyang.github.io/colmap-free-3dgsです。

While neural rendering has led to impressive advances in scene reconstruction and novel view synthesis, it relies heavily on accurately pre-computed camera poses. To relax this constraint, multiple efforts have been made to train Neural Radiance Fields (NeRFs) without pre-processed camera poses. However, the implicit representations of NeRFs provide extra challenges to optimize the 3D structure and camera poses at the same time. On the other hand, the recently proposed 3D Gaussian Splatting provides new opportunities given its explicit point cloud representations. This paper leverages both the explicit geometric representation and the continuity of the input video stream to perform novel view synthesis without any SfM preprocessing. We process the input frames in a sequential manner and progressively grow the 3D Gaussians set by taking one input frame at a time, without the need to pre-compute the camera poses. Our method significantly improves over previous approaches in view synthesis and camera pose estimation under large motion changes. Our project page is https://oasisyang.github.io/colmap-free-3dgs
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# オンラインビデオから3D動物の動きを学習するPonymation

Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos ( http://arxiv.org/abs/2312.13604v2 )

ライセンス: Link先を確認
Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu, (参考訳) 我々はPonymationを紹介した。これは生の、ラベルなしのオンラインビデオから、音声による3D動物の動きの生成モデルを学ぶための新しい方法だ。 既存のモーション合成手法とは異なり、我々のモデルはポーズアノテーションやパラメトリック形状モデルを必要としないため、インターネットから得られた生ビデオクリップのコレクションから純粋に学習される。 最近の研究であるMagicPonyは、1枚の画像から3D動物の形を純粋に学習し、それを2つの面に広げる。 まず、静的画像のトレーニングの代わりに、時間的正規化を取り入れたビデオトレーニングパイプラインでフレームワークを強化し、より正確で時間的に一貫した再構築を実現します。 第2に,2次元再構成の損失を明示的なポーズアノテーションに頼ることなく,時空間変換器VAEを用いて,基礎となる3次元運動系列の生成モデルを学習する。 モデルでは,新しい動物インスタンスの1つの2次元像を推定すると,3次元メッシュを再構成し,学習された動き潜伏空間からサンプリングすることで,可塑性な3次元アニメーションを生成する。

We introduce Ponymation, a new method for learning a generative model of articulated 3D animal motions from raw, unlabeled online videos. Unlike existing approaches for motion synthesis, our model does not require any pose annotations or parametric shape models for training, and is learned purely from a collection of raw video clips obtained from the Internet. We build upon a recent work, MagicPony, which learns articulated 3D animal shapes purely from single image collections, and extend it on two fronts. First, instead of training on static images, we augment the framework with a video training pipeline that incorporates temporal regularizations, achieving more accurate and temporally consistent reconstructions. Second, we learn a generative model of the underlying articulated 3D motion sequences via a spatio-temporal transformer VAE, simply using 2D reconstruction losses without relying on any explicit pose annotations. At inference time, given a single 2D image of a new animal instance, our model reconstructs an articulated, textured 3D mesh, and generates plausible 3D animations by sampling from the learned motion latent space.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# 動的デバイス環境におけるフォールトトレラントなサーバレスVFL

Fault Tolerant Serverless VFL Over Dynamic Device Environment ( http://arxiv.org/abs/2312.16638v2 )

ライセンス: Link先を確認
Surojit Ganguli, Zeyu Zhou, Christopher G. Brinton, David I. Inouye, (参考訳) Vertical Federated Learning (VFL) はFLのクラスであり、各クライアントは同じサンプルセットを共有しているが、機能のサブセットしか持っていない。 通常、VFLは完璧なハードウェアと通信機能を前提としている。 しかしながら、この仮定は、特にエッジデバイスのネットワークにおいて、VFLの広範な展開を妨げる。 このギャップに対処するため,DN-VFLと呼ばれる動的ネットワーク条件下でのVFLの試験時間性能について検討した。 まず、メッセージパッシング分散推論アルゴリズム、対応するリスク、サーバーレス設定を含むDN-VFLを定式化する。 我々は,複製,ゴシップ,選択的特徴欠落を合成し,ベースラインよりも性能を大幅に向上させる,マルチプルアグリゲーション(Multiple Aggregation with Gossip Rounds and Simulated Faults (MAGS))と呼ばれる新しいDN-VFLアプローチを開発した。 さらに,シミュレーションセンサネットワークを用いて,MAGSを広範囲に解析する手法を提案する。 その結果、DN-VFLにVFLを選択的に使用するのが最善の方法ではないことがわかった。 むしろ、MAGSは推論中にネットワークの変更を処理するためのより良い代替手段を提供する。

Vertical Federated learning (VFL) is a class of FL where each client shares the same set of samples but only owns a subset of the features. Usually, VFL assumes perfect hardware and communication capabilities. However, this assumption hinders the broad deployment of VFL, particularly on a network of edge devices, which are heterogeneous in their in-situ capabilities while any device may connect/disconnect from the network over time. To address this gap, we study the test time performance of VFL under dynamic network conditions, which we call DN-VFL. We first formalize DN-VFL, including a message passing distributed inference algorithm, the corresponding risk, and a serverless setup. We develop a novel DN-VFL approach called Multiple Aggregation with Gossip Rounds and Simulated Faults (MAGS) that synthesizes replication, gossiping, and selective feature omission to improve performance significantly over baselines. Furthermore, we propose metrics and extensively analyze MAGS using a simulated sensor network. The results show that naively using VFL for DN-VFL is not the best approach. Rather, MAGS present a better alternative to handle changes in the network during inference.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# ログ異常検出のためのDQNを用いた半教師付き学習

Semi-supervised learning via DQN for log anomaly detection ( http://arxiv.org/abs/2401.03151v2 )

ライセンス: Link先を確認
Yingying He, Xiaobing Pei, (参考訳) ログ異常検出は、現代のソフトウェアシステムのセキュリティとメンテナンスにおいて重要なコンポーネントであり、システム監視、運用、トラブルシューティングの重要なサポートと基盤となっている。 運用担当者のタイムリーな識別と問題解決を支援する。 しかし、ログ異常検出の現在の手法は、ラベルなしデータの未使用、正規クラスと異常クラスのデータの不均衡、偽陽性と偽陰性の高率といった課題に直面しており、異常認識では不十分である。 本研究では,DQNLogと呼ばれる半教師付きログ異常検出手法を提案する。この手法は,少量のラベル付きデータと大規模ラベルなしデータを活用することにより,深層強化学習を統合して異常検出性能を向上させる。 不均衡なデータやラベル付けが不十分な問題に対処するため,コサイン類似性に基づく状態遷移関数を設計する。 モデルが異常を学習する能力を高めるために,ラベル付き異常を利用してラベル付き異常を探索し,偽陽性や偽陰性を減少させる共同報酬関数を考案した。 また、誤推定によりモデルが通常の軌道から逸脱することを防止するため、損失関数に正規化項を導入し、更新中にモデルが事前の知識を保持することを保証する。 我々は、DQNLogを3つの広く使用されているデータセットで評価し、大規模未ラベルデータを効果的に活用し、すべての実験データセットで有望な結果を達成する能力を示した。

Log anomaly detection is a critical component in modern software system security and maintenance, serving as a crucial support and basis for system monitoring, operation, and troubleshooting. It aids operations personnel in timely identification and resolution of issues. However, current methods in log anomaly detection still face challenges such as underutilization of unlabeled data, imbalance between normal and anomaly class data, and high rates of false positives and false negatives, leading to insufficient effectiveness in anomaly recognition. In this study, we propose a semi-supervised log anomaly detection method named DQNLog, which integrates deep reinforcement learning to enhance anomaly detection performance by leveraging a small amount of labeled data and large-scale unlabeled data. To address issues of imbalanced data and insufficient labeling, we design a state transition function biased towards anomalies based on cosine similarity, aiming to capture semantic-similar anomalies rather than favoring the majority class. To enhance the model's capability in learning anomalies, we devise a joint reward function that encourages the model to utilize labeled anomalies and explore unlabeled anomalies, thereby reducing false positives and false negatives. Additionally, to prevent the model from deviating from normal trajectories due to misestimation, we introduce a regularization term in the loss function to ensure the model retains prior knowledge during updates. We evaluate DQNLog on three widely used datasets, demonstrating its ability to effectively utilize large-scale unlabeled data and achieve promising results across all experimental datasets.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# WidthFormer: 効率的なトランスフォーマーベースのBEVビュートランスフォーメーションを目指して

WidthFormer: Toward Efficient Transformer-based BEV View Transformation ( http://arxiv.org/abs/2401.03836v5 )

ライセンス: Link先を確認
Chenhongyi Yang, Tianwei Lin, Lichao Huang, Elliot J. Crowley, (参考訳) 我々は、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBird's-Eye-View(BEV)表現を計算するための、新しいトランスフォーマーベースのモジュールであるWidthFormerを紹介する。 WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。 まず、3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を導入し、このモデルにより、1つのトランスフォーマーデコーダ層だけで高品質なBEV表現を計算できる。 この機構は既存のスパース3Dオブジェクト検出器にも有用である。 最近提案された研究に触発されて、注目キーや値として画像の特徴を垂直に圧縮することで、モデルの効率をさらに向上させ、特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。 広範に使用されているnuScenes 3Dオブジェクト検出ベンチマークの実験的評価により,本手法が従来の3D検出アーキテクチャよりも優れていることが示された。 さらに重要なことは、私たちのモデルは極めて効率的です。 例えば、256\times 704$の入力イメージを使用する場合、NVIDIA 3090 GPUとHorizon Journey-5計算ソリューションで1.5msと2.8msのレイテンシを実現する。 さらに、WidthFormerはカメラの摂動の度合いに強い堅牢性を示す。 我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。 コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。

We present WidthFormer, a novel transformer-based module to compute Bird's-Eye-View (BEV) representations from multi-view cameras for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. We first introduce a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to compute high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently proposed works, we further improve our model's efficiency by vertically compressing the image features when serving as attention keys and values, and then we develop two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms and 2.8 ms latency on NVIDIA 3090 GPU and Horizon Journey-5 computation solutions. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# マイクロ波光子のパラメトリックプログラマブル遅延線

A parametrically programmable delay line for microwave photons ( http://arxiv.org/abs/2401.04724v3 )

ライセンス: Link先を確認
Takuma Makihara, Nathan Lee, Yudan Guo, Wenyan Guan, Amir H. Safavi-Naeini, (参考訳) 量子情報を格納する遅延線は、量子リピータやハードウェア効率のよい量子コンピュータの進化に不可欠である。 伝統的に、波動伝搬をサポートするが伝播場を限定的に制御できる拡張系として実現されている。 本稿では,マイクロ波光子に対するパラメトリック対応遅延線を導入し,保存パルスの高レベル制御を実現する。 共振器のアンサンブルに弱い3波混合回路素子をパラメトリック駆動することにより,遅延線の特性を高速に制御し,物理遅延線の特性をシミュレートするスペクトル応答を設計する。 我々は、どの光子エコーを出力するかを選択し、パルスを時間で翻訳し、2つのパルスを交換し、これら全てを1つの光子の順序でパルスエネルギーと交換することで、この新しい制御の度合いを実証する。 また、パラメトリック相互作用から付加されるノイズを測定し、それが1つの光子よりもはるかに少ないことを発見した。

Delay lines that store quantum information are crucial for advancing quantum repeaters and hardware efficient quantum computers. Traditionally, they are realized as extended systems that support wave propagation but provide limited control over the propagating fields. Here, we introduce a parametrically addressed delay line for microwave photons that provides a high level of control over the stored pulses. By parametrically driving a three-wave mixing circuit element that is weakly hybridized with an ensemble of resonators, we engineer a spectral response that simulates that of a physical delay line, while providing fast control over the delay line's properties. We demonstrate this novel degree of control by choosing which photon echo to emit, translating pulses in time, and even swapping two pulses, all with pulse energies on the order of a single photon. We also measure the noise added from our parametric interactions and find it is much less than one photon.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# 日米間の言語的妥当性と覚醒表現--異文化間比較

Language-based Valence and Arousal Expressions between the United States and China: a Cross-Cultural Examination ( http://arxiv.org/abs/2401.05254v3 )

ライセンス: Link先を確認
Young-Min Cho, Dandan Pang, Stuti Thapa, Garrick Sherman, Lyle Ungar, Louis Tay, Sharath Chandra Guntuku, (参考訳) 個人の感情表現はソーシャルメディアで広く研究されているが、研究は主に西洋の文脈に焦点を当てている。 感情表現に寄与する文化には大きな違いがある。 本稿は、米国におけるTwitter(X)と中国のSina Weibo投稿の違いを、価値と覚醒の2つの主要な側面について検討する。 本研究は,米国と中国の個人における覚醒と原子価(いわゆるV字型)の機能的関係の差異について検討し,関連する内容の違いについて検討した。 さらに,両プラットフォームにおける単語使用状況と話題を関連付け,それらの違いを解釈する。 また,Twitter利用者の感情強度の変動は,Weibo利用者に比べて否定的感情と肯定的感情の差が小さく,感情の高揚に対応する覚醒のエスカレーションが顕著であることがわかった。 言語的特徴から,感情表現はTwitter上での個人生活や感情と結びついていることが分かる。 これらの結果から,V字型とソーシャルメディア上での情緒表現の覚醒の関係は,内容差の影響を受け,西・東の差異が示唆された。 本研究は,感情表現の文化的差異に関する応用と理論に影響を及ぼすものである。

Although affective expressions of individuals have been extensively studied using social media, research has primarily focused on the Western context. There are substantial differences among cultures that contribute to their affective expressions. This paper examines the differences between Twitter (X) in the United States and Sina Weibo posts in China on two primary dimensions of affect - valence and arousal. We study the difference in the functional relationship between arousal and valence (so-called V-shaped) among individuals in the US and China and explore the associated content differences. Furthermore, we correlate word usage and topics in both platforms to interpret their differences. We observe that for Twitter users, the variation in emotional intensity is less distinct between negative and positive emotions compared to Weibo users, and there is a sharper escalation in arousal corresponding with heightened emotions. From language features, we discover that affective expressions are associated with personal life and feelings on Twitter, while on Weibo such discussions are about socio-political topics in the society. These results suggest a West-East difference in the V-shaped relationship between valence and arousal of affective expressions on social media influenced by content differences. Our findings have implications for applications and theories related to cultural differences in affective expressions.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# コードの行間:機械と人間のプログラマの固有のパターンを明らかにする

Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers ( http://arxiv.org/abs/2401.06461v5 )

ライセンス: Link先を確認
Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu, (参考訳) 大規模言語モデルはコード生成において前例のない波を触媒している。 大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。 DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。 したがって、コードに適用された場合、適用性は低下する。 本稿では,機械と人為的なコードの特徴を特徴付ける特定のパターンについて,慎重に検討する。 語彙の多様性、簡潔さ、自然さといったコード属性の厳密な分析を通じて、各ソース固有のユニークなパターンを明らかにする。 特に、コードの構文的セグメンテーションが、その証明を識別する上で重要な要素であることに気付きます。 そこで本研究では, 異なるスタイルのコードパターンを抽出して, 検出精度を向上する, 機械生成コード検出の新しい手法であるDetectCodeGPTを提案する。 摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率を両立させる。 実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。

Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine- and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine- and human-authored code. Through a rigorous analysis of code attributes such as lexical diversity, conciseness, and naturalness, we expose unique patterns inherent to each source. We particularly notice that the syntactic segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose DetectCodeGPT, a novel method for detecting machine-generated code, which improves DetectGPT by capturing the distinct stylized patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# ハイパーパラメータ最適化はソフトウェア分析に異なるか?

Is Hyper-Parameter Optimization Different for Software Analytics? ( http://arxiv.org/abs/2401.09622v2 )

ライセンス: Link先を確認
Rahul Yedida, Tim Menzies, (参考訳) はい。 SEデータは、(従来のAIデータセットと比較して)クラス間の"smoother"バウンダリを持つことができる。 より正確に言うと、SEデータに見られる損失関数の第2の導関数の大きさは、典型的にはずっと小さい。 SMOOTHIEと呼ばれる新しいハイパーパラメータオプティマイザは、SEデータのこの慣用性を利用することができる。 SMOOTHIEと最先端のAIハイパーパラメータオプティマイザを3つのタスクで比較する。 (a)GitHubが生涯予測を発行 b) 静的コード警告が誤報を検知すること。 (c)欠陥予測 完全性については、標準的なAIデータセットの実験も行います。 SMOOTHIEはより高速に動作し、SEデータでより良い予測を行う。 したがって、SEデータは他の種類のデータと異なる可能性があると結論付け、これらの違いは、データに異なる種類のアルゴリズムを使う必要があることを意味します。 この領域で働くオープンサイエンスや他の研究者をサポートするため、我々のスクリプトとデータセットはすべてhttps://github.com/yrahul3910/smoothness-hpo/.com/でオンライン公開されている。

Yes. SE data can have "smoother" boundaries between classes (compared to traditional AI data sets). To be more precise, the magnitude of the second derivative of the loss function found in SE data is typically much smaller. A new hyper-parameter optimizer, called SMOOTHIE, can exploit this idiosyncrasy of SE data. We compare SMOOTHIE and a state-of-the-art AI hyper-parameter optimizer on three tasks: (a) GitHub issue lifetime prediction (b) detecting static code warnings false alarm; (c) defect prediction. For completeness, we also show experiments on some standard AI datasets. SMOOTHIE runs faster and predicts better on the SE data--but ties on non-SE data with the AI tool. Hence we conclude that SE data can be different to other kinds of data; and those differences mean that we should use different kinds of algorithms for our data. To support open science and other researchers working in this area, all our scripts and datasets are available on-line at https://github.com/yrahul3910/smoothness-hpo/.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# サンプリング器を用いた時間効率量子エントロピー推定器

Time-Efficient Quantum Entropy Estimator via Samplizer ( http://arxiv.org/abs/2401.09947v2 )

ライセンス: Link先を確認
Qisheng Wang, Zhicheng Zhang, (参考訳) エントロピー(Entropy)は、システムのランダム性の尺度である。 量子状態のエントロピーを推定することは、量子情報の基本的な問題である。 本稿では,フォン・ノイマンエントロピー$S(\rho)$とR\enyi entropy$S_\alpha(\rho)$の時間効率な量子的アプローチを導入する。 1. 時間複雑性を持つ$S(\rho)$に対する量子推定器 $\tilde O(N^2)$, Acharya, Issa, Shende, and Wagner (2020) and Bavarian, Mehraba, and Wright (2016)。 2. 時間複雑性を持つ$S_\alpha(\rho)$に対する量子推定器 $\tilde O(N^{4/\alpha-2})$ for $0<\alpha<1$ and $\tilde O(N^{4-2/\alpha})$ for $\alpha>1$, 以前の時間複雑性を改善する$\tilde O(N^{6/\alpha})$ for $0<\alpha<1$ and $\tilde O(N^6)$ for $\alpha>1$ by Acharya, Issa, Shende, Wagner (2020) は少し大きなサンプル複雑さを持つ。 さらに、これらの推定子は低ランクの場合に対して自然に拡張可能である。 また、$S_{\alpha}(\rho)$を推定するための下限のサンプルも提供します。 技術的には、本手法は弱いシュアサンプリングとヤングダイアグラムに基づく以前の方法とは全く異なる。 このツールを使うと、量子のエントロピーを推定するための統一されたフレームワークが提案される。 具体的には、量子オラクル$U$が混合量子状態$\rho$をブロックエンコードする場合、$Q$クエリを$U$に変換する量子クエリアルゴリズムは、$\tilde\Theta(Q^2/\delta)$サンプルの$\rho$を使って、$\delta$-close(ダイヤモンドノルムにおける)量子アルゴリズムにサンプリングすることができる。 さらに、このサンプリングは多対数因子まで最適であることが証明されている。

Entropy is a measure of the randomness of a system. Estimating the entropy of a quantum state is a basic problem in quantum information. In this paper, we introduce a time-efficient quantum approach to estimating the von Neumann entropy $S(\rho)$ and R\'enyi entropy $S_\alpha(\rho)$ of an $N$-dimensional quantum state $\rho$, given access to independent samples of $\rho$. Specifically, we provide the following: 1. A quantum estimator for $S(\rho)$ with time complexity $\tilde O(N^2)$, improving the prior best time complexity $\tilde O(N^6)$ by Acharya, Issa, Shende, and Wagner (2020) and Bavarian, Mehraba, and Wright (2016). 2. A quantum estimator for $S_\alpha(\rho)$ with time complexity $\tilde O(N^{4/\alpha-2})$ for $0<\alpha<1$ and $\tilde O(N^{4-2/\alpha})$ for $\alpha>1$, improving the prior best time complexity $\tilde O(N^{6/\alpha})$ for $0<\alpha<1$ and $\tilde O(N^6)$ for $\alpha>1$ by Acharya, Issa, Shende, and Wagner (2020), though at a cost of a slightly larger sample complexity. Moreover, these estimators are naturally extensible to the low-rank case. We also provide a sample lower bound for estimating $S_{\alpha}(\rho)$. Technically, our method is quite different from the previous ones that are based on weak Schur sampling and Young diagrams. At the heart of our construction, is a novel tool called samplizer, which can "samplize" a quantum query algorithm to a quantum algorithm with similar behavior using only samples of quantum states; this suggests a unified framework for estimating quantum entropies. Specifically, when a quantum oracle $U$ block-encodes a mixed quantum state $\rho$, any quantum query algorithm using $Q$ queries to $U$ can be samplized to a $\delta$-close (in the diamond norm) quantum algorithm using $\tilde\Theta(Q^2/\delta)$ samples of $\rho$. Moreover, this samplization is proven to be optimal, up to a polylogarithmic factor.
翻訳日:2024-07-31 22:29:35 公開日:2024-07-30
# 意味的に意味のある入力特徴を学習するために、概念ボトルネックモデルを制約できるか?

Can we Constrain Concept Bottleneck Models to Learn Semantically Meaningful Input Features? ( http://arxiv.org/abs/2402.00912v2 )

ライセンス: Link先を確認
Jack Furby, Daniel Cunnington, Dave Braines, Alun Preece, (参考訳) 概念ボトルネックモデル(CBM)は、最初にタスクラベルを予測するために使用される人間定義概念のセットを予測するため、本質的に解釈可能であるとみなされる。 固有の解釈可能性を完全に実現し、モデルの出力に対する信頼を確保するためには、概念予測が意味論的に意味のある入力機能を使用するのが望ましい。 例えば、画像では、骨折した骨を表すピクセルが骨折の予測に寄与する。 しかし、現在の文献では、概念予測は無関係な入力特徴に依存することが多いことを示唆している。 データセットラベルが不正確な概念アノテーションを含む場合や、入力特徴と概念の関係が不明な場合に発生すると仮定する。 一般に、データセットのラベル付けが概念表現に与える影響は、まだ未検討の領域である。 本稿では、CBMが、入力特徴と所望のコンセプト予測との間に明確なリンクを持つデータセットを利用することで、概念を意味的に意味のある入力特徴にマッピングする方法を学習できることを実証する。 これは例えば、複数の概念が必ずしも共起的でないことを保証し、CBMが各概念の関連する入力特徴を識別するための明確な訓練信号を提供することによって達成される。 合成画像データセットと実世界の画像データセットの両方で仮説を検証し、正しい条件下でCBMが意味論的に意味のある入力特徴を正しい概念予測に関連付けることができることを示す。

Concept Bottleneck Models (CBMs) are regarded as inherently interpretable because they first predict a set of human-defined concepts which are used to predict a task label. For inherent interpretability to be fully realised, and ensure trust in a model's output, it's desirable for concept predictions to use semantically meaningful input features. For instance, in an image, pixels representing a broken bone should contribute to predicting a fracture. However, current literature suggests that concept predictions often rely on irrelevant input features. We hypothesise that this occurs when dataset labels include inaccurate concept annotations, or the relationship between input features and concepts is unclear. In general, the effect of dataset labelling on concept representations remains an understudied area. In this paper, we demonstrate that CBMs can learn to map concepts to semantically meaningful input features, by utilising datasets with a clear link between the input features and the desired concept predictions. This is achieved, for instance, by ensuring multiple concepts do not always co-occur and, therefore provide a clear training signal for the CBM to distinguish the relevant input features for each concept. We validate our hypothesis on both synthetic and real-world image datasets, and demonstrate under the correct conditions, CBMs can learn to attribute semantically meaningful input features to the correct concept predictions.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# ALERT-Transformer:リアルタイムイベントベースの時空間データのための非同期・同期機械学習

ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data ( http://arxiv.org/abs/2402.01393v3 )

ライセンス: Link先を確認
Carmen Martin-Turrero, Maxence Bouvier, Manuel Breitenstein, Pietro Zanuttigh, Vincent Parret, (参考訳) 我々は,高密度機械学習モデルを用いたイベントベースセンサによって生成された,連続的超スパース時空間データの古典的処理を実現することを目的とする。 1)ポイントネットモデルに基づく組込み -- ALERTモジュール -- をベースとした,新しいイベントと古いイベントを連続的に統合可能な,非同期センシングと同期処理を組み合わせた,新しいハイブリッドパイプラインを提案する。(2)任意のサンプリングレートで常に最新の機能を備えたダウンストリームモデルをフィード可能な,組込みデータのフレキシブルな読み出し,(3)Vision Transformerにインスパイアされたパッチベースのアプローチによる,メソッドの効率の最適化。 これらの埋め込みは、オブジェクト認識とジェスチャー認識のために訓練されたトランスフォーマーモデルによって処理される。 このアプローチを用いることで、競合他社よりもレイテンシの低い最先端のパフォーマンスを実現します。 また、非同期モデルが任意のサンプリングレートで動作可能であることも示しています。

We seek to enable classic processing of continuous ultra-sparse spatiotemporal data generated by event-based sensors with dense machine learning models. We propose a novel hybrid pipeline composed of asynchronous sensing and synchronous processing that combines several ideas: (1) an embedding based on PointNet models -- the ALERT module -- that can continuously integrate new and dismiss old events thanks to a leakage mechanism, (2) a flexible readout of the embedded data that allows to feed any downstream model with always up-to-date features at any sampling rate, (3) exploiting the input sparsity in a patch-based approach inspired by Vision Transformer to optimize the efficiency of the method. These embeddings are then processed by a transformer model trained for object and gesture recognition. Using this approach, we achieve performances at the state-of-the-art with a lower latency than competitors. We also demonstrate that our asynchronous model can operate at any desired sampling rate.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# 生成AIドメインにおけるDCTトレースの爆発について

On the Exploitation of DCT-Traces in the Generative-AI Domain ( http://arxiv.org/abs/2402.02209v3 )

ライセンス: Link先を確認
Orazio Pontorno, Luca Guarnera, Sebastiano Battiato, (参考訳) ディープフェイクはサイバーセキュリティとデジタル犯罪の世界でもっとも難しい課題の1つだ。 ほとんど全ての生成モデルは合成データにユニークな痕跡を残しており、分析され詳細が特定できれば、既存のディープフェイク検出器の一般化限界を改善するために利用することができる。 本稿では,GANおよび拡散モデルエンジンが生成する周波数領域のディープフェイク画像を解析し,離散コサイン変換(DCT)係数の基礎的統計分布を詳細に検討した。 すべての係数が画像検出に等しく寄与するわけではないことを認識し、係数の特定の組み合わせに埋め込まれた固有の「識別指紋」の存在を仮定する。 それらを特定するために、機械学習分類器は様々な係数の組み合わせで訓練された。 さらに、説明可能なAI (XAI) LIMEアルゴリズムを用いて、固有な係数の識別的組み合わせを探索した。 最後に、JPEG圧縮を適用してトレースの持続性を分析する頑健性試験を行った。 実験結果は、JPEG攻撃においてより差別的で永続的な生成モデルが残した痕跡の存在を明らかにした。 コードとデータセットはhttps://github.com/opontorno/dcts_analysis_deepfakes.comで公開されている。

Deepfakes represent one of the toughest challenges in the world of Cybersecurity and Digital Forensics, especially considering the high-quality results obtained with recent generative AI-based solutions. Almost all generative models leave unique traces in synthetic data that, if analyzed and identified in detail, can be exploited to improve the generalization limitations of existing deepfake detectors. In this paper we analyzed deepfake images in the frequency domain generated by both GAN and Diffusion Model engines, examining in detail the underlying statistical distribution of Discrete Cosine Transform (DCT) coefficients. Recognizing that not all coefficients contribute equally to image detection, we hypothesize the existence of a unique ``discriminative fingerprint", embedded in specific combinations of coefficients. To identify them, Machine Learning classifiers were trained on various combinations of coefficients. In addition, the Explainable AI (XAI) LIME algorithm was used to search for intrinsic discriminative combinations of coefficients. Finally, we performed a robustness test to analyze the persistence of traces by applying JPEG compression. The experimental results reveal the existence of traces left by the generative models that are more discriminative and persistent at JPEG attacks. Code and dataset are available at https://github.com/opontorno/dcts_analysis_deepfakes.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# C-RAG:Retrieval-Augmented Language Models の生成リスク認定

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models ( http://arxiv.org/abs/2402.03181v5 )

ライセンス: Link先を確認
Mintong Kang, Nezihe Merve Gürel, Ning Yu, Dawn Song, Bo Li, (参考訳) 様々なアプリケーションにまたがる大きな言語モデル(LLM)の印象的な機能にもかかわらず、幻覚や誤認識といった信頼性の問題に悩まされている。 検索言語モデル(RAG)は、外部知識を基盤として世代間の信頼性を高めるために提案されているが、それらの世代リスクに関する理論的理解は未解明のままである。 本稿では,こう答える。 1)RAGが実際に低世代リスクにつながるかどうか。 2)RAG及びバニラLSMの発生リスクの保証を行う方法、及び 3)RAGモデルで生成リスクを低減できる十分な条件は何か。 RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。 具体的には、RAGモデルに対して共形リスク分析を行い、共形リスクと呼ばれる生成リスクの上位信頼境界を認定する。 また,テスト分布シフトにおける一般有界リスク関数の共形生成リスクに関する理論的保証も提供する。 検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。 実験結果から,4つの最先端検索モデル上で広く使用されている4つのNLPデータセットに対して,共形生成リスク保証の健全性と厳密性を示す。

Despite the impressive capabilities of large language models (LLMs) across diverse applications, they still suffer from trustworthiness issues, such as hallucinations and misalignments. Retrieval-augmented language models (RAG) have been proposed to enhance the credibility of generations by grounding external knowledge, but the theoretical understandings of their generation risks remains unexplored. In this paper, we answer: 1) whether RAG can indeed lead to low generation risks, 2) how to provide provable guarantees on the generation risks of RAG and vanilla LLMs, and 3) what sufficient conditions enable RAG models to reduce generation risks. We propose C-RAG, the first framework to certify generation risks for RAG models. Specifically, we provide conformal risk analysis for RAG models and certify an upper confidence bound of generation risks, which we refer to as conformal generation risk. We also provide theoretical guarantees on conformal generation risks for general bounded risk functions under test distribution shifts. We prove that RAG achieves a lower conformal generation risk than that of a single LLM when the quality of the retrieval model and transformer is non-trivial. Our intensive empirical results demonstrate the soundness and tightness of our conformal generation risk guarantees across four widely-used NLP datasets on four state-of-the-art retrieval models.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# 光と最適シュレーディンガー橋の整合

Light and Optimal Schrödinger Bridge Matching ( http://arxiv.org/abs/2402.03207v2 )

ライセンス: Link先を確認
Nikita Gushchin, Sergei Kholkin, Evgeny Burnaev, Alexander Korotin, (参考訳) Schr\"odinger Bridges (SB) は、エントロピック・オプティマル・トランスポート (EOT) と相互接続された古典的拡散モデルの将来的な拡張として、MLコミュニティの注目を集めている。 SBの最近の解法は広範に橋梁整合法を利用している。 このような手順は、それらの間の輸送計画のみを与えられた分布間の質量を輸送する確率過程を回復することを目的としている。 特に、EOT計画を考えると、これらの手順はSBを解くために適応することができる。 この事実は、マッチングベースのSBソルバを引き起こす最近の研究によって大いに活用されている。 最近の研究では、ヒューリスティックな近似(例えば、ミニバッチOT)を使うか、あるいは、設計によってトレーニング中にエラーを蓄積する反復的なマッチング手順を確立する。 これらの制約に対処し、SBを学習するための新しい手順を提案し、それを \textbf{optimal Schr\"odinger bridge matching} と呼ぶ。 これは拡散過程の最適パラメータ化を利用し、SBプロセス \textbf{ を確実に回復する。 (a)} 単一のブリッジマッチングステップと \textbf{ (b) 任意の輸送プランを入力とする。 さらに, 最適橋梁マッチングの目的は, EOT/SB を学習するための最近発見されたエネルギーベースモデリング (EBM) の目的と一致することを示した。 この観測に触発されて、調整されたシュリンガーポテンシャルのガウス混合パラメタライゼーションを用いて、実際に最適なマッチングを実現するための光解法(LightSB-Mと呼ぶ)を開発した。 本研究は,様々な課題において,解法の性能を実験的に示すものである。 私たちのソルバのコードはhttps://github.com/SKholkin/LightSB-Matching.comで確認できます。

Schr\"odinger Bridges (SB) have recently gained the attention of the ML community as a promising extension of classic diffusion models which is also interconnected to the Entropic Optimal Transport (EOT). Recent solvers for SB exploit the pervasive bridge matching procedures. Such procedures aim to recover a stochastic process transporting the mass between distributions given only a transport plan between them. In particular, given the EOT plan, these procedures can be adapted to solve SB. This fact is heavily exploited by recent works giving rise to matching-based SB solvers. The cornerstone here is recovering the EOT plan: recent works either use heuristical approximations (e.g., the minibatch OT) or establish iterative matching procedures which by the design accumulate the error during the training. We address these limitations and propose a novel procedure to learn SB which we call the \textbf{optimal Schr\"odinger bridge matching}. It exploits the optimal parameterization of the diffusion process and provably recovers the SB process \textbf{(a)} with a single bridge matching step and \textbf{(b)} with arbitrary transport plan as the input. Furthermore, we show that the optimal bridge matching objective coincides with the recently discovered energy-based modeling (EBM) objectives to learn EOT/SB. Inspired by this observation, we develop a light solver (which we call LightSB-M) to implement optimal matching in practice using the Gaussian mixture parameterization of the adjusted Schr\"odinger potential. We experimentally showcase the performance of our solver in a range of practical tasks. The code for our solver can be found at https://github.com/SKholkin/LightSB-Matching.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# 固定スペクトルに対する最大絡み合った混合状態は、常に存在するとは限らない

Maximally entangled mixed states for a fixed spectrum do not always exist ( http://arxiv.org/abs/2402.05673v2 )

ライセンス: Link先を確認
Julio I. de Vicente, (参考訳) エンタングルメント(英: Entanglement)は、古典的通信(LOCC)を補助するローカル操作のリソースである。 S$の集合が与えられた場合、もし$S$の1つの状態が存在し、LOCCによって$S$の他のすべての状態に変換できるなら、この状態は$S$で最大に絡み合わされる。 これは、$d$-次元ベル状態が局所次元$d$のすべての二部状態の集合において最大に絡み合った状態であることはよく知られた結果である。 現実的な応用において、ノイズは全ての状態が混合されるので、関連する混合状態の集合が最大絡み合う状態の概念を可能にするかどうかを研究することは興味深い。 自然な選択は、同じスペクトルを持つ全ての状態の集合である。 実際、2量子状態の任意のスペクトル分布に対して、以前の研究はいくつかの絡み合い測度が、この集合の特定の状態によって全て最大化されていることを示した。 このことは、この状態の族が同じスペクトルを持つ全ての状態の集合の中で最大に絡み合った状態になり得る可能性を考慮し、全ての絡み合い測度を最大化するであろう。 この研究において、私はこの疑問に負の形で答える: 一般に固定スペクトルに対して極大に絡み合った状態は存在しない、すなわち全ての可能なスペクトルの選択に対してである。 そのため、ランク2の状態の場合を考えると、固有値の特定の値に対して、LOCCの下でだけでなく、より大規模な非絡み合い操作の下でも、他のすべての等スペクトル状態に変換できる状態は存在しないことを示す。 これは特に、これらの場合において、同じスペクトルを持つ全ての状態において与えられた絡み合い測度を最大化する状態は、絡み合い測度の選択に依存する、すなわち、前述の状態の族がすべての絡み合い測度を最大化するわけではないことを暗示している。

Entanglement is a resource under local operations assisted by classical communication (LOCC). Given a set of states $S$, if there is one state in $S$ that can be transformed by LOCC into all other states in $S$, then this state is maximally entangled in $S$. It is a well-known result that the $d$-dimensional Bell state is the maximally entangled state in the set of all bipartite states of local dimension $d$. Since in practical applications noise renders every state mixed, it is interesting to study whether sets of mixed states of relevance enable the notion of a maximally entangled state. A natural choice is the set of all states with the same spectrum. In fact, for any given spectrum distribution on two-qubit states, previous work has shown that several entanglement measures are all maximized by one particular state in this set. This has led to consider the possibility that this family of states could be the maximally entangled states in the set of all states with the same spectrum, which should then maximize all entanglement measures. In this work I answer this question in the negative: there are no maximally entangled states for a fixed spectrum in general, i.e. for every possible choice of the spectrum. In order to do so, I consider the case of rank-2 states and show that for particular values of the eigenvalues there exists no state that can be transformed to all other isospectral states not only under LOCC but also under the larger class of non-entangling operations. This in particular implies that in these cases the state that maximizes a given entanglement measure among all states with the same spectrum depends on the choice of entanglement measure, i.e. it cannot be that the aforementioned family of states maximizes all entanglement measures.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# 機械学習原子間ポテンシャルのためのモンテカルト原子クラスター展開

Cartesian atomic cluster expansion for machine learning interatomic potentials ( http://arxiv.org/abs/2402.07472v3 )

ライセンス: Link先を確認
Bingqing Cheng, (参考訳) 機械学習の原子間ポテンシャルは、物質科学と化学における大規模で正確な原子モデルに革命をもたらしている。 多くのポテンシャルは、アトミッククラスタ拡張または同変メッセージパッシングフレームワークを使用する。 このようなフレームワークは典型的には球面調和を角基底関数として使用し、次にクレブシュ=ゴルダン縮約を用いて回転対称性を保ち、表現や計算オーバーヘッドに冗長性をもたらす。 カルテシアン配位子に基づく原子密度膨張法を提案する。 このアプローチは、相互作用体秩序を維持しながら、原子環境の完全なポリノルミ非依存的な特徴を提供する。 さらに, 各種化学元素の低次元埋め込みと原子間メッセージパッシングを統合した。 CACE (Cartesian Atomic Cluster Expansion) は、高い精度、安定性、一般化性を示す。 バルク水, 小分子および25元素高エントロピー合金を含む多種多様なシステムにおいて, その性能を検証した。

Machine learning interatomic potentials are revolutionizing large-scale, accurate atomistic modelling in material science and chemistry. Many potentials use atomic cluster expansion or equivariant message passing frameworks. Such frameworks typically use spherical harmonics as angular basis functions, and then use Clebsch-Gordan contraction to maintain rotational symmetry, which may introduce redundancies in representations and computational overhead. We propose an alternative: a Cartesian-coordinates-based atomic density expansion. This approach provides a complete set of polynormially indepedent features of atomic environments while maintaining interaction body orders. Additionally, we integrate low-dimensional embeddings of various chemical elements and inter-atomic message passing. The resulting potential, named Cartesian Atomic Cluster Expansion (CACE), exhibits good accuracy, stability, and generalizability. We validate its performance in diverse systems, including bulk water, small molecules, and 25-element high-entropy alloys.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# 適応実験の最適化:レグレット最小化とベストアーム同定のための統一的アプローチ

Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification ( http://arxiv.org/abs/2402.10592v2 )

ライセンス: Link先を確認
Chao Qin, Daniel Russo, (参考訳) 適応的な実験を行う実践者は、2つの競合する優先順位に直面することが多い。 現在の文献はこれらの優先順位を別々に扱い、前者および後者に関する最高の識別研究に焦点を当てた後悔の最小化研究を行っている。 本稿では,実験内性能と実験後の成果を同時に考慮した統一モデルを提案することによって,この分割を橋渡しする。 文献の標準結果を統一するだけでなく,新たな知見も明らかにする,大規模集団における最適性能の鋭い理論を提供する。 我々の理論は、最近提案されたトップ2のトンプソンサンプリングアルゴリズムのような親しみやすいアルゴリズムが、1つのスカラーパラメータが適切に調整された場合、幅広い目的を最適化できることを明らかにする。 さらに、実験期間の大幅な短縮は、実験内および実験後の後悔の両方に最小限の影響を伴って達成できることを実証した。

Practitioners conducting adaptive experiments often encounter two competing priorities: maximizing total welfare (or `reward') through effective treatment assignment and swiftly concluding experiments to implement population-wide treatments. Current literature addresses these priorities separately, with regret minimization studies focusing on the former and best-arm identification research on the latter. This paper bridges this divide by proposing a unified model that simultaneously accounts for within-experiment performance and post-experiment outcomes. We provide a sharp theory of optimal performance in large populations that not only unifies canonical results in the literature but also uncovers novel insights. Our theory reveals that familiar algorithms, such as the recently proposed top-two Thompson sampling algorithm, can optimize a broad class of objectives if a single scalar parameter is appropriately adjusted. In addition, we demonstrate that substantial reductions in experiment duration can often be achieved with minimal impact on both within-experiment and post-experiment regret.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# 誤報による流行拡大のモデル化

Modeling the amplification of epidemic spread by misinformed populations ( http://arxiv.org/abs/2402.11351v3 )

ライセンス: Link先を確認
Matthew R. DeVerna, Francesco Pierri, Yong-Yeol Ahn, Santo Fortunato, Alessandro Flammini, Filippo Menczer, (参考訳) 誤報が病気の拡散にどのように影響するかを理解することは公衆衛生にとって不可欠であり、特に最近の研究では、誤報はワクチンのヘシタシーを高め、ワクチンの摂取を阻害する可能性があることが示されている。 しかし,データインフォームド・ホメスティック・ディファレンス・モデルの劣化による誤報とアウトプット・アウトプットの相互作用を調査することは困難である。 ここでは,大規模で移動性に富んだ物理的接触ネットワークと,ソーシャルメディアデータから得られた郡にまたがる誤情報による個人分布を組み込んだ疫病モデルを用いる。 このモデルにより、様々なシナリオをシミュレートし、予測し、誤報が拡散に与える影響を理解することができる。 このモデルを用いて、米国人口の14%が、新型コロナウイルス感染症の流行で感染する結果になるという最悪のシナリオを、ベストケースのシナリオと比較して提示する。

Understanding how misinformation affects the spread of disease is crucial for public health, especially given recent research indicating that misinformation can increase vaccine hesitancy and discourage vaccine uptake. However, it is difficult to investigate the interaction between misinformation and epidemic outcomes due to the dearth of data-informed holistic epidemic models. Here, we employ an epidemic model that incorporates a large, mobility-informed physical contact network as well as the distribution of misinformed individuals across counties derived from social media data. The model allows us to simulate and estimate various scenarios to understand the impact of misinformation on epidemic spreading. Using this model, we present a worst-case scenario in which a heavily misinformed population would result in an additional 14% of the U.S. population becoming infected over the course of the COVID-19 epidemic, compared to a best-case scenario.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# アラビア語MMLU:アラビア語で多タスク言語を理解する

ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic ( http://arxiv.org/abs/2402.12840v2 )

ライセンス: Link先を確認
Fajri Koto, Haonan Li, Sara Shatnawi, Jad Doughman, Abdelrahman Boda Sadallah, Aisha Alraeesi, Khalid Almubarak, Zaid Alyafeai, Neha Sengupta, Shady Shehata, Nizar Habash, Preslav Nakov, Timothy Baldwin, (参考訳) 言語モデル評価の焦点は、大規模モデルの事前訓練の進展により、推論や知識集約的なタスクへと移行してきた。 最先端のモデルは大きなアラビア語のテキストで部分的に訓練されているが、関連するデータセットが限られているため、アラビア語のパフォーマンスを評価することは困難である。 このギャップを埋めるために、我々は、北アフリカ、レバント、湾岸地方にまたがる様々な国で様々な教育レベルの学校試験から得られた、アラビア語に対する最初のマルチタスク言語理解ベンチマークである \datasetname{} を提示する。 我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルの総合的な評価は、特に最高のオープンソースモデルの中で、改善の余地をかなり示しています。 特に、BLOOMZ、mT0、LLaMA2、ファルコンは50%のスコアを達成するのに苦労し、最高パフォーマンスのアラビア中心のモデルでさえ62.3%のスコアしか獲得していない。

The focus of language model evaluation has transitioned towards reasoning and knowledge-intensive tasks, driven by advancements in pretraining large models. While state-of-the-art models are partially trained on large Arabic texts, evaluating their performance in Arabic remains challenging due to the limited availability of relevant datasets. To bridge this gap, we present \datasetname{}, the first multi-task language understanding benchmark for the Arabic language, sourced from school exams across diverse educational levels in different countries spanning North Africa, the Levant, and the Gulf regions. Our data comprises 40 tasks and 14,575 multiple-choice questions in Modern Standard Arabic (MSA) and is carefully constructed by collaborating with native speakers in the region. Our comprehensive evaluations of 35 models reveal substantial room for improvement, particularly among the best open-source models. Notably, BLOOMZ, mT0, LLaMA2, and Falcon struggle to achieve a score of 50%, while even the top-performing Arabic-centric model only achieves a score of 62.3%.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# SimPro: リアルタイム型半教師付き学習を目指すシンプルな確率的フレームワーク

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning ( http://arxiv.org/abs/2402.13505v4 )

ライセンス: Link先を確認
Chaoqun Du, Yizeng Han, Gao Huang, (参考訳) 半教師付き学習の最近の進歩は、ラベル付きデータの不均衡に対処しながら、ラベル付きデータのクラス分布が未知であり、潜在的にミスマッチしているという、より現実的で難しい課題に焦点が当てられている。 この領域における現在のアプローチは、ラベルのないデータのクラス分布に関する厳密な仮定を前提としており、したがってモデルの適応性は特定の分布範囲に限られる。 本研究では,ラベルなしデータの分布に関する前提に頼らない,高度に適応可能なフレームワークをSimProとして提案する。 我々のフレームワークは確率論的モデルに基づいており、条件と限界のクラス分布のモデリングを明示的に分離することにより、期待最大化(EM)アルゴリズムを革新的に洗練する。 この分離は、最大化フェーズにおけるクラス分布推定のための閉形式解を容易にし、ベイズ分類器の定式化につながる。 ベイズ分類器は、予想フェーズにおける擬ラベルの品質を高める。 注目すべきなのは、SimProフレームワークには理論的保証だけでなく、実装も簡単であることだ。 さらに,評価の範囲を広げる2つの新しいクラス分布を導入する。 本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。 私たちのコードはhttps://github.com/LeapLabTHU/SimProで利用可能です。

Recent advancements in semi-supervised learning have focused on a more realistic yet challenging task: addressing imbalances in labeled data while the class distribution of unlabeled data remains both unknown and potentially mismatched. Current approaches in this sphere often presuppose rigid assumptions regarding the class distribution of unlabeled data, thereby limiting the adaptability of models to only certain distribution ranges. In this study, we propose a novel approach, introducing a highly adaptable framework, designated as SimPro, which does not rely on any predefined assumptions about the distribution of unlabeled data. Our framework, grounded in a probabilistic model, innovatively refines the expectation-maximization (EM) algorithm by explicitly decoupling the modeling of conditional and marginal class distributions. This separation facilitates a closed-form solution for class distribution estimation during the maximization phase, leading to the formulation of a Bayes classifier. The Bayes classifier, in turn, enhances the quality of pseudo-labels in the expectation phase. Remarkably, the SimPro framework not only comes with theoretical guarantees but also is straightforward to implement. Moreover, we introduce two novel class distributions broadening the scope of the evaluation. Our method showcases consistent state-of-the-art performance across diverse benchmarks and data distribution scenarios. Our code is available at https://github.com/LeapLabTHU/SimPro.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# GenNBV:アクティブ3D再構築のための汎用的な次世代ビューポリシー

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction ( http://arxiv.org/abs/2402.16174v3 )

ライセンス: Link先を確認
Xiao Chen, Quanyi Li, Tai Wang, Tianfan Xue, Jiangmiao Pang, (参考訳) 近年のニューラルラディアンス分野の進歩により、大規模シーンのリアルなデジタル化が可能になったが、画像キャプチャープロセスはまだ時間がかかり、労働集約的だ。 従来の作業では,Next-Best-View (NBV) ポリシを使用して,アクティブな3次元再構築を試みていた。 しかし、既存のNBVポリシーは手作りの基準、限られたアクション空間、シーンごとの最適化された表現に大きく依存している。 これらの制約は、データセット間の一般化性を制限する。 そこで我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。 我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な制限されたアクション空間を5次元自由空間に拡張する。 それは、エージェントドローンがあらゆる視点からスキャンし、訓練中に見えない地形と対話することを可能にします。 また,クロスデータセットの一般化性を高めるために,幾何学的,意味的,行動表現を含む新しい多元的状態埋め込みを提案する。 我々は,このNBVポリシーを評価するために,Houses3KとOmniObject3Dデータセットを用いたIsaac Gymシミュレータを用いたベンチマークを構築した。 実験により、これらのデータセットから、目に見えないビルディングスケールのオブジェクトに対して、ポリシーが98.26%と97.12%のカバレッジ比を達成し、事前のソリューションよりも優れた結果が得られた。

While recent advances in neural radiance field enable realistic digitization for large-scale scenes, the image-capturing process is still time-consuming and labor-intensive. Previous works attempt to automate this process using the Next-Best-View (NBV) policy for active 3D reconstruction. However, the existing NBV policies heavily rely on hand-crafted criteria, limited action space, or per-scene optimized representations. These constraints limit their cross-dataset generalizability. To overcome them, we propose GenNBV, an end-to-end generalizable NBV policy. Our policy adopts a reinforcement learning (RL)-based framework and extends typical limited action space to 5D free space. It empowers our agent drone to scan from any viewpoint, and even interact with unseen geometries during training. To boost the cross-dataset generalizability, we also propose a novel multi-source state embedding, including geometric, semantic, and action representations. We establish a benchmark using the Isaac Gym simulator with the Houses3K and OmniObject3D datasets to evaluate this NBV policy. Experiments demonstrate that our policy achieves a 98.26% and 97.12% coverage ratio on unseen building-scale objects from these datasets, respectively, outperforming prior solutions.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# GigaPevt: マルチモーダル医療アシスタント

GigaPevt: Multimodal Medical Assistant ( http://arxiv.org/abs/2402.16654v2 )

ライセンス: Link先を確認
Pavel Blinov, Konstantin Egorov, Ivan Sviridov, Nikolay Ivanov, Stepan Botman, Evgeniy Tagin, Stepan Kudin, Galina Zubkova, Andrey Savchenko, (参考訳) インテリジェントで効率的な医療アシスタントを構築することは、依然として難しいAI問題である。 主な制限は、データモダリティの不足によって、包括的な患者の知覚が低下することにある。 本稿では,GigaPevtについて紹介する。GigaPevtは,大規模言語モデルの対話機能と専門的な医療モデルを組み合わせた,最初のマルチモーダル医療アシスタントである。 このようなアプローチは、質問応答タスクにおいて1.18%の精度向上を図り、ダイアログ品質とメートル法性能の即時的な優位性を示す。

Building an intelligent and efficient medical assistant is still a challenging AI problem. The major limitation comes from the data modality scarceness, which reduces comprehensive patient perception. This demo paper presents the GigaPevt, the first multimodal medical assistant that combines the dialog capabilities of large language models with specialized medical models. Such an approach shows immediate advantages in dialog quality and metric performance, with a 1.18% accuracy improvement in the question-answering task.
翻訳日:2024-07-31 22:15:57 公開日:2024-07-30
# マルチエージェント, ヒューマンエージェント, その他: 社会的ジレンマにおける協調に関する調査

Multi-Agent, Human-Agent and Beyond: A Survey on Cooperation in Social Dilemmas ( http://arxiv.org/abs/2402.17270v2 )

ライセンス: Link先を確認
Chunjiang Mu, Hao Guo, Yang Chen, Chen Shen, Shuyue Hu, Zhen Wang, (参考訳) 社会ジレンマにおける協力の研究は、コンピュータ科学や社会科学など、様々な分野において、長年にわたって基本的なトピックであった。 人工知能(AI)の最近の進歩はこの分野を大きく変え、協力の理解と強化に新たな洞察を与えている。 この調査は、AIの交差点における3つの重要な領域と、社会的ジレンマにおける協力について調査する。 まず,複数エージェント間の協調を支援する本質的・外的モチベーションと,多様な相手に対する効果的な戦略開発のための手法について検討する。 第2に、人間とエージェントの協力について、人間と協調するための現在のAIアルゴリズムと、AIエージェントに対する人間の偏見について論じる。 第3に,人間同士の協力を高めるためにAIエージェントを活用するという創発的な分野を概観する。 我々は、大規模言語モデルの使用、統一された理論的枠組みの確立、人間の協力に関する既存の理論の再検討、複数の実世界の応用の探求など、今後の研究の道程について論じる。

The study of cooperation within social dilemmas has long been a fundamental topic across various disciplines, including computer science and social science. Recent advancements in Artificial Intelligence (AI) have significantly reshaped this field, offering fresh insights into understanding and enhancing cooperation. This survey examines three key areas at the intersection of AI and cooperation in social dilemmas. First, focusing on multi-agent cooperation, we review the intrinsic and external motivations that support cooperation among rational agents, and the methods employed to develop effective strategies against diverse opponents. Second, looking into human-agent cooperation, we discuss the current AI algorithms for cooperating with humans and the human biases towards AI agents. Third, we review the emergent field of leveraging AI agents to enhance cooperation among humans. We conclude by discussing future research avenues, such as using large language models, establishing unified theoretical frameworks, revisiting existing theories of human cooperation, and exploring multiple real-world applications.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 演算子推論を用いたプロセス工学における低次二次線形モデルの学習

Learning reduced-order Quadratic-Linear models in Process Engineering using Operator Inference ( http://arxiv.org/abs/2402.17698v2 )

ライセンス: Link先を確認
Ion Victor Gosea, Luisa Peterson, Pawan Goyal, Jens Bremer, Kai Sundmacher, Peter Benner, (参考訳) 本研究では,プロセス工学における動的システムを効率的にモデル化することの課題に対処する。 我々は、低次モデル学習、特に演算子推論を用いる。 これは時間領域データから動的システムを学習するための非侵襲的でデータ駆動型手法である。 本研究の応用は、その可能性を示すために、Power-to-Xフレームワーク内で重要な反応である二酸化炭素のメタン化である。 数値計算結果から,演算子推論を用いて構築した縮小次数モデルにより,還元的かつ高精度な代理解が得られることを示す。 これは、高速で信頼性の高いディジタルツインアーキテクチャの実装に向けた重要なマイルストーンである。

In this work, we address the challenge of efficiently modeling dynamical systems in process engineering. We use reduced-order model learning, specifically operator inference. This is a non-intrusive, data-driven method for learning dynamical systems from time-domain data. The application in our study is carbon dioxide methanation, an important reaction within the Power-to-X framework, to demonstrate its potential. The numerical results show the ability of the reduced-order models constructed with operator inference to provide a reduced yet accurate surrogate solution. This represents an important milestone towards the implementation of fast and reliable digital twin architectures.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 日内電力価格のベイズ的階層的確率予測

Bayesian Hierarchical Probabilistic Forecasting of Intraday Electricity Prices ( http://arxiv.org/abs/2403.05441v2 )

ライセンス: Link先を確認
Daniel Nickelsen, Gernot Müller, (参考訳) 本稿では,パラメータの不確実性を完全に包含するドイツの連続的日内取引における電力価格のベイズ予測に関する第1報について述べる。 特に大きな内因性および外因性共変体が使用され、オルソゴンマッチング・パースーツ(OMP)による特徴選択と、事前の定期化によって処理される。 我々のターゲット変数はIDFull価格指数であり、予測は後続の予測分布で与えられる。 検証には、これまでの予測研究の対象にはならなかった2022年の極端に不安定な電力価格を使用します。 ベンチマークモデルとして、予測生成時に利用可能なすべての日内トランザクションを使用して、IDFullの現在の値を計算します。 弱形効率仮説によれば、前回の価格情報から構築されたベンチマークを著しく改善することは不可能である。 しかし, 点測度と確率スコアの両面で統計的に有意な改善が見られた。 最後に、電気価格予測における特徴選択にLASSOを用いるという宣言されたゴールド標準に挑戦し、OMPがより良い予測性能をもたらすという強い統計的証拠を提示する。

We present a first study of Bayesian forecasting of electricity prices traded on the German continuous intraday market which fully incorporates parameter uncertainty. A particularly large set of endogenous and exogenous covariables is used, handled through feature selection with Orthogonal Matching Pursuit (OMP) and regularising priors. Our target variable is the IDFull price index, forecasts are given in terms of posterior predictive distributions. For validation we use the exceedingly volatile electricity prices of 2022, which have hardly been the subject of forecasting studies before. As a benchmark model, we use all available intraday transactions at the time of forecast creation to compute a current value for the IDFull. According to the weak-form efficiency hypothesis, it would not be possible to significantly improve this benchmark built from last price information. We do, however, observe statistically significant improvement in terms of both point measures and probability scores. Finally, we challenge the declared gold standard of using LASSO for feature selection in electricity price forecasting by presenting strong statistical evidence that OMP leads to better forecasting performance.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 超放射光ダイナミクスにおけるポーラロンドレッシングの役割

The role of polaron dressing in superradiant emission dynamics ( http://arxiv.org/abs/2403.05533v3 )

ライセンス: Link先を確認
Julian Wiercinski, Moritz Cygorek, Erik M. Gauger, (参考訳) 複数の量子エミッタの協調効果は、エミッタ間のコヒーレンスの存在によって放出特性が変化する非局在化された集合状態の遷移によって特徴づけられる。 励起縮合物質ナノ構造によって実現されると、これらの効果は強力なエミッタ-フォノンカップリングの存在によって大きく影響され、ポーラロンの形成につながる。 自由空間への単一エミッタの放出では、この生成はその放射寿命に影響を与えないが、超放射能の放出には同じことが当てはまる。 2つの区別がつかない量子エミッターの場合を考えると、ポーラロンのドレッシングが、明るいディック状態と暗いディック状態の混合によって、集合的な光子放出にどのように影響するかを分析する。 励起レーザーのパルス長に依存すると、極性ディック状態または素電子ディック状態を用意し、系の超ラジカル減衰特性を変化させることができる。 さらに,これらの制限ケースに対する解析式を導出し,数値的精度の計算結果と一致した。

Cooperative effects of multiple quantum emitters are characterized by transitions via delocalized collective states with altered emission properties due to the existence of inter-emitter coherences. When realized with excitonic condensed matter nanostructures, these effects are significantly affected by the presence of strong emitter-phonon coupling, which leads to the formation of polarons. We show that, while for single-emitter emission into free space this formation has no impact on its radiative lifetime, the same is not true for superradiant emission. Considering the case of two indistinguishable quantum emitters, we analyse how polaron dressing affects collective photon emission by mixing bright and dark Dicke states. Our numerical simulations show that this mixing crucially depends on the circumstances of the excitation of the system: Depending on the pulse length of an exciting laser, one can choose to either prepare polaronic Dicke states, or bare electronic Dicke states, changing the superradiant decay characteristics of the system. Additionally, we derive analytic expressions for these limiting cases, which match the results of numerically exact calculations.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 2ステップの等角予測による適応的バウンディングボックスの不確かさ

Adaptive Bounding Box Uncertainties via Two-Step Conformal Prediction ( http://arxiv.org/abs/2403.07263v2 )

ライセンス: Link先を確認
Alexander Timans, Christoph-Nikolas Straehle, Kaspar Sakmann, Eric Nalisnick, (参考訳) モデル予測の不確実性の定量化は、自律運転のような安全クリティカルなアプリケーションに不可欠である。 マルチオブジェクト検出のための不確実性を定量化することを検討する。 特に、コンフォメーション予測を利用して、オブジェクト境界ボックスのカバレッジが保証された不確実区間を求める。 これを行う上での課題のひとつは、オブジェクトのクラスラベルにバウンディングボックスの予測が条件付けられていることだ。 そこで本研究では,予測されたクラスラベルの不確かさを,境界ボックスの不確かさ間隔に伝播させる2段階共形手法を提案する。 これにより、不正に分類されたオブジェクトを含むことを保証するコンフォーマルカバレッジの妥当性が拡大され、より実用的な安全保証が提供されます。 さらに,新しいアンサンブルと量子レグレッションの定式化について検討し,境界ボックス間隔がオブジェクトサイズに適応していることを確認することにより,よりバランスの取れたカバレッジを実現する。 2次元境界ボックスのローカライゼーションのための実世界のデータセットに対する2段階のアプローチを検証することで、所望のカバレッジレベルが事実上厳密な予測の不確実性間隔で満足していることが分かる。

Quantifying a model's predictive uncertainty is essential for safety-critical applications such as autonomous driving. We consider quantifying such uncertainty for multi-object detection. In particular, we leverage conformal prediction to obtain uncertainty intervals with guaranteed coverage for object bounding boxes. One challenge in doing so is that bounding box predictions are conditioned on the object's class label. Thus, we develop a novel two-step conformal approach that propagates uncertainty in predicted class labels into the uncertainty intervals of bounding boxes. This broadens the validity of our conformal coverage guarantees to include incorrectly classified objects, thus offering more actionable safety assurances. Moreover, we investigate novel ensemble and quantile regression formulations to ensure the bounding box intervals are adaptive to object size, leading to a more balanced coverage. Validating our two-step approach on real-world datasets for 2D bounding box localization, we find that desired coverage levels are satisfied with practically tight predictive uncertainty intervals.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# NeRF-Supervised Feature Point Detection and Description

NeRF-Supervised Feature Point Detection and Description ( http://arxiv.org/abs/2403.08156v2 )

ライセンス: Link先を確認
Ali Youssef, Francisco Vasconcelos, (参考訳) 特徴点の検出と記述は、Structure-from-Motion、ビジュアルSLAM、視覚的位置認識など、様々なコンピュータビジョンアプリケーションのためのバックボーンである。 学習に基づく手法は従来の手工芸技術を超えてきたが、その訓練は多視点視点の単純なホモグラフィに基づくシミュレーションに頼り、モデルの一般性を制限する。 本稿では,Near Radiance Fields (NeRFs) を利用して,屋内と屋外のシーンからなる多様で現実的なデータセットを生成する手法を提案する。 提案手法は,多視点NeRF合成データのトレーニングに最先端の特徴検出器と記述子を適用し,視点射影幾何学による監督を実現する。 提案手法は, 従来の手法に比べてトレーニングデータや時間を大幅に削減しつつ, 相対ポーズ推定, ポイントクラウド登録, ホモグラフィ推定のための標準ベンチマークにおいて, 競争力や優れた性能を達成できることを示した。

Feature point detection and description is the backbone for various computer vision applications, such as Structure-from-Motion, visual SLAM, and visual place recognition. While learning-based methods have surpassed traditional handcrafted techniques, their training often relies on simplistic homography-based simulations of multi-view perspectives, limiting model generalisability. This paper presents a novel approach leveraging Neural Radiance Fields (NeRFs) to generate a diverse and realistic dataset consisting of indoor and outdoor scenes. Our proposed methodology adapts state-of-the-art feature detectors and descriptors for training on multi-view NeRF-synthesised data, with supervision achieved through perspective projective geometry. Experiments demonstrate that the proposed methodology achieves competitive or superior performance on standard benchmarks for relative pose estimation, point cloud registration, and homography estimation while requiring significantly less training data and time compared to existing approaches.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# AFGI:フェデレートラーニングにおける高精度かつ高速収束型グラディエント・インバージョン・アタックを目指して

AFGI: Towards Accurate and Fast-convergent Gradient Inversion Attack in Federated Learning ( http://arxiv.org/abs/2403.08383v2 )

ライセンス: Link先を確認
Can Liu, Jin Wang, and Yipeng Zhou, Yachao Yuan, Quanzheng Sheng, Kejie Lu, (参考訳) フェデレートラーニング(FL)は、ユーザのモデル勾配のみを公開することによって、モデルトレーニングにおけるプライバシ保護を強化する。 しかし, FLユーザは, モデル勾配に基づく画像などの地中真実のトレーニングデータを再構成できる, 勾配反転攻撃 (GIA) の影響を受けやすい。 しかし、既存のGIAによる高解像度画像の再構成には、特にラベルの重複がトレーニングバッチに存在する場合、精度の低下と収束の遅さの2つの課題がある。 これらの課題に対処するため、AFGIと呼ばれる高精度かつ高速収束な逆転攻撃アルゴリズムを、露出勾配に基づくプライベート画像の重複ラベルを正確に復元できるラベルリカバリブロック(LRB)と、再構成画像の総分散を含むVME正規化項、露出勾配と再構成画像の値間の3チャンネル平均とエッジの相違という2つのコンポーネントで提示する。 AFGIは、RBBが回収したラベルを活用して画像を再構築するホワイトボックス攻撃戦略と見なすことができる。 特に、AFGIは、ユーザのトレーニングバッチサイズが最大48である場合に、地上の真実像を正確に再構成する効率がよい。 実験結果から,AFGIは85%のコスト削減が可能であり,ImageNetデータセットの超高精度なインバージョン品質を実現することができることがわかった。 最後に、プライバシー保護におけるFLの欠点を明らかにし、より先進的な対策戦略の開発を促した。

Federated learning (FL) empowers privacypreservation in model training by only exposing users' model gradients. Yet, FL users are susceptible to gradient inversion attacks (GIAs) which can reconstruct ground-truth training data such as images based on model gradients. However, reconstructing high-resolution images by existing GIAs faces two challenges: inferior accuracy and slow-convergence, especially when duplicating labels exist in the training batch. To address these challenges, we present an Accurate and Fast-convergent Gradient Inversion attack algorithm, called AFGI, with two components: Label Recovery Block (LRB) which can accurately restore duplicating labels of private images based on exposed gradients; VME Regularization Term, which includes the total variance of reconstructed images, the discrepancy between three-channel means and edges, between values from exposed gradients and reconstructed images, respectively. The AFGI can be regarded as a white-box attack strategy to reconstruct images by leveraging labels recovered by LRB. In particular, AFGI is efficient that accurately reconstruct ground-truth images when users' training batch size is up to 48. Our experimental results manifest that AFGI can diminish 85% time costs while achieving superb inversion quality in the ImageNet dataset. At last, our study unveils the shortcomings of FL in privacy-preservation, prompting the development of more advanced countermeasure strategies.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 自律運転における文脈認識動作予測を利用した大規模言語モデル

Large Language Models Powered Context-aware Motion Prediction in Autonomous Driving ( http://arxiv.org/abs/2403.11057v3 )

ライセンス: Link先を確認
Xiaoji Zheng, Lixiu Wu, Zhijie Yan, Yuanrong Tang, Hao Zhao, Chen Zhong, Bokui Chen, Jiangtao Gong, (参考訳) 運動予測は、自律運転における最も基本的なタスクの1つである。 従来の動き予測法は、主に地図のベクトル情報と交通参加者の履歴軌跡データをエンコードし、全体的な交通意味論の包括的理解を欠いているため、予測タスクのパフォーマンスに影響を及ぼす。 本稿では,Large Language Models (LLMs) を用いて,動き予測タスクのグローバルトラフィックコンテキスト理解を強化する。 我々はまず、複雑な交通環境と交通参加者の歴史的軌跡情報を画像プロンプトに可視化する、系統的なプロンプトエンジニアリングを行い、対応するテキストプロンプトを伴ってトランスポートコンテキストマップ(TC-Map)を構築した。 このアプローチにより,LLMから豊富なトラフィックコンテキスト情報を得た。 この情報を動き予測モデルに統合することにより、動き予測の精度を高めることができることを示す。 さらに, LLM に関連するコストを考慮すると, 0.7 % の LLM 拡張データセットを用いて, 大規模での動作予測タスクの精度を向上させる, コスト効率の良い展開戦略を提案する。 我々の研究は、LLMの交通シーンの理解と自動運転の動作予測性能を高めるための貴重な洞察を提供する。 ソースコードは \url{https://github.com/AIR-DISCOVER/LLM-Augmented-MTR} と \url{https://aistudio.baidu.com/projectdetail/7809548} で入手できる。

Motion prediction is among the most fundamental tasks in autonomous driving. Traditional methods of motion forecasting primarily encode vector information of maps and historical trajectory data of traffic participants, lacking a comprehensive understanding of overall traffic semantics, which in turn affects the performance of prediction tasks. In this paper, we utilized Large Language Models (LLMs) to enhance the global traffic context understanding for motion prediction tasks. We first conducted systematic prompt engineering, visualizing complex traffic environments and historical trajectory information of traffic participants into image prompts -- Transportation Context Map (TC-Map), accompanied by corresponding text prompts. Through this approach, we obtained rich traffic context information from the LLM. By integrating this information into the motion prediction model, we demonstrate that such context can enhance the accuracy of motion predictions. Furthermore, considering the cost associated with LLMs, we propose a cost-effective deployment strategy: enhancing the accuracy of motion prediction tasks at scale with 0.7\% LLM-augmented datasets. Our research offers valuable insights into enhancing the understanding of traffic scenes of LLMs and the motion prediction performance of autonomous driving. The source code is available at \url{https://github.com/AIR-DISCOVER/LLM-Augmented-MTR} and \url{https://aistudio.baidu.com/projectdetail/7809548}.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 意味的潜在拡散モデルを用いた制御可能な顔合成

Controllable Face Synthesis with Semantic Latent Diffusion Models ( http://arxiv.org/abs/2403.12743v2 )

ライセンス: Link先を確認
Alex Ergasti, Claudio Ferrari, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati, (参考訳) セマンティック画像合成(SIS)は、優れた生成品質と汎用性によって、顔生成と編集の分野で最も人気があり、効果的な技術である。 最近の研究は、標準のGANベースのフレームワークを超えようと試み、品質と多様性の両面において、GANに対して際立った点から、このタスクのために拡散モデル(DM)を探求し始めた。 一方,DMは微粒化制御性や再現性に欠けていた。 そこで本研究では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。 提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。 これは最先端の従来の方法では不可能だった。 最後に、我々のモデルは、定性的かつ定量的に、現在の最先端技術を上回ることを証明するために、広範な実験を行った。

Semantic Image Synthesis (SIS) is among the most popular and effective techniques in the field of face generation and editing, thanks to its good generation quality and the versatility is brings along. Recent works attempted to go beyond the standard GAN-based framework, and started to explore Diffusion Models (DMs) for this task as these stand out with respect to GANs in terms of both quality and diversity. On the other hand, DMs lack in fine-grained controllability and reproducibility. To address that, in this paper we propose a SIS framework based on a novel Latent Diffusion Model architecture for human face generation and editing that is both able to reproduce and manipulate a real reference image and generate diversity-driven results. The proposed system utilizes both SPADE normalization and cross-attention layers to merge shape and style information and, by doing so, allows for a precise control over each of the semantic parts of the human face. This was not possible with previous methods in the state of the art. Finally, we performed an extensive set of experiments to prove that our model surpasses current state of the art, both qualitatively and quantitatively.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# Fast-Poly:3Dマルチオブジェクト追跡のための高速多面的フレームワーク

Fast-Poly: A Fast Polyhedral Framework For 3D Multi-Object Tracking ( http://arxiv.org/abs/2403.13443v2 )

ライセンス: Link先を確認
Xiaoyu Li, Dedong Liu, Yitao Wu, Xian Wu, Lijun Zhao, Jinghan Gao, (参考訳) 3D Multi-Object Tracking (MOT)は、ロボット知覚に不可欠な、周囲の障害物の安定かつ包括的な運動状態をキャプチャする。 しかし、現在の3Dトラッカーは精度とレイテンシの一貫性の問題に直面している。 本稿では,高速かつ効率的な3次元MOTフィルタ手法であるFast-Polyを提案する。 これまでのPoly-MOTに基づいて、Fast-Polyは3次元空間における物体の回転異方性に対処し、局所的な計算密度を高め、並列化技術を活用し、推論速度と精度を向上させる。 Fast-PolyはPythonを実装した2つの大規模トラッキングベンチマークで広くテストされている。 nuScenesデータセットでは、Fast-Polyは75.8%のAMOTAで新しい最先端のパフォーマンスを実現し、パーソナルCPU上で34.2FPSで実行できる。 Waymoデータセットでは、Fast-Polyは63.6%のMOTAと印象的な推論速度(35.5 FPS)で競合精度を示す。 ソースコードはhttps://github.com/lixiaoyu2000/FastPolyで公開されている。

3D Multi-Object Tracking (MOT) captures stable and comprehensive motion states of surrounding obstacles, essential for robotic perception. However, current 3D trackers face issues with accuracy and latency consistency. In this paper, we propose Fast-Poly, a fast and effective filter-based method for 3D MOT. Building upon our previous work Poly-MOT, Fast-Poly addresses object rotational anisotropy in 3D space, enhances local computation densification, and leverages parallelization technique, improving inference speed and precision. Fast-Poly is extensively tested on two large-scale tracking benchmarks with Python implementation. On the nuScenes dataset, Fast-Poly achieves new state-of-the-art performance with 75.8% AMOTA among all methods and can run at 34.2 FPS on a personal CPU. On the Waymo dataset, Fast-Poly exhibits competitive accuracy with 63.6% MOTA and impressive inference speed (35.5 FPS). The source code is publicly available at https://github.com/lixiaoyu2000/FastPoly.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# Zero123-6D: RGBカテゴリーレベルの6次元空間推定のためのゼロショット新規ビュー合成

Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation ( http://arxiv.org/abs/2403.14279v2 )

ライセンス: Link先を確認
Francesco Di Felice, Alberto Remus, Stefano Gasperini, Benjamin Busam, Lionel Ott, Federico Tombari, Roland Siegwart, Carlo Alberto Avizzano, (参考訳) ロボットプラットフォームが環境と対話するためには、視覚を通して物体のポーズを推定することが不可欠である。 しかし、多くの課題があり、しばしば最先端のソリューションの柔軟性と一般化性の欠如に関連している。 拡散モデルは、2Dおよび3Dコンピュータビジョンを変換する最先端のニューラルネットワークであり、ゼロショットノベルビュー合成における顕著なパフォーマンスを概説している。 このようなユースケースは、特に3Dオブジェクトの再構築に興味深い。 しかし、非構造化環境における物体の局所化は、かなり未解明である。 この目的のために,Zero123-6Dは,RGB 6Dのポーズ推定をカテゴリレベルで向上するための拡散モデルに基づく新規ビュー合成器の実用性を,特徴抽出技術と統合して実証する最初の試みである。 新規ビュー合成は、カテゴリー内幾何学的差異に対処するために、この研究で導入されたオンライン最適化手法によって洗練される粗いポーズを得ることができる。 このようにして、データ要求の低減、ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去、性能向上を示し、CO3Dデータセットの実験を通じて定量的に実証した。

Estimating the pose of objects through vision is essential to make robotic platforms interact with the environment. Yet, it presents many challenges, often related to the lack of flexibility and generalizability of state-of-the-art solutions. Diffusion models are a cutting-edge neural architecture transforming 2D and 3D computer vision, outlining remarkable performances in zero-shot novel-view synthesis. Such a use case is particularly intriguing for reconstructing 3D objects. However, localizing objects in unstructured environments is rather unexplored. To this end, this work presents Zero123-6D, the first work to demonstrate the utility of Diffusion Model-based novel-view-synthesizers in enhancing RGB 6D pose estimation at category-level, by integrating them with feature extraction techniques. Novel View Synthesis allows to obtain a coarse pose that is refined through an online optimization method introduced in this work to deal with intra-category geometric differences. In such a way, the outlined method shows reduction in data requirements, removal of the necessity of depth information in zero-shot category-level 6D pose estimation task, and increased performance, quantitatively demonstrated through experiments on the CO3D dataset.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# SceneX:大規模言語モデルによる手続き制御可能な大規模シーン生成

SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models ( http://arxiv.org/abs/2403.15698v2 )

ライセンス: Link先を確認
Mengqi Zhou, Yuxi Wang, Jun Hou, Chuanchen Luo, Zhaoxiang Zhang, Junran Peng, (参考訳) その大きな応用可能性のために、大規模なシーン生成は学術や産業で広く注目を集めている。 近年の研究では、望ましいシーンを作成し、有望な結果を得るために強力な生成モデルが採用されている。 しかし、これらの手法のほとんどは、産業パイプラインと互換性のない3Dプリミティブ(例えば、点雲や放射場)を使用してシーンを表現するため、学術研究と産業展開の間に大きなギャップが生じる。 PCG(Procedural Controllable Generation)は、スケーラブルで高品質な資産を作成するための効率的な手法であるが、ドメインの深い専門知識を必要とするため、一般ユーザにとって親しみやすいものではない。 これらの問題に対処するため,我々は,大規模言語モデル (LLM) を用いて手続き的モデリングを行う。 本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介し,本手法はPCGBenchとPCGPlannerの2つのコンポーネントから構成される。 前者は、アクセシブルな手続き資産と数千のハンドクラフトAPIドキュメントを含む。 後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。 私たちのSceneXは、繊細なレイアウトと幾何学的構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。 大規模なシーン生成と編集の制御が可能な手法として,資産配置や季節翻訳など,広範囲にわたる実験を行った。

Due to its great application potential, large-scale scene generation has drawn extensive attention in academia and industry. Recent research employs powerful generative models to create desired scenes and achieves promising results. However, most of these methods represent the scene using 3D primitives (e.g. point cloud or radiance field) incompatible with the industrial pipeline, which leads to a substantial gap between academic research and industrial deployment. Procedural Controllable Generation (PCG) is an efficient technique for creating scalable and high-quality assets, but it is unfriendly for ordinary users as it demands profound domain expertise. To address these issues, we resort to using the large language model (LLM) to drive the procedural modeling. In this paper, we introduce a large-scale scene generation framework, SceneX, which can automatically produce high-quality procedural models according to designers' textual descriptions.Specifically, the proposed method comprises two components, PCGBench and PCGPlanner. The former encompasses an extensive collection of accessible procedural assets and thousands of hand-craft API documents. The latter aims to generate executable actions for Blender to produce controllable and precise 3D assets guided by the user's instructions. Our SceneX can generate a city spanning 2.5 km times 2.5 km with delicate layout and geometric structures, drastically reducing the time cost from several weeks for professional PCG engineers to just a few hours for an ordinary user. Extensive experiments demonstrated the capability of our method in controllable large-scale scene generation and editing, including asset placement and season translation.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# latentSplat: 高速な一般化可能な3次元再構成のための変分ガウスの自動符号化

latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction ( http://arxiv.org/abs/2403.16292v2 )

ライセンス: Link先を確認
Christopher Wewer, Kevin Raj, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen, (参考訳) 本稿では,3次元潜在空間における意味ガウスの予測手法である latentSplat について述べる。 既存の一般化可能な3D再構成手法は、大きなシーンや解像度にスケールしないか、あるいは近接した入力ビューの補間に限定されている。 latentSplatは、レグレッションベースのアプローチとジェネレーティブアプローチの長所を組み合わせると同時に、利用可能な実ビデオデータに基づいて純粋にトレーニングされている。 本手法のコアは変分3次元ガウスであり, 3次元特徴ガウスからなる潜在空間における不確かさを効率的に符号化する表現である。 これらのガウシアンから、効率的なスプラッティングと高速で生成可能なデコーダによって、特定のインスタンスをサンプル化し、レンダリングすることができる。 latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。

We present latentSplat, a method to predict semantic Gaussians in a 3D latent space that can be splatted and decoded by a light-weight generative 2D architecture. Existing methods for generalizable 3D reconstruction either do not scale to large scenes and resolutions, or are limited to interpolation of close input views. latentSplat combines the strengths of regression-based and generative approaches while being trained purely on readily available real video data. The core of our method are variational 3D Gaussians, a representation that efficiently encodes varying uncertainty within a latent space consisting of 3D feature Gaussians. From these Gaussians, specific instances can be sampled and rendered via efficient splatting and a fast, generative decoder. We show that latentSplat outperforms previous works in reconstruction quality and generalization, while being fast and scalable to high-resolution data.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 条件変位ゲートを有するワイナ負性体積と非ガウスエンタングルの証明可能な下界

Certifiable Lower Bounds of Wigner Negativity Volume and Non-Gaussian Entanglement with Conditional Displacement Gates ( http://arxiv.org/abs/2403.16441v2 )

ライセンス: Link先を確認
Lin Htoo Zaw, (参考訳) 制御量子ビットが高品質な要素キャビティに分散結合された回路およびキャビティ量子力学装置では、キャビティ状態の特徴関数は条件変位(CD)ゲートで直接探査することができる。 本稿では,CDゲートとキュービットリードアウトのみを用いて,キャビティ間の非ガウス的絡み合いを認証する手法を提案する。 CDの証人は、ボシュナーの定理を、還元ウィグナー函数の定理と部分転置の定理という2つの負性の間の驚くべき関係に応用したことから生じる。 コンタングルド猫やフォトン置換された2モルド液胞のようないくつかの共通状態の非ガウス的絡み合いは、特性関数の4点まで測定することで検出できる。 さらに、証人の期待値は、ウィグナー負の体積と、部分的転位負の予想される絡み合いの幾何学的測度とを同時に下限とする。 どちらも非ガウス性および絡み合いの強いモノトンであるため、CD目撃者は空洞状態のトモグラフィーを必要とせず、これらのモノトンに関連する量に対して実験的にアクセス可能な下界を提供する。

In circuit and cavity quantum electrodynamics devices where control qubits are dispersively coupled to high-quality-factor cavities, characteristic functions of cavity states can be directly probed with conditional displacement (CD) gates. In this Letter, I propose a method to certify non-Gaussian entanglement between cavities using only CD gates and qubit readouts. The CD witness arises from an application of Bochner's theorem to a surprising connection between two negativities: that of the reduced Wigner function, and that of the partial transpose. Non-Gaussian entanglement of some common states, like entangled cats and photon-subtracted two-mode squeezed vacua, can be detected by measuring as few as four points of the characteristic function. Furthermore, the expectation value of the witness is a simultaneous lower bound to the Wigner negativity volume and a geometric measure of entanglement conjectured to be the partial transpose negativity. Both negativities are strong monotones of non-Gaussianity and entanglement, respectively, so the CD witness provides experimentally accessible lower bounds to quantities related to these monotones without the need for tomography on the cavity states.
翻訳日:2024-07-31 22:06:02 公開日:2024-07-30
# 量子化によるニューズベンダー問題の最適化

Quantum-Enhanced Simulation-Based Optimization for Newsvendor Problems ( http://arxiv.org/abs/2403.17389v3 )

ライセンス: Link先を確認
Monit Sharma, Hoong Chuin Lau, Rudy Raymond, (参考訳) シミュレーションに基づく最適化は確率的最適化問題を解決するために広く用いられている手法である。 本手法は,目的関数の期待値の最大化により最適解を同定することを目的とする。 しかし、計算複雑性のため、関数を直接的に評価することはできず、シミュレーションによって推定される。 古典モンテカルロシミュレーションと比較して量子振幅推定(QAE)の高効率化を図り、古典的なシミュレーションに基づく最適化をしばしば上回り、様々なシナリオにおいて顕著な性能向上をもたらす。 本研究では、シミュレーションに基づく最適化に量子拡張アルゴリズムを用い、NPハードであることが知られている古典的ニューズベンダー問題の変種を解くためにそれを適用する。 このような問題は、特にリスクや不確実性の下での在庫管理と調達最適化においてサプライチェーン管理のためのビルディングブロックを提供する。

Simulation-based optimization is a widely used method to solve stochastic optimization problems. This method aims to identify an optimal solution by maximizing the expected value of the objective function. However, due to its computational complexity, the function cannot be accurately evaluated directly, hence it is estimated through simulation. Exploiting the enhanced efficiency of Quantum Amplitude Estimation (QAE) compared to classical Monte Carlo simulation, it frequently outpaces classical simulation-based optimization, resulting in notable performance enhancements in various scenarios. In this work, we make use of a quantum-enhanced algorithm for simulation-based optimization and apply it to solve a variant of the classical Newsvendor problem which is known to be NP-hard. Such problems provide the building block for supply chain management, particularly in inventory management and procurement optimization under risks and uncertainty
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# チャーターポテンシャルにおける駆動原子を持つ最小のゴールドバッハ分割探索における量子優位性の実現

Achieving quantum advantage in a search for a minimal Goldbach partition with driven atoms in tailored potentials ( http://arxiv.org/abs/2404.00517v2 )

ライセンス: Link先を確認
Oleksandr V. Marchukov, Andrea Trombettoni, Giuseppe Mussardo, Maxim Olshanii, (参考訳) 有名なゴールドバッハ予想(英語版)(Goldbach conjecture)は、自然数$N$が2ドル以上であっても、$p$と$p'$の合計として書くことができ、$p \, , p'$はゴールドバッハ対(Goldbach pair)と呼ばれる。 本論では、偶数$N$が与えられたときの量子アナログプロトコルとして、いわゆる最小ゴールドバッハ分割$N=p+p'$と$p\equiv p_{\rm min}(N)$の存在を、いわゆる最小ゴールドバッハ素数である。 提案したプロトコルは、修正された最終段階を持つ量子グローバーアルゴリズムである。 p_{\rm min}(N)$ 以下の素数に対する近似滑らかな上界 $\mathcal{N}(N)$ が知られていると仮定すると、我々のプロトコルは、$\mathcal{N}(N)$最低素数の集合が、対応する古典的値 $\mathcal{N}(N)$ に対して、約$\sqrt{\mathcal{N}(N)}$ の最小ゴールドバッハ素数を含むかどうかを識別する。 ゴールドバッハ予想の違反を探索するより広い文脈において、我々のスキームによって提供される量子的優位性は潜在的に有用であると考えられる。 例えば、ゴールドバッハ予想の違反に関する現在最先端の数値的な探索は、すべての偶数の中で$N_{\text{max}} = 4\times 10^{18}$ [T. O. e Silva, S. Herzog, and S. Pardi, Mathematics of Computation 83, 2033 (2013)] にまで達し、探索の量子化は$\sqrt{\mathcal{N}(N_{\text{max}})} \approx 37$ の量子的優位因子を与え、$\mathcal{N}(N_{\text{max}}) \approx 1376$ の基底状態を持つヒルベルト空間を必要とする。

The famous Goldbach conjecture states that any even natural number $N$ greater than $2$ can be written as the sum of two prime numbers $p$ and $p'$, with $p \, , p'$ referred to as a Goldbach pair. In this article we present a quantum analogue protocol for detecting -- given a even number $N$ -- the existence of a so-called minimal Goldbach partition $N=p+p'$ with $p\equiv p_{\rm min}(N)$ being the so-called minimal Goldbach prime, i.e. the least possible value for $p$ among all the Goldbach pairs of $N$. The proposed protocol is effectively a quantum Grover algorithm with a modified final stage. Assuming that an approximate smooth upper bound $\mathcal{N}(N)$ for the number of primes less than or equal to $ p_{\rm min}(N)$ is known, our protocol will identify if the set of $\mathcal{N}(N)$ lowest primes contains the minimal Goldbach prime in approximately $\sqrt{\mathcal{N}(N)}$ steps, against the corresponding classical value $\mathcal{N}(N)$. In the larger context of a search for violations of Goldbach's conjecture, the quantum advantage provided by our scheme appears to be potentially convenient. E.g., referring to the current state-of-art numerical search for violations of the Goldbach conjecture among all even numbers up to $N_{\text{max}} = 4\times 10^{18}$ [T. O. e Silva, S. Herzog, and S. Pardi, Mathematics of Computation 83, 2033 (2013)], a quantum realization of the search would deliver a quantum advantage factor of $\sqrt{\mathcal{N}(N_{\text{max}})} \approx 37$ and it will require a Hilbert space spanning $\mathcal{N}(N_{\text{max}}) \approx 1376$ basis states.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# 無線ネットワークのためのロバストなフェデレーション学習:チャネル推定による実証

Robust Federated Learning for Wireless Networks: A Demonstration with Channel Estimation ( http://arxiv.org/abs/2404.03088v2 )

ライセンス: Link先を確認
Zexin Fang, Bin Han, Hans D. Schotten, (参考訳) フェデレートラーニング(FL)は、無線ネットワークにおけるトレーニングモデルに対して、プライバシー保護のための協調的なアプローチを提供する。 FLを用いたチャネル推定に関する広範な研究にもかかわらず、FLに関連するセキュリティ上の懸念は注意を要する。 小規模基地局(SBS)がキャッシュされたデータに基づいて訓練されたローカルモデルとして機能し、マクロ基地局(MBS)がグローバルモデル設定として機能するシナリオでは、攻撃者はFLの脆弱性を悪用し、様々な敵攻撃や展開戦術で攻撃を開始することができる。 本稿では,このような脆弱性を分析し,それに対応する解決策を提示し,シミュレーションにより検証した。

Federated learning (FL) offers a privacy-preserving collaborative approach for training models in wireless networks, with channel estimation emerging as a promising application. Despite extensive studies on FL-empowered channel estimation, the security concerns associated with FL require meticulous attention. In a scenario where small base stations (SBSs) serve as local models trained on cached data, and a macro base station (MBS) functions as the global model setting, an attacker can exploit the vulnerability of FL, launching attacks with various adversarial attacks or deployment tactics. In this paper, we analyze such vulnerabilities, corresponding solutions were brought forth, and validated through simulation.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# データ中心型自動研究開発に向けて

Towards Data-Centric Automatic R&D ( http://arxiv.org/abs/2404.11276v2 )

ライセンス: Link先を確認
Haotian Chen, Xinjie Shen, Zeqi Ye, Wenjun Feng, Haoxue Wang, Xiao Yang, Xu Yang, Weiqing Liu, Jiang Bian, (参考訳) 人類の進歩は、無数の実験を伴って成功した発見によって引き起こされる。 研究者はしばしば、本を読み、実験を通して検証することで、潜在的研究の方向性を求める。 このプロセスは研究者に多大な負担を課している。 過去10年間で、データ駆動のブラックボックス深層学習法は、研究者の実験的負担を悪化させ、潜在的に成功した発見をもたらす幅広い実世界のシナリオにおいて、その効果を実証してきた。 そのため、そのような研究開発プロセス(R&D)の自動化が急務である。 本稿では,実世界のデータ中心型自動R&Dベンチマーク,すなわちRD2Benchを提案することで,目標を定式化する最初の試みとして機能する。 RD2Benchは、データ中心の自動R&D(D-CARD)におけるすべての操作をベンチマークして、私たちのゴールに向けての今後の作業をナビゲートします。 我々は,様々なモデル能力の相互作用と相乗効果を評価することに集中し,信頼性の高いモデルを選択することを支援する。 RD2Bench は GPT-4 (State-of-the-art) と呼ばれる大規模言語モデル (LLM) に対して非常に困難であり、十分な研究機会とさらなる研究努力を示しているが、LLM は D-CARD にさらなる発展をもたらす有望な可能性を秘めている。 我々は、自動R&Dに取り組む技術開発を考慮に入れ、人間の生産性に革命的なアップグレードの可能性をもたらすことを、今後の課題にアピールする。

The progress of humanity is driven by those successful discoveries accompanied by countless failed experiments. Researchers often seek the potential research directions by reading and then verifying them through experiments. The process imposes a significant burden on researchers. In the past decade, the data-driven black-box deep learning method has demonstrated its effectiveness in a wide range of real-world scenarios, which exacerbates the experimental burden of researchers and thus renders the potential successful discoveries veiled. Therefore, automating such a research and development (R&D) process is an urgent need. In this paper, we serve as the first effort to formalize the goal by proposing a Real-world Data-centric automatic R&D Benchmark, namely RD2Bench. RD2Bench benchmarks all the operations in data-centric automatic R&D (D-CARD) as a whole to navigate future work toward our goal directly. We focus on evaluating the interaction and synergistic effects of various model capabilities and aiding in selecting well-performing trustworthy models. Although RD2Bench is very challenging to the state-of-the-art (SOTA) large language model (LLM) named GPT-4, indicating ample research opportunities and more research efforts, LLMs possess promising potential to bring more significant development to D-CARD: They are able to implement some simple methods without adopting any additional techniques. We appeal to future work to take developing techniques for tackling automatic R&D into consideration, thus bringing the opportunities of the potential revolutionary upgrade to human productivity.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# パーキンソン病における線条体ドパミントランスポーター取り込みのMRIによる評価

A Symmetric Regressor for MRI-Based Assessment of Striatal Dopamine Transporter Uptake in Parkinson's Disease ( http://arxiv.org/abs/2404.11929v2 )

ライセンス: Link先を確認
Walid Abdullah Al, Il Dong Yun, Yun Jung Bae, (参考訳) ドパミントランスポーター(DAT)イメージングはパーキンソン病(PD)のモニタリングに一般的に用いられ、DAT取り込み量を計算してPD重症度を評価する。 しかし,DAT画像は放射線曝露のリスクが高く,一般的な診療所では利用できない。 近年,ニコラル領域のMRIパッチはより安全で簡便な代替手段として提案されている。 本稿では,MRI パッチからの DAT 取り込み量を予測する対称回帰器を提案する。 提案した回帰器は,左右のニグラーの対称性を認め,左右のストリータのDAT取り込み量を同時に予測するペア入力出力モデルを備えている。 さらに、左右の予測の差に制約を課す対称的な損失も採用しており、これは両側のDAT取り込み量の高い相関に類似している。 さらに, 上記の対称性を利用した DAT 取り込み予測の有意な不確実性推定を行うための, 対称モンテカルロ(MC)ドロップアウト手法を提案する。 提案手法を734 nigral patchで評価し,標準回帰器と比較して対称回帰器の性能が有意に向上し,説明性や特徴表現性が向上した。 対称MCの落差は、その範囲内に真のDAT取り込み量を含む確率の高い正確な不確かさ範囲も与えた。

Dopamine transporter (DAT) imaging is commonly used for monitoring Parkinson's disease (PD), where striatal DAT uptake amount is computed to assess PD severity. However, DAT imaging has a high cost and the risk of radiance exposure and is not available in general clinics. Recently, MRI patch of the nigral region has been proposed as a safer and easier alternative. This paper proposes a symmetric regressor for predicting the DAT uptake amount from the nigral MRI patch. Acknowledging the symmetry between the right and left nigrae, the proposed regressor incorporates a paired input-output model that simultaneously predicts the DAT uptake amounts for both the right and left striata. Moreover, it employs a symmetric loss that imposes a constraint on the difference between right-to-left predictions, resembling the high correlation in DAT uptake amounts in the two lateral sides. Additionally, we propose a symmetric Monte-Carlo (MC) dropout method for providing a fruitful uncertainty estimate of the DAT uptake prediction, which utilizes the above symmetry. We evaluated the proposed approach on 734 nigral patches, which demonstrated significantly improved performance of the symmetric regressor compared with the standard regressors while giving better explainability and feature representation. The symmetric MC dropout also gave precise uncertainty ranges with a high probability of including the true DAT uptake amounts within the range.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# CT-ADE : 臨床試験結果からの逆薬物事象予測のための評価基準

CT-ADE: An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results ( http://arxiv.org/abs/2404.12827v2 )

ライセンス: Link先を確認
Anthony Yazdani, Alban Bornet, Philipp Khlebnikov, Boya Zhang, Hossein Rouhizadeh, Poorya Amini, Douglas Teodoro, (参考訳) 副作用薬物イベント(ADE)は臨床研究に大きな影響を与え、多くの臨床試験失敗を引き起こした。 ADE予測は、より安全な薬を開発し、患者の結果を高めるための鍵である。 この取り組みを支援するために,単薬理治療におけるADEのマルチラベル予測モデルであるCT-ADEを導入する。 CT-ADEは、臨床試験から抽出された168,984種類の薬物とADEのペアを包含する2,497種類のユニークな薬物のデータを統合し、患者および文脈情報と共に注釈付けし、MedDRAオントロジーの複数のレベルにわたって標準化されたADE概念を包含する。 大規模言語モデル(LLM)による予備分析では、F1スコアは最大55.90%に達した。 患者情報と文脈情報を用いたモデルでは, 化学構造データのみを用いたモデルよりもF1スコアが21%-38%向上した。 本研究は, ADEの予測モデルにおける対象個体数と治療体制の重要性を強調し, LLM領域の特殊化やスケーリングよりも高い性能向上を実現している。 CT-ADEは、人工知能と機械学習を活用して患者の安全性を高め、ADEsが医薬品の研究と開発に与える影響を最小限にすることを目的とした、研究者にとって不可欠なツールを提供する。 データセットはhttps://github.com/ds4dh/CT-ADEで公開されている。

Adverse drug events (ADEs) significantly impact clinical research, causing many clinical trial failures. ADE prediction is key for developing safer medications and enhancing patient outcomes. To support this effort, we introduce CT-ADE, a dataset for multilabel predictive modeling of ADEs in monopharmacy treatments. CT-ADE integrates data from 2,497 unique drugs, encompassing 168,984 drug-ADE pairs extracted from clinical trials, annotated with patient and contextual information, and comprehensive ADE concepts standardized across multiple levels of the MedDRA ontology. Preliminary analyses with large language models (LLMs) achieved F1-scores up to 55.90%. Models using patient and contextual information showed F1-score improvements of 21%-38% over models using only chemical structure data. Our results highlight the importance of target population and treatment regimens in the predictive modeling of ADEs, offering greater performance gains than LLM domain specialization and scaling. CT-ADE provides an essential tool for researchers aiming to leverage artificial intelligence and machine learning to enhance patient safety and minimize the impact of ADEs on pharmaceutical research and development. The dataset is publicly accessible at https://github.com/ds4dh/CT-ADE.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# Quantum Annealing: 横フィールドイジングモデルのダイナミクスをシミュレーションするためのJulia Package

QuantumAnnealing: A Julia Package for Simulating Dynamics of Transverse Field Ising Models ( http://arxiv.org/abs/2404.14501v2 )

ライセンス: Link先を確認
Zachary Morrell, Marc Vuffray, Sidhant Misra, Carleton Coffrin, (参考訳) アナログ量子コンピュータ(Analog Quantum Computers)は、量子材料のモデリング、最適化問題に対する高速ヒューリスティックなソリューションの提供、量子システムのシミュレーションなど、アプリケーションのパフォーマンスを改善するための有望なツールである。 動的量子システムのシミュレーションの課題のため、これらのデバイスの振る舞いをモデル化し、それらの性能を検証するための古典的なツールが比較的少ない。 QuantumAnnealing.jlは、アナログ量子コンピュータを古典的なハードウェア上でシミュレーションするためのツールキットを提供する。 このパッケージには、Transverse Field Ising Modelの時間進化のシミュレーション、実際のアニールハードウェアで使用されるアニールスケジュールの複製、カスタムアニールスケジュールの実装などが含まれる。 これにより、興味深い振る舞いを示すと期待されるモデルの高速なプロトタイピング、量子デバイスの性能検証、量子デバイスが期待する振る舞いと小さなシステムに対する古典的なアプローチとの簡単な比較が可能になる。 このソフトウェアはオープンソースとして提供されており、Juliaのパッケージレジストリシステムを通じて利用できる。

Analog Quantum Computers are promising tools for improving performance on applications such as modeling behavior of quantum materials, providing fast heuristic solutions to optimization problems, and simulating quantum systems. Due to the challenges of simulating dynamic quantum systems, there are relatively few classical tools for modeling the behavior of these devices and verifying their performance. QuantumAnnealing.jl provides a toolkit for performing simulations of Analog Quantum Computers on classical hardware. This package includes functionality for simulation of the time evolution of the Transverse Field Ising Model, replicating annealing schedules used by real world annealing hardware, implementing custom annealing schedules, and more. This allows for rapid prototyping of models expected to display interesting behavior, verification of the performance of quantum devices, and easy comparison against the expected behavior of quantum devices against classical approaches for small systems. The software is provided as open-source and is available through Julia's package registry system.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# 模擬学習方法, 環境, メトリクスに関する調査

A Survey of Imitation Learning Methods, Environments and Metrics ( http://arxiv.org/abs/2404.19456v2 )

ライセンス: Link先を確認
Nathan Gavenski, Felipe Meneguzzi, Michael Luck, Odinaldo Rodrigues, (参考訳) イミテーション・ラーニング(Imitation Learning)とは、エージェントが1人以上の教師のやり方を真似てタスクを実行する方法を学ぶアプローチである。 この学習アプローチは、新しいタスクを学ぶのに要する時間と、エージェントの教師のサンプルを集めるのに必要な労力の間に妥協をもたらす。 教師からの学習のバランスをとり、そのタスクの実行方法に関する情報を持ち、必要に応じてサンプルから逸脱する。 結果として、模倣学習の分野は近年、研究者から多くの注目を集め、多くの新しい手法や応用がもたらされた。 しかし、出版作業の増加と方法論を中心とした過去の調査により、この分野では標準化の欠如が顕著になった。 この非標準化は、2つの作品にしか現れない環境の使用において明らかであり、また、定性的分析のような評価過程は、現在の文献では稀である。 本調査では,現在の模倣学習文献を体系的にレビューし,その結果を提示する。 一 新たな分類法を導入して模擬学習の技法、環境及び計量を分類すること。 二 文学の主な問題点を反映したもの、及び 三 研究者に課題及び今後の方向性を提示すること。

Imitation learning is an approach in which an agent learns how to execute a task by trying to mimic how one or more teachers perform it. This learning approach offers a compromise between the time it takes to learn a new task and the effort needed to collect teacher samples for the agent. It achieves this by balancing learning from the teacher, who has some information on how to perform the task, and deviating from their examples when necessary, such as states not present in the teacher samples. Consequently, the field of imitation learning has received much attention from researchers in recent years, resulting in many new methods and applications. However, with this increase in published work and past surveys focusing mainly on methodology, a lack of standardisation became more prominent in the field. This non-standardisation is evident in the use of environments, which appear in no more than two works, and evaluation processes, such as qualitative analysis, that have become rare in current literature. In this survey, we systematically review current imitation learning literature and present our findings by (i) classifying imitation learning techniques, environments and metrics by introducing novel taxonomies; (ii) reflecting on main problems from the literature; and (iii) presenting challenges and future directions for researchers.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# 複数のクナップサック問題を解くための量子緩和

Quantum Relaxation for Solving Multiple Knapsack Problems ( http://arxiv.org/abs/2404.19474v2 )

ライセンス: Link先を確認
Monit Sharma, Yan Jin, Hoong Chuin Lau, Rudy Raymond, (参考訳) 組合せ問題はビジネスにおいて共通の課題であり、特定の制約の下で最適なソリューションを見つける必要がある。 QAOAのような変分的アプローチでは大きな進歩があったが、ほとんどの問題は制約がない(Max-Cutなど)。 本研究では,制約付き最適化問題,特に金融・サプライチェーンアプリケーションで頻繁に発生するknapsack制約に対するハイブリッド量子古典法について検討する。 提案手法は、可換写像によって定義される局所量子ハミルトンへの緩和に第一に依存する。 量子ランダムアクセスコード(QRAC)の概念、特に量子ランダムアクセス最適化(QRAO)からインスピレーションを得て、大きな制約付き最適化問題の解決におけるQRAOの可能性を探る。 制約に対処し、スケーラビリティにさらに対処するための事前解決メカニズムとして、線形緩和のような古典的なテクニックを採用しています。 提案手法をQAOAと比較し,実世界の調達最適化問題の最終的な結果を示す。

Combinatorial problems are a common challenge in business, requiring finding optimal solutions under specified constraints. While significant progress has been made with variational approaches such as QAOA, most problems addressed are unconstrained (such as Max-Cut). In this study, we investigate a hybrid quantum-classical method for constrained optimization problems, particularly those with knapsack constraints that occur frequently in financial and supply chain applications. Our proposed method relies firstly on relaxations to local quantum Hamiltonians, defined through commutative maps. Drawing inspiration from quantum random access code (QRAC) concepts, particularly Quantum Random Access Optimizer (QRAO), we explore QRAO's potential in solving large constrained optimization problems. We employ classical techniques like Linear Relaxation as a presolve mechanism to handle constraints and cope further with scalability. We compare our approach with QAOA and present the final results for a real-world procurement optimization problem: a significant sized multi-knapsack-constrained problem.
翻訳日:2024-07-31 21:55:07 公開日:2024-07-30
# 光のブラックホールはない

No black holes from light ( http://arxiv.org/abs/2405.02389v2 )

ライセンス: Link先を確認
Álvaro Álvarez-Domínguez, Luis J. Garay, Eduardo Martín-Martínez, José Polo-Gómez, (参考訳) 我々は、事象の地平線の形成を早めるのに十分な光を集中することは不可能であることを示す。 光の自己相互作用(真空分極など)から生じる散逸的な量子効果は、あらゆる現実的なシナリオにおいてブラックホールを生み出すようなエネルギーの有意義な蓄積を防ぐのに十分である、と我々は論じる。

We show that it is not possible to concentrate enough light to precipitate the formation of an event horizon. We argue that the dissipative quantum effects coming from the self-interaction of light (such as vacuum polarization) are enough to prevent any meaningful buildup of energy that could create a black hole in any realistic scenario.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# 温度Rydberg原子を用いた4次振幅変調受信機

A warm Rydberg atom-based quadrature amplitude-modulated receiver ( http://arxiv.org/abs/2405.02901v2 )

ライセンス: Link先を確認
Jan Nowosielski, Marcin Jastrzębski, Pavel Halavach, Karol Łukanowski, Marcin Jarzyna, Mateusz Mazelanik, Wojciech Wasilewski, Michał Parniak, (参考訳) ライドバーグ原子は電磁場に対する顕著な感度を示し、磁場センサの革命の候補となる。 従来のアンテナとは異なり、測定されたフィールドを妨害したり、複雑なキャリブレーション手順を必要としない。 本研究では, 2.4GHz帯のWi-Fi周波数帯域近傍における信号受信プロトコルを提案する。 我々はヘテロダイン検出による4次振幅変調と伝送周波数の探索に重点を置いている。 我々は、原子応答周波数範囲と到達可能な電場振幅を包含して、設定の包括的特徴を提供する。 さらに,ボロノイ図を用いて通信エラーを分析し,異なる変調方式による通信路容量の評価を行った。 我々の発見は、将来の無線通信アプリケーションの基礎となるだけでなく、古典的な通信やフィールドセンシング領域におけるプロトコルを洗練させる機会も与えている。

Rydberg atoms exhibit remarkable sensitivity to electromagnetic fields, making them promising candidates for revolutionizing field sensors. Unlike conventional antennas, they neither disturb the measured field nor necessitate intricate calibration procedures. In this study, we propose a protocol for signal reception near the 2.4 GHz Wi-Fi frequency band, harnessing the capabilities of warm Rydberg atoms. Our focus lies on exploring various quadrature amplitude modulations and transmission frequencies through heterodyne detection. We offer a comprehensive characterization of our setup, encompassing the atomic response frequency range and attainable electric field amplitudes. Additionally, we delve into analyzing communication errors using Voronoi diagrams, along with evaluating the communication channel capacity across different modulation schemes. Our findings not only lay the groundwork for future wireless communication applications, but also present opportunities to refine protocols in classical communication and field sensing domains.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# 民主化のためのエージェントとしての大規模言語モデル(LLM)

Large Language Models (LLMs) as Agents for Augmented Democracy ( http://arxiv.org/abs/2405.03452v3 )

ライセンス: Link先を確認
Jairo Gudiño-Rosero, Umberto Grandi, César A. Hidalgo, (参考訳) 我々は、2022年ブラジル大統領選挙の2大候補の政府プログラムから抽出された政策について、市民の嗜好に関するデータを増やすために、既成のLLMを微調整した拡張民主主義システムについて検討する。 被験者の個別の政治的選択と参加者の全サンプルの集合的選好の両方をLLMが予測する精度を推定するために、列車試験のクロスバリデーション・セットアップを使用する。 個人レベルでは、LLMは「バンドルルール」よりもサンプルの選好からより正確に予測できることが分かり、市民は常に、自己報告された政治的指向に沿った候補者の提案に投票するであろうと仮定する。 人口レベルでは, LLMにより増強された確率的標本は, 人口の集合的嗜好を, 増大しない確率的標本単独よりも正確に推定できることが示されている。 これらの結果から, LLMを用いた政策選好データにより, パーティーラインを超越したニュアンスを捕捉し, データの増大に向けた将来的な研究の道筋を示すことが示唆された。

We explore an augmented democracy system built on off-the-shelf LLMs fine-tuned to augment data on citizen's preferences elicited over policies extracted from the government programs of the two main candidates of Brazil's 2022 presidential election. We use a train-test cross-validation setup to estimate the accuracy with which the LLMs predict both: a subject's individual political choices and the aggregate preferences of the full sample of participants. At the individual level, we find that LLMs predict out of sample preferences more accurately than a "bundle rule", which would assume that citizens always vote for the proposals of the candidate aligned with their self-reported political orientation. At the population level, we show that a probabilistic sample augmented by an LLM provides a more accurate estimate of the aggregate preferences of a population than the non-augmented probabilistic sample alone. Together, these results indicates that policy preference data augmented using LLMs can capture nuances that transcend party lines and represents a promising avenue of research for data augmentation.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# 高速・ランダムな画像縫合のための局所ピークスケール不変特徴変換

Local-peak scale-invariant feature transform for fast and random image stitching ( http://arxiv.org/abs/2405.08578v2 )

ライセンス: Link先を確認
Hao Li, Lipo Wang, Tianyun Zhao, Wei Zhao, (参考訳) 画像縫合は空間分解能の高い広い視野を構築することを目的としており、単一の露光では達成できない。 一般的に、ディープラーニング以外の従来の画像縫合技術は複雑な計算を必要とするため、特に大きな原画像の縫合には計算コストがかかる。 本研究では,流体乱流のマルチスケール特徴に着想を得て,マルチスケール局所ピークとスケール不変特徴変換に基づく局所ピークスケール不変特徴変換 (LP-SIFT) と呼ばれる高速特徴点検出アルゴリズムを開発した。 画像縫合におけるLP-SIFTとRANSACを組み合わせることにより、元のSIFT法と比較して縫合速度をオーダーで改善することができる。 9つの大きな画像(2600*1600ピクセル以上)は、事前の知識なしにランダムに配置され、158.94秒以内で縫合できる。 このアルゴリズムは、様々なアプリケーションシーン、例えば地形図、生物学的解析、さらには犯罪捜査において広い視野を必要とするアプリケーションに対して非常に実用的なものである。

Image stitching aims to construct a wide field of view with high spatial resolution, which cannot be achieved in a single exposure. Typically, conventional image stitching techniques, other than deep learning, require complex computation and thus computational pricy, especially for stitching large raw images. In this study, inspired by the multiscale feature of fluid turbulence, we developed a fast feature point detection algorithm named local-peak scale-invariant feature transform (LP-SIFT), based on the multiscale local peaks and scale-invariant feature transform method. By combining LP-SIFT and RANSAC in image stitching, the stitching speed can be improved by orders, compared with the original SIFT method. Nine large images (over 2600*1600 pixels), arranged randomly without prior knowledge, can be stitched within 158.94 s. The algorithm is highly practical for applications requiring a wide field of view in diverse application scenes, e.g., terrain mapping, biological analysis, and even criminal investigation.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# Transformer-based sequence model を用いた眼疾患予後診断における経時的医用画像撮影の有用性

Harnessing the power of longitudinal medical imaging for eye disease prognosis using Transformer-based sequence modeling ( http://arxiv.org/abs/2405.08780v2 )

ライセンス: Link先を確認
Gregory Holste, Mingquan Lin, Ruiwen Zhou, Fei Wang, Lei Liu, Qi Yan, Sarah H. Van Tassel, Kyle Kovacs, Emily Y. Chew, Zhiyong Lu, Zhangyang Wang, Yifan Peng, (参考訳) 深層学習は、医用画像による自動診断のブレークスルーを可能にし、眼科に多くの応用が成功している。 しかし, 標準的な医用画像分類手法は, 経時的画像診断の一般的な臨床設定を無視して, 取得時点での疾患の存在を評価するのみである。 加齢に伴う黄斑変性 (AMD) や原発性開放隅角緑内障 (POAG) などの遅発性眼疾患に対して, 経時的に経過観察を行い, 発症リスクを予測し, 治療計画を立てることが重要である。 本研究は,長期的・不規則な期間に撮影された根底画像の時系列画像から,縦断的医用画像からの動的疾患予後をモデル化する。 Age-Related Eye Disease Study (AREDS) およびOcular Hypertension Treatment Study (OHTS) の経時的画像データを用いて, LTSAは, 後期AMD予後19/20例, POAG予後18/20例において, 単像ベースラインよりも有意に優れていた。 時間的注意分析により、最新の画像は典型的には最も影響力のあるものであるが、以前の画像は追加の予後価値をもたらすことが示唆された。

Deep learning has enabled breakthroughs in automated diagnosis from medical imaging, with many successful applications in ophthalmology. However, standard medical image classification approaches only assess disease presence at the time of acquisition, neglecting the common clinical setting of longitudinal imaging. For slow, progressive eye diseases like age-related macular degeneration (AMD) and primary open-angle glaucoma (POAG), patients undergo repeated imaging over time to track disease progression and forecasting the future risk of developing disease is critical to properly plan treatment. Our proposed Longitudinal Transformer for Survival Analysis (LTSA) enables dynamic disease prognosis from longitudinal medical imaging, modeling the time to disease from sequences of fundus photography images captured over long, irregular time periods. Using longitudinal imaging data from the Age-Related Eye Disease Study (AREDS) and Ocular Hypertension Treatment Study (OHTS), LTSA significantly outperformed a single-image baseline in 19/20 head-to-head comparisons on late AMD prognosis and 18/20 comparisons on POAG prognosis. A temporal attention analysis also suggested that, while the most recent image is typically the most influential, prior imaging still provides additional prognostic value.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# ECATS: 記述可能な概念に基づく時系列の異常検出

ECATS: Explainable-by-design concept-based anomaly detection for time series ( http://arxiv.org/abs/2405.10608v2 )

ライセンス: Link先を確認
Irene Ferfoglia, Gaia Saveri, Laura Nenzi, Luca Bortolussi, (参考訳) 時系列の深層学習手法は、異常検出を含む予測タスクと分類タスクの両方において、すでに優れた性能を達成している。 しかし、CPS(Cyber Physical Systems)に固有の複雑さは、説明可能性の方法に関して問題を引き起こす。 このような解釈可能性の欠如を克服するために,概念をSTL(Signal Temporal Logic)公式として表現する概念に基づくニューロシンボリックアーキテクチャであるECATSを提案する。 STLのためのカーネルベースの手法を利用することで、概念埋め込みはクロスアテンション機構を通じて教師なしの方法で学習される。 このネットワークは、これらの概念の埋め込みを通じてクラス予測を行い、各入力に対して意味のある説明を自然に抽出することができる。 簡単なCPSベースのデータセットを用いて予備実験を行った結果,局所的な解釈性を確保しつつ,優れた分類性能が得られることがわかった。

Deep learning methods for time series have already reached excellent performances in both prediction and classification tasks, including anomaly detection. However, the complexity inherent in Cyber Physical Systems (CPS) creates a challenge when it comes to explainability methods. To overcome this inherent lack of interpretability, we propose ECATS, a concept-based neuro-symbolic architecture where concepts are represented as Signal Temporal Logic (STL) formulae. Leveraging kernel-based methods for STL, concept embeddings are learnt in an unsupervised manner through a cross-attention mechanism. The network makes class predictions through these concept embeddings, allowing for a meaningful explanation to be naturally extracted for each input. Our preliminary experiments with a simple CPS-based dataset show that our model is able to achieve great classification performance while ensuring local interpretability.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# DualTime: 時系列表現のためのデュアル適応型マルチモーダル言語モデル

DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation ( http://arxiv.org/abs/2406.06620v2 )

ライセンス: Link先を確認
Weiqi Zhang, Jiexia Ye, Ziyue Li, Jia Li, Fugee Tsung, (参考訳) 近年の言語モデル(LM)の急速な発展は、マルチモーダル時系列モデリングを含む時系列の分野において注目を集めている。 しかし、現在の時系列マルチモーダル法は偏りがあり、しばしば1つのモダリティに主役を割り当て、他方が二次役を仮定する。 彼らは異なるモダリティの相互利益と相補性を見落としている。 例えば、発作診断においては、テキストの臨床報告のみに頼って疾患の部位やタイプを特定することは困難であるが、脳電図(EEG)だけでは症状を考慮せずに正確な診断を行うことはできない。 本研究では,時系列マルチモーダルデータの補完的情報マイニングに基づく時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。 軽量適応トークンを注入することにより、デュアルアダプタで共有されるLMパイプラインは、埋め込みアライメントを促進し、効率的な微調整を実現する。 提案手法は,教師付き設定と教師なし設定の両方において最先端モデルよりも優れており,異なるモダリティの相補的利点が顕著である。 さらに,提案したDualTimeの転送性や表現性を検証した,数発のラベル転送実験を行った。

The recent rapid development of language models (LMs) has attracted attention in the field of time series, including multimodal time series modeling. However, we note that current time series multimodal methods are biased, often assigning a primary role to one modality while the other assumes a secondary role. They overlook the mutual benefits and complementary of different modalities. For example, in seizure diagnosis, relying solely on textual clinical reports makes it difficult to pinpoint the area and type of the disease, while electroencephalograms (EEGs) alone cannot provide an accurate diagnosis without considering the symptoms. In this study, based on the complementary information mining of time series multimodal data, we propose DualTime, a Dual-adapter multimodal language model for Time series representation implementing temporal-primary and textual-primary modeling simultaneously. By injecting lightweight adaption tokens, the LM pipeline shared by dual adapters encourages embedding alignment and achieves efficient fine-tuning. Empirically, our method outperforms state-of-the-art models in both supervised and unsupervised settings, highlighting the complementary benefits of different modalities. In addition, we conduct few-shot label transfer experiments, which further verifies the transferability and expressiveness of our proposed DualTime.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# 目が広いアンシャット:予測不能な迷路を検出することで、自己中心型プロシージャビデオにおける教師なしの誤検出

Eyes Wide Unshut: Unsupervised Mistake Detection in Egocentric Procedural Video by Detecting Unpredictable Gaze ( http://arxiv.org/abs/2406.08379v3 )

ライセンス: Link先を確認
Michele Mazzamuto, Antonino Furnari, Giovanni Maria Farinella, (参考訳) 本稿では,視線信号の解析による自己中心型手続きビデオにおける教師なし誤り検出の課題に対処する。 従来の教師付きミス検出手法は手動でラベル付けされたミスに依存しており、ドメイン依存性やスケーラビリティの問題に悩まされている。 本研究では,人間活動のビデオにおける誤り検出の教師なし手法を導入し,ドメイン固有要件の課題と注釈付きデータの必要性を克服する。 対象が手順の実行時に誤りを犯している場合、その注意パターンは正常性から逸脱する、と仮定する。 そこで我々は,入力ビデオから予測される視線軌跡と,視線追跡装置から収集した地中真相視線信号とを比較し,誤りを検出することを提案する。 映像における視線予測は不確実性が高いのが特徴であるため,視覚的視線と部分的な視線軌跡から視線を予測することを目的とした,新しい「textit{gaze completion task」を提案する。 視線情報と各局所的視覚トークンの相関関係を明示的にモデル化するために,Gaze-Frame correlationモジュールをベースとした‘textit{gaze completion approach’ も提案する。 予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。 EPIC-Tent, HoloAssist, IndustRealの各データセットの実験では, 教師なし, ワンクラスの手法と比較して, 提案手法の有効性が示された。 本手法はHoloAssist Mistake Detection Challengeで第1位にランクされている。

In this paper, we address the challenge of unsupervised mistake detection in egocentric procedural video through the analysis of gaze signals. Traditional supervised mistake detection methods rely on manually labeled mistakes, and hence suffer from domain-dependence and scalability issues. We introduce an unsupervised method for detecting mistakes in videos of human activities, overcoming the challenges of domain-specific requirements and the need for annotated data. We postulate that, when a subject is making a mistake in the execution of a procedure, their attention patterns will deviate from normality. We hence propose to detect mistakes by comparing gaze trajectories predicted from input video with ground truth gaze signals collected through a gaze tracker. Since predicting gaze in video is characterized by high uncertainty, we propose a novel \textit{gaze completion task}, which aims to predict gaze from visual observations and partial gaze trajectories. We further contribute a \textit{gaze completion approach} based on a Gaze-Frame Correlation module to explicitly model the correlation between gaze information and each local visual token. Inconsistencies between the predicted and observed gaze trajectories act as an indicator for identifying mistakes. Experiments on the EPIC-Tent, HoloAssist and IndustReal datasets showcase the effectiveness of the proposed approach as compared to unsupervised and one-class techniques. Our method is ranked first on the HoloAssist Mistake Detection challenge.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# MMWorld:ビデオにおける多分野多面世界モデル評価を目指して

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos ( http://arxiv.org/abs/2406.08407v3 )

ライセンス: Link先を確認
Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang, (参考訳) マルチモーダル言語モデル(MLLM)は、「世界モデル」の出現する能力を示し、複雑な実世界の力学を解釈し推論する。 これらの能力を評価するために、実世界の力学と因果関係の豊かな表現をカプセル化したビデオが理想的なメディアである。 そこで本稿では,マルチディシプリンドなマルチモーダルビデオ理解のための新しいベンチマークであるMMWorldを紹介する。 MMWorldは,(1)包括的理解のためにドメインの専門知識を必要とする様々な分野をカバーする多分野,(2)説明,反現実的思考,将来の予測などを含む多面的推論,という2つの独特な利点で,従来のビデオ理解ベンチマークと差別化を図っている。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 MMWorldは7つの幅広い分野にわたる1,910の動画と69のサブディシプリンは合わせて6,627の質問応答ペアと関連するキャプションで構成されている。 この評価には2つのプロプライエタリなMLLMと10個のオープンソースMLLMが含まれており、MMWorld(例えば、GPT-4Vは52.3\%の精度で最高の性能を発揮し、改善の余地が大きい。 さらなるアブレーション研究は、人間の異なるスキルセットのモデルのような他の興味深い発見を明らかにしている。 MMWorldがビデオにおける世界モデル評価に不可欠なステップになることを願っている。

Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# 等角予測を用いた深部分類器の証拠不確かさ集合

Evidential Uncertainty Sets in Deep Classifiers Using Conformal Prediction ( http://arxiv.org/abs/2406.10787v3 )

ライセンス: Link先を確認
Hamed Karimi, Reza Samavi, (参考訳) 本稿では,画像分類器に対して,共形予測セットを生成するためのEvidential Conformal Prediction (ECP)法を提案する。 本手法は,DNN分類器のモデル不確かさを定量化する手法として,Evidential Deep Learning (EDL) のルーツを持つ非整合スコア関数に基づいて設計されている。 対象ラベルのロジット値から導かれるエビデンスを用いて、非整合スコア関数の成分を計算する。 実験により,ECP は実ラベルのカバレッジを維持しつつ,CP のセットサイズと適応性の観点から,最先端の3 つの手法より優れていることが示された。

In this paper, we propose Evidential Conformal Prediction (ECP) method for image classifiers to generate the conformal prediction sets. Our method is designed based on a non-conformity score function that has its roots in Evidential Deep Learning (EDL) as a method of quantifying model (epistemic) uncertainty in DNN classifiers. We use evidence that are derived from the logit values of target labels to compute the components of our non-conformity score function: the heuristic notion of uncertainty in CP, uncertainty surprisal, and expected utility. Our extensive experimental evaluation demonstrates that ECP outperforms three state-of-the-art methods for generating CP sets, in terms of their set sizes and adaptivity while maintaining the coverage of true labels.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# ChatGLM: GLM-130B から GLM-4 に至るまでの大規模言語モデルのファミリー

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools ( http://arxiv.org/abs/2406.12793v2 )

ライセンス: Link先を確認
Team GLM, :, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Dan Zhang, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Jingyu Sun, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang, (参考訳) 私たちはChatGLMを紹介します。ChatGLMは、私たちが時間をかけて開発してきた大規模言語モデルの進化したファミリーです。 本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 それらは、前世代のChatGLMから得られたすべての洞察と教訓で訓練された、最も有能なモデルを表しています。 現在、GLM-4モデルは、主に中国語と英語で10兆のトークンで事前訓練されており、24言語からの小さなコーパスも用意されており、主に中国語と英語で使用されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。 GLM-4の評価結果 1)MMLU,GSM8K,MATH,BBH,GPQA,HumanEvalなどの一般的な指標では,GPT-4と密接に競合するか,あるいは優れる。 2) IFEvalで測定された指示に従ってGPT-4-Turboに近づく。 3) GPT-4 Turbo (128K) と Claude 3 にマッチする。 4)AlignBenchによる中国のアライメントではGPT-4よりも優れていた。 GLM-4 All Toolsモデルはさらに、ユーザの意図を理解し、Webブラウザ、Pythonインタプリタ、テキスト・ツー・イメージモデル、ユーザ定義関数など、どのツールがいつ、いつ、どのツールが、複雑なタスクを効果的に完了するかを自律的に決定するように調整されている。 実際のアプリケーションでは、Webブラウジングを通じてオンライン情報にアクセスしたり、Pythonインタプリタを使って数学の問題を解決するといったタスクにおいて、GPT-4 All Toolsと一致し、さらに上回っている。 ChatGLM-6B (3世代), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, CodeGeeXなど,一連のモデルをオープンソースとして公開しています。 オープンモデルはhttps://github.com/THUDMとhttps://huggingface.co/THUDMを通じてアクセスすることができる。

We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.
翻訳日:2024-07-31 21:43:34 公開日:2024-07-30
# 空間ボット:視覚言語モデルを用いた精密空間理解

SpatialBot: Precise Spatial Understanding with Vision Language Models ( http://arxiv.org/abs/2406.13642v4 )

ライセンス: Link先を確認
Wenxiao Cai, Yaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao, (参考訳) 視覚言語モデル(VLM)は2次元画像理解において目覚ましい性能を達成しているが、Embodied AIの基盤である空間的理解に苦慮している。 本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。 さらに、深度理解のためのVLMを訓練するために、多段階の深度関連質問を含むSpatialQAデータセットを構築した。 最後に、異なるレベルでの空間理解におけるVLMの能力を総合的に評価するために、SpatialBenchを提案する。 我々の空間理解ベンチマーク、一般的なVLMベンチマーク、Embodied AIタスクに関する大規模な実験は、SpatialQAでトレーニングされたSpatialBotの顕著な改善を実証している。 モデル、コード、データはhttps://github.com/BAAI-DCAI/SpatialBotで入手できる。

Vision Language Models (VLMs) have achieved impressive performance in 2D image understanding, however they are still struggling with spatial understanding which is the foundation of Embodied AI. In this paper, we propose SpatialBot for better spatial understanding by feeding both RGB and depth images. Additionally, we have constructed the SpatialQA dataset, which involves multi-level depth-related questions to train VLMs for depth understanding. Finally, we present SpatialBench to comprehensively evaluate VLMs' capabilities in spatial understanding at different levels. Extensive experiments on our spatial-understanding benchmark, general VLM benchmarks and Embodied AI tasks, demonstrate the remarkable improvements of SpatialBot trained on SpatialQA. The model, code and data are available at https://github.com/BAAI-DCAI/SpatialBot.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 医用画像におけるショートカット学習の緩和のための迷路指向ビジョンGNN

Gaze-directed Vision GNN for Mitigating Shortcut Learning in Medical Image ( http://arxiv.org/abs/2406.14050v2 )

ライセンス: Link先を確認
Shaoxuan Wu, Xiao Zhang, Bin Wang, Zhuo Jin, Hansheng Li, Jun Feng, (参考訳) ディープニューラルネットワークは、医用画像解析において顕著な性能を示した。 しかし、ショートカット学習による素早い相関に対する感受性は、ネットワークの解釈可能性や信頼性に関する懸念を引き起こす。 さらに、医学的文脈において、病気の指標が微妙で疎外である場合、ショートカット学習が悪化する。 本稿では,放射線科医の視覚パターンを専門知識として活用し,ネットワークを疾患関連領域へ誘導し,ショートカット学習を緩和する,新しい視線指向ビジョンGNN(GD-ViG)を提案する。 GD-ViGは、視線マップジェネレータ(GMG)と視線指向分類器(GDC)から構成される。 GNNのグローバルなモデリング能力とCNNの局所性を組み合わせることで、GMGは放射線学者の視覚パターンに基づいた視線マップを生成する。 特に、推測中の実際の視線データの必要性を排除し、ネットワークの実用性を高める。 専門知識として視線を利用すると、GDCは特徴距離と視線距離の両方を組み込むことでグラフ構造の構築を指示し、ネットワークは疾患関連フォアグラウンドに集中することができる。 これにより、ショートカット学習を回避し、ネットワークの解釈可能性を改善する。 2つの公開医療画像データセットの実験では、GD-ViGは最先端の手法よりも優れており、ショートカット学習を効果的に軽減している。 私たちのコードはhttps://github.com/SX-SS/GD-ViG.comで公開されています。

Deep neural networks have demonstrated remarkable performance in medical image analysis. However, its susceptibility to spurious correlations due to shortcut learning raises concerns about network interpretability and reliability. Furthermore, shortcut learning is exacerbated in medical contexts where disease indicators are often subtle and sparse. In this paper, we propose a novel gaze-directed Vision GNN (called GD-ViG) to leverage the visual patterns of radiologists from gaze as expert knowledge, directing the network toward disease-relevant regions, and thereby mitigating shortcut learning. GD-ViG consists of a gaze map generator (GMG) and a gaze-directed classifier (GDC). Combining the global modelling ability of GNNs with the locality of CNNs, GMG generates the gaze map based on radiologists' visual patterns. Notably, it eliminates the need for real gaze data during inference, enhancing the network's practical applicability. Utilizing gaze as the expert knowledge, the GDC directs the construction of graph structures by incorporating both feature distances and gaze distances, enabling the network to focus on disease-relevant foregrounds. Thereby avoiding shortcut learning and improving the network's interpretability. The experiments on two public medical image datasets demonstrate that GD-ViG outperforms the state-of-the-art methods, and effectively mitigates shortcut learning. Our code is available at https://github.com/SX-SS/GD-ViG.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 量子符号の摂動安定性と誤差補正しきい値

Perturbative stability and error correction thresholds of quantum codes ( http://arxiv.org/abs/2406.15757v2 )

ライセンス: Link先を確認
Yaodong Li, Nicholas O'Dea, Vedika Khemani, (参考訳) 位相的に順序付けられた位相は局所摂動に対して安定であり、位相的量子誤り訂正符号は局所誤差に対するしきい値を持つ。 一般CSS符号と古典線形符号を復号化するための古典統計力学モデルを構築することにより、安定性の2つの概念を結合する。 提案手法は,非相関ビットフリップおよび位相フリップ誤差下での補正成功確率をエンコードし,焼成障害を伴う一般化Z2格子ゲージ理論を同時に記述する。 後者のクリーンな限界は、誤差が摂動XまたはZ磁場に変換されるとき、正確には対応する量子コードハミルトニアンの離散化された仮想時間パス積分である。 誤差補正の考慮により、そのような一般化されたZ2格子ゲージ理論の一般次パラメータを定義し、誤差補正の成功確率によって一般に低い値となることを示す。 LDPC条件を満たすCSS符号に対して、対応する格子ゲージ理論の低温秩序相の存在を証明し、特にユークリッド空間的局所性に欠ける場合や、符号速度がゼロでない場合について述べる。 さらに、これらの結果は、連続虚数時間の極限で得られた対応する摂動量子ハミルトニアンの安定相の証拠を与えると主張する。 そのため、格子ゲージ理論における空間的および時間的欠陥を区別する。 空間的欠陥の高エネルギーコストは「メモリ実験」の成功に対応し、基底状態間のエネルギー分割を抑制する一方、時間的欠陥の高エネルギーコストは「安定実験」の成功に対応し、局所的な励起に対するゼロではないギャップを指し示している。

Topologically-ordered phases are stable to local perturbations, and topological quantum error-correcting codes enjoy thresholds to local errors. We connect the two notions of stability by constructing classical statistical mechanics models for decoding general CSS codes and classical linear codes. Our construction encodes correction success probabilities under uncorrelated bit-flip and phase-flip errors, and simultaneously describes a generalized Z2 lattice gauge theory with quenched disorder. We observe that the clean limit of the latter is precisely the discretized imaginary time path integral of the corresponding quantum code Hamiltonian when the errors are turned into a perturbative X or Z magnetic field. Motivated by error correction considerations, we define general order parameters for all such generalized Z2 lattice gauge theories, and show that they are generally lower bounded by success probabilities of error correction. For CSS codes satisfying the LDPC condition and with a sufficiently large code distance, we prove the existence of a low temperature ordered phase of the corresponding lattice gauge theories, particularly for those lacking Euclidean spatial locality and/or when there is a nonzero code rate. We further argue that these results provide evidence to stable phases in the corresponding perturbed quantum Hamiltonians, obtained in the limit of continuous imaginary time. To do so, we distinguish space- and time-like defects in the lattice gauge theory. A high free-energy cost of space-like defects corresponds to a successful "memory experiment" and suppresses the energy splitting among the ground states, while a high free-energy cost of time-like defects corresponds to a successful "stability experiment" and points to a nonzero gap to local excitations.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 大規模言語モデルは、人々が実際より合理的であると仮定する

Large Language Models Assume People are More Rational than We Really are ( http://arxiv.org/abs/2406.17055v3 )

ライセンス: Link先を確認
Ryan Liu, Jiayi Geng, Joshua C. Peterson, Ilia Sucholutsky, Thomas L. Griffiths, (参考訳) AIシステムが人々と効果的にコミュニケーションするためには、意思決定方法を理解する必要があります。 しかし、人々の決定は必ずしも合理的であるとは限らないので、Large Language Models (LLM)における人間の意思決定の暗黙の内的モデルが、これを考慮しなければならない。 これまでの実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようだ。 しかし、LLMの振る舞いと予測を人間の意思決定の大きなデータセットと比較すると、実際にはそうではないことが分かる。人々の選択をシミュレートし、予測する場合、最先端のLCM(GPT-4o、4-Turbo、Llama-3-8B、70B、Claude 3 Opus)のスイートは、人々が実際よりも合理的であると仮定する。 具体的には、これらのモデルは人間の行動から逸脱し、合理的選択の古典的なモデルである期待値理論とより密接に一致します。 興味深いことに、他人の振る舞いを解釈するとき、他人が合理的であると仮定する傾向がある。 その結果、LLMと人々が他の心理的データセットを用いて他人の判断から引き出す推論を比較すると、これらの推論は高い相関関係があることが判明した。 したがって、LCMの暗黙的な意思決定モデルは、人々が実際にどのように行動するかではなく、他の人が合理的に行動するという人間の期待と一致しているように見える。

In order for AI systems to communicate effectively with people, they must understand how we make decisions. However, people's decisions are not always rational, so the implicit internal models of human decision-making in Large Language Models (LLMs) must account for this. Previous empirical evidence seems to suggest that these implicit models are accurate -- LLMs offer believable proxies of human behavior, acting how we expect humans would in everyday interactions. However, by comparing LLM behavior and predictions to a large dataset of human decisions, we find that this is actually not the case: when both simulating and predicting people's choices, a suite of cutting-edge LLMs (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) assume that people are more rational than we really are. Specifically, these models deviate from human behavior and align more closely with a classic model of rational choice -- expected value theory. Interestingly, people also tend to assume that other people are rational when interpreting their behavior. As a consequence, when we compare the inferences that LLMs and people draw from the decisions of others using another psychological dataset, we find that these inferences are highly correlated. Thus, the implicit decision-making models of LLMs appear to be aligned with the human expectation that other people will act rationally, rather than with how people actually act.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 多数派から少数派へ:皮膚病変解析における低表現群への拡散に基づく拡張

From Majority to Minority: A Diffusion-based Augmentation for Underrepresented Groups in Skin Lesion Analysis ( http://arxiv.org/abs/2406.18375v2 )

ライセンス: Link先を確認
Janet Wang, Yunsung Chung, Zhengming Ding, Jihun Hamm, (参考訳) AIに基づく診断は皮膚がんの分類における皮膚科レベルのパフォーマンスを示す。 しかし、これらのシステムは、トレーニングセットに十分な表現が欠けている少数派のグループからのデータでテストすると、性能が低くなる傾向にある。 データ収集とアノテーションはマイノリティグループを促進する最良の手段であるが、これらのプロセスはコストと時間を要する。 先行研究は、少数派の診断ツールの訓練を補完する貴重な情報源として、多数派のデータが役立っていることを示唆している。 本研究では,マイノリティグループに利益をもたらすために,多数派からの豊富な情報の利用を最大化する効果的な拡散に基づく拡張フレームワークを提案する。 本研究は, 皮膚型が異なる群を事例として, 対象群からの参照データがほとんどあるいは全くない場合でも, 少数群の診断結果を改善する合成画像を生成することができることを示した。 本研究の実際的価値は, 医用画像解析において明らかであり, 診断下診断は, 表現が不十分なため, 特定のグループに対する問題として持続する。

AI-based diagnoses have demonstrated dermatologist-level performance in classifying skin cancer. However, such systems are prone to under-performing when tested on data from minority groups that lack sufficient representation in the training sets. Although data collection and annotation offer the best means for promoting minority groups, these processes are costly and time-consuming. Prior works have suggested that data from majority groups may serve as a valuable information source to supplement the training of diagnosis tools for minority groups. In this work, we propose an effective diffusion-based augmentation framework that maximizes the use of rich information from majority groups to benefit minority groups. Using groups with different skin types as a case study, our results show that the proposed framework can generate synthetic images that improve diagnostic results for the minority groups, even when there is little or no reference data from these target groups. The practical value of our work is evident in medical imaging analysis, where under-diagnosis persists as a problem for certain groups due to insufficient representation.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 情報完全測定とテンソルネットワークを用いた低分散可観測推定

Low-variance observable estimation with informationally-complete measurements and tensor networks ( http://arxiv.org/abs/2407.02923v2 )

ライセンス: Link先を確認
Stefano Mangini, Daniel Cavalcanti, (参考訳) 本稿では,情報的(過剰な)完全測定とテンソルネットワークを利用して,複数の観測対象の非バイアス推定器を低統計的誤差で提供する手法を提案する。 この手法は、テンソルネットワークに基づく測定データの観測可能な古典的最適化から成り、低分散推定に繋がる。 古典的なシャドウと測定フレームに基づく他の観測可能な推定プロトコルと比較して、我々のアプローチにはいくつかの利点がある。 一 統計誤差の低減に最適化することができ、その結果、所定の推定精度を達成するための測定予算を短縮することができる。 (ii)テンソルネットワーク構造による多数の量子ビットにスケールする。 三 テンソルネットワークの観点で効率的な表現を有する測度演算子を持つ任意の測度プロトコルに適用することができる。 本手法は, 無限・有限統計シナリオにおけるスピン・化学系を含む様々な数値例を用いて評価し, 低結合次元のテンソルネットワークを用いても最適推定が可能であることを示す。

We propose a method for providing unbiased estimators of multiple observables with low statistical error by utilizing informationally (over)complete measurements and tensor networks. The technique consists of an observable-specific classical optimization of the measurement data based on tensor networks leading to low-variance estimations. Compared to other observable estimation protocols based on classical shadows and measurement frames, our approach offers several advantages: (i) it can be optimized to provide lower statistical error, resulting in a reduced measurement budget to achieve a specified estimation precision; (ii) it scales to a large number of qubits due to the tensor network structure; (iii) it can be applied to any measurement protocol with measurement operators that have an efficient representation in terms of tensor networks. We benchmark the method through various numerical examples, including spin and chemical systems in both infinite and finite statistics scenarios, and show how optimal estimation can be found even when we use tensor networks with low bond dimensions.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 教師なし知識蒸留による学習プロンプトのゼロショット一般化の改善

Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation ( http://arxiv.org/abs/2407.03056v2 )

ライセンス: Link先を確認
Marco Mistretta, Alberto Baldrati, Marco Bertini, Andrew D. Bagdanov, (参考訳) VLM(Vision-Language Models)は、目に見えないタスクに対して顕著なゼロショットの一般化を示すが、限られたデータで下流タスクに一般化する教師付き手法のパフォーマンスには劣る。 プロンプト学習はVLMを適応するためのパラメータ効率のよい手法として登場しているが、最先端のアプローチでは注釈付きサンプルが必要である。 本稿では,より強力なモデルによる教師なし知識の蒸留に基づく学習を促す新しい手法を提案する。 我々はKDPL(Knowledge Distillation Prompt Learning)と呼ぶアプローチを,既存の即興学習技術に統合し,適応中にラベル付きサンプルを不要にする。 10以上の標準ベンチマークデータセットに対する実験により、KDPLはゼロショットドメイン一般化、ゼロショットクロスデータセット一般化、ゼロショットベース・ツー・ノーベルクラス一般化問題に対する学習プロンプトの一般化に非常に効果的であることが示された。 KDPLは適応のための基礎的なラベルを必要としておらず、トレーニングクラス名の知識がなくても、知識を効果的に伝達するために使用できることを示す。 コードはhttps://github.com/miccunifi/KDPLで公開されている。

Vision-Language Models (VLMs) demonstrate remarkable zero-shot generalization to unseen tasks, but fall short of the performance of supervised methods in generalizing to downstream tasks with limited data. Prompt learning is emerging as a parameter-efficient method for adapting VLMs, but state-of-the-art approaches require annotated samples. In this paper we propose a novel approach to prompt learning based on unsupervised knowledge distillation from more powerful models. Our approach, which we call Knowledge Distillation Prompt Learning (KDPL), can be integrated into existing prompt learning techniques and eliminates the need for labeled examples during adaptation. Our experiments on more than ten standard benchmark datasets demonstrate that KDPL is very effective at improving generalization of learned prompts for zero-shot domain generalization, zero-shot cross-dataset generalization, and zero-shot base-to-novel class generalization problems. KDPL requires no ground-truth labels for adaptation, and moreover we show that even in the absence of any knowledge of training class names it can be used to effectively transfer knowledge. The code is publicly available at https://github.com/miccunifi/KDPL.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# SOWA:より優れた異常検出のための視覚言語モデルへの階層型凍結窓自己注意の適用

SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection ( http://arxiv.org/abs/2407.03634v2 )

ライセンス: Link先を確認
Zongxiang Hu, Zhaosheng Zhang, (参考訳) 視覚異常検出は工業生産において重要であるが、従来の手法は拡張性を制限するため、広範囲の通常のデータセットやカスタムモデルに依存していることが多い。 大規模視覚言語モデルの最近の進歩は、ゼロ/ファウショット異常検出を大幅に改善した。 しかし、これらのアプローチは階層的な特徴を完全に活用していないかもしれない。 我々は,CLIPモデルに基づくウィンドウ自己注意機構を導入し,Soldier-Offier Window Self-Attention (SOWA) フレームワーク内の複数レベルの特徴を学習可能なプロンプトと組み合わせた。 提案手法は5つのベンチマークデータセットで検証され,従来の最先端技術と比較して,20項目中18項目で優れた性能を示した。

Visual anomaly detection is critical in industrial manufacturing, but traditional methods often rely on extensive normal datasets and custom models, limiting scalability. Recent advancements in large-scale visual-language models have significantly improved zero/few-shot anomaly detection. However, these approaches may not fully utilize hierarchical features, potentially missing nuanced details. We introduce a window self-attention mechanism based on the CLIP model, combined with learnable prompts to process multi-level features within a Soldier-Offier Window self-Attention (SOWA) framework. Our method has been tested on five benchmark datasets, demonstrating superior performance by leading in 18 out of 20 metrics compared to existing state-of-the-art techniques.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 電力グリッドにおけるグラフ強化学習:サーベイ

Graph Reinforcement Learning in Power Grids: A Survey ( http://arxiv.org/abs/2407.04522v2 )

ライセンス: Link先を確認
Mohamed Hassouna, Clara Holzhüter, Pawel Lytaev, Josephine Thomas, Bernhard Sick, Christoph Scholz, (参考訳) 再生可能エネルギーと分散型発電による課題は、電力グリッドのユースケースにおける従来の手法の柔軟性の欠如を克服するために、ディープラーニングアプローチの開発を動機付けている。 GNNの応用は、電力グリッドに存在するグラフ構造化データから学ぶことができるため、特に有望である。 RLと組み合わせることで、リメディカルグリッドアクションを決定する制御アプローチとして機能する。 本稿では,電力グリッド固有のグラフ構造を抽出し,電力グリッドの異なるユースケースにおける表現学習と意思決定を改善するGRLの能力について論じる。 送電網と配電網の共通問題を区別し、RLとGNNのシナジーを探索する。 送電網では、GRLは通常、自動グリッド管理とトポロジー制御に対処するが、配電側では、GRLは電圧制御に集中する。 提案手法は,グラフ構造とGNNモデル,応用RLアルゴリズム,および総合的なコントリビューションに基づいて,選択した論文を解析した。 GRLは予測不可能な事象やノイズや不完全なデータに直面して適応性を示すが、この段階では主に概念実証として機能する。 RLの実際の電力グリッド操作への適用を考える際には、いくつかのオープンな課題と制限が対処する必要がある。

The challenges posed by renewable energy and distributed electricity generation motivate the development of deep learning approaches to overcome the lack of flexibility of traditional methods in power grids use cases. The application of GNNs is particularly promising due to their ability to learn from graph-structured data present in power grids. Combined with RL, they can serve as control approaches to determine remedial grid actions. This review analyses the ability of GRL to capture the inherent graph structure of power grids to improve representation learning and decision making in different power grid use cases. It distinguishes between common problems in transmission and distribution grids and explores the synergy between RL and GNNs. In transmission grids, GRL typically addresses automated grid management and topology control, whereas on the distribution side, GRL concentrates more on voltage regulation. We analyzed the selected papers based on their graph structure and GNN model, the applied RL algorithm, and their overall contributions. Although GRL demonstrate adaptability in the face of unpredictable events and noisy or incomplete data, it primarily serves as a proof of concept at this stage. There are multiple open challenges and limitations that need to be addressed when considering the application of RL to real power grid operation.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# MFE-ETP:マルチモーダル・ファンデーション・モデルのための総合的評価ベンチマーク

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning ( http://arxiv.org/abs/2407.05047v2 )

ライセンス: Link先を確認
Min Zhang, Jianye Hao, Xian Fu, Peilong Han, Hao Zhang, Lei Shi, Hongyao Tang, Yan Zheng, (参考訳) 近年、MFM(Multi-modal Foundation Models)とEmbodied Artificial Intelligence(EAI)は、前例のないペースで並んで進んでいる。 この2つの統合は、AI研究コミュニティから大きな注目を集めている。 本研究は, 具体的タスク計画において, MFM s の性能を深く, 包括的に評価することを目的としており, この領域におけるその能力と限界に光を当てることを目的としている。 そこで本研究では,まず,MFMの4つの重要な機能 – オブジェクト理解,時空間認識,タスク理解,具体的推論 – をカプセル化する,系統的評価フレームワークを開発する。 次に,MFE-ETPと呼ばれる新しいベンチマークを提案し,その複雑かつ可変なタスクシナリオ,典型的には多様だが多様なタスクタイプ,難易度が異なるタスクインスタンス,複数の具体的質問応答から具体的タスク推論まで多種多様なテストケースタイプを特徴付ける。 最後に、提案したベンチマーク上で複数のMFMの自動テストを可能にする、シンプルで使いやすい自動評価プラットフォームを提供する。 ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。 MFE-ETPは、現実世界のタスクに関連する高品質で大規模で挑戦的なベンチマークである。

In recent years, Multi-modal Foundation Models (MFMs) and Embodied Artificial Intelligence (EAI) have been advancing side by side at an unprecedented pace. The integration of the two has garnered significant attention from the AI research community. In this work, we attempt to provide an in-depth and comprehensive evaluation of the performance of MFM s on embodied task planning, aiming to shed light on their capabilities and limitations in this domain. To this end, based on the characteristics of embodied task planning, we first develop a systematic evaluation framework, which encapsulates four crucial capabilities of MFMs: object understanding, spatio-temporal perception, task understanding, and embodied reasoning. Following this, we propose a new benchmark, named MFE-ETP, characterized its complex and variable task scenarios, typical yet diverse task types, task instances of varying difficulties, and rich test case types ranging from multiple embodied question answering to embodied task reasoning. Finally, we offer a simple and easy-to-use automatic evaluation platform that enables the automated testing of multiple MFMs on the proposed benchmark. Using the benchmark and evaluation platform, we evaluated several state-of-the-art MFMs and found that they significantly lag behind human-level performance. The MFE-ETP is a high-quality, large-scale, and challenging benchmark relevant to real-world tasks.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# アライメントによる学習: ドメイン間およびドメイン内シフトの多ドメイン間表情認識への応用

Learning with Alignments: Tackling the Inter- and Intra-domain Shifts for Cross-multidomain Facial Expression Recognition ( http://arxiv.org/abs/2407.05688v2 )

ライセンス: Link先を確認
Yuxiang Yang, Lu Wen, Xinyi Zeng, Yuanyuan Xu, Xi Wu, Jiliu Zhou, Yan Wang, (参考訳) 表情認識(FER)は、人間とコンピュータの相互作用において重要である。 既存のクロスドメインFERメソッドは、単一のラベル付きソースドメインからラベルなしターゲットドメインにのみ知識を転送し、複数のソースにまたがる包括的な情報を無視することが多い。 それでも、マルチドメインFER(CMFER)は非常に難しい。 (i)複数のドメインにまたがるドメイン間の固有のシフト 2) ドメイン内シフトは, あいまいな表現とクラス間差の低さから生じる。 本稿では、ドメイン間のシフトとドメイン内シフトの両方を扱うための、LA-CMFERと呼ばれる新しいLearning with Alignments CMFERフレームワークを提案する。 具体的には、LA-CMFERはグローバルブランチとローカルブランチで構築され、フルイメージと局所的な微妙な表現から特徴を抽出する。 これに基づいて、LA-CMFERは、二重レベルのドメイン間アライメント手法を提案し、サンプルレベルでの知識伝達におけるハード・トゥ・アライメント・サンプルの優先順位付けを強制すると同時に、クラスタレベルでクラス属性のガイダンスを伴って、適切にクラスタ化された特徴空間を徐々に生成し、ドメイン間シフトを狭める。 ドメイン内シフトに対処するため、LA-CMFERは、グローバルビューとローカルビューの一貫性を追求する予測類似性行列を構築し、擬似ラベルを精製し、遅延ノイズを除去するマルチビュークラスタリング一貫性制約付きマルチビュードメイン内アライメント手法を導入した。 6つのベンチマークデータセットに対する大規模な実験は、当社のLA-CMFERの優位性を実証した。

Facial Expression Recognition (FER) holds significant importance in human-computer interactions. Existing cross-domain FER methods often transfer knowledge solely from a single labeled source domain to an unlabeled target domain, neglecting the comprehensive information across multiple sources. Nevertheless, cross-multidomain FER (CMFER) is very challenging for (i) the inherent inter-domain shifts across multiple domains and (ii) the intra-domain shifts stemming from the ambiguous expressions and low inter-class distinctions. In this paper, we propose a novel Learning with Alignments CMFER framework, named LA-CMFER, to handle both inter- and intra-domain shifts. Specifically, LA-CMFER is constructed with a global branch and a local branch to extract features from the full images and local subtle expressions, respectively. Based on this, LA-CMFER presents a dual-level inter-domain alignment method to force the model to prioritize hard-to-align samples in knowledge transfer at a sample level while gradually generating a well-clustered feature space with the guidance of class attributes at a cluster level, thus narrowing the inter-domain shifts. To address the intra-domain shifts, LA-CMFER introduces a multi-view intra-domain alignment method with a multi-view clustering consistency constraint where a prediction similarity matrix is built to pursue consistency between the global and local views, thus refining pseudo labels and eliminating latent noise. Extensive experiments on six benchmark datasets have validated the superiority of our LA-CMFER.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# 経営戦略としての計算閾値の限界について

On the Limitations of Compute Thresholds as a Governance Strategy ( http://arxiv.org/abs/2407.05694v2 )

ライセンス: Link先を確認
Sara Hooker, (参考訳) このエッセイは、計算しきい値と呼ばれるかなり難解なガバナンスツールを理解するためのものだ。 しかし、これらのしきい値が何かを達成するかどうかに対処するためには、まず彼らがどうなったのかを理解する必要がある。 そうするためには、コンピュータサイエンスの進歩の中心にある何十年も前からの議論、すなわち、常にもっと大きいものに取り組む必要がある。 計算の特定のインフレクションポイントは、モデルのリスクプロファイルに変化をもたらすか? したがって、このエッセイは政策立案者や一般大衆だけでなく、コンピュータ科学者にも関心があるかもしれない。 この議論は、よりリスクの高いシステムを特定するために、ホワイトハウスのAI安全に関する命令(EO)とEUのAI法の両方で計算しきい値が広く採用されていることをタイムリーに評価している。 このエッセイの重要な結論は、現在実装されている計算しきい値が短く、リスクを軽減するのに失敗する可能性があることである。 計算とリスクの関係は極めて不確実であり、急速に変化している。 計算しきい値に基づいて、異なるスケールでどのような能力が出現するかを予測する能力が過大評価されます。 このエッセイは、より良い方向に進むためのレコメンデーションで終わります。

At face value, this essay is about understanding a fairly esoteric governance tool called compute thresholds. However, in order to grapple with whether these thresholds will achieve anything, we must first understand how they came to be. To do so, we need to engage with a decades-old debate at the heart of computer science progress, namely, is bigger always better? Does a certain inflection point of compute result in changes to the risk profile of a model? Hence, this essay may be of interest not only to policymakers and the wider public but also to computer scientists interested in understanding the role of compute in unlocking breakthroughs. This discussion is timely given the wide adoption of compute thresholds in both the White House Executive Orders on AI Safety (EO) and the EU AI Act to identify more risky systems. A key conclusion of this essay is that compute thresholds, as currently implemented, are shortsighted and likely to fail to mitigate risk. The relationship between compute and risk is highly uncertain and rapidly changing. Relying upon compute thresholds overestimates our ability to predict what abilities emerge at different scales. This essay ends with recommendations for a better way forward.
翻訳日:2024-07-31 21:33:36 公開日:2024-07-30
# SALSA: Swiftの適応型軽量自己認識によるLiDAR位置認識

SALSA: Swift Adaptive Lightweight Self-Attention for Enhanced LiDAR Place Recognition ( http://arxiv.org/abs/2407.08260v2 )

ライセンス: Link先を確認
Raktim Gautam Goswami, Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami, (参考訳) 大規模LiDARマッピングとローカライゼーションは、位置認識技術を活用して、ドリフトを緩和し、正確なマッピングを保証する。 これらの技術は、LiDARポイントクラウドからのシーン表現を利用して、データベース内で以前に訪れたサイトを識別する。 ポイントクラウド内の各ポイントに割り当てられたローカルディスクリプタは、ポイントクラウドのシーン表現を形成するために集約される。 これらのディスクリプタは、幾何学的適合度スコアに基づいて取得した点雲を再ランクするためにも使用される。 本稿では,LiDAR位置認識のための新しい,軽量で効率的なフレームワークであるSALSAを提案する。 Sphereformerのバックボーンは、ラジアルウィンドウアテンションを使用して、疎遠点の情報アグリゲーションを可能にし、ローカルディスクリプタをトークンにプールするアダプティブセルフアテンション層と、トークンを集約してシーンディスクリプタを生成するマルチレイヤパーセプトロンミキサ層で構成されている。 提案フレームワークは、リアルタイムに動作しながら、検索とメートル法の両方のローカライゼーションの観点から、様々なLiDAR位置認識データセット上の既存の手法よりも優れている。

Large-scale LiDAR mappings and localization leverage place recognition techniques to mitigate odometry drifts, ensuring accurate mapping. These techniques utilize scene representations from LiDAR point clouds to identify previously visited sites within a database. Local descriptors, assigned to each point within a point cloud, are aggregated to form a scene representation for the point cloud. These descriptors are also used to re-rank the retrieved point clouds based on geometric fitness scores. We propose SALSA, a novel, lightweight, and efficient framework for LiDAR place recognition. It consists of a Sphereformer backbone that uses radial window attention to enable information aggregation for sparse distant points, an adaptive self-attention layer to pool local descriptors into tokens, and a multi-layer-perceptron Mixer layer for aggregating the tokens to generate a scene descriptor. The proposed framework outperforms existing methods on various LiDAR place recognition datasets in terms of both retrieval and metric localization while operating in real-time.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 近代ホップフィールドネットワークにおけるロバスト性向上とハイパーパラメータ選択

Improved Robustness and Hyperparameter Selection in Modern Hopfield Networks ( http://arxiv.org/abs/2407.08742v2 )

ライセンス: Link先を確認
Hayden McAlister, Anthony Robins, Lech Szymanski, (参考訳) 現代のホップフィールドネットワークは、よりシャープな相互作用関数を許容することによって、古典的なホップフィールドネットワークを一般化する。 これにより、近くの学習されたアトラクションが互いに干渉しないため、自己連想記憶としてのネットワークの容量が増大する。 しかし、ネットワークの実装は、メモリベクトルとプローブベクトルのドット積に大きな指数を適用することに依存している。 データの次元が大きければ、計算は非常に大きくなり、実際の実装で浮動小数点数を使用する場合の問題が発生する。 この問題を詳細に記述し、元のネットワーク記述を変更して問題を緩和し、更新やトレーニング中にネットワークのダイナミクスを変更することはないことを示す。 また,現代のホップフィールドネットワークにおけるハイパーパラメータ選択を大幅に改善し,相互作用頂点へのハイパーパラメータ依存を除去し,元のネットワークのように相互作用頂点に大きく変化しない最適なハイパーパラメータ領域が得られることを示した。

The modern Hopfield network generalizes the classical Hopfield network by allowing for sharper interaction functions. This increases the capacity of the network as an autoassociative memory as nearby learned attractors will not interfere with one another. However, the implementation of the network relies on applying large exponents to the dot product of memory vectors and probe vectors. If the dimension of the data is large the calculation can be very large and result in problems when using floating point numbers in a practical implementation. We describe this problem in detail, modify the original network description to mitigate the problem, and show the modification will not alter the networks' dynamics during update or training. We also show our modification greatly improves hyperparameter selection for the modern Hopfield network, removing hyperparameter dependence on the interaction vertex and resulting in an optimal region of hyperparameters that does not significantly change with the interaction vertex as it does in the original network.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 外科的テキスト・画像生成

Surgical Text-to-Image Generation ( http://arxiv.org/abs/2407.09230v2 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Rupak Bose, Kareem Elgohary, Lorenzo Arboit, Giorgio Carlino, Joël L. Lavanchy, Pietro Mascagni, Nicolas Padoy, (参考訳) 研究開発のための外科的データを取得することは、高いアノテーションコストと実践的および倫理的制約によって著しく妨げられている。 合成画像を利用することは、価値ある代替手段となるかもしれない。 本研究では,ColecT50データセットを用いて,手術領域のテキスト・ツー・イメージ生成モデルを適用し,アクション・トリプレットを付加した手術画像(インストラクト,動詞,ターゲット)を提供する。 いくつかの言語モデルを調べ,T5は三重項に基づくテキスト入力に対する外科的動作を識別し,長い字幕と三重項による字幕のより強いアライメントを示す。 付加的な入力やスーパーバイザ信号を伴わずに三重項ベースのキャプションのみを用いたテキスト・ツー・イメージ・モデルを訓練する際の課題に対処するため,三重項の埋め込みは潜時空間において楽器中心であることが判明した。 この知見を活用することで、データの不均衡と歪を防止し、トレーニング収束を改善するための計器ベースのクラスバランス手法を設計する。 拡散型画像生成モデルであるRetensing Imagenを用いて,三重項ベースのテキストプロンプトからフォトリアリスティックかつ活動対応の手術画像を生成する。 FIDとCLIPのスコアはそれぞれ3.7と26.8%である。 人間の専門家による調査によると、被験者は生成したサンプルの現実的な特性に非常に疑問を呈し、実際のデータ収集の代替手段としての手術的イメージンの有効性を実証した。

Acquiring surgical data for research and development is significantly hindered by high annotation costs and practical and ethical constraints. Utilizing synthetically generated images could offer a valuable alternative. In this work, we explore adapting text-to-image generative models for the surgical domain using the CholecT50 dataset, which provides surgical images annotated with action triplets (instrument, verb, target). We investigate several language models and find T5 to offer more distinct features for differentiating surgical actions on triplet-based textual inputs, and showcasing stronger alignment between long and triplet-based captions. To address challenges in training text-to-image models solely on triplet-based captions without additional inputs and supervisory signals, we discover that triplet text embeddings are instrument-centric in the latent space. Leveraging this insight, we design an instrument-based class balancing technique to counteract data imbalance and skewness, improving training convergence. Extending Imagen, a diffusion-based generative model, we develop Surgical Imagen to generate photorealistic and activity-aligned surgical images from triplet-based textual prompts. We assess the model on quality, alignment, reasoning, and knowledge, achieving FID and CLIP scores of 3.7 and 26.8% respectively. Human expert survey shows that participants were highly challenged by the realistic characteristics of the generated samples, demonstrating Surgical Imagen's effectiveness as a practical alternative to real data collection.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 量子位相空間を用いた理想フェルミガスと理想ボースガスの改良モデル

Improved models for ideal Fermi gas and ideal Bose gas using quantum phase space ( http://arxiv.org/abs/2407.09998v2 )

ライセンス: Link先を確認
Rivo Herivola Manjakamanana Ravelonjato, Ravo Tokiniaina Ranaivoson, Raoelina Andriambololona, Roland Raboanary, Naivo Rabesiranana, Solofoarisina Chrysante Wilfrid, (参考訳) 理想フェルミ気体と理想ボース気体の現在のモデルは、しばしば量子論と互換性があると考えられている。 しかし、本研究では、不確実性原理に関連する位相空間の量子的性質を考慮するために、これらのモデルに改善を導入するべきである。 改良されたモデルの構築は、最近導入された量子力学と量子位相空間の位相空間表現の概念を用いている。 気体粒子とその固有状態のハミルトン作用素が第一に決定され、量子統計力学の使用により理想気体自体の熱力学的性質が導かれる。 大標準ポテンシャル、熱力学粒子数、内部エネルギー、圧力などの熱力学量の明示的な表現と、改良されたモデルに対応する状態方程式は、ボソンとフェルミオンの両方に対して確立される。 これらの式によって導入された補正は、低温および閉じ込められた体積において特に重要であると期待されている。 特に、量子形状とサイズ効果の存在を強調することを許している。 また、熱力学関数と変数は、モータ量子統計分散に直接関係していることが示されている。 古典的アル・イデアルガスモデルに対応するよく知られた関係は、高温および大容量の漸近限界として改良されたモデルから得ることができる。

The current models of ideal Fermi gas and ideal Bose gas are often considered as compatible with quantum theory. In this work, however, it is shown that improvements should be introduced into these models to take into account the quantum nature of phase space related to the uncertainty principle. The construction of the improved models is based on the use of the concepts of phase space representation of quantum mechanics and quantum phase space that were introduced and developed recently. Hamiltonian operator of a gas particle and its eigenstates are firstly determined and the use of quantum statistical mechanics leads to the deduction of the thermodynamics properties of the ideal gas itself. The explicit expressions of thermodynamic quantities such as the grand canonical potential, the thermodynamic particles number, the internal energy and the pressure as well as the state equations, corresponding to the improved models, are established for both bosons and fermions. The corrections introduced by these expressions are expected to be particularly significant at low temperature and for confined volume. They permit in particular to highlight the existence of quantum shape and size effects. It is also shown that the thermodynamics functions and variables are directly related to the momenta quantum statistical variances. Well-known relations corresponding to classic al ideal gas model can be retrieved from the improved models as asymptotic limits at high temperature and for large volume.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# キーポイント駆動数理推論による大言語モデルの蒸留

Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model ( http://arxiv.org/abs/2407.10167v3 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Can Ma, Weiping Wang, (参考訳) 大規模言語モデル(LLM)は、広範囲なパラメータ数と膨大なデータセットのトレーニングのため、数学的推論タスクにおいて例外的な習熟度を示してきた。 これらの機能にもかかわらず、LSMのデプロイは計算上の要求によって妨げられる。 LLMの数学的推論をSmaller Language Models (SLM) に拡張することはこの問題の解決法として現れてきたが、これらの小さなモデルは計算や意味理解の誤りに悩まされることが多い。 従来の研究では計算誤差を避けるためにPoTD(Program-of-Thought Distillation)が提案されていた。 意味理解の誤りに対処するため,キーポイント駆動型数学的推論蒸留(KPDD)を提案する。 KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。 さらに、この手法を KPDD-CoT と KPDD-PoT に分割し、プログラム・オブ・ソート・論理を生成する。 実験の結果, KPDD-CoTは推論能力を大幅に向上する一方, KPDD-PoTは数学的推論タスクの最先端性能を達成することがわかった。 提案手法は, 誤りを効果的に軽減し, 効率的かつ有能なSLMの展開を推し進める。

Large Language Models (LLMs) have demonstrated exceptional proficiency in mathematical reasoning tasks due to their extensive parameter counts and training on vast datasets. Despite these capabilities, deploying LLMs is hindered by their computational demands. Distilling LLM mathematical reasoning into Smaller Language Models (SLMs) has emerged as a solution to this challenge, although these smaller models often suffer from errors in calculation and semantic understanding. Prior work has proposed Program-of-Thought Distillation (PoTD) to avoid calculation error. To further address semantic understanding errors, we propose Key-Point-Driven Mathematical Reasoning Distillation (KPDD). KPDD enhances the reasoning performance of SLMs by breaking down the problem-solving process into three stages: Core Question Extraction, Problem-Solving Information Extraction, and Step-by-Step Solution. This method is further divided into KPDD-CoT, which generates Chain-of-Thought rationales, and KPDD-PoT, which creates Program-of-Thought rationales. The experiment results show that KPDD-CoT significantly improves reasoning abilities, while KPDD-PoT achieves state-of-the-art performance in mathematical reasoning tasks. Our approach effectively mitigates misunderstanding errors, advancing the deployment of efficient and capable SLMs.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 微分可能なボクセル化とメッシュモルフィング

Differentiable Voxelization and Mesh Morphing ( http://arxiv.org/abs/2407.11272v2 )

ライセンス: Link先を確認
Yihao Luo, Yikai Wang, Zhengrui Xiang, Yuliang Xiu, Guang Yang, ChoonHwai Yap, (参考訳) 本稿では,3次元メッシュの回転数と固体角による微分可能なボキセル化を提案する。 提案手法は、3次元メッシュの高速で柔軟で正確なボキセル化を実現し、入力メッシュとGPUアクセラレーションに関する勾配の計算を許容する。 さらに、ニューラルネットワークによって酸化メッシュが変形するメッシュモルフィングにおいて、提案した酸化ボキセル化の応用を実証する。 提案手法はShapeNetデータセットを用いて評価し,精度と効率の両面で最先端の性能を実現する。

In this paper, we propose the differentiable voxelization of 3D meshes via the winding number and solid angles. The proposed approach achieves fast, flexible, and accurate voxelization of 3D meshes, admitting the computation of gradients with respect to the input mesh and GPU acceleration. We further demonstrate the application of the proposed voxelization in mesh morphing, where the voxelized mesh is deformed by a neural network. The proposed method is evaluated on the ShapeNet dataset and achieves state-of-the-art performance in terms of both accuracy and efficiency.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 創発的多ビット絡み合いによる自然対称性の破れの実験的研究

Experimental demonstration of spontaneous symmetry breaking with emergent multi-qubit entanglement ( http://arxiv.org/abs/2407.12567v2 )

ライセンス: Link先を確認
Ri-Hua Zheng, Wen Ning, Jia-Hao Lü, Xue-Jia Yu, Fang Wu, Cheng-Lin Deng, Zhen-Biao Yang, Kai Xu, Dongning Zheng, Heng Fan, Shi-Biao Zheng, (参考訳) 自発的対称性破壊(SSB)は相転移の発生に不可欠である。 相転移が起こると、量子系はハミルトニアンの対称性を欠いた退化固有状態を示す。 臨界点を越えた後、系は本質的にこれらの固有状態の量子重ね合わせに発展し、デコヒーレンスをセットする。 量子技術における基本的な重要性と潜在的な応用にもかかわらず、そのような量子力学のSSB現象は、多くの体系で実験的に研究されていない。 ここでは、個別の駆動とクォービット間相互作用の競合が支配するリプキン・メシュコフ・グリックモデルにおいて、SSB過程の実験的実証を示す。 このモデルは回路量子力学系において実現され、6つのXmon量子ビットが共振器によって媒介される仮想光子交換によって全対一に結合される。 対称性を破る領域におけるこれらの量子ビット間の観測された非古典的相関は、従来のSSBの記述を超え、量子多体系の相転移に新しい光を放つ。

Spontaneous symmetry breaking (SSB) is crucial to the occurrence of phase transitions. Once a phase transition occurs, a quantum system presents degenerate eigenstates that lack the symmetry of the Hamiltonian. After crossing the critical point, the system is essentially evolved to a quantum superposition of these eigenstates until decoherence sets in. Despite the fundamental importance and potential applications in quantum technologies, such quantum-mechanical SSB phenomena have not been experimentally explored in many-body systems. We here present an experimental demonstration of the SSB process in the Lipkin-Meshkov-Glick model, governed by the competition between the individual driving and intra-qubit interaction. The model is realized in a circuit quantum electrodynamics system, where 6 Xmon qubits are coupled in an all-to-all manner through virtual photon exchange mediated by a resonator. The observed nonclassical correlations among these qubits in the symmetry-breaking region go beyond the conventional description of SSB, shedding new light on phase transitions for quantum many-body systems.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# AROhI: データ分析のROIを推定するインタラクティブツール

AROhI: An Interactive Tool for Estimating ROI of Data Analytics ( http://arxiv.org/abs/2407.13839v2 )

ライセンス: Link先を確認
Noopur Zambare, Jacob Idoko, Jagrit Acharya, Gouri Ginde, (参考訳) 新しい技術を採用するコストは滅多に分析され議論されませんが、世界中の多くのソフトウェア企業にとって不可欠です。 したがって、データ分析を行う場合、ROI(Return On Investment)を考慮することが重要です。 どの程度の分析が必要か? 答えが難しいのです ROIは、何について意思決定を支援するか? いかがですか。 いくら? 特定の問題に対する分析。 この作業では、要求依存抽出とROI分析をユースケースとして使用するための、従来および先進的なMLアプローチを提供する包括的なツールについて詳述する。 BERT(Bidirectional Encoder Representations from Transformers)は、依存関係抽出を自動化するさまざまなコンポーネントとして、アクティブラーニング(Active Learning)やトランスファーラーニング(Transfer Learning)、プリミティブな大規模言語モデルなど、高度なML技術を活用して、MLアルゴリズムのROIを計算し、技術投資のコストと利益の間のトレードオフを明確化するメカニズムを実証する。

The cost of adopting new technology is rarely analyzed and discussed, while it is vital for many software companies worldwide. Thus, it is crucial to consider Return On Investment (ROI) when performing data analytics. Decisions on "How much analytics is needed"? are hard to answer. ROI could guide decision support on the What?, How?, and How Much? Analytics for a given problem. This work details a comprehensive tool that provides conventional and advanced ML approaches for demonstration using requirements dependency extraction and their ROI analysis as use case. Utilizing advanced ML techniques such as Active Learning, Transfer Learning and primitive Large language model: BERT (Bidirectional Encoder Representations from Transformers) as its various components for automating dependency extraction, the tool outcomes demonstrate a mechanism to compute the ROI of ML algorithms to present a clear picture of trade-offs between the cost and benefits of a technology investment.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 低空飛行機用ビジョンベース電力線ケーブルとパイロン検出

Vision-Based Power Line Cables and Pylons Detection for Low Flying Aircraft ( http://arxiv.org/abs/2407.14352v3 )

ライセンス: Link先を確認
Jakub Gwizdała, Doruk Oner, Soumava Kumar Roy, Mian Akbar Shah, Ad Eberhard, Ivan Egorov, Philipp Krüsi, Grigory Yakushev, Pascal Fua, (参考訳) 電力線は低空飛行機、特に低視認性条件下では危険である。 したがって、航空機の周囲を分析し、パイロットに「二対目の目」を提供することで安全性を高めることができる。 そこで我々は,航空機に搭載されたカメラで数百メートル離れた距離で撮影した画像から,電力線ケーブルとパイロンを共同で検出する深層学習手法を開発した。 そこで我々は,現代的畳み込み型アーキテクチャとトランスファーラーニング,カービリナー構造記述に適応した損失関数を組み合わせた。 我々は、両方の検出タスクに1つのネットワークを使用し、2つのベンチマークデータセットでその性能を実証した。 オンボードシステムに統合し、飛行中に実行し、実験により、両方のデータセット上で従来の遠隔ケーブル検出方法よりも優れており、また、アノテーションがデータに利用できるため、パイロンの検出にも成功していることを示した。

Power lines are dangerous for low-flying aircraft, especially in low-visibility conditions. Thus, a vision-based system able to analyze the aircraft's surroundings and to provide the pilots with a "second pair of eyes" can contribute to enhancing their safety. To this end, we have developed a deep learning approach to jointly detect power line cables and pylons from images captured at distances of several hundred meters by aircraft-mounted cameras. In doing so, we have combined a modern convolutional architecture with transfer learning and a loss function adapted to curvilinear structure delineation. We use a single network for both detection tasks and demonstrated its performance on two benchmarking datasets. We have integrated it within an onboard system and run it in flight, and have demonstrated with our experiments that it outperforms the prior distant cable detection method on both datasets, while also successfully detecting pylons, given their annotations are available for the data.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# 反単位対称性を持つ系の熱純状態とそのテンソルネットワーク表現

Thermal Pure States for Systems with Antiunitary Symmetries and Their Tensor Network Representations ( http://arxiv.org/abs/2407.14454v2 )

ライセンス: Link先を確認
Yasushi Yoneta, (参考訳) 統計アンサンブルの代わりに純粋平衡状態を表す純粋量子状態を用いる熱純状態アルゴリズムは、数値シミュレーションと熱状態の理論解析の両方に有用である。 しかし、その本質的に大きな絡み合いは、効率的に表現し、大きなシステムを分析する際に使用を制限することを困難にしている。 本稿では、時間反転対称性や複素共役対称性など、ある種の反単位対称性を持つ系に対して、熱純状態を構築するための新しいアルゴリズムを提案する。 提案手法は, 体積則の絡み合いを示す一方で, 簡単な変換によってテンソルネットワーク状態にマッピングできる熱純状態を利用する。 さらに,本手法はランダムサンプリングに頼らず,統計的不確実性を回避する。 さらに, 局所観測値の熱予測値だけでなく, 熱力学関数も計算できる。 三角格子上の1次元XYモデルと2次元Isingモデルに適用することで,本手法の有効性と有用性を示す。 以上の結果から, 熱平衡状態に限らず, 体積法則状態に対する新しい変動波動関数のクラスが示唆された。

Thermal pure state algorithms, which employ pure quantum states representing thermal equilibrium states instead of statistical ensembles, are useful both for numerical simulations and for theoretical analysis of thermal states. However, their inherently large entanglement makes it difficult to represent efficiently and limits their use in analyzing large systems. Here, we propose a new algorithm for constructing thermal pure states for systems with certain antiunitary symmetries, such as time-reversal or complex conjugation symmetry. Our method utilizes thermal pure states that, while exhibiting volume-law entanglement, can be mapped to tensor network states through simple transformations. Furthermore, our approach does not rely on random sampling and thus avoids statistical uncertainty. Moreover, we can compute not only thermal expectation values of local observables but also thermodynamic functions. We demonstrate the validity and utility of our method by applying it to the one-dimensional XY model and the two-dimensional Ising model on a triangular lattice. Our results suggest a new class of variational wave functions for volume-law states that are not limited to thermal equilibrium states.
翻訳日:2024-07-31 21:23:40 公開日:2024-07-30
# HyperbolicLR:エポック非感受性学習率スケジューラ

HyperbolicLR: Epoch insensitive learning rate scheduler ( http://arxiv.org/abs/2407.15200v2 )

ライセンス: Link先を確認
Tae-Geun Kim, (参考訳) 本研究では,Hyperbolic Learning Rate Scheduler (HyperbolicLR) と Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR) の2つの新しい学習率スケジューラを提案する。 これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。 双曲曲線の漸近的挙動を活用することにより、提案したスケジューラは、エポックな設定でより一貫した学習曲線を維持することができる。 HyperbolicLRアルゴリズムは、この特性をエポック学習率空間に直接適用し、ExpHyperbolicLRはエポック学習率と学習率の指数空間にこの概念をマッピングする。 これらのスケジューラの性能を評価するために,まず,少数のエポック上で各スケジューラに対して最適なハイパーパラメータを求め,これらの値を固定し,エポックの数が増えるにつれてそれらの性能を比較した。 各種ディープラーニングタスクとアーキテクチャに関する実験結果から,HyperbolicLRとExpHyperbolicLRは,エポック数の増加に伴い,従来のスケジューラよりも一貫した性能向上を維持していることが示された。 これらの結果は、特に計算資源や時間制約が広範なハイパーパラメータ検索を制限するシナリオにおいて、私たちの双曲型学習率スケジューラがディープニューラルネットワークのトレーニングにより堅牢で効率的なアプローチを提供することを示唆している。

This study proposes two novel learning rate schedulers: the Hyperbolic Learning Rate Scheduler (HyperbolicLR) and the Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR). These schedulers attempt to address the inconsistent learning curves often observed in conventional schedulers when adjusting the number of epochs. By leveraging the asymptotic behavior of hyperbolic curves, the proposed schedulers maintain more consistent learning curves across varying epoch settings. The HyperbolicLR algorithm directly applies this property to the epoch-learning rate space, while the ExpHyperbolicLR maps this concept onto the exponential space of epochs and learning rates. To evaluate the performance of these schedulers, first we found the optimal hyperparameters for each scheduler on a small number of epochs, fixed these values, and compared their performance as the number of epochs increased. Our experimental results on various deep learning tasks and architectures demonstrate that both HyperbolicLR and ExpHyperbolicLR maintain more consistent performance improvements compared to conventional schedulers as the number of epochs increases. These findings suggest that our hyperbolic-based learning rate schedulers offer a more robust and efficient approach to training deep neural networks, especially in scenarios where computational resources or time constraints limit extensive hyperparameter searches.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# 合成画像学習:パフォーマンスの確保とメンバーシップ推論攻撃の防止

Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks ( http://arxiv.org/abs/2407.15526v2 )

ライセンス: Link先を確認
Eugenio Lomurno, Matteo Matteucci, (参考訳) 生成的人工知能は、合成データの生成を変革し、データ不足やプライバシーといった課題に対する革新的な解決策を提供する。 しかし、この合成データを高性能モデルのトレーニングに効果的に利用することは、依然として大きな課題である。 本稿では、下流分類器の学習に合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を導入することにより、この問題に対処する。 このパイプラインの核心は生成的知識蒸留(GKD)であり、合成データセット再生とソフトラベリング機構を通じて分類器に提供する情報の品質と有用性を大幅に改善する技術である。 KRパイプラインはさまざまなデータセットでテストされており、網膜画像から臓器スキャンまで、非常に異質な6つの医療画像データセットに焦点を当てている。 その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。 さらに、得られたモデルはメンバーシップ推論攻撃に対するほぼ完全な免疫を示し、従来の手法で訓練されたモデルに欠けているプライバシー特性を示す。

Generative artificial intelligence has transformed the generation of synthetic data, providing innovative solutions to challenges like data scarcity and privacy, which are particularly critical in fields such as medicine. However, the effective use of this synthetic data to train high-performance models remains a significant challenge. This paper addresses this issue by introducing Knowledge Recycling (KR), a pipeline designed to optimise the generation and use of synthetic data for training downstream classifiers. At the heart of this pipeline is Generative Knowledge Distillation (GKD), the proposed technique that significantly improves the quality and usefulness of the information provided to classifiers through a synthetic dataset regeneration and soft labelling mechanism. The KR pipeline has been tested on a variety of datasets, with a focus on six highly heterogeneous medical image datasets, ranging from retinal images to organ scans. The results show a significant reduction in the performance gap between models trained on real and synthetic data, with models based on synthetic data outperforming those trained on real data in some cases. Furthermore, the resulting models show almost complete immunity to Membership Inference Attacks, manifesting privacy properties missing in models trained with conventional techniques.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# 効率的な骨格に基づく行動認識のための多モード共学習

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v4 )

ライセンス: Link先を確認
Jinfu Liu, Chen Chen, Mengyuan Liu, (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。 それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。 そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。 私たちのMMCLフレームワークは主に2つのモジュールで構成されています。 まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。 第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。 これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。 一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。 私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。

Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# 自然仮説クラスの計算可能学習

Computable learning of natural hypothesis classes ( http://arxiv.org/abs/2407.16663v2 )

ライセンス: Link先を確認
Matthew Harrison-Trainor, Syed Akbari, (参考訳) 本稿では,学習者に対する計算的要求が存在しない統計的学習理論と,学習者が多項式的に有界でなければならない効率的なPACとの間にある,計算学的にほぼ正しい学習の概念について述べる。 PACを学習できるが計算可能なPACを学習できない仮説クラスが最近与えられたが、これらの仮説クラスは証明、公式、プログラムの数に依存するという意味で非自然あるいは非正則である。 計算可能性理論のon-a-cone 機械を用いて、仮説クラスが計算可能リスト化可能であるような軽微な仮定の下では、学習可能な自然仮説クラスは計算可能リスト化可能であることを証明する。 したがって、以前に与えられた反例は必ずしも非自然である。

This paper is about the recent notion of computably probably approximately correct learning, which lies between the statistical learning theory where there is no computational requirement on the learner and efficient PAC where the learner must be polynomially bounded. Examples have recently been given of hypothesis classes which are PAC learnable but not computably PAC learnable, but these hypothesis classes are unnatural or non-canonical in the sense that they depend on a numbering of proofs, formulas, or programs. We use the on-a-cone machinery from computability theory to prove that, under mild assumptions such as that the hypothesis class can be computably listable, any natural hypothesis class which is learnable must be computably learnable. Thus the counterexamples given previously are necessarily unnatural.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# 顕微鏡としてのベンチマーク - モデルメトロロジーへのコール

Benchmarks as Microscopes: A Call for Model Metrology ( http://arxiv.org/abs/2407.16711v2 )

ライセンス: Link先を確認
Michael Saxon, Ari Holtzman, Peter West, William Yang Wang, Naomi Saphra, (参考訳) 現代の言語モデル(LM)は、能力評価において新たな課題を提起する。 静的ベンチマークは、LMベースのシステムのデプロイメント耐性に自信を持たずに必然的に飽和するが、それでも開発者は、彼らのモデルは、これらの欠陥のあるメトリクスに基づいた推論やオープンドメイン言語理解のような一般化された特徴を持っていると主張している。 LMの科学と実践は、動的アセスメントで特定の能力を測定するベンチマークに新しいアプローチを必要とする。 メトリクスに自信を持つためには、モデルメロジ – デプロイメント中のパフォーマンスを予測するベンチマークの生成方法に焦点を当てた、モデルメロジの新たな規律が必要です。評価基準によって、モデルメロジ実践者のコミュニティの構築 — ツールの構築とシステム機能の測定方法の研究 – が、これらのニーズを満たす最善の方法であり、AI議論に明快さを加える方法である、と概説します。

Modern language models (LMs) pose a new challenge in capability assessment. Static benchmarks inevitably saturate without providing confidence in the deployment tolerances of LM-based systems, but developers nonetheless claim that their models have generalized traits such as reasoning or open-domain language understanding based on these flawed metrics. The science and practice of LMs requires a new approach to benchmarking which measures specific capabilities with dynamic assessments. To be confident in our metrics, we need a new discipline of model metrology -- one which focuses on how to generate benchmarks that predict performance under deployment. Motivated by our evaluation criteria, we outline how building a community of model metrology practitioners -- one focused on building tools and studying how to measure system capabilities -- is the best way to meet these needs to and add clarity to the AI discussion.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# AIが金融(StockAgent)と出会う - 実環境を模擬した大規模言語モデルに基づくストックトレーディング

When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments ( http://arxiv.org/abs/2407.18957v2 )

ライセンス: Link先を確認
Chong Zhang, Xinyi Liu, Mingyu Jin, Zhongmou Zhang, Lingyao Li, Zhenting Wang, Wenyue Hua, Dong Shu, Suiyuan Zhu, Xiaobo Jin, Sujian Li, Mengnan Du, Yongfeng Zhang, (参考訳) AIエージェントは、現実世界のトレーディング環境をシミュレートして、外的要因が株式トレーディング活動(例えば、マクロ経済学、政策変更、企業基本、グローバルイベント)に与える影響を調査できますか? これらの要因は、しばしば取引行動に影響を与えるが、投資家の利益を最大化するための探求において重要な要素である。 我々の研究は、大規模言語モデルに基づくエージェントによってこの問題を解決しようと試みている。 LLMによって駆動されるマルチエージェントAIシステムであるStockAgentを開発した。 StockAgentを使えば、ユーザーはさまざまな外部要因が投資家の取引に与える影響を評価し、取引行動や収益性への影響を分析することができる。 さらに、StockAgentはAIエージェントに基づいた既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。 具体的には、モデルがテストデータに関して取得した可能性のある事前知識を活用するのを防ぐ。 実環境によく似たストックトレーディング環境で,StockAgentの枠組みの下で異なるLCMを評価した。 実験結果は、取引行動や株価変動ルールを含む外的要因が株式市場取引に与える影響を実証した。 本研究は,市場データに関する事前知識がない文脈において,エージェントの自由貿易ギャップについて検討する。 StockAgentシミュレーションで特定されたパターンは、LLMベースの投資アドバイスと株式レコメンデーションに貴重な洞察を与える。 コードはhttps://github.com/MingyuJ666/Stockagent.comで公開されている。

Can AI Agents simulate real-world trading environments to investigate the impact of external factors on stock trading activities (e.g., macroeconomics, policy changes, company fundamentals, and global events)? These factors, which frequently influence trading behaviors, are critical elements in the quest for maximizing investors' profits. Our work attempts to solve this problem through large language model based agents. We have developed a multi-agent AI system called StockAgent, driven by LLMs, designed to simulate investors' trading behaviors in response to the real stock market. The StockAgent allows users to evaluate the impact of different external factors on investor trading and to analyze trading behavior and profitability effects. Additionally, StockAgent avoids the test set leakage issue present in existing trading simulation systems based on AI Agents. Specifically, it prevents the model from leveraging prior knowledge it may have acquired related to the test data. We evaluate different LLMs under the framework of StockAgent in a stock trading environment that closely resembles real-world conditions. The experimental results demonstrate the impact of key external factors on stock market trading, including trading behavior and stock price fluctuation rules. This research explores the study of agents' free trading gaps in the context of no prior knowledge related to market data. The patterns identified through StockAgent simulations provide valuable insights for LLM-based investment advice and stock recommendation. The code is available at https://github.com/MingyuJ666/Stockagent.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# MMAU: さまざまなドメインにまたがるエージェント能力の全体的ベンチマーク

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains ( http://arxiv.org/abs/2407.18961v2 )

ライセンス: Link先を確認
Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、人間のようなエージェントとして機能を評価するための包括的なベンチマークの必要性が高まっている。 既存のベンチマークは有用だが、しばしば特定のアプリケーションシナリオに焦点を当て、タスクの完了を強調するが、これらの成果を導く基盤となるスキルを識別することができない。 この粒度の欠如は、障害がどこから来たのかを深く見分けるのを難しくする。 さらに、これらの環境のセットアップにはかなりの努力が必要であり、特に対話的なタスクにおいて、信頼性の欠如や再現性の問題が発生することがある。 これらの制約に対処するため、複雑な環境設定を不要にする包括的なオフラインタスクを備えたMMAU(Massive Multitask Agent Understanding)ベンチマークを導入する。 ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習のコーディング、コンテストレベルのプログラミングと数学を含む5つの領域にわたるモデルを評価し、理解、推論、計画、問題解決、自己補正の5つの重要な機能をカバーする。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。 MMAU上で18の代表的なモデルをテストすることで、深い洞察に富んだ分析を行う。 最終的に、MMAUはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性を高める。 MMAUのデータセットと評価スクリプトはhttps://github.com/apple/axlearn/tree/main/docs/research/mmauで公開されている。

Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including Tool-use, Directed Acyclic Graph (DAG) QA, Data Science and Machine Learning coding, Contest-level programming and Mathematics, and covers five essential capabilities: Understanding, Reasoning, Planning, Problem-solving, and Self-correction. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/tree/main/docs/research/mmau.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-30
# Relaxed Equivariant Graph Neural Networks

Relaxed Equivariant Graph Neural Networks ( http://arxiv.org/abs/2407.20471v1 )

ライセンス: Link先を確認
Elyssa Hofgard, Rui Wang, Robin Walters, Tess Smidt, (参考訳) 3次元ユークリッド対称性同変ニューラルネットワークは複雑な物理系のモデリングにおいて顕著な成功を収めた。 連続群における対称性の破れを学習し,表現できる,緩和された$E(3)$グラフ同変ニューラルネットワークの枠組みを導入する。 既存の e3nn フレームワークを基盤として,制御対称性の破れを許容する緩和重みの利用を提案する。 これらの緩和された重みは対称性の破れの正しい量を学ぶことを実証的に示している。

3D Euclidean symmetry equivariant neural networks have demonstrated notable success in modeling complex physical systems. We introduce a framework for relaxed $E(3)$ graph equivariant neural networks that can learn and represent symmetry breaking within continuous groups. Building on the existing e3nn framework, we propose the use of relaxed weights to allow for controlled symmetry breaking. We show empirically that these relaxed weights learn the correct amount of symmetry breaking.
翻訳日:2024-07-31 18:38:42 公開日:2024-07-30
# 分子回帰のための分布学習

Distribution Learning for Molecular Regression ( http://arxiv.org/abs/2407.20475v1 )

ライセンス: Link先を確認
Nima Shoghi, Pooya Shoghi, Anuroop Sriram, Abhishek Das, (参考訳) モデルパフォーマンスを改善するために"ソフト"ターゲットを使用することは、分類設定において有効であることが示されているが、回帰のためのソフトターゲットの使用は、機械学習においてあまり研究されていないトピックである。 回帰のためのソフトターゲットの使用に関する既存の文献は、手法の限界を適切に評価することができず、経験的評価は非常に限られている。 本研究では,分子特性回帰タスクに適用した場合の既存手法の強みと欠点を評価する。 本評価では,既存手法における重要なバイアスを概説し,それに対応する方法を提案する。 モデル非依存かつデータ非依存な回帰法で、モデルがターゲットの確率分布を予測することを訓練する。 提案した損失関数は, 予測分布と目標分布の交叉エントロピーと, 予測値間のL1距離とを組み合わせて, 概略バイアスに頑健な損失関数を生成する。 分子特性予測データセットであるOpen Catalyst (OC20), MD17, QM9の異なるバックボーンモデルアーキテクチャであるSchNet, GemNet, GraphormerにおけるDMoEの性能を評価する。 提案手法は分子特性予測タスクにおける古典的回帰の代替として有望であることを示すとともに,全てのデータセットやアーキテクチャ上でのベースラインの向上を示す。

Using "soft" targets to improve model performance has been shown to be effective in classification settings, but the usage of soft targets for regression is a much less studied topic in machine learning. The existing literature on the usage of soft targets for regression fails to properly assess the method's limitations, and empirical evaluation is quite limited. In this work, we assess the strengths and drawbacks of existing methods when applied to molecular property regression tasks. Our assessment outlines key biases present in existing methods and proposes methods to address them, evaluated through careful ablation studies. We leverage these insights to propose Distributional Mixture of Experts (DMoE): A model-independent, and data-independent method for regression which trains a model to predict probability distributions of its targets. Our proposed loss function combines the cross entropy between predicted and target distributions and the L1 distance between their expected values to produce a loss function that is robust to the outlined biases. We evaluate the performance of DMoE on different molecular property prediction datasets -- Open Catalyst (OC20), MD17, and QM9 -- across different backbone model architectures -- SchNet, GemNet, and Graphormer. Our results demonstrate that the proposed method is a promising alternative to classical regression for molecular property prediction tasks, showing improvements over baselines on all datasets and architectures.
翻訳日:2024-07-31 18:38:42 公開日:2024-07-30
# ガウスボソニックネットワークにおける光子計数統計

Photon counting statistics in Gaussian bosonic networks ( http://arxiv.org/abs/2407.20477v1 )

ライセンス: Link先を確認
Kalle S. U. Kansanen, Pedro Portugal, Christian Flindt, Peter Samuelsson, (参考訳) マイクロ波キャビティにおける透過光子の統計は、マイクロ波量子光学とその技術応用において基礎的な役割を果たす。 量子メカニカル位相空間法を用いて,ビームスプリッタ相互作用と2モードスクイーズを含む駆動キャビティからなるガウスボソニックネットワークにおける光子計数統計学の一般理論を開発する。 ネットワークのダイナミクスは、キャビティ場の共分散行列に対するリャプノフ方程式(英語版)(Lyapunov equation)によって捉えられる。 リカティ方程式を解くことにより、励起光子と吸収光子の統計値と、待ち時間分布と二階コヒーレンス関数に符号化される時間依存相関値を得る。 理論的枠組みを説明するために、まず2つの連結キャビティからなる単純な線形ネットワークに適用し、光子相互相関を評価し、光子放射統計とキャビティ間の絡み合いを議論する。 次に, 3つの連結キャビティからなるボソニック循環器について検討し, 合成フラックスが光子流の方向に与える影響を最近の実験と同様に検討した。 我々の一般的な枠組みは、ガウスのボソニックネットワークにおける光子計数統計の体系的な研究の道を開くものである。

The statistics of transmitted photons in microwave cavities play a foundational role in microwave quantum optics and its technological applications. By utilizing quantum mechanical phase-space methods, we here develop a general theory of the photon counting statistics in Gaussian bosonic networks consisting of driven cavities with beamsplitter interactions and two-mode-squeezing. The dynamics of the network can be captured by a Lyapunov equation for the covariance matrix of the cavity fields, which generalizes to a Riccati equation, when counting fields are included. By solving the Riccati equation, we obtain the statistics of emitted and absorbed photons as well as the time-dependent correlations encoded in waiting time distributions and second-order coherence functions. To illustrate our theoretical framework, we first apply it to a simple linear network consisting of two coupled cavities, for which we evaluate the photon cross-correlations and discuss connections between the photon emission statistics and the entanglement between the cavities. We then consider a bosonic circulator consisting of three coupled cavities, for which we investigate how a synthetic flux may affect the direction of the photon flow, similarly to recent experiments. Our general framework paves the way for systematic investigations of the photon counting statistics in Gaussian bosonic networks.
翻訳日:2024-07-31 18:38:42 公開日:2024-07-30
# 非エルミート作用素に対する強和不確かさ関係

Stronger sum uncertainty relations for non-Hermitian operators ( http://arxiv.org/abs/2407.20481v1 )

ライセンス: Link先を確認
Xiao-Feng Song, Yi-Fang Ren, Shuang Liu, Xi-Hao Chen, Yusuf Turek, (参考訳) 過去の分散の積で表される2つの任意の非互換可観測体の不確実性関係とは異なり、分散の和によってそれらを表現することは、いくつかの特別な場合において2つの非互換作用素に対して非自明であることを保証するため、より良い。 不確実性関係はユニタリ作用素の分散の和として定式化されているが、任意の非エルミート作用素の一般形式はまだ詳細には研究されていない。 そこで本研究では、適切なヒルベルト空間計量を用いて、系の状態に作用する任意の非エルミート作用素に対する4つの和不確実性関係を論じる。 従来の量子力学と互換性のある和の不等式は、$G$-metric formalism(英語版)によっても提供される。 具体的な例は、$\mathcal{PT}$-symmetric と $\mathcal{PT}$-breakken 相の両方において目的とする和の不確実性関係の有効性を示す。 提案した手法と結果は、非エルミート量子力学における$G$-metricformismの有用性と、非互換作用素の和不確実性関係の深い理解に役立つ。

Unlike the uncertainty relationships of two arbitrary incompatible observables represented by the product of variances in the past, representing them by the sum of variances is better as it guarantees to be nontrivial for two incompatible operators in some special cases. Although the uncertainty relation is formulated as the sum of variances for unitary operators has been confirmed, its general forms for arbitrary non-Hermitian operators have not been yet investigated in detail. Thus, this study develops four sum uncertainty relations for arbitrary non-Hermitian operators acting on system states by utilizing an appropriate Hilbert-space metric. The compatible forms of our sum inequalities with the conventional quantum mechanics are also provided via $G$-metric formalism. Concrete examples demonstrate the validity of the purposed sum uncertainty relations in both $\mathcal{PT}$-symmetric and $\mathcal{PT}$-broken phases. The proposed methods and results can help the reader to understand in-depth the usefulness of $G$-metric formalism in non-Hermitian quantum mechanics and the sum uncertainty relations of incompatible operators within.
翻訳日:2024-07-31 18:38:42 公開日:2024-07-30
# A2SF: 変圧器デコーダにおけるトーケンプルーニングの予測因子による累積アテンションスコアリング

A2SF: Accumulative Attention Scoring with Forgetting Factor for Token Pruning in Transformer Decoder ( http://arxiv.org/abs/2407.20485v1 )

ライセンス: Link先を確認
Hyun Rae Jo, Dong Kun Shin, (参考訳) 近年,大規模な言語モデル(LLM)がKVキャッシュによるメモリボトルネックに直面している。 従来の研究では、累積注意スコアに基づいて重要なトークンを識別し、KVキャッシュからアイテムを除去するKVキャッシュ圧縮技術が提案されており、注意操作において重要な役割を果たすトークンはごくわずかである。 しかし,既存の累積アテンションスコアはトランスデコーダ構造には適さないことがわかった。 デコーダモデルでは、アテンションスコアが蓄積する回数はマスキングの影響によりトークンの出現順序によって異なり、トークン間の不均一な比較を引き起こす。 そこで本研究では, 留意点蓄積プロセスにおいて, 留意点累積係数を導入した累積留意点(A2SF)技術を提案する。 A2SFは古いトークンから生成された過去の注意スコアにペナルティを適用します。 したがって、古いトークンはより大きなペナルティを受け、異なる時代のトークンに公平さをもたらす。 トークン間の公正比較により、重要なトークンをより効果的に選択できる。 OPTおよびLLaMAモデルにおけるA2SFによる精度向上を検証し、A2SFは1ショットと0ショットでLLaMA 2の精度を最大7.8%改善する。

Recently, large language models (LLM) based on transformers are facing memory bottleneck issues due to KV cache, especially in long sequence handling. Previous researches proposed KV cache compression techniques that identify insignificant tokens based on Accumulative Attention Scores and removes their items from KV cache, noting that only few tokens play an important role in attention operations. However, we have observed that the existing Accumulative Attention Score is not suitable for the transformer decoder structure. In the decoder model, the number of times the Attention Score accumulates varies depending on the order of token appearance due to the effect of masking, causing an uneven comparison between tokens. To solve this, we propose Accumulative Attention Score with Forgetting Factor (A2SF) technique, which introduces a Forgetting Factor in the Attention Score accumulation process. A2SF applies a penalty to the past Attention Score generated from old tokens by repeatedly multiplying the Forgetting Factor to the Attention Score over time. Therefore, older tokens receive a larger penalty, providing fairness among different ages of tokens. Through the fair comparison among tokens, we can more effectively select important tokens. We have verified the accuracy improvement through A2SF in the OPT and LLaMA models and A2SF improves the accuracy of LLaMA 2 by up to 7.8% and 5.1% on 1-shot and 0-shot.
翻訳日:2024-07-31 18:38:42 公開日:2024-07-30
# 原X線画像からの骨密度推定のための前処理と分解能スケーリングによる定量的画像合成の強化

Enhancing Quantitative Image Synthesis through Pretraining and Resolution Scaling for Bone Mineral Density Estimation from a Plain X-ray Image ( http://arxiv.org/abs/2407.20495v1 )

ライセンス: Link先を確認
Yi Gu, Yoshito Otake, Keisuke Uemura, Masaki Takao, Mazen Soufi, Seiji Okada, Nobuhiko Sugano, Hugues Talbot, Yoshinobu Sato, (参考訳) ほとんどの視覚タスクは本質的に視覚的な(認識のための)ものであるが、医療分野において重要なタスクは、定量画像を用いた定量的解析(定量化のための)も必要である。 視覚解析とは異なり、定量的画像の画素値は、特定のデバイス(例えば深度画像)によって測定された物理メトリクスに対応する。 しかし、近年の研究では、視覚的値(例えば、視覚的手がかりやデフォーカスからの深さ)から正確な定量値の合成が可能であることが示されている。 本研究の目的は、事前学習と画像分解能のスケーリングを探索することで、定量的画像合成(QIS)を改善することである。 合成量画像を用いてBMDを導出する原X線画像から,QISに基づく骨密度推定(BMD)タスクを用いて事前学習性能を評価するベンチマークを提案する。 以上の結果から,適切な事前学習がQIS性能の向上に寄与し,BMD推定値の0.820から0.898への相関が著しく高まった。 分解能のスケールアップにより相関は0.923まで向上し、従来の方法よりも大幅に向上する。 今後の作業には、事前学習戦略の探索や、他の画像合成タスクでの検証が含まれる。

While most vision tasks are essentially visual in nature (for recognition), some important tasks, especially in the medical field, also require quantitative analysis (for quantification) using quantitative images. Unlike in visual analysis, pixel values in quantitative images correspond to physical metrics measured by specific devices (e.g., a depth image). However, recent work has shown that it is sometimes possible to synthesize accurate quantitative values from visual ones (e.g., depth from visual cues or defocus). This research aims to improve quantitative image synthesis (QIS) by exploring pretraining and image resolution scaling. We propose a benchmark for evaluating pretraining performance using the task of QIS-based bone mineral density (BMD) estimation from plain X-ray images, where the synthesized quantitative image is used to derive BMD. Our results show that appropriate pretraining can improve QIS performance, significantly raising the correlation of BMD estimation from 0.820 to 0.898, while others do not help or even hinder it. Scaling-up the resolution can further boost the correlation up to 0.923, a significant enhancement over conventional methods. Future work will include exploring more pretraining strategies and validating them on other image synthesis tasks.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 階層的N:M空間のGPU上での効率的な置換に向けて

Toward Efficient Permutation for Hierarchical N:M Sparsity on GPUs ( http://arxiv.org/abs/2407.20496v1 )

ライセンス: Link先を確認
Seungmin Yu, Xiaodie Yi, Hayun Lee, Dongkun Shin, (参考訳) N:Mスパシティプルーニングは、NVIDIAのスパーステンソルコア技術を利用して、ディープニューラルネットワークを圧縮する強力な技術である。 この手法はスパースインデクシングのハードウェアサポートの恩恵を受けており、不規則なデータアクセスに関連するオーバーヘッドを最小限に抑えつつ、きめ細かなスペーシングをモデル精度を維持することができる。 ハードウェアに依存しているため、一定の間隔に制限されるが、N:M間隔は、様々な圧縮比を達成するために粗い間隔技術と組み合わせることができる。 当初、列ワイドベクトル空間は密度モデルに適用され、その後保存された列ベクトル上で行ワイドN:M空間が続く。 このマルチレベルアプローチを階層的N:M(HiNM)スパシティと呼ぶ。 従来のシングルレベルスパンサリティ技術と同様に、HiNMスパンサリティは圧縮されたネットワークの精度を最大化するために効果的なチャネル置換戦略を必要とする。 しかし、入力チャネルと出力チャネルの両方の再配置を必要とし、置換シーケンス、HiNMスパーシリティ対応の置換といった課題に対処し、層間のチャネル順序の整合性を維持することで、さらなる複雑さがもたらされる。 本稿では, ジャイロ置換(gyro-permutation)という, HiNM空間に特化して設計されたチャネル置換法を提案する。 本手法は, チャネルサンプリング, クラスタリング, 割り当てを含む各置換相に戦略方針を取り入れ, 局所最小化を回避することで, 局所最小化の独特な特徴を生かした。 また,HiNMスパースネットワーク実行時の独立層置換を容易にするGPUカーネルを開発した。 各種DNNモデルに対する広範囲な実験的評価により、我々のジャイロ置換は、HiNMスパースネットワークの精度を大幅に向上し、非構造化スパースネットワークのものと同等の性能レベルに達することが示されている。

N:M sparsity pruning is a powerful technique for compressing deep neural networks, utilizing NVIDIA's Sparse Tensor Core technology. This method benefits from hardware support for sparse indexing, enabling the adoption of fine-grained sparsity to maintain model accuracy while minimizing the overhead typically associated with irregular data access. Although restricted to a fixed level of sparsity due to its reliance on hardware, N:M sparsity can be combined with coarser sparsity techniques to achieve diverse compression ratios. Initially, column-wise vector sparsity is applied to a dense model, followed by row-wise N:M sparsity on the preserved column vectors. We call this multi-level approach as hierarchical N:M (HiNM) sparsity. Similar to earlier single-level sparsity techniques, HiNM sparsity necessitates an effective channel permutation strategy to maximize the accuracy of the compressed networks. However, it introduces further complexities by requiring the rearrangement of both input and output channels, addressing challenges such as permutation sequence, HiNM-sparsity-aware permutation, and maintaining consistency in channel ordering across layers. In this paper, we introduce a channel permutation method designed specifically for HiNM sparsity, named gyro-permutation. This method is crafted to exploit the unique characteristics of HiNM pruning, incorporating a strategic policy in each permutation phase, including channel sampling, clustering, and assignment, to circumvent local minima. Additionally, we have developed a GPU kernel that facilitates independent layer permutation during the execution of HiNM sparse networks. Our extensive experimental evaluations on various DNN models demonstrate that our gyro-permutation significantly enhances the accuracy of HiNM sparse networks, allowing them to reach performance levels comparable to those of unstructured sparse networks.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 構造表現の強化によるグラフニューラルネットワークのロングテールリンク予測の最適化

Optimizing Long-tailed Link Prediction in Graph Neural Networks through Structure Representation Enhancement ( http://arxiv.org/abs/2407.20499v1 )

ライセンス: Link先を確認
Yakun Wang, Daixin Wang, Hongrui Liu, Binbin Hu, Yingcui Yan, Qiyang Zhang, Zhiqiang Zhang, (参考訳) グラフニューラルネットワーク(GNN)の基本課題であるリンク予測は、さまざまな領域において大きな進歩を遂げている。 その成功は一般にノード表現の表現力に影響されるが、近年の進歩は、その疎い隣り合う接続により、次数ベース長尾問題として知られる低次ノードの性能が劣っていることを示している。 次数に基づく長尾分布は、リンク予測におけるGNNの有効性をも同様に制限するのだろうか? 予期せぬ結果,ノードの次数と予測精度の間には軽度な相関しか存在しないことが判明し,さらに重要な点として,ノード間の共通近傍の数は精度と強い相関関係を示す。 あまり一般的でない近傍のノードペア、すなわちテールノードペアは、データセットのかなりの部分を占めるが、性能は悪く、リンク予測も長い尾の問題に直面していると提案する。 したがって、GNNのリンク予測はテールノードペアによって大きく妨げられる。 リンク予測の弱点を知った後、リンク予測の性能を向上させるために、スクイード長尾分布の悪影響をどうやって排除できるのかという自然の疑問が持ち上がった。 この目的のために,リンク予測におけるテールノードペアの性能向上を目的としたLong-tailed framework(LTLP)を導入する。 LTLPの2つのキーモジュールは、それぞれ尾ノードペアの高品質なエッジを補完し、頭と尾ノードペア間の表現的アライメントを同じカテゴリ内で実施することにより、尾ノードペアのパフォーマンスを向上させる。

Link prediction, as a fundamental task for graph neural networks (GNNs), has boasted significant progress in varied domains. Its success is typically influenced by the expressive power of node representation, but recent developments reveal the inferior performance of low-degree nodes owing to their sparse neighbor connections, known as the degree-based long-tailed problem. Will the degree-based long-tailed distribution similarly constrain the efficacy of GNNs on link prediction? Unexpectedly, our study reveals that only a mild correlation exists between node degree and predictive accuracy, and more importantly, the number of common neighbors between node pairs exhibits a strong correlation with accuracy. Considering node pairs with less common neighbors, i.e., tail node pairs, make up a substantial fraction of the dataset but achieve worse performance, we propose that link prediction also faces the long-tailed problem. Therefore, link prediction of GNNs is greatly hindered by the tail node pairs. After knowing the weakness of link prediction, a natural question is how can we eliminate the negative effects of the skewed long-tailed distribution on common neighbors so as to improve the performance of link prediction? Towards this end, we introduce our long-tailed framework (LTLP), which is designed to enhance the performance of tail node pairs on link prediction by increasing common neighbors. Two key modules in LTLP respectively supplement high-quality edges for tail node pairs and enforce representational alignment between head and tail node pairs within the same category, thereby improving the performance of tail node pairs.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 混合状態に対する位相的絡み合いエントロピーの類似

An analog of topological entanglement entropy for mixed states ( http://arxiv.org/abs/2407.20500v1 )

ライセンス: Link先を確認
Ting-Tung Wang, Menghan Song, Zi Yang Meng, Tarun Grover, (参考訳) 混合状態における長距離絡みの診断として,量子条件付き相互情報の凸ルーフ拡張("co(QCMI)")を提案する。 我々は主に局所的デコヒーレンスを受けるトポロジカルな状態に注目し、純粋な状態に対してco(QCMI)が位相的絡み合いエントロピー(TEE)に等しいようにco(QCMI)を定義するためにLevin-Wenスキームを用いる。 構成上、co(QCMI) が 0 であることと、混合状態が TEE が 0 である純粋な状態の凸和として分解できることは同値である。 クラウス作用素がオンサイトユニタリの積に比例する場合、co(QCMI) はデコヒーレンスの増加とともに増加しないことを示す。 このことは、位相的自明な位相と非自明な位相の間の純粋な状態遷移とは異なり、co(QCMI) によって定量化されたデコヒーレンス誘起位相転移における長距離の絡み合いは、近位位相においてそれより小さいか等しいことを意味する。 オンサイトビット/位相フリップ雑音でデコヒーレントされた2dトーリック符号に対して、co(QCMI)が誤差回復しきい値以下でゼロであることを示す。 相対的に、デコヒード状態は、閾値の下にある短距離の絡み合った純粋な状態の凸和として書けない。 この例では、co(QCMI) が最近導入された純状態の TEE と等しいことを示す。 特に,上述の純状態に対するR'enyi TEEを効率よく評価するテンソル支援モンテカルロ計算法を開発し,我々の予想に対する非自明な整合性チェックを提供する。 また, この遷移において, 任意の凝縮次数パラメータの普遍的スケーリング次元を計算するために, TMC を用いる。

We propose the convex-roof extension of quantum conditional mutual information ("co(QCMI)") as a diagnostic of long-range entanglement in a mixed state. We focus primarily on topological states subjected to local decoherence, and employ the Levin-Wen scheme to define co(QCMI), so that for a pure state, co(QCMI) equals topological entanglement entropy (TEE). By construction, co(QCMI) is zero if and only if a mixed state can be decomposed as a convex sum of pure states with zero TEE. We show that co(QCMI) is non-increasing with increasing decoherence when Kraus operators are proportional to the product of onsite unitaries. This implies that unlike a pure state transition between a topologically trivial and a non-trivial phase, the long-range entanglement at a decoherence-induced topological phase transition as quantified by co(QCMI) is less than or equal to that in the proximate topological phase. For the 2d toric code decohered by onsite bit/phase-flip noise, we show that co(QCMI) is non-zero below the error-recovery threshold and zero above it. Relatedly, the decohered state cannot be written as a convex sum of short-range entangled pure states below the threshold. We conjecture and provide evidence that in this example, co(QCMI) equals TEE of a recently introduced pure state. In particular, we develop a tensor-assisted Monte Carlo (TMC) computation method to efficiently evaluate the R\'enyi TEE for the aforementioned pure state and provide non-trivial consistency checks for our conjecture. We use TMC to also calculate the universal scaling dimension of the anyon-condensation order parameter at this transition.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# リアルタイムの劣化イベントの復元が品質の低下を改善

Restoring Real-World Degraded Events Improves Deblurring Quality ( http://arxiv.org/abs/2407.20502v1 )

ライセンス: Link先を確認
Yeqing Shen, Shang Li, Kun Song, (参考訳) 高速かつ低レイテンシのため、DVSは動作不良によく使用される。 理想的には、高品質なイベントは複雑な動き情報を取り込む。 しかし、現実世界のイベントは一般的に分解され、その結果に重要なアーティファクトが導入される。 この課題に対して、我々はイベントの劣化をモデル化し、画像の劣化を改善するためにRDNetを提案する。 具体的には、まず、分解の基礎となるメカニズムを分析し、それに基づいてペア化されたイベントをシミュレートする。 これらのペア化されたイベントはRDNetの最初のステージに送られ、復元モデルをトレーニングする。 この段階で復元されたイベントは、第二段階のデブロアリングプロセスのガイドとして機能する。 実世界の劣化イベントにおける異なる手法の劣化性能をよりよく評価するために,DavisMCRという新しい実世界のデータセットを提案する。 このデータセットは、環境の明るさと対象物のコントラストを操作することによって収集される、さまざまな劣化レベルを持つイベントを包含する。 本研究では,合成データセット(GOPRO),実世界のデータセット(REBlur),提案データセット(DavisMCR)を用いて実験を行った。 その結果,RDNetはイベント復元における古典的イベントデノゲーション手法よりも優れていた。 さらにRDNetは、最先端の手法と比較して、デブロアリングタスクのパフォーマンスが向上している。 DavisMCRはhttps://github.com/Yeeesir/DVS_RDNet.comで入手できる。

Due to its high speed and low latency, DVS is frequently employed in motion deblurring. Ideally, high-quality events would adeptly capture intricate motion information. However, real-world events are generally degraded, thereby introducing significant artifacts into the deblurred results. In response to this challenge, we model the degradation of events and propose RDNet to improve the quality of image deblurring. Specifically, we first analyze the mechanisms underlying degradation and simulate paired events based on that. These paired events are then fed into the first stage of the RDNet for training the restoration model. The events restored in this stage serve as a guide for the second-stage deblurring process. To better assess the deblurring performance of different methods on real-world degraded events, we present a new real-world dataset named DavisMCR. This dataset incorporates events with diverse degradation levels, collected by manipulating environmental brightness and target object contrast. Our experiments are conducted on synthetic datasets (GOPRO), real-world datasets (REBlur), and the proposed dataset (DavisMCR). The results demonstrate that RDNet outperforms classical event denoising methods in event restoration. Furthermore, RDNet exhibits better performance in deblurring tasks compared to state-of-the-art methods. DavisMCR are available at https://github.com/Yeeesir/DVS_RDNet.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 長期時系列予測のための連合型大言語モデル

A federated large language model for long-term time series forecasting ( http://arxiv.org/abs/2407.20503v1 )

ライセンス: Link先を確認
Raed Abdel-Sater, A. Ben Hamza, (参考訳) 中央集権環境での時系列予測は、データプライバシ、通信オーバーヘッド、スケーラビリティに関する固有の課題をもたらす。 これらの課題に対処するために、長距離時系列予測に適した連合型大言語モデル(LLM)であるFedTimeを提案する。 具体的には、ファインチューニングとアライメント戦略を備えたフェデレーション付きプレトレーニングLDMを導入する。 学習プロセスの前には、エッジデバイスやクライアントを別のクラスタに分割するためにK平均クラスタリングを使用します。 また、チャネルの独立性やパッチの適用により、ローカルな意味情報をよりよく保存し、重要なコンテキストの詳細が保持され、情報損失のリスクを最小限に抑える。 我々はFedTimeモデルの有効性を、様々な実世界の予測ベンチマークで広範な実験を通して実証し、最近のアプローチよりも大幅に改善されていることを示す。 さらに、リソース使用量の合理化におけるFedTimeの効率性を実証し、通信オーバーヘッドを低減した。

Long-term time series forecasting in centralized environments poses unique challenges regarding data privacy, communication overhead, and scalability. To address these challenges, we propose FedTime, a federated large language model (LLM) tailored for long-range time series prediction. Specifically, we introduce a federated pre-trained LLM with fine-tuning and alignment strategies. Prior to the learning process, we employ K-means clustering to partition edge devices or clients into distinct clusters, thereby facilitating more focused model training. We also incorporate channel independence and patching to better preserve local semantic information, ensuring that important contextual details are retained while minimizing the risk of information loss. We demonstrate the effectiveness of our FedTime model through extensive experiments on various real-world forecasting benchmarks, showcasing substantial improvements over recent approaches. In addition, we demonstrate the efficiency of FedTime in streamlining resource usage, resulting in reduced communication overhead.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# マルチエージェント・ディベートによるMLLMの幻覚の解釈と緩和

Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate ( http://arxiv.org/abs/2407.20505v1 )

ライセンス: Link先を確認
Zheng Lin, Zhenxing Niu, Zhibin Wang, Yinghui Xu, (参考訳) MLLMは視覚内容と矛盾しない出力をしばしば生成するが、これは幻覚として知られる挑戦である。 それまでの方法は、どの画像領域が幻覚につながるかを特定したり、なぜ幻覚が起こるのかを解釈することなく、生成した出力が幻覚化されているかどうかを判断することに集中していた。 本稿では, MLLMにおける幻覚は, これらのモデルにおいて, 緩やかな思考と発散的な思考が欠如していることが原因である,と論じる。 これを解決するために,スロー思考を促進する自己修正方式を提案する。 さらに,幻覚を複雑な推論課題として排除することを検討した。 したがって,本手法は幻覚を緩和するだけでなく,その原因を解明し,幻覚の特異点を詳述する。 また,MLLMの創造性と幻覚を区別し,MLLMの創造性を評価する方法について述べる。 様々なベンチマーク実験により,本手法は複数のMLLMにまたがる一般化幻覚軽減性能を示すことが示された。

MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination. Previous methods focus on determining whether a generated output is hallucinated, without identifying which image region leads to the hallucination or interpreting why such hallucinations occur. In this paper, we argue that hallucination in MLLMs is partially due to a lack of slow-thinking and divergent-thinking in these models. To address this, we propose adopting a self-reflection scheme to promote slow-thinking. Furthermore, we consider eliminating hallucination as a complex reasoning task and propose a multi-agent debate approach to encourage divergent-thinking. Consequently, our approach can not only mitigate hallucinations but also interpret why they occur and detail the specifics of hallucination. In addition, we propose to distinguish creativity from hallucination in the context of MLLMs, and illustrate how to evaluate MLLMs' creativity capability. Extensive experiments on various benchmarks demonstrate that our approach exhibits generalized hallucinations-mitigating performance across several MLLMs.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 因果知識によるタスク非依存探索の効率化

Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge ( http://arxiv.org/abs/2407.20506v1 )

ライセンス: Link先を確認
Yupei Yang, Biwei Huang, Shikui Tu, Lei Xu, (参考訳) モデルトレーニングの有効性は、利用可能なトレーニングリソースの品質に大きく依存している。 しかし、予算の制約は、しばしばデータ収集の取り組みに制限を課します。 この課題に対処するために、本論文では、データ収集とモデルトレーニングの両方に根底にある因果知識を活用する戦略である因果探索を紹介する。 特に,タスク非依存強化学習分野における世界モデル学習のサンプル効率と信頼性の向上に重点を置いている。 調査期間中、エージェントは、世界モデルトレーニングにおいて最も有益な因果的洞察を得るであろう行動を選択する。 同時に、因果的知識が取得され、進行中のデータ収集によって漸進的に洗練される。 我々は、因果探索が少ないデータを用いて正確な世界モデルを学ぶのに役立つことを実証し、その収束に関する理論的保証を提供する。 人工データと実世界の応用に関する実証実験は、因果探索の利点をさらに検証する。

The effectiveness of model training heavily relies on the quality of available training resources. However, budget constraints often impose limitations on data collection efforts. To tackle this challenge, we introduce causal exploration in this paper, a strategy that leverages the underlying causal knowledge for both data collection and model training. We, in particular, focus on enhancing the sample efficiency and reliability of the world model learning within the domain of task-agnostic reinforcement learning. During the exploration phase, the agent actively selects actions expected to yield causal insights most beneficial for world model training. Concurrently, the causal knowledge is acquired and incrementally refined with the ongoing collection of data. We demonstrate that causal exploration aids in learning accurate world models using fewer data and provide theoretical guarantees for its convergence. Empirical experiments, on both synthetic data and real-world applications, further validate the benefits of causal exploration.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 空間的時間正規化と符号化戦略によるグラフ表現学習におけるスパイキングダイナミクスの可能性

Unveiling the Potential of Spiking Dynamics in Graph Representation Learning through Spatial-Temporal Normalization and Coding Strategies ( http://arxiv.org/abs/2407.20508v1 )

ライセンス: Link先を確認
Mingkun Xu, Huifeng Yin, Yujie Wu, Guoqi Li, Faqiang Liu, Jing Pei, Shuai Zhong, Lei Deng, (参考訳) 近年、スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンのエネルギー効率と事象駆動処理を再現する可能性から、かなりの関心を集めている。 それにもかかわらず、グラフ表現学習におけるSNNの適用、特に非ユークリッドデータに対する適用は未定であり、グラフ学習に対するスパイクダイナミクスの影響はまだ完全には理解されていない。 この研究は、グラフ表現学習の強化におけるスパイキングダイナミクスのユニークな性質と利点を調べることによって、これらのギャップに対処することを目指している。 本稿では,新しい時空間特徴正規化(STFN)技術によって強化されたスパイキングダイナミクスを取り入れたスパイクベースのグラフニューラルネットワークモデルを提案する。 我々の詳細な分析では、レートコーディングとテンポラルコーディングがSNNのパフォーマンスに与える影響について検討し、ディープグラフネットワークのアドバンテージに関する新たな洞察を提供し、過度にスムースな問題のような課題に対処する。 実験により,我々のSNNモデルが最先端グラフニューラルネットワーク(GNN)と競合する性能を達成できることを示すとともに,計算コストを大幅に削減し,複雑なグラフベースシナリオにおける効率的なニューロモルフィックコンピューティング応用のためのSNNの可能性を明らかにする。

In recent years, spiking neural networks (SNNs) have attracted substantial interest due to their potential to replicate the energy-efficient and event-driven processing of biological neurons. Despite this, the application of SNNs in graph representation learning, particularly for non-Euclidean data, remains underexplored, and the influence of spiking dynamics on graph learning is not yet fully understood. This work seeks to address these gaps by examining the unique properties and benefits of spiking dynamics in enhancing graph representation learning. We propose a spike-based graph neural network model that incorporates spiking dynamics, enhanced by a novel spatial-temporal feature normalization (STFN) technique, to improve training efficiency and model stability. Our detailed analysis explores the impact of rate coding and temporal coding on SNN performance, offering new insights into their advantages for deep graph networks and addressing challenges such as the oversmoothing problem. Experimental results demonstrate that our SNN models can achieve competitive performance with state-of-the-art graph neural networks (GNNs) while considerably reducing computational costs, highlighting the potential of SNNs for efficient neuromorphic computing applications in complex graph-based scenarios.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# ジアザ-ナノキセンを用いたスピン-1/2反強磁性ハイゼンベルク鎖の創製

Building spin-1/2 antiferromagnetic Heisenberg chains with diaza-nanographenes ( http://arxiv.org/abs/2407.20511v1 )

ライセンス: Link先を確認
Xiaoshuai Fu, Li Huang, Kun Liu, João C. G. Henriques, Yixuan Gao, Xianghe Han, Hui Chen, Yan Wang, Carlos-Andres Palma, Zhihai Cheng, Xiao Lin, Shixuan Du, Ji Ma, Joaquín Fernández-Rossier, Xinliang Feng, Hong-Jun Gao, (参考訳) ナノマテリアルにおけるスピンのカップリングの理解と工学は、新しいデバイスの設計において重要な役割を担っている。 グラフェンナノ構造は、量子磁気相互作用を研究するための化学的に調整可能なプラットフォームを提供する。 しかし、適切なナノグラフェン系で制御された奇数均一効果を持つスピン鎖の実現は困難である。 ここでは, 反芳香族ジアザ-ヘキサ-ペリ-ヘキサベンゾコロン (ジアザ-HBC) 単位をベースとした, パリティ依存磁化によるスピン-1/2反強磁性ハイゼンベルク鎖のその場合成に成功したことを示す。 異なる合成戦略を用いて、異なる末端を持つ2種類のスピン鎖を合成し、どちらも鎖に沿ったスピンカップリングに強い奇異な効果を示した。 走査トンネル顕微鏡、非接触原子間力顕微鏡、密度汎関数理論計算、量子スピンモデルを用いて、ダイアザ-HBC鎖の構造を確認し、ダイアザ-HBCコアからAu(111)基板への電子供与による単位あたりのS = 1/2スピンを持つ磁気特性を明らかにした。 偶数鎖でギャップ励起が観測され、一方、不対スピンの再分配により奇数鎖の奇数単位に拡張近藤共鳴が出現した。 本研究は, ナノグラフェンスピン鎖の構築と磁気特性の奇異性効果を明らかにするための効果的な戦略を提供し, ナノスケールスピントロニクスへの応用の可能性を示した。

Understanding and engineering the coupling of spins in nanomaterials is of central importance for designing novel devices. Graphene nanostructures with {\pi}-magnetism offer a chemically tunable platform to explore quantum magnetic interactions. However, realizing spin chains bearing controlled odd-even effects with suitable nanographene systems is challenging. Here, we demonstrate the successful on-surface synthesis of spin-1/2 antiferromagnetic Heisenberg chains with parity-dependent magnetization based on antiaromatic diaza-hexa-peri-hexabenzocoronene (diaza-HBC) units. Using distinct synthetic strategies, two types of spin chains with different terminals were synthesized, both exhibiting a robust odd-even effect on the spin coupling along the chain. Combined investigations using scanning tunneling microscopy, non-contact atomic force microscopy, density functional theory calculations, and quantum spin models confirmed the structures of the diaza-HBC chains and revealed their magnetic properties, which has an S = 1/2 spin per unit through electron donation from the diaza-HBC core to the Au(111) substrate. Gapped excitations were observed in even-numbered chains, while enhanced Kondo resonance emerged in odd-numbered units of odd-numbered chains due to the redistribution of the unpaired spin along the chain. Our findings provide an effective strategy to construct nanographene spin chains and unveil the odd-even effect in their magnetic properties, offering potential applications in nanoscale spintronics.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# Prompt2DeModel:自然言語を用いた宣言型ニューロシンボリックモデリング

Prompt2DeModel: Declarative Neuro-Symbolic Modeling with Natural Language ( http://arxiv.org/abs/2407.20513v1 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Aliakbar Nafar, Andrzej Uszok, Hamid Karimian, Parisa Kordjamshidi, (参考訳) 本稿では,自然言語による複雑なニューロシンボリックモデルのためのドメイン知識構築のための対話パイプラインを提案する。 大規模な言語モデルを活用して、DomiKnowSフレームワークで宣言型プログラムを生成する。 このフレームワークのプログラムは、それらの間の論理的制約に加えて、概念とそれらの関係をグラフとして表現する。 このグラフは後に、これらの仕様に従ってトレーニング可能なニューラルモデルに接続することができる。 提案するパイプラインは,動的なコンテキスト内デモ検索,シンボルパーサからのフィードバックに基づくモデル改良,可視化,ユーザインタラクションといった手法を用いて,タスクの構造と形式的知識表現を生成する。 このアプローチにより、ML/AIに精通していないドメインエキスパートでさえ、DomiKnowSフレームワークにカスタマイズされたニューラルネットワークに組み込むための自身の知識を正式に宣言することが可能になる。

This paper presents a conversational pipeline for crafting domain knowledge for complex neuro-symbolic models through natural language prompts. It leverages large language models to generate declarative programs in the DomiKnowS framework. The programs in this framework express concepts and their relationships as a graph in addition to logical constraints between them. The graph, later, can be connected to trainable neural models according to those specifications. Our proposed pipeline utilizes techniques like dynamic in-context demonstration retrieval, model refinement based on feedback from a symbolic parser, visualization, and user interaction to generate the tasks' structure and formal knowledge representation. This approach empowers domain experts, even those not well-versed in ML/AI, to formally declare their knowledge to be incorporated in customized neural models in the DomiKnowS framework.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 国際データ転送の将来 - ユーザ主導型データモデルによる法的なリスク管理-

The Future of International Data Transfers: Managing Legal Risk with a User-Held Data Model ( http://arxiv.org/abs/2407.20514v1 )

ライセンス: Link先を確認
Paulius Jurcys, Marcelo Corrales Compagnucci, Mark Fenwick, (参考訳) 一般データ保護規則(General Data Protection Regulation)は、厳格な要件が満たさない限り、欧州経済圏外の個人データの転送を禁止している。 この規定の根拠は、EEAと同等の保護レベルを持たない国へのデータ転送を制限することにより、個人データとデータ主体の権利を保護することである。 しかし、クラウドコンピューティングのような新しい技術のユビキタスで浸透可能な性質と、社会間の相互接続の増大により、国際データ転送が標準となり、例外ではない。 Schrems IIのケースとその後の規制の進展は、企業が複雑で、しばしば不透明な規則に従うための基準をさらに高めている。 そのため多くの企業は、この新たな法的リスクを軽減するために、テクノロジーベースのソリューションを追求している。 これらの新興技術の代替手段は、オープンエンドのクロスボーダー・トランスファーの必要性を減らし、これらのトランスファーがSchremsの後に生み出す実践的な課題と法的リスクを減らしている。 この記事では、ユーザが所有するデータモデルという、そのような選択肢について検討する。 このアプローチでは、個人データクラウドを活用して、データ対象がデータをローカルに、より分散的に保存することが可能になる。

The General Data Protection Regulation contains a blanket prohibition on the transfer of personal data outside of the European Economic Area unless strict requirements are met. The rationale for this provision is to protect personal data and data subject rights by restricting data transfers to countries that may not have the same level of protection as the EEA. However, the ubiquitous and permeable character of new technologies such as cloud computing, and the increased inter connectivity between societies, has made international data transfers the norm and not the exception. The Schrems II case and subsequent regulatory developments have further raised the bar for companies to comply with complex and, often, opaque rules. Many firms are, therefore, pursuing technology-based solutions in order to mitigate this new legal risk. These emerging technological alternatives reduce the need for open-ended cross-border transfers and the practical challenges and legal risk that such transfers create after Schrems. This article examines one such alternative, namely a user-held data model. This approach takes advantage of personal data clouds that allows data subjects to store their data locally and in a more decentralised manner, thus decreasing the need for cross-border transfers and offering end-users the possibility of greater control over their data.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# 非協調的目標の相対的位置推定のためのマーカー同定

Markers Identification for Relative Pose Estimation of an Uncooperative Target ( http://arxiv.org/abs/2407.20515v1 )

ライセンス: Link先を確認
Batu Candan, Simone Servadio, (参考訳) 本稿では,欧州宇宙機関 (ESA) の環境衛星(ENVISAT) 上の構造マーカーを検出するために,チェイス宇宙船の画像処理と畳み込みニューラルネットワーク(CNN)を用いた新しい手法を提案する。 マーカー検出精度とロバスト性を改善するために,ノイズ付加やボケリングなどの高度な画像前処理技術が用いられている。 最初の結果は、自律的な宇宙ゴミ除去の可能性を示し、宇宙の持続可能性に対する積極的な戦略を支持した。 提案手法の有効性は,実際の宇宙ミッションにおいて,より堅牢で自律的なシステムを実装することにより,破片除去作業の安全性と効率を大幅に向上させることができることを示唆している。

This paper introduces a novel method using chaser spacecraft image processing and Convolutional Neural Networks (CNNs) to detect structural markers on the European Space Agency's (ESA) Environmental Satellite (ENVISAT) for safe de-orbiting. Advanced image pre-processing techniques, including noise addition and blurring, are employed to improve marker detection accuracy and robustness. Initial results show promising potential for autonomous space debris removal, supporting proactive strategies for space sustainability. The effectiveness of our approach suggests that our estimation method could significantly enhance the safety and efficiency of debris removal operations by implementing more robust and autonomous systems in actual space missions.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# ジェネレーティブAIにおける機械学習

Machine Unlearning in Generative AI: A Survey ( http://arxiv.org/abs/2407.20516v1 )

ライセンス: Link先を確認
Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang, (参考訳) 生成AI技術は、(マルチモーダル)大規模言語モデルやビジョン生成モデルなど、多くの場所で展開されている。 彼らの顕著なパフォーマンスは、大量のトレーニングデータと創発的な推論能力に起因しているはずです。 しかし、これらのモデルはトレーニングデータ、特にWebクローラーのデータから得られたセンシティブな、偏見のある、あるいは危険な情報を記憶し、生成する。 従来の分類タスク用に設計されたものは、ジェネレーティブAIには適用できないため、不要な知識とモデルからの影響を低減または排除するために、新しい機械学習(MU)技術が開発されている。 我々は、新しい問題定式化、評価方法、様々な種類のMUテクニックの利点と限界に関する構造化された議論など、ジェネレーティブAIにおけるMUに関する多くのことに関する包括的な調査を提供する。 また、MU研究においていくつかの重要な課題と有望な方向性を提示している。 詳細は、https://github.com/franciscoliu/GenAI-MU-Readingを参照のこと。

Generative AI technologies have been deployed in many places, such as (multimodal) large language models and vision generative models. Their remarkable performance should be attributed to massive training data and emergent reasoning abilities. However, the models would memorize and generate sensitive, biased, or dangerous information originated from the training data especially those from web crawl. New machine unlearning (MU) techniques are being developed to reduce or eliminate undesirable knowledge and its effects from the models, because those that were designed for traditional classification tasks could not be applied for Generative AI. We offer a comprehensive survey on many things about MU in Generative AI, such as a new problem formulation, evaluation methods, and a structured discussion on the advantages and limitations of different kinds of MU techniques. It also presents several critical challenges and promising directions in MU research. A curated list of readings can be found: https://github.com/franciscoliu/GenAI-MU-Reading.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# HisToSGEを用いた組織像からの高分解能空間トランスクリプト

High-Resolution Spatial Transcriptomics from Histology Images using HisToSGE ( http://arxiv.org/abs/2407.20518v1 )

ライセンス: Link先を確認
Zhiceng Shi, Shuailin Xue, Fangfang Zhu, Wenwen Min, (参考訳) 空間転写学(Spatial transcriptomics、ST)は、組織領域における遺伝子発現の空間的局在解析を可能にする、画期的なゲノム技術である。 しかし、高いコストと空間分解能によって著しく制限されている。 よりコスト効率のよい戦略は、深層学習法を用いて、組織像から高密度の遺伝子発現プロファイルを予測することである。 しかし、既存の手法では、リッチな画像の特徴を効果的に捉えたり、低次元の位置座標に依存したりすることは困難であり、高解像度の遺伝子発現プロファイルを正確に予測することは困難である。 これらの制約に対処するため,病理画像大モデル(PILM)を用いて,画像からリッチな画像特徴を抽出し,高解像度の遺伝子発現プロファイルを堅牢に生成する特徴学習モジュールであるHisToSGEを開発した。 我々は、HisToSGEを4つのSTデータセットで評価し、その性能を5つの最先端ベースライン手法と比較した。 その結果、HisToSGEは高分解能な遺伝子発現プロファイルを生成し、空間領域識別などの下流タスクを実行するのに優れていた。 この論文で使用されるコードと公開データセットはすべて、https://github.com/wenwenmin/HisToSGEとhttps://zenodo.org/records/12792163で利用可能である。

Spatial transcriptomics (ST) is a groundbreaking genomic technology that enables spatial localization analysis of gene expression within tissue sections. However, it is significantly limited by high costs and sparse spatial resolution. An alternative, more cost-effective strategy is to use deep learning methods to predict high-density gene expression profiles from histological images. However, existing methods struggle to capture rich image features effectively or rely on low-dimensional positional coordinates, making it difficult to accurately predict high-resolution gene expression profiles. To address these limitations, we developed HisToSGE, a method that employs a Pathology Image Large Model (PILM) to extract rich image features from histological images and utilizes a feature learning module to robustly generate high-resolution gene expression profiles. We evaluated HisToSGE on four ST datasets, comparing its performance with five state-of-the-art baseline methods. The results demonstrate that HisToSGE excels in generating high-resolution gene expression profiles and performing downstream tasks such as spatial domain identification. All code and public datasets used in this paper are available at https://github.com/wenwenmin/HisToSGE and https://zenodo.org/records/12792163.
翻訳日:2024-07-31 18:28:58 公開日:2024-07-30
# DuA:長期連続脳波解析における二重注意変換器

DuA: Dual Attentive Transformer in Long-Term Continuous EEG Emotion Analysis ( http://arxiv.org/abs/2407.20519v1 )

ライセンス: Link先を確認
Yue Pan, Qile Liu, Qing Liu, Li Zhang, Gan Huang, Xin Chen, Fali Li, Peng Xu, Zhen Liang, (参考訳) 脳-コンピュータインターフェース(aBCI)は、脳波(EEG)信号を介して感情状態を監視し、解釈する可能性について、ますます認識されている。 現在の脳波に基づく感情認識法は脳波データの短いセグメントでよく機能する。 しかし、これらの手法は、感情状態が長期にわたって進化する現実のシナリオにおいて重大な課題に遭遇する。 この問題に対処するため,長期連続脳波感情分析のためのDuA変換フレームワークを提案する。 セグメントベースのアプローチとは異なり、DuAトランスフォーマーはEEGトライアル全体を処理し、トライアルベースの感情分析と呼ばれる、トライアルレベルの感情を識別する。 このフレームワークは様々な信号長に適応するように設計されており、従来の手法よりもかなり有利である。 DuA変換器には、空間スペクトルネットワークモジュール、時間ネットワークモジュール、転送学習モジュールの3つの重要なモジュールが組み込まれている。 空間スペクトルネットワークモジュールは、EEG信号から空間的およびスペクトル的情報を同時に捕捉し、時間的ネットワークモジュールは、長期のEEGデータ内の時間的依存関係を検出する。 伝達学習モジュールは、異なる主題や条件にまたがるモデルの適応性を高める。 自己構築型長期脳波感情データベースと2つのベンチマーク脳波感情データベースを用いて、DuA変換器を広範囲に評価した。 実験結果から,提案したDuAトランスフォーマーは,長期連続脳波感情解析において,平均5.28%の精度で既存手法よりも優れていたことが実証された。

Affective brain-computer interfaces (aBCIs) are increasingly recognized for their potential in monitoring and interpreting emotional states through electroencephalography (EEG) signals. Current EEG-based emotion recognition methods perform well with short segments of EEG data. However, these methods encounter significant challenges in real-life scenarios where emotional states evolve over extended periods. To address this issue, we propose a Dual Attentive (DuA) transformer framework for long-term continuous EEG emotion analysis. Unlike segment-based approaches, the DuA transformer processes an entire EEG trial as a whole, identifying emotions at the trial level, referred to as trial-based emotion analysis. This framework is designed to adapt to varying signal lengths, providing a substantial advantage over traditional methods. The DuA transformer incorporates three key modules: the spatial-spectral network module, the temporal network module, and the transfer learning module. The spatial-spectral network module simultaneously captures spatial and spectral information from EEG signals, while the temporal network module detects temporal dependencies within long-term EEG data. The transfer learning module enhances the model's adaptability across different subjects and conditions. We extensively evaluate the DuA transformer using a self-constructed long-term EEG emotion database, along with two benchmark EEG emotion databases. On the basis of the trial-based leave-one-subject-out cross-subject cross-validation protocol, our experimental results demonstrate that the proposed DuA transformer significantly outperforms existing methods in long-term continuous EEG emotion analysis, with an average enhancement of 5.28%.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# 同時音声翻訳のためのコントラストフィードバック機構

Contrastive Feedback Mechanism for Simultaneous Speech Translation ( http://arxiv.org/abs/2407.20524v1 )

ライセンス: Link先を確認
Haotian Tan, Sakriani Sakti, (参考訳) 同時音声翻訳(SST)の最近の進歩は、オフライン学習STモデルによる同時推論を可能にする決定ポリシーに焦点を当てている。 これらの決定ポリシは、SSTの品質レイテンシトレードオフを制御するだけでなく、よりコンテキストの翻訳を遅らせたり、安定した仮説検出を通じてこれらの予測を捨てることで、不安定な予測が翻訳品質に与える影響を軽減する。 しかし、これらの政策はしばしば不安定な予測を利用する潜在的な利点を見落としている。 本稿では、これらの不安定な予測をフィードバックとして活用し、翻訳品質を向上させる新しい手法であるSSTのコントラストフィードバック機構(CFM)を紹介する。 CFMは、これらの予測から望ましくないモデルの振る舞いを、対照的な目的を通じて排除するようシステムに誘導する。 MuST-C v1.0データセットの8言語にまたがる3つの最先端決定ポリシーの実験は、CFMがSSTの性能を効果的に改善することを示している。

Recent advances in simultaneous speech translation (SST) focus on the decision policies that enable the use of offline-trained ST models for simultaneous inference. These decision policies not only control the quality-latency trade-off in SST but also mitigate the impact of unstable predictions on translation quality by delaying translation for more context or discarding these predictions through stable hypothesis detection. However, these policies often overlook the potential benefits of utilizing unstable predictions. We introduce the contrastive feedback mechanism (CFM) for SST, a novel method that leverages these unstable predictions as feedback to improve translation quality. CFM guides the system to eliminate undesired model behaviors from these predictions through a contrastive objective. The experiments on 3 state-of-the-art decision policies across 8 languages in the MuST-C v1.0 dataset show that CFM effectively improves the performance of SST.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# ハイパーグラフ積符号のエネルギー障壁について

On the energy barrier of hypergraph product codes ( http://arxiv.org/abs/2407.20526v1 )

ライセンス: Link先を確認
Guangqi Zhao, Andrew C. Doherty, Isaac H. Kim, (参考訳) マクロエネルギー障壁は自己補正量子メモリに必要な条件である。 本論文では、2つの古典符号のハイパーグラフ積から得られる任意の量子コードに適用可能なエネルギー障壁の厳密な境界を証明した。 基礎となる古典符号が低密度パリティチェック符号(LDPC)であれば、量子符号のエネルギー障壁は、基礎となる古典符号(およびそれらの変換)の最小エネルギー障壁であり、加算$O(1)$定数である。

A macroscopic energy barrier is a necessary condition for self-correcting quantum memory. In this paper, we prove tight bounds on the energy barrier applicable to any quantum code obtained from the hypergraph product of two classical codes. If the underlying classical codes are low-density parity-check codes (LDPC), the energy barrier of the quantum code is shown to be the minimum energy barrier of the underlying classical codes (and their transposes) up to an additive $O(1)$ constant.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# LLMは保温可能か? LLMの脆弱性を調査する

Can LLMs be Fooled? Investigating Vulnerabilities in LLMs ( http://arxiv.org/abs/2407.20529v1 )

ライセンス: Link先を確認
Sara Abdali, Jia He, CJ Barberan, Richard Anarfi, (参考訳) LLM(Large Language Models)の出現は大きな人気を集め、自然言語処理(NLP)の様々な領域で大きな影響力を誇っている。 それらの能力は信じられないほど印象的なものだが、脆弱性の特定と精査が不可欠である。 医学文書からの簡潔な要約を提供するために訓練されたLCMは、突然に引き起こされた患者データを無意識に漏洩させる可能性がある。 これは公表された多くの不運な例の1つに過ぎず、そのような脆弱性の背後にある根本的な理由を理解するためにはさらなる研究が必要である。 本研究では、モデルベース、トレーニング時間、推論時脆弱性である脆弱性の複数のセクションを探索し、LLMの振る舞いを変更することを目的とした"モデル編集"や、LLMのレジリエンスを高めるために複数のチーム戦略のシナジーを組み込んだ"クロマチーム"など、緩和戦略について議論する。 本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。 現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減し、より堅牢でセキュアなLSMに向けた道を歩むことができます。

The advent of Large Language Models (LLMs) has garnered significant popularity and wielded immense power across various domains within Natural Language Processing (NLP). While their capabilities are undeniably impressive, it is crucial to identify and scrutinize their vulnerabilities especially when those vulnerabilities can have costly consequences. One such LLM, trained to provide a concise summarization from medical documents could unequivocally leak personal patient data when prompted surreptitiously. This is just one of many unfortunate examples that have been unveiled and further research is necessary to comprehend the underlying reasons behind such vulnerabilities. In this study, we delve into multiple sections of vulnerabilities which are model-based, training-time, inference-time vulnerabilities, and discuss mitigation strategies including "Model Editing" which aims at modifying LLMs behavior, and "Chroma Teaming" which incorporates synergy of multiple teaming strategies to enhance LLMs' resilience. This paper will synthesize the findings from each vulnerability section and propose new directions of research and development. By understanding the focal points of current vulnerabilities, we can better anticipate and mitigate future risks, paving the road for more robust and secure LLMs.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# DeepSpeechモデルによる人工内耳入力の性能と処理

DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs ( http://arxiv.org/abs/2407.20535v1 )

ライセンス: Link先を確認
Cynthia R. Steinhardt, Menoua Keshishian, Nima Mesgarani, Kim Stachenfeld, (参考訳) 人工内耳(CI)はおそらく最も成功した神経インプラントであり、世界中で100万人以上の人が聴力を取り戻している。 CI研究は低レベルの音響特性に応答して人工内耳の活性化をモデル化することに重点を置いているが、これらのインプラントの成功は、劣化した信号から有用な特徴を抽出し、その信号を解決するために言語統計を学習する上で、上流ネットワークの役割に起因していると仮定する。 本研究では、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳による入力が時間とともにどのように処理されるかを調べる。 音声文から自然的, 人工内耳的入力を生成し, 類似音素認識テストにおいて, モデル性能と人的性能の類似性を検証した。 本モデルでは, 雑音条件下での反応時間と音素混和パターンの誤りパターンを再現する。 次に、解釈可能性技術を用いて、自然主義的およびCI的な入力を処理する際に、いつ、いつ、混乱が起こるかを決定する。 各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。 すべての音素のダイナミクスは、同じ時間窓内で混乱と理解の間に分岐し、ネットワークの各層で時間的に逆向きに変化する。 聴覚ストリームにおけるヒト脳波信号の変化に似たCI処理中に、このシグナルを変調する。 この減少は、符号化された音素アイデンティティの減少に関係している可能性が高い。 以上の結果から,人工内耳装用入力を最適化し,本質的な音声関連情報の符号化を改善し,知覚の向上を図る際に,音声関連情報の時間的損失を探索し,対象とする集団レベルの符号化信号を見つけることが可能であることが示唆された。

Cochlear implants(CIs) are arguably the most successful neural implant, having restored hearing to over one million people worldwide. While CI research has focused on modeling the cochlear activations in response to low-level acoustic features, we hypothesize that the success of these implants is due in large part to the role of the upstream network in extracting useful features from a degraded signal and learned statistics of language to resolve the signal. In this work, we use the deep neural network (DNN) DeepSpeech2, as a paradigm to investigate how natural input and cochlear implant-based inputs are processed over time. We generate naturalistic and cochlear implant-like inputs from spoken sentences and test the similarity of model performance to human performance on analogous phoneme recognition tests. Our model reproduces error patterns in reaction time and phoneme confusion patterns under noise conditions in normal hearing and CI participant studies. We then use interpretability techniques to determine where and when confusions arise when processing naturalistic and CI-like inputs. We find that dynamics over time in each layer are affected by context as well as input type. Dynamics of all phonemes diverge during confusion and comprehension within the same time window, which is temporally shifted backward in each layer of the network. There is a modulation of this signal during processing of CI which resembles changes in human EEG signals in the auditory stream. This reduction likely relates to the reduction of encoded phoneme identity. These findings suggest that we have a viable model in which to explore the loss of speech-related information in time and that we can use it to find population-level encoding signals to target when optimizing cochlear implant inputs to improve encoding of essential speech-related information and improve perception.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# HandDAGT:3次元ハンドポース推定のための適応型グラフ変換器

HandDAGT: A Denoising Adaptive Graph Transformer for 3D Hand Pose Estimation ( http://arxiv.org/abs/2407.20542v1 )

ライセンス: Link先を確認
Wencan Cheng, Eunji Kim, Jong Hwan Ko, (参考訳) 3Dハンドポーズ推定として知られる入力ハンドフレームからのキーポイント位置の抽出は、様々な人間とコンピュータのインタラクションアプリケーションに不可欠である。 しかし、現在のアプローチは、手による自己閉塞と、相互作用する物体に対する自己閉塞の動的な性質に苦しむことが多い。 この課題に対処するために,ハンドポーズ推定のためのDenoising Adaptive Graph Transformer, HandDAGTを提案する。 提案したHandDAGTは、トランスフォーマー構造を利用して、入力パッチから有効な幾何学的特徴を徹底的に探索する。 さらに、特定のキーポイントを推定するための運動対応と局所幾何学的特徴の寄与を適応的に評価する新しい注意機構も組み込まれている。 この属性は、オクルージョン状況に基づいて、キネマティックおよび局所的な情報を適応的に使用することができ、その堅牢性と精度を高める。 さらに,オクルージョン問題に直面したモデルの性能向上を目的とした,新たなデノベーショントレーニング戦略を導入する。 実験の結果,提案手法は4つの手ポーズベンチマークデータセットにおいて,既存の手法よりも有意に優れていた。 コードと事前訓練されたモデルはhttps://github.com/cwc1260/HandDAGT.comで公開されている。

The extraction of keypoint positions from input hand frames, known as 3D hand pose estimation, is crucial for various human-computer interaction applications. However, current approaches often struggle with the dynamic nature of self-occlusion of hands and intra-occlusion with interacting objects. To address this challenge, this paper proposes the Denoising Adaptive Graph Transformer, HandDAGT, for hand pose estimation. The proposed HandDAGT leverages a transformer structure to thoroughly explore effective geometric features from input patches. Additionally, it incorporates a novel attention mechanism to adaptively weigh the contribution of kinematic correspondence and local geometric features for the estimation of specific keypoints. This attribute enables the model to adaptively employ kinematic and local information based on the occlusion situation, enhancing its robustness and accuracy. Furthermore, we introduce a novel denoising training strategy aimed at improving the model's robust performance in the face of occlusion challenges. Experimental results show that the proposed model significantly outperforms the existing methods on four challenging hand pose benchmark datasets. Codes and pre-trained models are publicly available at https://github.com/cwc1260/HandDAGT.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# 局所データ処理と因果不分離性:暗号プリミティブを用いた不確定因果構造探索

Local-Data-Hiding and Causal Inseparability: Probing Indefinite Causal Structures with Cryptographic Primitives ( http://arxiv.org/abs/2407.20543v1 )

ライセンス: Link先を確認
Sahil Gopalkrishna Naik, Samrat Sen, Ram Krishna Patra, Ananya Chakraborty, Mir Alimuddin, Manik Banik, Pratik Ghosal, (参考訳) 物理理論の定式化は、典型的には、物理事象の集合のうち、一定の因果構造(静的か動的か)を仮定する。 しかし、近年の研究は、様々なプロトコルで利点を提供する新しい情報プリミティブとして現れる因果構造の不確定性の可能性を示している。 本研究では,暗号アプリケーションにおけるこの新しいプリミティブの有用性について検討する。 そこで本研究では,遠隔者間で暗号化メッセージの配信を行うローカルデータハイディング(Local-data-hiding)というタスクを提案する。 示すように、不定因果構造に埋め込まれたエージェントは、特定の因果的背景の中で動作しているエージェントよりも優れている。 両部局型ローカルビットハイディング(LBH)タスクを考慮し,その最適成功確率と推定your-ighbour's-inputゲームから得られる因果不平等の最適違反の厳密な双対性を確立する。 これは逆に、因果不等式に対するツィレルソン型境界を得る方法を与える。 さらに、ペレスの分離性基準と同様に、LBHタスクで有用な量子プロセスに必要な基準を導出する。 次に、LBHタスクにそれぞれ役に立たない2つの量子プロセスが一緒に使われる際に有用となる興味深いスーパーアクティベーション現象を報告する。 また、古典的なセットアップで生じる因果不確定性の有用性を解析し、その利点を局所データハイディングタスクのマルチパーティト変種において示す。 新たな暗号応用の確立とともに、我々の研究は因果不確定性の探索されていない様々な側面を照らし、この新しい情報プリミティブに関するさらなる研究を歓迎する。

Formulation of physical theories typically assumes a definite causal structure -- either static or dynamic -- among the set of physical events. Recent studies, however, suggest the possibility of indefiniteness in causal structure, which emerges as a novel information primitive offering advantages in various protocols. In this work, we explore utilities of this new primitive in cryptographic applications. To this aim, we propose a task called local-data-hiding, where a referee distributes encrypted messages among distant parties in such a way that the parties individually remain completely ignorant about the messages, and thus try to decrypt their respective messages through mutual collaboration. As we demonstrate, agents embedded in an indefinite causal structure can outperform their counterparts operating in a definite causal background. Considering the bipartite local-bit-hiding (LBH) task, we establish a strict duality between its optimal success probability and the optimal violation of a causal inequality obtained from the guess-your-neighbour's-input game. This, in turn, provides a way forward to obtain Tsirelson-type bounds for causal inequalities. Furthermore, similar to Peres's separability criterion, we derive a necessary criterion for quantum processes to be useful in the LBH task. We then report an intriguing super-activation phenomenon, where two quantum processes, each individually not useful for the LBH task, become useful when used together. We also analyze the utility of causal indefiniteness arising in classical setups and show its advantages in multipartite variants of the local-data-hiding task. Along with establishing new cryptographic applications our study illuminates various unexplored aspects of causal indefiniteness, and welcomes further studies on this new information primitive.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# グラフニューラルネットワークを活用した物理設計透かしの自動化

Automated Physical Design Watermarking Leveraging Graph Neural Networks ( http://arxiv.org/abs/2407.20544v1 )

ライセンス: Link先を確認
Ruisi Zhang, Rachel Selina Rajarathnam, David Z. Pan, Farinaz Koushanfar, (参考訳) 本稿では,グラフニューラルネットワークを利用した自動および転送可能な透かしフレームワークであるAutoMarksについて述べる。 AutoMarksの新しい自動透かし検索が実現 一 物理的・意味的・設計制約対応表現による新規なグラフ及びノードの特徴の構築 二 透かしファイルラベル収集のためのデータ効率のよいサンプリング戦略を設計すること。 三 グラフニューラルネットワークを利用して、セル間の接続を学習し、目に見えないレイアウトで透かしの忠実さを予測すること。 ISPD'15とISPD'19ベンチマークの大規模な評価は、我々の自動手法が示されていることを示している。 (i)短時間で品質を保たれる透かしを見つけることができ、 例えば、あるレイアウトで訓練されたAutoMarksは、他のベンチマーク回路に一般化可能である。 AutoMarksは、透かしの除去や偽造攻撃にも耐性がある

This paper presents AutoMarks, an automated and transferable watermarking framework that leverages graph neural networks to reduce the watermark search overheads during the placement stage. AutoMarks's novel automated watermark search is accomplished by (i) constructing novel graph and node features with physical, semantic, and design constraint-aware representation; (ii) designing a data-efficient sampling strategy for watermarking fidelity label collection; and (iii) leveraging a graph neural network to learn the connectivity between cells and predict the watermarking fidelity on unseen layouts. Extensive evaluations on ISPD'15 and ISPD'19 benchmarks demonstrate that our proposed automated methodology: (i) is capable of finding quality-preserving watermarks in a short time; and (ii) is transferable across various designs, i.e., AutoMarks trained on one layout is generalizable to other benchmark circuits. AutoMarks is also resilient against potential watermark removal and forging attacks
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# StackFLOW:オフセット付き多重正規化流による単眼の物体再構成

StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset ( http://arxiv.org/abs/2407.20545v1 )

ライセンス: Link先を確認
Chaofan Huo, Ye Shi, Yuexin Ma, Lan Xu, Jingyi Yu, Jingya Wang, (参考訳) 人間と物体の3次元空間配置をモデル化し、捉えることは、モノクロ画像から3次元の人間と物体の相互作用を知覚する鍵となる。 本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。 従来の3次元空間関係を符号化するための接点マップや暗黙距離を用いた手法と比較して,本手法は人間と物体の空間関係を高度に詳細に符号化する簡便かつ効率的な方法である。 この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。 最適化段階では、この後部分布に基づいてサンプルの確率を最大化し、2D-3Dに対応する再投射損失を最小化することにより、人体ポーズと物体6Dポーズを微調整する。 実験結果から, BEHAVEとInterCapの2つのベンチマークにおいて, 優れた結果が得られた。

Modeling and capturing the 3D spatial arrangement of the human and the object is the key to perceiving 3D human-object interaction from monocular images. In this work, we propose to use the Human-Object Offset between anchors which are densely sampled from the surface of human mesh and object mesh to represent human-object spatial relation. Compared with previous works which use contact map or implicit distance filed to encode 3D human-object spatial relations, our method is a simple and efficient way to encode the highly detailed spatial correlation between the human and object. Based on this representation, we propose Stacked Normalizing Flow (StackFLOW) to infer the posterior distribution of human-object spatial relations from the image. During the optimization stage, we finetune the human body pose and object 6D pose by maximizing the likelihood of samples based on this posterior distribution and minimizing the 2D-3D corresponding reprojection loss. Extensive experimental results show that our method achieves impressive results on two challenging benchmarks, BEHAVE and InterCap datasets.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# スパイクニューラルネットワークアーキテクチャを用いたニューロモルフィックオンチップ貯水池計算

Neuromorphic on-chip reservoir computing with spiking neural network architectures ( http://arxiv.org/abs/2407.20547v1 )

ライセンス: Link先を確認
Samip Karki, Diego Chavez Arana, Andrew Sornborger, Francesco Caravelli, (参考訳) 貯留層コンピューティングは、リカレントニューラルネットワークの計算能力を活用するとともに、トレーニングを劇的に単純化する、有望なアプローチである。 本稿では,H\'enon マップのカオス的ダイナミクスの捕捉と Mackey-Glass 時系列の予測という,2つの異なるタスクに対して,貯水池計算フレームワークにおける積分・発火ニューロンの適用について検討する。 積分と発火のニューロンは、Intel Loihiのような低消費電力のニューロモルフィックアーキテクチャで実装することができる。 ネットワークトポロジのランダムな相互作用が貯水池の性能に与える影響について検討する。 本研究は,ネットワーク有効性におけるタスク固有のバリエーションを明らかにし,異なる計算タスクに適合したアーキテクチャの重要性を明らかにする。 最適なネットワーク構成を特定するために,シミュレーションアニールとメタラーニング手法を用いる。 本手法は,異なるシナリオにおいて優れたアーキテクチャを同定し,ネットワーク構造の可能性を探究する。 結果として得られたネットワークはさまざまな振る舞いを示し、固有のアーキテクチャ的特徴がタスク固有の機能にどのように影響するかを示している。 本稿では,IntelのニューロモーフィックコンピューティングソフトウェアフレームワークであるLavaと,Loihiのオンチップ実装を用いて,独自の統合・ファイアコードを用いた貯水池計算性能について検討する。 我々は,Loihiアーキテクチャのエネルギー性能を解析して結論付けている。

Reservoir computing is a promising approach for harnessing the computational power of recurrent neural networks while dramatically simplifying training. This paper investigates the application of integrate-and-fire neurons within reservoir computing frameworks for two distinct tasks: capturing chaotic dynamics of the H\'enon map and forecasting the Mackey-Glass time series. Integrate-and-fire neurons can be implemented in low-power neuromorphic architectures such as Intel Loihi. We explore the impact of network topologies created through random interactions on the reservoir's performance. Our study reveals task-specific variations in network effectiveness, highlighting the importance of tailored architectures for distinct computational tasks. To identify optimal network configurations, we employ a meta-learning approach combined with simulated annealing. This method efficiently explores the space of possible network structures, identifying architectures that excel in different scenarios. The resulting networks demonstrate a range of behaviors, showcasing how inherent architectural features influence task-specific capabilities. We study the reservoir computing performance using a custom integrate-and-fire code, Intel's Lava neuromorphic computing software framework, and via an on-chip implementation in Loihi. We conclude with an analysis of the energy performance of the Loihi architecture.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# DiffusionCounterfactuals:因果表現の誘導による高次元対物推定

DiffusionCounterfactuals: Inferring High-dimensional Counterfactuals with Guidance of Causal Representations ( http://arxiv.org/abs/2407.20553v1 )

ライセンス: Link先を確認
Jiageng Zhu, Hanchen Xie, Jiazhi Li, Wael Abd-Almageed, (参考訳) 高次元データにおける偽結果の正確な推定は、医療、経済学、社会科学など様々な分野における因果関係や介入結果の意思決定と理解に不可欠である。 しかし、既存の手法は、特に因果関係が複雑である場合に、正確で一貫した反事実を生成するのに苦労することが多い。 本稿では,因果表現によって導かれる高品質な反事実サンプルを生成するために,因果的メカニズムと拡散モデルを組み込んだ新しいフレームワークを提案する。 提案手法では,複数の介入ステップにおいて,モデルが精度の高い反現実的高次元データを連続的に生成することのできる,理論上基礎的なトレーニングとサンプリングプロセスを導入する。 種々の総合的および実なベンチマーク実験の結果、提案手法は、異なる評価指標を用いて、正確で高品質な偽物を生成する上で、最先端の手法よりも優れていることが示された。

Accurate estimation of counterfactual outcomes in high-dimensional data is crucial for decision-making and understanding causal relationships and intervention outcomes in various domains, including healthcare, economics, and social sciences. However, existing methods often struggle to generate accurate and consistent counterfactuals, particularly when the causal relationships are complex. We propose a novel framework that incorporates causal mechanisms and diffusion models to generate high-quality counterfactual samples guided by causal representation. Our approach introduces a novel, theoretically grounded training and sampling process that enables the model to consistently generate accurate counterfactual high-dimensional data under multiple intervention steps. Experimental results on various synthetic and real benchmarks demonstrate the proposed approach outperforms state-of-the-art methods in generating accurate and high-quality counterfactuals, using different evaluation metrics.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# 社会ロボットの設計パラダイムに関する調査

Survey of Design Paradigms for Social Robots ( http://arxiv.org/abs/2407.20556v1 )

ライセンス: Link先を確認
Rita Frieske, Xiaoyu Mo, Yini Fang, Jay Nieles, Bertram E. Shi, (参考訳) 医療、教育、エンターテイメントといった分野における社会ロボットの需要は、その感情的な適応性によって増大する。 これらのロボットはマルチモーダルコミュニケーションを活用し、音声、表情、ジェスチャーを取り入れ、ユーザのエンゲージメントと感情的サポートを高める。 社会ロボットの設計パラダイムの理解は、システムの複雑さと特定のタスクに調整する必要性によって妨げられている。 本稿では、社会ロボット設計パラダイムを構造化し、それらを認知アーキテクチャ、役割デザインモデル、言語モデル、コミュニケーションフロー、アクティビティシステムモデル、統合デザインモデルに分類する。 これらのパラダイムに基づく社会ロボット設計と応用に関する論文を分解し、現状のアプローチを改善するための強みと領域を強調した。 さらに,社会ロボットの設計の最も重要な側面を組み合わさった,独自の統合デザインモデルを提案する。 我々のアプローチは、ロボットと人間のより適応的で共感的な相互作用を生み出すために、操作的、コミュニケーション的、感情的な次元を統合することの重要性を示している。

The demand for social robots in fields like healthcare, education, and entertainment increases due to their emotional adaptation features. These robots leverage multimodal communication, incorporating speech, facial expressions, and gestures to enhance user engagement and emotional support. The understanding of design paradigms of social robots is obstructed by the complexity of the system and the necessity to tune it to a specific task. This article provides a structured review of social robot design paradigms, categorizing them into cognitive architectures, role design models, linguistic models, communication flow, activity system models, and integrated design models. By breaking down the articles on social robot design and application based on these paradigms, we highlight the strengths and areas for improvement in current approaches. We further propose our original integrated design model that combines the most important aspects of the design of social robots. Our approach shows the importance of integrating operational, communicational, and emotional dimensions to create more adaptive and empathetic interactions between robots and humans.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# CellM:フェデレートラーニングのための大規模言語モデルにおける効率的なコミュニケーション

CELLM: An Efficient Communication in Large Language Models Training for Federated Learning ( http://arxiv.org/abs/2407.20557v1 )

ライセンス: Link先を確認
Raja Vavekanand, Kira Sam, (参考訳) Federated Learning(FL)は、クライアントデバイスがデータを集約することなく、協調的にモデルをトレーニングする、最近のモデルトレーニングパラダイムである。 重要なのは、このスキームは、データを直接通信し集約する従来の機械学習(ML)トレーニングとは対照的に、モデルウェイトに対するアップデートを中央サーバに通信するだけで、潜在的なプライバシとセキュリティ上のメリットを提供する。 しかし、FLトレーニングは、クライアントがローカルデータの分布が異なる可能性があるため、統計的不均一性に悩まされている。 大規模言語モデル(LLM)は、膨大なノイズデータから学習できることが一貫して示されていることから、この不均一性の問題に対する潜在的な解決策を提供する。 LLMは、非I.D.クライアントのフェデレーション設定における一貫した問題を解決するための有望な開発であるが、FLの他の2つのボトルネック、すなわちローカルコンピューティングと高価な通信を悪化させる。 本論文は,FL における LLM の効率的な学習手法の開発を目的とする。 この目的のために、効率的なトレーニングを可能にするために、2つの重要なテクニックを採用している。 まず,ローランク適応(LoRA)を用いて局所モデルトレーニングの計算負荷を削減する。 第2に、コミュニケーションコストを大幅に削減するために、トレーニング全体を通してスパース更新を通信します。 本手法は,バニラロラ上での通信コストを最大10倍に削減し,より複雑な疎いロラベースラインを最大5倍に削減する。 フェデレートLDMトレーニングにおいて,スペーサを慎重に適用し,効果的なランクとスペーサ構成を選択することの重要性を強調した。

Federated Learning (FL) is a recent model training paradigm in which client devices collaboratively train a model without ever aggregating their data. Crucially, this scheme offers users potential privacy and security benefits by only ever communicating updates to the model weights to a central server as opposed to traditional machine learning (ML) training which directly communicates and aggregates data. However, FL training suffers from statistical heterogeneity as clients may have differing local data distributions. Large language models (LLMs) offer a potential solution to this issue of heterogeneity given that they have consistently been shown to be able to learn on vast amounts of noisy data. While LLMs are a promising development for resolving the consistent issue of non-I.I.D. Clients in federated settings exacerbate two other bottlenecks in FL: limited local computing and expensive communication. This thesis aims to develop efficient training methods for LLMs in FL. To this end, we employ two critical techniques in enabling efficient training. First, we use low-rank adaptation (LoRA) to reduce the computational load of local model training. Second, we communicate sparse updates throughout training to significantly cut down on communication costs. Taken together, our method reduces communication costs by up to 10x over vanilla LoRA and up to 5x over more complex sparse LoRA baselines while achieving greater utility. We emphasize the importance of carefully applying sparsity and picking effective rank and sparsity configurations for federated LLM training.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# 偏微分方程式を解く有限群下の不変ディープニューラルネットワーク

Invariant deep neural networks under the finite group for solving partial differential equations ( http://arxiv.org/abs/2407.20560v1 )

ライセンス: Link先を確認
Zhi-Yong Zhang, Jie-Ying Li, Lei-Lei Guo, (参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いて偏微分方程式(PDE)を解くことはホットな問題であり、その強みを示すが、サンプリング領域における限られた予測精度とサンプリング領域を超えた予測能力のジレンマに苦しむ。 本稿では,群が行列表現を持つ場合,各隠蔽層における重み行列とバイアスベクトルの次元を有限群の順序で拡張し,それ以外は第1の隠蔽層以外の入力データと隠蔽層を有限群の順序で拡張することにより,ニューラルネットワークのアーキテクチャを有限群の下で不変にする対称性強化ディープニューラルネットワーク(sDNN)を設計する。 しかし、トレーニングパラメータの総数は、sDNNの対称構造のため、元のPINNサイズの有限群のオーダーの約1である。 さらに、sDNNの特殊形式の重み行列とバイアスベクトルを与え、アーキテクチャ自体が有限群の下で不変であり、sDNNは有限群を保持する関数を学習する普遍近似能力を有することを厳密に証明する。 数値的な結果から,SDNNはサンプリング領域内外において高い予測能力を有し,トレーニングポイントが少なく,よりシンプルなアーキテクチャで,バニラPINNよりもはるかに優れた性能を示した。

Utilizing physics-informed neural networks (PINN) to solve partial differential equations (PDEs) becomes a hot issue and also shows its great powers, but still suffers from the dilemmas of limited predicted accuracy in the sampling domain and poor prediction ability beyond the sampling domain which are usually mitigated by adding the physical properties of PDEs into the loss function or by employing smart techniques to change the form of loss function for special PDEs. In this paper, we design a symmetry-enhanced deep neural network (sDNN) which makes the architecture of neural networks invariant under the finite group through expanding the dimensions of weight matrixes and bias vectors in each hidden layers by the order of finite group if the group has matrix representations, otherwise extending the set of input data and the hidden layers except for the first hidden layer by the order of finite group. However, the total number of training parameters is only about one over the order of finite group of the original PINN size due to the symmetric architecture of sDNN. Furthermore, we give special forms of weight matrixes and bias vectors of sDNN, and rigorously prove that the architecture itself is invariant under the finite group and the sDNN has the universal approximation ability to learn the function keeping the finite group. Numerical results show that the sDNN has strong predicted abilities in and beyond the sampling domain and performs far better than the vanilla PINN with fewer training points and simpler architecture.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# ピラミッドコーダ:構成的視覚質問応答のための階層型コードジェネレータ

Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering ( http://arxiv.org/abs/2407.20563v1 )

ライセンス: Link先を確認
Ruoyue Shen, Nakamasa Inoue, Koichi Shinoda, (参考訳) 視覚的質問応答(VQA)とは、視覚的な入力に基づいて、自然言語の質問に対して正確な回答を提供するタスクである。 プログラム型VQA(PVQA)モデルは近年注目を集めている。 これらは、複雑な視覚的推論を必要とする問題に対処する実行可能なプログラムを定式化するために、大きな言語モデル(LLM)を使用する。 しかし、LLMが画像処理モジュールの使用を理解でき、関連するコードを生成することは困難である。 これらの課題を克服するために、PVQAモデルのための新しいプロンプトフレームワークであるPraamidCoderを紹介した。 PyramidCoderは3つの階層的なレベルで構成され、それぞれがクエリリフレッシング、コード生成、回答アグリゲーションという、明確な目的を持っている。 特に、MraamidCoderは、単一の凍結LDMと各レベルで事前定義されたプロンプトを使用して、追加のトレーニングの必要性を排除し、さまざまなLLMアーキテクチャの柔軟性を保証する。 我々の手法は最先端のPVQAモデルと比較して、GQAデータセットで少なくとも0.5%、VQAv2データセットで1.4%、NLVR2データセットで2.9%の精度向上を実現している。

Visual question answering (VQA) is the task of providing accurate answers to natural language questions based on visual input. Programmatic VQA (PVQA) models have been gaining attention recently. These use large language models (LLMs) to formulate executable programs that address questions requiring complex visual reasoning. However, there are challenges in enabling LLMs to comprehend the usage of image processing modules and generate relevant code. To overcome these challenges, this paper introduces PyramidCoder, a novel prompting framework for PVQA models. PyramidCoder consists of three hierarchical levels, each serving a distinct purpose: query rephrasing, code generation, and answer aggregation. Notably, PyramidCoder utilizes a single frozen LLM and pre-defined prompts at each level, eliminating the need for additional training and ensuring flexibility across various LLM architectures. Compared to the state-of-the-art PVQA model, our approach improves accuracy by at least 0.5% on the GQA dataset, 1.4% on the VQAv2 dataset, and 2.9% on the NLVR2 dataset.
翻訳日:2024-07-31 18:19:06 公開日:2024-07-30
# CLR-Fact: ファクチュアル知識による大規模言語モデルの複雑な論理推論能力の評価

CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge ( http://arxiv.org/abs/2407.20564v1 )

ライセンス: Link先を確認
Tianshi Zheng, Jiaxin Bai, Yicheng Wang, Tianqing Fang, Yue Guo, Yauwai Yim, Yangqiu Song, (参考訳) 大規模言語モデル(LLM)は、幅広い訓練データから豊富な事実知識を取得することで、様々な自然言語処理タスクにおいて印象的な能力を発揮してきたが、複雑な方法でこの知識を合成し論理的に理性的に判断する能力は、まだ未熟である。 本研究では,一般領域と生物医学知識グラフに関する複雑な推論問題を自動的に生成する新しいベンチマークを用いて,最先端のLLMの複雑な論理推論能力の体系的評価を行う。 多様な文脈内学習技術を用いた広範囲な実験により,LLMは一般世界の知識の推論に優れるが,専門分野固有の知識では重大な課題に直面していることが明らかとなった。 論理的操作を多様に行う複雑な論理的推論タスクにおいて,明示的なChain-of-ThoughtデモによってLLM性能が大幅に向上することが判明した。 興味深いことに、制御された評価では、LLMが整合演算の習熟度を示す非対称性が明らかになっている。 さらなる作業を促進するため、評価ベンチマークとコードを公開します。

While large language models (LLMs) have demonstrated impressive capabilities across various natural language processing tasks by acquiring rich factual knowledge from their broad training data, their ability to synthesize and logically reason with this knowledge in complex ways remains underexplored. In this work, we present a systematic evaluation of state-of-the-art LLMs' complex logical reasoning abilities through a novel benchmark of automatically generated complex reasoning questions over general domain and biomedical knowledge graphs. Our extensive experiments, employing diverse in-context learning techniques, reveal that LLMs excel at reasoning over general world knowledge but face significant challenges with specialized domain-specific knowledge. We find that prompting with explicit Chain-of-Thought demonstrations can substantially improve LLM performance on complex logical reasoning tasks with diverse logical operations. Interestingly, our controlled evaluations uncover an asymmetry where LLMs display proficiency at set union operations, but struggle considerably with set intersections - a key building block of logical reasoning. To foster further work, we will publicly release our evaluation benchmark and code.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 野生における単眼の物体再構成

Monocular Human-Object Reconstruction in the Wild ( http://arxiv.org/abs/2407.20566v1 )

ライセンス: Link先を確認
Chaofan Huo, Ye Shi, Jingya Wang, (参考訳) 画像から人間と物体の相互作用を再構築し、人間が3次元空間内の物体とどのように相互作用するかを理解するためには、3次元物体空間関係の事前知識の習得が不可欠である。 以前の研究では、制御された環境で収集されたデータセットから、事前にこれを学習していましたが、ドメインの多様性のため、現実のシナリオへの一般化に苦労しています。 この制限を克服するため,野生の2次元画像から3次元対象空間関係を学習する2次元教師付き手法を提案する。 本手法では,フローベースニューラルネットワークを用いて,データセットの各画像に対する2次元人間オブジェクトのキーポイントレイアウトとビューポートの事前分布を学習する。 2次元画像から先行学習した2次元画像の有効性は、人・物体間の相対的なポーズを調整するための事前調整を行うことにより、人・物体再構成作業において実証される。 In-the-wildイメージに対する我々の手法の検証とベンチマークを行うため、実世界のシナリオにおいて8つのオブジェクトとのさまざまなインタラクションからなるWildHOIデータセットをYouTubeのWebサイトから収集した。 本研究では,屋内BEHAVEデータセットと屋外WildHOIデータセットを用いて実験を行った。 提案手法は,2次元レイアウト情報しか利用していない場合でも,BEHAVEデータセット上で完全な3次元教師付き手法を用いてほぼ同等の性能を達成し,ワイド画像における一般性やインタラクションの多様性の観点から,従来の手法よりも優れていることを示す。

Learning the prior knowledge of the 3D human-object spatial relation is crucial for reconstructing human-object interaction from images and understanding how humans interact with objects in 3D space. Previous works learn this prior from datasets collected in controlled environments, but due to the diversity of domains, they struggle to generalize to real-world scenarios. To overcome this limitation, we present a 2D-supervised method that learns the 3D human-object spatial relation prior purely from 2D images in the wild. Our method utilizes a flow-based neural network to learn the prior distribution of the 2D human-object keypoint layout and viewports for each image in the dataset. The effectiveness of the prior learned from 2D images is demonstrated on the human-object reconstruction task by applying the prior to tune the relative pose between the human and the object during the post-optimization stage. To validate and benchmark our method on in-the-wild images, we collect the WildHOI dataset from the YouTube website, which consists of various interactions with 8 objects in real-world scenarios. We conduct the experiments on the indoor BEHAVE dataset and the outdoor WildHOI dataset. The results show that our method achieves almost comparable performance with fully 3D supervised methods on the BEHAVE dataset, even if we have only utilized the 2D layout information, and outperforms previous methods in terms of generality and interaction diversity on in-the-wild images.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# SYKモデルにおけるクリロフ状態複雑性の空間依存性

Sparsity dependence of Krylov state complexity in the SYK model ( http://arxiv.org/abs/2407.20569v1 )

ライセンス: Link先を確認
Raghav G. Jha, Ranadeep Roy, (参考訳) 我々は,Sachdev-Ye-Kitaev (SYK) モデルの Krylov 状態複雑性を$N \le 26$ Majorana fermions に対して$q=4,6,8$ と$q=4,6,8$ の相互作用で検討した。 クリャロフ複雑性のピークをプローブとして、様々な$q$に対して$k$が異なる振る舞いの変化を見出す。 これは、すべての$k \ge k_{\text{min}}$に対して、モデルがホログラフィであるようなスパースSYK型モデルにおけるホログラフィーから非ホログラフィー的挙動の変化を捉えるものである。 我々の結果は、クリロフ複雑性ピークがリャプノフ指数に類似したホログラフィック解釈を持つことも示している。

We study the Krylov state complexity of the Sachdev-Ye-Kitaev (SYK) model for $N \le 26$ Majorana fermions with $q$-body interaction with $q=4,6,8$ for a range of sparse parameter $k$. Using the peak of the Krylov complexity as a probe, we find change in behavior as we vary $k$ for various $q$. We argue that this captures the change from holographic to non-holographic behavior in the sparse SYK-type models such that model is holographic for all $k \ge k_{\text{min}}$. Our results also indicate that the Krylov complexity peak has a holographic interpretation similar to the Lyapunov exponent.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# ビジュアライゼーション・ケース・ギャラリーを考える

Considering Visualization Example Galleries ( http://arxiv.org/abs/2407.20571v1 )

ライセンス: Link先を確認
Junran Yang, Andrew McNutt, Leilani Battle, (参考訳) 図、図、ウェブページなど、視覚に焦点を当てたドメイン特化言語やライブラリを教育、文書化、宣伝するのにしばしば用いられる。 彼らの普遍性にも拘わらず、「サンプルギャラリー」の役割については意見が一致していない。 ギャラリーの意味と使用法を理解するため、著名な視覚化ツールのクリエーター(N=11)とユーザ(N=9)にインタビューを行った。 これらのインタビューから、ギャラリーキュレーションとマネジメントの戦略と課題(例えば、新しい例の追加とリッチネスと使いやすさのトレードオフを重んじるコストとメリット)を合成し、計画されたギャラリー利用と実際のギャラリー利用の違い(例えば、機会的再利用と検索エンジン最適化)を強調し、調査されていないギャラリーデザイン空間の一部(例えば、ツールアシストの可能性)に反映した。 ギャラリーは、マーケティング素材からテストスイート、拡張ドキュメンテーションまで、さまざまな用途に対応するために、形状と内容が動機付けられた多面構造であることがわかった。 この作業は、ギャラリーの設計と管理を特徴付けるとともに、空間における課題と機会を強調することで、将来のサポートツールの基盤を提供する(例えば、より多様なギャラリーがいかに再利用タスクを単純化するが、アップキープを複雑にするかなど)。

Example galleries are often used to teach, document, and advertise visually-focused domain-specific languages and libraries, such as those producing visualizations, diagrams, or webpages. Despite their ubiquity, there is no consensus on the role of "example galleries", let alone what the best practices might be for their creation or curation. To understand gallery meaning and usage, we interviewed the creators (N=11) and users (N=9) of prominent visualization-adjacent tools. From these interviews we synthesized strategies and challenges for gallery curation and management (e.g. weighing the costs/benefits of adding new examples and trade-offs in richness vs ease of use), highlighted the differences between planned and actual gallery usage (e.g. opportunistic reuse vs search-engine optimization), and reflected on parts of the gallery design space not explored (e.g. highlighting the potential of tool assistance). We found that galleries are multi-faceted structures whose form and content are motivated to accommodate different usages--ranging from marketing material to test suite to extended documentation. This work offers a foundation for future support tools by characterizing gallery design and management, as well as by highlighting challenges and opportunities in the space (such as how more diverse galleries make reuse tasks simpler, but complicate upkeep).
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 文脈関連質問生成のための大規模言語モデルの比較

Comparison of Large Language Models for Generating Contextually Relevant Questions ( http://arxiv.org/abs/2407.20578v1 )

ライセンス: Link先を確認
Ivo Lodovico Molina, Valdemar Švábenský, Tsubasa Minematsu, Li Chen, Fumiya Okubo, Atsushi Shimada, (参考訳) 本研究では,Large Language Models (LLMs) の教育環境における自動質問生成における有効性について検討した。 3つのLSMを比較し、微調整なしで大学のスライドテキストから質問を作成できる。 まず、Llama 2-Chat 13Bを用いて、スライドから回答フレーズを抽出し、3つのモデルが回答毎に質問を生成した。 学生の教育的応用に適合するかどうかを調査するため, 学生46名を対象に, 明瞭度, 妥当性, 難易度, スライド関係, 質問・回答アライメントの5つの指標について, 合計246問を調査した。 その結果, GPT-3.5 と Llama 2-Chat 13B は Flan T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。 GPT-3.5は特に、入力された回答にマッチする質問の調整に優れる。 この研究の貢献は、教育における自動質問生成のためのLLMの能力の分析である。

This study explores the effectiveness of Large Language Models (LLMs) for Automatic Question Generation in educational settings. Three LLMs are compared in their ability to create questions from university slide text without fine-tuning. Questions were obtained in a two-step pipeline: first, answer phrases were extracted from slides using Llama 2-Chat 13B; then, the three models generated questions for each answer. To analyze whether the questions would be suitable in educational applications for students, a survey was conducted with 46 students who evaluated a total of 246 questions across five metrics: clarity, relevance, difficulty, slide relation, and question-answer alignment. Results indicate that GPT-3.5 and Llama 2-Chat 13B outperform Flan T5 XXL by a small margin, particularly in terms of clarity and question-answer alignment. GPT-3.5 especially excels at tailoring questions to match the input answers. The contribution of this research is the analysis of the capacity of LLMs for Automatic Question Generation in education.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# Knesset-DictaBERT: 立法手続のためのヘブライ語モデル

Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings ( http://arxiv.org/abs/2407.20581v1 )

ライセンス: Link先を確認
Gili Goldin, Shuly Wintner, (参考訳) 我々は、イスラエル議会の議事録を含むクネセト・コーパスに微調整されたヘブライ語モデルであるクネセト・ディクタベルトを提示する。 このモデルはDictaBERTアーキテクチャに基づいており、MLMタスクによる議会言語理解の大幅な改善を示す。 モデルの性能を詳細に評価し,ベースラインDictaBERTモデルよりも複雑度と精度が向上したことを示す。

We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is based on the DictaBERT architecture and demonstrates significant improvements in understanding parliamentary language according to the MLM task. We provide a detailed evaluation of the model's performance, showing improvements in perplexity and accuracy over the baseline DictaBERT model.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# トランスファーラーニングを用いたマルチミラー衛星のセグメントずれ画像検出

Image-based Detection of Segment Misalignment in Multi-mirror Satellites using Transfer Learning ( http://arxiv.org/abs/2407.20582v1 )

ライセンス: Link先を確認
C. Tanner Fredieu, Jonathan Tesch, Andrew Kee, David Redding, (参考訳) 本稿では,将来のCubeSat設計やジェームズ・ウェッブ宇宙望遠鏡(JWST)など,多鏡衛星におけるセグメントの不整合を検出するための移動学習に基づくシステムを提案する。 空間デブリなどの様々な環境要因によりミラーセグメントが不一致となると、画像は「ゴースト画像」と呼ばれる自分自身のシフトしたコピーで歪むことができる。 そこで我々は,衛星画像のパッチのFFT(Fast Fourier Transform)に基づいて学習した,事前学習された大規模画像モデルを用いて,セグメントの一致を検知する。 マルチミラーデザインは任意の数のミラーを使用することができる。 目的のために,4,6,8セグメントのCubeSatを模擬した実験を行った。 システム設計では、衛星がいつ不整合セグメントを持つのか、どれだけのセグメントが不整合しているのかを知りたいときに、これを考慮に入れた。 ゴースト画像の強度は、不一致のセグメント数に直接比例する。 強度分類のために訓練されたモデルは、N-1セグメントを分類しようと試みた。 8つのクラスで2進法の精度は98.75%に達し、強度分類のモデルは98.05%に達した。

In this paper, we introduce a system based on transfer learning for detecting segment misalignment in multimirror satellites, such as future CubeSat designs and the James Webb Space Telescope (JWST), using image-based methods. When a mirror segment becomes misaligned due to various environmental factors, such as space debris, the images can become distorted with a shifted copy of itself called a "ghost image". To detect whether segments are misaligned, we use pre-trained, large-scale image models trained on the Fast Fourier Transform (FFT) of patches of satellite images in grayscale. Multi-mirror designs can use any arbitrary number of mirrors. For our purposes, the tests were performed on simulated CubeSats with 4, 6, and 8 segments. For system design, we took this into account when we want to know when a satellite has a misaligned segment and how many segments are misaligned. The intensity of the ghost image is directly proportional to the number of segments misaligned. Models trained for intensity classification attempted to classify N-1 segments. Across eight classes, binary models were able to achieve a classification accuracy of 98.75%, and models for intensity classification were able to achieve an accuracy of 98.05%.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 半構造適応スパース学習を用いた大規模言語モデルの構築

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training ( http://arxiv.org/abs/2407.20584v1 )

ライセンス: Link先を確認
Weiyu Huang, Guohao Jian, Yuezhou Hu, Jun Zhu, Jianfei Chen, (参考訳) Transformer-based Large Language Models (LLM) は、様々な課題において顕著な成功を収めている。 しかし, LLMの展開は, パラメータ数やメモリ消費に支障をきたす。 近年,LLMを無訓練で刈り取ろうとする研究が盛んに行われている。 しかし、これらの刈り取られたモデルは複雑なタスクで顕著なパフォーマンス劣化を経験することが多い。 この問題に対処するため,アダプティブスパーストレーナー (AST) と呼ばれる半構造化スパースモデルの新たなトレーニングパイプラインを提案する。 密封された知識を蒸留することにより、スパースモデルの過度な適合を防止し、安定したトレーニングプロセスを確保する。 さらに、ASTはトレーニング中により優れた宝くじ(例えばマスク)を適応的に選択できる。 さらに,メモリフットプリントをわずかに増加させるだけで,パラメータの追加によりモデル性能がさらに向上することが判明した。 本手法は,計算コストを抑えながら,密度モデルとスパースモデルのパフォーマンスギャップを著しく縮小する。 さらに、既存の量子化法と組み合わせることで、ASTは、性能損失を最小限に抑えた高密度FP32精度モデルと比較して、言語モデルを最大16倍圧縮することができる。 ASTは、Llama2-7B上の複数のゼロショットタスクにおいて、密集したスパースモデルと半構造化されたスパースモデルのゼロショット精度ギャップを1.12%に減らし、事前訓練トークンの0.4%以下で、従来の最先端の手法より優れている。

Transformer-based Large Language Models (LLMs) have demonstrated remarkable success across various challenging tasks. However, the deployment of LLMs is hindered by their substantial parameter count and memory consumption. Recently, numerous studies have attempted to compress LLMs by pruning them using training-free methods. However, these pruned models often experience significant performance degradation on complex tasks. To address this issue, we propose a novel training pipeline for semi-structured sparse models, named Adaptive Sparse Trainer (AST). By distilling the knowledge stored in its dense counterpart, we prevent the sparse model from overfitting and ensure a stable training process. Moreover, AST allows the model to adaptively select better lottery tickets (e.g., masks) during training. Additionally, we discovered that adding extra well-initialized parameters can further enhance model performance with only a small increase in memory footprint. Our method significantly narrows the performance gap between dense and sparse models while maintaining limited computational cost. Furthermore, when combined with existing quantization methods, AST can compress language models by up to 16x compared to dense FP32 precision models with minimal performance loss. AST outperforms previous state-of-the-art methods by reducing the zero-shot accuracy gap between dense and semi-structured sparse models to 1.12% across multiple zero-shot tasks on Llama2-7B, using less than 0.4% of the pretraining tokens.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 高度LLM統合による農業機械経営の強化

Enhancing Agricultural Machinery Management through Advanced LLM Integration ( http://arxiv.org/abs/2407.20588v1 )

ライセンス: Link先を確認
Emily Johnson, Noah Wilson, (参考訳) 人工知能の農業実践への統合は、特にIntelligent Agricultural Machinery Management (CIAMM)のコンサルテーションを通じて、農業における効率性と持続可能性に革命をもたらす可能性がある。 本稿では,大規模言語モデル(LLM),特にGPT-4を多ラウンドプロンプトエンジニアリングと組み合わせて,農業機械管理における意思決定プロセスを強化する,新たなアプローチを提案する。 我々は,LLMを正確に,文脈的に関係のある出力を生成するためのプロンプトを体系的に開発し,改良した。 提案手法は,各種オンラインソースから手作業で収集したデータセットを用いて評価し,精度とGPT-4スコアを用いて評価した。 LLama-2-70B, ChatGPT, および GPT-4 モデルと, CoT (Chain of Thought) やThoT (Thought of Thought) といった最先端の手法を併用して比較実験を行った。 その結果,提案手法はこれらの手法よりも優れており,高い精度と応答の関連性が得られることがわかった。 本稿では、農業環境におけるAIの堅牢性と適用性を改善するために、先進的なエンジニアリング技術の可能性を強調する。

The integration of artificial intelligence into agricultural practices, specifically through Consultation on Intelligent Agricultural Machinery Management (CIAMM), has the potential to revolutionize efficiency and sustainability in farming. This paper introduces a novel approach that leverages large language models (LLMs), particularly GPT-4, combined with multi-round prompt engineering to enhance decision-making processes in agricultural machinery management. We systematically developed and refined prompts to guide the LLMs in generating precise and contextually relevant outputs. Our approach was evaluated using a manually curated dataset from various online sources, and performance was assessed with accuracy and GPT-4 Scores. Comparative experiments were conducted using LLama-2-70B, ChatGPT, and GPT-4 models, alongside baseline and state-of-the-art methods such as Chain of Thought (CoT) and Thought of Thought (ThoT). The results demonstrate that our method significantly outperforms these approaches, achieving higher accuracy and relevance in generated responses. This paper highlights the potential of advanced prompt engineering techniques in improving the robustness and applicability of AI in agricultural contexts.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# EgoSonics: サイレントなエゴシックビデオのためのシンクロナイズドオーディオ

EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos ( http://arxiv.org/abs/2407.20592v1 )

ライセンス: Link先を確認
Aashish Rai, Srinath Sridhar, (参考訳) EgoSonicsは,サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり,同期された音声トラックを生成する手法である。 サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。 既存の作品は、音声、音楽、衝撃音のような領域に限定されており、エゴセントリックなビデオで見られる幅広いオーディオ周波数を容易に捉えられない。 EgoSonicsは、条件付き音声合成のための潜時拡散モデルの強さに基づいてこれらの制限に対処する。 まず、音声および映像データを生成に適した形式にエンコードし、処理する。 符号化されたデータは、入力されたビデオのセマンティクスをキャプチャするオーディオトラックを生成するために、我々のモデルを訓練するために使用される。 提案するSyncroNetは、制御ネット上に構築され、合成音声の時間同期を可能にする制御信号を提供する。 大規模な評価では,本モデルが既存の音質よりも優れており,新たな同期評価手法が提案されている。 さらに,本モデルによる映像要約改善のダウンストリーム応用を実演する。

We introduce EgoSonics, a method to generate semantically meaningful and synchronized audio tracks conditioned on silent egocentric videos. Generating audio for silent egocentric videos could open new applications in virtual reality, assistive technologies, or for augmenting existing datasets. Existing work has been limited to domains like speech, music, or impact sounds and cannot easily capture the broad range of audio frequencies found in egocentric videos. EgoSonics addresses these limitations by building on the strength of latent diffusion models for conditioned audio synthesis. We first encode and process audio and video data into a form that is suitable for generation. The encoded data is used to train our model to generate audio tracks that capture the semantics of the input video. Our proposed SyncroNet builds on top of ControlNet to provide control signals that enables temporal synchronization to the synthesized audio. Extensive evaluations show that our model outperforms existing work in audio quality, and in our newly proposed synchronization evaluation method. Furthermore, we demonstrate downstream applications of our model in improving video summarization.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 分子分極子の放射励起と振動緩和--ボソニックマッピングアプローチ

Radiative pumping vs vibrational relaxation of molecular polaritons: a bosonic mapping approach ( http://arxiv.org/abs/2407.20594v1 )

ライセンス: Link先を確認
Juan B. Pérez-Sánchez, Joel Yuen-Zhou, (参考訳) 分子ビブロニック状態のボゾン化に基づく分子偏光子研究の形式化について述べる。 この定式化は、任意の数の分子$N$、励起、内部の振動構造を許容し、数値的にも解析的にも、$N\rightarrow\infty$制限を超える分子偏光子過程を研究するのに理想的である。 ここでは、この形式を用いて放射励起と振動緩和率を厳格に導出し、これらのメカニズムの根本的な違いを確立する。 放射励起は非コヒーレントエキシトンからの放射であり、その速度を透過および再吸収成分に分割することを示す。 一方、弱い線形ビブロニックカップリング系における振動緩和速度は、放射ポンピングによって既に説明されている$\mathcal{O}(1/N)$コントリビューションと、我々が偏光支援ラマン散乱とみなす‘textit{single}-moleculeライトマターカップリングにおける2次過程からの$\mathcal{O}(1/N^2)$コントリビューションの2つの成分からなる。 この散乱による振動緩和は、放射と下方偏光子遷移の間のエネルギー差がラマン過程で生じる振動励起に対応するときに促進されることを示す。

We present a formalism to study molecular polaritons in the collective regime, based on the bosonization of molecular vibronic states. This formalism accommodates an arbitrary number of molecules $N$, excitations and internal vibronic structures, making it ideal for investigating molecular polariton processes beyond the $N\rightarrow\infty$ limit (i.e., accounting for finite $N$ effects), both numerically and analytically. Here, we employ this formalism to rigorously derive radiative pumping and vibrational relaxation rates, and establish the fundamental differences between these mechanisms. We show that radiative pumping is the emission from incoherent excitons and divide its rate into transmitted and re-absorbed components. On the other hand, the vibrational relaxation rate in the weak linear vibronic coupling regime is composed of two components: a $\mathcal{O}(1/N)$ contribution already accounted for by radiative pumping, and a $\mathcal{O}(1/N^2)$ contribution from a second-order process in the \textit{single}-molecule light-matter coupling that we identify as a polariton-assisted Raman scattering. We demonstrate that vibrational relaxation via this scattering is enhanced when the energy difference between the emission and the lower polariton transition corresponds to the vibrational excitation created in the Raman process.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# HAL出版レポジトリのテキストと構造化データ

Harvesting Textual and Structured Data from the HAL Publication Repository ( http://arxiv.org/abs/2407.20595v1 )

ライセンス: Link先を確認
Francis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary, (参考訳) HAL(Hyper Articles en Ligne)は、ほとんどの高等教育機関や研究機関が公開科学政策のために使用しているフランスの国立出版物リポジトリである。 デジタル図書館として学術資料の豊富な蔵書であるが、先進的な研究の可能性は未利用である。 本稿では、引用ネットワークとHALに提出された論文の全文とのギャップを埋めるユニークなデータセットであるHALvestを紹介する。 私たちは、学術出版物のためにHALをフィルタリングし、約70万のドキュメントを作成し、13の特定ドメインに34の言語をまたがり、言語モデルの訓練に適しており、約1650億のトークン(フランス語で80億、英語で70億、最も代表される言語で70億)を生成する。 我々は各論文のメタデータを引用ネットワークに変換し、有向不均一グラフを生成する。 このグラフには、HAL上の一意に特定された著者と、全ての公開論文とその引用が含まれている。 本稿では,本データセットを用いた著者帰属のためのベースラインを提供し,リンク予測のためのグラフ表現学習における最先端モデルの実装と,生成した知識グラフ構造の有用性について考察する。

HAL (Hyper Articles en Ligne) is the French national publication repository, used by most higher education and research organizations for their open science policy. As a digital library, it is a rich repository of scholarly documents, but its potential for advanced research has been underutilized. We present HALvest, a unique dataset that bridges the gap between citation networks and the full text of papers submitted on HAL. We craft our dataset by filtering HAL for scholarly publications, resulting in approximately 700,000 documents, spanning 34 languages across 13 identified domains, suitable for language model training, and yielding approximately 16.5 billion tokens (with 8 billion in French and 7 billion in English, the most represented languages). We transform the metadata of each paper into a citation network, producing a directed heterogeneous graph. This graph includes uniquely identified authors on HAL, as well as all open submitted papers, and their citations. We provide a baseline for authorship attribution using the dataset, implement a range of state-of-the-art models in graph representation learning for link prediction, and discuss the usefulness of our generated knowledge graph structure.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 全スライド画像による卵巣癌Bevacizumab治療反応予測の基準的組織学的基礎モデル

Benchmarking Histopathology Foundation Models for Ovarian Cancer Bevacizumab Treatment Response Prediction from Whole Slide Images ( http://arxiv.org/abs/2407.20596v1 )

ライセンス: Link先を確認
Mayur Mallya, Ali Khajegili Mirabadi, Hossein Farahani, Ali Bashashati, (参考訳) ベバチズマブ(Bevacizumab)は、卵巣がんの再発に対する標準化学療法と併用して広く研究されている標的治療薬である。 進行無生存率(PFS)は進行性卵巣癌患者では高い値を示したが、患者反応を予測するための同定可能なバイオマーカーが欠如していることは、パーソナライズド医療への効果的な採用において大きな障害となっている。 本研究は, 大規模全スライド画像(WSI)データセットに基づいて訓練された最新の病理組織基盤モデルを用いて, 卵巣腫瘍組織の特徴を抽出し, WSIsからのベクチズマブ反応を予測する。 AUCスコアが0.86、精度が72.5%である卵巣癌患者において、さまざまな病理組織モデルとMIL(Multiple Case Learning)戦略の組み合わせによる広範な実験を行った。 また,高悪性度卵巣癌患者においても,高リスク・低リスク症例(p<05。 本研究は,WSIsからの卵巣ベバチズマブ反応予測の課題に対する病理組織学的基盤モデルの有用性を強調した。 これらのモデルによって強調されたWSIsの高アテンション領域は、モデル説明可能性の助けとなるだけでなく、治療の予後に有望なバイオマーカーとして役立ちます。

Bevacizumab is a widely studied targeted therapeutic drug used in conjunction with standard chemotherapy for the treatment of recurrent ovarian cancer. While its administration has shown to increase the progression-free survival (PFS) in patients with advanced stage ovarian cancer, the lack of identifiable biomarkers for predicting patient response has been a major roadblock in its effective adoption towards personalized medicine. In this work, we leverage the latest histopathology foundation models trained on large-scale whole slide image (WSI) datasets to extract ovarian tumor tissue features for predicting bevacizumab response from WSIs. Our extensive experiments across a combination of different histopathology foundation models and multiple instance learning (MIL) strategies demonstrate capability of these large models in predicting bevacizumab response in ovarian cancer patients with the best models achieving an AUC score of 0.86 and an accuracy score of 72.5%. Furthermore, our survival models are able to stratify high- and low-risk cases with statistical significance (p < 0.05) even among the patients with the aggressive subtype of high-grade serous ovarian carcinoma. This work highlights the utility of histopathology foundation models for the task of ovarian bevacizumab response prediction from WSIs. The high-attention regions of the WSIs highlighted by these models not only aid the model explainability but also serve as promising imaging biomarkers for treatment prognosis.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# せん断ニューラルネットワークにおける誘導バイアスとしての関節拡散過程

Joint Diffusion Processes as an Inductive Bias in Sheaf Neural Networks ( http://arxiv.org/abs/2407.20597v1 )

ライセンス: Link先を確認
Ferran Hernandez Caralt, Guillermo Bernárdez Gil, Iulia Duta, Pietro Liò, Eduard Alarcón Cot, (参考訳) シーフニューラルネットワーク(SNN)は、グラフ上にセル層を付与し、ノードとエッジにベクトル空間を設け、それらの間の線形マッピングを定義することによって、グラフニューラルネットワーク(GNN)を自然に拡張する。 付着した幾何学構造はヘテロフィリー解析や過度な平滑化解析に有用であることが証明されているが、今のところ、棚が計算される手法は必ずしもそのような設定で良い性能を保証していない。 本研究では、意見力学の概念からインスピレーションを得た2つの新しい棚学習手法を提案する。 (i)関連する構造図のより直感的な理解を提供する。 二 ヘテロフィリー及び過度なスムージングに有用な誘導バイアスを導入すること、及び 三 既存手法に比べて学習可能なパラメータが少ないため、特徴数に応じてスケールしない方法で棚を推定すること。 評価では,これまでにSNNで使用されている実世界のベンチマークの限界を示し,n次元エリプシドの対称性を活用した新しい合成タスクを設計することにより,せん断モデルの性能と弱点をよりよく評価することができる。 これらの新しいデータセットに関する大規模な実験は、SNN全般、特に提案されたアプローチが有益なシナリオとコンテキストに関する貴重な洞察を明らかにします。

Sheaf Neural Networks (SNNs) naturally extend Graph Neural Networks (GNNs) by endowing a cellular sheaf over the graph, equipping nodes and edges with vector spaces and defining linear mappings between them. While the attached geometric structure has proven to be useful in analyzing heterophily and oversmoothing, so far the methods by which the sheaf is computed do not always guarantee a good performance in such settings. In this work, drawing inspiration from opinion dynamics concepts, we propose two novel sheaf learning approaches that (i) provide a more intuitive understanding of the involved structure maps, (ii) introduce a useful inductive bias for heterophily and oversmoothing, and (iii) infer the sheaf in a way that does not scale with the number of features, thus using fewer learnable parameters than existing methods. In our evaluation, we show the limitations of the real-world benchmarks used so far on SNNs, and design a new synthetic task -- leveraging the symmetries of n-dimensional ellipsoids -- that enables us to better assess the strengths and weaknesses of sheaf-based models. Our extensive experimentation on these novel datasets reveals valuable insights into the scenarios and contexts where SNNs in general -- and our proposed approaches in particular -- can be beneficial.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# 知識融合認識:定量的相対性理論とDeep Metric Learningによる画像認識のための階層的知識の融合

Knowledge Fused Recognition: Fusing Hierarchical Knowledge for Image Recognition through Quantitative Relativity Modeling and Deep Metric Learning ( http://arxiv.org/abs/2407.20600v1 )

ライセンス: Link先を確認
Yunfeng Zhao, Huiyu Zhou, Fei Wu, Xifeng Wu, (参考訳) 画像認識は、深層学習に不可欠なベースラインである。 イメージクラスに関する階層的な知識は、クラス間の類似性や相違性を表している。 画像認識を強化するために画像クラスに関する階層的な知識を効果的に融合することは、前進する上で難しいトピックである。 本稿では,画像クラスに関する階層的事前知識を効果的に融合し,エンドツーエンドの教師あり回帰方式で画像認識性能を向上させるための,新しい深層学習手法を提案する。 画像分類を組み込んだ既存の深度学習は、主に画像クラス間の定性的相対性を利用しており、例えば、サンプル画像が同じクラスに属するかどうかである。 モデル潜在空間における量的相対性を利用して知識空間における距離を整列する新しい三重項損失関数項も提案され、提案された双対モダリティ融合法に組み込まれている。 実験結果から,提案手法はCIFAR-10, CIFAR-100, Mini-ImageNet, ImageNet-1Kデータセットにおいて, 画像認識性能の向上, ベースラインの改良, 既存手法の高速化を図っている。

Image recognition is an essential baseline for deep metric learning. Hierarchical knowledge about image classes depicts inter-class similarities or dissimilarities. Effective fusion of hierarchical knowledge about image classes to enhance image recognition remains a challenging topic to advance. In this paper, we propose a novel deep metric learning based method to effectively fuse hierarchical prior knowledge about image classes and enhance image recognition performances in an end-to-end supervised regression manner. Existing deep metric learning incorporated image classification mainly exploits qualitative relativity between image classes, i.e., whether sampled images are from the same class. A new triplet loss function term that exploits quantitative relativity and aligns distances in model latent space with those in knowledge space is also proposed and incorporated in the proposed dual-modality fusion method. Experimental results indicate that the proposed method enhanced image recognition performances and outperformed baseline and existing methods on CIFAR-10, CIFAR-100, Mini-ImageNet, and ImageNet-1K datasets.
翻訳日:2024-07-31 18:09:21 公開日:2024-07-30
# リカレントニューラルネットワークにおける空間性の調査

Investigating Sparsity in Recurrent Neural Networks ( http://arxiv.org/abs/2407.20601v1 )

ライセンス: Link先を確認
Harshil Darji, (参考訳) 過去数年間、ニューラルネットワークは単純なフィードフォワードニューラルネットワークから、畳み込みニューラルネットワークやリカレントニューラルネットワークのようなより複雑なニューラルネットワークへと進化してきた。 CNNは、画像認識のようなシーケンスが重要でないタスクには最適であるが、機械翻訳のような順序が重要である場合、RNNは有用である。 ニューラルネットワークのレイヤー数の増加は、そのパフォーマンスを改善する方法のひとつだが、その複雑さも増し、トレーニングに時間と電力を要した。 この問題に対処するひとつの方法は、ニューラルネットワークのアーキテクチャに疎結合を導入することだ。 プルーニング(Pruning)は、ニューラルネットワークアーキテクチャを、特定のしきい値以下の重みをカットし、パフォーマンスを元のものに近づけることで、スパース化するための多くの方法の1つである。 別の方法は、ランダムグラフを使用して任意の構造を生成し、ニューラルネットワークの入力層と出力層の間に埋め込むことである。 ここ数年、多くの研究者が主にCNNに焦点を合わせてきたが、RNNでも同様の研究はほとんど行われていない。 同じことは、任意の構造を生成して埋め込みすることで、RNN用のスパースアーキテクチャを作成することにも当てはまる。 そこで本論文では,従来の2つの手法がRNNの性能に与える影響について考察する。 まず,RNNの刈り込み,RNNの性能への影響,および刈り込み後の精度回復に必要な訓練エポック数について述べる。 次に、スパースリカレントニューラルネットワークの作成と訓練を継続し、その基礎となる任意の構造の性能とグラフ特性の関係を同定する。 本稿では,RNNをTanh非線形性(RNN-Tanh),ReLU非線形性(RNN-ReLU),GRU,LSTMを用いて実験を行った。 最後に,両実験の結果を分析し,考察する。

In the past few years, neural networks have evolved from simple Feedforward Neural Networks to more complex neural networks, such as Convolutional Neural Networks and Recurrent Neural Networks. Where CNNs are a perfect fit for tasks where the sequence is not important such as image recognition, RNNs are useful when order is important such as machine translation. An increasing number of layers in a neural network is one way to improve its performance, but it also increases its complexity making it much more time and power-consuming to train. One way to tackle this problem is to introduce sparsity in the architecture of the neural network. Pruning is one of the many methods to make a neural network architecture sparse by clipping out weights below a certain threshold while keeping the performance near to the original. Another way is to generate arbitrary structures using random graphs and embed them between an input and output layer of an Artificial Neural Network. Many researchers in past years have focused on pruning mainly CNNs, while hardly any research is done for the same in RNNs. The same also holds in creating sparse architectures for RNNs by generating and embedding arbitrary structures. Therefore, this thesis focuses on investigating the effects of the before-mentioned two techniques on the performance of RNNs. We first describe the pruning of RNNs, its impact on the performance of RNNs, and the number of training epochs required to regain accuracy after the pruning is performed. Next, we continue with the creation and training of Sparse Recurrent Neural Networks and identify the relation between the performance and the graph properties of its underlying arbitrary structure. We perform these experiments on RNN with Tanh nonlinearity (RNN-Tanh), RNN with ReLU nonlinearity (RNN-ReLU), GRU, and LSTM. Finally, we analyze and discuss the results achieved from both the experiments.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# GPTに基づく翻訳品質評価による異文化間問合せ適応の合理化

Questionnaires for Everyone: Streamlining Cross-Cultural Questionnaire Adaptation with GPT-Based Translation Quality Evaluation ( http://arxiv.org/abs/2407.20608v1 )

ライセンス: Link先を確認
Otso Haavisto, Robin Welsch, (参考訳) 新しい言語にアンケートを適用することは、しばしば複数の独立した翻訳者を雇うことを必要とする資源集約的なプロセスであり、研究者が異文化間の研究を行い、研究や社会における不平等を効果的に生み出す能力を制限する。 本研究は,アンケート翻訳プロセスの迅速化を図るためのプロトタイプツールを提案する。 このツールには、GPT-4で生成された翻訳品質の評価と改善提案と共にDeepLを用いた前方翻訳が組み込まれている。 被験者が英語からドイツ語(Study 1; n=10)かポルトガル語(Study 2; n=20)に翻訳した2つのオンライン調査を行った。 ツールを用いて作成した翻訳の質を評価するため,従来の翻訳版とツール支援版を比較した。 提案手法は,従来の非NLP翻訳法と類似した結果を得るのに有効であることが示唆された。 これはAIを活用した、より公平なアンケートベースの研究に向けた第一歩だ。

Adapting questionnaires to new languages is a resource-intensive process often requiring the hiring of multiple independent translators, which limits the ability of researchers to conduct cross-cultural research and effectively creates inequalities in research and society. This work presents a prototype tool that can expedite the questionnaire translation process. The tool incorporates forward-backward translation using DeepL alongside GPT-4-generated translation quality evaluations and improvement suggestions. We conducted two online studies in which participants translated questionnaires from English to either German (Study 1; n=10) or Portuguese (Study 2; n=20) using our prototype. To evaluate the quality of the translations created using the tool, evaluation scores between conventionally translated and tool-supported versions were compared. Our results indicate that integrating LLM-generated translation quality evaluations and suggestions for improvement can help users independently attain results similar to those provided by conventional, non-NLP-supported translation methods. This is the first step towards more equitable questionnaire-based research, powered by AI.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# ランダムウォーク分散学習における包絡問題

The Entrapment Problem in Random Walk Decentralized Learning ( http://arxiv.org/abs/2407.20611v1 )

ライセンス: Link先を確認
Zonghong Liu, Salim El Rouayheb, Matthew Dwyer, (参考訳) 本稿では,ノード間でデータを分散するグラフベースの分散学習について検討する。 ローカルデータに基づくグローバルモデル更新にランダムウォークを利用する分散SGDアルゴリズムについて検討する。 我々の焦点は収束を早めるために遷移確率行列を設計することである。 重要サンプリングは集中学習を高めることができるが、メトロポリス・ハスティングス(MH)アルゴリズムを用いた分散学習は、ランダムウォークが特定のノードで立ち往生し、収束が遅くなるという障害に繋がる可能性がある。 これを解決するために,ランダムな摂動(ジャンプ)を組み込んだL''evy Jumps (MHLJ) アルゴリズムを提案する。 MHLJの収束率と誤差ギャップを理論的に確立し,数値実験による検証を行った。

This paper explores decentralized learning in a graph-based setting, where data is distributed across nodes. We investigate a decentralized SGD algorithm that utilizes a random walk to update a global model based on local data. Our focus is on designing the transition probability matrix to speed up convergence. While importance sampling can enhance centralized learning, its decentralized counterpart, using the Metropolis-Hastings (MH) algorithm, can lead to the entrapment problem, where the random walk becomes stuck at certain nodes, slowing convergence. To address this, we propose the Metropolis-Hastings with L\'evy Jumps (MHLJ) algorithm, which incorporates random perturbations (jumps) to overcome entrapment. We theoretically establish the convergence rate and error gap of MHLJ and validate our findings through numerical experiments.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 強磁性スピンにおける多フラクタル性と励起状態量子相転移-1$ボース-アインシュタイン凝縮体

Multifractality and excited-state quantum phase transition in ferromagnetic spin-$1$ Bose-Einstein condensates ( http://arxiv.org/abs/2407.20612v1 )

ライセンス: Link先を確認
Zhen-Xia Niu, Qian Wang, (参考訳) 量子状態の多フラクタル性は、物理学の様々な分野で観察される多くの複雑な現象を理解する上で重要な役割を果たす。 固有状態の多重フラクタル的性質は、様々な相転移を特徴づけることができる。 本研究では, 強磁性スピン-1$ Bose-Einstein condensate (BEC) における静的および動的波動関数のフラクタル挙動に対する励起状態量子相転移(ESQPT)の影響を徹底的に解析する。 フラクタル次元の特徴を研究することにより,固有状態と時間発展状態の多フラクタル性がESQPTの存在によってどのように影響を受けるかを示す。 具体的には、ESQPTの基礎となるESQPTは、強い局所化効果をもたらすため、ESQPTの指標として使用することができる。 詳細なスケーリング解析により, フラクタル次元によるESQPTの発生を調査する能力を検証する。 また、ESQPTが長期平均状態のフラクタル次元でどのように現れるかについても論じる。 さらに, このマルチフラクタル解析は, 量子多体系における相転移の研究の強力なツールであり, ESQPTsの応用の可能性も示唆している。

Multifractality of quantum states plays an important role for understanding numerous complex phenomena observed in different branches of physics. The multifractal properties of the eigenstates allow for charactering various phase transitions. In this work, we perform a thoroughly analysis of the impacts of an excited-state quantum phase transition (ESQPT) on the fractal behavior of both static and dynamical wavefunctions in a ferromagentic spin-$1$ Bose-Einstein condensate (BEC).By studying the features of the fractal dimensions, we show how the multifractality of eigenstates and time evolved state are affected by the presence of ESQPT. Specifically, the underlying ESQPT leads to a strong localization effect, which in turn enables us to use it as an indicator of ESQPT. We verify the ability of the fractal dimensions to probe the occurrence of ESQPT through a detailed scaling analysis. We also discuss how the ESQPT manifests itself in the fractal dimensions of the long-time averaged state. Our findings further confirm that the multifractal analysis is a powerful tool for studying of phase transitions in quantum many-body systems and also hint an potential application of ESQPTs in burgeoning field of state preparation engineering.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 加速フォワードとダグラス・ラフフォード分裂ダイナミクス

Accelerated forward-backward and Douglas-Rachford splitting dynamics ( http://arxiv.org/abs/2407.20620v1 )

ライセンス: Link先を確認
Ibrahim K. Ozaslan, Mihailo R. Jovanović, (参考訳) 非滑らかな複合最適化問題に対する加速フォワード・バックワード(FB)およびダグラス・ラフフォード(DR)分割アルゴリズムの連続時間変動の収束特性について検討する。 目的関数が二次項と非滑らか項の和で与えられるとき、凸問題と強凸問題に対する加速された部分線型および指数収束速度をそれぞれ確立する。 さらに、FB分割力学では、指数収束速度の加速が一般的な凸問題に取って代わることを示す。 Lyapunov に基づく解析では、FB および DR 分割の可変度勾配解釈を利用して滑らかな Lyapunov 関数を得る。 解析のメリットと有効性を示すために,計算実験を行った。

We examine convergence properties of continuous-time variants of accelerated Forward-Backward (FB) and Douglas-Rachford (DR) splitting algorithms for nonsmooth composite optimization problems. When the objective function is given by the sum of a quadratic and a nonsmooth term, we establish accelerated sublinear and exponential convergence rates for convex and strongly convex problems, respectively. Moreover, for FB splitting dynamics, we demonstrate that accelerated exponential convergence rate carries over to general strongly convex problems. In our Lyapunov-based analysis we exploit the variable-metric gradient interpretations of FB and DR splittings to obtain smooth Lyapunov functions that allow us to establish accelerated convergence rates. We provide computational experiments to demonstrate the merits and the effectiveness of our analysis.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 人間の脳の言語表現の復号化

Decoding Linguistic Representations of Human Brain ( http://arxiv.org/abs/2407.20622v1 )

ライセンス: Link先を確認
Yu Wang, Heyang Liu, Yuhao Wang, Chuan Xuan, Yixuan Hou, Sheng Feng, Hongcheng Liu, Yusheng Liao, Yanfeng Wang, (参考訳) 先進的な生物によって作成された情報媒体としての言語は、脳内でどのように表現されるかという神経科学に常に関心を抱いていた。 誘発脳における言語表現の復号化は、神経画像、医療技術、生命科学、人工知能の急速な進歩により、画期的な成果を示している。 本研究では,テキスト形式と音声形式の両方を脳から言語へ復号する分類法を提案する。 この研究は、言語理解に焦点を当てた神経科学と深層学習に基づく脳復号という2つのタイプの研究を統合している。 脳活動から識別可能な言語情報を生成することは、限られた関節症、特に筋萎縮性側索硬化症(ALS)患者を助けるだけでなく、次世代の脳-コンピュータインターフェース(BCI)の新しい方法を開くのにも役立った。 この記事では、脳科学者とディープラーニング研究者が、きめ細かい言語知覚の鳥の目視を得るのを助け、それによって神経プロセスと言語復号のさらなる研究と研究を促進する。

Language, as an information medium created by advanced organisms, has always been a concern of neuroscience regarding how it is represented in the brain. Decoding linguistic representations in the evoked brain has shown groundbreaking achievements, thanks to the rapid improvement of neuroimaging, medical technology, life sciences and artificial intelligence. In this work, we present a taxonomy of brain-to-language decoding of both textual and speech formats. This work integrates two types of research: neuroscience focusing on language understanding and deep learning-based brain decoding. Generating discernible language information from brain activity could not only help those with limited articulation, especially amyotrophic lateral sclerosis (ALS) patients but also open up a new way for the next generation's brain-computer interface (BCI). This article will help brain scientists and deep-learning researchers to gain a bird's eye view of fine-grained language perception, and thus facilitate their further investigation and research of neural process and language decoding.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# SharkTrack:サメとレイの水中ビデオ分析を合理化するための正確で汎用的なソフトウェア

SharkTrack: an accurate, generalisable software for streamlining shark and ray underwater video analysis ( http://arxiv.org/abs/2407.20623v1 )

ライセンス: Link先を確認
Filippo Varini, Francesco Ferretti, Jeremy Jenrette, Joel H. Gayford, Mark E. Bond, Matthew J. Witt, Michael R. Heithaus, Sophie Wilday, Ben Glocker, (参考訳) エラスモブランチ(シャークとレイ)は海洋生態系の重要な構成要素であるが、世界の人口減少を経験している。 これらの個体群を効果的に監視することは保護に不可欠である。 BRUVS(Baited Remote Underwater Video Stations)は、監視のための重要なツールであるが、時間を要する手動分析を必要とする。 これらの課題に対処するため、AIに強化されたBRUVS分析ソフトウェアであるSharkTrackを開発した。 SharkTrackはConvolutional Neural NetworksとMulti-Object Trackingを使用してエラストモブランチを検出し、追跡し、エラスモブランチ種を手動で分類し、相対的存在量の標準指標であるMaxNを計算するためのアノテーションパイプラインを提供する。 トレーニング中にモデルに見えない場所のBRUVSでSharkTrackをテストしました。 SharkTrackは、207時間の映像に対して89%の精度でMaxNを計算した。 半自動的なSharkTrackパイプラインでは、ビデオの1時間あたりの手動分類が2分必要で、従来のビデオの1時間あたりの保守的な推定に比べて、手動のBRUVS分析時間が97%削減された。 さらに,多様な海洋生態系およびエラストモブランチ種にまたがるSharkTrackの適用を実証した。 SharkTrack のアプリケーションは BRUVS 解析を超えて拡張されており、ラベルなしビデオの迅速なアノテーションを促進し、エラストモブランチ種を分類するさらなるモデルの開発を支援している。 我々は,本ソフトウェアと前例のない多様なデータセットへの公開アクセスを提供し,海洋保護の重要な領域における今後の研究を促進する。

Elasmobranchs (sharks and rays) can be important components of marine ecosystems but are experiencing global population declines. Effective monitoring of these populations is essential to their protection. Baited Remote Underwater Video Stations (BRUVS) have been a key tool for monitoring, but require time-consuming manual analysis. To address these challenges, we developed SharkTrack, an AI-enhanced BRUVS analysis software. SharkTrack uses Convolutional Neural Networks and Multi-Object Tracking to detect and track elasmobranchs and provides an annotation pipeline to manually classify elasmobranch species and compute MaxN, the standard metric of relative abundance. We tested SharkTrack on BRUVS footage from locations unseen by the model during training. SharkTrack computed MaxN with 89% accuracy over 207 hours of footage. The semi-automatic SharkTrack pipeline required two minutes of manual classification per hour of video, a 97% reduction of manual BRUVS analysis time compared to traditional methods, estimated conservatively at one hour per hour of video. Furthermore, we demonstrate SharkTrack application across diverse marine ecosystems and elasmobranch species, an advancement compared to previous models, which were limited to specific species or locations. SharkTrack applications extend beyond BRUVS analysis, facilitating rapid annotation of unlabeled videos, aiding the development of further models to classify elasmobranch species. We provide public access to the software and an unprecedentedly diverse dataset, facilitating future research in an important area of marine conservation.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 線形および立方体スピン軌道相互作用を持つ電気双極子スピン共鳴

Electric dipole spin resonance with linear and cubic spin-orbit interaction ( http://arxiv.org/abs/2407.20632v1 )

ライセンス: Link先を確認
Yasuhiro Tokura, (参考訳) 電子双極子スピン共鳴(EDSR)は、量子井戸で形成されるGaAsおよびGe系量子ドットにおけるスピン軌道相互作用(SOI)を用いて考える。 我々はシュリーファー・ヴォルフ変換と回転フレームを用いてEDSRの有効ハミルトニアンを導出する。 軌道運動と環境との結合をGorini-Kossakowski-Sudarshan-Lindblad (GKSL)マスター方程式で扱う。 その結果, 立方体SOIは印加されたマイクロ波振幅でラビ周波数を非線形にすることがわかった。 同時に、スピン-軌道カップリングの残余がスピン緩和を引き起こすため、スピン操作の忠実度は悪化する。

We consider the electric dipole spin resonance (EDSR) with using the spin-orbit interaction (SOI) in GaAs and Ge based quantum dots formed in a quantum well. We use Schrieffer-Wolff transformation and rotating frame to derive the effective Hamiltonian of EDSR. We treat the couplings of the orbital motion with the environment with Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equation. We found that the cubic SOI makes the Rabi frequency non-linear with the applied microwave amplitude. At the same time, the fidelity of the spin manipulations becomes worse since the residual spin-orbital couplings induces spin relaxation.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# Spiking-DD: スパイクニューラルネットワークを用いたニューロモルフィックイベントカメラによる運転者抽出検出

Spiking-DD: Neuromorphic Event Camera based Driver Distraction Detection with Spiking Neural Network ( http://arxiv.org/abs/2407.20633v1 )

ライセンス: Link先を確認
Waseem Shariff, Paul Kielty, Joseph Lemley, Peter Corcoran, (参考訳) 迅速な応答、低レイテンシ、電力効率、プライバシーの強化、アンダーサンプリングの防止など、その大きなアドバンテージによって、イベントカメラベースのドライバ監視が研究の重要な領域として浮上している。 運転者の注意散らしを効果的に検出することは、運転者監視システムにおいて、道路の安全性を高め、事故率を低減するために重要である。 Event Cameraのような最適化されたセンサーと最適化されたネットワークを統合することは、これらの利点を最大化する上で不可欠である。 本稿では,SNN(Computerly efficient Spiking Neural Network)を活用することにより,運転者の気晴らしを検出することなくセンサの革新的な概念を提案する。 我々の知る限りでは、この研究は、ドライバーの気を散らすために、スパイクニューラルネットワークを用いたイベントカメラデータを初めて利用したものだ。 提案したSpking-DDネットワークは、最先端の性能を達成するだけでなく、パラメータも少なく、現在のイベントベースの手法よりも精度が高い。

Event camera-based driver monitoring is emerging as a pivotal area of research, driven by its significant advantages such as rapid response, low latency, power efficiency, enhanced privacy, and prevention of undersampling. Effective detection of driver distraction is crucial in driver monitoring systems to enhance road safety and reduce accident rates. The integration of an optimized sensor such as Event Camera with an optimized network is essential for maximizing these benefits. This paper introduces the innovative concept of sensing without seeing to detect driver distraction, leveraging computationally efficient spiking neural networks (SNN). To the best of our knowledge, this study is the first to utilize event camera data with spiking neural networks for driver distraction. The proposed Spiking-DD network not only achieve state of the art performance but also exhibit fewer parameters and provides greater accuracy than current event-based methodologies.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 基礎モデルによる技能教育の自律的改善

Autonomous Improvement of Instruction Following Skills via Foundation Models ( http://arxiv.org/abs/2407.20635v1 )

ライセンス: Link先を確認
Zhiyuan Zhou, Pranav Atreya, Abraham Lee, Homer Walke, Oier Mees, Sergey Levine, (参考訳) 自律的に収集された経験から改善できるインテリジェントな命令追従ロボットは、ロボット学習を変革する可能性がある。高価な遠隔操作型デモデータを集める代わりに、大規模なロボット群を配置することで、大規模な自律的データを迅速に収集し、そのパフォーマンスを総合的に改善することができる。 しかし、自律的な改善には2つの重要な問題を解決する必要がある。 一 多様な意味論的に意味のあるロボットデータを収集できるスケーラブルなデータ収集手順を完全自動化すること。 (ii)人間のアノテーションのない最適でない自律的なデータから学ぶこと。 そこで本研究では,これらの課題に対処する新たなアプローチを提案する。 我々のフレームワークは視覚言語モデルを活用して,新しい環境における意味的な経験を収集・評価し,次に,タスクに続く命令を(意味のない)言語条件の画像生成と(意味のない)ゴール到達に分解することで,人間のアノテーションを使わずに,この自律的に収集したデータから改善することが極めて現実的である。 実世界において、我々のアプローチの有効性を実証するために広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータによってロボットのポリシーを大幅に改善できることを見出した。 セマンティックな自律的改善パイプラインのコードと、5つのテーブルトップ環境で収集された30.5Kトラジェクトリの自律的データセットをオープンソースにしています。

Intelligent instruction-following robots capable of improving from autonomously collected experience have the potential to transform robot learning: instead of collecting costly teleoperated demonstration data, large-scale deployment of fleets of robots can quickly collect larger quantities of autonomous data that can collectively improve their performance. However, autonomous improvement requires solving two key problems: (i) fully automating a scalable data collection procedure that can collect diverse and semantically meaningful robot data and (ii) learning from non-optimal, autonomous data with no human annotations. To this end, we propose a novel approach that addresses these challenges, allowing instruction-following policies to improve from autonomously collected data without human supervision. Our framework leverages vision-language models to collect and evaluate semantically meaningful experiences in new environments, and then utilizes a decomposition of instruction following tasks into (semantic) language-conditioned image generation and (non-semantic) goal reaching, which makes it significantly more practical to improve from this autonomously collected data without any human annotations. We carry out extensive experiments in the real world to demonstrate the effectiveness of our approach, and find that in a suite of unseen environments, the robot policy can be improved significantly with autonomously collected data. We open-source the code for our semantic autonomous improvement pipeline, as well as our autonomous dataset of 30.5K trajectories collected across five tabletop environments.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 純私的匿名学習のための改善された境界:アイテムレベルとユーザレベルプライバシ

Improved Bounds for Pure Private Agnostic Learning: Item-Level and User-Level Privacy ( http://arxiv.org/abs/2407.20640v1 )

ライセンス: Link先を確認
Bo Li, Wei Wang, Peng Ye, (参考訳) 機械学習は幅広い分野において顕著な進歩を遂げた。 多くのシナリオでは、学習アルゴリズムにプライバシー保護が不可欠である機密情報を含むデータセット上で学習が行われる。 本研究では,学習プロセスの実践を反映したフレームワークである非依存モデルにおける純粋私的学習について検討する。 項目レベル(各ユーザが1つの例に貢献する場所)とユーザレベル(各ユーザが複数の例に貢献する場所)で必要とされるユーザ数を調べ、いくつかの改善された上限を導出する。 アイテムレベルのプライバシでは、一般的な概念クラスに対して、アルゴリズムがほぼ最適な境界を達成できる。 我々はこれをユーザレベルの設定に拡張し、Ghazi et al (2023) によって証明されたものよりも厳密な上界を描画する。 最後に、ユーザレベルのプライバシの下での学習しきい値の問題について考察し、ほぼ厳密なユーザ複雑性を持つアルゴリズムを提案する。

Machine Learning has made remarkable progress in a wide range of fields. In many scenarios, learning is performed on datasets involving sensitive information, in which privacy protection is essential for learning algorithms. In this work, we study pure private learning in the agnostic model -- a framework reflecting the learning process in practice. We examine the number of users required under item-level (where each user contributes one example) and user-level (where each user contributes multiple examples) privacy and derive several improved upper bounds. For item-level privacy, our algorithm achieves a near optimal bound for general concept classes. We extend this to the user-level setting, rendering a tighter upper bound than the one proved by Ghazi et al. (2023). Lastly, we consider the problem of learning thresholds under user-level privacy and present an algorithm with a nearly tight user complexity.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 映像・映像の状況要約生成のためのCLIPの有効活用

Effectively Leveraging CLIP for Generating Situational Summaries of Images and Videos ( http://arxiv.org/abs/2407.20642v1 )

ライセンス: Link先を確認
Dhruv Verma, Debaditya Roy, Basura Fernando, (参考訳) 状況認識とは、エージェントが利用可能な情報や感覚入力に基づいて、様々な状況や状況を特定し、理解する能力である。 環境からデータを解釈し、何が起きているのか、どの要因が関与しているか、そしてどのような行動がこれらの状況を引き起こしたのかを判断する認知プロセスを含む。 この状況の解釈は、コンピュータビジョンに基づく状況認識における意味的役割ラベル付け問題として定式化されている。 画像やビデオに描かれた状況は、画像やビデオのキャプション、マルチメディア検索、自律システム、イベント監視など、さまざまなアプリケーションに不可欠な、重要な情報を持っている。 しかし、既存の手法は、意味のある正確な予測を生成する際に、曖昧さと文脈の欠如に悩まされることが多い。 CLIPのようなマルチモーダルモデルを活用することで、完全な微調整の必要性を助長し、状況認識やローカライゼーションタスクにおける最先端の結果を達成するClipSituを提案する。 ClipSituは、CLIPベースのイメージ、動詞、ロール埋め込みを使用して、動詞に関連するすべてのロールを満たす名詞を予測する。 クロスアテンション変換器を通じて、ClipSitu XTFはセマンティックロールクエリと視覚トークン表現との接続を強化し、状況認識における優れたパフォーマンスを実現する。 また、ドメイン外画像の状況要約を生成するためのエンドツーエンドのフレームワークを作成するために、ほぼ完全精度の冗長なロール予測モデルを提案する。 この結果から,ClipSituモデルでは,一般的なキャプションに比べて曖昧さを低減した構造化記述を作成できることがわかった。 最後に,ClipSituを映像状況認識に拡張し,その汎用性を実証し,最先端手法に匹敵する性能を示す。

Situation recognition refers to the ability of an agent to identify and understand various situations or contexts based on available information and sensory inputs. It involves the cognitive process of interpreting data from the environment to determine what is happening, what factors are involved, and what actions caused those situations. This interpretation of situations is formulated as a semantic role labeling problem in computer vision-based situation recognition. Situations depicted in images and videos hold pivotal information, essential for various applications like image and video captioning, multimedia retrieval, autonomous systems and event monitoring. However, existing methods often struggle with ambiguity and lack of context in generating meaningful and accurate predictions. Leveraging multimodal models such as CLIP, we propose ClipSitu, which sidesteps the need for full fine-tuning and achieves state-of-the-art results in situation recognition and localization tasks. ClipSitu harnesses CLIP-based image, verb, and role embeddings to predict nouns fulfilling all the roles associated with a verb, providing a comprehensive understanding of depicted scenarios. Through a cross-attention Transformer, ClipSitu XTF enhances the connection between semantic role queries and visual token representations, leading to superior performance in situation recognition. We also propose a verb-wise role prediction model with near-perfect accuracy to create an end-to-end framework for producing situational summaries for out-of-domain images. We show that situational summaries empower our ClipSitu models to produce structured descriptions with reduced ambiguity compared to generic captions. Finally, we extend ClipSitu to video situation recognition to showcase its versatility and produce comparable performance to state-of-the-art methods.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# AIによる免疫組織化学の免疫組織化学の一般評価 : ユニバーサル免疫組織化学分析装置

Generalizing AI-driven Assessment of Immunohistochemistry across Immunostains and Cancer Types: A Universal Immunohistochemistry Analyzer ( http://arxiv.org/abs/2407.20643v1 )

ライセンス: Link先を確認
Biagio Brattoli, Mohammad Mostafavi, Taebum Lee, Wonkyung Jung, Jeongun Ryu, Seonwook Park, Jongchan Park, Sergio Pereira, Seunghwan Shin, Sangjoon Choi, Hyojin Kim, Donggeun Yoo, Siraj M. Ali, Kyunghyun Paeng, Chan-Young Ock, Soo Ick Cho, Seokhwi Kim, (参考訳) 方法の進歩にもかかわらず、免疫組織化学(IHC)は、標的療法における病理組織学的および相補的診断において最も有効である。 しかし、客観的IHC評価は課題を提起する。 人工知能(AI)は潜在的な解決策として浮上しているが、その開発には各がんとIHCタイプに対する広範な訓練が必要であり、汎用性を制限する。 We developed a Universal IHC analysisr, a AI model for interpreting IHC images regardless of tumor or IHC types, using training datas from various cancers stained for PD-L1 and/or HER2。 このマルチコホートトレーニングモデルは、見えないIHC(Kappa score 0.578 vs. 0.509)の解釈において、従来のシングルコホートモデルよりも優れ、異なる正の染色カットオフ値に対して、一貫して優れた性能を示す。 定性的分析により、UIHCは式レベルに基づいてパッチを効果的にクラスタリングする。 UIHCモデルはまた、MET変異によるc-MET発現を定量的に評価し、パーソナライズされた医療の時代におけるAI応用の著しい進歩と新しいバイオマーカーの蓄積を示す。

Despite advancements in methodologies, immunohistochemistry (IHC) remains the most utilized ancillary test for histopathologic and companion diagnostics in targeted therapies. However, objective IHC assessment poses challenges. Artificial intelligence (AI) has emerged as a potential solution, yet its development requires extensive training for each cancer and IHC type, limiting versatility. We developed a Universal IHC (UIHC) analyzer, an AI model for interpreting IHC images regardless of tumor or IHC types, using training datasets from various cancers stained for PD-L1 and/or HER2. This multi-cohort trained model outperforms conventional single-cohort models in interpreting unseen IHCs (Kappa score 0.578 vs. up to 0.509) and consistently shows superior performance across different positive staining cutoff values. Qualitative analysis reveals that UIHC effectively clusters patches based on expression levels. The UIHC model also quantitatively assesses c-MET expression with MET mutations, representing a significant advancement in AI application in the era of personalized medicine and accumulating novel biomarkers.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# Image Re-Identification:Self-supervisionがビジョンランゲージ学習と出会う

Image Re-Identification: Where Self-supervision Meets Vision-Language Learning ( http://arxiv.org/abs/2407.20647v1 )

ライセンス: Link先を確認
Bin Wang, Yuying Liang, Lei Cai, Huakun Huang, Huanqiang Zeng, (参考訳) 近年、CLIPのような大規模視覚言語事前訓練モデルでは、画像再識別(ReID)の性能が著しく向上している。 本研究では,画像ReIDタスクにCLIPを用いることで,自己監督が有効かどうかを検討する。 具体的には,SVLL-ReIDを提案する。SVLL-ReIDは,イメージReIDを促進するために,2つのトレーニング段階を経て,自己スーパービジョンと事前学習されたCLIPを統合する最初の試みである。 私たちはそれを観察します。 1)第1の訓練段階に言語自己監督を取り入れることで、学習可能なテキストのプロンプトをより区別しやすくすることができる。 2)第2の訓練段階に視覚自己監督を取り入れることで、画像エンコーダが学習した画像特徴をより差別的にすることができる。 これらの観察は以下のことを示唆している。 1)第1段階のテキスト・プロンプト学習は、言語自己監督の恩恵を受けることができる。 2)第2段階のイメージ特徴学習は,ビジョン・セルフ・スーパービジョンの恩恵を受けることができる。 これらの利点は、提案されたSVLL-ReIDの性能向上を共同で促進する。 具体的なテキストラベルを持たない6つの画像ReIDベンチマークデータセットで実験を行うことで,提案したSVLL-ReIDは,最先端技術と比較して総合的に最高の性能を達成できることがわかった。 コードはhttps://github.com/BinWangGzhu/SVLL-ReIDで公開される。

Recently, large-scale vision-language pre-trained models like CLIP have shown impressive performance in image re-identification (ReID). In this work, we explore whether self-supervision can aid in the use of CLIP for image ReID tasks. Specifically, we propose SVLL-ReID, the first attempt to integrate self-supervision and pre-trained CLIP via two training stages to facilitate the image ReID. We observe that: 1) incorporating language self-supervision in the first training stage can make the learnable text prompts more distinguishable, and 2) incorporating vision self-supervision in the second training stage can make the image features learned by the image encoder more discriminative. These observations imply that: 1) the text prompt learning in the first stage can benefit from the language self-supervision, and 2) the image feature learning in the second stage can benefit from the vision self-supervision. These benefits jointly facilitate the performance gain of the proposed SVLL-ReID. By conducting experiments on six image ReID benchmark datasets without any concrete text labels, we find that the proposed SVLL-ReID achieves the overall best performances compared with state-of-the-arts. Codes will be publicly available at https://github.com/BinWangGzhu/SVLL-ReID.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 不均一グラフ表現学習のための多面パスの活用

Leveraging Multi-facet Paths for Heterogeneous Graph Representation Learning ( http://arxiv.org/abs/2407.20648v1 )

ライセンス: Link先を確認
JongWoo Kim, SeongYeub Chu, HyeongMin Park, Bryan Wong, MunYong Yi, (参考訳) グラフニューラルネットワーク(GNN)と異種GNN(HGNN)の最近の進歩は、様々なタスクのための高度なノード埋め込みと関係学習をもたらしている。 しかし、既存のメソッドは、しばしばドメイン固有の定義済みのメタパスに依存し、それは粗い粒度であり、ノードタイプのようなアスペクトにのみ焦点を合わせ、複雑なインタラクションをキャプチャする能力を制限する。 MF2Vecは、事前に定義されたメタパスの代わりに、多面的(きめ細かい)パスを使用するモデルである。 MF2Vecはランダムウォークを介してパスを抽出し、予め定義されたスキーマを無視した多面ベクトルを生成する。 この方法はノードとその関係の多様な側面を学習し、均質なネットワークを構築し、分類、リンク予測、クラスタリングのためのノード埋め込みを生成する。 大規模な実験により、MF2Vecは既存の手法よりも優れており、複雑なネットワークを解析するためのより柔軟で包括的なフレームワークを提供する。 コードはhttps://anonymous.4open.science/r/MF2Vec-6ABCで公開されている。

Recent advancements in graph neural networks (GNNs) and heterogeneous GNNs (HGNNs) have advanced node embeddings and relationship learning for various tasks. However, existing methods often rely on domain-specific predefined meta-paths, which are coarse-grained and focus solely on aspects like node type, limiting their ability to capture complex interactions. We introduce MF2Vec, a model that uses multi-faceted (fine-grained) paths instead of predefined meta-paths. MF2Vec extracts paths via random walks and generates multi-faceted vectors, ignoring predefined schemas. This method learns diverse aspects of nodes and their relationships, constructs a homogeneous network, and creates node embeddings for classification, link prediction, and clustering. Extensive experiments show that MF2Vec outperforms existing methods, offering a more flexible and comprehensive framework for analyzing complex networks. The code is available at https://anonymous.4open.science/r/MF2Vec-6ABC.
翻訳日:2024-07-31 17:59:37 公開日:2024-07-30
# 学習速度は不要: SALSA -- 安定Armijo Line Search Adaptationの導入

No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation ( http://arxiv.org/abs/2407.20650v1 )

ライセンス: Link先を確認
Philip Kenneweg, Tristan Kenneweg, Fabian Fumagalli, Barbara Hammer, (参考訳) 近年, 線形探索法は, 従来の確率勾配降下法の性能を, 様々なデータセットやアーキテクチャで著しく向上させるとともに, 学習率の過度な選択を行なおうとしている。 本稿では,現状のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。 さらに,これらの手法を,従来よりも大規模なデータセットと複雑なデータドメインの順序で評価する。 具体的には,その計算を高速化し,Armijo基準に運動量項を組み込むことにより,Armijoライン探索法を強化し,確率的ミニバッチに適している。 最適化手法は,AdamとSGDの最適化において,以前のArmijoの実装と調整された学習率スケジュールよりも優れていた。 我々の評価では、トランスフォーマー、CNN、MPP、NLPや画像データを含むデータドメインなど、さまざまなアーキテクチャをカバーしています。 私たちの作業はPythonパッケージとして公開されており、シンプルなPytorchオプティマイザを提供します。

In recent studies, line search methods have been demonstrated to significantly enhance the performance of conventional stochastic gradient descent techniques across various datasets and architectures, while making an otherwise critical choice of learning rate schedule superfluous. In this paper, we identify problems of current state-of-the-art of line search methods, propose enhancements, and rigorously assess their effectiveness. Furthermore, we evaluate these methods on orders of magnitude larger datasets and more complex data domains than previously done. More specifically, we enhance the Armijo line search method by speeding up its computation and incorporating a momentum term into the Armijo criterion, making it better suited for stochastic mini-batching. Our optimization approach outperforms both the previous Armijo implementation and a tuned learning rate schedule for the Adam and SGD optimizers. Our evaluation covers a diverse range of architectures, such as Transformers, CNNs, and MLPs, as well as data domains, including NLP and image data. Our work is publicly available as a Python package, which provides a simple Pytorch optimizer.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 因果性誘導型自己適応表現による一般化型強化学習に向けて

Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations ( http://arxiv.org/abs/2407.20651v1 )

ライセンス: Link先を確認
Yupei Yang, Biwei Huang, Fan Feng, Xinyue Wang, Shikui Tu, Lei Xu, (参考訳) 汎用インテリジェンスには、タスク間の迅速な適応が必要です。 既存の強化学習(RL)法は一般化に進展したが、典型的にはソースとターゲットドメイン間の分布変化のみを仮定する。 本稿では,分布空間と環境空間の両方が変化するような,より広い範囲のシナリオについて検討する。 例えば、Atariゲームでは、エージェントに様々なレベルのモードと難易度を持つタスクに一般化するように訓練します。 この課題に対処するために、我々はCSRと呼ばれる因果性誘導型自己適応表現に基づくアプローチを導入し、エージェントに動的に進化する一連のタスクを効果的かつ効率的に一般化させる。 具体的には、RLシステム内の潜在因果変数と世界モデルを特徴付けるために因果表現学習を用いる。 このようなコンパクトな因果表現は変数間の構造的関係を解明し、エージェントが環境の変化が空間の分布変化や変動に由来するかどうかを自律的に決定し、これらの変化を正確に特定することを可能にする。 次に、異なるシナリオの下でモデルを微調整する3段階の戦略を考案します。 実験により、CSRは少数のサンプルでターゲットドメインに効率よく適応し、シミュレーション環境、カートポール、アタリゲームなど、幅広いシナリオで最先端のベースラインを上回ります。

General intelligence requires quick adaption across tasks. While existing reinforcement learning (RL) methods have made progress in generalization, they typically assume only distribution changes between source and target domains. In this paper, we explore a wider range of scenarios where both the distribution and environment spaces may change. For example, in Atari games, we train agents to generalize to tasks with different levels of mode and difficulty, where there could be new state or action variables that never occurred in previous environments. To address this challenging setting, we introduce a causality-guided self-adaptive representation-based approach, called CSR, that equips the agent to generalize effectively and efficiently across a sequence of tasks with evolving dynamics. Specifically, we employ causal representation learning to characterize the latent causal variables and world models within the RL system. Such compact causal representations uncover the structural relationships among variables, enabling the agent to autonomously determine whether changes in the environment stem from distribution shifts or variations in space, and to precisely locate these changes. We then devise a three-step strategy to fine-tune the model under different scenarios accordingly. Empirical experiments show that CSR efficiently adapts to the target domains with only a few samples and outperforms state-of-the-art baselines on a wide range of scenarios, including our simulated environments, Cartpole, and Atari games.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# FACL-Attack: 移動可能な敵攻撃に対する周波数対応コントラスト学習

FACL-Attack: Frequency-Aware Contrastive Learning for Transferable Adversarial Attacks ( http://arxiv.org/abs/2407.20653v1 )

ライセンス: Link先を確認
Hunmin Yang, Jongoh Jeong, Kuk-Jin Yoon, (参考訳) ディープニューラルネットワークは、敵対的な例の本質的に伝達可能な性質のため、セキュリティリスクに弱いことが知られている。 強力な転送可能性を示す最近の生成モデルベースの攻撃の成功にもかかわらず、ターゲットドメインとモデルアーキテクチャの両方が不明な現実の厳密なブラックボックス設定で効率的な攻撃戦略を設計することは依然として課題である。 本稿では、周波数領域における特徴の対照的なアプローチを探求し、クロスドメインとクロスモデルの両方で堅牢な逆例を生成する。 この目標を念頭に置いて、周波数対応ドメインランダム化(FADR)モジュールと、周波数対応コントラスト学習(FACL)モジュールの2つのモジュールを提案し、クリーンかつ摂動画像のドメイン不変中周波特徴を効果的に分離する。 予測時間の複雑さを保ちながら、広範囲なクロスドメインおよびクロスモデル実験を通じて生成した対向摂動の強い伝達性を示す。

Deep neural networks are known to be vulnerable to security risks due to the inherent transferable nature of adversarial examples. Despite the success of recent generative model-based attacks demonstrating strong transferability, it still remains a challenge to design an efficient attack strategy in a real-world strict black-box setting, where both the target domain and model architectures are unknown. In this paper, we seek to explore a feature contrastive approach in the frequency domain to generate adversarial examples that are robust in both cross-domain and cross-model settings. With that goal in mind, we propose two modules that are only employed during the training phase: a Frequency-Aware Domain Randomization (FADR) module to randomize domain-variant low- and high-range frequency components and a Frequency-Augmented Contrastive Learning (FACL) module to effectively separate domain-invariant mid-frequency features of clean and perturbed image. We demonstrate strong transferability of our generated adversarial perturbations through extensive cross-domain and cross-model experiments, while keeping the inference time complexity.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# ゼロショット分類のためのプロンプトエンコーダモデル:イタリアにおけるクロスドメイン研究

Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian ( http://arxiv.org/abs/2407.20654v1 )

ライセンス: Link先を確認
Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci, (参考訳) 言語モデル(LM)を効果的に活用するためには,特定分野や低リソース言語における限られたアノテートデータの課題に対処することが不可欠である。 ほとんどのLarge Language Models (LLMs) は汎用英語コーパスで訓練されているが、特に技術的および官僚的ジャーゴンのために、特にイタリアに特化されたモデルには顕著なギャップがある。 本稿では,より小型のドメイン固有エンコーダ LM の実現可能性と,これらの特殊なコンテキストにおける性能向上技術について検討する。 本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。 Pseudo-Log-Likelihoodを用いて,文書分類やエンティティタイピングなどの下流タスクにおけるモデルの評価を行い,本質的な評価を行った。 その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。 さらに,キャリブレーション手法とドメイン内言語器の適用により,エンコーダモデルの有効性が著しく向上する。 これらのドメイン特化モデルは、ドメイン内のリソースや専門知識が不足しているシナリオで特に有利であることが証明されている。 結論として,本研究は,デジタルトランスフォーメーション時代の研究と産業への応用に大きな影響を与える可能性のある,専門的な文脈におけるイタリアモデルの利用に関する新たな知見を提供する。

Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# Pareto Dominance-based Novelty Searchによる多目的ニューラルアーキテクチャの効率的な探索

Efficient Multi-Objective Neural Architecture Search via Pareto Dominance-based Novelty Search ( http://arxiv.org/abs/2407.20656v1 )

ライセンス: Link先を確認
An Vo, Ngoc Hoang Luong, (参考訳) Neural Architecture Search (NAS)は、高性能なディープニューラルネットワークアーキテクチャの発見を自動化することを目的としている。 従来の客観的なNASアプローチは、一般的に、興味深いネットワーク構成を含む可能性のあるアーキテクチャ検索空間の大部分を見渡して、特定のパフォーマンスメトリック(例えば予測精度)を最適化する。 さらに、複雑な探索空間における客観的人口ベースメタヒューリスティックスは、しばしば人口多様性を急速に消耗させ、局所最適に早急に収束する。 この問題はNASにおいて、トレーニング不要なメトリクスの場合のように、パフォーマンス目標が候補アーキテクチャの実際のパフォーマンスと完全に一致していない場合にさらに複雑になる。 トレーニング不要なメトリクスは、計算量の多いネットワークトレーニングを伴わずに、候補アーキテクチャの高速な性能評価で人気を得ているが、NASへの効果的な組み込みは依然として課題である。 本稿では,多目的NAS(Multiple Training-Free Metrics:MTF-PDNS)を対象としたPareto Dominance-based Novelty Searchを提案する。 明示的な目的を最適化する従来のNAS手法とは異なり、MTF-PDNSは、複数のトレーニングなし性能と複雑性のメトリクスに基づいて計算された新規度スコアを利用して、人口の多様性を促進する。 標準NASベンチマークスイートの実験結果から,MTF-PDNSは収束速度,多様性維持,アーキテクチャ転送性,計算コストの観点から,従来手法よりも優れていた。

Neural Architecture Search (NAS) aims to automate the discovery of high-performing deep neural network architectures. Traditional objective-based NAS approaches typically optimize a certain performance metric (e.g., prediction accuracy), overlooking large parts of the architecture search space that potentially contain interesting network configurations. Furthermore, objective-driven population-based metaheuristics in complex search spaces often quickly exhaust population diversity and succumb to premature convergence to local optima. This issue becomes more complicated in NAS when performance objectives do not fully align with the actual performance of the candidate architectures, as is often the case with training-free metrics. While training-free metrics have gained popularity for their rapid performance estimation of candidate architectures without incurring computation-heavy network training, their effective incorporation into NAS remains a challenge. This paper presents the Pareto Dominance-based Novelty Search for multi-objective NAS with Multiple Training-Free metrics (MTF-PDNS). Unlike conventional NAS methods that optimize explicit objectives, MTF-PDNS promotes population diversity by utilizing a novelty score calculated based on multiple training-free performance and complexity metrics, thereby yielding a broader exploration of the search space. Experimental results on standard NAS benchmark suites demonstrate that MTF-PDNS outperforms conventional methods driven by explicit objectives in terms of convergence speed, diversity maintenance, architecture transferability, and computational costs.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 伝達可能な敵攻撃に対するプロンプト駆動型コントラスト学習

Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks ( http://arxiv.org/abs/2407.20657v1 )

ライセンス: Link先を確認
Hunmin Yang, Jongoh Jeong, Kuk-Jin Yoon, (参考訳) 最近のビジョン言語基盤モデルであるCLIPは、さまざまな下流タスクやドメイン間で伝達可能な学習表現の優れた能力を実証している。 このような強力なモデルが出現すると、挑戦的なビジョンタスクに取り組む上で、その能力を効果的に活用することが重要になった。 一方、未知のドメインとモデルアーキテクチャの両方にうまく移行する敵の例を考案することに焦点を当てた研究はごくわずかである。 本稿では,CLIPモデルを利用したPDCL-Attackと呼ばれる新しいトランスファー攻撃手法を提案する。 具体的には,テキストのセマンティック表現力,特に入力画像の基幹クラスラベルから,効果的なプロンプト駆動型特徴ガイダンスを定式化する。 我々の知る限りでは、我々は、転送可能な生成的攻撃を強化するために、まず、迅速な学習を導入する。 様々なクロスドメインおよびクロスモデル設定で実施された広範囲な実験は、我々のアプローチを実証的に検証し、最先端の手法よりも優れていることを示した。

Recent vision-language foundation models, such as CLIP, have demonstrated superior capabilities in learning representations that can be transferable across diverse range of downstream tasks and domains. With the emergence of such powerful models, it has become crucial to effectively leverage their capabilities in tackling challenging vision tasks. On the other hand, only a few works have focused on devising adversarial examples that transfer well to both unknown domains and model architectures. In this paper, we propose a novel transfer attack method called PDCL-Attack, which leverages the CLIP model to enhance the transferability of adversarial perturbations generated by a generative model-based attack framework. Specifically, we formulate an effective prompt-driven feature guidance by harnessing the semantic representation power of text, particularly from the ground-truth class labels of input images. To the best of our knowledge, we are the first to introduce prompt learning to enhance the transferable generative attacks. Extensive experiments conducted across various cross-domain and cross-model settings empirically validate our approach, demonstrating its superiority over state-of-the-art methods.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 光スカラー場からの量子および熱圧力

Quantum and thermal pressures from light scalar fields ( http://arxiv.org/abs/2407.20658v1 )

ライセンス: Link先を確認
Hauke Fischer, Christian Käding, Mario Pitschmann, (参考訳) 光スカラー場は現代物理学、特に宇宙論や重力の修正理論において様々な役割を果たす。 このため、理論的な考察で提案された多くのスカラー場モデルの証拠を積極的に探究する実験の動物園がある。 そのうちの1つは、カシミール力実験のように、2つの平行板間の光スカラー場によって誘起されるであろう圧力を研究する装置である。 光スカラー場によって引き起こされる古典的および量子的圧力がそのような実験に重大な影響を与えることは知られているが、この記事では、熱的圧力にも影響することを示す。 具体的には、2つの薄い平行板間の光スカラー場変動の交換によって引き起こされる量子および熱圧の式を導出する。 特定の例として、スクリーニングされたスカラー場を見る。 カメレオン、シンメトロン、環境依存のディラトンモデルでは、熱圧力が量子圧力と等しく、あるいは超えるようなパラメータ空間に大きな領域が見つかる。 量子圧計算の以前の制約と比較することにより、カメレオンによって誘導される熱圧は実際に実験的な重要性を持つと結論付ける。

Light scalar fields play a variety of roles in modern physics, especially in cosmology and modified theories of gravity. For this reason, there is a zoo of experiments actively trying to find evidence for many scalar field models that have been proposed in theoretical considerations. Among those are setups in which the pressures expected to be induced by light scalar fields between two parallel plates are studied, for example, Casimir force experiments. While it is known that classical and quantum pressures caused by light scalar fields could have significant impacts on such experiments, in this article, we show that this can also be the case for thermal pressure. More specifically, we derive expressions for the quantum and thermal pressures induced by exchanges of light scalar field fluctuations between two thin parallel plates. As particular examples, we then look at screened scalar fields. For chameleon, symmetron and environment-dependent dilaton models, we find large regions in their parameter spaces that allow for thermal pressures to equal or exceed the quantum pressures. By comparing with earlier constraints from quantum pressure calculations, we conclude that thermal pressures induced by chameleons are actually of experimental significance.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 空間オミクスのよい形態表現には何をもたらすのか?

What makes for good morphology representations for spatial omics? ( http://arxiv.org/abs/2407.20660v1 )

ライセンス: Link先を確認
Eduard Chelebian, Christophe Avenel, Carolina Wählby, (参考訳) 空間オミクスは、遺伝子発現パターンの空間的コンテキストを保存することによって、組織構造に対する理解を変容させてきた。 同時に、イメージングAIの進歩により、組織を記述する形態的特徴の抽出が可能になった。 空間オミクスとイメージングAIの交差は、より総合的な理解の機会を与える。 本稿では,空間オミクスと形態素の組み合わせ法を分類し,形態素の特徴の変換や空間オミクス解析への統合に焦点をあてる枠組みを提案する。 翻訳によって、遺伝子発現を予測することを目的として、空間的に遺伝子発現パターンと相関する形態的特徴を見つけることを意味する。 このような特徴は、高解像度の遺伝子発現マップを生成したり、臨床H&E染色サンプルから遺伝情報を推測するために利用することができる。 統合することで、情報豊か化を目的として、空間的に遺伝子発現パターンを補完する形態的特徴を見つけることを意味する。 このような特徴は、特に遺伝子発現が形態変化に先行し、遺伝子発現後に形態が残る空間領域を定義するために用いられる。 この分野のさらなる発展に向けた学習戦略と方向性について論じる。

Spatial omics has transformed our understanding of tissue architecture by preserving spatial context of gene expression patterns. Simultaneously, advances in imaging AI have enabled extraction of morphological features describing the tissue. The intersection of spatial omics and imaging AI presents opportunities for a more holistic understanding. In this review we introduce a framework for categorizing spatial omics-morphology combination methods, focusing on how morphological features can be translated or integrated into spatial omics analyses. By translation we mean finding morphological features that spatially correlate with gene expression patterns with the purpose of predicting gene expression. Such features can be used to generate super-resolution gene expression maps or infer genetic information from clinical H&E-stained samples. By integration we mean finding morphological features that spatially complement gene expression patterns with the purpose of enriching information. Such features can be used to define spatial domains, especially where gene expression has preceded morphological changes and where morphology remains after gene expression. We discuss learning strategies and directions for further development of the field.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 最高符号化率を有するランプ量子秘密共有方式の事前共有手順

Advance Sharing Procedures for the Ramp Quantum Secret Sharing Schemes With the Highest Coding Rate ( http://arxiv.org/abs/2407.20661v1 )

ライセンス: Link先を確認
Ryutaroh Matsumoto, (参考訳) いくつかの量子シークレット共有スキームでは、ディーラーに秘密が渡される前に一部のシェアを参加者に分配できることが知られている。 しかし、暗号レートが最も高いランプ量子秘密共有方式で秘密が与えられる前に、一部の株式を分配できるかどうかは不明である。 本稿では、これらのスキームに秘密が与えられる前に、いくつかの株式を分配する方法を提案し、その上で、新しい符号化手順が元のスキームにおける量子秘密と量子共有の対応を保っていることを証明した。

In some quantum secret sharing schemes, it is known that some shares can be distributed to participants before a secret is given to the dealer. However, it is unclear whether some shares can be distributed before a secret is given in the ramp quantum secret sharing schemes with the highest coding rate. In this paper, we propose methods to distribute some shares before a secret is given in those schemes, then we prove that our new encoding procedures retain the correspondences between quantum secrets and quantum shares in the original schemes.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# DocXPand-25k:ID文書分析のための大規模かつ多様なベンチマークデータセット

DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis ( http://arxiv.org/abs/2407.20662v1 )

ライセンス: Link先を確認
Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès, (参考訳) アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。 近年,文書のローカライゼーションやテキスト認識,不正検出などの課題について多くの研究が行われ,個人認証の自動化に十分な精度が達成されている。 しかし、ID分析メソッドをベンチマークするデータセットは、プライバシの制限、セキュリティ要件、法的理由などが主な理由である。 本稿では,4つのIDカード,2つの居住許可証,3つのパスポートデザインを含む9つの虚偽IDデザインを表すカスタムメイドベクトルテンプレートを用いて,24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。 これらの合成IDは、人工的に生成された個人情報(名前、日付、識別子、顔、バーコード、...)を特徴とし、視覚的レイアウトとテキストの内容に豊富な多様性を示す。 私たちは、さまざまな背景を保証するために、現実世界の写真、スキャン、IDのスクリーンショットから5.8万の多様な背景を収集しました。 私たちがこれらの画像を生成するために書いたソフトウェア(https://github.com/QuickSign/docxpand/)がMITライセンスの下で公開され、CC-BY-NC-SA 4.0ライセンスの下でデータセット(https://github.com/QuickSign/docxpand/releases/tag/v1.0.0)が公開された。

Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# アラビア語NLU 2024: 共有タスクを理解する最初のアラビア語自然言語

ArabicNLU 2024: The First Arabic Natural Language Understanding Shared Task ( http://arxiv.org/abs/2407.20663v1 )

ライセンス: Link先を確認
Mohammed Khalilia, Sanad Malaysha, Reem Suwaileh, Mustafa Jarrar, Alaa Aljabari, Tamer Elsayed, Imed Zitouni, (参考訳) 本稿では,アラビア語の自然言語理解(アラビア語NLU 2024)の課題について概説し,単語センスの曖昧さ(WSD)と位置情報のメンションの曖昧さ(LMD)の2つのサブタスクに着目した。 この課題は、単語のあいまいさを解消し、アラビア語のテキストで言及されている場所を識別する自動化システムの能力を評価することを目的としていた。 参加者には,約34kの注釈付きトークンを持つWSD用センスアノテートコーパス(SALMA)や,3,893のアノテーションと733のユニークなロケーション参照を持つIDRISI-DAデータセットなど,新たなデータセットが提供された。 これらは難しいタスクです。 38チームのうち最終評価フェーズには3チームが参加し、最高精度はWSDが77.8%、MRR@1は95.0%であった。 共有されたタスクは、異なる技術の評価と比較を促進するだけでなく、アラビアのNLU技術の継続的な進歩のための貴重な洞察と資源も提供した。

This paper presents an overview of the Arabic Natural Language Understanding (ArabicNLU 2024) shared task, focusing on two subtasks: Word Sense Disambiguation (WSD) and Location Mention Disambiguation (LMD). The task aimed to evaluate the ability of automated systems to resolve word ambiguity and identify locations mentioned in Arabic text. We provided participants with novel datasets, including a sense-annotated corpus for WSD, called SALMA with approximately 34k annotated tokens, and the IDRISI-DA dataset with 3,893 annotations and 763 unique location mentions. These are challenging tasks. Out of the 38 registered teams, only three teams participated in the final evaluation phase, with the highest accuracy being 77.8% for WSD and the highest MRR@1 being 95.0% for LMD. The shared task not only facilitated the evaluation and comparison of different techniques, but also provided valuable insights and resources for the continued advancement of Arabic NLU technologies.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 3D-GRES: 一般化された3D参照式セグメンテーション

3D-GRES: Generalized 3D Referring Expression Segmentation ( http://arxiv.org/abs/2407.20664v1 )

ライセンス: Link先を確認
Changli Wu, Yihang Liu, Jiayi Ji, Yiwei Ma, Haowei Wang, Gen Luo, Henghui Ding, Xiaoshuai Sun, Rongrong Ji, (参考訳) 3D参照式セグメンテーション(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。 しかし、現在のアプローチは単一のターゲットをセグメント化することに限定され、タスクの汎用性を制限する。 この制限を克服するために、自然言語命令に基づいて任意のインスタンスをセグメント化できるGeneralized 3D Referring Expression Segmentation (3D-GRES)を導入する。 この課題に対処するために,多目的セグメンテーションタスクをより単純な個別セグメンテーションに分割する,MDIN(Multi-Query Decoupled Interaction Network)を提案する。 MDINはテキスト駆動スパースクエリ(TSQ)とマルチオブジェクトデカップリング最適化(MDO)の2つの基本コンポーネントから構成される。 TSQは、クエリの初期化としてキーターゲット上に分散されたスパースポイントクラウド機能を生成する。 一方、MDOは、セマンティック一貫性を維持しながら、複数のオブジェクトシナリオのそれぞれのターゲットを異なるクエリに割り当てる。 このタスクに適応するために、我々は新しいデータセット、すなわちMulti3DRを構築します。 このデータセットに対する総合的な評価は、既存のモデルよりも大幅に拡張され、複雑な多目的3Dシーン理解のための新しいパスがチャート化される。 ベンチマークとコードはhttps://github.com/sosppxo/3D-GRESで公開されている。

3D Referring Expression Segmentation (3D-RES) is dedicated to segmenting a specific instance within a 3D space based on a natural language description. However, current approaches are limited to segmenting a single target, restricting the versatility of the task. To overcome this limitation, we introduce Generalized 3D Referring Expression Segmentation (3D-GRES), which extends the capability to segment any number of instances based on natural language instructions. In addressing this broader task, we propose the Multi-Query Decoupled Interaction Network (MDIN), designed to break down multi-object segmentation tasks into simpler, individual segmentations. MDIN comprises two fundamental components: Text-driven Sparse Queries (TSQ) and Multi-object Decoupling Optimization (MDO). TSQ generates sparse point cloud features distributed over key targets as the initialization for queries. Meanwhile, MDO is tasked with assigning each target in multi-object scenarios to different queries while maintaining their semantic consistency. To adapt to this new task, we build a new dataset, namely Multi3DRes. Our comprehensive evaluations on this dataset demonstrate substantial enhancements over existing models, thus charting a new path for intricate multi-object 3D scene comprehension. The benchmark and code are available at https://github.com/sosppxo/3D-GRES.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# ニューロンの機能の再考

Rethinking the Function of Neurons in KANs ( http://arxiv.org/abs/2407.20667v1 )

ライセンス: Link先を確認
Mohammed Ghaith Altarabichi, (参考訳) コルモゴロフ・アルノルドネットワーク(KAN)のニューロンはコルモゴロフ・アルノルド表現定理(英語版)によって動機付けられた単純な和を行い、和が唯一の基本多変量関数であると主張する。 本研究では,KANニューロンに対する代替多変量関数の同定の可能性について検討する。 我々の経験的研究は、さまざまなベンチマーク機械学習タスクにわたって、KANニューロンの様々な多変量関数をテストすることである。 以上の結果より, ニューロンの平均関数に置換すると, 従来のKANに比べ, 性能が著しく向上することが示唆された。 本研究は, この軽微な修正が, 活性化機能の有効範囲内でスプラインへの入力を収束させることにより, 訓練の安定性に寄与することを示した。 実装と実験は以下の通りである。

The neurons of Kolmogorov-Arnold Networks (KANs) perform a simple summation motivated by the Kolmogorov-Arnold representation theorem, which asserts that sum is the only fundamental multivariate function. In this work, we investigate the potential for identifying an alternative multivariate function for KAN neurons that may offer increased practical utility. Our empirical research involves testing various multivariate functions in KAN neurons across a range of benchmark Machine Learning tasks. Our findings indicate that substituting the sum with the average function in KAN neurons results in significant performance enhancements compared to traditional KANs. Our study demonstrates that this minor modification contributes to the stability of training by confining the input to the spline within the effective range of the activation function. Our implementation and experiments are available at: \url{https://github.com/Ghaith81/dropkan}
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# Mavenの模倣: エージェントベースのオピニオン合成とソーシャルメディアインフルエンサーに対する感情予測

Mimicking the Mavens: Agent-based Opinion Synthesis and Emotion Prediction for Social Media Influencers ( http://arxiv.org/abs/2407.20668v1 )

ライセンス: Link先を確認
Qinglan Wei, Ruiqi Xue, Yutian Wang, Hongjiang Xiao, Yuhao Wang, Xiaoyan Duan, (参考訳) ソーシャルメディアにおけるインフルエンサーの見解や世論の予測は、社会的傾向を予測し、戦略的な反応を導くために不可欠である。 本研究では, オンラインコミュニケーションの非構造的, 文脈的, 異質な性質によって引き起こされる固有の課題に対処し, 世論指導者の視点と大衆の動機的反応を予測する新しい計算枠組みを提案する。 我々の研究は、5W1H自動質問エンジン(Where, Who, When, What, Why, and How)から始まる革新的なモジュールを導入し、ニュース記事やトレンドトピックに合わせた。 次に、6つのドメインに合計60人の匿名世論指導者エージェントを構築し、検索強化世代(RAG)と組み合わせた拡張大型言語モデル(LLM)に基づくビュー生成を実現する。 その後、意見指導者の潜在的見解を総合し、異なる事象に対する感情的反応を予測した。 自動5W1Hモジュールの有効性は, 平均GPT-4スコア8.83/10で相関し, 高忠実度を示す。 インフルエンサーエージェントは一貫したパフォーマンスを示し、評価指標の平均GPT-4レーティングは6.85/10である。 この手法は、ロシア・ウクライナ戦争を事例として、重要な影響力者の視点を正確に予測し、様々な領域における現実の感情傾向と感情予測を整合させる。

Predicting influencers' views and public sentiment on social media is crucial for anticipating societal trends and guiding strategic responses. This study introduces a novel computational framework to predict opinion leaders' perspectives and the emotive reactions of the populace, addressing the inherent challenges posed by the unstructured, context-sensitive, and heterogeneous nature of online communication. Our research introduces an innovative module that starts with the automatic 5W1H (Where, Who, When, What, Why, and How) questions formulation engine, tailored to emerging news stories and trending topics. We then build a total of 60 anonymous opinion leader agents in six domains and realize the views generation based on an enhanced large language model (LLM) coupled with retrieval-augmented generation (RAG). Subsequently, we synthesize the potential views of opinion leaders and predicted the emotional responses to different events. The efficacy of our automated 5W1H module is corroborated by an average GPT-4 score of 8.83/10, indicative of high fidelity. The influencer agents exhibit a consistent performance, achieving an average GPT-4 rating of 6.85/10 across evaluative metrics. Utilizing the 'Russia-Ukraine War' as a case study, our methodology accurately foresees key influencers' perspectives and aligns emotional predictions with real-world sentiment trends in various domains.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 量子システムのスペクトル計算における物理インフォームドニューラルネットワークの利用に関する研究

A Tutorial on the Use of Physics-Informed Neural Networks to Compute the Spectrum of Quantum Systems ( http://arxiv.org/abs/2407.20669v1 )

ライセンス: Link先を確認
Lorenzo Brevi, Antonio Mandarino, Enrico Prati, (参考訳) 量子多体系は物理学、生物学、化学など多くの研究分野において大きな関心を集めている。 しかし、ヒルベルト空間の指数関数的な成長とシステムサイズのため、そのシミュレーションは非常に困難であり、正確な手法を用いて大規模システムの波動関数をパラメータ化することは極めて困難である。 ニューラルネットワークと機械学習は、この課題に直面する方法のひとつだ。 例えば、テンソルネットワークやニューラル量子状態のような手法は、量子力学系の波動関数を得るための有望なツールとして研究されている。 本稿では,特に有望なディープラーニングアルゴリズムのクラスに焦点を当てる。 本稿では,その固有値と固有関数を求めることにより,与えられたポテンシャルに対してシュリンガー方程式を解くことができる物理インフォームドニューラルネットワーク(PINN)を構築する方法について説明する。 この手法は教師なしであり、ほとんど探索されていない方法で新しい計算手法を利用する。 PINNは、メッシュのない方法で積分差分方程式を解くために、自動微分を利用するディープラーニング手法である。 地上と興奮状態の両方を見つける方法を示します。 この方法は、基底状態から始めることによって、段階的に状態を検出する。 物理的システムのさらなる知識を活用するために、損失に帰納バイアスを導入する方法について説明する。 このような追加の制約はより速くより正確な収束を可能にする。 この手法は、PINNのメッシュフリーな性質を活用するために、コロケーションポイントのスマートな選択によって拡張することができる。 これらの方法は、複雑な値の固有関数と退化状態が存在するため、AIエージェントが学習する難しい問題である、環内の粒子と無限ポテンシャル井戸にそれらを適用することによって明確化される。

Quantum many-body systems are of great interest for many research areas, including physics, biology and chemistry. However, their simulation is extremely challenging, due to the exponential growth of the Hilbert space with the system size, making it exceedingly difficult to parameterize the wave functions of large systems by using exact methods. Neural networks and machine learning in general are a way to face this challenge. For instance, methods like Tensor networks and Neural Quantum States are being investigated as promising tools to obtain the wave function of a quantum mechanical system. In this tutorial, we focus on a particularly promising class of deep learning algorithms. We explain how to construct a Physics-Informed Neural Network (PINN) able to solve the Schr\"odinger equation for a given potential, by finding its eigenvalues and eigenfunctions. This technique is unsupervised, and utilizes a novel computational method in a manner that is barely explored. PINNs are a deep learning method that exploits Automatic Differentiation to solve Integro-Differential Equations in a mesh-free way. We show how to find both the ground and the excited states. The method discovers the states progressively by starting from the ground state. We explain how to introduce inductive biases in the loss to exploit further knowledge of the physical system. Such additional constraints allow for a faster and more accurate convergence. This technique can then be enhanced by a smart choice of collocation points in order to take advantage of the mesh-free nature of the PINN. The methods are made explicit by applying them to the infinite potential well and the particle in a ring, a challenging problem to be learned by an AI agent due to the presence of complex-valued eigenfunctions and degenerate states.
翻訳日:2024-07-31 17:49:53 公開日:2024-07-30
# 多ラベルFew-shot Aspect Category Detectionのためのラベルガイドプロンプト

Label-Guided Prompt for Multi-label Few-shot Aspect Category Detection ( http://arxiv.org/abs/2407.20673v1 )

ライセンス: Link先を確認
ChaoFeng Guan, YaoHui Zhu, Yu Bai, LingYun Wang, (参考訳) 複数ラベルの複数ショットのアスペクトカテゴリ検出は、限られた数のトレーニングインスタンスを持つ文から複数のアスペクトカテゴリを特定することを目的としている。 文やカテゴリの表現は、このタスクにおいて重要な問題である。 現在の手法のほとんどは、文表現とカテゴリ表現のキーワードを抽出する。 文はしばしばカテゴリに依存しない単語を多く含み、キーワードベースのメソッドの最適化性能をもたらす。 キーワードを直接抽出する代わりに,文やカテゴリを表現するためのラベル付きプロンプト手法を提案する。 具体的には,重要な文脈情報と意味情報を組み合わせることで,文を表現するラベル固有のプロンプトを設計する。 さらに、このラベルは、大きな言語モデルを利用してカテゴリ記述を得るためのプロンプトとして導入される。 この種のカテゴリ記述にはアスペクトカテゴリの特徴が含まれており、識別型カテゴリのプロトタイプの構築を導く。 2つの公開データセットによる実験結果から,我々の手法は,マクロF1スコアの3.86%~4.75%の改善で最先端の手法よりも優れていた。

Multi-label few-shot aspect category detection aims at identifying multiple aspect categories from sentences with a limited number of training instances. The representation of sentences and categories is a key issue in this task. Most of current methods extract keywords for the sentence representations and the category representations. Sentences often contain many category-independent words, which leads to suboptimal performance of keyword-based methods. Instead of directly extracting keywords, we propose a label-guided prompt method to represent sentences and categories. To be specific, we design label-specific prompts to represent sentences by combining crucial contextual and semantic information. Further, the label is introduced into a prompt to obtain category descriptions by utilizing a large language model. This kind of category descriptions contain the characteristics of the aspect categories, guiding the construction of discriminative category prototypes. Experimental results on two public datasets show that our method outperforms current state-of-the-art methods with a 3.86% - 4.75% improvement in the Macro-F1 score.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 実例に基づく説明可能性手法のクラス外化器への適用

The Susceptibility of Example-Based Explainability Methods to Class Outliers ( http://arxiv.org/abs/2407.20678v1 )

ライセンス: Link先を確認
Ikhtiyor Nematov, Dimitris Sacharidis, Tomer Sagi, Katja Hose, (参考訳) 本研究は,ブラックボックス機械学習モデルにおける実例に基づく説明可能性手法の有効性に及ぼすクラスアウトレーヤの影響について検討する。 本稿では,特に実例に基づく手法の正当性や妥当性などの既存の説明可能性評価尺度を改訂し,新しい尺度,識別可能性を導入する。 これらの指標を用いて、クラス外れを抑えようとする者を含む、現在の例に基づく説明可能性手法の欠点を強調した。 テキスト分類データセットと画像分類データセットの2つのデータセットについて実験を行い、4つの最先端説明可能性手法の性能評価を行った。 以上の結果から,クラス外れによる課題に対処するための堅牢なテクニックの必要性が浮き彫りになった。

This study explores the impact of class outliers on the effectiveness of example-based explainability methods for black-box machine learning models. We reformulate existing explainability evaluation metrics, such as correctness and relevance, specifically for example-based methods, and introduce a new metric, distinguishability. Using these metrics, we highlight the shortcomings of current example-based explainability methods, including those who attempt to suppress class outliers. We conduct experiments on two datasets, a text classification dataset and an image classification dataset, and evaluate the performance of four state-of-the-art explainability methods. Our findings underscore the need for robust techniques to tackle the challenges posed by class outliers.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# テレコム波長超伝導単結晶検出器の非線形応答

Nonlinear response of telecom-wavelength superconducting single-photon detectors ( http://arxiv.org/abs/2407.20682v1 )

ライセンス: Link先を確認
Patrick Mark, Sebastian Gstir, Julian Münzberg, Gregor Weihs, Robert Keil, (参考訳) マイクロ波超伝導ナノワイヤ単光子検出器の非コヒーレントビーム結合による非線形性の測定を行った。 典型的な光子数率と検出器バイアス電流では、観測された完全な線形応答からの相対偏差は、フラックスが2倍になったときに0.1%である。 これは、デッドタイム誘起検出器飽和の反作用非線形性と多光子検出のバランスから生じる。 観測された振る舞いは経験的にモデル化され、測定データの修正に十分である。 さらに、検出効率の測定値の回復を考慮した統計シミュレーションにより、多光子検出の可能性についての洞察を提供する。

We measure the nonlinearity of a telecom-wavelength superconducting nanowire single-photon detector via incoherent beam combination. At typical photon count rates and detector bias current, the observed relative deviation from a perfectly linear response is in the order of 0.1% when the flux is doubled. This arises from a balance between the counteracting nonlinearities of deadtime-induced detector saturation and of multi-photon detections. The observed behaviour is modelled empirically, which suffices for a correction of measured data. In addition, statistical simulations, taking into account the measured recovery of the detection efficiency, provide insight into possible mechanisms of multi-photon detection.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# RevGNN: アカデミックレビュアレコメンデーションのための負サンプリングによるコントラストグラフ学習

RevGNN: Negative Sampling Enhanced Contrastive Graph Learning for Academic Reviewer Recommendation ( http://arxiv.org/abs/2407.20684v1 )

ライセンス: Link先を確認
Weibin Liao, Yifan Zhu, Yanyan Li, Qi Zhang, Zhonghong Ou, Xuesong Li, (参考訳) 学術論文のレビュアーの獲得は、難しい推奨シナリオである。 近年のグラフ学習型モデルでは,推薦分野において顕著な進歩を遂げているが,学術レビュアー推薦課題におけるその性能は,重大な誤った問題に悩まされている可能性がある。 これは、観測されていないエッジが負のサンプルを表すという仮定から生じる。 実際、匿名レビューのメカニズムは、レビュアーと提出者の間の相互作用が不十分に露呈する結果となり、レビュアーが参加を辞退したのに比べて、観測されていないインタラクションの数が多くなった。 したがって、学術レビュアー推薦において、観測されていない相互作用の負のラベル付けをよりよく理解する方法を検討することは、重要な課題である。 本研究は,学術レビュアー推薦における未観測相互作用のあいまいさに対処することを目的としている。 具体的には、学術論文のレビュアーを推薦するグラフコントラスト学習(GCL)を強化するための教師なしPseudo Neg-Label戦略を提案し、これをRevGNNと呼ぶ。 RevGNNは、Pseudo Neg-Labelを使って科学的知識と行動の両方を符号化し、レビューの好みを近似する2段階エンコーダ構造を採用している。 3つの実世界のデータセットに対する大規模な実験は、RevGNNが4つのメトリクスですべてのベースラインを上回っていることを示している。 さらに、より詳細な分析により、RevGNNの各コンポーネントの有効性が確認できる。

Acquiring reviewers for academic submissions is a challenging recommendation scenario. Recent graph learning-driven models have made remarkable progress in the field of recommendation, but their performance in the academic reviewer recommendation task may suffer from a significant false negative issue. This arises from the assumption that unobserved edges represent negative samples. In fact, the mechanism of anonymous review results in inadequate exposure of interactions between reviewers and submissions, leading to a higher number of unobserved interactions compared to those caused by reviewers declining to participate. Therefore, investigating how to better comprehend the negative labeling of unobserved interactions in academic reviewer recommendations is a significant challenge. This study aims to tackle the ambiguous nature of unobserved interactions in academic reviewer recommendations. Specifically, we propose an unsupervised Pseudo Neg-Label strategy to enhance graph contrastive learning (GCL) for recommending reviewers for academic submissions, which we call RevGNN. RevGNN utilizes a two-stage encoder structure that encodes both scientific knowledge and behavior using Pseudo Neg-Label to approximate review preference. Extensive experiments on three real-world datasets demonstrate that RevGNN outperforms all baselines across four metrics. Additionally, detailed further analyses confirm the effectiveness of each component in RevGNN.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# CultureVo: 文化インテリジェンスを強化するためにGen AIを活用するシリアスなゲーム

CultureVo: The Serious Game of Utilizing Gen AI for Enhancing Cultural Intelligence ( http://arxiv.org/abs/2407.20685v1 )

ライセンス: Link先を確認
Ajita Agarwala, Anupam Purwar, Viswanadhasai Rao, (参考訳) CultureVo, Inc.は、インタラクティブなレッスンとゲーミフィケーション体験を組み合わせることで、世界文化の基礎知識を提供する統合文化学習スイート(ICLS)を開発した。 本稿では,オープンソースのLarge Langauge Modelを用いたジェネレーティブAIがICLS内でどのように活用され,文化的なインテリジェンスを高めるかを検討する。 このスイートでは、学習者知識の自動評価、行動パターンの分析、リアルタイム学習者評価を用いた非プレイヤーキャラクターとのインタラクション管理に、ジェネレーティブAI技術を採用している。 さらに、ICLSは学習者の習熟度を評価することによってコンテキストヒントを提供し、コースコンテンツを推薦する一方、生成AIは教育コンテンツの自動作成と検証を容易にする。

CultureVo, Inc. has developed the Integrated Culture Learning Suite (ICLS) to deliver foundational knowledge of world cultures through a combination of interactive lessons and gamified experiences. This paper explores how Generative AI powered by open source Large Langauge Models are utilized within the ICLS to enhance cultural intelligence. The suite employs Generative AI techniques to automate the assessment of learner knowledge, analyze behavioral patterns, and manage interactions with non-player characters using real time learner assessment. Additionally, ICLS provides contextual hint and recommend course content by assessing learner proficiency, while Generative AI facilitates the automated creation and validation of educational content.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 量子ラビモデルにおける超ラジカル相転移の制御

Controlling superradiant phase transition in quantum Rabi model ( http://arxiv.org/abs/2407.20689v1 )

ライセンス: Link先を確認
Xuan Xie, Cheng Liu, Lin-Lin Jiang, Jin-Feng Huang, (参考訳) 超強結合状態において、量子ラビモデルは、量子ビット遷移周波数と空洞場の周波数との比が無限に近づくとき、量子相転移(QPT)を示すことができる。 しかし, 結合強度とA^2項の制限により, 少数体系ではQPTの制御が困難である。 本稿では,量子ラビモデルのQPTを強結合系で操作するための実用的スキームを提案する。 強結合状態における標準量子Rabiモデルにおける2レベル系に周期的な周波数変調を適用することにより、回転および反回転項に対する超強および可変結合強度を持つ異方性量子Rabiモデルを得る。 変調パラメータの観点から, このモデルの基底状態と励起エネルギーについて検討した。 量子ラビモデルのQPTは強結合系で観測でき、変調によって外部的に制御できる。

In the ultrastrong-coupling regime, the quantum Rabi model can exhibit quantum phase transition (QPT) when the ratio of the qubit transition frequency to the frequency of the cavity field approaches infinity. However, it is challenging to control the QPT in few-body systems because of the limited coupling strength and the A^2 terms. Here, we propose a practical scheme to manipulate the QPT of quantum Rabi model in the strong-coupling regime. By applying a periodic frequency modulation to the two-level system in a standard quantum Rabi model in the strong-coupling regime, an anisotropic quantum Rabi model with ultrastrong and tunable coupling strengths for rotating and counter-rotating terms is obtained. The ground-state and excitation energy of this model in terms of the modulation parameters are studied. We find that the QPT of quantum Rabi model can be observed in the strong-coupling regime and externally controlled by the modulation.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 法的ガバナンス検証への3段階的方法論的アプローチ

A Three Steps Methodological Approach to Legal Governance Validation ( http://arxiv.org/abs/2407.20691v1 )

ライセンス: Link先を確認
Pompeu Casanovas, Mustafa Hashmi, Louis de Koker, Ho-Pun Lam, (参考訳) 本稿では,3つの図で示されるように,実証的なアプローチによる法規制モデルを検証するための方法論について述べる。 一 法規及びメタルールの図面の図面 二 法の支配のメタモデル 三 法的遵守の因果検証の方法 これらの視覚化は、それぞれに対応する異なる概念の集合を参照する。 (i)3次元と4つのクラスターからなる一般的なスキーム 二 意匠(LCtD)及び生態学的妥当性による法的遵守を含むメタモデル 三 因果連鎖の実証検証モデルの構築 この方法論の最終目的は、産業用4.0と5.0のためのスマートな法律エコシステム(SLE)の構築とテストである。

We present in this position paper a methodology to validate legal governance regulatory models from an empirical approach, as illustrated by means of three diagrams: (i) a scheme drawing the rule and meta-rule of law; (ii) a metamodel for legal governance; (iii) a causal validation scheme for legal compliance. These visualisations refer to different sets of notions corresponding respectively to (i) a general scheme with three dimensions and four clusters, (ii) a meta-model encompassing legal compliance through design (LCtD) and ecological validity, and (iii) the con-struction of an empirical validation model of causal chains. The final aim of the methodology is to build and test smart legal ecosystems (SLE) for Industry 4.0 and 5.0.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# キー・セマンティック・アウェア・キューによる音声視覚質問応答の強化

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues ( http://arxiv.org/abs/2407.20693v1 )

ライセンス: Link先を確認
Guangyao Li, Henghui Du, Di Hu, (参考訳) AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。 このような自然なマルチモーダルビデオは、リッチで複雑な動的オーディオ視覚成分を含み、その一部だけが与えられた質問に密接に関連している。 したがって、与えられた質問に対する音声・視覚的手がかりを効果的に知覚することは、それらに正しく答えるのに不可欠である。 本稿では,質問に対する重要な視覚的・聴覚的手がかりを知覚することを目的とした,時間空間知覚モデル(TSPM)を提案する。 具体的には、非宣言的質問や視覚的表現を視覚言語事前学習モデルを用いて同じ意味空間に整合させるという課題を考慮して、質問テンプレートから派生した宣言的文プロンプトを構築し、時間的知覚モジュールによる質問に関連する重要な部分の同定を支援する。 その後、空間知覚モジュールは、選択されたセグメントから視覚トークンをマージして、重要な潜在目標を強調し、その後、音声と相互に相互作用して潜在的な音認識領域を知覚するように設計されている。 最後に、これらのモジュールからの重要な時間空間的手がかりは、質問に答えるために統合される。 複数のAVQAベンチマークに対する大規模な実験により、我々のフレームワークは、音声・視覚シーンの理解だけでなく、複雑な質問に答える上でも優れていることが示された。 コードはhttps://github.com/GeWu-Lab/TSPMで入手できる。

The Audio Visual Question Answering (AVQA) task aims to answer questions related to various visual objects, sounds, and their interactions in videos. Such naturally multimodal videos contain rich and complex dynamic audio-visual components, with only a portion of them closely related to the given questions. Hence, effectively perceiving audio-visual cues relevant to the given questions is crucial for correctly answering them. In this paper, we propose a Temporal-Spatial Perception Model (TSPM), which aims to empower the model to perceive key visual and auditory cues related to the questions. Specifically, considering the challenge of aligning non-declarative questions and visual representations into the same semantic space using visual-language pretrained models, we construct declarative sentence prompts derived from the question template, to assist the temporal perception module in better identifying critical segments relevant to the questions. Subsequently, a spatial perception module is designed to merge visual tokens from selected segments to highlight key latent targets, followed by cross-modal interaction with audio to perceive potential sound-aware areas. Finally, the significant temporal-spatial cues from these modules are integrated to answer the question. Extensive experiments on multiple AVQA benchmarks demonstrate that our framework excels not only in understanding audio-visual scenes but also in answering complex questions effectively. Code is available at https://github.com/GeWu-Lab/TSPM.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# クロスマッピングコヒーレンスを用いた周波数領域の因果検出

Detecting Causality in the Frequency Domain with Cross-Mapping Coherence ( http://arxiv.org/abs/2407.20694v1 )

ライセンス: Link先を確認
Zsigmond Benkő, Bálint Varga, Marcell Stippinger, Zoltán Somogyvári, (参考訳) システム内の因果関係を理解することは、その基盤となるメカニズムを明らかにするために重要である。 時系列データからそのようなモデルの構築を容易にする因果発見法は、科学的・工学的な分野を著しく発展させる可能性を秘めている。 本研究では,時系列間の周波数領域における因果関係を明らかにするために,クロス・マッピング・コヒーレンス(CMC)法を提案する。 CMCは非線形状態空間再構成に基づいて構築され、コヒーレンス指標を用いてコンバージェントクロスマッピングアルゴリズムを周波数領域に拡張する。 我々は,ロジスティックマップ,ローレンツ系,倉本発振器,および視覚野のWilson-Cowanモデルを用いて,クロス・マッピング・コヒーレンス法を検証した。 CMCは、すべてのシミュレーションシナリオにおける因果関係の方向を正確に同定した。 Wilson-Cowan モデルに適用すると、CMC はスペクトルグランガー因果関係に類似した一貫した結果を得た。 さらに、CMCは弱い接続の検出に高い感度を示し、サンプル効率を示し、ノイズの存在下で堅牢性を維持する。 結論として、異なる周波数帯域にまたがる有向因果影響を決定する能力により、CMCは複雑な非線形系の力学に関する貴重な洞察を提供することができる。

Understanding causal relationships within a system is crucial for uncovering its underlying mechanisms. Causal discovery methods, which facilitate the construction of such models from time-series data, hold the potential to significantly advance scientific and engineering fields. This study introduces the Cross-Mapping Coherence (CMC) method, designed to reveal causal connections in the frequency domain between time series. CMC builds upon nonlinear state-space reconstruction and extends the Convergent Cross-Mapping algorithm to the frequency domain by utilizing coherence metrics for evaluation. We tested the Cross-Mapping Coherence method using simulations of logistic maps, Lorenz systems, Kuramoto oscillators, and the Wilson-Cowan model of the visual cortex. CMC accurately identified the direction of causal connections in all simulated scenarios. When applied to the Wilson-Cowan model, CMC yielded consistent results similar to spectral Granger causality. Furthermore, CMC exhibits high sensitivity in detecting weak connections, demonstrates sample efficiency, and maintains robustness in the presence of noise. In conclusion, the capability to determine directed causal influences across different frequency bands allows CMC to provide valuable insights into the dynamics of complex, nonlinear systems.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 医療IoTにおける環境センサのためのCNNによる時系列異常検出

Time Series Anomaly Detection with CNN for Environmental Sensors in Healthcare-IoT ( http://arxiv.org/abs/2407.20695v1 )

ライセンス: Link先を確認
Mirza Akhi Khatun, Mangolika Bhattacharya, Ciarán Eising, Lubna Luxmi Dhirani, (参考訳) 本研究では,医療用IoTにおける畳み込みニューラルネットワーク(CNN)を用いた時系列データの異常検出手法を開発した。 提案手法は,温度や湿度などの環境センサをエミュレートするIoTネットワークシミュレータであるCoojaを用いて,DDoS(Distributed Denial of Service)攻撃を生成する。 CNNは時系列データの異常を検出し、攻撃の可能性を92%の精度で検出する。

This research develops a new method to detect anomalies in time series data using Convolutional Neural Networks (CNNs) in healthcare-IoT. The proposed method creates a Distributed Denial of Service (DDoS) attack using an IoT network simulator, Cooja, which emulates environmental sensors such as temperature and humidity. CNNs detect anomalies in time series data, resulting in a 92\% accuracy in identifying possible attacks.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# DEVS/SOAとシステム統合のM&S/システムにおける相互運用の形式標準の実装

Implementation of Formal Standard for Interoperability in M&S/System of Systems Integration with DEVS/SOA ( http://arxiv.org/abs/2407.20696v1 )

ライセンス: Link先を確認
Saurabh Mittal, Bernard P. Zeigler, José L. Risco-Martín, (参考訳) モデリングとシミュレーション (M&S) は、情報集約的なコンポーネントシステムからなるコマンドおよび制御システムの開発とテストにおいて、ますます応用されつつある。 システム・オブ・システムズ(SoS)の工学的目的の一つとして、共同・連立戦争における指揮統制(C2)能力の発達があげられる。 本稿では,このようなシステムとM&Sの統合について,SoSの視点を適用した。 我々は、最近開発された言語カテゴリに基づく相互運用性の概念と、相互運用の標準を実装するための離散イベントシステム仕様(DEVS)の定式化を採用しています。 私たちは、XMLベースのサービス指向アーキテクチャ(SOA)を使用するDEVS/SOAネット中心モデリングおよびシミュレーションフレームワークで、どのように開発標準が実装されているかを示します。 我々は、DEVS/SOAにおけるシミュレーターインタフェースとそれらの実装における設計問題について論じる。 私たちは、SOAとしてデプロイ可能なマルチエージェントテストインスツルメンテーションシステムにおいて、DEVS/SOAの応用について説明します。

Modeling and Simulation (M&S) is finding increasing application in development and testing of command and control systems comprised of information-intensive component systems. Achieving interoperability is one of the chief System of Systems (SoS) engineering objectives in the development of command and control (C2) capabilities for joint and coalition warfare. In this paper, we apply an SoS perspective on the integration of M&S with such systems. We employ recently developed interoperability concepts based on linguistic categories along with the Discrete Event System Specification (DEVS) formalism to implement a standard for interoperability. We will show how the developed standard is implemented in DEVS/SOA net-centric modeling and simulation framework that uses XML-based Service Oriented Architecture (SOA). We will discuss the simulator interfaces and the design issues in their implementation in DEVS/SOA. We will illustrate the application of DEVS/SOA in a multi-agent test instrumentation system that is deployable as a SOA.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 前方モデルを持たないベイズ逆問題に対する弱神経変分推論:エラストグラフィーへの応用

Weak neural variational inference for solving Bayesian inverse problems without forward models: applications in elastography ( http://arxiv.org/abs/2407.20697v1 )

ライセンス: Link先を確認
Vincent C. Scholz, Yaohua Zang, Phaedon-Stelios Koutsourelakis, (参考訳) 本稿では,偏微分方程式(PDE)に基づく高次元ベイズ逆問題の解法として,Wak Neural Variational Inference (WNVI)を提案する。 この方法は実測値と物理モデルから導出される仮想観測を補完する。 特に、重み付き残基は、フォワードモデルを定式化したり解いたりすることなくベイズ逆問題を定式化し解決するために、PDEのプローブとして用いられる。 定式化では、物理モデルの状態変数を遅延変数として扱い、SVI(Stochastic Variational Inference)を用いて推定される。 近似後続法はニューラルネットワークを用いて状態変数から未知への逆写像を近似する。 提案手法は, ノイズ組織変形データから空間的に変化する材料特性を推定するバイオメディカル・セッティングで説明する。 我々は、WNVIがブラックボックスのように(非線形の)前方問題を繰り返し解決する従来の方法よりも正確で効率的なだけでなく、不適切な前方問題(例えば境界条件が不十分な場合)にも対処できることを示した。

In this paper, we introduce a novel, data-driven approach for solving high-dimensional Bayesian inverse problems based on partial differential equations (PDEs), called Weak Neural Variational Inference (WNVI). The method complements real measurements with virtual observations derived from the physical model. In particular, weighted residuals are employed as probes to the governing PDE in order to formulate and solve a Bayesian inverse problem without ever formulating nor solving a forward model. The formulation treats the state variables of the physical model as latent variables, inferred using Stochastic Variational Inference (SVI), along with the usual unknowns. The approximate posterior employed uses neural networks to approximate the inverse mapping from state variables to the unknowns. We illustrate the proposed method in a biomedical setting where we infer spatially varying material properties from noisy tissue deformation data. We demonstrate that WNVI is not only as accurate and more efficient than traditional methods that rely on repeatedly solving the (non)linear forward problem as a black-box, but it can also handle ill-posed forward problems (e.g., with insufficient boundary conditions).
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 超精密ホログラフィック光ツイーザーアレイ

Ultra-precise holographic optical tweezers array ( http://arxiv.org/abs/2407.20699v1 )

ライセンス: Link先を確認
Yuki Torii Chew, Martin Poitrinal, Takafumi Tomita, Sota Kitade, Jorge Mauricio, Kenji Ohmori, Sylvain de Léséleuc, (参考訳) 微視的な光学的ツイーザーに閉じ込められた中性原子は、量子科学のプラットフォームとして成長している。 本研究は,空間光変調器(SLM)を用いて生成したホログラフィックアレイに対して,Tweezers配列の均一性を実現することが重要な技術的要件である。 そこで我々は, 高精度な測定手法を用いて, より良いホログラムを計算するための一連の最適化手法を提案する。 これらの革新により、相対標準偏差0.3%、形状変化0.5%以下、位置誤差70nm以内の強度均一性を達成することができる。 このような超精密ホログラフィック光ツイーザーアレイは、原子配列を持つ量子科学において最も要求の多い応用を可能にする。

Neutral atoms trapped in microscopic optical tweezers have emerged as a growing platform for quantum science. Achieving homogeneity over the tweezers array is an important technical requirement, and our research focuses on improving it for holographic arrays generated with a Spatial Light Modulator (SLM). We present a series of optimization methods to calculate better holograms, fueled by precise measurement schemes. These innovations enable to achieve intensity homogeneity with a relative standard deviation of 0.3 %, shape variations below 0.5 %, and positioning errors within 70 nm. Such ultra-precise holographic optical tweezers arrays allow for the most demanding applications in quantum science with atomic arrays.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 因果的技術言語処理による産業用スマートトラブルシューティング : 概念実証

Industrial-Grade Smart Troubleshooting through Causal Technical Language Processing: a Proof of Concept ( http://arxiv.org/abs/2407.20700v1 )

ライセンス: Link先を確認
Alexandre Trilla, Ossee Yiboe, Nenad Mijatovic, Jordi Vitrià, (参考訳) 本稿では,産業環境のトラブルシューティングにおける因果診断手法の開発について述べる。 提案手法は,大規模言語モデルの分散表現に含まれるベクトル化された言語知識と,産業資産の組込み障害モードと機構に係わる因果関係を利用する。 本稿では, 因果関係を意識した検索拡張生成システムとして考案された, ソリューションの基本的概念と本質的概念を, 実世界の予測保守環境において実験的に説明する。 最後に、産業におけるますます複雑なシナリオの堅牢性の課題を満たすために、活用された因果的技術の成熟に対する改善の道について論じる。

This paper describes the development of a causal diagnosis approach for troubleshooting an industrial environment on the basis of the technical language expressed in Return on Experience records. The proposed method leverages the vectorized linguistic knowledge contained in the distributed representation of a Large Language Model, and the causal associations entailed by the embedded failure modes and mechanisms of the industrial assets. The paper presents the elementary but essential concepts of the solution, which is conceived as a causality-aware retrieval augmented generation system, and illustrates them experimentally on a real-world Predictive Maintenance setting. Finally, it discusses avenues of improvement for the maturity of the utilized causal technology to meet the robustness challenges of increasingly complex scenarios in the industry.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# PIP:フェデレーションクラスインクリメンタルラーニングのためのプロトタイプ注入プロンプト

PIP: Prototypes-Injected Prompt for Federated Class Incremental Learning ( http://arxiv.org/abs/2407.20705v1 )

ライセンス: Link先を確認
Muhammad Anwar Ma'sum, Mahardhika Pratama, Savitha Ramasamy, Lin Liu, Habibullah Habibullah, Ryszard Kowalczyk, (参考訳) フェデレート・クラス・インクリメンタル・ラーニング(FCIL)は破滅的な忘れ込みと非IIDデータ配信を同時に扱うための継続学習(CL)の新しい方向性である。 既存のFCIL手法では、従来のクラスから高い通信コストと模範を要求される。 FCILのプロトタイプインジェクトプロンプト(PIP)と呼ばれる新しいリハーサルフリー手法を提案する。 a) 素早い学習に対する原型注入 ロ 原型増補及び増補 c) サーバ側のガウスアグリゲーションの重み付け。 実験の結果,提案手法はCIFAR100, MiniImageNet, TinyImageNetデータセットにおいて, 最先端技術(SOTA)を最大33%向上させることができた。 我々の広範な分析は、異なるタスクサイズでのPIPの堅牢性を示し、より小さなローカルクライアントとより小さなグローバルラウンドを必要とする利点を示している。 さらなる研究のために、PIP、ベースライン、実験ログのソースコードはhttps://github.com/anwarmaxsum/PIPで公開されている。

Federated Class Incremental Learning (FCIL) is a new direction in continual learning (CL) for addressing catastrophic forgetting and non-IID data distribution simultaneously. Existing FCIL methods call for high communication costs and exemplars from previous classes. We propose a novel rehearsal-free method for FCIL named prototypes-injected prompt (PIP) that involves 3 main ideas: a) prototype injection on prompt learning, b) prototype augmentation, and c) weighted Gaussian aggregation on the server side. Our experiment result shows that the proposed method outperforms the current state of the arts (SOTAs) with a significant improvement (up to 33%) in CIFAR100, MiniImageNet and TinyImageNet datasets. Our extensive analysis demonstrates the robustness of PIP in different task sizes, and the advantage of requiring smaller participating local clients, and smaller global rounds. For further study, source codes of PIP, baseline, and experimental logs are shared publicly in https://github.com/anwarmaxsum/PIP.
翻訳日:2024-07-31 17:39:47 公開日:2024-07-30
# 高性能かつエネルギー効率の高い物体検出のための整数値トレーニングとスパイク駆動型推論スパイクニューラルネットワーク

Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection ( http://arxiv.org/abs/2407.20708v1 )

ライセンス: Link先を確認
Xinhao Luo, Man Yao, Yuhong Chou, Bo Xu, Guoqi Li, (参考訳) 脳にインスパイアされたスパイキングニューラルネット(SNN)は、ANN(Artificial Neural Networks)に対して、バイオ楽観性と低パワーのアドバンテージを持っている。 SNNの応用は、その性能が劣っているため、現時点では単純な分類タスクに限られている。 本研究では,オブジェクト検出におけるANNとSNNのパフォーマンスギャップを埋めることに焦点を当てる。 私たちの設計はネットワークアーキテクチャとスパイクニューロンを中心に展開しています。 まず、過剰に複雑なモジュール設計は、YOLOシリーズが対応するスパイクバージョンに変換されたときにスパイク劣化を引き起こす。 我々は,バニラYOLOを単純化し,メタSNNブロックを組み込むことで,この問題を解決するためにSpikeYOLOアーキテクチャを設計する。 第二に、物体検出は、スパイクニューロンによる膜電位のバイナリスパイクへの変換における量子化誤差に対してより敏感である。 この課題に対処するために、推論中に仮想タイムステップを拡張してスパイク駆動を維持しながら、トレーニング中にInteger値を活性化する新しいスパイクニューロンを設計する。 提案手法は静的およびニューロモルフィックな物体検出データセットの両方で検証される。 静的COCOデータセットでは、66.2%のmAP@50と48.9%のmAP@50:95が得られる。 ニューロモルフィックなGen1データセットでは67.2%のmAP@50が得られ、これは同等のアーキテクチャを持つANNよりも+2.5%大きく、エネルギー効率は5.7向上する。 コード:https://github.com/BICLab/SpikeYOLO

Brain-inspired Spiking Neural Networks (SNNs) have bio-plausibility and low-power advantages over Artificial Neural Networks (ANNs). Applications of SNNs are currently limited to simple classification tasks because of their poor performance. In this work, we focus on bridging the performance gap between ANNs and SNNs on object detection. Our design revolves around network architecture and spiking neuron. First, the overly complex module design causes spike degradation when the YOLO series is converted to the corresponding spiking version. We design a SpikeYOLO architecture to solve this problem by simplifying the vanilla YOLO and incorporating meta SNN blocks. Second, object detection is more sensitive to quantization errors in the conversion of membrane potentials into binary spikes by spiking neurons. To address this challenge, we design a new spiking neuron that activates Integer values during training while maintaining spike-driven by extending virtual timesteps during inference. The proposed method is validated on both static and neuromorphic object detection datasets. On the static COCO dataset, we obtain 66.2% mAP@50 and 48.9% mAP@50:95, which is +15.0% and +18.7% higher than the prior state-of-the-art SNN, respectively. On the neuromorphic Gen1 dataset, we achieve 67.2% mAP@50, which is +2.5% greater than the ANN with equivalent architecture, and the energy efficiency is improved by 5.7. Code: https://github.com/BICLab/SpikeYOLO
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# Cocobo: エンドユーザーロボットプログラミングのエンジンとしての大規模言語モデルを探る

Cocobo: Exploring Large Language Models as the Engine for End-User Robot Programming ( http://arxiv.org/abs/2407.20712v1 )

ライセンス: Link先を確認
Yate Ge, Yi Dai, Run Shan, Kechun Li, Yuanda Hu, Xiaohua Sun, (参考訳) エンドユーザ開発により、毎日のユーザは、ロボットやアプリケーションを自分のニーズに合わせることができる。 ユーザフレンドリーなアプローチのひとつに自然言語プログラミングがある。 しかし、拡張されたユーザ表現空間や、デバッグと編集のサポートの制限など、エンドユーザプログラミングにおけるアプリケーションの制限といった課題に直面している。 大規模言語モデル(LLM)の出現は、人間の言語命令とロボットによって実行されるコードの間の翻訳と解釈のための有望な道を提供するが、エンドユーザープログラミングシステムにおけるそれらの応用にはさらなる研究が必要である。 本稿では,LLMを用いた対話型ダイアグラムを用いた自然言語プログラミングシステムであるCocoboを紹介する。 Cocobo は LLM を使用してユーザのオーサリング意図を理解し、ロボットプログラムを生成し、説明し、実行可能なコードとフローチャート表現の変換を容易にする。 ユーザスタディによると、Cocoboは学習曲線が低く、コーディング経験のないユーザでもロボットプログラムをうまくカスタマイズできる。

End-user development allows everyday users to tailor service robots or applications to their needs. One user-friendly approach is natural language programming. However, it encounters challenges such as an expansive user expression space and limited support for debugging and editing, which restrict its application in end-user programming. The emergence of large language models (LLMs) offers promising avenues for the translation and interpretation between human language instructions and the code executed by robots, but their application in end-user programming systems requires further study. We introduce Cocobo, a natural language programming system with interactive diagrams powered by LLMs. Cocobo employs LLMs to understand users' authoring intentions, generate and explain robot programs, and facilitate the conversion between executable code and flowchart representations. Our user study shows that Cocobo has a low learning curve, enabling even users with zero coding experience to customize robot programs successfully.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# 永続サンプリング: シークエンシャルなモンテカルロの可能性

Persistent Sampling: Unleashing the Potential of Sequential Monte Carlo ( http://arxiv.org/abs/2407.20722v1 )

ライセンス: Link先を確認
Minas Karamanis, Uroš Seljak, (参考訳) 連続モンテカルロ法(SMC)はベイズ推定の強力なツールであるが、正確な推定のために多くの粒子を必要とすることに悩まされており、計算コストが高い。 SMCの拡張であるパーシステンス・サンプリング(PS)を導入し、従来の繰り返しからの粒子を持続させることによりこの問題を緩和する。 これにより、繰り返しにまたがる粒子の集合が成長し、重み付けされる。 各イテレーションでは、PSは以前の全ての分布の混合から複数の重要サンプリングと再サンプリングを使用して、次の世代の粒子を生成する。 これは粒子不足とモード崩壊に対処し、より正確な後部近似をもたらす。 さらに、本手法はモデル比較のための低分散限界推定値を提供する。 さらに、永続粒子は効率的な探索のために遷移カーネル適応を改善する。 複雑な分布の実験では、PSは標準手法より一貫して優れており、後部モーメント推定において低い2乗バイアスを達成し、いずれも計算コストの低い限界誤差を著しく低減している。 PSはベイズ推論のための堅牢で効率的でスケーラブルなフレームワークを提供する。

Sequential Monte Carlo (SMC) methods are powerful tools for Bayesian inference but suffer from requiring many particles for accurate estimates, leading to high computational costs. We introduce persistent sampling (PS), an extension of SMC that mitigates this issue by allowing particles from previous iterations to persist. This generates a growing, weighted ensemble of particles distributed across iterations. In each iteration, PS utilizes multiple importance sampling and resampling from the mixture of all previous distributions to produce the next generation of particles. This addresses particle impoverishment and mode collapse, resulting in more accurate posterior approximations. Furthermore, this approach provides lower-variance marginal likelihood estimates for model comparison. Additionally, the persistent particles improve transition kernel adaptation for efficient exploration. Experiments on complex distributions show that PS consistently outperforms standard methods, achieving lower squared bias in posterior moment estimation and significantly reduced marginal likelihood errors, all at a lower computational cost. PS offers a robust, efficient, and scalable framework for Bayesian inference.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# スピングラス理論のレンズによる失われた景観の探索

Exploring Loss Landscapes through the Lens of Spin Glass Theory ( http://arxiv.org/abs/2407.20724v1 )

ライセンス: Link先を確認
Hao Liao, Wei Zhang, Zhanyi Huang, Zexiao Long, Mingyang Zhou, Xiaoqun Wu, Rui Mao, Chi Ho Yeung, (参考訳) 過去10年間で、ディープラーニングの大きな進歩は、多くの画期的な応用に繋がった。 これらの進歩にもかかわらず、ディープラーニングの高一般化性、特にそのような過度にパラメータ化された空間における理解は依然として限られている。 成功した応用は科学的な成果よりも経験的と見なされることが多い。 例えば、ディープニューラルネットワーク(DNN)の内部表現、意思決定メカニズム、過度にパラメータ化された空間における過度な適合の欠如、高い一般化可能性などについては、いまだに理解されていない。 この論文は、DNNの損失景観を統計物理学におけるスピンガラスのレンズ、すなわち、多くの準安定状態を持つ複雑なエネルギー景観を特徴とするシステムを通して掘り下げ、DNNの動作をよりよく理解する。 我々は,単一の隠蔽層rectified Linear Unit(ReLU)ニューラルネットワークモデルについて検討し,DNN(MNISTやCIFAR10などのデータセットで訓練された)とスピングラスの類似性を調べるためのいくつかのプロトコルを導入した。 具体的には,(1)DNNのパラメータ空間をランダムに歩いたり,(2)隠れた層における置換対称性による損失ランドスケープ内の同一領域のコピー間の接続を研究するための置換補間プロトコル,(3)DNNのトレーニングされた解の階層性を明らかにする階層的クラスタリング,(3)スピングラスに類似したいわゆるReplica Symmetry Breaking(RSB)現象(すなわちパリ溶液)を連想させる階層的クラスタリング,(4)DNNの損失ランドスケープの粗さの程度と一般性との関係について検討し,フラット化ミニマの改良を示す。

In the past decade, significant strides in deep learning have led to numerous groundbreaking applications. Despite these advancements, the understanding of the high generalizability of deep learning, especially in such an over-parametrized space, remains limited. Successful applications are often considered as empirical rather than scientific achievements. For instance, deep neural networks' (DNNs) internal representations, decision-making mechanism, absence of overfitting in an over-parametrized space, high generalizability, etc., remain less understood. This paper delves into the loss landscape of DNNs through the lens of spin glass in statistical physics, i.e. a system characterized by a complex energy landscape with numerous metastable states, to better understand how DNNs work. We investigated a single hidden layer Rectified Linear Unit (ReLU) neural network model, and introduced several protocols to examine the analogy between DNNs (trained with datasets including MNIST and CIFAR10) and spin glass. Specifically, we used (1) random walk in the parameter space of DNNs to unravel the structures in their loss landscape; (2) a permutation-interpolation protocol to study the connection between copies of identical regions in the loss landscape due to the permutation symmetry in the hidden layers; (3) hierarchical clustering to reveal the hierarchy among trained solutions of DNNs, reminiscent of the so-called Replica Symmetry Breaking (RSB) phenomenon (i.e. the Parisi solution) in analogy to spin glass; (4) finally, we examine the relationship between the degree of the ruggedness of the loss landscape of the DNN and its generalizability, showing an improvement of flattened minima.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# SceneTeller:Language-to-3D Scene Generation

SceneTeller: Language-to-3D Scene Generation ( http://arxiv.org/abs/2407.20727v1 )

ライセンス: Link先を確認
Başak Melis Öcal, Maxim Tatarchenko, Sezer Karaoglu, Theo Gevers, (参考訳) 室内の高品質な3Dシーンを設計することは、部屋の計画やゲーム開発といった多くの実践的応用において重要である。 従来、これは芸術的スキルとプロのソフトウェアに精通することの両方を必要とする時間を要するプロセスだった。 しかし、近年のジェネレーティブAIの進歩は、3Dデザインを民主化するための強固な基盤を確立している。 本稿では,テキストベースの3次元空間設計における先駆的アプローチを提案する。 本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。 追加のテキストプロンプトで、ユーザーはシーン全体や個々のオブジェクトの外観を変更することができる。 In-context Learning, CADモデル検索, 3D-Gaussian-Splattingベースのスタイリングによって構築された我々のターンキーパイプラインは, 初心者でも使いやすく, 最先端の3Dシーンを生成する。 私たちのプロジェクトページはhttps://sceneteller.github.io/で公開されています。

Designing high-quality indoor 3D scenes is important in many practical applications, such as room planning or game development. Conventionally, this has been a time-consuming process which requires both artistic skill and familiarity with professional software, making it hardly accessible for layman users. However, recent advances in generative AI have established solid foundation for democratizing 3D design. In this paper, we propose a pioneering approach for text-based 3D room design. Given a prompt in natural language describing the object placement in the room, our method produces a high-quality 3D scene corresponding to it. With an additional text prompt the users can change the appearance of the entire scene or of individual objects in it. Built using in-context learning, CAD model retrieval and 3D-Gaussian-Splatting-based stylization, our turnkey pipeline produces state-of-the-art 3D scenes, while being easy to use even for novices. Our project page is available at https://sceneteller.github.io/.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# 4次元心血管画像における連続周期運動推定のためのニューラルネットワーク

Neural Fields for Continuous Periodic Motion Estimation in 4D Cardiovascular Imaging ( http://arxiv.org/abs/2407.20728v1 )

ライセンス: Link先を確認
Simone Garzia, Patryk Rygiel, Sven Dummer, Filippo Cademartiri, Simona Celi, Jelmer M. Wolterink, (参考訳) 時間分解型3次元フローMRI(4次元フローMRI)は、大動脈弓などの血管の血行動態を可視化し定量化するための、ユニークな非侵襲的なソリューションを提供する。 しかし, 動脈4次元血流MRIでは, フルサイクルセグメンテーションが困難であったため, 静的動脈壁を用いる場合が多い。 この制限を克服するために、心臓周期を通して連続的な周期的な壁の変形を直接推定する神経場に基づく手法を提案する。 時間依存性ベロシティベクトル場(VVF)を表す暗黙的ニューラル表現(INR)を最適化する。 ODEソルバを用いて、VVFを変形ベクトル場(DVF)に統合し、画像、セグメンテーションマスク、メッシュを時間とともに変形させ、局所壁運動パターンを可視化し定量化する。 3D+時間心血管データの周期的特性を適切に反映するため,2つの方法で周期性を付与する。 まず、INR、すなわちVVFに入力された時刻を定期的に符号化する。 第二に、DVFを正規化すること。 本研究では, 周期パターンの異なる合成データ, ECG-gated CT, および4次元フローMRIデータに対する本手法の有効性を実証する。 得られた方法は, 4次元フローMRI解析の改善に有用である。

Time-resolved three-dimensional flow MRI (4D flow MRI) provides a unique non-invasive solution to visualize and quantify hemodynamics in blood vessels such as the aortic arch. However, most current analysis methods for arterial 4D flow MRI use static artery walls because of the difficulty in obtaining a full cycle segmentation. To overcome this limitation, we propose a neural fields-based method that directly estimates continuous periodic wall deformations throughout the cardiac cycle. For a 3D + time imaging dataset, we optimize an implicit neural representation (INR) that represents a time-dependent velocity vector field (VVF). An ODE solver is used to integrate the VVF into a deformation vector field (DVF), that can deform images, segmentation masks, or meshes over time, thereby visualizing and quantifying local wall motion patterns. To properly reflect the periodic nature of 3D + time cardiovascular data, we impose periodicity in two ways. First, by periodically encoding the time input to the INR, and hence VVF. Second, by regularizing the DVF. We demonstrate the effectiveness of this approach on synthetic data with different periodic patterns, ECG-gated CT, and 4D flow MRI data. The obtained method could be used to improve 4D flow MRI analysis.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# マレーシア語テキストに対するセーフ・フォー・ワーク・クラシファイアの適応: LLM-Opsフレームワークにおけるアライメントの強化

Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework ( http://arxiv.org/abs/2407.20729v1 )

ライセンス: Link先を確認
Aisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman, (参考訳) 大規模言語モデル(LLM)が運用ワークフロー(LLM-Ops)に統合されるにつれて、言語間での潜在的に安全でないコンテンツや不適切なコンテンツの検出など、安全で整合性のあるインタラクションを保証するための効果的なガードレールの必要性が高まっている。 しかし、既存のセーフ・フォー・ワーク分類器は主に英語のテキストに焦点を当てている。 マレーシア語におけるこのギャップに対処するために,マレーシア語コンテンツに特化して設計された,新しいセーフ・フォー・ワークテキスト分類器を提案する。 複数のコンテンツカテゴリにまたがるマレーシアのテキストの第一種データセットをキュレートし、注釈付けすることにより、最先端の自然言語処理技術を用いて潜在的に安全でない物質を特定することができる分類モデルを訓練した。 この作業は、潜在的なリスクを軽減し、LCMの責任あるデプロイを保証するために、より安全なインタラクションとコンテンツフィルタリングを可能にするための重要なステップである。 アクセシビリティを最大化し、マレーシアの文脈におけるLLM-Opsのアライメント向上に向けたさらなる研究を促進するため、このモデルはhttps://huggingface.co/malaysia-ai/malaysian-sfw-classifierで公開されている。

As large language models (LLMs) become increasingly integrated into operational workflows (LLM-Ops), there is a pressing need for effective guardrails to ensure safe and aligned interactions, including the ability to detect potentially unsafe or inappropriate content across languages. However, existing safe-for-work classifiers are primarily focused on English text. To address this gap for the Malaysian language, we present a novel safe-for-work text classifier tailored specifically for Malaysian language content. By curating and annotating a first-of-its-kind dataset of Malaysian text spanning multiple content categories, we trained a classification model capable of identifying potentially unsafe material using state-of-the-art natural language processing techniques. This work represents an important step in enabling safer interactions and content filtering to mitigate potential risks and ensure responsible deployment of LLMs. To maximize accessibility and promote further research towards enhancing alignment in LLM-Ops for the Malaysian context, the model is publicly released at https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# コヒーレントポイントトラッキングのための自動言語埋め込み

Autogenic Language Embedding for Coherent Point Tracking ( http://arxiv.org/abs/2407.20730v1 )

ライセンス: Link先を確認
Zikai Song, Ying Tang, Run Luo, Lintao Ma, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang, (参考訳) ポイントトラッキングはコンピュータビジョンにおいて困難な課題であり、長いビデオシーケンスにまたがるポイントワイド対応を確立することを目的としている。 最近の進歩は主に、局所的な特徴の類似性を改善するための時間的モデリング技術に焦点を当てており、しばしばトラックされた点に固有の価値ある意味的一貫性を見落としている。 本稿では,言語埋め込みを活用して,同一オブジェクトに関連するフレームワイド視覚特徴のコヒーレンスを高める手法を提案する。 視覚的特徴強調のための自動生成言語埋め込みと呼ばれる提案手法は,長期的シーケンスにおけるポイント対応を強化している。 既存の視覚言語スキームとは異なり,本手法では,視覚的特徴から専用のマッピングネットワークを通じてテキスト埋め込みを学習し,明示的なテキストアノテーションを使わずに,様々なトラッキングタスクへのシームレスな適応を可能にする。 さらに,テキストトークンを最小の計算オーバーヘッドで視覚的特徴に効率的に統合する整合デコーダを導入する。 視覚的整合性の向上により,映像中の軌跡の追跡精度が著しく向上し,外観に変化が生じた。 広範に使用されているトラッキングベンチマークの大規模な実験は,視覚的手がかりのみに依存するトラッカーと比較して,本手法の優れた性能を示す。

Point tracking is a challenging task in computer vision, aiming to establish point-wise correspondence across long video sequences. Recent advancements have primarily focused on temporal modeling techniques to improve local feature similarity, often overlooking the valuable semantic consistency inherent in tracked points. In this paper, we introduce a novel approach leveraging language embeddings to enhance the coherence of frame-wise visual features related to the same object. Our proposed method, termed autogenic language embedding for visual feature enhancement, strengthens point correspondence in long-term sequences. Unlike existing visual-language schemes, our approach learns text embeddings from visual features through a dedicated mapping network, enabling seamless adaptation to various tracking tasks without explicit text annotations. Additionally, we introduce a consistency decoder that efficiently integrates text tokens into visual features with minimal computational overhead. Through enhanced visual consistency, our approach significantly improves tracking trajectories in lengthy videos with substantial appearance variations. Extensive experiments on widely-used tracking benchmarks demonstrate the superior performance of our method, showcasing notable enhancements compared to trackers relying solely on visual cues.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# シーン特異的軌道集合:動き予測における表現の最大化

Scene-Specific Trajectory Sets: Maximizing Representation in Motion Forecasting ( http://arxiv.org/abs/2407.20732v1 )

ライセンス: Link先を確認
Abhishek Vivekanandan, J. Marius Zöllner, (参考訳) 自律運転における運動予測には,多種多様な未来のアクターの軌跡を表現することが不可欠である。 しかし、コンパクトな集合で真の軌道分布を効率的に捉えることは困難である。 本研究では,未来の俳優行動の多様性と許容度をよりよく表現する,シーン固有の軌道集合を生成するための新しい手法を提案する。 本手法は,地図情報やアクタダイナミクスを活用することで,交差点や非交差点など,異なるシーンコンテキストに合わせた複数のトラジェクトリセットを構築する。 決定論的ゴールサンプリングアルゴリズムを導入し、関連するマップ領域を特定し、シーンレイアウトに条件付き軌跡を生成する。 さらに,種々のサンプリング戦略と設定サイズを実証的に検討し,範囲と多様性のトレードオフを最適化する。 Argoverse 2データセットの実験では、シーン固有のセットは従来の単一セットのアプローチと比較して、多様性を維持しながら高い妥当性が得られることが示された。 提案した再帰的分布サブサンプリング(RIDS)法は, 表現空間を効果的に凝縮し, トラジェクトリ適応性の観点から, 計量駆動サンプリングより優れる。 本研究は,現実の運転シナリオにおけるアクター行動の複雑で異質な性質を捉えるために,シーン対応トラジェクトリセット生成の利点を強調した。

Representing diverse and plausible future trajectories of actors is crucial for motion forecasting in autonomous driving. However, efficiently capturing the true trajectory distribution with a compact set is challenging. In this work, we propose a novel approach for generating scene-specific trajectory sets that better represent the diversity and admissibility of future actor behavior. Our method constructs multiple trajectory sets tailored to different scene contexts, such as intersections and non-intersections, by leveraging map information and actor dynamics. We introduce a deterministic goal sampling algorithm that identifies relevant map regions and generates trajectories conditioned on the scene layout. Furthermore, we empirically investigate various sampling strategies and set sizes to optimize the trade-off between coverage and diversity. Experiments on the Argoverse 2 dataset demonstrate that our scene-specific sets achieve higher plausibility while maintaining diversity compared to traditional single-set approaches. The proposed Recursive In-Distribution Subsampling (RIDS) method effectively condenses the representation space and outperforms metric-driven sampling in terms of trajectory admissibility. Our work highlights the benefits of scene-aware trajectory set generation for capturing the complex and heterogeneous nature of actor behavior in real-world driving scenarios.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# 低ランク構造を用いた効率的パレートマニフォールド学習

Efficient Pareto Manifold Learning with Low-Rank Structure ( http://arxiv.org/abs/2407.20734v1 )

ライセンス: Link先を確認
Weiyu Chen, James T. Kwok, (参考訳) 複数のタスクのパフォーマンスを最適化するマルチタスク学習は、本質的には多目的最適化問題である。 様々なアルゴリズムがParetoフロントで個別のトレードオフソリューションを提供するために開発されている。 近年, ベースネットワークの線形結合を用いた連続パレートフロント近似が, 説得力のある戦略として浮上している。 しかし、タスクの数が多ければスケーラビリティの問題に悩まされる。 そこで本研究では,数個の低ランク行列を主ネットワークに統合し,パレート多様体を効率的に学習する手法を提案する。 パラメータの数を著しく削減し、共有された特徴の抽出を容易にする。 また,さらなる性能向上のために直交正則化も導入する。 大規模な実験結果から、提案手法は最先端のベースライン、特に多数のタスクを持つデータセットよりも優れていることが示された。

Multi-task learning, which optimizes performance across multiple tasks, is inherently a multi-objective optimization problem. Various algorithms are developed to provide discrete trade-off solutions on the Pareto front. Recently, continuous Pareto front approximations using a linear combination of base networks have emerged as a compelling strategy. However, it suffers from scalability issues when the number of tasks is large. To address this issue, we propose a novel approach that integrates a main network with several low-rank matrices to efficiently learn the Pareto manifold. It significantly reduces the number of parameters and facilitates the extraction of shared features. We also introduce orthogonal regularization to further bolster performance. Extensive experimental results demonstrate that the proposed approach outperforms state-of-the-art baselines, especially on datasets with a large number of tasks.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# 非対称結合による広帯域多次元変動測定

Broadband Multidimensional Variational Measurement with Non-Symmetric Coupling ( http://arxiv.org/abs/2407.20736v1 )

ライセンス: Link先を確認
Aleksandr A. Movsisian, Albert I. Nazmiev, Andrey B. Matsko, Sergey P. Vyatchanin, (参考訳) ブロードバンド多次元変動測定により、機械振動子に対する古典的な機械的力検出の標準量子限界(SQL)を克服することができる。 機械振動子の進化を妨害する量子バック動作を、後処理後の広帯域検出周波数帯域で完全に除去することができる。 この測定は、中央光学モードの光ポンピングにより行われ、他の2つの光学モードから逃れる光を解析する。 このような方式を実現するには、非常に長い光干渉計を使うか、異なるモードファミリーに属する光学モードを利用する必要がある。 第2のケースでは、モードは異なるジオメトリを持ち、そのメカニカルモードとの結合は同一ではない。 ここでは、光モードとの結合強度が互いに等しくない非対称測定方式の一般的な場合を分析し、光学的損失を考慮に入れた。 その結果, 非対称損失系の場合, バックアクションは測定結果から完全に排除できることがわかった。 非ゼロ損失は感度を制限します。 提案手法の実験的実装について論じる。

A broadband multidimensional variational measurement allows overcoming the Standard Quantum Limit (SQL) of a classical mechanical force detection for a mechanical oscillator. In this measurement quantum back action, which perturbs the evolution of a mechanical oscillator, can be completely removed in a broad detection frequency band after post-processing. The measurement is performed by optical pumping of the central optical mode and analyzing the light escaping the two other optical modes, which have the frequency separation with the central mode equal to the mechanical frequency. To realize such a scheme in practice one either needs to use a very long optical interferometer or should utilize optical modes belonging to different mode families. In the second case the modes have different geometries and their coupling with the mechanical mode is not identical. Here we analyze a general case of the non-symmetric measurement scheme, in which the coupling strengths with the light modes are not equal to each other, and take into account optical losses. We found that the back action can be completely excluded from the measurement result in the case of the asymmetric lossless system. The nonzero loss limits the sensitivity. An experimental implementation of the proposed scheme is discussed.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# マルチエージェント強化学習における変分量子回路のアーキテクチャ的影響:最適化のための進化的戦略

Architectural Influence on Variational Quantum Circuits in Multi-Agent Reinforcement Learning: Evolutionary Strategies for Optimization ( http://arxiv.org/abs/2407.20739v1 )

ライセンス: Link先を確認
Michael Kölle, Karola Schneider, Sabrina Egger, Felix Topp, Thomy Phan, Philipp Altmann, Jonas Nüßlein, Claudia Linnhoff-Popien, (参考訳) 近年、MARL(Multi-Agent Reinforcement Learning)は、自律運転、電気通信、グローバルヘルスなど、科学や産業の様々な分野に応用されている。 それでも、MARLは例えば、次元の指数的な成長に悩まされている。 量子力学の遺伝的性質は、トレーニング可能なパラメータの数を著しく減少させることで、これらの制限を克服する助けとなる。 従来の研究では、勾配のない量子強化学習と変分量子回路(VQC)の進化的最適化を用いて、トレーニング可能なパラメータを減らし、不規則な台地を避け、勾配を消滅させるアプローチが開発されている。 これにより、トレーニング可能なパラメータの数に類似する古典的ニューラルネットワークと比較して、VQCのパフォーマンスが大幅に向上し、同様に優れたニューラルネットワークに比べてパラメータ数が97 \%以上減少する。 我々は、ゲートベース、レイヤベース、プロトタイプベースの概念を提案して、VQCを変更・再結合することで、K\"olle et al"のアプローチを拡張する。 本研究は,変異のみの戦略とゲートベースアプローチに最適な性能を示す。 特に,コインゲーム環境での評価において,より優れたスコア,より高い総数,自己のコイン,そして最高のエージェントに対する優れた自己のコインレートを観察する。

In recent years, Multi-Agent Reinforcement Learning (MARL) has found application in numerous areas of science and industry, such as autonomous driving, telecommunications, and global health. Nevertheless, MARL suffers from, for instance, an exponential growth of dimensions. Inherent properties of quantum mechanics help to overcome these limitations, e.g., by significantly reducing the number of trainable parameters. Previous studies have developed an approach that uses gradient-free quantum Reinforcement Learning and evolutionary optimization for variational quantum circuits (VQCs) to reduce the trainable parameters and avoid barren plateaus as well as vanishing gradients. This leads to a significantly better performance of VQCs compared to classical neural networks with a similar number of trainable parameters and a reduction in the number of parameters by more than 97 \% compared to similarly good neural networks. We extend an approach of K\"olle et al. by proposing a Gate-Based, a Layer-Based, and a Prototype-Based concept to mutate and recombine VQCs. Our results show the best performance for mutation-only strategies and the Gate-Based approach. In particular, we observe a significantly better score, higher total and own collected coins, as well as a superior own coin rate for the best agent when evaluated in the Coin Game environment.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# ナノスケールでのハイパースペクトル電気力学イメージング:動的バックアクション、散逸、量子ゆらぎ

Hyperspectral electromechanical imaging at the nanoscale: Dynamical backaction, dissipation and quantum fluctuations ( http://arxiv.org/abs/2407.20740v1 )

ライセンス: Link先を確認
Clément Chardin, Sébastien Pairis, Sabine Douillet, Moïra Hocevar, Julien Claudon, Jean-Philippe Poizat, Ludovic Bellon, Pierre Verlot, (参考訳) 本報告では, ナノメカニカルノイズ顕微鏡プラットフォームを新たに導入し, ナノメカニカルナノ構造の揺らぎをナノメカニカル分解能で把握した。 このプラットフォームを用いて、表面の局所的な熱源を走査しながら、40ドル,\mathrm{nm}$の単一欠陥ナノワイヤからなるモデル系の熱活性化ナノメカニカルダイナミクスを画像化する。 ナノワイヤの構造, 熱応答, 散逸, ゆらぎの密接な関係を示す熱バックアクションモデルを開発した。 特に, 電子ビーム励起は, 加熱源の量子揺らぎに支配される, 極端に非平衡な振動状態となる単一揺らぎハブとして振る舞うことを示す。 我々のプラットフォームは、今後ナノスケールの基本的な力学現象を定量的に研究することに興味があり、強い散逸状態と室温で量子熱力学を研究するための新しい場として現れる。

We report a new scanning nanomechanical noise microscopy platform enabling to both heat and acquire the fluctuations of mechanical nanostructures with nanometric resolution. We use this platform to image the thermally activated nanomechanical dynamics of a model system consisting of a $40\,\mathrm{nm}$ diameter single-defect nanowire, while scanning a localized heat source across its surface. We develop a thermal backaction model, which we use to demonstrate a close connection between the structure of the nanowire, its thermal response, its dissipation and its fluctuations. We notably show that the defect behaves as a single fluctuation hub, whose e-beam excitation yields a far off-equilibrium vibrational state, largely dominated by the quantum fluctuations of the heating source. Our platform is of interest for future quantitative investigation of fundamental nanoscale dynamical phenomena, and appears as a new playground for investigating quantum thermodynamics in the strongly dissipative regime and at room temperature.
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# 境界条件と初期条件の代数的包摂によるPINNの改善

Improving PINNs By Algebraic Inclusion of Boundary and Initial Conditions ( http://arxiv.org/abs/2407.20741v1 )

ライセンス: Link先を確認
Mohan Ren, Zhihao Fang, Keren Li, Anirbit Mukherjee, (参考訳) AI for Science」は、AI技術を用いた基本的な科学的問題を解決することを目的としている。 多くの物理現象は部分微分方程式 (Partial Differential Equations, PDE) と記述できるため、ニューラルネットワークによる解の近似は科学MLの中心的な構成要素として進化してきた。 物理インフォームドニューラルネットワーク(PINN)は、このタスクのために進化した一般的な手法であるが、そのトレーニングは非常に不安定であることが知られている。 本研究では、トレーニング対象のモデルをニューラルネットワークから非線形変換に変更する可能性について検討する。 これにより、損失関数の項数は標準のPINN損失よりも減少する。 我々は、トレーニングアルゴリズムを微調整することなく、様々なベンチマークタスク、様々な次元において、我々の修正が大きなパフォーマンス向上をもたらすことを実証した。 我々の結論は、完全に教師されていない環境で数百の実験を行い、複数の線形および非線形PDEを正確に解決可能なシナリオに設定し、標準のPINNよりもはるかに低い分数誤差のオーダー(s)でパフォーマンスの利得を具体的に測定することに基づいている。 この原稿に付随するコードは、https://github.com/MorganREN/Improving-PINNs-By-Algebraic-Inclusion-of-Boundary-and-Initial-Conditio nsで公開されている。

"AI for Science" aims to solve fundamental scientific problems using AI techniques. As most physical phenomena can be described as Partial Differential Equations (PDEs) , approximating their solutions using neural networks has evolved as a central component of scientific-ML. Physics-Informed Neural Networks (PINNs) is the general method that has evolved for this task but its training is well-known to be very unstable. In this work we explore the possibility of changing the model being trained from being just a neural network to being a non-linear transformation of it - one that algebraically includes the boundary/initial conditions. This reduces the number of terms in the loss function than the standard PINN losses. We demonstrate that our modification leads to significant performance gains across a range of benchmark tasks, in various dimensions and without having to tweak the training algorithm. Our conclusions are based on conducting hundreds of experiments, in the fully unsupervised setting, over multiple linear and non-linear PDEs set to exactly solvable scenarios, which lends to a concrete measurement of our performance gains in terms of order(s) of magnitude lower fractional errors being achieved, than by standard PINNs. The code accompanying this manuscript is publicly available at, https://github.com/MorganREN/Improving-PINNs-By-Algebraic-Inclusion-of-Boundary-and-Initial-Conditio ns
翻訳日:2024-07-31 17:30:03 公開日:2024-07-30
# Meltemi: ギリシャ初のオープンな大規模言語モデル

Meltemi: The first open Large Language Model for Greek ( http://arxiv.org/abs/2407.20743v1 )

ライセンス: Link先を確認
Leon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros, (参考訳) ギリシャ語の最初のオープンな大言語モデルであるメルテミ7Bの開発と能力について述べる。 メルテミ7Bは70億のパラメータを持ち、400億のトークン・ギリシャ・コーパスで訓練されている。 メルテミ7Bの開発には、ギリシャのコーパスで継続的に事前訓練を行うことでミストラルを適応させる。 メルテミ7Bは2023年9月までの最新の情報を含んでいる。 さらに,Meltemi 7B Instructという名前のチャットモデルの命令チューニングに使用されているギリシャ語の命令コーパスを翻訳し,キュレートした。 メルテミ7Bインストラクションのアライメントと有害物質の除去には特別に注意が払われている。 得られた評価コーパスの集合を用いて, 開発したモデルの評価を行い, プロンプトと応答の例を示す。 Meltemi 7B と Meltemi 7B Instruct は Apache 2.0 ライセンス下でhttps://huggingface.co/ilsp で公開されている。

We describe the development and capabilities of Meltemi 7B, the first open Large Language Model for the Greek language. Meltemi 7B has 7 billion parameters and is trained on a 40 billion token Greek corpus. For the development of Meltemi 7B, we adapt Mistral, by continuous pretraining on the Greek Corpus. Meltemi 7B contains up-to-date information up to September 2023. Furthermore, we have translated and curated a Greek instruction corpus, which has been used for the instruction-tuning of a chat model, named Meltemi 7B Instruct. Special care has been given to the alignment and the removal of toxic content for the Meltemi 7B Instruct. The developed models are evaluated on a broad set of collected evaluation corpora, and examples of prompts and responses are presented. Both Meltemi 7B and Meltemi 7B Instruct are available at https://huggingface.co/ilsp under the Apache 2.0 license.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# メドイドシルエットクラスタリングによる再局在加速

Re-localization acceleration with Medoid Silhouette Clustering ( http://arxiv.org/abs/2407.20749v1 )

ライセンス: Link先を確認
Hongyi Zhang, Walterio Mayol-Cuevas, (参考訳) 視覚的ローカライゼーションの展開における2つの重要な性能基準は、スピードと精度である。 ニューラルネットワークを用いた視覚的ローカライゼーションの現在の研究は、さまざまなデータセットにわたるネットワークの精度を高める方法を調べることに限定されている。 ディープニューラルネットワークアーキテクチャにおける再ローカライズプロセスの迅速化には,さらなる調査が必要だ。 本稿では,視覚的再局在化を現実的に促進するための新しいアプローチを提案する。 ビジュアルクラスタリングアルゴリズムによって抽出されたキーフレーム上に構築された木のような探索戦略は、加速度のマッチングのために設計されている。 提案手法は,3つの公開データセットにまたがる2つのタスクに対して検証され,ベースライン上の最大90%の時間節約が可能であり,位置精度は低下しない。

Two crucial performance criteria for the deployment of visual localization are speed and accuracy. Current research on visual localization with neural networks is limited to examining methods for enhancing the accuracy of networks across various datasets. How to expedite the re-localization process within deep neural network architectures still needs further investigation. In this paper, we present a novel approach for accelerating visual re-localization in practice. A tree-like search strategy, built on the keyframes extracted by a visual clustering algorithm, is designed for matching acceleration. Our method has been validated on two tasks across three public datasets, allowing for 50 up to 90 percent time saving over the baseline while not reducing location accuracy.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# JaColBERTv2.5: 制約資源を用いたマルチベクターレトリバーの最適化

JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources ( http://arxiv.org/abs/2407.20750v1 )

ライセンス: Link先を確認
Benjamin Clavié, (参考訳) ニューラル・インフォメーション・レトリーバルは、高リソース言語では急速に進歩しているが、日本語などの低リソース言語では、データ不足などによって進歩が妨げられている。 その結果,多言語モデルが日本語検索を支配下に置いた。 JaColBERTのような最近のマルチベクトル単言語モデルは、このギャップを狭めたが、大規模な評価では、まだマルチ言語メソッドに遅れを取っている。 本研究は,低リソース環境下でのマルチベクタレトリバーの最適訓練手法について,日本語に着目して検討する。 我々は、JaColBERTの推論およびトレーニング設定の重要な側面を体系的に評価し、改善し、より広範にマルチベクターモデルを構築した。 さらに,従来のチェックポイントの一般化機能と微調整の利点を併用する有効な方法として,新たなチェックポイントマージステップによる性能向上を図っている。 分析に基づいて,JaColBERTv2.5モデルによる新しいトレーニングレシピを導入する。 JaColBERTv2.5は、わずか110万のパラメータしか持たず、4つのA100 GPUで15時間未満でトレーニングされた。 今後の研究を支援するため、最終モデル、中間チェックポイント、および公開されているすべてのデータを作成します。

Neural Information Retrieval has advanced rapidly in high-resource languages, but progress in lower-resource ones such as Japanese has been hindered by data scarcity, among other challenges. Consequently, multilingual models have dominated Japanese retrieval, despite their computational inefficiencies and inability to capture linguistic nuances. While recent multi-vector monolingual models like JaColBERT have narrowed this gap, they still lag behind multilingual methods in large-scale evaluations. This work addresses the suboptimal training methods of multi-vector retrievers in lower-resource settings, focusing on Japanese. We systematically evaluate and improve key aspects of the inference and training settings of JaColBERT, and more broadly, multi-vector models. We further enhance performance through a novel checkpoint merging step, showcasing it to be an effective way of combining the benefits of fine-tuning with the generalization capabilities of the original checkpoint. Building on our analysis, we introduce a novel training recipe, resulting in the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and trained in under 15 hours on 4 A100 GPUs, significantly outperforms all existing methods across all common benchmarks, reaching an average score of 0.754, significantly above the previous best of 0.720. To support future research, we make our final models, intermediate checkpoints and all data used publicly available.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# ランダム化計測と可変サブサンプリングを用いた異常検出のための効率的な量子ワンクラス支援ベクトルマシン

Efficient Quantum One-Class Support Vector Machines for Anomaly Detection Using Randomized Measurements and Variable Subsampling ( http://arxiv.org/abs/2407.20753v1 )

ライセンス: Link先を確認
Michael Kölle, Afrae Ahouzi, Pascal Debus, Elif Çetiner, Robert Müller, Daniëlle Schuman, Claudia Linnhoff-Popien, (参考訳) 量子一級サポートベクトルマシンは、半教師付き異常検出における量子カーネル法の利点を利用する。 しかし、データサイズに関する2次時間の複雑さは、大規模なデータセットを扱う際の課題を引き起こす。 近年、量子ランダム化計測カーネルと可変サブサンプリングが、この問題に対処するための2つの独立した方法として提案されている。 前者は高い平均精度を達成するが、分散に苦しむ一方、後者はデータサイズに対する線形複雑さを達成し、ばらつきを小さくする。 現在の作業では、データサイズと機能数の両方で線形時間複雑性を達成するために、これらの2つのメソッドと、回転した機能バッジを組み合わせることに重点を置いている。 その不安定さにもかかわらず、結果として得られたモデルは、かなり高いパフォーマンスと、より高速なトレーニングとテスト時間を示す。

Quantum one-class support vector machines leverage the advantage of quantum kernel methods for semi-supervised anomaly detection. However, their quadratic time complexity with respect to data size poses challenges when dealing with large datasets. In recent work, quantum randomized measurements kernels and variable subsampling were proposed, as two independent methods to address this problem. The former achieves higher average precision, but suffers from variance, while the latter achieves linear complexity to data size and has lower variance. The current work focuses instead on combining these two methods, along with rotated feature bagging, to achieve linear time complexity both to data size and to number of features. Despite their instability, the resulting models exhibit considerably higher performance and faster training and testing times.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# 非一貫性な重み付き知識ベース検索のためのコストベースセマンティクス

Cost-Based Semantics for Querying Inconsistent Weighted Knowledge Bases ( http://arxiv.org/abs/2407.20754v1 )

ライセンス: Link先を確認
Meghyn Bienvenu, Camille Bourgaux, Robin Jean, (参考訳) 本稿では,一貫性のない記述論理知識ベースを問合せするための定量的アプローチについて検討する。 我々は、公理とアサーションの両方が(おそらく無限の)重みを持つ重み付き知識ベースを考察し、それが違反する公理とアサーションに基づいて各解釈にコストを割り当てる。 確実かつ可能な答えの2つの概念は、コストが与えられた限界を超えない解釈を考慮し、最適コストの解釈に注意を向けることによって定義される。 我々の主な貢献は、ELbot と ALCO 間の記述ロジックに対して、有界コスト満足度と確実かつ可能な回答認識の組合せとデータ複雑さを包括的に分析することである。

In this paper, we explore a quantitative approach to querying inconsistent description logic knowledge bases. We consider weighted knowledge bases in which both axioms and assertions have (possibly infinite) weights, which are used to assign a cost to each interpretation based upon the axioms and assertions it violates. Two notions of certain and possible answer are defined by either considering interpretations whose cost does not exceed a given bound or restricting attention to optimal-cost interpretations. Our main contribution is a comprehensive analysis of the combined and data complexity of bounded cost satisfiability and certain and possible answer recognition, for description logics between ELbot and ALCO.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# SynthVLM:視覚言語モデルのための高効率・高品質合成データ

SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models ( http://arxiv.org/abs/2407.20756v1 )

ライセンス: Link先を確認
Zheng Liu, Hao Liang, Wentao Xiong, Qinhan Yu, Conghui He, Bin Cui, Wentao Zhang, (参考訳) 近年,Web画像の出現に伴い,大規模画像データセットの管理と理解がますます重要になっている。 Vision Large Language Models (VLLM)が最近登場した。 しかし、これらのモデルのトレーニングには大量のデータが必要であり、効率性、有効性、データ品質、プライバシといった課題を提起する。 本稿では,VLLMのための新しいデータ合成パイプラインであるSynthVLMを紹介する。 画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択し、正確に整列された画像テキストペアを作成する。 これらのペアを活用することで、様々な視覚質問応答タスクにおける最先端(SoTA)のパフォーマンス、高いアライメント品質の維持、高度な言語能力の維持を実現します。 さらに、SynthVLMは従来のGPT-4ビジョンベースのキャプション生成手法をはるかに上回り、計算オーバーヘッドを大幅に削減する。 重要なことに、本手法は純粋に生成されたデータに依存するため、プライバシの保護が保証され、100kのデータポイント(公式データセットサイズのわずか18%)でSoTAのパフォーマンスが達成される。

Recently, with the rise of web images, managing and understanding large-scale image datasets has become increasingly important. Vision Large Language Models (VLLMs) have recently emerged due to their robust vision-understanding capabilities. However, training these models requires vast amounts of data, posing challenges to efficiency, effectiveness, data quality, and privacy. In this paper, we introduce SynthVLM, a novel data synthesis pipeline for VLLMs. Unlike existing methods that generate captions from images, SynthVLM employs advanced diffusion models and high-quality captions to automatically generate and select high-resolution images from captions, creating precisely aligned image-text pairs. Leveraging these pairs, we achieve state-of-the-art (SoTA) performance on various vision question answering tasks, maintaining high alignment quality and preserving advanced language abilities. Moreover, SynthVLM surpasses traditional GPT-4 Vision-based caption generation methods in performance while significantly reducing computational overhead. Crucially, our method's reliance on purely generated data ensures the preservation of privacy, achieving SoTA performance with just 100k data points (only 18% of the official dataset size).
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# フォノンレーザーにおける放射線幅の非単調依存性

Non-monotonic dependence of the radiation linewidth in a phonon laser ( http://arxiv.org/abs/2407.20757v1 )

ライセンス: Link先を確認
A. R. Mukhamedyanov, E. S. Andrianov, A. A. Zyablovsky, (参考訳) フォノンレーザーは、ギガヘルツ周波数でコヒーレント音波を発生させる重要な装置である。 本稿では, フォノンレーザーにおいて, 放射線幅が単調に励起されることを実証する。 これは、スペクトルが雑音振幅に依存する2種類の解が存在するためである。 第1の解はゼロ解であり、生成しきい値の前に安定であり、非退化である。 第2の解は、生成しきい値よりも安定で、位相に関して退化する非ゼロ解である。 零解のスペクトルにおけるピークの線幅はノイズ振幅に依存しない。 一方、非ゼロ溶液のスペクトルにおけるピークの線幅は、ノイズ振幅の増加とともに増加する。 ノイズ振幅は温度とともに増加し、その結果、ゼロ溶液から非ゼロ溶液への遷移が放射線幅の増加につながる温度が生じる。 この場合、放射線幅は単調に励起に依存する。

A phonon laser is an important device that can generate coherent sound waves at gigahertz frequency. In this paper, we demonstrate that in a phonon laser, the radiation line width can depend on the pumping non-monotonically. This is because there are two different types of solutions whose spectra depend differently on the noise amplitude. The first solution is a zero solution, which is stable before the generation threshold and is nondegenerate. The second solution is a nonzero solution that is stable above the generation threshold and is degenerate with respect to the phase. The line width of peaks in the spectrum of the zero solution does not depend on the noise amplitude. While, the line width of the peak in the spectrum of the nonzero solution increases with increasing noise amplitude. The noise amplitude increases with temperature, and, as a result, there is a temperature above which the transition from the zero solution to the nonzero solution leads to an increase in the radiation line width. In this case, the radiation line width non-monotonically depends on the pumping.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# 積層エルミート系のロバスト$\mathbb{Z}_2$位相相の起源:非エルミートレベル反発

Origin of Robust $\mathbb{Z}_2$ Topological Phases in Stacked Hermitian Systems: Non-Hermitian Level Repulsion ( http://arxiv.org/abs/2407.20759v1 )

ライセンス: Link先を確認
Zhiyu Jiang, Masatoshi Sato, Hideaki Obuse, (参考訳) 非自明な$\mathbb{Z}_2$位相を持つ量子スピンホール絶縁体は、20年間大きな注目を集めてきた。 一般に、量子スピンホール絶縁体の偶数の層が積み重なると、$\mathbb{Z}_2$位相相は$\mathbb{Z}_2$自然により不安定になると考えられている。 いくつかの研究者は不安定性の反例を報告しているが、体系的な理解はない。 この研究において、$\mathbb{Z}_2$ 位相位相位相は、対応する非エルミート系におけるレベル反発の観点から、追加のカイラル対称性を持つならば、積み重ねに対して堅牢であることを示す。 これを、$\mathbb{Z}_2$ の 1 次元クラス DIII 超伝導体を AII$^\dagger$ の対応する非エルミート系に $\mathbb{Z}_2$ の点ギャップ位相を写像することによって示す。

Quantum spin Hall insulators, which possess a non-trivial $\mathbb{Z}_2$ topological phase, have attracted great attention for two decades. It is generally believed that when an even number of layers of the quantum spin Hall insulators are stacked, the $\mathbb{Z}_2$ topological phase becomes unstable due to $\mathbb{Z}_2$ nature. While several researchers report counterexamples of the instability, there is no systematic understanding. In this work, we show that the $\mathbb{Z}_2$ topological phase is robust against the stacking if it has an additional chiral symmetry, in terms of the level repulsion in the corresponding non-Hermitian system. We demonstrate this by mapping a one-dimensional class DIII superconductor with $\mathbb{Z}_2$ topology to the corresponding non-Hermitian system in AII$^\dagger$ with $\mathbb{Z}_2$ point-gap topology.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# OmniBal:Omniverse Computation Balanceによる視覚言語モデルの高速インストラクションチューニングに向けて

OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance ( http://arxiv.org/abs/2407.20761v1 )

ライセンス: Link先を確認
Yongqiang Yao, Jingru Tan, Jiahao Hu, Feizhao Zhang, Xin Jin, Bo Li, Ruihao Gong, Pengfei Liu, (参考訳) 近年,視覚言語によるインストラクションチューニングモデルは,より包括的な世界理解のために大きな進歩を遂げている。 本研究では,これらのモデルに対する大規模3次元並列トレーニングにより,異なるデバイス間での計算負荷が不均衡となることを発見した。 データ分散とモデルアーキテクチャは大きく異なり、分散トレーニングの効率に影響を及ぼす。 私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせ、デバイス間でよりバランスの取れた計算を実現しました。 これら3つのコンポーネントは独立してはいないが、密接に結びついており、一対一のバランスの取れたトレーニングフレームワークを形成している。 具体的には、データに対して、インスタンスをデバイス内およびデバイス間のバランスのとれた新しいミニバッチにグループ化しました。 このモデルでは,よりバランスの取れたパーティショニングを実現するために,探索に基づく手法を用いた。 メモリ最適化のために、各パーティションに対する再計算戦略を適応的に調整し、利用可能なメモリを完全に活用した。 提案手法の有効性を検証するため, 広範囲な実験を行った。 InternVL-Chatのオープンソーストレーニングコードと比較して、GPUの日数は大幅に減少し、約1.8倍のスピードアップを実現しました。 提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。 コードはhttps://github.com/ModelTC/OmniBal.comでリリースされる。

Recently, vision-language instruct-tuning models have made significant progress due to their more comprehensive understanding of the world. In this work, we discovered that large-scale 3D parallel training on those models leads to an imbalanced computation load across different devices. The vision and language parts are inherently heterogeneous: their data distribution and model architecture differ significantly, which affects distributed training efficiency. We rebalanced the computational loads from data, model, and memory perspectives to address this issue, achieving more balanced computation across devices. These three components are not independent but are closely connected, forming an omniverse balanced training framework. Specifically, for the data, we grouped instances into new balanced mini-batches within and across devices. For the model, we employed a search-based method to achieve a more balanced partitioning. For memory optimization, we adaptively adjusted the re-computation strategy for each partition to utilize the available memory fully. We conducted extensive experiments to validate the effectiveness of our method. Compared with the open-source training code of InternVL-Chat, we significantly reduced GPU days, achieving about 1.8x speed-up. Our method's efficacy and generalizability were further demonstrated across various models and datasets. Codes will be released at https://github.com/ModelTC/OmniBal.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# 周期駆動量子系の予熱相における創発対称性

Emergent symmetries in prethermal phases of periodically driven quantum systems ( http://arxiv.org/abs/2407.20764v1 )

ライセンス: Link先を確認
Tista Banerjee, K. Sengupta, (参考訳) 周期的に駆動される閉じた量子系は、最終的に円形直交アンサンブル(COE)によって記述された定常状態に達する無限温度まで加熱されることが期待されている。 しかし、そのような有限駆動系は十分に長い予熱状態を示す可能性があり、これらの状態における性質は、その無限温度定常状態のものと質的に異なる。 それらは動的局在と凍結を示し、フロケの傷跡、ヒルベルト空間の断片化の兆候を示し、時間結晶相を示す。 このような現象には、平衡系に類似性を持たない創発的な近似力学対称性が伴うことが多い。 本稿では、これらの対称性の起源と性質について教育学的に紹介し、周期的に駆動される閉量子系のクラスにおける予熱相の形成におけるそれらの役割について論じる。

Periodically driven closed quantum systems are expected to eventually heat up to infinite temperature reaching a steady state described by a circular orthogonal ensemble (COE). However, such finite driven systems may exhibit sufficiently long prethermal regimes; their properties in these regimes are qualitatively different from that in their infinite temperature steady states. These, often experimentally relevant, prethermal regimes host a wide range of phenomena; they may exhibit dynamical localization and freezing, host Floquet scars, display signatures of Hilbert space fragmentation, and exhibit time crystalline phases. Such phenomena are often accompanied by emergent approximate dynamical symmetries which have no analogue in equilibrium systems. In this review, we provide a pedagogical introduction to the origin and nature of these symmetries and discuss their role in shaping the prethermal phases of a class of periodically driven closed quantum systems.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# フルピクセル被覆サンプリングとトレーニング戦略を用いた高能率ノンレファレンス4Kビデオ品質評価

Highly Efficient No-reference 4K Video Quality Assessment with Full-Pixel Covering Sampling and Training Strategy ( http://arxiv.org/abs/2407.20766v1 )

ライセンス: Link先を確認
Xiaoheng Tan, Jiabin Zhang, Yuhui Quan, Jing Li, Yajing Wu, Zilin Bian, (参考訳) ディープビデオ品質評価(VQA)手法は、優れた高性能機能を示している。 特に、ノン参照(NR)VQA法は、参照ビデオの取得が制限されるか、実現不可能な状況において重要な役割を果たす。 しかし、視聴者の体験を豊かにする超高精細な定義(例:4K)でより多くのストリーミングビデオが作成されているため、現在の深いVQA手法は許容できない計算コストに直面している。 さらに、これらの手法で使用されるリサイズ、収穫、局所サンプリング技術は、オリジナル4Kビデオの細部と内容に悪影響を及ぼし、品質評価に悪影響を及ぼす可能性がある。 本稿では,高効率かつ斬新なNR 4K VQA技術を提案する。 具体的には、まず、過度な解像度の問題に取り組むために、新しいデータサンプリングとトレーニング戦略を提案する。 この戦略により、VQA Swin Transformerベースのモデルでは、コンテンツや詳細を妥協することなく、標準のコンシューマグレードのGPU上で4Kビデオの全データを効果的にトレーニングし、推論することができる。 第2に、4Kフレーム内の各サブリージョンが全体知覚に与える影響を考慮し、人間の主観的知覚モードを模倣する重み付けとスコアリング手法を開発した。 第3に、ビデオフレームの周波数領域情報を組み込んで、映像品質に影響を与える詳細をよりよく捉え、その結果、モデルの一般化性をさらに向上させる。 我々の知る限りでは、NR 4K VQAタスクのための最初の技術である。 徹底的な実証研究により、特定の4K VQAデータセット上で既存のメソッドを著しく上回るだけでなく、複数のオープンソースNRビデオ品質データセットで最先端のパフォーマンスを達成できることが示された。

Deep Video Quality Assessment (VQA) methods have shown impressive high-performance capabilities. Notably, no-reference (NR) VQA methods play a vital role in situations where obtaining reference videos is restricted or not feasible. Nevertheless, as more streaming videos are being created in ultra-high definition (e.g., 4K) to enrich viewers' experiences, the current deep VQA methods face unacceptable computational costs. Furthermore, the resizing, cropping, and local sampling techniques employed in these methods can compromise the details and content of original 4K videos, thereby negatively impacting quality assessment. In this paper, we propose a highly efficient and novel NR 4K VQA technology. Specifically, first, a novel data sampling and training strategy is proposed to tackle the problem of excessive resolution. This strategy allows the VQA Swin Transformer-based model to effectively train and make inferences using the full data of 4K videos on standard consumer-grade GPUs without compromising content or details. Second, a weighting and scoring scheme is developed to mimic the human subjective perception mode, which is achieved by considering the distinct impact of each sub-region within a 4K frame on the overall perception. Third, we incorporate the frequency domain information of video frames to better capture the details that affect video quality, consequently further improving the model's generalizability. To our knowledge, this is the first technology for the NR 4K VQA task. Thorough empirical studies demonstrate it not only significantly outperforms existing methods on a specialized 4K VQA dataset but also achieves state-of-the-art performance across multiple open-source NR video quality datasets.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# HyperMM : 可変サイズの入力を用いたロバストなマルチモーダル学習

HyperMM : Robust Multimodal Learning with Varying-sized Inputs ( http://arxiv.org/abs/2407.20768v1 )

ライセンス: Link先を確認
Hava Chaptoukaev, Vincenzo Marcianó, Francesco Galati, Maria A. Zuluaga, (参考訳) マルチモーダルラーニング(MML)による相補的な情報を運ぶ複数のモダリティを組み合わせることで,複数の病態の診断に有意なメリットが示された。 しかし、マルチモーダルモデルのモダリティの欠如に対する堅牢性はしばしば見過ごされる。 ほとんどの研究は入力データにモダリティ完全性(modality completeness)を仮定するが、臨床実践では不完全なモダリティを持つことが一般的である。 この問題に対処する既存のソリューションは、教師付き学習モデルを使用する前に、モダリティ計算戦略に依存している。 しかし、これらの戦略は複雑で計算コストがかかり、その後の予測モデルに強い影響を与える可能性がある。 したがって、医療などのセンシティブな応用において、パシモニーで使用するべきである。 様々なサイズの入力で学習するためのエンドツーエンドフレームワークであるHyperMMを提案する。 具体的には、トレーニング前にインパルスを使わずに、画像のモダリティを欠く教師付きMMLの課題に焦点をあてる。 本稿では,条件付きハイパーネットワークを用いた普遍的特徴抽出器のトレーニング手法を提案するとともに,異なる次元の入力を処理し,抽出した特徴を2段階のタスク非依存のフレームワークで処理できる置換不変ニューラルネットワークを提案する。 アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。 当社の戦略は、欠落したデータの高いレートに対して堅牢であり、その柔軟性によって、欠落したモダリティのシナリオを超えて、さまざまなサイズのデータセットを処理できることを実証しています。

Combining multiple modalities carrying complementary information through multimodal learning (MML) has shown considerable benefits for diagnosing multiple pathologies. However, the robustness of multimodal models to missing modalities is often overlooked. Most works assume modality completeness in the input data, while in clinical practice, it is common to have incomplete modalities. Existing solutions that address this issue rely on modality imputation strategies before using supervised learning models. These strategies, however, are complex, computationally costly and can strongly impact subsequent prediction models. Hence, they should be used with parsimony in sensitive applications such as healthcare. We propose HyperMM, an end-to-end framework designed for learning with varying-sized inputs. Specifically, we focus on the task of supervised MML with missing imaging modalities without using imputation before training. We introduce a novel strategy for training a universal feature extractor using a conditional hypernetwork, and propose a permutation-invariant neural network that can handle inputs of varying dimensions to process the extracted features, in a two-phase task-agnostic framework. We experimentally demonstrate the advantages of our method in two tasks: Alzheimer's disease detection and breast cancer classification. We demonstrate that our strategy is robust to high rates of missing data and that its flexibility allows it to handle varying-sized datasets beyond the scenario of missing modalities.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# 心的時系列データのための解釈可能な事前学習変換器

Interpretable Pre-Trained Transformers for Heart Time-Series Data ( http://arxiv.org/abs/2407.20775v1 )

ライセンス: Link先を確認
Harry J. Davies, James Monsen, Danilo P. Mandic, (参考訳) デコーダのみのトランス (Decoder-only transformer) は、大規模言語モデルの一般的な生成事前学習トランス (GPT) シリーズのバックボーンである。 本研究では、周期的心拍データに同じ枠組みを適用し、PTG-PTとECG-PTの2つのトレーニング済み汎用心臓モデルを作成する。 このような事前学習されたモデルが完全に解釈可能であることを実証する。 これはまずアグリゲーション・アテンション・マップ(英語版)を用いて達成され、このモデルが予測を行い、より深い層で徐々に注意を拡げるために、過去の心循環の類似点に焦点を当てていることを示す。 次に、同じ値のトークンは、ECG と PPG のサイクルの異なる点で発生し、変圧器ブロックを伝播するにつれて、その位相に基づいて高次元空間の別個のクラスタを形成する。 最後に, PPGのジクロティックノッチや心電図のP波など, 個々の注意が生理的変化に反応することを明らかにする。 また, 心房細動の分類などのタスクにおいて, これらの事前訓練モデルを簡単に微調整できることが実証された。 この具体例では、微調整はコンピュータ時間11分を要し、それぞれECGとPSGで0.99と0.93の単射AUCを達成した。 重要なことに、これらの微調整モデルも完全に説明可能であり、心房細動を強く示唆する文脈の領域に注意が移る。

Decoder-only transformers are the backbone of the popular generative pre-trained transformer (GPT) series of large language models. In this work, we apply the same framework to periodic heart time-series data to create two pre-trained general purpose cardiac models, namely PPG-PT and ECG-PT. We demonstrate that both such pre-trained models are fully interpretable. This is achieved firstly through aggregate attention maps which show that the model focuses on similar points in previous cardiac cycles in order to make predictions and gradually broadens its attention in deeper layers. Next, tokens with the same value, that occur at different distinct points in the ECG and PPG cycle, form separate clusters in high dimensional space based on their phase as they propagate through the transformer blocks. Finally, we highlight that individual attention heads respond to specific physiologically relevent features, such as the dicrotic notch in PPG and the P-wave in ECG. It is also demonstrated that these pre-trained models can be easily fine-tuned for tasks such as classification of atrial fibrillation. In this specific example, the fine-tuning took 11 minutes of computer time, and achieved a leave-one-subject-out AUCs of 0.99 and 0.93 for ECG and PPG respectively. Importantly, these fine-tuned models are also fully explainable, with attention shifting to regions in the context that are strongly indicative of atrial fibrillation.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# キャパシタン化車両ルーティング問題の解決のための特徴ベースガイダンスと多様性管理によるメタヒューリスティックな拡張

Metaheuristic Enhanced with Feature-Based Guidance and Diversity Management for Solving the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2407.20777v1 )

ライセンス: Link先を確認
Bachtiar Herdianto, Romain Billot, Flavien Lucas, Marc Sevaux, (参考訳) 本稿では,CVRP(Capacitated Vehicle Routing Problem)の解法として,機能に基づくガイダンスを付加したメタヒューリスティックアルゴリズムを提案する。 提案手法を定式化するために,最適化プロセス中に解の多様性を定式化し,制御するために使用される教師付き機械学習(ML)モデルを開発した。 本稿では,近隣探索とハイブリッドスプリットと経路リリンクの機構を組み合わせたメタヒューリスティックアルゴリズムを提案する。 提案手法はCVRPを解く際のメタヒューリスティックアルゴリズムに統計的に有意な改善をもたらすことが証明されている。 さらに,提案したメタヒューリスティックは,最先端メタヒューリスティックアルゴリズム間の競合解を生成可能である。

We propose a metaheuristic algorithm enhanced with feature-based guidance that is designed to solve the Capacitated Vehicle Routing Problem (CVRP). To formulate the proposed guidance, we developed and explained a supervised Machine Learning (ML) model, that is used to formulate the guidance and control the diversity of the solution during the optimization process. We propose a metaheuristic algorithm combining neighborhood search and a novel mechanism of hybrid split and path relinking to implement the proposed guidance. The proposed guidance has proven to give a statistically significant improvement to the proposed metaheuristic algorithm when solving CVRP. Moreover, the proposed guided metaheuristic is also capable of producing competitive solutions among state-of-the-art metaheuristic algorithms.
翻訳日:2024-07-31 17:19:48 公開日:2024-07-30
# ハイパーパラメータ最適化によるオーバーフィッティングに注意してください。

Be aware of overfitting by hyperparameter optimization! ( http://arxiv.org/abs/2407.20786v1 )

ライセンス: Link先を確認
Igor V. Tetko, Ruud van Deursen, Guillaume Godin, (参考訳) ハイパーパラメータ最適化は機械学習によく用いられる。 しかし、パラメータの広い空間の最適化は、モデルの過度な適合をもたらす可能性がある。 溶解度予測に関する最近の研究で、著者らは異なるデータソースから7つの熱力学および運動溶解度データセットを収集した。 彼らは最先端のグラフベースの手法を使用して、異なるデータクリーニングプロトコルとハイパーパラメータ最適化を使用して、データセット毎に開発されたモデルを比較した。 本研究は,高パラメータ最適化が必ずしも良いモデルをもたらすとは限らないことを示し,おそらく同じ統計測度を用いた場合の過度な適合が原因と考えられる。 同様の結果は、プリセットされたハイパーパラメータを使って計算することができ、計算の労力を約10,000倍削減できる。 我々はまた、トランスフォーマーCNNと呼ばれる笑顔の自然言語処理に基づく表現学習手法を追加することで、過去の分析を拡張した。 この結果から,Transformer CNNはグラフベースの手法よりも,28のペアワイド比較において,ごくわずかな時間しか使用せず,より優れた結果が得られることがわかった。 最後に、全く同じ統計測度を用いて計算結果を比較することの重要性を強調した。

Hyperparameter optimization is very frequently employed in machine learning. However, an optimization of a large space of parameters could result in overfitting of models. In recent studies on solubility prediction the authors collected seven thermodynamic and kinetic solubility datasets from different data sources. They used state-of-the-art graph-based methods and compared models developed for each dataset using different data cleaning protocols and hyperparameter optimization. In our study we showed that hyperparameter optimization did not always result in better models, possibly due to overfitting when using the same statistical measures. Similar results could be calculated using pre-set hyperparameters, reducing the computational effort by around 10,000 times. We also extended the previous analysis by adding a representation learning method based on Natural Language Processing of smiles called Transformer CNN. We show that across all analyzed sets using exactly the same protocol, Transformer CNN provided better results than graph-based methods for 26 out of 28 pairwise comparisons by using only a tiny fraction of time as compared to other methods. Last but not least we stressed the importance of comparing calculation results using exactly the same statistical measures.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# 入門科目におけるプログラミング演習の解法における初心者プログラマの活用と経験

How Novice Programmers Use and Experience ChatGPT when Solving Programming Exercises in an Introductory Course ( http://arxiv.org/abs/2407.20792v1 )

ライセンス: Link先を確認
Andreas Scholl, Natalie Kiesler, (参考訳) 本研究は,計算機教育研究コミュニティにおいて,導入プログラミングの文脈における生成AI(GenAI)の理解,特にChatGPTなどの関連ツールの活用に寄与する。 教育者や高等教育機関の学生利用に対する理解の高まりは、GenAIが現在滞在中であるため必須であり、そのパフォーマンスは近い将来急速に向上する可能性が高い。 学生の利用パターンの学習は、学習を支援するだけでなく、適切な指導と評価の形式を開発するためにも不可欠である。 AIの急速な進歩、その広範な可用性、そして教育環境におけるユビキタスな存在により、AIが学習経験をいかに向上させるかを、特に入門プログラミングのようなコースで解明することが重要である。 これまで、ほとんどの研究は、GenAIに対する教育者の視点、その性能、特徴、限界に焦点を当ててきた。 しかし、学生の視点、そしてそれらが実際にどのようにGenAIツールを使うかは、多くの研究の対象にはなっていない。 そこで,本研究では,(1)初等プログラミング演習におけるChatGPTの使用パターンについて,学生はどのような報告をしているのか? 学習者はChatGPTを初等プログラミング演習の文脈でどう感じているか? これらの問題に対処するため、ドイツの大大学のコンピュータ学生は、ChatGPTの助けを借りてプログラミングの課題を解決するよう求められた。 学生 (n=298) はChatGPTの使用に関する情報を提供し, オンライン調査による評価を行った。 この研究は、初心者プログラマによるChatGPT-3.5の適用を、高等教育の文脈において包括的に評価するものである。

This research paper contributes to the computing education research community's understanding of Generative AI (GenAI) in the context of introductory programming, and specifically, how students utilize related tools, such as ChatGPT. An increased understanding of students' use is mandatory for educators and higher education institutions, as GenAI is here to stay, and its performance is likely to improve rapidly in the near future. Learning about students' use patterns is not only crucial to support their learning, but to develop adequate forms of instruction and assessment. With the rapid advancement of AI, its broad availability, and ubiquitous presence in educational environments, elaborating how AI can enhance learning experiences, especially in courses such as introductory programming is important. To date, most studies have focused on the educator's perspective on GenAI, its performance, characteristics, and limitations. However, the student perspective, and how they actually use GenAI tools in course contexts, has not been subject to a great number of studies. Therefore, this study is guided by the following research questions: (1) What do students report on their use pattern of ChatGPT in the context of introductory programming exercises? and (2) How do students perceive ChatGPT in the context of introductory programming exercises? To address these questions, computing students at a large German university were asked to solve programming tasks with the assistance of ChatGPT as part of their introductory programming course. Students (n=298) provided information regarding the use of ChatGPT, and their evaluation of the tool via an online survey. This research provides a comprehensive evaluation of ChatGPT-3.5's application by novice programmers in a higher education context...
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# Diffusion Augmented Agents: 効率的な探索と伝達学習のためのフレームワーク

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning ( http://arxiv.org/abs/2407.20798v1 )

ライセンス: Link先を確認
Norman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan, (参考訳) 本研究では,大規模言語モデル,視覚言語モデル,拡散モデルを活用する新しいフレームワークであるDiffusion Augmented Agents (DAAG)を導入し,実演エージェントの強化学習におけるサンプル効率の向上と伝達学習について述べる。 DAAGは、拡散モデルを用いて映像を時間的に、幾何学的に一貫した方法で変換することで、エージェントの過去の体験を、我々がHindsight Experience Augmentationと呼ぶ手法で再現する。 大きな言語モデルは、人間の監督を必要とせずに、この自律的なプロセスを編成し、生涯にわたる学習シナリオに適しています。 このフレームワークは、報酬ラベル付きデータの量を減らす。 1)報酬検出器として機能する視覚言語モデルを微調整し、 2)新しいタスクでRLエージェントを訓練する。 操作とナビゲーションを含む模擬ロボット環境におけるDAAGのサンプル効率向上を実演する。 以上の結果から,DAAGは報酬検知器の学習,過去の経験の伝達,新たなタスクの獲得を改善できることが示唆された。 追加の資料と視覚化は、我々のWebサイトhttps://sites.google.com/view/diffusion-augmented-agents/で利用可能である。

We introduce Diffusion Augmented Agents (DAAG), a novel framework that leverages large language models, vision language models, and diffusion models to improve sample efficiency and transfer learning in reinforcement learning for embodied agents. DAAG hindsight relabels the agent's past experience by using diffusion models to transform videos in a temporally and geometrically consistent way to align with target instructions with a technique we call Hindsight Experience Augmentation. A large language model orchestrates this autonomous process without requiring human supervision, making it well-suited for lifelong learning scenarios. The framework reduces the amount of reward-labeled data needed to 1) finetune a vision language model that acts as a reward detector, and 2) train RL agents on new tasks. We demonstrate the sample efficiency gains of DAAG in simulated robotics environments involving manipulation and navigation. Our results show that DAAG improves learning of reward detectors, transferring past experience, and acquiring new tasks - key abilities for developing efficient lifelong learning agents. Supplementary material and visualizations are available on our website https://sites.google.com/view/diffusion-augmented-agents/
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# SpotFormer: 表情スポッティングのためのマルチスケール時空間変換器

SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting ( http://arxiv.org/abs/2407.20799v1 )

ライセンス: Link先を確認
Yicheng Deng, Hideaki Hayashi, Hajime Nagahara, (参考訳) 顔表情スポッティング(英: Facial expression spotting)は、顔表情分析において重要な課題である。 無関係な顔の動きと微小表現における微妙な動きを検出するという課題は未解決のままであり、正確な表情スポッティングを妨げている。 本稿では,表情スポッティングのための効率的なフレームワークを提案する。 まず,スライディングウインドウを用いたマルチリゾリューションオプティカルフロー(SW-MRO)機能を提案し,コンパクトなスライディングウインドウ内における入力画像列のマルチレゾリューションオプティカルフローを算出する。 ウィンドウ長は、完全なマイクロ表現を知覚し、一般的なマクロ表現とマイクロ表現を区別するために調整される。 SW-MROは、重度の頭の動きの問題を避けながら、効果的に微妙な動きを明らかにすることができる。 第2に,SW-MRO特徴量の時空間的関係を同時に符号化して,フレームレベルの推定を行うマルチスケール時空間変換器であるSpotFormerを提案する。 SpotFormerでは,提案するFalcial Local Graph Pooling (FLGP) と畳み込み層をマルチスケールの時空間特徴抽出に適用した。 本研究では,SpotFormer のアーキテクチャの有効性を,いくつかのモデル変種との比較により示す。 第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。 SAMM-LVおよびCAS(ME)^2の大規模実験により,本手法は特にマイクロ圧縮スポッティングにおいて,最先端モデルよりも優れた性能を示した。

Facial expression spotting, identifying periods where facial expressions occur in a video, is a significant yet challenging task in facial expression analysis. The issues of irrelevant facial movements and the challenge of detecting subtle motions in micro-expressions remain unresolved, hindering accurate expression spotting. In this paper, we propose an efficient framework for facial expression spotting. First, we propose a Sliding Window-based Multi-Resolution Optical flow (SW-MRO) feature, which calculates multi-resolution optical flow of the input image sequence within compact sliding windows. The window length is tailored to perceive complete micro-expressions and distinguish between general macro- and micro-expressions. SW-MRO can effectively reveal subtle motions while avoiding severe head movement problems. Second, we propose SpotFormer, a multi-scale spatio-temporal Transformer that simultaneously encodes spatio-temporal relationships of the SW-MRO features for accurate frame-level probability estimation. In SpotFormer, our proposed Facial Local Graph Pooling (FLGP) and convolutional layers are applied for multi-scale spatio-temporal feature extraction. We show the validity of the architecture of SpotFormer by comparing it with several model variants. Third, we introduce supervised contrastive learning into SpotFormer to enhance the discriminability between different types of expressions. Extensive experiments on SAMM-LV and CAS(ME)^2 show that our method outperforms state-of-the-art models, particularly in micro-expression spotting.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# AhmedML:非圧縮・低速Bluff体空力のための高忠実計算流体力学データセット

AhmedML: High-Fidelity Computational Fluid Dynamics Dataset for Incompressible, Low-Speed Bluff Body Aerodynamics ( http://arxiv.org/abs/2407.20801v1 )

ライセンス: Link先を確認
Neil Ashton, Danielle C. Maddix, Samuel Gundry, Parisa M. Shabestari, (参考訳) 計算流体力学(CFD)のための機械学習(ML)手法の開発は、現在、公開されているトレーニングデータの不足により制限されている。 本稿では,Ahmed Car Body(Ahmed Car Body,Ahmed Car Body)の500の幾何変種を高忠実でスケール分解可能なCFDシミュレーションにより構築した新しいオープンソースデータセットについて述べる。 このデータセットには3次元渦構造だけでなく、幾何学や圧力誘起流の分離といった、幅広い基本的な流れの物理セットを示すシミュレーション結果が含まれている。 Ahmed車体の各バリエーションは、オープンソースのCFDコードOpenFOAMを用いて、高忠実で時間精度、ハイブリッドなReynolds-Averaged Navier-Stokes (RANS) - Large-Eddy Simulation (LES) 乱流モデリング手法を用いて実行された。 データセットにはバウンダリ、ボリューム、ジオメトリ、そして広く使用されているオープンソースフォーマットにおける平均的な力/モーメントが含まれている。 さらに、他の人がデータセットを再生または拡張できるようにOpenFOAMケース設定が提供される。 これは、広く使われているAhmed車体に高忠実なCFDメソッドを使用した最初のオープンソースの大規模データセットであり、パーミッシブ・ライセンス(CC-BY-SA)で自由にダウンロードできる。

The development of Machine Learning (ML) methods for Computational Fluid Dynamics (CFD) is currently limited by the lack of openly available training data. This paper presents a new open-source dataset comprising of high fidelity, scale-resolving CFD simulations of 500 geometric variations of the Ahmed Car Body - a simplified car-like shape that exhibits many of the flow topologies that are present on bluff bodies such as road vehicles. The dataset contains simulation results that exhibit a broad set of fundamental flow physics such as geometry and pressure-induced flow separation as well as 3D vortical structures. Each variation of the Ahmed car body were run using a high-fidelity, time-accurate, hybrid Reynolds-Averaged Navier-Stokes (RANS) - Large-Eddy Simulation (LES) turbulence modelling approach using the open-source CFD code OpenFOAM. The dataset contains boundary, volume, geometry, and time-averaged forces/moments in widely used open-source formats. In addition, the OpenFOAM case setup is provided so that others can reproduce or extend the dataset. This represents to the authors knowledge, the first open-source large-scale dataset using high-fidelity CFD methods for the widely used Ahmed car body that is available to freely download with a permissive license (CC-BY-SA).
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# ARCLE:強化学習のためのコーパス学習環境の抽象化と推論

ARCLE: The Abstraction and Reasoning Corpus Learning Environment for Reinforcement Learning ( http://arxiv.org/abs/2407.20806v1 )

ライセンス: Link先を確認
Hosung Lee, Sejin Kim, Seungpil Lee, Sanha Hwang, Jihwan Lee, Byung-Jun Lee, Sundong Kim, (参考訳) 本稿では,ARC(Abstraction and Reasoning Corpus)の強化学習を支援する環境であるARCLEを紹介する。 強化学習によるこの帰納的推論ベンチマークに対処することで、巨大なアクションスペース、難解な目標、さまざまなタスクといった課題が浮かび上がっています。 我々は、近ポリシー最適化エージェントがARCLEを通して個別のタスクを学習できることを実証する。 非生産的政策の導入と補助的な損失はパフォーマンスの向上につながり、アクションスペースや目標達成に関わる問題を効果的に軽減した。 これらの知見に基づいて,MAML,GFlowNets,World Modelsなど,ARCLEを使用するためのいくつかの研究方向とモチベーションを提案する。

This paper introduces ARCLE, an environment designed to facilitate reinforcement learning research on the Abstraction and Reasoning Corpus (ARC). Addressing this inductive reasoning benchmark with reinforcement learning presents these challenges: a vast action space, a hard-to-reach goal, and a variety of tasks. We demonstrate that an agent with proximal policy optimization can learn individual tasks through ARCLE. The adoption of non-factorial policies and auxiliary losses led to performance enhancements, effectively mitigating issues associated with action spaces and goal attainment. Based on these insights, we propose several research directions and motivations for using ARCLE, including MAML, GFlowNets, and World Models.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# Cloud-Model-Improved Transformerに基づく電力ネットワーククラスタのロバスト負荷予測

Robust Load Prediction of Power Network Clusters Based on Cloud-Model-Improved Transformer ( http://arxiv.org/abs/2407.20817v1 )

ライセンス: Link先を確認
Cheng Jiang, Gang Lu, Xue Ma, Di Wu, (参考訳) 電力ネットワーククラスタからの負荷データは、地域動向を予測し、企業決定を導く上で不可欠な、各地域の経済発展を示す。 負荷予測の主要な方法であるTransformerモデルは、天気、イベント、フェスティバル、データのボラティリティといった変数による履歴データモデリングの課題に直面している。 これを解決するために、クラウドモデルのファジィ機能を使用して不確実性を効果的に管理する。 革新的なアプローチとして、Cloud Model Improved Transformer (CMIT)法は、堅牢で正確な電力負荷予測を実現することを目的として、Transformerモデルとパーティクルスウォーム最適化アルゴリズムを利用したクラウドモデルを統合する。 電力ネットワーククラスタ内の31の実データセットを対象とした比較実験により、CMITは予測精度においてトランスフォーマーモデルを大幅に上回り、電力ネットワーククラスタセクタ内の予測能力を向上する効果を浮き彫りにした。

Load data from power network clusters indicates economic development in each area, crucial for predicting regional trends and guiding power enterprise decisions. The Transformer model, a leading method for load prediction, faces challenges modeling historical data due to variables like weather, events, festivals, and data volatility. To tackle this, the cloud model's fuzzy feature is utilized to manage uncertainties effectively. Presenting an innovative approach, the Cloud Model Improved Transformer (CMIT) method integrates the Transformer model with the cloud model utilizing the particle swarm optimization algorithm, with the aim of achieving robust and precise power load predictions. Through comparative experiments conducted on 31 real datasets within a power network cluster, it is demonstrated that CMIT significantly surpasses the Transformer model in terms of prediction accuracy, thereby highlighting its effectiveness in enhancing forecasting capabilities within the power network cluster sector.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# WARM-3D:道路側モノクロ3次元物体検出のための弱改良型Sim2Real領域適応フレームワーク

WARM-3D: A Weakly-Supervised Sim2Real Domain Adaptation Framework for Roadside Monocular 3D Object Detection ( http://arxiv.org/abs/2407.20818v1 )

ライセンス: Link先を確認
Xingcheng Zhou, Deyu Fu, Walter Zimmer, Mingyu Liu, Venkatnarayanan Lakshminarasimhan, Leah Strand, Alois C. Knoll, (参考訳) 既存の道路側の認識システムは、公開され、大規模で高品質な3Dデータセットが存在しないために制限されている。 コスト効率のよい大規模な合成データセットの使用を探索することで、この課題に対処し、道路側モノクロ3D検出の性能を高めるための実行可能なソリューションを提供する。 本研究では,TUMTraf Synthetic Datasetを導入し,希少な実世界のデータセットを増大させるために,多種多様な高品質な3Dデータのコレクションを提供する。 さらに、道路側モノクロ3D検出のためのSim2Realドメイン転送を支援するための簡潔で効果的なフレームワークであるWARM-3Dを提案する。 本手法は、市販の2D検出器から安価な合成データセットと2Dラベルを利用して、弱い監視を行う。 We show that WARM-3D has significantly enhance performance, to achieve a +12.40% increase of mAP 3D over the baseline with only pseudo-2D supervision。 2D GTを弱いラベルとして、WARM-3DはOracleのベースラインに近いパフォーマンスにまで達する。 さらに、WARM-3Dは実世界の様々な環境にまたがってサンプル認識を行う3D検出器の能力を向上し、実用的な応用の可能性を強調している。

Existing roadside perception systems are limited by the absence of publicly available, large-scale, high-quality 3D datasets. Exploring the use of cost-effective, extensive synthetic datasets offers a viable solution to tackle this challenge and enhance the performance of roadside monocular 3D detection. In this study, we introduce the TUMTraf Synthetic Dataset, offering a diverse and substantial collection of high-quality 3D data to augment scarce real-world datasets. Besides, we present WARM-3D, a concise yet effective framework to aid the Sim2Real domain transfer for roadside monocular 3D detection. Our method leverages cheap synthetic datasets and 2D labels from an off-the-shelf 2D detector for weak supervision. We show that WARM-3D significantly enhances performance, achieving a +12.40% increase in mAP 3D over the baseline with only pseudo-2D supervision. With 2D GT as weak labels, WARM-3D even reaches performance close to the Oracle baseline. Moreover, WARM-3D improves the ability of 3D detectors to unseen sample recognition across various real-world environments, highlighting its potential for practical applications.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# 猫クビットの高速ゲート

Fast Gates of Detuned Cat Qubit ( http://arxiv.org/abs/2407.20820v1 )

ライセンス: Link先を確認
A. Schlabes, R. Bhowmick, M. H. Ansari, (参考訳) 猫量子ビットは、高いエラー補正しきい値と低いリソースオーバーヘッドのため、量子計算の有望な候補として浮上している。 既存の文献では、2光子ドライブのデチューニングはシングルおよびマルチキュービットゲートの実装においてゼロであると仮定されている。 また, パラメータマッチングによっても高忠実度単一キュービットゲートが実現可能であることを示す。 また,CNOTゲートを近似デチューニング項の存在下で解析し,その忠実度向上をショートカットからアディバチティ補正により説明する。

Cat qubits have emerged as a promising candidate for quantum computation due to their higher error-correction thresholds and low resource overheads. In existing literature, the detuning of the two-photon drive is assumed to be zero for implementing single and multi-qubit gates. We explore a modification of the Hamiltonian for a range of detuning and demonstrate that high fidelity single qubit gates can be performed even by proper parameter matching. We also analyze the CNOT gate in presence of an approximate detuning term and explain its fidelity improvements through Shortcut to Adiabaticity corrections.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# 決定可能な1次論理のフラグメントに円積を加える:複雑性ローラーコアスター

Adding Circumscription to Decidable Fragments of First-Order Logic: A Complexity Rollercoaster ( http://arxiv.org/abs/2407.20822v1 )

ライセンス: Link先を確認
Carsten Lutz, Quentin Manière, (参考訳) 本研究では、一階述語論理の一階述語論理の表現的決定可能な断片の拡張、特に2変数の断片 FO$^2$, その拡張 C$^2$, そしてガードされたフラグメントGFについて検討する。 単項述語のみを円周的に最小化(あるいは固定化)した場合、論理的帰結の決定性は維持される。 FO$^2$の場合、複雑性は$\textrm{coNexp}$から$\textrm{coNExp}^\textrm{NP}$-completeへ、GFでは$\textrm{2Exp}$から$\textrm{Tower}$-completeへ、そしてC$^2$の場合、複雑さは依然としてオープンである。 また、オントロジーがGF文である囲い込み知識ベースの問合せについても検討し、結合的クエリの和合、$\textrm{Tower}$-completeの複雑さ、データの複雑さの初等的な相違について検討する。 しかし、ガードされた存在ルールの集合であるアトミッククエリやオントロジーはすでに存在するが、$k \geq 0$ごとにオントロジーとクエリがあり、データ複雑性は$k$-$\textrm{Exp}$-hardである。

We study extensions of expressive decidable fragments of first-order logic with circumscription, in particular the two-variable fragment FO$^2$, its extension C$^2$ with counting quantifiers, and the guarded fragment GF. We prove that if only unary predicates are minimized (or fixed) during circumscription, then decidability of logical consequence is preserved. For FO$^2$ the complexity increases from $\textrm{coNexp}$ to $\textrm{coNExp}^\textrm{NP}$-complete, for GF it (remarkably!) increases from $\textrm{2Exp}$ to $\textrm{Tower}$-complete, and for C$^2$ the complexity remains open. We also consider querying circumscribed knowledge bases whose ontology is a GF sentence, showing that the problem is decidable for unions of conjunctive queries, $\textrm{Tower}$-complete in combined complexity, and elementary in data complexity. Already for atomic queries and ontologies that are sets of guarded existential rules, however, for every $k \geq 0$ there is an ontology and query that are $k$-$\textrm{Exp}$-hard in data complexity.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# 量子信号処理が可能な多変量多項式について

On multivariate polynomials achievable with quantum signal processing ( http://arxiv.org/abs/2407.20823v1 )

ライセンス: Link先を確認
Lorenzo Laneve, Stefan Wolf, (参考訳) 量子信号処理(QSP)は、多くの既知の量子アルゴリズムを統一し、単純化し、新しい量子アルゴリズムを発見することが証明されたフレームワークである。 QSPは多項式を用いて与えられたユニタリに埋め込まれた信号を変換することができる。 QSPプロトコルでどの多項式が達成できるかを特徴付けることは、この手法のパワーの重要な部分であり、一変量信号の場合、そのような特徴はよく理解されているが、信号がスカラーではなくベクトルであるときに、どのような多変量多項式を構築することができるかは不明確である。 この研究は、文献で見られるものと若干異なる形式を使い、量子信号処理の文脈で証明された(一般には不均一な)多変量多項式に対して証明された十分条件だけでなく、分解可能性のためのより単純な必要条件を見つけるために使用する。

Quantum signal processing (QSP) is a framework which was proven to unify and simplify a large number of known quantum algorithms, as well as discovering new ones. QSP allows one to transform a signal embedded in a given unitary using polynomials. Characterizing which polynomials can be achieved with QSP protocols is an important part of the power of this technique, and while such a characterization is well-understood in the case of univariate signals, it is unclear which multivariate polynomials can be constructed when the signal is a vector, rather than a scalar. This work uses a slightly different formalism than what is found in the literature, and uses it to find simpler necessary conditions for decomposability, as well as a sufficient condition - the first, to the best of our knowledge, proven for a (generally inhomogeneous) multivariate polynomial in the context of quantum signal processing.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# DyGKT:知識追跡のための動的グラフ学習

DyGKT: Dynamic Graph Learning for Knowledge Tracing ( http://arxiv.org/abs/2407.20824v1 )

ライセンス: Link先を確認
Ke Cheng, Linzhi Peng, Pengyang Wang, Junchen Ye, Leilei Sun, Bowen Du, (参考訳) 知識追跡は、質問に答える際の成績を予測することによって、学生の学習状態を評価することを目的としている。 固定長の学習シーケンスを用いて学生の状態を取得し、KTを静的問題とみなす既存の研究とは異なり、この研究は3つの動的特徴によって動機付けられている。 1) 記録に回答する学生の規模は, 常に増大している。 2) 記録間の時間間隔のセマンティクスは様々である。 3)学生,質問,概念の関係は進展している。 上記の3つの力学特性は、既存の知識追跡手法に革命をもたらす大きな可能性を含んでいる。 この線に沿って,動的グラフに基づく知識追跡モデル,すなわちDyGKTを提案する。 特に、知識追跡のための連続時間動的問合せグラフは、無限に増加する解答行動に対処するために構築されており、この分野では初めて動的グラフ学習技術が使用されることに留意する必要がある。 次に、時間間隔の異なる長期的および短期的な意味をキャプチャするために、二重時間エンコーダを提案する。 最後に、グラフ構造の特徴を通して、学生、質問、概念間の進化する関係をモデル化するために、マルチセットインジケータを利用する。 5つの実世界のデータセットで多数の実験を行い,本モデルの有効性を実証した。 使用中のリソースはすべてhttps://github.com/PengLinzhi/DyGKT.comで公開されている。

Knowledge Tracing aims to assess student learning states by predicting their performance in answering questions. Different from the existing research which utilizes fixed-length learning sequence to obtain the student states and regards KT as a static problem, this work is motivated by three dynamical characteristics: 1) The scales of students answering records are constantly growing; 2) The semantics of time intervals between the records vary; 3) The relationships between students, questions and concepts are evolving. The three dynamical characteristics above contain the great potential to revolutionize the existing knowledge tracing methods. Along this line, we propose a Dynamic Graph-based Knowledge Tracing model, namely DyGKT. In particular, a continuous-time dynamic question-answering graph for knowledge tracing is constructed to deal with the infinitely growing answering behaviors, and it is worth mentioning that it is the first time dynamic graph learning technology is used in this field. Then, a dual time encoder is proposed to capture long-term and short-term semantics among the different time intervals. Finally, a multiset indicator is utilized to model the evolving relationships between students, questions, and concepts via the graph structural feature. Numerous experiments are conducted on five real-world datasets, and the results demonstrate the superiority of our model. All the used resources are publicly available at https://github.com/PengLinzhi/DyGKT.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# 量子状態におけるクラマース・クロニッヒ検出

Kramers-Kronig detection in the quantum regime ( http://arxiv.org/abs/2407.20827v1 )

ライセンス: Link先を確認
Thomas Pousset, Maxime Federico, Romain Alléaume, Nicolas Fabre, (参考訳) 古典的コヒーレント通信のために開発されたクラマース・クロニグ(KK)検出手法の量子化について検討する。 この検出方法は、非平衡ビームスプリッタ上の局所発振器と興味状態の結合と、直接検出およびデジタル信号処理を含む。 スペクトル工学的分野における強度測定は、古典場と量子場の位相の「デジタル測定」を可能にする。 局所発振器の振幅の第1次に対して、KK検出は、二重ホモダイン検出と同様に、電界の2つの四角形を推定できるガウス測度であることを示す。 我々は,KK検出がボソニックコヒーレント状態,純粋な単一モード状態,混合状態の場合にどのように動作するか,およびその位相情報の性質について詳細に検討した。 最後に,KK検出にインスパイアされた単一光子状態に対するスペクトルトモグラフィー手法を提案する。

We investigate the quantization of the Kramers-Kronig (KK) detection technique, initially developed for classical coherent communications. This detection method involves combining the state of interest with a local oscillator on an unbalanced beamsplitter, followed by direct detection and digital signal processing. Intensity measurements in the case of spectrally engineered fields allow for the "digital measurement" of the phase of classical and quantum fields. We show that, to the first order of the local oscillator's amplitude, KK detection is a Gaussian measurement that allows for the estimation of both quadratures of the electric field, similar to double homodyne detection. We study in detail how KK detection operates in the case of bosonic coherent states, pure single-mode and mixed states, as well as the nature of the phase information it measures. Finally, we propose an alternative spectral tomography technique for single-photon states inspired by KK detection.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# 大規模言語モデルのインテリジェンスを測定するには?

How to Measure the Intelligence of Large Language Models? ( http://arxiv.org/abs/2407.20828v1 )

ライセンス: Link先を確認
Nils Körber, Silvan Wehrli, Christopher Irrgang, (参考訳) ChatGPTや他の大規模言語モデル(LLM)のリリースにより、現在のモデルと将来のモデルのインテリジェンス、可能性、リスクに関する議論が注目されている。 この議論には、いわゆる「スーパーヒューマン」AI(つまり、人間よりも桁違いに賢いAIシステム)の急激な台頭について、多くの議論がなされたシナリオが含まれていた。 アラン・チューリングの精神では、現在最先端の言語モデルが既に彼の有名なテストに合格していることは間違いない。 さらに、現在のモデルは、いくつかのベンチマークテストで人間よりも優れており、公開されているLLMは、日々の生活、産業、科学を結びつける汎用的なコンパニオンになっている。 素晴らしい能力にもかかわらず、LLMは人間にとって簡単なタスクで完全に失敗することがある。 その他のケースでは、LSMsの信頼性はより解明され、評価が困難になる。 学術の例として、言語モデルは、わずかに入力するだけで、あるトピックに関する説得力のある研究論文を書くことができる。 しかし、事実の一貫性の欠如や、AI生成されたテキストボディに永続的な幻覚が存在するという観点からの信頼性の欠如は、多くの科学雑誌においてAIベースのコンテンツに対する幅広い制限をもたらしている。 これらの観察から、人間の知能に当てはまる同じ指標が計算手法にも適用できるのかという疑問が持ち上がり、広く議論されてきた。 実際、メトリクスの選択は、潜在的なインテリジェンスの発生に対する評価に劇的に影響を与えることがすでに示されている。 ここでは、LCMの知能はタスク固有の統計指標によって評価されるだけでなく、質的、定量的な尺度によって別々に評価されるべきである、と論じる。

With the release of ChatGPT and other large language models (LLMs) the discussion about the intelligence, possibilities, and risks, of current and future models have seen large attention. This discussion included much debated scenarios about the imminent rise of so-called "super-human" AI, i.e., AI systems that are orders of magnitude smarter than humans. In the spirit of Alan Turing, there is no doubt that current state-of-the-art language models already pass his famous test. Moreover, current models outperform humans in several benchmark tests, so that publicly available LLMs have already become versatile companions that connect everyday life, industry and science. Despite their impressive capabilities, LLMs sometimes fail completely at tasks that are thought to be trivial for humans. In other cases, the trustworthiness of LLMs becomes much more elusive and difficult to evaluate. Taking the example of academia, language models are capable of writing convincing research articles on a given topic with only little input. Yet, the lack of trustworthiness in terms of factual consistency or the existence of persistent hallucinations in AI-generated text bodies has led to a range of restrictions for AI-based content in many scientific journals. In view of these observations, the question arises as to whether the same metrics that apply to human intelligence can also be applied to computational methods and has been discussed extensively. In fact, the choice of metrics has already been shown to dramatically influence assessments on potential intelligence emergence. Here, we argue that the intelligence of LLMs should not only be assessed by task-specific statistical metrics, but separately in terms of qualitative and quantitative measures.
翻訳日:2024-07-31 17:10:01 公開日:2024-07-30
# フェデレートド・ナレッジ・リサイクリング:プライバシ保護型合成データ共有

Federated Knowledge Recycling: Privacy-Preserving Synthetic Data Sharing ( http://arxiv.org/abs/2407.20830v1 )

ライセンス: Link先を確認
Eugenio Lomurno, Matteo Matteucci, (参考訳) フェデレートラーニングは協調学習のパラダイムとして登場し、センシティブなデータを集中化せずに堅牢なモデルの開発を可能にしている。 しかし、従来のフェデレート学習技術は、モデル、パラメータ、更新の露出によるプライバシとセキュリティ上の脆弱性があり、攻撃面として利用することができる。 本稿では,組織間の協調を促進するために,局所的に生成された合成データを利用するクロスサイロ・フェデレーション学習手法であるフェデレーション・ナレッジ・リサイクリング(FedKR)を提案する。 FedKRは、高度なデータ生成技術と動的な集約プロセスを組み合わせることで、既存の方法よりもプライバシー攻撃に対するセキュリティを向上し、攻撃面を著しく削減する。 総合的および医学的なデータセットによる実験結果から、FedKRは、ローカルデータからのトレーニングモデルと比較して平均4.24%の精度で、競争性能が向上し、データ不足のシナリオにおいて特に有効であることが示されている。

Federated learning has emerged as a paradigm for collaborative learning, enabling the development of robust models without the need to centralise sensitive data. However, conventional federated learning techniques have privacy and security vulnerabilities due to the exposure of models, parameters or updates, which can be exploited as an attack surface. This paper presents Federated Knowledge Recycling (FedKR), a cross-silo federated learning approach that uses locally generated synthetic data to facilitate collaboration between institutions. FedKR combines advanced data generation techniques with a dynamic aggregation process to provide greater security against privacy attacks than existing methods, significantly reducing the attack surface. Experimental results on generic and medical datasets show that FedKR achieves competitive performance, with an average improvement in accuracy of 4.24% compared to training models from local data, demonstrating particular effectiveness in data scarcity scenarios.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# AI生成画像検出における脆弱性 : 敵対的攻撃の課題

Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks ( http://arxiv.org/abs/2407.20836v1 )

ライセンス: Link先を確認
Yunfeng Diao, Naixin Zhai, Changtao Miao, Xun Yang, Meng Wang, (参考訳) 画像合成の最近の進歩、特にGANと拡散モデルの出現は、情報の拡散に関する公衆の懸念を増幅している。 このような問題に対処するために、多数のAI生成画像検出器(AIGI)が提案され、偽画像の識別において有望な性能を達成した。 しかし、これらのAIGI検出器の敵対的堅牢性についての体系的な理解はいまだに欠けている。 本稿では,現状のAIGI検出器のホワイトボックスおよびブラックボックス設定による敵攻撃に対する脆弱性について検討する。 AIGI検出の課題として,2つの主要部分を含む新たな攻撃を提案する。 まず、実画像と周波数領域の偽画像との明らかな違いに着想を得て、周波数領域の下に摂動を加え、元の周波数分布からイメージを遠ざける。 第2に、代理モデルの完全な後部分布を探索し、異種モデル間のこのギャップをさらに狭め、例えば、CNNとViT間の逆例を転送する。 これは、1つのサロゲートをベイズ式に転換し、1つの事前訓練されたサロゲートを使用して、再訓練することなく、多様な犠牲者モデルをシミュレートできる新しいポストトレイン・ベイズ戦略を導入することで達成される。 我々は,この手法を周波数ベースのポストトレインベイズ攻撃(FPBA)と呼ぶ。 FPBAは、モデル、ジェネレータ、防御方法、さらにはクロスジェネレータ検出を回避できるため、AIGI検出器にとって真の脅威であることを示す。

Recent advancements in image synthesis, particularly with the advent of GAN and Diffusion models, have amplified public concerns regarding the dissemination of disinformation. To address such concerns, numerous AI-generated Image (AIGI) Detectors have been proposed and achieved promising performance in identifying fake images. However, there still lacks a systematic understanding of the adversarial robustness of these AIGI detectors. In this paper, we examine the vulnerability of state-of-the-art AIGI detectors against adversarial attack under white-box and black-box settings, which has been rarely investigated so far. For the task of AIGI detection, we propose a new attack containing two main parts. First, inspired by the obvious difference between real images and fake images in the frequency domain, we add perturbations under the frequency domain to push the image away from its original frequency distribution. Second, we explore the full posterior distribution of the surrogate model to further narrow this gap between heterogeneous models, e.g. transferring adversarial examples across CNNs and ViTs. This is achieved by introducing a novel post-train Bayesian strategy that turns a single surrogate into a Bayesian one, capable of simulating diverse victim models using one pre-trained surrogate, without the need for re-training. We name our method as frequency-based post-train Bayesian attack, or FPBA. Through FPBA, we show that adversarial attack is truly a real threat to AIGI detectors, because FPBA can deliver successful black-box attacks across models, generators, defense methods, and even evade cross-generator detection, which is a crucial real-world detection scenario.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# DFE-IANet:デュアルドメインの特徴抽出と相互作用注意に基づくポリプ画像分類手法

DFE-IANet: A Method for Polyp Image Classification Based on Dual-domain Feature Extraction and Interaction Attention ( http://arxiv.org/abs/2407.20843v1 )

ライセンス: Link先を確認
Wei Wang, Jixing He, Xin Wang, (参考訳) 早期の消化管ポリープの検出および治療に大腸癌の予防に有用である。 しかし、効率と精度のバランスをとるポリプ画像分類ネットワークを設計する研究はほとんど行われていない。 この課題は主に、ポリープは他の病理と類似しており、テクスチャ、色、形態に影響される複雑な特徴があるという事実に起因している。 本稿ではスペクトル変換と特徴相互作用の両方に基づく新しいネットワークDFE-IANetを提案する。 まず、詳細な特徴とマルチスケール特徴を抽出するために、その特徴をマルチスケール周波数領域特徴抽出ブロック(MSFD)によって変換し、周波数領域のきめ細かいレベルでテクスチャの詳細を抽出する。 第二に、マルチスケールインタラクションアテンション(MSIA)ブロックは、重要な特徴を抽出するネットワークの能力を高めるために設計されている。 このブロックは、ネットワークが重要な領域に集中するように適応的に誘導することを目的として、マルチスケール機能を自己注意に導入する。 最後に、DFE-IANetは4Mのコンパクトパラメータしか持たないため、効率面では最新のネットワークや古典的ネットワークよりも優れている。 さらに、DFE-IANetは、挑戦的なKvasirデータセットに関する最新技術(SOTA)の結果を達成し、93.94%という顕著なTop-1精度を示している。 この顕著な精度はViTを8.94%上回り、ResNet50を1.69%上回り、VMambaを1.88%上回る。 私たちのコードはhttps://github.com/PURSUETHESUN/DFE-IANet.comで公開されています。

It is helpful in preventing colorectal cancer to detect and treat polyps in the gastrointestinal tract early. However, there have been few studies to date on designing polyp image classification networks that balance efficiency and accuracy. This challenge is mainly attributed to the fact that polyps are similar to other pathologies and have complex features influenced by texture, color, and morphology. In this paper, we propose a novel network DFE-IANet based on both spectral transformation and feature interaction. Firstly, to extract detailed features and multi-scale features, the features are transformed by the multi-scale frequency domain feature extraction (MSFD) block to extract texture details at the fine-grained level in the frequency domain. Secondly, the multi-scale interaction attention (MSIA) block is designed to enhance the network's capability of extracting critical features. This block introduces multi-scale features into self-attention, aiming to adaptively guide the network to concentrate on vital regions. Finally, with a compact parameter of only 4M, DFE-IANet outperforms the latest and classical networks in terms of efficiency. Furthermore, DFE-IANet achieves state-of-the-art (SOTA) results on the challenging Kvasir dataset, demonstrating a remarkable Top-1 accuracy of 93.94%. This outstanding accuracy surpasses ViT by 8.94%, ResNet50 by 1.69%, and VMamba by 1.88%. Our code is publicly available at https://github.com/PURSUETHESUN/DFE-IANet.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# チャネル効果を用いた画像埋め込みモデルのグラフィカル知覚の評価

Assessing Graphical Perception of Image Embedding Models using Channel Effectiveness ( http://arxiv.org/abs/2407.20845v1 )

ライセンス: Link先を確認
Soohyun Lee, Minsuk Chang, Seokhyeon Park, Jinwook Seo, (参考訳) 視覚モデルの最近の進歩は、チャートキャプションや質問応答のような複雑なチャート理解タスクを処理する能力を大幅に改善した。 しかし、これらのモデルがどのようにチャートを処理するかを評価することは依然として困難である。 既存のベンチマークでは、モデルが画像埋め込みを抽出する方法など、基礎的なメカニズムを評価することなく、モデルのパフォーマンスを大まかに評価するのみである。 これにより、基本的なグラフィカルコンポーネントを知覚するモデルの能力に対する理解が制限されます。 そこで本研究では,画像埋め込みモデルの視覚的知覚を評価するための新しい評価フレームワークを提案する。 チャート理解のために,様々な視覚チャネルの精度と識別可能性という,チャネルの有効性の2つの主な側面について検討する。 チャネルの精度は埋め込みの線形性を通じて評価され、知覚される大きさが刺激の大きさとどの程度一致しているかを測定する。 識別性は埋め込み間の距離に基づいて評価され、その識別性を示す。 CLIPモデルを用いた実験により, チャネルの精度を人間と異なるものと認識し, 長さ, 傾き, 曲率などのチャネルに特有の識別性を示すことがわかった。 我々はこの研究を、信頼性の高いビジュアルエンコーダのためのより広範なベンチマークとして発展させ、将来のアプリケーションにおける正確なチャート理解と人間のような知覚のためのモデルを強化することを目指している。

Recent advancements in vision models have greatly improved their ability to handle complex chart understanding tasks, like chart captioning and question answering. However, it remains challenging to assess how these models process charts. Existing benchmarks only roughly evaluate model performance without evaluating the underlying mechanisms, such as how models extract image embeddings. This limits our understanding of the model's ability to perceive fundamental graphical components. To address this, we introduce a novel evaluation framework to assess the graphical perception of image embedding models. For chart comprehension, we examine two main aspects of channel effectiveness: accuracy and discriminability of various visual channels. Channel accuracy is assessed through the linearity of embeddings, measuring how well the perceived magnitude aligns with the size of the stimulus. Discriminability is evaluated based on the distances between embeddings, indicating their distinctness. Our experiments with the CLIP model show that it perceives channel accuracy differently from humans and shows unique discriminability in channels like length, tilt, and curvature. We aim to develop this work into a broader benchmark for reliable visual encoders, enhancing models for precise chart comprehension and human-like perception in future applications.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# パブリック対プライベートボディ:誰が高度なAI評価と監査を行うべきか?ハイリスク産業のケーススタディに基づく3段階論理

Public vs Private Bodies: Who Should Run Advanced AI Evaluations and Audits? A Three-Step Logic Based on Case Studies of High-Risk Industries ( http://arxiv.org/abs/2407.20847v1 )

ライセンス: Link先を確認
Merlin Stein, Milan Gandhi, Theresa Kriecherbauer, Amin Oueslati, Robert Trager, (参考訳) 人工知能(AI) 世界中の安全研究所と政府は、先進的なAIを自ら評価し、監査するか、個人監査のエコシステムをサポートするか、両方を行うかを決定した。 監査体制は、規制に準拠する企業を監視し評価するために、幅広い産業状況で確立されている。 監査は、テクノロジのリスクを理解し、管理するために必要なガバナンスツールです。 この論文は9つのレジームから情報を得る。 一 先進的AIのどの部分を監査すべきか、及び i) 高度なAIを効果的に監査するためには、どの程度の資源、能力、および公共機関にアクセスする必要があるか。 第一に、公的・私的な監査人間の効果的な責任配分は、特定の産業や監査条件に大きく依存する。 高度なAIのリスクプロファイル、監査プロセスに関わる情報の感度、そしてAI Labsの安全性と利益の主張を検証するための高いコストに基づいて、我々は公共団体が特にグレーとホワイトボックスのAIモデル監査に直接関与することを推奨する。 他の業界で確立されたガバナンスとセキュリティ監査、およびブラックボックスモデル監査は、公的監督下にある監査人の個人市場によってより効率的に提供される可能性がある。 第二に、高度なAI監査において効果的にその役割を果たすためには、公共機関はモデルや施設への広範なアクセスが必要である。 公共機関の能力は、産業のリスクレベル、規模、市場に集中して拡大し、核の安全性や生命科学など、EUや米国のような大規模な司法管轄区域で監査するために100人の従業員を必要としている可能性がある。

Artificial Intelligence (AI) Safety Institutes and governments worldwide are deciding whether they evaluate and audit advanced AI themselves, support a private auditor ecosystem or do both. Auditing regimes have been established in a wide range of industry contexts to monitor and evaluate firms compliance with regulation. Auditing is a necessary governance tool to understand and manage the risks of a technology. This paper draws from nine such regimes to inform (i) who should audit which parts of advanced AI; and (ii) how much resources, competence and access public bodies may need to audit advanced AI effectively. First, the effective responsibility distribution between public and private auditors depends heavily on specific industry and audit conditions. On the basis of the risk profile of advanced AI, the sensitivity of information involved in the auditing process, and the high costs of verifying safety and benefit claims of AI Labs, we recommend that public bodies become directly involved in safety critical, especially gray- and white-box, AI model audits. Governance and security audits, which are well-established in other industry contexts, as well as black-box model audits, may be more efficiently provided by a private market of auditors under public oversight. Secondly, to effectively fulfill their role in advanced AI audits, public bodies need extensive access to models and facilities. Public bodies capacity should scale with the industry's risk level, size and market concentration, potentially requiring 100s of employees for auditing in large jurisdictions like the EU or US, like in nuclear safety and life sciences.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# NIS-SLAM:3次元連続場面理解のためのニューラルインプシトリ・セマンティックRGB-D SLAM

NIS-SLAM: Neural Implicit Semantic RGB-D SLAM for 3D Consistent Scene Understanding ( http://arxiv.org/abs/2407.20853v1 )

ライセンス: Link先を確認
Hongjia Zhai, Gan Huang, Qirui Hu, Guanglin Li, Hujun Bao, Guofeng Zhang, (参考訳) 近年、神経暗黙表現のパラダイムは、同時局在マッピング(SLAM)の分野で大きな注目を集めている。 しかし、シーン理解に関しては、既存のアプローチには顕著なギャップがある。 本稿では,学習済みの2次元セグメンテーションネットワークを利用して,一貫した意味表現を学習する,効率的なニューラル暗黙的意味論的RGB-D SLAMシステムであるNIS-SLAMを紹介する。 具体的には、高忠実な表面再構成と空間的一貫したシーン理解のために、暗黙的なシーン表現として、高周波多分解能テトラヘドロンに基づく特徴と低周波位置符号化を組み合わせる。 さらに,複数の視点から得られた2次元セグメンテーション結果の不整合に対処するために,従来のキーフレームからキーフレームへのセグメンテーション確率を統合し,一貫したセグメンテーション学習を実現する融合戦略を提案する。 さらに,ロバストカメラトラッキングのための信頼度に基づく画素サンプリングとプログレッシブ最適化重み関数を実装した。 様々なデータセットに対する大規模な実験結果から,既存のニューラルネットワークの暗黙的RGB-D SLAMアプローチと比較して,システムの性能は向上した。 最後に、我々のアプローチが拡張現実アプリケーションに応用可能であることも示します。 プロジェクトページ: \href{https://zju3dv.github.io/nis_slam}{https://zju3dv.github.io/nis\_slam}

In recent years, the paradigm of neural implicit representations has gained substantial attention in the field of Simultaneous Localization and Mapping (SLAM). However, a notable gap exists in the existing approaches when it comes to scene understanding. In this paper, we introduce NIS-SLAM, an efficient neural implicit semantic RGB-D SLAM system, that leverages a pre-trained 2D segmentation network to learn consistent semantic representations. Specifically, for high-fidelity surface reconstruction and spatial consistent scene understanding, we combine high-frequency multi-resolution tetrahedron-based features and low-frequency positional encoding as the implicit scene representations. Besides, to address the inconsistency of 2D segmentation results from multiple views, we propose a fusion strategy that integrates the semantic probabilities from previous non-keyframes into keyframes to achieve consistent semantic learning. Furthermore, we implement a confidence-based pixel sampling and progressive optimization weight function for robust camera tracking. Extensive experimental results on various datasets show the better or more competitive performance of our system when compared to other existing neural dense implicit RGB-D SLAM approaches. Finally, we also show that our approach can be used in augmented reality applications. Project page: \href{https://zju3dv.github.io/nis_slam}{https://zju3dv.github.io/nis\_slam}.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# DeTurb: 変形可能な3Dコンボリューションと3Dスウィントランスによる大気乱流緩和

DeTurb: Atmospheric Turbulence Mitigation with Deformable 3D Convolutions and 3D Swin Transformers ( http://arxiv.org/abs/2407.20855v1 )

ライセンス: Link先を確認
Zhicheng Zou, Nantheera Anantrasirichai, (参考訳) 長距離撮影における大気乱流は、空間次元と時間次元の両方のランダムな変動により、捕獲されたシーンの品質と忠実度を著しく低下させる。 これらの歪みは、監視から天文学まで様々な応用において、堅牢な緩和戦略を必要としている。 モデルベースのアプローチは良い結果をもたらすが、それらは非常に遅い。 深層学習アプローチは、画像とビデオの復元において有望であるが、これらの時空間変動の歪みを効果的に解決するのに苦労してきた。 本稿では,幾何復元と拡張モジュールを組み合わせた新しいフレームワークを提案する。 ランダムな摂動と幾何学的歪みは、変形可能な3次元畳み込みを持つピラミッドアーキテクチャを用いて取り除かれ、整列フレームとなる。 これらのフレームは、3Dスウィントランスのマルチスケールアーキテクチャを用いて、シャープで鮮明な画像を再構成するために使用される。 提案手法は, 合成および実大気乱流効果の両面において, 適正な速度とモデルサイズで, 現状よりも優れた性能を示すものである。

Atmospheric turbulence in long-range imaging significantly degrades the quality and fidelity of captured scenes due to random variations in both spatial and temporal dimensions. These distortions present a formidable challenge across various applications, from surveillance to astronomy, necessitating robust mitigation strategies. While model-based approaches achieve good results, they are very slow. Deep learning approaches show promise in image and video restoration but have struggled to address these spatiotemporal variant distortions effectively. This paper proposes a new framework that combines geometric restoration with an enhancement module. Random perturbations and geometric distortion are removed using a pyramid architecture with deformable 3D convolutions, resulting in aligned frames. These frames are then used to reconstruct a sharp, clear image via a multi-scale architecture of 3D Swin Transformers. The proposed framework demonstrates superior performance over the state of the art for both synthetic and real atmospheric turbulence effects, with reasonable speed and model size.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# 販売による学習: コンテキスト駆動のレコメンデーションのための製品知識による大規模言語モデルの獲得

Learn by Selling: Equipping Large Language Models with Product Knowledge for Context-Driven Recommendations ( http://arxiv.org/abs/2407.20856v1 )

ライセンス: Link先を確認
Sarthak Anand, Yutong Jiang, Giorgi Kokaia, (参考訳) 大規模言語モデル(LLM)の急速な進化は、コンテキスト駆動の製品レコメンデーションのようなアプリケーションに新たな可能性をもたらした。 しかしながら、この文脈におけるこれらのモデルの有効性は、製品在庫に関する包括的な理解に大きく依存しています。 本稿では,製品IDを含む合成検索クエリに文脈的に応答するように学習することで,LLMを製品知識に適合させる新しい手法を提案する。 本手法の広範な解析,有効性の評価,メリットの概要,制約の強調などについて検討する。 また, 製品レコメンデーションにおけるLCMの役割を包括的に理解する上で, このアプローチの潜在的な改善と今後の方向性についても論じる。

The rapid evolution of large language models (LLMs) has opened up new possibilities for applications such as context-driven product recommendations. However, the effectiveness of these models in this context is heavily reliant on their comprehensive understanding of the product inventory. This paper presents a novel approach to equipping LLMs with product knowledge by training them to respond contextually to synthetic search queries that include product IDs. We delve into an extensive analysis of this method, evaluating its effectiveness, outlining its benefits, and highlighting its constraints. The paper also discusses the potential improvements and future directions for this approach, providing a comprehensive understanding of the role of LLMs in product recommendations.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# 破砕剤:故障増幅による自律的LDMエージェントの妥協

Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification ( http://arxiv.org/abs/2407.20859v1 )

ライセンス: Link先を確認
Boyang Zhang, Yicong Tan, Yun Shen, Ahmed Salem, Michael Backes, Savvas Zannettou, Yang Zhang, (参考訳) 近年,大規模言語モデル (LLM) 上に構築された自律エージェントが開発され,現実のアプリケーションにデプロイされている。 これらのエージェントは、ベースLSMの能力を複数の方法で拡張することができる。 例えば、GPT-3.5-Turboをコアとしてよく構築されたエージェントは、外部コンポーネントを活用することにより、より高度なGPT-4モデルより優れている。 さらに重要なのは、ツールを使用することで、テキスト生成から環境へのアクティブなインタラクションに移行することで、これらのシステムが現実世界でアクションを実行できるようになることだ。 エージェントの実践的応用とその後の行動を実行する能力を考えると、潜在的な脆弱性を評価することが不可欠である。 このような自律システムは、妥協された場合、スタンドアロンの言語モデルよりも深刻なダメージを与える可能性がある。 LLMエージェントによる有害な作用を調査する研究もあるが、我々の研究は異なる観点から脆弱性にアプローチしている。 エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。 様々な攻撃方法, 表面, 特性を用いて包括的評価を行い, 感受性の特定を行う。 実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。 マルチエージェントシナリオにおける実装およびデプロイ可能なエージェントに対する攻撃を通じて、これらの脆弱性に関連する現実的なリスクを強調します。 このような攻撃を軽減するために,自己検査検出手法を提案する。 しかし,これらの攻撃はLSMを単独で効果的に検出することは困難であり,この脆弱性に関連する重大なリスクを浮き彫りにしている。

Recently, autonomous agents built on large language models (LLMs) have experienced significant development and are being deployed in real-world applications. These agents can extend the base LLM's capabilities in multiple ways. For example, a well-built agent using GPT-3.5-Turbo as its core can outperform the more advanced GPT-4 model by leveraging external components. More importantly, the usage of tools enables these systems to perform actions in the real world, moving from merely generating text to actively interacting with their environment. Given the agents' practical applications and their ability to execute consequential actions, it is crucial to assess potential vulnerabilities. Such autonomous systems can cause more severe damage than a standalone language model if compromised. While some existing research has explored harmful actions by LLM agents, our study approaches the vulnerability from a different perspective. We introduce a new type of attack that causes malfunctions by misleading the agent into executing repetitive or irrelevant actions. We conduct comprehensive evaluations using various attack methods, surfaces, and properties to pinpoint areas of susceptibility. Our experiments reveal that these attacks can induce failure rates exceeding 80\% in multiple scenarios. Through attacks on implemented and deployable agents in multi-agent scenarios, we accentuate the realistic risks associated with these vulnerabilities. To mitigate such attacks, we propose self-examination detection methods. However, our findings indicate these attacks are difficult to detect effectively using LLMs alone, highlighting the substantial risks associated with this vulnerability.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# 補助自由レプリカシャドウ推定

Auxiliary-free replica shadow estimation ( http://arxiv.org/abs/2407.20865v1 )

ライセンス: Link先を確認
Qing Liu, Zihao Li, Xiao Yuan, Huangjun Zhu, You Zhou, (参考訳) 絡み合いスペクトルのような非線形特性を効率的に測定することは、量子情報処理から多体物理学への重要な課題である。 現在の手法はサンプリングコストの指数的なスケーリングに悩まされる場合や、補助量子ビットと深い量子回路を必要とする場合が多い。 これらの制約に対処するために,数個の入力レプリカ上での連係操作のパワーを活用しつつ,影推定の考え方を統合した効率的な補助フリーレプリカシャドウ(AFRS)フレームワークを提案する。 AFRSは従来のシャドウ法と比較して指数関数的精度の向上を図り、破壊スワップ試験とは異なり、様々な非線形特性の同時推定を容易にする。 さらに, 局所観測可能な局所量子回路を一定深さの局所量子回路で推定し, 一般スワップ試験と比較して実験的な実現を著しく単純化する高度局所AFRS変種を導入する。 我々の研究は、AFRSの短期量子ハードウェアへの応用の道を開き、効率的で実用的な量子測定のための新しい道を開いた。

Efficiently measuring nonlinear properties, like the entanglement spectrum, is a significant yet challenging task from quantum information processing to many-body physics. Current methodologies often suffer from an exponential scaling of the sampling cost or require auxiliary qubits and deep quantum circuits. To address these limitations, we propose an efficient auxiliary-free replica shadow (AFRS) framework, which leverages the power of the joint entangling operation on a few input replicas while integrating the mindset of shadow estimation. We rigorously prove that AFRS can offer exponential improvements in estimation accuracy compared with the conventional shadow method, and facilitate the simultaneous estimation of various nonlinear properties, unlike the destructive swap test. Additionally, we introduce an advanced local-AFRS variant tailored to estimating local observables with even constant-depth local quantum circuits, which significantly simplifies the experimental realization compared with the general swap test. Our work paves the way for the application of AFRS on near-term quantum hardware, opening new avenues for efficient and practical quantum measurements.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# 科学的可視化のためのニューラルサーフェス再構成の比較検討

A Comparative Study of Neural Surface Reconstruction for Scientific Visualization ( http://arxiv.org/abs/2407.20868v1 )

ライセンス: Link先を確認
Siyuan Yao, Weixi Song, Chaoli Wang, (参考訳) この比較研究では、様々な神経表面再構成法の評価を行い、特に、マルチビューレンダリング画像による3次元表面の再構成による科学的可視化への意義に焦点を当てた。 提案手法は, 距離関数(SDF, UDF)を利用して, 再建した表面の精度と滑らかさを高めることにより, 神経放射場と神経暗示面に分類する。 本研究は, 閉面再構築におけるNeuS2の効率と品質を強調し, 限界はあるものの, 開面再構築の候補としてNeUDFを同定した。 ベンチマークデータセットを共有することで、研究者に彼らの手法の性能試験を依頼し、科学的可視化のための表面再構成ソリューションの進歩に寄与する。

This comparative study evaluates various neural surface reconstruction methods, particularly focusing on their implications for scientific visualization through reconstructing 3D surfaces via multi-view rendering images. We categorize ten methods into neural radiance fields and neural implicit surfaces, uncovering the benefits of leveraging distance functions (i.e., SDFs and UDFs) to enhance the accuracy and smoothness of the reconstructed surfaces. Our findings highlight the efficiency and quality of NeuS2 for reconstructing closed surfaces and identify NeUDF as a promising candidate for reconstructing open surfaces despite some limitations. By sharing our benchmark dataset, we invite researchers to test the performance of their methods, contributing to the advancement of surface reconstruction solutions for scientific visualization.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# Mean of Means: キャリブレーションのない、制約なしのカメラ設定による、人間の位置決めのための10ドルのソリューション

Mean of Means: A 10-dollar Solution for Human Localization with Calibration-free and Unconstrained Camera Settings ( http://arxiv.org/abs/2407.20870v1 )

ライセンス: Link先を確認
Tianyi Zhang, Wengyu Zhang, Xulu Zhang, Jiaxin Wu, Xiao-Yong Wei, Jiannong Cao, Qing Li, (参考訳) 正確な人的位置決めは,特にメタバース時代において,様々な応用に不可欠である。 既存の高精度ソリューションは高価でタグに依存しないハードウェアに依存し、視覚ベースの手法は安価でタグなしの代替手段を提供する。 しかし、立体視に基づく現在の視覚解は、多段階のSVD解法における厳密な視点変換原理と誤り伝播による制限に直面している。 これらのソリューションには、厳密な設定制約のある複数の高解像度カメラも必要である。 これらの制約に対処するために,人間の体上のすべての点を,身体の幾何学的中心を中心とした分布によって生成される観測として考察する確率論的アプローチを提案する。 これにより、サンプリングを大幅に改善し、興味のある点ごとのサンプル数を数百から数十億に増やすことができます。 本研究では,世界座標と画素座標の関係をモデル化し,中央極限定理を利用して正規性を確保し,学習プロセスの促進を図る。 実験の結果,0.3m範囲で95%,0.5m範囲で100%近い精度で,解像度640×480ピクセルのウェブカメラを2台のウェブカメラで10USDの低コストで実現した。

Accurate human localization is crucial for various applications, especially in the Metaverse era. Existing high precision solutions rely on expensive, tag-dependent hardware, while vision-based methods offer a cheaper, tag-free alternative. However, current vision solutions based on stereo vision face limitations due to rigid perspective transformation principles and error propagation in multi-stage SVD solvers. These solutions also require multiple high-resolution cameras with strict setup constraints. To address these limitations, we propose a probabilistic approach that considers all points on the human body as observations generated by a distribution centered around the body's geometric center. This enables us to improve sampling significantly, increasing the number of samples for each point of interest from hundreds to billions. By modeling the relation between the means of the distributions of world coordinates and pixel coordinates, leveraging the Central Limit Theorem, we ensure normality and facilitate the learning process. Experimental results demonstrate human localization accuracy of 95% within a 0.3m range and nearly 100% accuracy within a 0.5m range, achieved at a low cost of only 10 USD using two web cameras with a resolution of 640x480 pixels.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# Co-Neighbor Encoding Schema: 動的リンク予測のための軽量構造符号化法

Co-Neighbor Encoding Schema: A Light-cost Structure Encoding Method for Dynamic Link Prediction ( http://arxiv.org/abs/2407.20871v1 )

ライセンス: Link先を確認
Ke Cheng, Linzhi Peng, Junchen Ye, Leilei Sun, Bowen Du, (参考訳) 構造エンコーディングは、グラフ内のリンクを区別する鍵となる特徴であることが証明されている。 しかし、時間グラフにおける構造符号化は、グラフが進化するにつれて変化し続けており、高次部分グラフ構成のため、そのような特徴を繰り返し計算することは時間がかかる。 我々は,この問題に対処するCNES(Co-Neighbor Encoding Schema)を開発した。 リンクによって機能を再計算する代わりに、CNESは冗長な計算を避けるために、情報をメモリに格納する。 また,ノード隠蔽状態を記憶する既存のメモリベース動的グラフ学習法とは異なり,ハッシュテーブル型メモリを導入し,並列なベクトル計算による効率的な構造構成と更新のために,隣接行列を圧縮する。 さらに、CNESはTemporal-Diverse Memoryを導入し、異なる構造情報を持つ隣人に対して、長期的および短期的な構造エンコーディングを生成する。 上記の手法を用いて,動的グラフ学習フレームワークであるCo-Neighbor Encoding Network (CNE-N)を提案する。 13の公開データセットに対する大規模な実験により,提案手法の有効性と有効性が検証された。

Structure encoding has proven to be the key feature to distinguishing links in a graph. However, Structure encoding in the temporal graph keeps changing as the graph evolves, repeatedly computing such features can be time-consuming due to the high-order subgraph construction. We develop the Co-Neighbor Encoding Schema (CNES) to address this issue. Instead of recomputing the feature by the link, CNES stores information in the memory to avoid redundant calculations. Besides, unlike the existing memory-based dynamic graph learning method that stores node hidden states, we introduce a hashtable-based memory to compress the adjacency matrix for efficient structure feature construction and updating with vector computation in parallel. Furthermore, CNES introduces a Temporal-Diverse Memory to generate long-term and short-term structure encoding for neighbors with different structural information. A dynamic graph learning framework, Co-Neighbor Encoding Network (CNE-N), is proposed using the aforementioned techniques. Extensive experiments on thirteen public datasets verify the effectiveness and efficiency of the proposed method.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# キッチン安全におけるYOLOv5, YOLOv8, YOLOv10の比較分析

A Comparative Analysis of YOLOv5, YOLOv8, and YOLOv10 in Kitchen Safety ( http://arxiv.org/abs/2407.20872v1 )

ライセンス: Link先を確認
Athulya Sundaresan Geetha, Muhammad Hussain, (参考訳) キッチンでのナイフの安全性は、適切なハンドリング、メンテナンス、保存方法に重点を置いて、事故や怪我の予防に不可欠である。 本研究は, 3種類のYOLOモデル, YOLOv5, YOLOv8, YOLOv10を比較し, ナイフの扱いにかかわる危険を検知する。 モデルの性能評価には、精度、リコール、Fスコア、正規化混乱行列を用いる。 その結果, ヨーロブ5は他の2モデルよりも, 手をブレードに触れることの危険を識別し, ヨーロブ8は, 保持中に曲がった指の危険を検出するのに優れていたことが示唆された。 YOLOv5,YOLOv8,YOLOv8,YOLOv8,YOLOv10は,手,ナイフ,野菜などのクラス認識においてほぼ同じ性能を示した。 本稿では,実環境におけるこれらのモデルの利点と欠点について考察する。 さらに, 安全ナイフハンドリングのためのYOLOアーキテクチャの最適化を詳述することにより, 安全監視システムにおける精度の向上と効率の向上を促進する。

Knife safety in the kitchen is essential for preventing accidents or injuries with an emphasis on proper handling, maintenance, and storage methods. This research presents a comparative analysis of three YOLO models, YOLOv5, YOLOv8, and YOLOv10, to detect the hazards involved in handling knife, concentrating mainly on ensuring fingers are curled while holding items to be cut and that hands should only be in contact with knife handle avoiding the blade. Precision, recall, F-score, and normalized confusion matrix are used to evaluate the performance of the models. The results indicate that YOLOv5 performed better than the other two models in identifying the hazard of ensuring hands only touch the blade, while YOLOv8 excelled in detecting the hazard of curled fingers while holding items. YOLOv5 and YOLOv8 performed almost identically in recognizing classes such as hand, knife, and vegetable, whereas YOLOv5, YOLOv8, and YOLOv10 accurately identified the cutting board. This paper provides insights into the advantages and shortcomings of these models in real-world settings. Moreover, by detailing the optimization of YOLO architectures for safe knife handling, this study promotes the development of increased accuracy and efficiency in safety surveillance systems.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# 法則と格子に関するMacWilliams理論について

On the MacWilliams Theorem over Codes and Lattices ( http://arxiv.org/abs/2407.20874v1 )

ライセンス: Link先を確認
Zhiyong Zheng, Fengxia Liu, Kun Tian, (参考訳) この辞書では、MacWilliams恒等式はテータ函数のヤコビ・ポアソンの公式の有限アナログである。 格子のランダム理論により、マクウィリアムズの定理の統計的意義は考慮され、実際、マクウィリアムズの分布は古典的なガウス分布の有限な類似点を与える。 特に、コードの商空間上のMacWilliams分布は、一様分布に近い統計量である。 格子に関して、ヌ函数に付随するマクウィリアムの恒等式は、1995年にソレによって予想された。 私たちはこの問題を肯定的に答える。

Analogies between codes and lattices have been extensively studied for the last decades, in this dictionary, the MacWilliams identity is the finite analog of the Jacobi-Poisson formula of the Theta function. Motivated by the random theory of lattices, the statistical significance of MacWilliams theorem is considered, indeed, MacWilliams distribution provides a finite analog of the classical Gauss distribution. In particular, the MacWilliams distribution over quotient space of a code is statistical close to the uniform distribution. In the respect of lattices, the analogy of MacWilliams identity associated with nu-function was conjectured by Sole in 1995. We give an answer to this problem in positive.
翻訳日:2024-07-31 17:00:05 公開日:2024-07-30
# 古代ヌミズマティクスのための自動ダイス研究

Automatic Die Studies for Ancient Numismatics ( http://arxiv.org/abs/2407.20876v1 )

ライセンス: Link先を確認
Clément Cornet, Héloïse Aumaître, Romaric Besançon, Julien Olivier, Thomas Faucher, Hervé Le Borgne, (参考訳) ダイス研究は、古代の貨幣生産を定量化し、貨幣、政治、歴史の関係についての洞察を提供するための基礎である。 このプロセスは面倒な手作業を必要とし、研究可能なコーパスのサイズを制限する。 このタスクを自動化しようとする作業はほとんどなく、コンピュータビジョンの観点から適切なリリースや評価が行われていない。 提案手法は,従来の手法と比較して,いくつかの革新を取り入れた完全自動アプローチである。 私たちは、自動的に設定される高速で堅牢なローカル記述子マッチングに依存しています。 第二に、我々の提案の中核はクラスタリングに基づくアプローチであり、それは(基礎的な真理ラベルを必要としない)本質的な計量を用いて、その臨界超パラメータを決定することである。 ギリシャの硬貨の2つのコーパスに対するアプローチを検証し、以前のベースラインの自動実装と評価を提案し、我々のアプローチがそれらを著しく上回っていることを示す。

Die studies are fundamental to quantifying ancient monetary production, providing insights into the relationship between coinage, politics, and history. The process requires tedious manual work, which limits the size of the corpora that can be studied. Few works have attempted to automate this task, and none have been properly released and evaluated from a computer vision perspective. We propose a fully automatic approach that introduces several innovations compared to previous methods. We rely on fast and robust local descriptors matching that is set automatically. Second, the core of our proposal is a clustering-based approach that uses an intrinsic metric (that does not need the ground truth labels) to determine its critical hyper-parameters. We validate the approach on two corpora of Greek coins, propose an automatic implementation and evaluation of previous baselines, and show that our approach significantly outperforms them.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# S3PET:ドーズ・アウェア・トケン・スワップによる半教師付き標準線量PET画像再構成

S3PET: Semi-supervised Standard-dose PET Image Reconstruction via Dose-aware Token Swap ( http://arxiv.org/abs/2407.20878v1 )

ライセンス: Link先を確認
Jiaqi Cui, Pinxian Zeng, Yuanyuan Xu, Xi Wu, Jiliu Zhou, Yan Wang, (参考訳) 放射線トレーサー線量低減を図り,高画質ポジトロンエミッショントモグラフィ(PET)画像を得るために,低線量PET(LPET)画像から標準線量PET(SPET)画像の再構成に多くの努力が注がれている。 しかし、現在完全に監督されているアプローチの成功は、多量のLPETとSPET画像に依存しており、クリニックでは利用できないことが多い。 さらに、これらの方法では、再構成中に線量不変量と線量レベルの線量特異的な詳細を混合し、歪んだ画像になることが多い。 これらの問題を緩和するために,本稿では,S3PETと呼ばれる2段階のセミスーパービジョンSPET再構成フレームワークを提案する。 我々のS3PETは、未確認画像から表現を抽出するための教師なし事前訓練段階(Stage I)と、LPETからSPETへの再構成を実現するための教師付き線量認識再建段階(Stage II)とを含む。 具体的には、第1段階において、2つの独立した線量特異的マスク付きオートエンコーダ(DsMAEs)を用いて、未使用のSPETおよびLCP画像の包括的理解を行う。 そして、ステージIIでは、事前訓練されたDsMAEをペア画像によりさらに微調整する。 内容と詳細の両方の歪みを防止するため, LPET と SPET の各々の用量特異的および用量不変知識を分離する用量知識分離モジュールと, SPET から LPET へ用量固有情報を転送する用量固有知識学習モジュールという2つの精巧なモジュールを導入し, LPET 画像から高品質な SPET 再構成を実現する。 2つのデータセットの実験により、我々のS3PETは最先端の性能を定量的に定性的に達成することを示した。

To acquire high-quality positron emission tomography (PET) images while reducing the radiation tracer dose, numerous efforts have been devoted to reconstructing standard-dose PET (SPET) images from low-dose PET (LPET). However, the success of current fully-supervised approaches relies on abundant paired LPET and SPET images, which are often unavailable in clinic. Moreover, these methods often mix the dose-invariant content with dose level-related dose-specific details during reconstruction, resulting in distorted images. To alleviate these problems, in this paper, we propose a two-stage Semi-Supervised SPET reconstruction framework, namely S3PET, to accommodate the training of abundant unpaired and limited paired SPET and LPET images. Our S3PET involves an un-supervised pre-training stage (Stage I) to extract representations from unpaired images, and a supervised dose-aware reconstruction stage (Stage II) to achieve LPET-to-SPET reconstruction by transferring the dose-specific knowledge between paired images. Specifically, in stage I, two independent dose-specific masked autoencoders (DsMAEs) are adopted to comprehensively understand the unpaired SPET and LPET images. Then, in Stage II, the pre-trained DsMAEs are further finetuned using paired images. To prevent distortions in both content and details, we introduce two elaborate modules, i.e., a dose knowledge decouple module to disentangle the respective dose-specific and dose-invariant knowledge of LPET and SPET, and a dose-specific knowledge learning module to transfer the dose-specific information from SPET to LPET, thereby achieving high-quality SPET reconstruction from LPET images. Experiments on two datasets demonstrate that our S3PET achieves state-of-the-art performance quantitatively and qualitatively.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 知識グラフと機械学習を用いた人間のゲノム変数解析のためのスケーラブルツール

A Scalable Tool For Analyzing Genomic Variants Of Humans Using Knowledge Graphs and Machine Learning ( http://arxiv.org/abs/2407.20879v1 )

ライセンス: Link先を確認
Shivika Prasanna, Ajay Kumar, Deepthi Rao, Eduardo Simoes, Praveen Rao, (参考訳) ゲノムデータ解析における知識グラフとグラフ機械学習(GML)の統合は、複雑な遺伝的関係、特にRNAレベルでの理解の機会を提供する。 本稿では、これらの技術を活用し、ゲノム変異、特にRNAシークエンシング(RNA-seq)データを用いて解析する包括的アプローチを提案する。 提案手法は、変異レベルの遺伝情報を抽出し、SnpEffを使用して付加メタデータでアノテートし、リッチなVariant Call Format(VCF)ファイルをResource Description Framework(RDF)トリプルに変換する。 結果として得られる知識グラフは、患者のメタデータによってさらに強化され、グラフデータベースに格納される。 我々は、ディープグラフライブラリ(DGL)を使用して、グラフSAGEとグラフ畳み込みネットワーク(GCN)を用いたノード分類を含むグラフ機械学習タスクを実行する。 提案ツールであるVariantKGを用いて,新たなVCFデータによるグラフの強化,ユーザ定義機能に基づくサブグラフの作成,ノード分類のためのグラフ機械学習の実施,という3つの主要なシナリオにおいて,本手法の有効性を実証する。

The integration of knowledge graphs and graph machine learning (GML) in genomic data analysis offers several opportunities for understanding complex genetic relationships, especially at the RNA level. We present a comprehensive approach for leveraging these technologies to analyze genomic variants, specifically in the context of RNA sequencing (RNA-seq) data from COVID-19 patient samples. The proposed method involves extracting variant-level genetic information, annotating the data with additional metadata using SnpEff, and converting the enriched Variant Call Format (VCF) files into Resource Description Framework (RDF) triples. The resulting knowledge graph is further enhanced with patient metadata and stored in a graph database, facilitating efficient querying and indexing. We utilize the Deep Graph Library (DGL) to perform graph machine learning tasks, including node classification with GraphSAGE and Graph Convolutional Networks (GCNs). Our approach demonstrates significant utility using our proposed tool, VariantKG, in three key scenarios: enriching graphs with new VCF data, creating subgraphs based on user-defined features, and conducting graph machine learning for node classification.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 知覚分析分類ネットワークの有効ブラックボックステスト

Effective Black Box Testing of Sentiment Analysis Classification Networks ( http://arxiv.org/abs/2407.20884v1 )

ライセンス: Link先を確認
Parsa Karbasizadeh, Fathiyeh Faghih, Pouria Golshanrad, (参考訳) トランスフォーマーに基づくニューラルネットワークは、感情分析のような自然言語処理タスクにおいて顕著な性能を示した。 それでも、包括的なテストを通じてこれらの複雑なアーキテクチャの信頼性を保証するという問題は、まだ未解決である。 本稿では,トランスフォーマーに基づく感情分析ネットワークで作成されたテストスイートを評価するために特別に設計されたカバレッジ基準の集合について述べる。 提案手法は,動詞,形容詞,副詞,名詞などの感情的関連言語的特徴を考慮し,入力空間分割,ブラックボックス法を利用する。 幅広い感情要素を包含するテストケースを効果的に生成するために,k射影カバレッジ尺度を用いる。 この計量は、k 個の特徴の部分集合を同時に調べることで問題の複雑さを最小化し、従って次元性を減少させる。 感情的特徴の特定の組み合わせを示す文を生成するために、大きな言語モデルが使用される。 感情分析データセットから得られた実験の結果は、我々の基準と生成されたテストがテストカバレッジの平均16倍に増加したことを示している。 さらに、モデル精度の6.5\%の平均的な低下があり、脆弱性を特定する能力を示している。 本研究は、総合的なテスト評価を通じて、トランスフォーマーに基づく感情分析システムの信頼性を向上させる基盤を提供する。

Transformer-based neural networks have demonstrated remarkable performance in natural language processing tasks such as sentiment analysis. Nevertheless, the issue of ensuring the dependability of these complicated architectures through comprehensive testing is still open. This paper presents a collection of coverage criteria specifically designed to assess test suites created for transformer-based sentiment analysis networks. Our approach utilizes input space partitioning, a black-box method, by considering emotionally relevant linguistic features such as verbs, adjectives, adverbs, and nouns. In order to effectively produce test cases that encompass a wide range of emotional elements, we utilize the k-projection coverage metric. This metric minimizes the complexity of the problem by examining subsets of k features at the same time, hence reducing dimensionality. Large language models are employed to generate sentences that display specific combinations of emotional features. The findings from experiments obtained from a sentiment analysis dataset illustrate that our criteria and generated tests have led to an average increase of 16\% in test coverage. In addition, there is a corresponding average decrease of 6.5\% in model accuracy, showing the ability to identify vulnerabilities. Our work provides a foundation for improving the dependability of transformer-based sentiment analysis systems through comprehensive test evaluation.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 任意グラフ上の離散時間オープン量子ランダムウォークにおける非マルコビアン性

Non-Markovianity in Discrete-Time Open Quantum Random Walk on Arbitrary Graphs ( http://arxiv.org/abs/2407.20888v1 )

ライセンス: Link先を確認
Monika Rani, Supriyo Dutta, Subhashish Banerjee, (参考訳) 本稿では,任意のグラフに適用可能な離散時間オープン量子ウォーク(DTOQW)の新しいモデルを提案する。 ノイズの影響は、異なる次元のクラウス作用素を構築し、ワイル作用素を利用することによって研究される。 これらのクラウス・オペレーターはDTOQWのコイン・オペレーターとして使用されている。 ウォーカー力学は、非マルコフ振幅減衰、脱分極および減圧ノイズチャネルの影響下で研究される。 さらに、このウォークはパスグラフ、サイクルグラフ、スターグラフ、完全グラフ、完全二部グラフなどの任意のグラフに実装されている。 ノイズの影響による力学は、異なる時間ステップにおけるコヒーレンスと忠実度を計算することによって測定される。 さらに、上記雑音に対する異なる時間ステップで、グラフの異なる頂点における量子ウォーカの可用性を表す確率分布を算出する。

We present a new model of the Discrete-Time Open Quantum Walk (DTOQW) applicable to an arbitrary graph, thereby going beyond the case of quantum walks on regular graphs. The impact of noise is studied by constructing Kraus operators of different dimensions, making use of the Weyl operators. These Kraus operators are employed as the coin operators of the DTOQW. The walker dynamics is studied under the impact of non-Markovian amplitude damping, depolarizing and dephasing noise channels. In addition, the walk is implemented on arbitrary graphs, such as path graph, cycle graph, star graph, complete graph, and complete bipartite graph. The dynamics, due to the influence of noise, is gauged by computing the coherence and fidelity at different time steps. Further, the probability distribution, representing the availability of the quantum walker at different vertices of the graph, is computed at different time steps for the above noises.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# Bayesian Low-Rank LeArning (Bella): Bayesian Neural Networksへの実践的アプローチ

Bayesian Low-Rank LeArning (Bella): A Practical Approach to Bayesian Neural Networks ( http://arxiv.org/abs/2407.20891v1 )

ライセンス: Link先を確認
Bao Gia Doan, Afshar Shamsi, Xiao-Yu Guo, Arash Mohammadi, Hamid Alinejad-Rokny, Dino Sejdinovic, Damith C. Ranasinghe, Ehsan Abbasnejad, (参考訳) ベイズ学習の計算複雑性は、その実践的で大規模なタスクへの採用を妨げる。 強靭さや弾力性の改善といった重要なメリットのデモンストレーションや、非バイエルン人に対して見つからない、あるいは配布外入力のデモにもかかわらず、その実用性はほとんど重要ではなくなった。 本研究では,ベイズニューラルネットワーク(BNN)の計算負担を軽減するための革新的な枠組みを提案する。 提案手法は,ディープアンサンブルに基づくベイズ的手法の原理に従っているが,事前学習されたニューラルネットワークから生じるパラメータの低ランク摂動により,コストを大幅に削減する。 バニラ版のアンサンブルと、大型モデルでは非現実的と考えられていたBayesian Learning with Stein Variational Gradient Descent (SVGD)のようなより洗練されたスキームは、Bayesian Low-Rank LeArning (Bella)と呼ばれる提案されたフレームワーク内でシームレスに実装できる。 ひと言で言えば、。 一 ベラは、ベイズ後部を近似するために必要な訓練可能なパラメータの数を劇的に減らし、及び 二 従来のベイズ学習法及び非ベイズ学習法の性能を上回り、維持するだけでなく、場合によっては非ベイズ学習法を上回ります。 我々は,ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVAなどの大規模タスクを用いて, スケーラブルで実用的なベイズ的深層モデルの構築において, Bellaの有効性と汎用性を実証した。

Computational complexity of Bayesian learning is impeding its adoption in practical, large-scale tasks. Despite demonstrations of significant merits such as improved robustness and resilience to unseen or out-of-distribution inputs over their non- Bayesian counterparts, their practical use has faded to near insignificance. In this study, we introduce an innovative framework to mitigate the computational burden of Bayesian neural networks (BNNs). Our approach follows the principle of Bayesian techniques based on deep ensembles, but significantly reduces their cost via multiple low-rank perturbations of parameters arising from a pre-trained neural network. Both vanilla version of ensembles as well as more sophisticated schemes such as Bayesian learning with Stein Variational Gradient Descent (SVGD), previously deemed impractical for large models, can be seamlessly implemented within the proposed framework, called Bayesian Low-Rank LeArning (Bella). In a nutshell, i) Bella achieves a dramatic reduction in the number of trainable parameters required to approximate a Bayesian posterior; and ii) it not only maintains, but in some instances, surpasses the performance of conventional Bayesian learning methods and non-Bayesian baselines. Our results with large-scale tasks such as ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVA demonstrate the effectiveness and versatility of Bella in building highly scalable and practical Bayesian deep models for real-world applications.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# YOLOv5とは何か: 人気の物体検出器の内部的特徴を深く考察する

What is YOLOv5: A deep look into the internal features of the popular object detector ( http://arxiv.org/abs/2407.20892v1 )

ライセンス: Link先を確認
Rahima Khanam, Muhammad Hussain, (参考訳) 本研究では, YOLOv5オブジェクト検出モデルの総合的解析を行い, そのアーキテクチャ, トレーニング手法, 性能について検討する。 Cross Stage Partial BackboneやPath Aggregation-Networkといった重要なコンポーネントについて詳しく調べる。 この記事では、さまざまなメトリクスとハードウェアプラットフォームにわたるモデルのパフォーマンスについてレビューする。 さらに、研究はダークネットからPyTorchへの移行とモデル開発への影響について論じている。 全体として、この研究は、YOLOv5の機能と、オブジェクト検出の広い視野における位置、そしてそれが制約されたエッジデプロイメントシナリオの一般的な選択である理由に関する洞察を提供する。

This study presents a comprehensive analysis of the YOLOv5 object detection model, examining its architecture, training methodologies, and performance. Key components, including the Cross Stage Partial backbone and Path Aggregation-Network, are explored in detail. The paper reviews the model's performance across various metrics and hardware platforms. Additionally, the study discusses the transition from Darknet to PyTorch and its impact on model development. Overall, this research provides insights into YOLOv5's capabilities and its position within the broader landscape of object detection and why it is a popular choice for constrained edge deployment scenarios.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# Mamba Capsule: Mamba Capsule Network を用いた心電図による透過性心疾患診断に向けて

MambaCapsule: Towards Transparent Cardiac Disease Diagnosis with Electrocardiography Using Mamba Capsule Network ( http://arxiv.org/abs/2407.20893v1 )

ライセンス: Link先を確認
Yinlong Xu, Xiaoqiang Liu, Zitai Kong, Yixuan Wu, Yue Wang, Yingzhou Lu, Honghao Gao, Jian Wu, Hongxia Xu, (参考訳) 心臓不整脈は不整脈を特徴とする疾患であり、様々な心疾患の早期の徴候として用いられることが多い。 深層学習の出現に伴い、心電図(ECG)信号を用いて不整脈を診断するための多くの革新的なモデルが導入された。 しかし、近年の研究は、結果の解釈を無視して、モデルの性能にのみ焦点をあてている。 これは透明性の欠如を招き、実際の診断プロセスに重大なリスクをもたらす。 そこで本研究では,ECG不整脈分類のための深層ニューラルネットワークであるMamba Capsuleを導入し,精度を高めつつモデルの説明可能性を高めるとともに,特徴抽出にMambaを用い,予測にCapsuleネットワークを用い,信頼性スコアだけでなく信号特徴も提供する。 ヒト脳の処理機構と同様に、予測された選択においてECG信号を再構成することにより、モデルが信号の特徴とその関係を学習する。 AAMI標準に従って,MIT-BIHおよびTBデータセットを用いてモデル評価を行った。 MambaCapsuleはテストセットでそれぞれ99.54%と99.59%の精度を達成した。 これらの結果は,標準テストプロトコル下での有望な性能を示すものである。

Cardiac arrhythmia, a condition characterized by irregular heartbeats, often serves as an early indication of various heart ailments. With the advent of deep learning, numerous innovative models have been introduced for diagnosing arrhythmias using Electrocardiogram (ECG) signals. However, recent studies solely focus on the performance of models, neglecting the interpretation of their results. This leads to a considerable lack of transparency, posing a significant risk in the actual diagnostic process. To solve this problem, this paper introduces MambaCapsule, a deep neural networks for ECG arrhythmias classification, which increases the explainability of the model while enhancing the accuracy.Our model utilizes Mamba for feature extraction and Capsule networks for prediction, providing not only a confidence score but also signal features. Akin to the processing mechanism of human brain, the model learns signal features and their relationship between them by reconstructing ECG signals in the predicted selection. The model evaluation was conducted on MIT-BIH and PTB dataset, following the AAMI standard. MambaCapsule has achieved a total accuracy of 99.54% and 99.59% on the test sets respectively. These results demonstrate the promising performance of under the standard test protocol.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 固有値の非線形性下における例外点と非エルミート皮膚効果

Exceptional points and non-Hermitian skin effects under nonlinearity of eigenvalues ( http://arxiv.org/abs/2407.20895v1 )

ライセンス: Link先を確認
Tsuneya Yoshida, Takuma Isobe, Yasuhiro Hatsugai, (参考訳) 非線形固有値問題によって記述されるメタマテリアルのバンド構造は、既存のトポロジカルバンド理論を超えている。 本稿では,非エルミート位相を固有値の非線形性の下で解析する。 具体的には、そのような非線形系は、特異な非エルミート位相現象である例外点や非エルミート皮膚効果を示す可能性があることを解明する。 これらの非エルミート現象のロバスト性は、線型系において既存の現象を再現する非線形性の下で位相不変量を導入することによって明らかにされる。 さらに, 方程式が単一成分であるような内部自由度のないシステムにおいても, 例外点が出現する可能性が示唆された。 これらの非線形誘起特異点は、機械的メタマテリアル、例えばカピツァ振り子で観察される。

Band structures of metamaterials described by a nonlinear eigenvalue problem are beyond the existing topological band theory. In this paper, we analyze non-Hermitian topology under the nonlinearity of eigenvalues. Specifically, we elucidate that such nonlinear systems may exhibit exceptional points and non-Hermitian skin effects which are unique non-Hermitian topological phenomena. The robustness of these non-Hermitian phenomena is clarified by introducing the topological invariants under nonlinearity which reproduce the existing ones in linear systems. Furthermore, our analysis elucidates that exceptional points may emerge even for systems without an internal degree of freedom where the equation is single component. These nonlinearity-induced exceptional points are observed in mechanical metamaterials, e.g., the Kapitza pendulum.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# ThinkRepair: 自己指揮によるプログラムの修復

ThinkRepair: Self-Directed Automated Program Repair ( http://arxiv.org/abs/2407.20898v1 )

ライセンス: Link先を確認
Xin Yin, Chao Ni, Shaohua Wang, Zhenhao Li, Limin Zeng, Xiaohu Yang, (参考訳) 自動プログラム修復(APR)には多くのアプローチが提案されているが、実際は優れたパフォーマンスを達成しているが、バグジープログラムのロジックの分析と推論を必要とするバグの修正には制限がある。 近年,プロンプトエンジニアリングによる大規模言語モデル (LLM) は,バグフィックスなど多種多様なタスクに対処する能力に注目が集まっている。 しかし、プロンプトの品質はLLMの能力に大きく影響し、手作業による高品質なプロンプトの構築はコストがかかる。 この制限に対処するため,我々は,コレクションフェーズと固定フェーズの2つの主要なフェーズを持つ自己指向型LLMベースの自動プログラム修復であるThinkRepairを提案する。 前者のフェーズは、CoT(Chain-of-Thought)プロンプトでLSMに指示することで、事前に固定された知識を構成する様々な思考の連鎖を自動的に収集する。 後者のフェーズは、まず数ショットの学習例を選択し、次にLLMと自動的に対話し、任意にテスト情報のフィードバックを付加することでバグを修正することを目的としている。 ThinkRepairと12SOTA APRを比較した2つの広く研究されているデータセット(Defects4JとQuixBugs)の評価は、バグ修正におけるThinkRepairの優先度を示している。 特にThinkRepairは98のバグを修正し、Defects4J V1.2でベースラインを27%-344.4%改善している。 Defects4J V2.0では、ThinkRepairはSOTA APRよりも12~65のバグを修正している。 さらにThinkRepairはQuixBugs(Javaは31、Pythonは21)でも大幅に改善されている。

Though many approaches have been proposed for Automated Program Repair (APR) and indeed achieved remarkable performance, they still have limitations in fixing bugs that require analyzing and reasoning about the logic of the buggy program. Recently, large language models (LLMs) instructed by prompt engineering have attracted much attention for their powerful ability to address many kinds of tasks including bug-fixing. However, the quality of the prompt will highly affect the ability of LLMs and manually constructing high-quality prompts is a costly endeavor. To address this limitation, we propose a self-directed LLM-based automated program repair, ThinkRepair, with two main phases: collection phase and fixing phase. The former phase automatically collects various chains of thoughts that constitute pre-fixed knowledge by instructing LLMs with the Chain-of-Thought (CoT) prompt. The latter phase targets fixing a bug by first selecting examples for few-shot learning and second automatically interacting with LLMs, optionally appending with feedback of testing information. Evaluations on two widely studied datasets (Defects4J and QuixBugs) by comparing ThinkRepair with 12 SOTA APRs indicate the priority of ThinkRepair in fixing bugs. Notably, ThinkRepair fixes 98 bugs and improves baselines by 27%-344.4% on Defects4J V1.2. On Defects4J V2.0, ThinkRepair fixes 12-65 more bugs than the SOTA APRs. Additionally, ThinkRepair also makes a considerable improvement on QuixBugs (31 for Java and 21 for Python at most).
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 画像分類のための忠実でプラウジブルな自然言語記述:パイプラインアプローチ

Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach ( http://arxiv.org/abs/2407.20899v1 )

ライセンス: Link先を確認
Adam Wojciechowski, Mateusz Lango, Ondrej Dusek, (参考訳) 画像分類のための既存の説明法は、忠実で妥当な説明を提供するのに苦労している。 本稿では,CNNをベースとした分類器に対して,学習過程を変更したり,予測性能に影響を与えることなく適用可能な,ポストホックな自然言語説明手法を提案する。 影響力のあるニューロンと対応するアクティベーションマップを分析して、構造化された意味表現の形で分類者の決定過程を忠実に記述し、言語モデルによりテキストに変換する。 このパイプラインアプローチを通じて、生成された説明はニューラルネットワークアーキテクチャに基礎を置いており、非専門家にアクセスできるまま、分類プロセスに関する正確な洞察を提供する。 実験の結果,提案手法により構築されたNLEは,より信頼性が高く,忠実であることがわかった。 特に、ニューラルネットワーク構造(ニューロンのマスキング)のユーザ介入は、ベースラインの3倍の効果がある。

Existing explanation methods for image classification struggle to provide faithful and plausible explanations. This paper addresses this issue by proposing a post-hoc natural language explanation method that can be applied to any CNN-based classifier without altering its training process or affecting predictive performance. By analysing influential neurons and the corresponding activation maps, the method generates a faithful description of the classifier's decision process in the form of a structured meaning representation, which is then converted into text by a language model. Through this pipeline approach, the generated explanations are grounded in the neural network architecture, providing accurate insight into the classification process while remaining accessible to non-experts. Experimental results show that the NLEs constructed by our method are significantly more plausible and faithful. In particular, user interventions in the neural network structure (masking of neurons) are three times more effective than the baselines.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# GitHubの課題を視覚的に分析して洞察を得る

Visual Analysis of GitHub Issues to Gain Insights ( http://arxiv.org/abs/2407.20900v1 )

ライセンス: Link先を確認
Rifat Ara Proma, Paul Rosen, (参考訳) バージョン管理システムはソフトウェア開発に不可欠であり、GitHubはイシュートラッキングやプルリクエストを含む包括的なプロジェクト管理ツールのために人気のあるオンラインプラットフォームとして登場した。 しかし、GitHubはイシューとコミットの直接的なリンクを欠いているため、開発者が特定の問題がどう解決されたかを理解するのが難しくなっている。 GitHubの Insightsページは、リポジトリデータの視覚化を提供しているが、イシューの表現と関連するデータをテキスト形式でコミットすることは、イシュー管理の迅速な評価を妨げている。 本稿では,課題タイムラインに関する洞察を与え,課題に関連するさまざまな要因を明らかにするために,可視化を生成するプロトタイプWebアプリケーションを提案する。 課題のライフサイクルに焦点をあて、プロジェクトの開発パターンに対するユーザの理解を高めるために重要な情報を記述する。 3つのオープンソースGitHubリポジトリを含むケーススタディを通じて、このアプローチの有効性を実証する。 さらに, 重要なリポジトリ情報をより効率的に, 迅速に伝達する上で, プロトタイプの有効性を検証するために, ユーザ評価を行った。

Version control systems are integral to software development, with GitHub emerging as a popular online platform due to its comprehensive project management tools, including issue tracking and pull requests. However, GitHub lacks a direct link between issues and commits, making it difficult for developers to understand how specific issues are resolved. Although GitHub's Insights page provides some visualization for repository data, the representation of issues and commits related data in a textual format hampers quick evaluation of issue management. This paper presents a prototype web application that generates visualizations to offer insights into issue timelines and reveals different factors related to issues. It focuses on the lifecycle of issues and depicts vital information to enhance users' understanding of development patterns in their projects. We demonstrate the effectiveness of our approach through case studies involving three open-source GitHub repositories. Furthermore, we conducted a user evaluation to validate the efficacy of our prototype in conveying crucial repository information more efficiently and rapidly.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 効率的な水理モデリングのための機械学習サロゲート:管理帯水層再生の確率論的シミュレーションからの考察

Machine learning surrogates for efficient hydrologic modeling: Insights from stochastic simulations of managed aquifer recharge ( http://arxiv.org/abs/2407.20902v1 )

ライセンス: Link先を確認
Timothy Dai, Kate Maher, Zach Perzan, (参考訳) プロセスベースの水理モデル(英語版)は、地球上の水循環を理解し、現代の水資源問題に対処するための貴重なツールである。 しかし、多くの水理モデルが計算に高価であり、解像度やスケールによってシミュレーションが完了するまでに数時間から数日かかることがある。 不確実性定量化や最適化といった手法は経営決定を支援する貴重なツールとなっているが、これらの分析は通常数百のモデルシミュレーションを必要とする。 このギャップに対処するために、プロセスベースモデルを用いて初期シミュレーションを生成し、機械学習(ML)サロゲートモデルを訓練して、下流分析に必要な残りのシミュレーションを実行するハイブリッドモデリングワークフローを提案する。 ケーススタディでは, このワークフローを, 将来的な管理帯水層再生(MAR)における飽和地下水流のシミュレーションに応用する。 我々は、深層畳み込みネットワーク、リカレントニューラルネットワーク、視覚変換器、フーリエ変換を用いたネットワークなど、MLアーキテクチャの精度と計算効率を比較した。 以上の結果から,MLサロゲートモデルは10%未満の絶対誤差を達成でき,処理ベースモデルよりも高次実行時節約を達成できることが示唆された。 また,データ正規化による精度向上,正規化ロス関数によるトレーニング安定性の向上,メモリ要件の低減など,水文サロゲートモデルのトレーニングのための実用的な推奨事項も提示する。

Process-based hydrologic models are invaluable tools for understanding the terrestrial water cycle and addressing modern water resources problems. However, many hydrologic models are computationally expensive and, depending on the resolution and scale, simulations can take on the order of hours to days to complete. While techniques such as uncertainty quantification and optimization have become valuable tools for supporting management decisions, these analyses typically require hundreds of model simulations, which are too computationally expensive to perform with a process-based hydrologic model. To address this gap, we propose a hybrid modeling workflow in which a process-based model is used to generate an initial set of simulations and a machine learning (ML) surrogate model is then trained to perform the remaining simulations required for downstream analysis. As a case study, we apply this workflow to simulations of variably saturated groundwater flow at a prospective managed aquifer recharge (MAR) site. We compare the accuracy and computational efficiency of several ML architectures, including deep convolutional networks, recurrent neural networks, vision transformers, and networks with Fourier transforms. Our results demonstrate that ML surrogate models can achieve under 10% mean absolute percentage error and yield order-of-magnitude runtime savings over processed-based models. We also offer practical recommendations for training hydrologic surrogate models, including implementing data normalization to improve accuracy, using a normalized loss function to improve training stability and downsampling input features to decrease memory requirements.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 大規模言語モデルに基づくレビュー自動生成手法

Automated Review Generation Method Based on Large Language Models ( http://arxiv.org/abs/2407.20906v1 )

ライセンス: Link先を確認
Shican Wu, Xiao Ma, Dehui Luo, Lulu Li, Xiangcheng Shi, Xin Chang, Xiaoyun Lin, Ran Luo, Chunlei Pei, Zhi-Jian Zhao, Jinlong Gong, (参考訳) 科学の発展に欠かせない文学研究は、利用可能な情報の広大な海に圧倒されている。 そこで本稿では,Large Language Models (LLM) に基づく自動レビュー生成手法を提案する。 プロパン脱水素 (PDH) 触媒について検討する際, LLM アカウントあたりの平均秒数で, 343 項目から包括的レビューを迅速に生成した。 1041項目の拡張分析により,触媒の組成,構造,性能について深い知見を得た。 LLMの幻覚を認識するため,我々は多層品質制御戦略を採用し,手法の信頼性と効果的な幻覚軽減を図った。 専門家による検証は、生成されたレビューの正確さと引用整合性を確認し、LLM幻覚リスクを95%以上の信頼性で0.5%未満に低下させることを示した。 リリースされたWindowsアプリケーションは、ワンクリックレビュー生成を可能にし、研究者が進歩を追跡し、文学を推奨するのを助ける。 このアプローチは、科学研究の生産性を高める上でLLMが果たした役割を示し、さらなる探索のステージを設定している。

Literature research, vital for scientific advancement, is overwhelmed by the vast ocean of available information. Addressing this, we propose an automated review generation method based on Large Language Models (LLMs) to streamline literature processing and reduce cognitive load. In case study on propane dehydrogenation (PDH) catalysts, our method swiftly generated comprehensive reviews from 343 articles, averaging seconds per article per LLM account. Extended analysis of 1041 articles provided deep insights into catalysts' composition, structure, and performance. Recognizing LLMs' hallucinations, we employed a multi-layered quality control strategy, ensuring our method's reliability and effective hallucination mitigation. Expert verification confirms the accuracy and citation integrity of generated reviews, demonstrating LLM hallucination risks reduced to below 0.5% with over 95% confidence. Released Windows application enables one-click review generation, aiding researchers in tracking advancements and recommending literature. This approach showcases LLMs' role in enhancing scientific research productivity and sets the stage for further exploration.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# 物体中心ボクセル化とニューラルレンダリングによる動的シーン理解

Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering ( http://arxiv.org/abs/2407.20908v1 )

ライセンス: Link先を確認
Yanpeng Zhao, Yiwei Hao, Siyu Gao, Yunbo Wang, Xiaokang Yang, (参考訳) 教師なしのビデオからオブジェクト中心の表現を学ぶことは難しい。 2次元画像の分解に焦点をあてた従来のアプローチとは異なり、動的シーンのための3次元生成モデルDynaVol-Sが、異なるボリュームレンダリングフレームワーク内でオブジェクト中心の学習を可能にする。 中心となるアイデアは、オブジェクトごとの占有確率を個々の空間的位置で推定する、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。 これらのボクセル機能は標準空間の変形関数を通じて進化し、合成NeRFを用いた逆レンダリングパイプラインで最適化される。 さらに,本手法では2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。 DynaVol-Sは、新しいビュー合成と動的シーンの教師なし分解タスクの両方において、既存のモデルよりも大幅に優れている。 幾何学的構造と意味的特徴を共同で考慮することにより、複雑なオブジェクトの相互作用を含む現実のシナリオを効果的に解決する。 さらに、トレーニングが終わると、明示的に意味のあるボクセル機能により、幾何学的な形状を編集したり、物体の運動軌跡を操作することによって、2Dシーン分解法が達成できないような、新たな機能を実現することができる。

Learning object-centric representations from unsupervised videos is challenging. Unlike most previous approaches that focus on decomposing 2D images, we present a 3D generative model named DynaVol-S for dynamic scenes that enables object-centric learning within a differentiable volume rendering framework. The key idea is to perform object-centric voxelization to capture the 3D nature of the scene, which infers per-object occupancy probabilities at individual spatial locations. These voxel features evolve through a canonical-space deformation function and are optimized in an inverse rendering pipeline with a compositional NeRF. Additionally, our approach integrates 2D semantic features to create 3D semantic grids, representing the scene through multiple disentangled voxel grids. DynaVol-S significantly outperforms existing models in both novel view synthesis and unsupervised decomposition tasks for dynamic scenes. By jointly considering geometric structures and semantic features, it effectively addresses challenging real-world scenarios involving complex object interactions. Furthermore, once trained, the explicitly meaningful voxel features enable additional capabilities that 2D scene decomposition methods cannot achieve, such as novel scene generation through editing geometric shapes or manipulating the motion trajectories of objects.
翻訳日:2024-07-31 16:50:19 公開日:2024-07-30
# コントラスト的テクスト偏差によるソーシャルメディアの文脈ソフトモデレーションの実現

Enabling Contextual Soft Moderation on Social Media through Contrastive Textual Deviation ( http://arxiv.org/abs/2407.20910v1 )

ライセンス: Link先を確認
Pujan Paudel, Mohammad Hammas Saeed, Rebecca Auger, Chris Wells, Gianluca Stringhini, (参考訳) 自動ソフトモデレーションシステムは、ポストが偽のクレームを支持したり反証したりするかどうかを確認できないため、多くの文脈的偽陽性が生じる。 例えば、投稿に警告を追加したり、細かい事実チェックではなくあいまいな警告を頼りにすることで、ユーザーを嫌がらせてしまう。 本稿では,既存の自動ソフトモデレーションパイプラインにスタンス検出を取り入れ,文脈的偽陽性を排除し,警告を受けるべきソーシャルメディアコンテンツに対してより正確なレコメンデーションを提供することを目的としている。 本研究では,CTD(Contrastive Textual Deviation)と呼ばれるテキスト分割タスクを開発し,ソフトモデレーションに適用した場合に既存のスタンス検出手法よりも優れており,その上でCTDを最先端のソフトモデレーションシステムに統合することにより,文脈的偽陽性を20%から2.1%に低減し,ソーシャルメディアに信頼性の高いソフトモデレーションツールをデプロイするための重要なビルディングブロックを提供する。

Automated soft moderation systems are unable to ascertain if a post supports or refutes a false claim, resulting in a large number of contextual false positives. This limits their effectiveness, for example undermining trust in health experts by adding warnings to their posts or resorting to vague warnings instead of granular fact-checks, which result in desensitizing users. In this paper, we propose to incorporate stance detection into existing automated soft-moderation pipelines, with the goal of ruling out contextual false positives and providing more precise recommendations for social media content that should receive warnings. We develop a textual deviation task called Contrastive Textual Deviation (CTD) and show that it outperforms existing stance detection approaches when applied to soft moderation.We then integrate CTD into the stateof-the-art system for automated soft moderation Lambretta, showing that our approach can reduce contextual false positives from 20% to 2.1%, providing another important building block towards deploying reliable automated soft moderation tools on social media.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# 方向性グラフのための良い位置エンコーディングとは何か?

What Are Good Positional Encodings for Directed Graphs? ( http://arxiv.org/abs/2407.20912v1 )

ライセンス: Link先を確認
Yinan Huang, Haoyu Wang, Pan Li, (参考訳) グラフの位置エンコーディング(PE)は、ノード間の相対空間関係を効果的に捉えるために、強力で表現力のあるグラフニューラルネットワークとグラフトランスフォーマーを構築するのに不可欠である。 無向グラフのPEは広く研究されているが、有向グラフのPEは、プログラム解析や回路設計のような強い論理的依存を持つエンティティを表現する上で、有向グラフの基本的な役割にもかかわらず、ほとんど探索されていない。 本研究では,所望の有向空間関係を表現するために表現可能な有向グラフのためのPEの設計について検討する。 まず,方向グラフに対する歩行数列の一般化である歩行プロファイルを提案する。 既存のPE法では,歩行プロファイルの表現能力において,シンメトリゼーションされたラプラシアンPE,特異値分解PE,磁気ラプラシアンPEなどの制限が認められている。 これらの制約に対処するため,複数のポテンシャル因子を持つ磁気ラプラシアンPEを拡張したMulti-q Magnetic Laplacian PEを提案する。 この単純な変種は、歩行プロファイルを確実に表現できることが判明した。 さらに、磁気ラプラシアンから分離された複素領域PEを扱うために、以前の基底不変および安定なネットワークを一般化する。 数値実験により,マルチq磁気ラプラシアンPEと安定なニューラルアーキテクチャを併用し,従来のPE法(安定したネットワーク)よりも有向距離/ウォークプロファイルの予測,ネットワーク満足度のソート,一般回路ベンチマークに優れることを示した。 私たちのコードはhttps://github.com/Graph-COM/Multi-q-Maglapで公開しています。

Positional encodings (PE) for graphs are essential in constructing powerful and expressive graph neural networks and graph transformers as they effectively capture relative spatial relations between nodes. While PEs for undirected graphs have been extensively studied, those for directed graphs remain largely unexplored, despite the fundamental role of directed graphs in representing entities with strong logical dependencies, such as those in program analysis and circuit designs. This work studies the design of PEs for directed graphs that are expressive to represent desired directed spatial relations. We first propose walk profile, a generalization of walk counting sequence to directed graphs. We identify limitations in existing PE methods, including symmetrized Laplacian PE, Singular Value Decomposition PE, and Magnetic Laplacian PE, in their ability to express walk profiles. To address these limitations, we propose the Multi-q Magnetic Laplacian PE, which extends Magnetic Laplacian PE with multiple potential factors. This simple variant turns out to be capable of provably expressing walk profiles. Furthermore, we generalize previous basis-invariant and stable networks to handle complex-domain PEs decomposed from Magnetic Laplacians. Our numerical experiments demonstrate the effectiveness of Multi-q Magnetic Laplacian PE with a stable neural architecture, outperforming previous PE methods (with stable networks) on predicting directed distances/walk profiles, sorting network satisfiability, and on general circuit benchmarks. Our code is available at https://github.com/Graph-COM/Multi-q-Maglap.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# 並列エルゴトロピー:並列局所ユニタリ演算による最大作業抽出

Parallel ergotropy: Maximum work extraction via parallel local unitary operations ( http://arxiv.org/abs/2407.20916v1 )

ライセンス: Link先を確認
Riccardo Castellano, Ranieri Nery, Kyrylo Simonov, Donato Farina, (参考訳) 最大量子ワーク抽出は、一般にエルゴトロピー関数(英語版)の用語で定義されるが、たとえ実験的に複雑であったとしても、最適なユニタリ化の実装であり、特にマルチパーティイト系の場合である。 本稿では,多くの相互作用するサブシステムからなる量子電池について考察し,各サブシステム上での並列な局所ユニタリ演算による最大抽出作業について考察する。 結果として生じる並列エルゴトロピーを,機能的並列エルゴトロピーと呼ぶ。 両部類に着目して, 並列エルゴトロピーはエゴスティック戦略により作業抽出に優れており, 第1のエージェントAはその部分において, 最大可利用作業を局所的に抽出し, そして第2のエージェントBは, 残りの部分を抽出する。 エージェントにとって、これは全体的な利益のために協力する必要があることを示している。 第二に、情報の観点からは、状態の並列容量が絡みを検知し、確率的作業抽出のゆらぎを利用した統計的絡みの目撃者と比較する。 さらに並列エルゴトロピー計算の技術的問題にも直面している。 我々は、州とハミルトンの特定のクラスに対する解析上界を導出し、一般の場合において半定値プログラミングによって数値上界を得るためのレシートを提供する。 最後に、並列エルゴトロピーの概念を拡張し、系の自由時間発展と局所ユニタリの適用により、系全体のエルゴトロピーとのギャップを飽和させることを実証する。

Maximum quantum work extraction is generally defined in terms of the ergotropy functional, no matter how experimentally complicated is the implementation of the optimal unitary allowing for it, especially in the case of multipartite systems. In this framework, we consider a quantum battery made up of many interacting sub-systems and study the maximum extractable work via concurrent local unitary operations on each subsystem. We call the resulting functional parallel ergotropy. Focusing on the bipartite case, we first observe that parallel ergotropy outperforms work extraction via egoistic strategies, in which the first agent A extracts locally on its part the maximum available work and the second agent B, subsequently, extracts what is left on the other part. For the agents, this showcases the need of cooperating for an overall benefit. Secondly, from the informational point of view, we observe that the parallel capacity of a state can detect entanglement and compare it with the statistical entanglement witness that exploits fluctuations of stochastic work extraction. Additionally, we face the technical problem of computing parallel ergotropy. We derive analytical upper bounds for specific classes of states and Hamiltonians and provide receipts to obtain numerical upper bounds via semi-definite programming in the generic case. Finally, extending the concept of parallel ergotropy, we demonstrate that system's free-time evolution and application of local unitaries allow one to saturate the gap with the ergotropy of the whole system.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# 強化学習アルゴリズムの選択方法

How to Choose a Reinforcement-Learning Algorithm ( http://arxiv.org/abs/2407.20917v1 )

ライセンス: Link先を確認
Fabian Bongratz, Vladimir Golkov, Lukas Mautner, Luca Della Libera, Frederik Heetmeyer, Felix Czaja, Julian Rodemann, Daniel Cremers, (参考訳) 強化学習の分野は、シーケンシャルな意思決定問題に取り組むための様々な概念と方法を提供している。 この多様性はあまりに大きくなり、手元にあるタスクのアルゴリズムを選択することは難しくなっている。 本研究では,強化学習アルゴリズムと行動分配ファミリーを選択するプロセスの合理化について述べる。 既存のメソッドとその特性に関する構造化された概要と、どのメソッドを選択するかのガイドラインを提供する。 これらのガイドラインのインタラクティブ版がhttps://rl-picker.github.io/.comで公開されている。

The field of reinforcement learning offers a large variety of concepts and methods to tackle sequential decision-making problems. This variety has become so large that choosing an algorithm for a task at hand can be challenging. In this work, we streamline the process of choosing reinforcement-learning algorithms and action-distribution families. We provide a structured overview of existing methods and their properties, as well as guidelines for when to choose which methods. An interactive version of these guidelines is available online at https://rl-picker.github.io/.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# てんかん領域におけるリビジョンと収縮操作者の実現可能性

The Realizability of Revision and Contraction Operators in Epistemic Spaces ( http://arxiv.org/abs/2407.20918v1 )

ライセンス: Link先を確認
Kai Sauerwald, Matthias Thimm, (参考訳) 本稿では,認識空間における信念修正と信念収縮演算子の実現可能性について検討する。 我々は, 正確に決定されたてんかん空間においてのみ, AGM と AGM の縮約演算子が実現可能であることを観察した。 線形変化作用素のクラスを定義する。 AGM のリビジョンである AGM の収縮が実現可能であるとき、線形変化作用素は正準実現である。

This paper studies the realizability of belief revision and belief contraction operators in epistemic spaces. We observe that AGM revision and AGM contraction operators for epistemic spaces are only realizable in precisely determined epistemic spaces. We define the class of linear change operators, a special kind of maxichoice operator. When AGM revision, respectively, AGM contraction, is realizable, linear change operators are a canonical realization.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# SSPA:マルチラベル画像認識のためのゲーテッドアライメント付き分割合成プロンプト

SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition ( http://arxiv.org/abs/2407.20920v1 )

ライセンス: Link先を確認
Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei, Stan Z. Li, (参考訳) マルチラベル画像認識はコンピュータビジョンの基本課題である。 近年,VLM (Vision-Language Models) が注目されている。 しかし、従来の手法は言語モデルにおける豊富な知識を効果的に活用できず、しばしばラベルセマンティクスを視覚的特徴に一方向的に組み込む。 これらの問題を解決するために,VLMの可能性を増幅するSSPA(Split-and-Synthesize Prompting)フレームワークを提案する。 具体的には、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。 次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。 さらに、Gated Dual-Modal Alignments (GDMA) を用いて、視覚的・言語的モダリティを双方向に相互作用させ、冗長なクロスモーダル情報を排除し、より効率的な地域レベルのアライメントを実現する。 従来の研究では,最終的な予測をシャープな方法で行うのではなく,全ての画像領域の結果を共同で検討するソフトアグリゲータを提案する。 フレキシブルなプロンプトとゲートアライメントの助けを借りて、SSPAは特定のドメインに一般化できる。 3つの領域(自然、歩行者属性、リモートセンシング)の9つのデータセットに対する大規模な実験は、SSPAの最先端性能を実証している。 さらに、SSPの有効性とGDMAの解釈可能性を検証する。 コードは公開されます。

Multi-label image recognition is a fundamental task in computer vision. Recently, Vision-Language Models (VLMs) have made notable advancements in this area. However, previous methods fail to effectively leverage the rich knowledge in language models and often incorporate label semantics into visual features unidirectionally. To overcome these problems, we propose a Split-and-Synthesize Prompting with Gated Alignments (SSPA) framework to amplify the potential of VLMs. Specifically, we develop an in-context learning approach to associate the inherent knowledge from LLMs. Then we propose a novel Split-and-Synthesize Prompting (SSP) strategy to first model the generic knowledge and downstream label semantics individually and then aggregate them carefully through the quaternion network. Moreover, we present Gated Dual-Modal Alignments (GDMA) to bidirectionally interact visual and linguistic modalities while eliminating redundant cross-modal information, enabling more efficient region-level alignments. Rather than making the final prediction by a sharp manner in previous works, we propose a soft aggregator to jointly consider results from all image regions. With the help of flexible prompting and gated alignments, SSPA is generalizable to specific domains. Extensive experiments on nine datasets from three domains (i.e., natural, pedestrian attributes and remote sensing) demonstrate the state-of-the-art performance of SSPA. Further analyses verify the effectiveness of SSP and the interpretability of GDMA. The code will be made public.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# テストスイートから不要なスタブを自動的に除去する

Automatically Removing Unnecessary Stubbings from Test Suites ( http://arxiv.org/abs/2407.20924v1 )

ライセンス: Link先を確認
Mengzhen Li, Mattia Fazzini, (参考訳) 現代のソフトウェアシステムのほとんどは、多くのコンポーネントによって特徴づけられ、そのコンポーネントは相互作用がテスト活動に影響を与え、複雑化する。 テスト中、開発者はテストダブルとスタブを使ってテスト中のコードを分離することで、インタラクションを説明できる。 テストスイートの進化の間、スタブは不要になり、開発者は不要なスタブを削除する必要がある。 残念なことに、不要なスタブを削除することは、まだ手作業であり、複雑で時間を要する可能性がある。 このタスクを支援するために、テストスイートから不要なスタブを自動的に除去するテクニックであるARUSを提案する。 ソフトウェアプロジェクトとそのテストスイートが与えられたら、このテクニックは不要なスタブを識別するためにテストを実行し、スタブの特性に基づいて異なるアプローチでそれらを除去する。 私たちは、Mockitoをスタブに使用し、280のスタブ定義を含む、1,529の不要なスタブに繋がる128のJavaプロジェクトに基づいて、実証的な評価を行いました。 全体として、我々の技術は276の定義(98.6%の解決率)に対する解決策を提供し、ARUSの時間コストは無視可能であり、平均して、この技術の変更はコードの複雑さを限定的に増加させます。 私たちはプルリクエストを通じてARUSの変更をプロジェクトに提出し、83の解決はすでに統合されています。

Most modern software systems are characterized by a high number of components whose interactions can affect and complicate testing activities. During testing, developers can account for the interactions by isolating the code under test using test doubles and stubbings. During the evolution of a test suite, stubbings might become unnecessary, and developers should remove unnecessary stubbings, as their definitions can introduce unreliable test results in future versions of the test suite. Unfortunately, removing unnecessary stubbings is still a manual task that can be complex and time-consuming. To help developers in this task, we propose ARUS, a technique to automatically remove unnecessary stubbings from test suites. Given a software project and its test suite, the technique executes the tests to identify unnecessary stubbings and then removes them using different approaches based on the characteristics of the stubbings. We performed an empirical evaluation based on 128 Java projects that use Mockito for stubbing and contain 280 stubbing definitions that lead to 1,529 unnecessary stubbings. Overall, our technique provides a solution for 276 of the definitions (98.6% resolution rate), ARUS' time cost is negligible, and, on average, the technique's changes introduce a limited increase in code complexity. We submitted ARUS' changes to the projects through pull requests and 83 resolutions are already merged.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# UniProcessor: テキストによる統一低レベルイメージプロセッサ

UniProcessor: A Text-induced Unified Low-level Image Processor ( http://arxiv.org/abs/2407.20928v1 )

ライセンス: Link先を確認
Huiyu Duan, Xiongkuo Min, Sijing Wu, Wei Shen, Guangtao Zhai, (参考訳) 画像復元、画像強調等を含む画像処理は、劣化した入力から高品質なクリーンな画像を生成する。 深層学習に基づく手法は、単一タスク条件で様々な画像処理タスクに優れた性能を示す。 しかし、異なる分解とレベルのための別々のモデルを訓練する必要があるため、これらのモデルの一般化能力は制限され、実世界の応用は制限される。 本論文では,低レベル視覚タスクのためのテキスト誘起統合画像処理,UniProcessorを提案し,様々な劣化タイプやレベルを効果的に処理し,マルチモーダル制御をサポートする。 具体的には、UniProcessorは、対象のプロンプトで劣化特異的情報をエンコードし、操作プロンプトでプロセス劣化を処理します。 これらのコンテキスト制御機能は、処理手順を制御するためにクロスアテンションを介してUniProcessorのバックボーンに注入される。 提案手法により, 汎用低レベル劣化認識のための視覚言語モデルをさらに構築する。 我々のUniProcessorは、30の分解タイプをカバーしており、我々のUniProcessorは、追加のトレーニングやチューニングなしに、これらの分解を適切に処理し、他の競合するメソッドより優れています。 さらに、劣化認識コンテキスト制御の助けを借りて、我々のUniProcessorはまず、複数の劣化を伴う画像の1つの歪みを個別に扱う能力を示す。

Image processing, including image restoration, image enhancement, etc., involves generating a high-quality clean image from a degraded input. Deep learning-based methods have shown superior performance for various image processing tasks in terms of single-task conditions. However, they require to train separate models for different degradations and levels, which limits the generalization abilities of these models and restricts their applications in real-world. In this paper, we propose a text-induced unified image processor for low-level vision tasks, termed UniProcessor, which can effectively process various degradation types and levels, and support multimodal control. Specifically, our UniProcessor encodes degradation-specific information with the subject prompt and process degradations with the manipulation prompt. These context control features are injected into the UniProcessor backbone via cross-attention to control the processing procedure. For automatic subject-prompt generation, we further build a vision-language model for general-purpose low-level degradation perception via instruction tuning techniques. Our UniProcessor covers 30 degradation types, and extensive experiments demonstrate that our UniProcessor can well process these degradations without additional training or tuning and outperforms other competing methods. Moreover, with the help of degradation-aware context control, our UniProcessor first shows the ability to individually handle a single distortion in an image with multiple degradations.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# 不完全クエリの完全近似

Complete Approximations of Incomplete Queries ( http://arxiv.org/abs/2407.20932v1 )

ライセンス: Link先を確認
Julien Corman, Werner Nutt, Ognjen Savković, (参考訳) 本稿では,部分完全データベース上の連結クエリの完全性と不完全クエリの近似について検討する。 クエリと、データベースのどの部分が完成しているかを指定する一連の完全性ルール(特別な種類のタプル生成依存)を与えられた場合、クエリが完全に答えられるかどうかを、まるですべてのデータが利用可能であるかのように調査する。 もしそうでなければ、クエリを最大完全特殊化(MCSs)または最小完全一般化(MCG)に再構成することを検討する。 我々は,MSGを単調作用素の事前順序における最小固定点として特徴付けることができることを示す。 次に, 完全性ルールの再帰的後方適用により, MCSを計算可能であることを示す。 本稿では,ASP と Prolog エンジンに依存した実装手法について考察する。

This paper studies the completeness of conjunctive queries over a partially complete database and the approximation of incomplete queries. Given a query and a set of completeness rules (a special kind of tuple generating dependencies) that specify which parts of the database are complete, we investigate whether the query can be fully answered, as if all data were available. If not, we explore reformulating the query into either Maximal Complete Specializations (MCSs) or the (unique up to equivalence) Minimal Complete Generalization (MCG) that can be fully answered, that is, the best complete approximations of the query from below or above in the sense of query containment. We show that the MSG can be characterized as the least fixed-point of a monotonic operator in a preorder. Then, we show that an MCS can be computed by recursive backward application of completeness rules. We study the complexity of both problems and discuss implementation techniques that rely on an ASP and Prolog engines, respectively.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# フェルミオン線形光度は4キュービットパリティ固有状態に対して乗法的である

The fermionic linear optical extent is multiplicative for 4 qubit parity eigenstates ( http://arxiv.org/abs/2407.20934v1 )

ライセンス: Link先を確認
Oliver Reardon-Smith, (参考訳) フェルミオン線形光学(Fermionic linear optical, FLO)は、量子回路の「量子性」(または非古典性)の尺度である。 第二に、古典的なシミュレーションアルゴリズムのクラスの実行を制御しており、これは、主にFLOユニタリーで構成された量子回路をシミュレーションするための最先端技術である。 したがって、回路にマジック状態が加わったときのスケーリングの振る舞いを理解することは興味深い。 本研究では,4$-qubitパリティ固有状態の場合のこの問題を解決する。 任意の純状態のテンソル積と4$ qubitパリティ固有状態の FLO の範囲は、2つのテンソル因子の範囲の積であることを示す。 この結果を再帰的に適用すると、その範囲は 4$ qubit のマジック状態の任意のテンソル積に対して乗法的であるという予想が証明される。

The Fermionic linear optical (FLO) extent is a quantity that serves two roles, firstly it serves as a measure of the "quantumness" (or non-classicality) of quantum circuits. Secondly it controls the runtime of a class of classical simulation algorithms, which are state-of-the-art for simulating quantum circuits formed mostly of FLO unitaries and promoted to universality by the addition of ``magic states''. It is therefore interesting to understand the scaling behaviour of the extent as magic states are added to a circuit. In this work we solve this problem for the case of $4$-qubit parity eigenstates. We show that the FLO extent of a tensor product of any pure state and a $4$ qubit parity eigenstate is the product of the extents of the two tensor factors. Applying this result recursively one proves a conjecture that the extent is multiplicative for arbitrary tensor products of $4$ qubit magic states.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# 固体量子エミッタの非古典励起

Non-classical excitation of a solid-state quantum emitter ( http://arxiv.org/abs/2407.20936v1 )

ライセンス: Link先を確認
Lena M. Hansen, Francesco Giorgino, Lennart Jehle, Lorenzo Carosini, Juan Camilo López Carreño, Iñigo Arrazola, Philip Walther, Juan C. Loredo, (参考訳) 1つのエミッターと1つの光子の間の相互作用は、量子光学の基本的な側面である。 この相互作用は、エミッターによる単一光子散乱や効果的な光子-光子相互作用など、様々な量子過程の研究を可能にする。 しかし、このシナリオとその力学に関する経験的な観察は稀であり、多くの場合、完全に量子化されたケースに対する部分的な近似のみが可能である。 ここでは、量子化入力光を用いた固体量子エミッタの共振励起を実演する。 両物質を定量化したこの光-物質相互作用において,光子干渉をコヒーレント散乱過程,光子数依存光非線形性,および2つの光子のみを含む励起放出過程において観測する。 理論的には、ケースケードマスター方程式モデルを用いて観測を再現する。 以上の結果から, 固体量子エミッタの状態を変化させるには単一光子で十分であり, 効率的な光子-光子相互作用が実現可能であることが示唆された。 これらの結果は、量子ネットワークにおける量子情報転送の実現から、フォトニック量子コンピューティングのための決定論的エンタングゲートの構築まで、将来の可能性について示唆している。

The interaction between a single emitter and a single photon is a fundamental aspect of quantum optics. This interaction allows for the study of various quantum processes, such as emitter-mediated single-photon scattering and effective photon-photon interactions. However, empirical observations of this scenario and its dynamics are rare, and in most cases, only partial approximations to the fully quantized case have been possible. Here, we demonstrate the resonant excitation of a solid-state quantum emitter using quantized input light. For this light-matter interaction, with both entities quantized, we observe single-photon interference introduced by the emitter in a coherent scattering process, photon-number-depended optical non-linearities, and stimulated emission processes involving only two photons. We theoretically reproduce our observations using a cascaded master equation model. Our findings demonstrate that a single photon is sufficient to change the state of a solid-state quantum emitter, and efficient emitter-mediated photon-photon interactions are feasible. These results suggest future possibilities ranging from enabling quantum information transfer in a quantum network to building deterministic entangling gates for photonic quantum computing.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# EAR:両平面X線画像からの3次元椎骨構造のエッジアウェア再構成

EAR: Edge-Aware Reconstruction of 3-D vertebrae structures from bi-planar X-ray images ( http://arxiv.org/abs/2407.20937v1 )

ライセンス: Link先を確認
Lixing Tan, Shuang Song, Yaofeng He, Kangneng Zhou, Tong Lu, Ruoxiu Xiao, (参考訳) X線画像は、画像の高速化と高解像度化により、診断と治療のプロセスが簡単になる。 しかし、X線画像の投影過程により、多くの空間情報が失われている。 2次元X線画像から脊椎の3次元構造を再構築することが不可欠である、効率的な脊椎形態及び構造情報を高精度に提供すること。 現状の再建法では、非対称の椎骨構造の縁情報と局所的な形状を保存することは困難である。 本研究では,新しいエッジ・アウェア・コンストラクション・ネットワーク(EAR)を提案する。 本稿では,自動エンコーダアーキテクチャをバックボーンとして,エッジアテンションモジュールと周波数拡張モジュールを提案する。 また、再建損失、エッジ損失、周波数損失、投射損失の4つの損失項を組み合わせる。 提案手法は3つの公開データセットを用いて評価し、4つの最先端モデルと比較した。 提案手法は, MSE, MAE, Dice, SSIM, PSNR, 周波数距離に関して, 25.32%, 15.32%, 86.44%, 80.13%, 23.7612, 0.3014 である。 エンドツーエンドで正確な再建プロセスのため、EARは十分な3次元空間情報と正確な手術計画ガイダンスを提供することができる。

X-ray images ease the diagnosis and treatment process due to their rapid imaging speed and high resolution. However, due to the projection process of X-ray imaging, much spatial information has been lost. To accurately provide efficient spinal morphological and structural information, reconstructing the 3-D structures of the spine from the 2-D X-ray images is essential. It is challenging for current reconstruction methods to preserve the edge information and local shapes of the asymmetrical vertebrae structures. In this study, we propose a new Edge-Aware Reconstruction network (EAR) to focus on the performance improvement of the edge information and vertebrae shapes. In our network, by using the auto-encoder architecture as the backbone, the edge attention module and frequency enhancement module are proposed to strengthen the perception of the edge reconstruction. Meanwhile, we also combine four loss terms, including reconstruction loss, edge loss, frequency loss and projection loss. The proposed method is evaluated using three publicly accessible datasets and compared with four state-of-the-art models. The proposed method is superior to other methods and achieves 25.32%, 15.32%, 86.44%, 80.13%, 23.7612 and 0.3014 with regard to MSE, MAE, Dice, SSIM, PSNR and frequency distance. Due to the end-to-end and accurate reconstruction process, EAR can provide sufficient 3-D spatial information and precise preoperative surgical planning guidance.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# グラフェンジョセフソン接合上の単一不純物の局所解析

Local analysis of a single impurity on a graphene Josephson Junction ( http://arxiv.org/abs/2407.20940v1 )

ライセンス: Link先を確認
Ignazio Vacante, Francesco M. D. Pellegrino, Giuseppe Falci, Elisabetta Paladino, (参考訳) 本研究では,短距離不純物が短距離グラフェンジョセフソン接合の電子系に及ぼす影響について検討する。 Dirac-Bogoliubov-De Gennes 法では局所密度状態を系統的に解析し,その部分ギャップエネルギー依存性により弾性散乱過程と非弾性散乱過程を識別し,不純物の磁気的性質を同定する。 さらに、状態の局所密度の空間的依存性は、サブギャップ不純物誘起境界状態をもたらす顕微鏡過程の感度プローブであることが観察された。 フーリエ解析は、グラフェンの高透過チャネルのモータに関連する波動ベクトルを証明している。

In this work, we investigate the local effects of a single short-range impurity on the electron system of a short ballistic graphene Josephson Junction. Within the Dirac-Bogoliubov-De Gennes approach, we systematically analyze the local density states, whose subgap energy dependence enables us to distinguish between elastic and inelastic scattering processes and identify the magnetic nature of the impurity. Furthermore, we observe that the spatial dependence of the local density of states is a sensitive probe of the microscopic processes resulting in subgap impurity-induced bound states. The Fourier analysis evidences the wavevectors related to the momenta of the high transmissive channels in ballistic graphene.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# マルチオクタベを用いた低周波超伝導量子ネットワークの提案

Proposal for Superconducting Quantum Networks Using Multi-Octave Transduction to Lower Frequencies ( http://arxiv.org/abs/2407.20943v1 )

ライセンス: Link先を確認
Takuma Makihara, Wentao Jiang, Amir H. Safavi-Naeini, (参考訳) 低温同軸ケーブルを用いた伝送のために、その励起(典型的には4-8GHz)を100-500MHzの光子に変換して超伝導量子回路を提案する。 対向的に、この周波数ダウンコンバージョンはノイズと伝送損失を減少させる。 本稿では,高効率かつ高速な伝送が可能なマルチオクターブ非対称SQUID回路(MOATS)を提案する。 Q_i = 10^5$ at 10 mKの100mケーブルでは,200MHzで0.962,8GHzで0.772,量子チャネル容量で3倍の低限界を実現している。 この方法は高忠実度を維持しつつ、キロスケールの量子リンクを可能にし、改良された性能とフレキシブルでコンパクトな同軸ケーブルの実用的利点を組み合わせる。

We propose networking superconducting quantum circuits by transducing their excitations (typically 4-8 GHz) to 100-500 MHz photons for transmission via cryogenic coaxial cables. Counter-intuitively, this frequency downconversion reduces noise and transmission losses. We introduce a multi-octave asymmetrically threaded SQUID circuit (MOATS) capable of the required efficient, high-rate transduction. For a 100-meter cable with $Q_i = 10^5$ at 10 mK, our approach achieves single-photon fidelities of 0.962 at 200 MHz versus 0.772 at 8 GHz, and triples the lower bound on quantum channel capacity. This method enables kilometer-scale quantum links while maintaining high fidelities, combining improved performance with the practical advantages of flexible, compact coaxial cables.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# SNN推論のための非同期マルチコア加速器

An Asynchronous Multi-core Accelerator for SNN inference ( http://arxiv.org/abs/2407.20947v1 )

ライセンス: Link先を確認
Zhuo Chen, De Ma, Xiaofei Jin, Qinghui Xing, Ouwen Jin, Xin Du, Shuibing He, Gang Pan, (参考訳) スパイキングニューラルネットワーク(SNN)は脳にインスパイアされたコンピューティングと神経科学の研究に広く利用されている。 SNNの高速化とエネルギー効率向上のために、複数のマルチコア加速器が開発された。 しかし、SNNの精度を維持するには、全てのコア間で頻繁に明示的な同期が必要であるため、全体的な効率性に課題が生じる。 本稿では,スパイキングニューラルネットワーク(SNN)の非同期アーキテクチャを提案する。 このアプローチは、コンパイル中に確立されたニューロモルフィックコアの事前決定された依存関係を活用する。 各コアは、依存関係の状態を監視するスケジューラを備えており、他のコアを待つことなく、安全に次のタイムステップに進むことができる。 これは、グローバル同期の必要性を排除し、固有のワークロードの不均衡にもかかわらず、コア待ち時間を最小化する。 5つの異なるSNNワークロードを用いた総合評価では、我々のアーキテクチャは、最先端の同期アーキテクチャと比較して1.86倍の高速化と1.55倍のエネルギー効率を達成する。

Spiking Neural Networks (SNNs) are extensively utilized in brain-inspired computing and neuroscience research. To enhance the speed and energy efficiency of SNNs, several many-core accelerators have been developed. However, maintaining the accuracy of SNNs often necessitates frequent explicit synchronization among all cores, which presents a challenge to overall efficiency. In this paper, we propose an asynchronous architecture for Spiking Neural Networks (SNNs) that eliminates the need for inter-core synchronization, thus enhancing speed and energy efficiency. This approach leverages the pre-determined dependencies of neuromorphic cores established during compilation. Each core is equipped with a scheduler that monitors the status of its dependencies, allowing it to safely advance to the next timestep without waiting for other cores. This eliminates the necessity for global synchronization and minimizes core waiting time despite inherent workload imbalances. Comprehensive evaluations using five different SNN workloads show that our architecture achieves a 1.86x speedup and a 1.55x increase in energy efficiency compared to state-of-the-art synchronization architectures.
翻訳日:2024-07-31 16:40:36 公開日:2024-07-30
# ドパニム:複数の人間からの騒々しい注釈付きドッペルガンガー動物のデータセット

dopanim: A Dataset of Doppelganger Animals with Noisy Annotations from Multiple Humans ( http://arxiv.org/abs/2407.20950v1 )

ライセンス: Link先を確認
Marek Herde, Denis Huseljic, Lukas Rauch, Bernhard Sick, (参考訳) 人間のアノテーションは通常、ニューラルネットワークのような機械学習モデルをトレーニングするための注釈付きデータを提供する。 しかし、人間のアノテーションはノイズにさらされ、一般化性能を損なう。 ノイズに対処する手法の研究は、有意義な経験的評価のために対応するデータセットを必要とする。 その結果,15種類の動物画像と地中真理ラベルからなる新しいベンチマークデータセットであるdopanimを導入した。 これらの画像のうち約10,500枚において、20人の人間が52,000点以上のアノテーションを提供し、精度は67%だった。 主な属性は,(1)ドッペルガンガー動物分類の課題,(2)アノテーションとしての人間推定可能性,(3)アノテータメタデータである。 我々は、このデータセットの7つの変種を用いて、よく知られたマルチアノテーション学習アプローチをベンチマークし、ハードクラスラベルを超える学習やアクティブラーニングといったさらなる評価ユースケースについて概説する。 我々のデータセットと包括的コードベースは、データ収集プロセスをエミュレートし、すべての経験的な結果を再現するために公開されています。

Human annotators typically provide annotated data for training machine learning models, such as neural networks. Yet, human annotations are subject to noise, impairing generalization performances. Methodological research on approaches counteracting noisy annotations requires corresponding datasets for a meaningful empirical evaluation. Consequently, we introduce a novel benchmark dataset, dopanim, consisting of about 15,750 animal images of 15 classes with ground truth labels. For approximately 10,500 of these images, 20 humans provided over 52,000 annotations with an accuracy of circa 67%. Its key attributes include (1) the challenging task of classifying doppelganger animals, (2) human-estimated likelihoods as annotations, and (3) annotator metadata. We benchmark well-known multi-annotator learning approaches using seven variants of this dataset and outline further evaluation use cases such as learning beyond hard class labels and active learning. Our dataset and a comprehensive codebase are publicly available to emulate the data collection process and to reproduce all empirical results.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# AIデータ集約システムの開発における人権影響評価(HRIA)のエビデンスに基づく方法論

An evidence-based methodology for human rights impact assessment (HRIA) in the development of AI data-intensive systems ( http://arxiv.org/abs/2407.20951v1 )

ライセンス: Link先を確認
Alessandro Mantelero, Maria Samantha Esposito, (参考訳) 人工知能(AI)の課題に対処するさまざまなアプローチが採用されており、一部は個人データ、その他は倫理に重点を置いており、それぞれがAI規制の範囲を狭め、拡大している。 この貢献は、データ集約システムの影響を規制する上で人権が果たす役割の認識から始まり、第三の方法が可能であることを示すことを目的としている。 人権への焦点はパラダイムシフトでも理論的なエクササイズでもない。 6か国のデータ保護当局の700以上の決定と文書の分析を通じて、すでに人権がデータ利用の分野で決定を下していることを示す。 本研究は, この証拠の実証分析に基づいて, HRIA(Human Rights Impact Assessment)の方法論とモデルを示す。 方法論と関連するアセスメントモデルは、HRIA方法論の適切なコンテキスト化を必要とする性質とスケールを必要とするAIアプリケーションに焦点を当てている。 さらに,提案モデルでは,リスクしきい値を中心とした規制提案と一致したリスク評価に対して,より測定可能なアプローチを提供する。 提案手法は,具体的ケーススタディで検証し,その有効性と有効性を示す。 全体的な目標は、単なる理論的議論から、AIに基づいたデータ集約型アプリケーション分野における具体的かつコンテキスト固有の実装へと移行する、HRIAへの関心の高まりに対応することだ。

Different approaches have been adopted in addressing the challenges of Artificial Intelligence (AI), some centred on personal data and others on ethics, respectively narrowing and broadening the scope of AI regulation. This contribution aims to demonstrate that a third way is possible, starting from the acknowledgement of the role that human rights can play in regulating the impact of data-intensive systems. The focus on human rights is neither a paradigm shift nor a mere theoretical exercise. Through the analysis of more than 700 decisions and documents of the data protection authorities of six countries, we show that human rights already underpin the decisions in the field of data use. Based on empirical analysis of this evidence, this work presents a methodology and a model for a Human Rights Impact Assessment (HRIA). The methodology and related assessment model are focused on AI applications, whose nature and scale require a proper contextualisation of HRIA methodology. Moreover, the proposed models provide a more measurable approach to risk assessment which is consistent with the regulatory proposals centred on risk thresholds. The proposed methodology is tested in concrete case-studies to prove its feasibility and effectiveness. The overall goal is to respond to the growing interest in HRIA, moving from a mere theoretical debate to a concrete and context-specific implementation in the field of data-intensive applications based on AI.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 2段階のアンタングルと機能的表現による感情駆動型ピアノ音楽生成

Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation ( http://arxiv.org/abs/2407.20955v1 )

ライセンス: Link先を確認
Jingyue Huang, Ke Chen, Yi-Hsuan Yang, (参考訳) 感情的な側面を管理することは、自動音楽生成の課題である。 先行研究は、様々な感情を一度に学習することを目的としており、不十分なモデリングにつながっている。 本稿では,ピアノ演奏における感情のゆがみについて,2段階の枠組みを用いて検討する。 第1段階はリードシートの原子価モデリングに焦点をあて、第2段階は性能レベル属性の導入による覚醒モデルに対処する。 従来のアプローチでは見つからない特徴である原子価を形作る特徴を更に捉えるために,記号音楽の新たな機能表現を導入する。 この表現は、音符、和音、キーシグネチャ間の相互作用と同様に、主要なマイノリティの感情的な影響を捉えることを目的としている。 主観的および主観的な実験は、感情的原子価と覚醒的モデルの両方において、我々の枠組みの有効性を検証する。 我々は、感情制御の新しい応用において、我々の枠組みをさらに活用し、感情駆動音楽生成の幅広い可能性を示す。

Managing the emotional aspect remains a challenge in automatic music generation. Prior works aim to learn various emotions at once, leading to inadequate modeling. This paper explores the disentanglement of emotions in piano performance generation through a two-stage framework. The first stage focuses on valence modeling of lead sheet, and the second stage addresses arousal modeling by introducing performance-level attributes. To further capture features that shape valence, an aspect less explored by previous approaches, we introduce a novel functional representation of symbolic music. This representation aims to capture the emotional impact of major-minor tonality, as well as the interactions among notes, chords, and key signatures. Objective and subjective experiments validate the effectiveness of our framework in both emotional valence and arousal modeling. We further leverage our framework in a novel application of emotional controls, showing a broad potential in emotion-driven music generation.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 連続学習のための効果的な動的勾配校正法

An Effective Dynamic Gradient Calibration Method for Continual Learning ( http://arxiv.org/abs/2407.20956v1 )

ライセンス: Link先を確認
Weichen Lin, Jiaxiang Chen, Ruomin Huang, Hu Ding, (参考訳) 継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。 メモリ制限のため、すべての履歴データを保存できないため、「破滅的忘れ」問題、すなわち、前回のタスクのパフォーマンスは、後期の情報不足により著しく低下する可能性がある。 多くのエレガントな方法が提案されているが、破滅的な忘れ現象は実際には避けられない。 本稿では, モデル更新の各段階における勾配の校正を効果的に行うアルゴリズムを開発することを目的として, 勾配の観点から問題を考察する; すなわち, 大量の歴史的データが利用できない状況下で, モデル更新を正しい方向に導くことを目的としている。 我々のアイデアは、確率勾配降下アルゴリズムにおける勾配推定のばらつきを低減するための半音階確率分散低減法(例えば、SVRG、SAGA)に部分的にインスパイアされている。 もう一つの利点は、我々のアプローチが汎用ツールとして利用でき、より優れたパフォーマンスを達成するために、いくつかの一般的なCLメソッドを組み込むことができることです。 また、いくつかのベンチマークデータセット上で、実際のパフォーマンスを評価するための一連の実験も行います。

Continual learning (CL) is a fundamental topic in machine learning, where the goal is to train a model with continuously incoming data and tasks. Due to the memory limit, we cannot store all the historical data, and therefore confront the ``catastrophic forgetting'' problem, i.e., the performance on the previous tasks can substantially decrease because of the missing information in the latter period. Though a number of elegant methods have been proposed, the catastrophic forgetting phenomenon still cannot be well avoided in practice. In this paper, we study the problem from the gradient perspective, where our aim is to develop an effective algorithm to calibrate the gradient in each updating step of the model; namely, our goal is to guide the model to be updated in the right direction under the situation that a large amount of historical data are unavailable. Our idea is partly inspired by the seminal stochastic variance reduction methods (e.g., SVRG and SAGA) for reducing the variance of gradient estimation in stochastic gradient descent algorithms. Another benefit is that our approach can be used as a general tool, which is able to be incorporated with several existing popular CL methods to achieve better performance. We also conduct a set of experiments on several benchmark datasets to evaluate the performance in practice.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 分子シミュレーションにおける断熱・変分アルゴリズムのショートカット

Shortcuts for Adiabatic and Variational Algorithms in Molecular Simulation ( http://arxiv.org/abs/2407.20957v1 )

ライセンス: Link先を確認
Julián Ferreiro-Vélez, Iñaki Iriarte-Zendoia, Yue Ban, Xi Chen, (参考訳) 量子アルゴリズムは、様々な計算タスクにおいて量子優位性を達成するために顕著である。 しかし、量子ビットコヒーレンスや短期デバイスにおける高いエラー率といった問題に対処するには、広範囲な努力が必要である。 本稿では,分子基底状態を計算するために,ショートカット・トゥ・アディバティティティ手法をアディバティクスおよび変分アルゴリズムに組み込むことにより,量子化学における実質的な進歩を示す。 我々のアプローチは、断熱誤差を緩和することで断熱進化を加速する反断熱駆動を含む。 さらに, 変分量子固有解法において, 回路深度を小さくし, コンバージェンス特性を良好に発揮し, 回路深度を下げるアダバティックゲージアンサッツとして, 反断熱項を導入する。 提案手法は, 物質科学, 薬物発見, 分子シミュレーションの応用の可能性を高めつつ, 既存のアンサーゼと同等の精度を実現している。

Quantum algorithms are prominent in the pursuit of achieving quantum advantage in various computational tasks. However, addressing challenges, such as limited qubit coherence and high error rate in near-term devices, requires extensive efforts. In this paper, we present a substantial stride in quantum chemistry by integrating shortcuts-to-adiabaticity techniques into adiabatic and variational algorithms for calculating the molecular ground state. Our approach includes the counter-diabatic driving that accelerates adiabatic evolution by mitigating adiabatic errors. Additionally, we introduce the counter-diabatic terms as the adiabatic gauge ansatz for the variational quantum eigensolver, which exhibits favorable convergence properties with a fewer number of parameters, thereby reducing the circuit depth. Our approach achieves comparable accuracy to other established ansatzes, while enhancing the potential for applications in material science, drug discovery, and molecular simulations.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# セマンティックセグメンテーションにおける学習規則

Learning Ordinality in Semantic Segmentation ( http://arxiv.org/abs/2407.20959v1 )

ライセンス: Link先を確認
Rafael Cristino, Ricardo P. M. Cruz, Jaime S. Cardoso, (参考訳) セマンティックセグメンテーションは、各画像ピクセルのセマンティックラベルを予測することで構成される。 従来のディープラーニングモデルは、手元にドメインに存在する可能性のある順序関係を生かしていない。 例えば、瞳孔は虹彩の内側にあり、車線標識は道路の内側にあることが知られている。 このようなドメイン知識は、モデルをより堅牢にするための制約として利用することができる。 この話題に関する現在の文献は、各ピクセルを独立した観察として扱い、その表現における順序性を促進するピクセル単位の順序分節法を探求している。 本稿では,各画素を周辺環境に依存した観察として考慮し,空間空間の空間的整合性も促進する,新しい空間的順序分割法を提案する。 5つのバイオメディカルデータセットと自律運転データセットの複数構成で評価すると、規則的手法はより規則的に一貫性のあるモデルとなり、順序的指標は大幅に改善され、Dice係数は若干向上した。 また、順序整合性の導入により、より優れた一般化能力を持つモデルが得られることを示した。

Semantic segmentation consists of predicting a semantic label for each image pixel. Conventional deep learning models do not take advantage of ordinal relations that might exist in the domain at hand. For example, it is known that the pupil is inside the iris, and the lane markings are inside the road. Such domain knowledge can be employed as constraints to make the model more robust. The current literature on this topic has explored pixel-wise ordinal segmentation methods, which treat each pixel as an independent observation and promote ordinality in its representation. This paper proposes novel spatial ordinal segmentation methods, which take advantage of the structured image space by considering each pixel as an observation dependent on its neighborhood context to also promote ordinal spatial consistency. When evaluated with five biomedical datasets and multiple configurations of autonomous driving datasets, ordinal methods resulted in more ordinally-consistent models, with substantial improvements in ordinal metrics and some increase in the Dice coefficient. It was also shown that the incorporation of ordinal consistency results in models with better generalization abilities.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# MMTrail: 言語と音楽の説明付きマルチモーダルトレーサビデオデータセット

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions ( http://arxiv.org/abs/2407.20962v1 )

ライセンス: Link先を確認
Xiaowei Chi, Yatian Wang, Aosong Cheng, Pengjun Fang, Zeyue Tian, Yingqing He, Zhaoyang Liu, Xingqun Qi, Jiahao Pan, Rongyu Zhang, Mengfei Li, Ruibin Yuan, Yanbing Jiang, Wei Xue, Wenhan Luo, Qifeng Chen, Shanghang Zhang, Qifeng Liu, Yike Guo, (参考訳) 大規模なマルチモダリティデータセットは、大規模なビデオ言語モデルの成功を促進する上で重要な役割を果たす。 しかし、現在のビデオ言語データセットは、音声が弱い関連情報であることを考慮して、主に視覚フレームのテキスト記述を提供する。 彼らは通常、固有のオーディオと視覚の相関の可能性を探り、包括的で正確な記述ではなく、各モダリティ内で単調なアノテーションをもたらす。 このような無知は、複数のモダリティ研究の難しさをもたらす。 このギャップを埋めるため、MMTrailは、ビジュアルキャプション付き2000万本以上のトレーラークリップと、マルチモーダルキャプション付き2万本以上の高品質クリップを組み込んだ大規模なマルチモーダルビデオ言語データセットである。 トレーラーはフル長のビデオ作品をプレビューし、コンテキスト、ビジュアルフレーム、バックグラウンド音楽を統合する。 特に、トレーラーには、(1)トピックは多様であり、コンテンツキャラクタは、例えば、映画、ニュース、ゲームなど、多種多様である。 2) 対応する背景音楽はカスタム設計され,視覚的コンテキストとの一貫性が向上する。 これらの知見に基づき,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。 ここでは,視覚的文脈の権威を保ちながら音楽の視点を確実に保ちつつ,全てのアノテーションを適応的にマージする高度LLMを活用する。 このようにして、我々のMMtrailデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。 実験では,データセット上で評価指標とベンチマーク結果を提供し,アノテーションの高品質さとモデルトレーニングの有効性を実証した。

Massive multi-modality datasets play a significant role in facilitating the success of large video-language models. However, current video-language datasets primarily provide text descriptions for visual frames, considering audio to be weakly related information. They usually overlook exploring the potential of inherent audio-visual correlation, leading to monotonous annotation within each modality instead of comprehensive and precise descriptions. Such ignorance results in the difficulty of multiple cross-modality studies. To fulfill this gap, we present MMTrail, a large-scale multi-modality video-language dataset incorporating more than 20M trailer clips with visual captions, and 2M high-quality clips with multimodal captions. Trailers preview full-length video works and integrate context, visual frames, and background music. In particular, the trailer has two main advantages: (1) the topics are diverse, and the content characters are of various types, e.g., film, news, and gaming. (2) the corresponding background music is custom-designed, making it more coherent with the visual context. Upon these insights, we propose a systemic captioning framework, achieving various modality annotations with more than 27.1k hours of trailer videos. Here, to ensure the caption retains music perspective while preserving the authority of visual context, we leverage the advanced LLM to merge all annotations adaptively. In this fashion, our MMtrail dataset potentially paves the path for fine-grained large multimodal-language model training. In experiments, we provide evaluation metrics and benchmark results on our dataset, demonstrating the high quality of our annotation and its effectiveness for model training.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# SoK: Payment Channel Networks

SoK: Payment Channel Networks ( http://arxiv.org/abs/2407.20968v1 )

ライセンス: Link先を確認
Kartick Kolachala, Mohammed Ababneh, Roopa Vishwanathan, (参考訳) オンチェーントランザクションに関連するスケーラビリティ、スループット、コストオーバーヘッドの代替ソリューションとして、ペイメントチャネルネットワーク(PCN)が提案されている。 トランザクションのオフチェーン実行を容易にすることで、PCNはブロックチェーンの負担を大幅に削減し、トランザクション処理の高速化、トランザクション手数料の削減、プライバシの向上を実現した。 これらの利点にもかかわらず、PCNの現在の研究は、さらなる探査を必要とする様々な研究課題を提示している。 本稿では、パスフィンディングやルーティング、仮想チャネル、状態チャネル、決済チャネルハブ、リバランシングなど、PCNの最近の研究について調査する。 本調査は,PCN研究における現状の詳細な理解を読者に提供することを目的としており,いくつかの重要な進展を浮き彫りにしている。 さらに,PCN研究の領域における未解決問題について紹介する。 具体的には,PCN研究における,学術・研究コミュニティからの即時的な注意を必要とする,興味深い課題と非自明な課題について述べる。 この課題に対処することで、興味のある読者がすぐに取り組むことができる最も急進的な問題と今後の研究方向性を特定することを目指している。 この分析を通じて、我々は研究者や実践者がこれらの課題に取り組み、PCNをより安全で多目的にすることを望む。

Payment Channel Networks (PCNs) have been proposed as an alternative solution to the scalability, throughput, and cost overhead associated with on-chain transactions. By facilitating offchain execution of transactions, PCNs significantly reduce the burden on the blockchain, leading to faster transaction processing, reduced transaction fees, and enhanced privacy. Despite these advantages, the current research in PCNs presents a variety of research challenges that require further exploration. In this paper, we survey the recent work in several aspects of PCNs, such as pathfinding and routing, virtual channels, state channels, payment channel hubs and rebalancing. This survey aims to provide the reader with a detailed understanding of the current state-of-the-art in PCN research, highlighting a few important advancements. Additionally, we highlight the various unresolved issues in the area of PCN research. Specifically, this paper seeks to answer the following crucial question: What are the various interesting and non-trivial challenges in PCN research that require immediate attention from the academic and research community? By addressing this question, we aim to identify the most pressing problems and future research directions that interested readers can immediately work on. Through this analysis, we hope to inspire researchers and practitioners to tackle these challenges to make PCNs more secure and versatile
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 分散対称性キー設定:スケーラブルな量子セーフキー配布プロトコル

Distributed Symmetric Key Establishment: a Scalable Quantum-Safe Key Distribution Protocol ( http://arxiv.org/abs/2407.20969v1 )

ライセンス: Link先を確認
Jie Lin, Hoi-Kwong Lo, Jacob Johannsson, Mattia Montagna, Manfred von Willich, (参考訳) 事前共有鍵(PSK)は、ネットワークセキュリティにおいて広く使われている。 しかし、既存のPSKソリューションはスケーラブルではない。 さらに、新しいユーザがネットワークに参加するたびに、PSKは既存のユーザに対して、新しいユーザと通信する前に、新しいキーを取得するように要求する。 鍵となる問題は、PSKを異なるユーザー間で配布する方法である。 本稿では,DSKE(Distributed Symmetric Key Establishment)と呼ばれる新しいプロトコルを提案することで,この問題を解決する。 DSKEはスケーラブルであるという利点がある。 計算仮定に依存する標準的な公開鍵基盤(PKI)とは異なり、DSKEは普遍的に構成可能なセキュリティフレームワークで情報理論のセキュリティを提供する。 具体的には、このプロトコルのセキュリティ(正確性と機密性)と堅牢性を、計算不能な敵に対して証明する。 DSKEは秘密の共有を通じて分散信頼も達成する。 本稿では,実環境におけるDSKEの実装について紹介する。例えば,クライアントサービスによる暗号化,ネットワーク暗号化,携帯電話のリンク,Security Hubsと呼ばれるインターメディアの実装,およびその汎用性を示すテストデータなどだ。 DSKEは、距離制限のないネットワーク環境で高度にスケーラブルであるため、量子コンピュータが提示するネットワークセキュリティの脅威に対して、費用対効果の高い量子セーフ暗号ソリューションであることが期待されている。

Pre-shared keys (PSK) have been widely used in network security. Nonetheless, existing PSK solutions are not scalable. Moreover, whenever a new user joins a network, PSK requires an existing user to get a new key before they are able to communicate with the new user. The key issue is how to distribute the PSK between different users. Here, we solve this problem by proposing a new protocol called Distributed Symmetric Key Establishment (DSKE). DSKE has the advantage of being scalable. Unlike standard public key infrastructure (PKI) which relies on computational assumptions, DSKE provides information-theoretic security in a universally composable security framework. Specifically, we prove the security (correctness and confidentiality) and robustness of this protocol against a computationally unbounded adversary, who additionally may have fully compromised a bounded number of the intermediaries and can eavesdrop on all communication. DSKE also achieves distributed trust through secret sharing. We present several implementations of DSKE in real environments, such as providing client services to link encryptors, network encryptors, and mobile phones, as well as the implementation of intermediaries, called Security Hubs, and associated test data as evidence for its versatility. As DSKE is highly scalable in a network setting with no distance limit, it is expected to be a cost-effective quantum-safe cryptographic solution to the network security threat presented by quantum computers.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# エッジベースIoTネットワークにおける意味コミュニケーションのための大規模言語モデル(LLM)

Large Language Models (LLMs) for Semantic Communication in Edge-based IoT Networks ( http://arxiv.org/abs/2407.20970v1 )

ライセンス: Link先を確認
Alakesh Kalita, (参考訳) 第5世代(5G)と第6世代(6G)の通信技術とIoT(Internet of Things)の出現に伴い、現在の通信技術はシャノンの限界に近づいているため、研究者の間でセマンティックコミュニケーションが注目されている。 一方、LLM(Large Language Models)は、数十億のパラメータを持つ多様なデータセットの広範なトレーニングに基づいて、人間のようなテキストを理解し、生成することができる。 本稿では、Edgeのような最近のニアソース計算技術を考慮すると、LLMをネットワークエッジにおけるセマンティック通信の傘の下に使用して、IoTネットワークにおける効率的な通信を実現するためのフレームワークの概要を述べる。 最後に、いくつかのアプリケーションについて議論し、そのようなシステムを開発するための課題と機会を分析する。

With the advent of Fifth Generation (5G) and Sixth Generation (6G) communication technologies, as well as the Internet of Things (IoT), semantic communication is gaining attention among researchers as current communication technologies are approaching Shannon's limit. On the other hand, Large Language Models (LLMs) can understand and generate human-like text, based on extensive training on diverse datasets with billions of parameters. Considering the recent near-source computational technologies like Edge, in this article, we give an overview of a framework along with its modules, where LLMs can be used under the umbrella of semantic communication at the network edge for efficient communication in IoT networks. Finally, we discuss a few applications and analyze the challenges and opportunities to develop such systems.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 反復的トランスバーサルCNOTデコーダ

An iterative transversal CNOT decoder ( http://arxiv.org/abs/2407.20976v1 )

ライセンス: Link先を確認
Kwok Ho Wan, Mark Webber, Austin G. Fowler, Winfried K. Hensinger, (参考訳) 閉じ込められたイオンや中性原子のような潜在的な量子ビット候補のための現代のプラットフォームは、シャットリングを通じて離れた物理量子ビット間の長距離接続を可能にする。 これにより、遠隔論理キュービット間の逆論理CNOTゲートの経路が開き、制御と対象論理キュービット上の各物理キュービット間で物理CNOTゲートが実行される。 しかし、CNOTは1つの論理量子ビットから別の論理量子ビットへの誤りを伝播させ、論理量子ビット間の相関誤差をもたらす。 我々は、この相関エラーに対処するために、各論理量子ビットを個別に復号するマルチパスイテレーティブデコーダを開発した。 回路レベルのノイズと$\mathcal{O}(1)$コードサイクルの条件下では、しきい値が引き続き持続し、論理的エラー率も大幅に低下せず、距離$d$回転曲面符号に対して$p^{\lfloor\frac{d}{2}\rfloor}$のサブ閾値論理的エラー率スケーリングと一致することを示す。

Modern platforms for potential qubit candidates, such as trapped ions or neutral atoms, allow long range connectivity between distant physical qubits through shuttling. This opens up an avenue for transversal logical CNOT gates between distant logical qubits, whereby physical CNOT gates are performed between each corresponding physical qubit on the control and target logical qubits. However, the transversal CNOT can propagate errors from one logical qubit to another, leading to correlated errors between logical qubits. We have developed a multi-pass iterative decoder that decodes each logical qubit separately to deal with this correlated error. We show that under circuit-level noise and only $\mathcal{O}(1)$ code cycles, a threshold can still persist, and the logical error rate will not be significantly degraded, matching the sub-threshold logical error rate scaling of $p^{\lfloor\frac{d}{2}\rfloor}$ for a distance $d$ rotated surface code.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 任意の境界条件をもつスピンテクスチャの2次元スカイミオントポロジカル電荷--2成分スピノリアルBECを事例として-

2D Skyrmion topological charge of spin textures with arbitrary boundary conditions: a two-component spinorial BEC as a case study ( http://arxiv.org/abs/2407.20977v1 )

ライセンス: Link先を確認
S. Sánchez-Reséndiz, E. Neri, S. González-Hernández, V. Romero-Rochín, (参考訳) 2次元スピンテクスチャに対するスカイミオントポロジカルチャージの最も一般的な表現を導出し、任意の種類の境界条件やテクスチャ内の任意の空間領域に対して有効である。 これは通常の$Q = 1/4\pi \iint \vec f \cdot \left(\partial_x \vec f \times \partial_y \vec f\right)$に還元され、スピンテクスチャは$\vec f$となる。 一般表現は2次元曲面のオイラー・ポアンカーイ特性に対するガウス・ボネットの定理に似ているが、スカイミオン電荷の適切な符号を割り当てる原因となる明確な違いがある。 さらに、1つのスカイミオンの電荷は、スピンテクスチャの正規成分の値の指数の特異点の値や横テクスチャの巻数、ポアンカルの定理の一般化の積であることを示す。 本稿では,2成分スピノルBose-Einstein CondensateをGross-Pitaevskii方程式を用いて2次元に縮合させた結果について概説する。 縮合したスピンテクスチャは、横磁場が消える空間的位置におけるスカイミオン特異点を示す。 続いて発生する超流動渦とスカイミオンは、磁場の構造のため、対応するトポロジカル電荷に対して同じ値を持つことを示す。

We derive the most general expression for the Skyrmion topological charge for a two-dimensional spin texture, valid for any type of boundary conditions or for any arbitrary spatial region within the texture. It reduces to the usual one $Q = 1/4\pi \iint \vec f \cdot \left(\partial_x \vec f \times \partial_y \vec f\right)$ for the appropriate boundary conditions, with $\vec f$ the spin texture. The general expression resembles the Gauss-Bonet theorem for the Euler-Poincar\'e characteristic of a 2D surface, but it has definite differences, responsible for the assignment of the proper signs of the Skyrmion charges. Additionally, we show that the charge of a single Skyrmion is the product of the value of the normal component of the spin texture at the singularity times the Index or winding number of the transverse texture, a generalization of a Poincar\'e theorem. We illustrate our general results analyzing in detail a two-component spinor Bose-Einstein condensate in 2D in the presence of an external magnetic field, via the Gross-Pitaevskii equation. The condensate spin textures present Skyrmions singularities at the spatial locations where the transverse magnetic field vanishes. We show that the ensuing superfluid vortices and Skyrmions have the same value for their corresponding topological charges, in turn due to the structure of the magnetic field.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# ブロックチェーンにおける競合トランザクションの影響:潜在的な攻撃の検出と緩和

Impact of Conflicting Transactions in Blockchain: Detecting and Mitigating Potential Attacks ( http://arxiv.org/abs/2407.20980v1 )

ライセンス: Link先を確認
Faisal Haque Bappy, Kamrul Hasan, Joon S. Park, Carlos Caicedo, Tariqul Islam, (参考訳) ブロックチェーンネットワーク内のトランザクションの競合は、パフォーマンス上の問題を引き起こすだけでなく、セキュリティ上の脆弱性も発生し、悪意のある攻撃を助長する可能性がある。 本稿では,ブロックチェーン攻撃ベクトルに対する競合トランザクションの影響について検討する。 モデリングとシミュレーションを通じて、ブロックの保持、二重支出、バランス、分散サービス拒否(DDoS)という、4つの重要な攻撃のダイナミクスを掘り下げます。 我々の分析は、これらの攻撃がトランザクションの競合を悪用するメカニズムに焦点を当てているだけでなく、ブロックチェーンネットワークの完全性と信頼性に対する彼らの潜在的影響を浮き彫りにしている。 また、これらの攻撃を緩和するための一連の対策も提案する。 実装と評価を通じて、追加のオーバーヘッドを伴わずに攻撃率を下げ、ネットワーク全体の性能をシームレスに向上する効果を示す。 私たちの発見は、ブロックチェーンのセキュリティとパフォーマンスを強化するために、競合するトランザクションを積極的に管理することの重要性を強調しています。

Conflicting transactions within blockchain networks not only pose performance challenges but also introduce security vulnerabilities, potentially facilitating malicious attacks. In this paper, we explore the impact of conflicting transactions on blockchain attack vectors. Through modeling and simulation, we delve into the dynamics of four pivotal attacks - block withholding, double spending, balance, and distributed denial of service (DDoS), all orchestrated using conflicting transactions. Our analysis not only focuses on the mechanisms through which these attacks exploit transaction conflicts but also underscores their potential impact on the integrity and reliability of blockchain networks. Additionally, we propose a set of countermeasures for mitigating these attacks. Through implementation and evaluation, we show their effectiveness in lowering attack rates and enhancing overall network performance seamlessly, without introducing additional overhead. Our findings emphasize the critical importance of actively managing conflicting transactions to reinforce blockchain security and performance.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# Stake Blockchainのセキュアな証明 - 悪意のあるノードの検出と緩和のためのマルチエージェント強化学習の活用

Securing Proof of Stake Blockchains: Leveraging Multi-Agent Reinforcement Learning for Detecting and Mitigating Malicious Nodes ( http://arxiv.org/abs/2407.20983v1 )

ライセンス: Link先を確認
Faisal Haque Bappy, Kamrul Hasan, Md Sajidul Islam Sajid, Mir Mehedi Ahsan Pritom, Tariqul Islam, (参考訳) Proof of Stake(PoS)ブロックチェーンは、従来のProof of Work(PoW)システムに代わる、スケーラビリティとエネルギー効率を提供する有望な代替手段を提供する。 しかし、ブロックチェーンは分散的に運用されており、ネットワークは多様なユーザで構成されている。 このオープン性は、悪意のあるノードがネットワークをさまざまな方法で破壊する可能性を生んでいる。 したがって、中央の権限を介さずに、これらの悪意あるノードを継続的に監視、識別、削除するメカニズムをブロックチェーンネットワークに組み込むことが重要です。 本稿では,マルチエージェント強化学習(MRL)技術を活用した,PoSブロックチェーンのセキュリティ向上のための新しいコンセンサスアルゴリズムMRL-PoS+を提案する。 提案するコンセンサスアルゴリズムでは,悪意のあるノードの検出と削除を行うペナルティ・リワード方式を提案する。 このアプローチでは、ブロックチェーンネットワークの潜在的攻撃につながる可能性のある動作を検出して、悪意のあるノードをペナルティ化し、特定のアクションの実行を制限している。 提案したProof of Conceptは,6種類の攻撃に対して悪意のあるノードを除去する効果を示す。 実験結果から,MRL-PoS+は計算オーバーヘッドを増大させることなく,従来の方式と比較して,PoSブロックチェーンの攻撃レジリエンスを著しく向上することが示された。

Proof of Stake (PoS) blockchains offer promising alternatives to traditional Proof of Work (PoW) systems, providing scalability and energy efficiency. However, blockchains operate in a decentralized manner and the network is composed of diverse users. This openness creates the potential for malicious nodes to disrupt the network in various ways. Therefore, it is crucial to embed a mechanism within the blockchain network to constantly monitor, identify, and eliminate these malicious nodes without involving any central authority. In this paper, we propose MRL-PoS+, a novel consensus algorithm to enhance the security of PoS blockchains by leveraging Multi-agent Reinforcement Learning (MRL) techniques. Our proposed consensus algorithm introduces a penalty-reward scheme for detecting and eliminating malicious nodes. This approach involves the detection of behaviors that can lead to potential attacks in a blockchain network and hence penalizes the malicious nodes, restricting them from performing certain actions. Our developed Proof of Concept demonstrates effectiveness in eliminating malicious nodes for six types of major attacks. Experimental results demonstrate that MRL-PoS+ significantly improves the attack resilience of PoS blockchains compared to the traditional schemes without incurring additional computation overhead.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 原子-ポリマーアレイを含む導波路-QED構造を持つエンジニアリングフォトニックバンドギャップ

Engineering photonic band gaps with a waveguide-QED structure containing an atom-polymer array ( http://arxiv.org/abs/2407.20984v1 )

ライセンス: Link先を確認
M. S. Wang, W. Z. Jia, (参考訳) 周期的に配置された原子-ポリマーを含む導波路量子電磁力学系におけるフォトニックバンドギャップの生成と工学について検討する。 まず、導波路に結合したダイマーアレイの構成について検討する。 その結果, セル内およびセル間位相遅延が適切に設計された場合, バンドギャップの中心と幅, パスバンドの分散関係をセル内結合強度の調整により変更できることが示唆された。 これらの操作は導波路の伝播モードを制御する方法を提供し、単一光子パルスの減速や停止などの興味深い効果をもたらす。 最後に, テトラマー鎖の場合を例に挙げ, 各単位セルの原子数が多ければ, 可変マルチギャップ構造, より洗練されたバンドギャップ工学を実現することができることを示す。 提案手法は,マイクロおよびナノ量子系におけるフォトニックバンドギャップの効率的な設計方法であり,将来の量子ネットワークにおける光子輸送の操作を容易にする。

We investigate the generation and engineering of photonic band gaps in waveguide quantum electrodynamics systems containing periodically arranged atom-polymers. We first consider the configuration of a dimer array coupled to a waveguide. The results show that if the intra- and inter-cell phase delays are properly designed, the center and the width of the band gaps, as well as the dispersion relation of the passbands can be modified by adjusting the intra-cell coupling strength. These manipulations provide ways to control the propagating modes in the waveguide, leading to some interesting effects such as slowing or even stopping a single-photon pulse. Finally, we take the case of the tetramer chain as an example to show that, in the case of a larger number of atoms in each unit cell, tunable multi-gap structures and more sophisticated band-gap engineering can be realized. Our proposal provides efficient ways for photonic band-gap engineering in micro- and nano-quantum systems, which may facilitate the manipulation of photon transport in future quantum networks.
翻訳日:2024-07-31 16:30:51 公開日:2024-07-30
# 局在系における熱化伝播前線と雪崩に対するロバスト性

Thermalization propagation front and robustness against avalanches in localized systems ( http://arxiv.org/abs/2407.20985v1 )

ライセンス: Link先を確認
Annarita Scocco, Gianluca Passarelli, Mario Collura, Procolo Lucignano, Angelo Russomanno, (参考訳) 本研究は,多体局在化(MBL)相の量子-アバランシェ不安定性に対するロバスト性について,その最左端でT=\infty$熱浴に結合した局在化スピン鎖のダイナミクスを調べた。 局所的な磁化と量子的相互情報を分析することにより、チェーンの熱化セクターのサイズを推定し、時間とともに対数的に増加することが分かる。 この対数的に遅い熱化面の伝播により、最も遅い熱化時間の境界を低くすることができ、MBLが雪崩によって誘導される熱化に対して堅牢であるようなシステムサイズと十分に高速にスケールする広いパラメータ範囲を求めることができる。 局所性を測定するグローバルな量である不均衡が、障害強度とシステムサイズの両方において指数関数的に時間スケールで熱化されることは、これらの結果と一致している。

We investigate the robustness of the many-body localized (MBL) phase to the quantum-avalanche instability by studying the dynamics of a localized spin chain coupled to a $T=\infty$ thermal bath through its leftmost site. By analyzing local magnetizations and quantum mutual information, we estimate the size of the thermalized sector of the chain and find that it increases logarithmically slowly in time. This logarithmically slow propagation of the thermalization front allows us to lower bound the slowest thermalization time, and find a broad parameter range where it scales fast enough with the system size that MBL is robust against thermalization induced by avalanches. The further finding that the imbalance -- a global quantity measuring localization -- thermalizes over a time scale exponential both in disorder strength and system size is in agreement with these results.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# PIXELMOD: Twitterにおける視覚的ミススリーディング情報のソフトモデレーションの改善

PIXELMOD: Improving Soft Moderation of Visual Misleading Information on Twitter ( http://arxiv.org/abs/2407.20987v1 )

ライセンス: Link先を確認
Pujan Paudel, Chen Ling, Jeremy Blackburn, Gianluca Stringhini, (参考訳) 画像は、誤解を招く、あるいは完全に偽のメッセージを運ぶための強力で即時的な手段だが、画像ベースの誤報を大規模に識別することは、ユニークな課題をもたらす。 本稿では、知覚ハッシュ、ベクトルデータベース、光学文字認識(OCR)を利用して、Twitter上でソフトモデレーションラベルを受信する候補となる画像を効率的に識別するシステムであるPIXELMODを提案する。 PIXELMODは,ソフトモデレーションに適用した場合の既存の画像類似性アプローチよりも優れており,性能上のオーバーヘッドは無視できる。 PIXELMODは、2020年の米大統領選挙を取り巻くツイートのデータセットでテストし、99%の偽検出と2.06%の偽陰性で、ソフトモデレーションの候補である視覚的に誤解を招く画像を識別できることを発見した。

Images are a powerful and immediate vehicle to carry misleading or outright false messages, yet identifying image-based misinformation at scale poses unique challenges. In this paper, we present PIXELMOD, a system that leverages perceptual hashes, vector databases, and optical character recognition (OCR) to efficiently identify images that are candidates to receive soft moderation labels on Twitter. We show that PIXELMOD outperforms existing image similarity approaches when applied to soft moderation, with negligible performance overhead. We then test PIXELMOD on a dataset of tweets surrounding the 2020 US Presidential Election, and find that it is able to identify visually misleading images that are candidates for soft moderation with 0.99% false detection and 2.06% false negatives.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# 直接呼吸不全検出のための血液酸素飽和度推定のための対照的な深層学習モデル

Contrasting Deep Learning Models for Direct Respiratory Insufficiency Detection Versus Blood Oxygen Saturation Estimation ( http://arxiv.org/abs/2407.20989v1 )

ライセンス: Link先を確認
Marcelo Matheus Gauy, Natalia Hitomi Koza, Ricardo Mikio Morita, Gabriel Rocha Stanzione, Arnaldo Candido Junior, Larissa Cristina Berti, Anna Sara Shafferman Levin, Ester Cerdeira Sabino, Flaviane Romani Fernandes Svartman, Marcelo Finger, (参考訳) 本研究では,呼吸不全(RI)検出と血液酸素飽和度(SpO2)推定と自動音声解析による分類のために改良された,一般的な音声分類タスクのための最先端のディープラーニングアーキテクチャの有効性を比較検討した。 近年、音声分析により、HIV患者のRIを検出するために複数のディープラーニングアーキテクチャが提案され、95%以上の精度と0.93以上のF1スコアが達成されている。 RIは低いSpO2レベルに関連する条件であり、一般的には閾値SpO2 <92%と定義される。 SpO2はRIの重要な決定因子であるが、医師の診断は一般的に複数の因子に依存している。 これには、呼吸周波数、心拍数、SpO2レベルなどが含まれる。 本稿では,事前訓練された音声ニューラルネットワーク (CNN6, CNN10, CNN14) と, RI検出のためのMasked Autoencoder (Audio-MAE) について検討する。 しかし,SpO2レベルを推定する回帰タスクでは,指のオキシメータの3.5%以上の根平均2乗誤差値が得られる。 さらに、ピアソン相関係数は0.3を超えない。 ディープラーニングモデルは回帰よりも分類が優れているため、SpO2-regressionを92%の閾値でSpO2-thresholdバイナリ分類問題に変換する。 しかし、それでもF1スコアは0.65以下である。 このように、音声分析は患者のRI状態に関する貴重な洞察を提供するが、実際のSpO2レベルに関する正確な情報を提供していない。

We contrast high effectiveness of state of the art deep learning architectures designed for general audio classification tasks, refined for respiratory insufficiency (RI) detection and blood oxygen saturation (SpO2) estimation and classification through automated audio analysis. Recently, multiple deep learning architectures have been proposed to detect RI in COVID patients through audio analysis, achieving accuracy above 95% and F1-score above 0.93. RI is a condition associated with low SpO2 levels, commonly defined as the threshold SpO2 <92%. While SpO2 serves as a crucial determinant of RI, a medical doctor's diagnosis typically relies on multiple factors. These include respiratory frequency, heart rate, SpO2 levels, among others. Here we study pretrained audio neural networks (CNN6, CNN10 and CNN14) and the Masked Autoencoder (Audio-MAE) for RI detection, where these models achieve near perfect accuracy, surpassing previous results. Yet, for the regression task of estimating SpO2 levels, the models achieve root mean square error values exceeding the accepted clinical range of 3.5% for finger oximeters. Additionally, Pearson correlation coefficients fail to surpass 0.3. As deep learning models perform better in classification than regression, we transform SpO2-regression into a SpO2-threshold binary classification problem, with a threshold of 92%. However, this task still yields an F1-score below 0.65. Thus, audio analysis offers valuable insights into a patient's RI status, but does not provide accurate information about actual SpO2 levels, indicating a separation of domains in which voice and speech biomarkers may and may not be useful in medical diagnostics under current technologies.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# LLMとRAGを用いた自然言語説明

From Feature Importance to Natural Language Explanations Using LLMs with RAG ( http://arxiv.org/abs/2407.20990v1 )

ライセンス: Link先を確認
Sule Tekkesinoglu, Lars Kunze, (参考訳) ヒューマンインタラクションを含む自律的な意思決定プロセスに機械学習がますます不可欠になるにつれて、会話手段を通じてモデルのアウトプットを理解する必要性が高まっている。 最近では、基礎モデルがポストホックの説明者としての可能性を探り、予測モデルの意思決定メカニズムを解明するための道筋を提供している。 本研究では,大規模言語モデル (LLM) の応答をシーン理解タスク内のユーザクエリに通知するために,外部知識リポジトリを活用するトレーサブルな質問応答を導入する。 この知識リポジトリは、高レベルの特徴、特徴の重要性、代替確率を含む、モデルの出力に関するコンテキストの詳細を含む。 本稿では,意味的特徴の分解による出力の変動を分析する手法である特徴重要度を計算するために,減算的反実的推論を用いる。 さらに、シームレスな会話の流れを維持するために、人間の説明に関する社会科学研究から引き出された4つの重要な特徴(社会的、因果的、選択的、コントラスト的)を単一ショットプロンプトに統合し、応答生成プロセスを導く。 評価の結果, LLMが生成した説明にはこれらの要素が含まれており, 複雑なモデル出力と自然言語表現とのギャップを埋める可能性が示唆された。

As machine learning becomes increasingly integral to autonomous decision-making processes involving human interaction, the necessity of comprehending the model's outputs through conversational means increases. Most recently, foundation models are being explored for their potential as post hoc explainers, providing a pathway to elucidate the decision-making mechanisms of predictive models. In this work, we introduce traceable question-answering, leveraging an external knowledge repository to inform the responses of Large Language Models (LLMs) to user queries within a scene understanding task. This knowledge repository comprises contextual details regarding the model's output, containing high-level features, feature importance, and alternative probabilities. We employ subtractive counterfactual reasoning to compute feature importance, a method that entails analysing output variations resulting from decomposing semantic features. Furthermore, to maintain a seamless conversational flow, we integrate four key characteristics - social, causal, selective, and contrastive - drawn from social science research on human explanations into a single-shot prompt, guiding the response generation process. Our evaluation demonstrates that explanations generated by the LLMs encompassed these elements, indicating its potential to bridge the gap between complex model outputs and natural language expressions.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# MoFO: LLMファインチューニングにおけるフォーミングの緩和のためのモーメントフィルタ最適化

MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning ( http://arxiv.org/abs/2407.20999v1 )

ライセンス: Link先を確認
Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun, (参考訳) 近年,大規模言語モデル (LLM) は様々なタスクにおいて顕著な能力を発揮している。 通常、LLMは大きなコーパスで事前訓練され、タスク固有のデータセットで微調整される。 しかし、微調整の間、LLMは事前訓練の段階で得られた知識を忘れてしまい、一般的な能力は低下する。 この問題に対処するために,Momentum-Filtered Optimizer (MoFO) と呼ばれる新しい微調整アルゴリズムを提案する。 MoFOの鍵となる考え方は、モデルパラメータを最大運動量で反復的に選択し、更新することである。 フルパラメータトレーニングと比較して、MoFOはトレーニング済みモデルにパラメータを近づけながら、同様の微調整性能を達成し、知識の忘れを緩和する。 緩和を忘れる既存の方法とは異なり、MoFOは以下の2つの利点を組み合わせている。 まず、MoFOは事前トレーニングデータへのアクセスを必要としない。 これにより、MoFOは特に、チェックポイントのみのオープンソース LLM など、事前トレーニングデータが利用できない微調整シナリオに適している。 第二に、MoFOは元の損失関数を変更しない。 これにより、微調整タスクのモデルパフォーマンスが損なわれるのを避けることができる。 我々は、厳密な収束解析と広範囲な実験を通してMoFOを検証し、既存の方法よりも優れていることを実証し、微調整性能を低下させ、向上させた。

Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during finetuning, LLMs may forget the knowledge acquired in the pretraining stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# GABInsight:ビジョンランゲージモデルにおけるジェンダー・アクティビティ結合バイアスの探索

GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models ( http://arxiv.org/abs/2407.21001v1 )

ライセンス: Link先を確認
Ali Abdollahi, Mahdi Ghaznavi, Mohammad Reza Karimi Nejad, Arash Mari Oriyad, Reza Abbasi, Ali Salesi, Melika Behjati, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah, (参考訳) 視覚言語モデル(VLM)は、画像に現れる個人の評価を必要とするものを含む、多くの下流タスクで集中的に使用される。 VLMは単純なシングルパーソンのシナリオではうまく機能するが、現実のアプリケーションでは、異なる性別の人が異なる活動を行う複雑な状況に直面していることが多い。 このような場合、VLMは、期待される性別(モデルその他のサンプル選択バイアスの詳細な性別ステレオタイプによる)を行動のパフォーマーとして特定する傾向を示す。 画像やテキスト中の実際のパフォーマーのジェンダーに関連付けるバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼び、このバイアスがどのようにVLMの内部化されるかを分析する。 このバイアスを評価するために、私たちはGABデータセットを導入し、いくつかのシナリオにおいて現実世界のイメージの不足に対処する、さまざまなアクティビティを表す約5500のAI生成イメージを作成しました。 広範に品質制御を行うため、生成した画像は、その多様性、品質、リアリズムについて評価される。 我々は,テキスト・ツー・イメージ検索と画像・ツー・テキスト検索の文脈で,このデータセット上で12の有名な事前学習VLMをテストし,そのバイアスが予測に与える影響を計測した。 さらに,VLMのテキストエンコーダのバイアスを定量化し,VLMのアクティビティ認識能力を評価するための補足実験を行った。 以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。

Vision-language models (VLMs) are intensively used in many downstream tasks, including those requiring assessments of individuals appearing in the images. While VLMs perform well in simple single-person scenarios, in real-world applications, we often face complex situations in which there are persons of different genders doing different activities. We show that in such cases, VLMs are biased towards identifying the individual with the expected gender (according to ingrained gender stereotypes in the model or other forms of sample selection bias) as the performer of the activity. We refer to this bias in associating an activity with the gender of its actual performer in an image or text as the Gender-Activity Binding (GAB) bias and analyze how this bias is internalized in VLMs. To assess this bias, we have introduced the GAB dataset with approximately 5500 AI-generated images that represent a variety of activities, addressing the scarcity of real-world images for some scenarios. To have extensive quality control, the generated images are evaluated for their diversity, quality, and realism. We have tested 12 renowned pre-trained VLMs on this dataset in the context of text-to-image and image-to-text retrieval to measure the effect of this bias on their predictions. Additionally, we have carried out supplementary experiments to quantify the bias in VLMs' text encoders and to evaluate VLMs' capability to recognize activities. Our experiments indicate that VLMs experience an average performance decline of about 13.2% when confronted with gender-activity binding bias.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# XHand:リアルタイム表現型ハンドアバター

XHand: Real-time Expressive Hand Avatar ( http://arxiv.org/abs/2407.21002v1 )

ライセンス: Link先を確認
Qijun Gan, Zijie Zhou, Jianke Zhu, (参考訳) ハンドアバターは、幅広いデジタルインターフェースにおいて重要な役割を担い、ユーザの没入性を高め、仮想環境における自然なインタラクションを促進する。 これまでの研究では、写真リアリスティックなハンドレンダリングに焦点が当てられていたが、細部で手形状を再構築するためにはほとんど注意が払われていない。 拡張現実とゲームの世界では、オンザフライレンダリングは必須となる。 この目的のために,手形,外観,変形をリアルタイムに包括的に生成する表現力のある手形アバターXHandを導入する。 細粒度ハンドメッシュを得るために, 3つの特徴埋め込みモジュールを用いて手指変形, アルベド, および線形ブレンディングスキンウェイトをそれぞれ予測する。 そこで本手法では,メッシュのトポロジ的一貫性と埋め込みモジュールからの潜時符号を活用することにより,メッシュベースのニューラルレンダラーを用いる。 トレーニング中、必要な詳細を効果的に維持し、望ましくないアーティファクトを排除するために、異なるレベルの正規化を組み込むことにより、部分的に認識されたラプラス平滑化戦略が提案される。 InterHand2.6MデータセットとDeepHandMeshデータセットの実験的評価は、XHandの有効性を示している。 結果を再現するために、完全な実装をhttps://github.com/agnJason/XHand.comで公開します。

Hand avatars play a pivotal role in a wide array of digital interfaces, enhancing user immersion and facilitating natural interaction within virtual environments. While previous studies have focused on photo-realistic hand rendering, little attention has been paid to reconstruct the hand geometry with fine details, which is essential to rendering quality. In the realms of extended reality and gaming, on-the-fly rendering becomes imperative. To this end, we introduce an expressive hand avatar, named XHand, that is designed to comprehensively generate hand shape, appearance, and deformations in real-time. To obtain fine-grained hand meshes, we make use of three feature embedding modules to predict hand deformation displacements, albedo, and linear blending skinning weights, respectively. To achieve photo-realistic hand rendering on fine-grained meshes, our method employs a mesh-based neural renderer by leveraging mesh topological consistency and latent codes from embedding modules. During training, a part-aware Laplace smoothing strategy is proposed by incorporating the distinct levels of regularization to effectively maintain the necessary details and eliminate the undesired artifacts. The experimental evaluations on InterHand2.6M and DeepHandMesh datasets demonstrate the efficacy of XHand, which is able to recover high-fidelity geometry and texture for hand animations across diverse poses in real-time. To reproduce our results, we will make the full implementation publicly available at https://github.com/agnJason/XHand.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# Evolver: ヘイトフルミーム検出のための大規模マルチモーダルモデル向上のための進化の連鎖プロンプト

Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection ( http://arxiv.org/abs/2407.21004v1 )

ライセンス: Link先を確認
Jinfa Huang, Jinsheng Pan, Zhongwei Wan, Hanjia Lyu, Jiebo Luo, (参考訳) 最近の進歩は、ヘイトフルミーム検出において、2ストリームアプローチが優れた性能を発揮していることを示している。 しかし、進歩的な文化思想を融合させることによって新しいミームが出現するにつれて、憎しみのあるミームは常に進化し、既存の手法は時代遅れまたは非効率なものとなった。 本研究では, 大規模マルチモーダルモデル (LMM) のハトフルミーム検出の可能性について検討する。 この目的のために、進化属性とミームのテキスト内情報を統合することで、Chein-of-Evolution (CoE) Promptingを介してLMMを組み込むEvolverを提案する。 具体的には、Evolverは、ステップバイステップでLMMを通してミームと理由の進化と表現の過程をシミュレートする。 まず、進化的ペアマイニングモジュールは、入力ミームでセットされた外部キュレートされたミームにおいて、トップkで最も類似したミームを検索する。 第二に、進化情報抽出器は、ペア化されたミーム間の意味的規則性を要約してプロンプトするように設計されている。 最後に、文脈関連増幅器は、文脈内ヘイトフルネス情報を強化し、進化過程の探索を促進する。 パブリックなFHM、MAMI、HarMデータセットに関する大規模な実験は、CoEプロンプトを既存のLMMに組み込んでパフォーマンスを向上させることができることを示している。 より奨励的に、それは社会的ミームの進化の理解を促進するための解釈ツールとして機能する。

Recent advances show that two-stream approaches have achieved outstanding performance in hateful meme detection. However, hateful memes constantly evolve as new memes emerge by fusing progressive cultural ideas, making existing methods obsolete or ineffective. In this work, we explore the potential of Large Multimodal Models (LMMs) for hateful meme detection. To this end, we propose Evolver, which incorporates LMMs via Chain-of-Evolution (CoE) Prompting, by integrating the evolution attribute and in-context information of memes. Specifically, Evolver simulates the evolving and expressing process of memes and reasons through LMMs in a step-by-step manner. First, an evolutionary pair mining module retrieves the top-k most similar memes in the external curated meme set with the input meme. Second, an evolutionary information extractor is designed to summarize the semantic regularities between the paired memes for prompting. Finally, a contextual relevance amplifier enhances the in-context hatefulness information to boost the search for evolutionary processes. Extensive experiments on public FHM, MAMI, and HarM datasets show that CoE prompting can be incorporated into existing LMMs to improve their performance. More encouragingly, it can serve as an interpretive tool to promote the understanding of the evolution of social memes.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# 技術的負債のデュアルエッジソード:開発者の議論から分析したメリットと課題

The Dual-Edged Sword of Technical Debt: Benefits and Issues Analyzed Through Developer Discussions ( http://arxiv.org/abs/2407.21007v1 )

ライセンス: Link先を確認
Xiaozhou Li, Matteo Esposito, Andrea Janes, Valentina Lenarduzzi, (参考訳) 背景。 技術的負債(TD)は、長い間、ソフトウェア製品の保守性に影響を与える重要な要因の1つです。 それは、短期的な利益のために長期的なソフトウェア品質を犠牲にする技術的な妥協を意味します。 目的。 本研究は,多岐にわたる論文集から,TDの様々な視点に対する実践者の意見を総合的に調査することを目的とする。 検出された意見の感情も考慮された,それぞれの話題と潜伏した詳細を見いだす。 方法。 そこで我々は,3つの主要な技術フォーラムから体系的に収集した論文について,灰色文献のレビューを行った。 さらに,話題モデリングや感情分析などの自然言語処理技術を用いて,体系的かつ包括的な理解を実現する。 しかし、我々はトピック解釈をサポートするためにChatGPTを採用した。 結果。 本研究では,2,213のフォーラム投稿や記事が収集され,8つの主要なトピックと43のサブトピックが同定された。 各トピックについて,実践者の肯定的,否定的な意見を得た。 結論。 ソフトウェア開発に関連する8つの主要なトピックを特定しました。 実践者による特定された課題には、明確な役割と関与の欠如がある。 一方、アクティブマネジメントはコラボレーションをサポートし、TDがソースコードに与える影響を軽減する。

Background. Technical debt (TD) has long been one of the key factors influencing the maintainability of software products. It represents technical compromises that sacrifice long-term software quality for potential short-term benefits. Objective. This work is to collectively investigate the practitioners' opinions on the various perspectives of TD from a large collection of articles. We find the topics and latent details of each, where the sentiments of the detected opinions are also considered. Method. For such a purpose, we conducted a grey literature review on the articles systematically collected from three mainstream technology forums. Furthermore, we adopted natural language processing techniques like topic modeling and sentiment analysis to achieve a systematic and comprehensive understanding. However, we adopted ChatGPT to support the topic interpretation. Results. In this study, 2,213 forum posts and articles were collected, with eight main topics and 43 sub-topics identified. For each topic, we obtained the practitioners' collective positive and negative opinions. Conclusion. We identified 8 major topics in TD related to software development. Identified challenges by practitioners include unclear roles and a lack of engagement. On the other hand, active management supports collaboration and mitigates the impact of TD on the source code.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# 難解な数学質問のAIによる生成

AI-Assisted Generation of Difficult Math Questions ( http://arxiv.org/abs/2407.21009v1 )

ライセンス: Link先を確認
Vedant Shah, Dingli Yu, Kaifeng Lyu, Simon Park, Nan Rosemary Ke, Michael Mozer, Yoshua Bengio, Sanjeev Arora, Anirudh Goyal, (参考訳) 現在のLLMトレーニングは、数学的推論をコア能力として位置づけている。 公開されているソースが完全にタップされているため、多様で挑戦的な数学問題に対する需要は計り知れない。 人間の専門家だけを頼りにすることは時間も費用もかかるが、LSMが生み出す質問には必要な多様性と難易度が欠けていることが多い。 本稿では,LLMの強みとループ型アプローチを組み合わせることで,多種多様な難解な数学問題を生成する設計枠組みを提案する。 我々は,LLMのメタ認知能力(Didolkar et al , 2024)を活用し,既存の数学データセットからコア"スキル"を抽出する。 これらのスキルは、ランダムなコアスキルのペアでLLMに促すことによって、新しくて難しい質問を生成する基盤となる。 各質問における2つの異なるスキルの使用により、そのような質問を見つけることは、LLMと人間の両方にとって「配布外」タスクとなる。 私たちのパイプラインでは、マルチターンプロンプトを通じて質問やソリューションを反復的に生成し、洗練するためにLLMを採用しています。 人間のアノテータは質問を検証し、さらに洗練し、その効率はさらなるLSM相互作用によって向上する。 このパイプラインをMATHデータセット(Hendrycks et al , 2021)から抽出したスキルに適用することにより,MATH$^2$ – 高品質な数学質問のデータセットが得られた。 (a)MATH$^2$における全てのモデルのMATHよりも低い性能 (b)MATH$^2$の質問をコンテキスト内例として使用する場合,MATH上でのパフォーマンスが向上する。 数学に重点を置いているが、我々の方法論は構造化推論を必要とする他の領域に適用できるようであり、スケーラブルな監視のコンポーネントとして考えられる。 MATH$^2$における成功率はMATHの正方形であり、MATH$^2$における問題の解決には2つの異なる数学スキルの非自明な組み合わせが必要であることを示唆している。

Current LLM training positions mathematical reasoning as a core capability. With publicly available sources fully tapped, there is unmet demand for diverse and challenging math questions. Relying solely on human experts is both time-consuming and costly, while LLM-generated questions often lack the requisite diversity and difficulty. We present a design framework that combines the strengths of LLMs with a human-in-the-loop approach to generate a diverse array of challenging math questions. We leverage LLM metacognition skills [Didolkar et al., 2024] of a strong LLM to extract core "skills" from existing math datasets. These skills serve as the basis for generating novel and difficult questions by prompting the LLM with random pairs of core skills. The use of two different skills within each question makes finding such questions an "out of distribution" task for both LLMs and humans. Our pipeline employs LLMs to iteratively generate and refine questions and solutions through multiturn prompting. Human annotators then verify and further refine the questions, with their efficiency enhanced via further LLM interactions. Applying this pipeline on skills extracted from the MATH dataset [Hendrycks et al., 2021] resulted in MATH$^2$ - a dataset of higher-quality math questions, as evidenced by: (a) Lower performance of all models on MATH$^2$ than on MATH (b) Higher performance on MATH when using MATH$^2$ questions as in-context examples. Although focused on mathematics, our methodology seems applicable to other domains requiring structured reasoning, and potentially as a component of scalable oversight. Also of interest is a striking relationship observed between models' performance on the new dataset: the success rate on MATH$^2$ is the square on MATH, suggesting that successfully solving the question in MATH$^2$ requires a nontrivial combination of two distinct math skills.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# ヒューマンデータインタラクションフレームワーク: データと人間によって駆動される未来のための包括的モデル

Human-Data Interaction Framework: A Comprehensive Model for a Future Driven by Data and Humans ( http://arxiv.org/abs/2407.21010v1 )

ライセンス: Link先を確認
Ivan Durango, Jose A. Gallud, Victor M. R. Penichet, (参考訳) 急速なデータ拡張によって定義される時代には、個人とデジタルフットプリントの関連性はより複雑になっている。 HDI(Human-Data Interaction)フレームワークは、現代のデジタル世界でのデータガバナンスと利用に関連する課題と倫理的問題に取り組むための重要なアプローチとなっている。 本稿では、組織がHDI原則をシームレスに統合し、監査、調整、考慮事項の定式化、継続的監視と適応の必要性を強調するために必要な基本的な手順を概説する。 徹底的な監査を通じて、組織は現在のデータ管理プラクティスを批判的に評価し、収集から廃棄までデータライフサイクルをトレースし、既存のポリシ、セキュリティプロトコル、ユーザインターフェースの有効性を評価することができる。 次のステップでは、これらのプラクティスを、インフォームドコンセント、データ透過性、ユーザコントロール、アルゴリズム透過性、倫理的データ使用といった主要なHDI原則と整合させて、戦略的行動を必要とするギャップを特定します。 予備的な考察には、特定されたギャップを埋めるためのポリシーや技術的なソリューションの開発が含まれており、これらのプラクティスが法的基準を満たしているだけでなく、データインタラクションにおける公正性と説明責任を促進することを保証する。 最後のステップである監視と適応は、継続的評価メカニズムのセットアップの必要性を強調し、技術、規制、社会的発展に反応し、HDIプラクティスが最新かつ効果的であることを保証する。 HDIフレームワークの成功した実装には、技術、法律、倫理、ユーザーエクスペリエンス設計からの洞察を取り入れた、複数の学際的なコラボレーションが必要である。 この論文は、この包括的なアプローチがデジタル環境における信頼と正当性の構築に不可欠であり、最終的にはより倫理的で透明性があり、ユーザ中心のデータインタラクションにつながることを示唆している。

In an age defined by rapid data expansion, the connection between individuals and their digital footprints has become more intricate. The Human-Data Interaction (HDI) framework has become an essential approach to tackling the challenges and ethical issues associated with data governance and utilization in the modern digital world. This paper outlines the fundamental steps required for organizations to seamlessly integrate HDI principles, emphasizing auditing, aligning, formulating considerations, and the need for continuous monitoring and adaptation. Through a thorough audit, organizations can critically assess their current data management practices, trace the data lifecycle from collection to disposal, and evaluate the effectiveness of existing policies, security protocols, and user interfaces. The next step involves aligning these practices with the main HDI principles, such as informed consent, data transparency, user control, algorithm transparency, and ethical data use, to identify gaps that need strategic action. Formulating preliminary considerations includes developing policies and technical solutions to close identified gaps, ensuring that these practices not only meet legal standards, but also promote fairness and accountability in data interactions. The final step, monitoring and adaptation, highlights the need for setting up continuous evaluation mechanisms and being responsive to technological, regulatory, and societal developments, ensuring HDI practices stay up-to-date and effective. Successful implementation of the HDI framework requires multi-disciplinary collaboration, incorporating insights from technology, law, ethics, and user experience design. The paper posits that this comprehensive approach is vital for building trust and legitimacy in digital environments, ultimately leading to more ethical, transparent, and user-centric data interactions.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# CLEFT:高能率大言語モデルと素早い微調整による言語画像コントラスト学習

CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning ( http://arxiv.org/abs/2407.21011v1 )

ライセンス: Link先を確認
Yuexi Du, Brian Chang, Nicha C. Dvornek, (参考訳) コントラスト言語画像事前学習(CLIP)の最近の進歩は、様々なタスクにおける自己指導型表現学習において顕著な成功を収めている。 しかし、既存のCLIPのようなアプローチでは、モデルとデータセットのかなりのサイズのため、広範囲のGPUリソースとトレーニング時間の延長が要求されることが多く、大規模なデータセットが常に一般的であるとは限らない医療アプリケーションには不十分である。 一方、言語モデルプロンプトは、主に画像に結びついたラベルから手動で派生しており、トレーニングサンプル内の情報の豊かさを見落としている可能性がある。 広範に訓練された言語と視覚モデルの強みを生かした,高能率な大言語モデルとファインチューニング(CLEFT)による新しい言語画像コントラスト学習手法を提案する。 さらに,情報的臨床診断データと簡易なクラスラベルとのギャップを緩和する文脈に基づくプロンプトを学習するための効果的な戦略を提案する。 胸部X線とマンモグラフィーのデータセットを各種ベースラインと比較し,最先端の性能を示す。 提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。

Recent advancements in Contrastive Language-Image Pre-training (CLIP) have demonstrated notable success in self-supervised representation learning across various tasks. However, the existing CLIP-like approaches often demand extensive GPU resources and prolonged training times due to the considerable size of the model and dataset, making them poor for medical applications, in which large datasets are not always common. Meanwhile, the language model prompts are mainly manually derived from labels tied to images, potentially overlooking the richness of information within training samples. We introduce a novel language-image Contrastive Learning method with an Efficient large language model and prompt Fine-Tuning (CLEFT) that harnesses the strengths of the extensive pre-trained language and visual models. Furthermore, we present an efficient strategy for learning context-based prompts that mitigates the gap between informative clinical diagnostic data and simple class labels. Our method demonstrates state-of-the-art performance on multiple chest X-ray and mammography datasets compared with various baselines. The proposed parameter efficient framework can reduce the total trainable model size by 39% and reduce the trainable language model to only 4% compared with the current BERT encoder.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# Add-SD: 手作業による参照のない合理的生成

Add-SD: Rational Generation without Manual Reference ( http://arxiv.org/abs/2407.21016v1 )

ライセンス: Link先を確認
Lingfeng Yang, Xinyu Zhang, Xiang Li, Jinwen Chen, Kun Yao, Gang Zhang, Errui Ding, Lingqiao Liu, Jingdong Wang, Jian Yang, (参考訳) 拡散モデルは視覚一般化において顕著な進歩を見せている。 この成功に基づいて、我々はAdd-SDと呼ばれる命令ベースのオブジェクト付加パイプラインを導入し、オブジェクトを合理的なサイズと位置でリアルなシーンに自動的に挿入する。 レイアウト条件の手法と異なり、Add-SDはバウンディングボックスのような人為的な参照ではなく、単純なテキストプロンプトでのみ条件付けされている。 我々の研究は、多数の指示されたイメージペアを含むデータセットの提案、合理的な生成のための拡散モデルの微調整、下流タスクを増強するための合成データの生成の3つの側面に寄与する。 最初の側面は、オリジナルの編集されたイメージペアとテキスト命令で構成されたDeleteDatasetを作成することであり、そこでは、背景の強いピクセル一貫性を維持しながら、オブジェクトが元のイメージから削除される。 これらのデータペアは、安定拡散(SD)モデルを微調整するために使用される。 その後、事前訓練されたAdd-SDモデルにより、良好な合理的な画像への期待対象の挿入が可能となる。 さらに、ダウンストリームタスクデータセットの大規模化、特にテールクラスのための合成インスタンスを生成して、長い尾の問題を緩和する。 下流タスクは、多様性と合理性を高めた豊富なデータセットの恩恵を受ける。 LVIS valの実験では、Add-SDはベースライン上の稀なクラスで4.3 mAPの改善をもたらすことが示された。 コードとモデルはhttps://github.com/ylingfeng/Add-SD.comで入手できる。

Diffusion models have exhibited remarkable prowess in visual generalization. Building on this success, we introduce an instruction-based object addition pipeline, named Add-SD, which automatically inserts objects into realistic scenes with rational sizes and positions. Different from layout-conditioned methods, Add-SD is solely conditioned on simple text prompts rather than any other human-costly references like bounding boxes. Our work contributes in three aspects: proposing a dataset containing numerous instructed image pairs; fine-tuning a diffusion model for rational generation; and generating synthetic data to boost downstream tasks. The first aspect involves creating a RemovalDataset consisting of original-edited image pairs with textual instructions, where an object has been removed from the original image while maintaining strong pixel consistency in the background. These data pairs are then used for fine-tuning the Stable Diffusion (SD) model. Subsequently, the pretrained Add-SD model allows for the insertion of expected objects into an image with good rationale. Additionally, we generate synthetic instances for downstream task datasets at scale, particularly for tail classes, to alleviate the long-tailed problem. Downstream tasks benefit from the enriched dataset with enhanced diversity and rationale. Experiments on LVIS val demonstrate that Add-SD yields an improvement of 4.3 mAP on rare classes over the baseline. Code and models are available at https://github.com/ylingfeng/Add-SD.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# 世代別マッティング

Matting by Generation ( http://arxiv.org/abs/2407.21017v1 )

ライセンス: Link先を確認
Zhixiang Wang, Baiang Li, Jian Wang, Yu-Lun Liu, Jinwei Gu, Yung-Yu Chuang, Shin'ichi Satoh, (参考訳) 本稿では,従来の回帰に基づく課題を再定義する,画像マッチングのための革新的なアプローチを提案する。 本手法は,学習前知識の豊富な潜伏拡散モデルを用いて,マッチングプロセスの正規化を行う。 我々のモデルに優れた解像度とディテールでマットを生産する権限を与える、新しいアーキテクチャ革新を提示します。 提案手法は多用途であり,ガイドレスとガイダンスベースの画像マッチングを併用できる。 3つのベンチマークデータセットに対する包括的な評価は、定量的にも定性的にも、我々のアプローチの優れた性能を示している。 この結果は,本手法の有効性を反映するだけでなく,光現実的品質にアプローチする視覚的に魅力的なマットを生成する能力も強調する。 この論文のプロジェクトページはhttps://lightchaserx.github.io/matting-by-generation/で公開されている。

This paper introduces an innovative approach for image matting that redefines the traditional regression-based task as a generative modeling challenge. Our method harnesses the capabilities of latent diffusion models, enriched with extensive pre-trained knowledge, to regularize the matting process. We present novel architectural innovations that empower our model to produce mattes with superior resolution and detail. The proposed method is versatile and can perform both guidance-free and guidance-based image matting, accommodating a variety of additional cues. Our comprehensive evaluation across three benchmark datasets demonstrates the superior performance of our approach, both quantitatively and qualitatively. The results not only reflect our method's robust effectiveness but also highlight its ability to generate visually compelling mattes that approach photorealistic quality. The project page for this paper is available at https://lightchaserx.github.io/matting-by-generation/
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# ThinK: クエリ駆動型プルーニングによるより薄いキーキャッシュ

ThinK: Thinner Key Cache by Query-Driven Pruning ( http://arxiv.org/abs/2407.21018v1 )

ライセンス: Link先を確認
Yuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo, (参考訳) 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、モデルのサイズとシーケンス長を増大させることで、様々なアプリケーションで前例のない性能を実現している。 しかし、計算コストとメモリコストの上昇は、特にトランスフォーマーアテンション機構の2次複雑さのため、長いシーケンスの管理において大きな課題を引き起こす。 本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。 シーケンス長に基づいてメモリを最適化する既存のアプローチとは異なり、KVキャッシュのチャネル次元は、注意重みの非バランスな大きさ分布と低ランク構造を特徴とする顕著な冗長性を示す。 これらの観測に基づいて,最小のチャネルを選択的に切断しつつ,注目重み損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。 提案手法は,モデル精度を維持・向上するだけでなく,バニラKVキャッシュ消去法と比較して,メモリコストを20%以上削減する。 LLaMA3およびMistralモデルに対する広範囲な評価により、ThinKの有効性が確認され、性能を損なうことなく効率的なLCMデプロイメントの新たな先例となる。 また、キャッシュプルーニングにメソッドを拡張し、メモリと計算のオーバーヘッドを減らし、ThinKの汎用性と幅広い適用性を実証する可能性についても概説する。

Large Language Models (LLMs) have revolutionized the field of natural language processing, achieving unprecedented performance across a variety of applications by leveraging increased model sizes and sequence lengths. However, the associated rise in computational and memory costs poses significant challenges, particularly in managing long sequences due to the quadratic complexity of the transformer attention mechanism. This paper focuses on the long-context scenario, addressing the inefficiencies in KV cache memory consumption during inference. Unlike existing approaches that optimize the memory based on the sequence lengths, we uncover that the channel dimension of the KV cache exhibits significant redundancy, characterized by unbalanced magnitude distribution and low-rank structure in attention weights. Based on these observations, we propose ThinK, a novel query-dependent KV cache pruning method designed to minimize attention weight loss while selectively pruning the least significant channels. Our approach not only maintains or enhances model accuracy but also achieves a reduction in memory costs by over 20% compared with vanilla KV cache eviction methods. Extensive evaluations on the LLaMA3 and Mistral models across various long-sequence datasets confirm the efficacy of ThinK, setting a new precedent for efficient LLM deployment without compromising performance. We also outline the potential of extending our method to value cache pruning, demonstrating ThinK's versatility and broad applicability in reducing both memory and computational overheads.
翻訳日:2024-07-31 16:21:06 公開日:2024-07-30
# AIイノベーションが米国占領に与える影響

The Potential Impact of AI Innovations on U.S. Occupations ( http://arxiv.org/abs/2312.04714v5 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia, (参考訳) 職業は相互接続されたタスクで構成されており、AIの影響を受けているのは職業自身ではなく、これらのタスクである。 タスクがどのように影響されるかを評価するために、以前のアプローチでは手動アノテーションや粗い粒度のマッチングを使用していた。 機械学習の最近の進歩を活用して、粗い粒度のマッチングをより正確なディープラーニングアプローチに置き換える。 AI Impact(AII)測定の導入では、Deep Learning Natural Language Processingを使用して、さまざまな作業タスクに影響を及ぼす可能性のあるAI特許を自動的に識別する。 われわれの手法は、2015年から2022年にかけて米国特許商標庁(USPTO)に提出された24,758件のAI特許の分析を通じて、17,879件のタスク記述の包括的なデータセットに依存し、AIの潜在的な影響を定量化する。 我々の結果は、いくつかの職業が潜在的に影響を受け、その影響は特定のスキルに複雑に結びついていることを示している。 これらの中には、これまで考えられていたようなルーチンタスク(一連のステップとしてコーディングされた)だけでなく、非ルーチンタスク(例えば、健康状態の診断、コンピュータのプログラミング、飛行経路の追跡など)も含まれている。 しかしながら、AIが労働に与える影響は、影響を受ける職業のいくつかが置き換えられるのではなく、強化されているという事実(例えば、神経学者、ソフトウェアエンジニア、航空交通管制官)と、影響を受けるセクターが労働不足(例えば、IT、ヘルスケア、運輸)によって制限されている。

An occupation is comprised of interconnected tasks, and it is these tasks, not occupations themselves, that are affected by AI. To evaluate how tasks may be impacted, previous approaches utilized manual annotations or coarse-grained matching. Leveraging recent advancements in machine learning, we replace coarse-grained matching with more precise deep learning approaches. Introducing the AI Impact (AII) measure, we employ Deep Learning Natural Language Processing to automatically identify AI patents that may impact various occupational tasks at scale. Our methodology relies on a comprehensive dataset of 17,879 task descriptions and quantifies AI's potential impact through analysis of 24,758 AI patents filed with the United States Patent and Trademark Office (USPTO) between 2015 and 2022. Our results reveal that some occupations will potentially be impacted, and that impact is intricately linked to specific skills. These include not only routine tasks (codified as a series of steps), as previously thought, but also non-routine ones (e.g., diagnosing health conditions, programming computers, and tracking flight routes). However, AI's impact on labour is limited by the fact that some of the occupations affected are augmented rather than replaced (e.g., neurologists, software engineers, air traffic controllers), and the sectors affected are experiencing labour shortages (e.g., IT, Healthcare, Transport).
翻訳日:2024-07-31 12:35:15 公開日:2024-07-30
# グラフニューラルネットワークのための動的スパイクフレームワーク

Dynamic Spiking Framework for Graph Neural Networks ( http://arxiv.org/abs/2401.05373v3 )

ライセンス: Link先を確認
Nan Yin, Mengzhu Wang, Zhenghan Chen, Giulia De Masi, Bin Gu, Huan Xiong, (参考訳) グラフで表される非ユークリッドデータの処理において、低消費電力と高効率のため、スパイキングニューラルネットワーク(SNN)とグラフニューラルネットワーク(GNN)の統合が徐々に注目を集めている。 しかし、一般的な問題として、動的グラフ表現学習は、高い複雑性や大きなメモリオーバーヘッドといった課題に直面している。 現在の作業では、グラフ構造情報を見落とし、伝播中に詳細が失われてしまうような、効率的なトレーニングのために、連続的な機能ではなくバイナリ機能を使用することで、リカレントニューラルネットワーク(RNN)の代わりにSNNを使用することが多い。 さらに、動的スパイクモデルを最適化するには、通常、時間ステップを越えた情報の伝搬が必要であり、メモリ要求が増加する。 これらの課題に対処するため、我々は \underline{Dy}namic \underline{S}p\underline{i}king \underline{G}raph \underline{N}eural Networks (\method{}) というフレームワークを提案する。 情報損失問題を緩和するため、‘method{} は初期層情報を最終層に直接伝播して情報補償を行う。 メモリ要求を満たすために、前方の計算の正確な逆に依存しない平衡状態に暗黙の微分を適用する。 従来の暗黙差分法は通常静的な状況に使用されるが、 \method{} は動的グラフ設定に拡張する。 大規模実世界の3つの動的グラフデータセットに対する大規模な実験は、計算コストの低い動的ノード分類タスクにおける \method{} の有効性を検証する。

The integration of Spiking Neural Networks (SNNs) and Graph Neural Networks (GNNs) is gradually attracting attention due to the low power consumption and high efficiency in processing the non-Euclidean data represented by graphs. However, as a common problem, dynamic graph representation learning faces challenges such as high complexity and large memory overheads. Current work often uses SNNs instead of Recurrent Neural Networks (RNNs) by using binary features instead of continuous ones for efficient training, which would overlooks graph structure information and leads to the loss of details during propagation. Additionally, optimizing dynamic spiking models typically requires propagation of information across time steps, which increases memory requirements. To address these challenges, we present a framework named \underline{Dy}namic \underline{S}p\underline{i}king \underline{G}raph \underline{N}eural Networks (\method{}). To mitigate the information loss problem, \method{} propagates early-layer information directly to the last layer for information compensation. To accommodate the memory requirements, we apply the implicit differentiation on the equilibrium state, which does not rely on the exact reverse of the forward computation. While traditional implicit differentiation methods are usually used for static situations, \method{} extends it to the dynamic graph setting. Extensive experiments on three large-scale real-world dynamic graph datasets validate the effectiveness of \method{} on dynamic node classification tasks with lower computational costs.
翻訳日:2024-07-31 12:35:15 公開日:2024-07-30
# AutoRG-Brain:脳MRIのためのグラウンドドレポート生成

AutoRG-Brain: Grounded Report Generation for Brain MRI ( http://arxiv.org/abs/2407.16684v3 )

ライセンス: Link先を確認
Jiayu Lei, Xiaoman Zhang, Chaoyi Wu, Lisong Dai, Ya Zhang, Yanyong Zhang, Yanfeng Wang, Weidi Xie, Yuehua Li, (参考訳) 放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。 この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。 これらの課題に対処するために、脳MRIの解釈システムから始まり、脳構造のデライン化、異常の局所化、よく組織された発見の生成を支援する、基盤となる自動報告生成(AutoRG)の一連の研究を開始する。 まず、データセット構築に関して、異常領域のセグメンテーションマスクとRadGenome-Brain MRIと呼ばれる手動オーサリングレポートを含む包括的なデータセットをリリースする。 このデータリソースは、AI支援レポート生成システムの分野で進行中の研究と開発を触媒することを目的としている。 第2に, システム設計において, 画素レベルの接地による視覚的手がかりを持つ最初の脳MRIレポート生成システムであるAutoRG-Brainを提案する。 第3に,脳構造セグメンテーションの定量的評価と人的評価を行い,その信頼性と正確性を示すために,異常な局所化とレポート生成タスクを行った。 このシステムは実際の臨床シナリオに組み込まれており、放射線技師は、生成した結果と異常なセグメンテーションマスクに基づいてレポートを書くように指示された。 以上の結果から, 若年者医師のレポート作成能力の向上が図られ, 成績の整合性が向上し, 総合的生産性が向上することが示唆された。

Radiologists are tasked with interpreting a large number of images in a daily base, with the responsibility of generating corresponding reports. This demanding workload elevates the risk of human error, potentially leading to treatment delays, increased healthcare costs, revenue loss, and operational inefficiencies. To address these challenges, we initiate a series of work on grounded Automatic Report Generation (AutoRG), starting from the brain MRI interpretation system, which supports the delineation of brain structures, the localization of anomalies, and the generation of well-organized findings. We make contributions from the following aspects, first, on dataset construction, we release a comprehensive dataset encompassing segmentation masks of anomaly regions and manually authored reports, termed as RadGenome-Brain MRI. This data resource is intended to catalyze ongoing research and development in the field of AI-assisted report generation systems. Second, on system design, we propose AutoRG-Brain, the first brain MRI report generation system with pixel-level grounded visual clues. Third, for evaluation, we conduct quantitative assessments and human evaluations of brain structure segmentation, anomaly localization, and report generation tasks to provide evidence of its reliability and accuracy. This system has been integrated into real clinical scenarios, where radiologists were instructed to write reports based on our generated findings and anomaly segmentation masks. The results demonstrate that our system enhances the report-writing skills of junior doctors, aligning their performance more closely with senior doctors, thereby boosting overall productivity.
翻訳日:2024-07-31 12:35:15 公開日:2024-07-30
# DAGPap24のパピルシオン : 紙かイリューシオンか?AIによる科学論文の検出

Papilusion at DAGPap24: Paper or Illusion? Detecting AI-generated Scientific Papers ( http://arxiv.org/abs/2407.17629v2 )

ライセンス: Link先を確認
Nikita Andreev, Alexander Shirnin, Vladislav Mikhailov, Ekaterina Artemova, (参考訳) 本稿では,DAGPap24共有タスク内で開発されたAI生成科学テキスト検出装置であるPapilusionについて述べる。 本稿では,アンサンブルに基づくアプローチを提案し,検知器の構成が性能に与える影響を分析するためのアブレーション研究を行う。 パピルシオンは6位にランクインし、公式テストセットでF1スコアの99.46(+9.63)を達成した。

This paper presents Papilusion, an AI-generated scientific text detector developed within the DAGPap24 shared task on detecting automatically generated scientific papers. We propose an ensemble-based approach and conduct ablation studies to analyze the effect of the detector configurations on the performance. Papilusion is ranked 6th on the leaderboard, and we improve our performance after the competition ended, achieving 99.46 (+9.63) of the F1-score on the official test set.
翻訳日:2024-07-31 12:35:15 公開日:2024-07-30
# EHR-SeqSQL : 電子健康記録を相互に探索するシークエンシャルテキスト-SQLデータセット

EHR-SeqSQL : A Sequential Text-to-SQL Dataset For Interactively Exploring Electronic Health Records ( http://arxiv.org/abs/2406.00019v3 )

ライセンス: Link先を確認
Jaehee Ryu, Seonhee Cho, Gyubok Lee, Edward Choi, (参考訳) 本稿ではEHR(Electronic Health Record)データベースのための新しいシーケンシャルテキスト-SQLデータセットであるEHR-SeqSQLを紹介する。 EHR-SeqSQLは、対話性、構成性、効率性といった、テキストからSQLへのパースにおいて重要で未探索の側面に対処するように設計されている。 私たちの知る限りでは、EHR-SeqSQLは最大のだけでなく、シーケンシャルな質問や文脈的な質問を含む最初の医療用テキスト-SQLデータセットベンチマークです。 我々は、合成一般化能力を評価するために、データ分割と新しいテストセットを提供する。 本実験は,学習構成性において,単ターンアプローチよりも多ターンアプローチの方が優れていることを示す。 さらに、我々のデータセットは特別に作られたトークンをSQLクエリに統合し、実行効率を向上させる。 EHR-SeqSQLでは,テキストからSQLへの領域における実践的ニーズと学術研究のギャップを埋めることを目指しています。 EHR-SeqSQLはhttps://github.com/seonhee99/EHR-SeqSQLで入手できる。

In this paper, we introduce EHR-SeqSQL, a novel sequential text-to-SQL dataset for Electronic Health Record (EHR) databases. EHR-SeqSQL is designed to address critical yet underexplored aspects in text-to-SQL parsing: interactivity, compositionality, and efficiency. To the best of our knowledge, EHR-SeqSQL is not only the largest but also the first medical text-to-SQL dataset benchmark to include sequential and contextual questions. We provide a data split and the new test set designed to assess compositional generalization ability. Our experiments demonstrate the superiority of a multi-turn approach over a single-turn approach in learning compositionality. Additionally, our dataset integrates specially crafted tokens into SQL queries to improve execution efficiency. With EHR-SeqSQL, we aim to bridge the gap between practical needs and academic research in the text-to-SQL domain. EHR-SeqSQL is available at https://github.com/seonhee99/EHR-SeqSQL.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# Flashアテンションによるパッケージングによるトレーニング効率の向上

Enhancing Training Efficiency Using Packing with Flash Attention ( http://arxiv.org/abs/2407.09105v4 )

ライセンス: Link先を確認
Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra, (参考訳) パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。 これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。 Hugging Face SFTトレーナーは常に、パッキングを使用して複数のトレーニング例を組み合わせるオプションを提供しており、GPUリソースの最大利用を可能にしている。 しかし、これまでは各満員のトレーニング例の適切なマスキングを提供していなかった。 この機能はHugging Face Transformers 4.43に追加された。 この新機能を解析し、さまざまな種類のパッキングにまたがるメリットを示します。

Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has now been added to Hugging Face Transformers 4.43. We analyse this new feature and show the benefits across different variations of packing.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# ISMRNN:マンバを用いた長期連続放送のための暗黙的に分割されたRNN方式

ISMRNN: An Implicitly Segmented RNN Method with Mamba for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2407.10768v4 )

ライセンス: Link先を確認
GaoXiang Zhao, Li Zhou, XiaoQiang Wang, (参考訳) 長期の時系列予測は、歴史情報を利用して将来の状態を予測することを目的としている。 従来のRNNベースのシリーズ予測手法は、長期連続問題において、長期依存や勾配問題に効果的に対処するのに苦労する。 最近、SegRNNは長期連続予測に適したRNNベースの主要なモデルとして登場し、革新的なセグメンテーションと並列デコード技術を通じて、合理化アーキテクチャを維持しながら最先端の性能を実証している。 しかし、SegRNNにはいくつかの制限がある: その固定されたセグメンテーションはデータの連続性を妨害し、異なるセグメンテーションにまたがる情報を効果的に活用できない。 これらの問題に対処するため、ISMRNN法では、時系列を分解してセグメント化された隠蔽状態にマッピングする暗黙のセグメンテーション構造を導入し、セグメンテーションフェーズ中により密な情報交換を行う。 さらに、符号化層に残余構造を組み込んで、繰り返し構造内の情報損失を軽減する。 より効果的に情報を抽出するために、我々はさらにMambaアーキテクチャを統合し、時系列情報抽出を強化する。 いくつかの実世界の時系列予測データセットの実験は、我々のモデルが現在の最先端モデルの性能を上回ることを示した。

Long time series forecasting aims to utilize historical information to forecast future states over extended horizons. Traditional RNN-based series forecasting methods struggle to effectively address long-term dependencies and gradient issues in long time series problems. Recently, SegRNN has emerged as a leading RNN-based model tailored for long-term series forecasting, demonstrating state-of-the-art performance while maintaining a streamlined architecture through innovative segmentation and parallel decoding techniques. Nevertheless, SegRNN has several limitations: its fixed segmentation disrupts data continuity and fails to effectively leverage information across different segments, the segmentation strategy employed by SegRNN does not fundamentally address the issue of information loss within the recurrent structure. To address these issues, we propose the ISMRNN method with three key enhancements: we introduce an implicit segmentation structure to decompose the time series and map it to segmented hidden states, resulting in denser information exchange during the segmentation phase. Additionally, we incorporate residual structures in the encoding layer to mitigate information loss within the recurrent structure. To extract information more effectively, we further integrate the Mamba architecture to enhance time series information extraction. Experiments on several real-world long time series forecasting datasets demonstrate that our model surpasses the performance of current state-of-the-art models.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# ドリームカー:3Dカーの改造に先駆けて車に特化

DreamCar: Leveraging Car-specific Prior for in-the-wild 3D Car Reconstruction ( http://arxiv.org/abs/2407.16988v2 )

ライセンス: Link先を確認
Xiaobiao Du, Haiyang Sun, Ming Lu, Tianqing Zhu, Xin Yu, (参考訳) 自動運転産業は通常、プロのアーティストを雇って、精巧な3D自動車を作っている。 しかし、大規模なデジタル資産を作るのは高価である。 自動車の画像を含むデータセットはすでに多数存在するので、これらのデータセットから高品質な3Dカーモデルを再構築することに重点を置いています。 しかし、これらのデータセットは前方移動シーンにおける車の片側のみを含む。 既存の生成モデルを使って、より監督的な情報を提供しようとしているが、車固有のものではなく、合成データセットで訓練されているため、車内での一般化に苦慮している。 また,3次元車両のテクスチャの誤りは,撮影画像の撮影時にカメラポーズ推定の誤差が大きいためである。 これらの制限により、従来の3D車両の改造は困難である。 これらの問題に対処するために,DreamCarという新しい手法を提案する。 生成モデルを一般化するために、Car360という名前の自動車データセットを5,600台以上の車両で収集する。 このデータセットにより、生成モデルを車に対してより堅牢にする。 我々は、車に特異的なこの生成的前駆体を用いて、スコア蒸留サンプリングを通してその再構築を誘導する。 監視情報をさらに補完するために,車両の幾何学的・外観対称性を利用する。 最後に、テクスチャのミスアライメントに取り組むために、ポーズを修正できるポーズ最適化手法を提案する。 大規模な実験により, 高品質な3D車両の再構築において, 既存手法よりも優れた性能が得られた。 https://xiaobiaodu.github.io/dreamcar-project/}{Our コードは利用可能である。 ※

Self-driving industries usually employ professional artists to build exquisite 3D cars. However, it is expensive to craft large-scale digital assets. Since there are already numerous datasets available that contain a vast number of images of cars, we focus on reconstructing high-quality 3D car models from these datasets. However, these datasets only contain one side of cars in the forward-moving scene. We try to use the existing generative models to provide more supervision information, but they struggle to generalize well in cars since they are trained on synthetic datasets not car-specific. In addition, The reconstructed 3D car texture misaligns due to a large error in camera pose estimation when dealing with in-the-wild images. These restrictions make it challenging for previous methods to reconstruct complete 3D cars. To address these problems, we propose a novel method, named DreamCar, which can reconstruct high-quality 3D cars given a few images even a single image. To generalize the generative model, we collect a car dataset, named Car360, with over 5,600 vehicles. With this dataset, we make the generative model more robust to cars. We use this generative prior specific to the car to guide its reconstruction via Score Distillation Sampling. To further complement the supervision information, we utilize the geometric and appearance symmetry of cars. Finally, we propose a pose optimization method that rectifies poses to tackle texture misalignment. Extensive experiments demonstrate that our method significantly outperforms existing methods in reconstructing high-quality 3D cars. \href{https://xiaobiaodu.github.io/dreamcar-project/}{Our code is available.}
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# 自動車故障シミュレーションのための生成学習

Generative Learning for Simulation of Vehicle Faults ( http://arxiv.org/abs/2407.17654v2 )

ライセンス: Link先を確認
Patrick Kuiper, Sirui Lin, Jose Blanchet, Vahid Tarokh, (参考訳) 本研究では,車両の健康と予測故障をシミュレートする新しい生成モデルを開発した。 このモデルは、アメリカ陸軍の予測ロジスティックスプログラムのデータに基づいて訓練され、予測保守をサポートすることを目的としている。 故障が起こる前にメンテナンスの介入を行うのに十分な欠陥を事前に予測する。 このモデルには、車の健康に影響を与える現実世界の要因が組み込まれている。 また、運転データを分析し、各車両を個別の状態に特徴付けることで、車両の状態を理解することもできる。 重要なことは、そのモデルは高い精度で最初の故障の時期を予測することである。 私たちは、そのパフォーマンスを他のモデルと比較し、そのトレーニングの成功例を示します。

We develop a novel generative model to simulate vehicle health and forecast faults, conditioned on practical operational considerations. The model, trained on data from the US Army's Predictive Logistics program, aims to support predictive maintenance. It forecasts faults far enough in advance to execute a maintenance intervention before a breakdown occurs. The model incorporates real-world factors that affect vehicle health. It also allows us to understand the vehicle's condition by analyzing operating data, and characterizing each vehicle into discrete states. Importantly, the model predicts the time to first fault with high accuracy. We compare its performance to other models and demonstrate its successful training.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# 立体差分に基づく眼科相談における役割特化指導型大言語モデル

A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation ( http://arxiv.org/abs/2407.18483v3 )

ライセンス: Link先を確認
Laiyi Fu, Binbin Fan, Hongkai Du, Yanxiang Feng, Chunhua Li, Huping Song, (参考訳) 眼科相談は、眼疾患の診断、治療、予防に不可欠である。 しかし、コンサルテーションの需要は眼科医以上のものになっている。 事前訓練された大規模な言語モデルを活用することで、特定のシナリオに対する効果的な対話を設計し、相談を支援することができる。 従来の質問応答タスクの微調整戦略は、モデルのサイズが大きくなることと、コンサルテーション中に患者・医師の役割を無視することがしばしばあるため、現実的ではない。 本稿では,医師の役割認識をガイドした眼科医療問合せ大言語モデルであるEyeDoctorと,外部疾患情報を用いた知識ベースを提案する。 眼科相談においてEyeDoctorはより高い質問応答精度を達成できることを示す実験結果を得た。 特に、EyeDoctorは第2のベストモデルであるChatGPTと比較してルージュ-1スコアが7.25%改善し、F1スコアが10.16%改善した。 EyeDocは無料のWebベースサービスとしても機能し、souceコードはhttps://github.com/sperfu/EyeDoc.comで入手できる。

Ophthalmology consultations are crucial for diagnosing, treating, and preventing eye diseases. However, the growing demand for consultations exceeds the availability of ophthalmologists. By leveraging large pre-trained language models, we can design effective dialogues for specific scenarios, aiding in consultations. Traditional fine-tuning strategies for question-answering tasks are impractical due to increasing model size and often ignoring patient-doctor role function during consultations. In this paper, we propose EyeDoctor, an ophthalmic medical questioning large language model that enhances accuracy through doctor-patient role perception guided and an augmented knowledge base with external disease information. Experimental results show EyeDoctor achieves higher question-answering precision in ophthalmology consultations. Notably, EyeDoctor demonstrated a 7.25% improvement in Rouge-1 scores and a 10.16% improvement in F1 scores on multi-round datasets compared to second best model ChatGPT, highlighting the importance of doctor-patient role differentiation and dynamic knowledge base expansion for intelligent medical consultations. EyeDoc also serves as a free available web based service and souce code is available at https://github.com/sperfu/EyeDoc.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# プロンプトとしての知識グラフ構造:知識に基づく因果発見のための小言語モデルの改善

Knowledge Graph Structure as Prompt: Improving Small Language Models Capabilities for Knowledge-based Causal Discovery ( http://arxiv.org/abs/2407.18752v3 )

ライセンス: Link先を確認
Yuni Susanti, Michael Färber, (参考訳) 因果発見は、観測データに基づいて変数間の因果構造を推定することを目的としている。 大規模言語モデル(LLM)は、実際のデータ値ではなく変数に関連するメタデータを推論することで、因果発見問題に取り組むための新たな視点を提供する。 本稿では,10億以上のパラメータを持つLLMとして定義されているSmall Language Models(SLM)の機能と,知識に基づく因果探索のための素早い学習について検討する。 具体的には,共通ノードやメタパスなどの知識グラフから構造情報を統合する新しい手法であるKG Structure as Promptを,SLMの能力を高めるための即時学習に導入する。 バイオメディカルおよびオープンドメインの3種類のデータセットを数ショット設定で実験した結果、我々のアプローチの有効性が示され、ほとんどのベースラインを超え、さらにはフルデータセットで訓練された従来の微調整アプローチさえも上回っている。 SLMは知識グラフとプロンプトベースの学習と組み合わせて、より多くのパラメータを持つLSMを超える可能性を示す。 コードとデータセットはGitHubで入手可能です。

Causal discovery aims to estimate causal structures among variables based on observational data. Large Language Models (LLMs) offer a fresh perspective to tackle the causal discovery problem by reasoning on the metadata associated with variables rather than their actual data values, an approach referred to as knowledge-based causal discovery. In this paper, we investigate the capabilities of Small Language Models (SLMs, defined as LLMs with fewer than 1 billion parameters) with prompt-based learning for knowledge-based causal discovery. Specifically, we present KG Structure as Prompt, a novel approach for integrating structural information from a knowledge graph, such as common neighbor nodes and metapaths, into prompt-based learning to enhance the capabilities of SLMs. Experimental results on three types of biomedical and open-domain datasets under few-shot settings demonstrate the effectiveness of our approach, surpassing most baselines and even conventional fine-tuning approaches trained on full datasets. Our findings further highlight the strong capabilities of SLMs: in combination with knowledge graphs and prompt-based learning, SLMs demonstrate the potential to surpass LLMs with larger number of parameters. Our code and datasets are available on GitHub.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# 複合視覚能力家庭における子どものアートワークの育成

Engaging with Children's Artwork in Mixed Visual-Ability Families ( http://arxiv.org/abs/2407.18874v2 )

ライセンス: Link先を確認
Arnavi Chheda-Kothary, Jacob O. Wobbrock, Jon E. Froehlich, (参考訳) 本稿では,視覚障害者の家族と視覚障害者のアートワークの関わり方,理解と解釈を支援するための戦略,AIなどの技術の役割について検討する。 第1報では14名のBLV患者を対象とし,第2報では5名のBLV患者を対象とした。 子どものアートワークと多感覚デザインプローブのAI記述に関する半構造化インタビューを通じて,BLVの家族は,子どものストーリーテリングや解釈を他の非視覚的表現よりも好んで,アートのエンゲージメントを結合機会として重視することを発見した。 さらに、いくつかの不正確さにもかかわらず、BLVの家族は、AIが生成した記述は子供たちとの対話を促進し、自己指導によるアート発見を助けることができると感じた。 混合視覚能力家族におけるアートワークエンゲージメントを支援するため,様々な手法によるアートワークアクセスを可能にすること,子どものAI出力の補正を支援すること,コンテキストと内容と解釈の区別,子どものアートワークの記述など,デザイン上の考慮事項を整理した。

We present two studies exploring how blind or low-vision (BLV) family members engage with their sighted children's artwork, strategies to support understanding and interpretation, and the potential role of technology, such as AI, therein. Our first study involved 14 BLV individuals, and the second included five groups of BLV individuals with their children. Through semi-structured interviews with AI descriptions of children's artwork and multi-sensory design probes, we found that BLV family members value artwork engagement as a bonding opportunity, preferring the child's storytelling and interpretation over other nonvisual representations. Additionally, despite some inaccuracies, BLV family members felt that AI-generated descriptions could facilitate dialogue with their children and aid self-guided art discovery. We close with specific design considerations for supporting artwork engagement in mixed visual-ability families, including enabling artwork access through various methods, supporting children's corrections of AI output, and distinctions in context vs. content and interpretation vs. description of children's artwork.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# 非物理的準確率と非局所性客観性の関係

A Relationship Between Nonphysical Quasi-probabilities and Nonlocality Objectivity ( http://arxiv.org/abs/2407.19061v2 )

ライセンス: Link先を確認
Colm Kelleher, (参考訳) 密度行列は、純粋状態と混合状態の両方をカバーする、量子状態の最も一般的な記述である。 正の半定性は密度行列の物理的要件であり、物理値を測定する非負の確率を示唆する。 別々に、非局所性はいくつかの二部量子系によって共有される性質であり、局所古典変数では説明できない成分部分の相関を示す。 本研究では,正の半無限条件を破り,負の最小固有値がゼロに近い状態が任意に成立することを示し,ラベリングが交換されたときの非局所な状態の構成を可能にする。 これは観測者に依存しない非局所性であり、非局所的客観主義と負準確率の間の関係を示す。

Density matrices are the most general descriptions of quantum states, covering both pure and mixed states. Positive semidefiniteness is a physical requirement of density matrices, imposing nonnegative probabilities of measuring physical values. Separately, nonlocality is a property shared by some bipartite quantum systems, indicating a correlation of the component parts that cannot be described by local classical variables. In this work, we show that breaking the positive-semidefinite requirement and allowing states with a negative minimal eigenvalue arbitrarily close to zero, allows for the construction of states that are nonlocal under one component labelling but local when the labelling is interchanged. This is an observer-dependent nonlocality, showing the connection between nonlocal objectivism and negative quasi-probabilities.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# 構成可能なシステムにおけるコンパイル誤差の同定におけるLCMの能力評価

Evaluating the Capability of LLMs in Identifying Compilation Errors in Configurable Systems ( http://arxiv.org/abs/2407.19087v2 )

ライセンス: Link先を確認
Lucas Albuquerque, Rohit Gheyi, Márcio Ribeiro, (参考訳) コンパイルはLinuxのような構成可能なシステムを開発する上で重要なプロセスである。 しかし、従来のコンパイラは可変性を意識していないため、構成可能なシステムでコンパイルエラーを特定することは簡単ではない。 これらのコンパイルエラーを検知する以前のアプローチは、プログラマの多大な努力を必要とする高度な技術に依存していることが多い。 本研究では,大規模言語モデル(LLM),特にChatGPT4,Le Chat Mistral,Gemini Advanced 1.5の有効性について検討した。 最初は、C++、Java、C言語で50の小さな製品を評価し、その後C言語で30の小さな構成可能なシステムが17種類のコンパイルエラーをカバーしました。 ChatGPT4は個々の製品や構成可能なシステムでほとんどのコンパイルエラーを検知し、Le Chat MistralとGemini Advanced 1.5はそれらのいくつかを検出した。 LLMは開発者が構成可能なシステムでコンパイルエラーを識別するのを補助する可能性を示している。

Compilation is an important process in developing configurable systems, such as Linux. However, identifying compilation errors in configurable systems is not straightforward because traditional compilers are not variability-aware. Previous approaches that detect some of these compilation errors often rely on advanced techniques that require significant effort from programmers. This study evaluates the efficacy of Large Language Models (LLMs), specifically ChatGPT4, Le Chat Mistral and Gemini Advanced 1.5, in identifying compilation errors in configurable systems. Initially, we evaluate 50 small products in C++, Java, and C languages, followed by 30 small configurable systems in C, covering 17 different types of compilation errors. ChatGPT4 successfully identified most compilation errors in individual products and in configurable systems, while Le Chat Mistral and Gemini Advanced 1.5 detected some of them. LLMs have shown potential in assisting developers in identifying compilation errors in configurable systems.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# QEEGNet: 拡張脳波エンコーディングのための量子機械学習

QEEGNet: Quantum Machine Learning for Enhanced Electroencephalography Encoding ( http://arxiv.org/abs/2407.19214v2 )

ライセンス: Link先を確認
Chi-Sheng Chen, Samuel Yen-Chi Chen, Aidan Hung-Wen Tsai, Chun-Shu Wei, (参考訳) 脳波検査(Electroencephalography、EEG)は、脳活動のモニタリングと分析のための神経科学および臨床実践において重要なツールである。 EEGNetのような従来のニューラルネットワークモデルは、EEG信号の復号化でかなりの成功を収めてきたが、しばしばデータの複雑さと高次元性に悩まされている。 量子コンピューティングの最近の進歩は、量子機械学習(QML)技術を通じて機械学習モデルを強化する新たな機会を提供する。 本稿では,量子コンピューティングと従来のEEGNetアーキテクチャを統合した新しいハイブリッドニューラルネットワークであるQuantum-EEGNetを紹介する。 QEEGNetはニューラルネットワークに量子層を組み込んで、EEGデータのより複雑なパターンをキャプチャし、計算上の利点を提供する。 我々は、ベンチマークEEGデータセットであるBCI Competition IV 2aでQEEGNetを評価し、従来のEEGNetをほとんどの被験者で一貫して上回り、ノイズに対するロバスト性を示している。 本研究は,脳波解析における量子強化ニューラルネットワークの有意な可能性を強調し,この分野における研究と実践の両面での新しい方向性を示唆するものである。

Electroencephalography (EEG) is a critical tool in neuroscience and clinical practice for monitoring and analyzing brain activity. Traditional neural network models, such as EEGNet, have achieved considerable success in decoding EEG signals but often struggle with the complexity and high dimensionality of the data. Recent advances in quantum computing present new opportunities to enhance machine learning models through quantum machine learning (QML) techniques. In this paper, we introduce Quantum-EEGNet (QEEGNet), a novel hybrid neural network that integrates quantum computing with the classical EEGNet architecture to improve EEG encoding and analysis, as a forward-looking approach, acknowledging that the results might not always surpass traditional methods but it shows its potential. QEEGNet incorporates quantum layers within the neural network, allowing it to capture more intricate patterns in EEG data and potentially offering computational advantages. We evaluate QEEGNet on a benchmark EEG dataset, BCI Competition IV 2a, demonstrating that it consistently outperforms traditional EEGNet on most of the subjects and other robustness to noise. Our results highlight the significant potential of quantum-enhanced neural networks in EEG analysis, suggesting new directions for both research and practical applications in the field.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# RAVSS:多話者シナリオにおけるロバスト・オーディオ・ビジュアル音声分離

RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues ( http://arxiv.org/abs/2407.19224v2 )

ライセンス: Link先を確認
Tianrui Pan, Jie Liu, Bohan Wang, Jie Tang, Gangshan Wu, (参考訳) 既存のAVSS(Audio-Visual Speech separation)手法は、主に2話者分離のための音声-視覚融合戦略に重点を置いているが、それらはマルチ話者分離シナリオにおいて深刻な性能低下を示す。 典型的には、AVSS法では、個々の話者を所定のオーディオミックスから順次分離するためにガイドビデオを使用する。 本研究では,単一プロセス内で複数の話者の同時分離を容易にする,同時多話者分離フレームワークを提案する。 話者間の区別と相関を確立するために、話者と話者の相互作用を導入する。 VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。 さらに,本モデルでは,音声・視覚情報を完全に活用することで,他の視覚障害話者を軽減し,視覚的手がかりの欠如に対するレジリエンスを高めることができる。 また、特定の話者の視覚情報が完全に欠落している場合や、視覚的フレームが部分的に欠落している場合も検討する。 その結果,2, 3, 4, 5 話者を含むすべての設定において,我々のモデルが最小性能の低下を示した。

While existing Audio-Visual Speech Separation (AVSS) methods primarily concentrate on the audio-visual fusion strategy for two-speaker separation, they demonstrate a severe performance drop in the multi-speaker separation scenarios. Typically, AVSS methods employ guiding videos to sequentially isolate individual speakers from the given audio mixture, resulting in notable missing and noisy parts across various segments of the separated speech. In this study, we propose a simultaneous multi-speaker separation framework that can facilitate the concurrent separation of multiple speakers within a singular process. We introduce speaker-wise interactions to establish distinctions and correlations among speakers. Experimental results on the VoxCeleb2 and LRS3 datasets demonstrate that our method achieves state-of-the-art performance in separating mixtures with 2, 3, 4, and 5 speakers, respectively. Additionally, our model can utilize speakers with complete audio-visual information to mitigate other visual-deficient speakers, thereby enhancing its resilience to missing visual cues. We also conduct experiments where visual information for specific speakers is entirely absent or visual frames are partially missing. The results demonstrate that our model consistently outperforms others, exhibiting the smallest performance drop across all settings involving 2, 3, 4, and 5 speakers.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# テストスメルの検出における大規模言語モデルの評価

Evaluating Large Language Models in Detecting Test Smells ( http://arxiv.org/abs/2407.19261v2 )

ライセンス: Link先を確認
Keila Lucas, Rohit Gheyi, Elvys Soares, Márcio Ribeiro, Ivan Machado, (参考訳) テストの臭いは、一般的に不適切なプラクティス、効果的なテストに関する知識の欠如、プロジェクトを完成させる期限のプレッシャーから生じるコーディングの問題です。 テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。 高度な静的分析や機械学習技術を使ってテストの臭いを検知するツールもあるが、これらのツールはよく使われる。 本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。 文献から収集した7つの異なるプログラミング言語のコードベースに30種類のテスト臭いを流し,ChatGPT-4,Mistral Large,Gemini Advancedを評価した。 ChatGPT-4は21種類の試験臭を同定した。 Gemini Advancedは17種を特定し、Mistral Largeは15種類の試験臭を検出した。 結論: LLMはテストの臭いを識別する貴重なツールとしての可能性を示した。

Test smells are coding issues that typically arise from inadequate practices, a lack of knowledge about effective testing, or deadline pressures to complete projects. The presence of test smells can negatively impact the maintainability and reliability of software. While there are tools that use advanced static analysis or machine learning techniques to detect test smells, these tools often require effort to be used. This study aims to evaluate the capability of Large Language Models (LLMs) in automatically detecting test smells. We evaluated ChatGPT-4, Mistral Large, and Gemini Advanced using 30 types of test smells across codebases in seven different programming languages collected from the literature. ChatGPT-4 identified 21 types of test smells. Gemini Advanced identified 17 types, while Mistral Large detected 15 types of test smells. Conclusion: The LLMs demonstrated potential as a valuable tool in identifying test smells.
翻訳日:2024-07-31 12:29:44 公開日:2024-07-30
# WindsorML: 自動車空力のための高精度計算流体力学データセット

WindsorML: High-Fidelity Computational Fluid Dynamics Dataset For Automotive Aerodynamics ( http://arxiv.org/abs/2407.19320v2 )

ライセンス: Link先を確認
Neil Ashton, Jordan B. Angel, Aditya S. Ghate, Gaetan K. W. Kenway, Man Long Wong, Cetin Kiris, Astrid Walle, Danielle C. Maddix, Gary Page, (参考訳) 本稿では,ウィンザー本体の355の幾何学的変種を含む機械学習のためのオープンソースの高忠実度データセットを提案する。 計算流体力学(CFD)シミュレーションは,280万セル以上を用いたカルテシアン没入バウンダリ法を用いて,GPUネイティブな壁面モデル大渦シミュレーション(WMLES)を用いて実行し,最大精度を確保した。 このデータセットには、路面電車で観測されたものを代表する幅広いフロー特性を示す幾何学的変種が含まれている。 データセット自体は、幾何学と力とモーメント係数だけでなく、3Dの時間平均ボリュームと境界データを含んでいる。 本稿では,基盤となるCFD手法の妥当性と,データセットの内容と構造について述べる。 著者らにとってこれは、許容オープンソースライセンス(CC-BY-SA)を持つWindsorボディのための、最初の大規模で高忠実なCFDデータセットである。

This paper presents a new open-source high-fidelity dataset for Machine Learning (ML) containing 355 geometric variants of the Windsor body, to help the development and testing of ML surrogate models for external automotive aerodynamics. Each Computational Fluid Dynamics (CFD) simulation was run with a GPU-native high-fidelity Wall-Modeled Large-Eddy Simulations (WMLES) using a Cartesian immersed-boundary method using more than 280M cells to ensure the greatest possible accuracy. The dataset contains geometry variants that exhibits a wide range of flow characteristics that are representative of those observed on road-cars. The dataset itself contains the 3D time-averaged volume & boundary data as well as the geometry and force & moment coefficients. This paper discusses the validation of the underlying CFD methods as well as contents and structure of the dataset. To the authors knowledge, this represents the first, large-scale high-fidelity CFD dataset for the Windsor body with a permissive open-source license (CC-BY-SA).
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# ギャップを埋める:単眼の携帯電話からスタジオのようなアバターを作る

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture ( http://arxiv.org/abs/2407.19593v2 )

ライセンス: Link先を確認
ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao, (参考訳) 個人のためにフォトリアリスティックなアバターを作るには、LightStageシステムのような複雑で高価なスタジオデバイスで広範囲に撮影セッションを行う必要がある。 ニューラル表現の最近の進歩により、高速な電話スキャンからフォトリアリスティックおよびアニマタブルな3Dアバターの生成が可能になったが、撮影時の照明は内蔵されており、顔の詳細が欠如しており、耳の後ろのような領域に欠けている。 そのため、スタジオで撮影するアバターに比べて品質が低下した。 本稿では,このギャップを埋める手法として,短い単眼電話からスタジオライクな照明テクスチャマップを生成する手法を提案する。 そこで我々は、StyleGAN2の$W^+$空間を用いて、音声テクスチャマップのパラメータ化を行い、ほぼ完全な再構成を可能にする。 そこで,StyleGAN2 を W^+$パラメタライズド空間にサンプリングし,非常に小さなスタジオ捕獲テクスチャを対角訓練信号として用いた。 顔のディテールの現実性と精度をさらに高めるため,携帯電話のテクスチャマップの画像勾配によって導かれる慎重に設計された拡散モデルを用いて,StyleGAN2の出力を超解する。 トレーニングが終わると、私たちは、カジュアルなモノクラースマートフォンビデオからスタジオのような顔のテクスチャマップを作るのに長けています。 その能力を実証し、モノクラー電話のキャプチャから、フォトリアリスティックで、均一に照らされた完全なアバターを創出する。 プロジェクトのページはhttp://shahrukhathar.github.io/2024/07/22/Bridging.htmlにある。

Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the $W^+$ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the $W^+$ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. The project page can be found at http://shahrukhathar.github.io/2024/07/22/Bridging.html
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# メタリワード言語モデル: LLM-as-a-Meta-Judgeによる自己改善型アライメント

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge ( http://arxiv.org/abs/2407.19594v2 )

ライセンス: Link先を確認
Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar, (参考訳) 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。 これらのモデルの改善は伝統的に人的データに頼っているが、近年の自己回帰機構(Yuan et al , 2024)は、LLMが人間のラベルに頼らず、自分自身の反応を判断することで改善できることを示した。 しかし、既存の手法は主に判断能力よりもモデル応答の改善に重点を置いており、反復訓練中に急速に飽和する。 この問題に対処するために,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる,自己改善プロセスに新たなメタリワード(Meta-Rewarding)ステップを導入する。 驚くべきことに、この教師なしのアプローチはモデルの判断能力を改善し、AlpacaEval 2では22.9%から39.4%、Arena-Hardでは20.6%から29.1%と、Llama-3-8B-Instructの勝利率の改善によって示されるように、指示に従う。 これらの結果は,人間の監督を伴わない自己改善モデルの可能性が強く示唆された。

Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# マルチGPU RI-HF エネルギーと解析勾配の$-$高スループットアブ初期分子動力学

Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics ( http://arxiv.org/abs/2407.19614v2 )

ライセンス: Link先を確認
Ryan Stocks, Elise Palethorpe, Giuseppe M. J. Barca, (参考訳) 本稿では,複数のグラフィックス処理ユニット(GPU)を用いて,自己同一性のあるハートリーフォック(RI-HF)エネルギーと解析勾配を計算するための最適化アルゴリズムと実装を提案する。 このアルゴリズムは特に、中小分子(10-100原子)の高スループットな分子動力学シミュレーションのために設計されている。 この研究の主な革新は、マルチGPU並列処理の活用と、GPU間で効率的に計算タスクを分散するワークロード分散スキームである。 また, メモリ使用率と計算効率を最適化するために, 対称性利用, 積分スクリーニング, 空間性を活用した手法も採用している。 計算結果によると、従来のGPUアクセラレーションされたRI-HFや従来のHFメソッドと比較して、シングルGPU AIMDスループットの3ドル以上のスピードアップを含む、大幅なパフォーマンス向上を実現している。 さらに、複数のGPUを利用することで、追加の集約GPUメモリが圧縮された3中心積分のストレージを可能にする場合、超線形スピードアップを提供することができる。 さらに,1000塩基関数までのシステムに対する高いスケーリング効率を報告し,最大4/4$\zeta$プライマリベースセット上での広範なパフォーマンスベンチマークを通じて,4$\times$A100 GPUノード上の理論ピークの最大47/%の浮動小数点性能を実現する。

This article presents an optimized algorithm and implementation for calculating resolution-of-the-identity Hartree-Fock (RI-HF) energies and analytic gradients using multiple Graphics Processing Units (GPUs). The algorithm is especially designed for high throughput \emph{ab initio} molecular dynamics simulations of small and medium size molecules (10-100 atoms). Key innovations of this work include the exploitation of multi-GPU parallelism and a workload balancing scheme that efficiently distributes computational tasks among GPUs. Our implementation also employs techniques for symmetry utilization, integral screening and leveraging sparsity to optimize memory usage and computational efficiency. Computational results show that the implementation achieves significant performance improvements, including over $3\times$ speedups in single GPU AIMD throughput compared to previous GPU-accelerated RI-HF and traditional HF methods. Furthermore, utilizing multiple GPUs can provide super-linear speedup when the additional aggregate GPU memory allows for the storage of decompressed three-center integrals. Additionally, we report strong scaling efficiencies for systems up to 1000 basis functions and demonstrate practical applications through extensive performance benchmarks on up to quadruple-$\zeta$ primary basis sets, achieving floating-point performance of up to 47\% of the theoretical peak on a 4$\times$A100 GPU node.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# 外部層によるプロンプト学習の促進

Advancing Prompt Learning through an External Layer ( http://arxiv.org/abs/2407.19674v2 )

ライセンス: Link先を確認
Fangming Cui, Xun Yang, Chao Wu, Liang Xiao, Xinmei Tian, (参考訳) Prompt Learningは、事前学習された視覚言語モデル(VLM)を、テキスト埋め込みの集合を学習することで、様々な下流タスクに適応するための有望な方法である。 これらの手法に固有の課題の1つは、未知のタスクに対する学習されたテキスト埋め込みの無効性による一般化性能の低下である。 このギャップを埋めるための直接的なアプローチは、プロンプトにテキストの埋め込みを凍結することであり、結果として、下流タスクにVLMを適用する能力が欠如している。 このジレンマに対処するために,新規な外部層(EnLa)を備えたEnPromptというパラダイムを提案する。 具体的には,VLMを下流タスクに適用するためのテキスト外部層と学習可能な視覚埋め込みを提案する。 学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。 この設計は2つのブランチ間の学習能力のバランスを考慮する。 テキスト的特徴と視覚的特徴を整合させるために,我々は新しい2段階のアプローチを提案する。 一 視覚とテキストのモダリティを整合させるための相違指標として最適輸送を導入すること。 ii) この2つのモード間の相互作用を強化するために, 新たな強化機能を導入する。 15データセットにわたる4つの代表的な実験(ベース・ツー・ノーベルの一般化、少数ショットの学習、クロスデータセットの一般化、ドメインシフトの一般化)は、我々の手法が既存の素早い学習法より優れていることを示す。

Prompt learning represents a promising method for adapting pre-trained vision-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we propose a paradigm called EnPrompt with a novel External Layer (EnLa). Specifically, we propose a textual external layer and learnable visual embeddings for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introduce a novel strengthening feature to enhance the interaction between these two modalities. Four representative experiments (i.e., base-to-novel generalization, few-shot learning, cross-dataset generalization, domain shifts generalization) across 15 datasets demonstrate that our method outperforms the existing prompt learning method.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# CollectiveSFT:中国医学ベンチマークのための大規模言語モデルのスケーリングと医療における集団指導

CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare ( http://arxiv.org/abs/2407.19705v2 )

ライセンス: Link先を確認
Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny, (参考訳) LLM(Large Language Models)の急速な進歩は、その能力を評価するための多数のベンチマークの作成を促している。この研究は、中国における包括的医療ベンチマーク(CMB)に焦点を当て、教師付き微調整(SFT)におけるデータセットの多様性と分散が、LLMのパフォーマンスをいかに向上させるかを示す。注目すべきことに、我々は、より大きなモデルに匹敵するスコアを達成するために、小さなベースモデルをトレーニングし、モデルのサイズに関わらず、多種多様な分散データセットがパフォーマンスを最適化できることを示した。 幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。 以上の結果から,より広い範囲のトレーニングデータにより,データセットの品質と微調整プロセスにおける多様性の重要性を浮き彫りにすることで,さまざまな医療シナリオに対してモデルを一般化し,効果的に実行する能力が向上する可能性が示唆された。 我々は、将来の研究のためのモデルをhttps://github.com/CAS-SIAT-XinHai/CollectiveSFTでオープンソース化しました。

The rapid progress in Large Language Models (LLMs) has prompted the creation of numerous benchmarks to evaluate their capabilities.This study focuses on the Comprehensive Medical Benchmark in Chinese (CMB), showcasing how dataset diversity and distribution in supervised fine-tuning (SFT) may enhance LLM performance.Remarkably, We successfully trained a smaller base model to achieve scores comparable to larger models, indicating that a diverse and well-distributed dataset can optimize performance regardless of model size.This study suggests that even smaller models may reach high performance levels with carefully curated and varied datasets. By integrating a wide range of instructional content, our approach addresses potential issues such as data quality inconsistencies. Our results imply that a broader spectrum of training data may enhance a model's ability to generalize and perform effectively across different medical scenarios, highlighting the importance of dataset quality and diversity in fine-tuning processes. We open-source the model for future research at https://github.com/CAS-SIAT-XinHai/CollectiveSFT
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# 偏微分方程式における定常状態の分岐・線形安定解析のためのニューラルネットワーク

Neural networks for bifurcation and linear stability analysis of steady states in partial differential equations ( http://arxiv.org/abs/2407.19707v2 )

ライセンス: Link先を確認
Muhammad Luthfi Shahab, Hadi Susanto, (参考訳) 本研究では、非線形偏微分方程式(PDE)の解法にニューラルネットワークを応用した。 パラメータ化された非線形PDEから分岐図を構築するために、擬弧継続と組み合わせたニューラルネットワークを提案する。 さらに、解の線形安定性を分析するために固有値問題を解くニューラルネットワークアプローチも提示され、最大の固有値の同定に焦点が当てられている。 提案したニューラルネットワークの有効性は、ブラトゥー方程式とバーガース方程式の実験を通して検証される。 有限差分法の結果も比較として示す。 各ケースにおいて、ニューラルネットワークと有限差分法の両方の挙動と精度を評価するために、格子点のバリアリング数を用いる。 実験の結果、提案したニューラルネットワークはより良い解を生成し、より正確な分岐図を生成し、合理的な計算時間を持ち、線形安定性解析に有効であることを証明した。

This research introduces an extended application of neural networks for solving nonlinear partial differential equations (PDEs). A neural network, combined with a pseudo-arclength continuation, is proposed to construct bifurcation diagrams from parameterized nonlinear PDEs. Additionally, a neural network approach is also presented for solving eigenvalue problems to analyze solution linear stability, focusing on identifying the largest eigenvalue. The effectiveness of the proposed neural network is examined through experiments on the Bratu equation and the Burgers equation. Results from a finite difference method are also presented as comparison. Varying numbers of grid points are employed in each case to assess the behavior and accuracy of both the neural network and the finite difference method. The experimental results demonstrate that the proposed neural network produces better solutions, generates more accurate bifurcation diagrams, has reasonable computational times, and proves effective for linear stability analysis.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# ウェーブレット型特徴強調ネットワークによる高能率顔超解像

Efficient Face Super-Resolution via Wavelet-based Feature Enhancement Network ( http://arxiv.org/abs/2407.19768v2 )

ライセンス: Link先を確認
Wenjie Li, Heng Guo, Xuannan Liu, Kongming Liang, Jiani Hu, Zhanyu Ma, Jun Guo, (参考訳) 顔超解像は、低解像度の顔画像から高解像度の顔画像を再構成することを目的としている。 従来はエンコーダ・デコーダ構造を用いて顔の構造的特徴を抽出し、特にエッジのような高周波の特徴に対して直接のダウンサンプリングは必然的に歪みをもたらす。 この問題を解決するために、ウェーブレット変換を用いて入力特徴を高周波数成分に無作為に分解し、別々に処理することで特徴歪みを軽減できるウェーブレットベースの特徴拡張ネットワークを提案する。 顔特徴抽出の効率を向上させるために、局所的、局所的、グローバルな顔特徴を高めるために、フルドメイントランスフォーマーが提案されている。 このような設計により、従来の方法と同じように多くのモジュールを積み重ねることなく、メソッドのパフォーマンスが向上する。 実験の結果,本手法は性能,モデルサイズ,速度のバランスを効果的に保っていることがわかった。 コードリンク:https://github.com/PRIS-CV/WFEN。

Face super-resolution aims to reconstruct a high-resolution face image from a low-resolution face image. Previous methods typically employ an encoder-decoder structure to extract facial structural features, where the direct downsampling inevitably introduces distortions, especially to high-frequency features such as edges. To address this issue, we propose a wavelet-based feature enhancement network, which mitigates feature distortion by losslessly decomposing the input feature into high and low-frequency components using the wavelet transform and processing them separately. To improve the efficiency of facial feature extraction, a full domain Transformer is further proposed to enhance local, regional, and global facial features. Such designs allow our method to perform better without stacking many modules as previous methods did. Experiments show that our method effectively balances performance, model size, and speed. Code link: https://github.com/PRIS-CV/WFEN.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# Nested Expertsの混在:ビジュアルトークンの適応処理

Mixture of Nested Experts: Adaptive Processing of Visual Tokens ( http://arxiv.org/abs/2407.19985v2 )

ライセンス: Link先を確認
Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul, (参考訳) 視覚媒体(画像とビデオ)は、自然に大量の情報冗長性を含み、処理の効率性を活用するための大きな機会を提供する。 Vision Transformer (ViT) ベースのモデルは、大規模なデータレシエーションに効果的にスケールするが、この固有の冗長性に乗じず、計算コストが高くなる。 Mixture of Experts (MoE) ネットワークは、同じ推論時間コストを維持しながらスケーラビリティを示すが、パラメータフットプリントが大きい。 本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。 計算予算が与えられた後、MoNEは優先順位順でトークンを動的に選択することを学び、冗長トークンはより安価なネストされた専門家によって処理される。 このフレームワークを用いて、ベースラインモデルとして同等の性能を達成し、推論時間を2倍以上に短縮する。 我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。 MoNE$'$sの適応性はさらに強調して、単一のトレーニングモデルのみを使用して、ビデオ上のさまざまな推論時間計算予算にわたって、強力なパフォーマンスを維持する能力を示す。

The visual medium (images and videos) naturally contains a large amount of information redundancy, thereby providing a great opportunity for leveraging efficiency in processing. While Vision Transformer (ViT) based models scale effectively to large data regimes, they fail to capitalize on this inherent redundancy, leading to higher computational costs. Mixture of Experts (MoE) networks demonstrate scalability while maintaining same inference-time costs, but they come with a larger parameter footprint. We present Mixture of Nested Experts (MoNE), which utilizes a nested structure for experts, wherein individual experts fall on an increasing compute-accuracy curve. Given a compute budget, MoNE learns to dynamically choose tokens in a priority order, and thus redundant tokens are processed through cheaper nested experts. Using this framework, we achieve equivalent performance as the baseline models, while reducing inference time compute by over two-fold. We validate our approach on standard image and video datasets - ImageNet-21K, Kinetics400, and Something-Something-v2. We further highlight MoNE$'$s adaptability by showcasing its ability to maintain strong performance across different inference-time compute budgets on videos, using only a single trained model.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# マルチモーダル三重項ネットワークを用いたラドマニコラ属淡水貝の分類

Classification of freshwater snails of the genus Radomaniola with multimodal triplet networks ( http://arxiv.org/abs/2407.20013v2 )

ライセンス: Link先を確認
Dennis Vetter, Muhammad Ahsan, Diana Delicado, Thomas A. Neubauer, Thomas Wilke, Gemma Roig, (参考訳) 本稿では,Radomaniola属の淡水カタツムリを分類するための機械学習システムを提案する。 システム設計時に遭遇した特定の課題と、それに取り組む方法、すなわち、多数のクラスとクラス間の高い視覚的類似性を備えた、小さく、非常に不均衡なデータセットについて詳しく説明します。 次に、これらの課題を克服し、訓練済みのドメインエキスパートに匹敵するパフォーマンスを達成するために、トリプルトネットワークと画像、測定、遺伝情報の多重入力モダリティをどのように利用したかを示す。

In this paper, we present our first proposal of a machine learning system for the classification of freshwater snails of the genus Radomaniola. We elaborate on the specific challenges encountered during system design, and how we tackled them; namely a small, very imbalanced dataset with a high number of classes and high visual similarity between classes. We then show how we employed triplet networks and the multiple input modalities of images, measurements, and genetic information to overcome these challenges and reach a performance comparable to that of a trained domain expert.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# MimiQ: 視覚変換器の低ビットデータフリー量子化

MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity ( http://arxiv.org/abs/2407.20021v2 )

ライセンス: Link先を確認
Kanghyun Choi, Hye Yoon Lee, Dain Kwon, SunJong Park, Kyuyeun Kim, Noseong Park, Jinho Lee, (参考訳) データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。 視覚変換器(ViT)アーキテクチャにはいくつかのDFQ手法が提案されているが、低ビット設定では有効性は得られていない。 既存の手法を調べると、それらの合成データは、実際のサンプルが高度に整列しているのに対して、不整合注意マップを生成する。 一致した注意の観測から、合成データのアライメント・アライメント・マップは、量子化されたViTの全体的な性能を向上させるのに役立つことが判明した。 この発見に触発され,視覚障害者を対象とした新しいDFQ手法である \aname を考案した。 まず,空間的な問合せパッチに関連して,頭部の注意応答を調整して合成データを生成する。 そこで,本研究では,頭部構造型注意蒸留法を用いて,量子化ネットワークの注意図と実精度教師の注意図を一致させる。 実験の結果,提案手法はベースラインを著しく上回り,データフリーなViT量子化のための新しい最先端性能が確立された。

Data-free quantization (DFQ) is a technique that creates a lightweight network from its full-precision counterpart without the original training data, often through a synthetic dataset. Although several DFQ methods have been proposed for vision transformer (ViT) architectures, they fail to achieve efficacy in low-bit settings. Examining the existing methods, we identify that their synthetic data produce misaligned attention maps, while those of the real samples are highly aligned. From the observation of aligned attention, we find that aligning attention maps of synthetic data helps to improve the overall performance of quantized ViTs. Motivated by this finding, we devise \aname, a novel DFQ method designed for ViTs that focuses on inter-head attention similarity. First, we generate synthetic data by aligning head-wise attention responses in relation to spatial query patches. Then, we apply head-wise structural attention distillation to align the attention maps of the quantized network to those of the full-precision teacher. The experimental results show that the proposed method significantly outperforms baselines, setting a new state-of-the-art performance for data-free ViT quantization.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# F-KANs:Kolmogorov-Arnoldネットワークのフェデレーション

F-KANs: Federated Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.20100v2 )

ライセンス: Link先を確認
Engin Zeydan, Cristian J. Vaca-Rubio, Luis Blanco, Roberto Pereira, Marius Caus, Abdullah Aydeger, (参考訳) 本稿では,KAN(Kolmogorov-Arnold Networks)を分類タスクに活用する,革新的なフェデレートラーニング(FL)手法を提案する。 連合型フレームワークにおけるkansの適応活性化機能を活用することにより、プライバシを保ちながら分類能力を向上させることを目指す。 本研究は, 従来の多層パーセプトロン (MLP) と比較し, フェデレート・カン (F-kan) の性能評価を行った。 その結果、F-KANsモデルは、精度、精度、リコール、F1スコア、安定性においてフェデレーションMLPモデルを大幅に上回り、より良いパフォーマンスを実現し、より効率的でプライバシーに配慮した予測分析の道を開いた。

In this paper, we present an innovative federated learning (FL) approach that utilizes Kolmogorov-Arnold Networks (KANs) for classification tasks. By utilizing the adaptive activation capabilities of KANs in a federated framework, we aim to improve classification capabilities while preserving privacy. The study evaluates the performance of federated KANs (F- KANs) compared to traditional Multi-Layer Perceptrons (MLPs) on classification task. The results show that the F-KANs model significantly outperforms the federated MLP model in terms of accuracy, precision, recall, F1 score and stability, and achieves better performance, paving the way for more efficient and privacy-preserving predictive analytics.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# 未知クラスタ数を持つ非構造化データに対する適応型自己教師付きロバストクラスタリング

Adaptive Self-supervised Robust Clustering for Unstructured Data with Unknown Cluster Number ( http://arxiv.org/abs/2407.20119v2 )

ライセンス: Link先を確認
Chen-Lu Ding, Jiancan Wu, Wei Lin, Shiyang Shen, Xiang Wang, Yancheng Yuan, (参考訳) 本稿では,アダプティブ自己監督型ロバストクラスタリング (ASRC) と呼ばれる,クラスタ数の事前知識を必要とせず,非構造化データに適した新しい自己監視型ディープクラスタリング手法を提案する。 特に、ASRCはグラフ構造とエッジ重みを適応的に学習し、局所的および大域的構造情報をキャプチャする。 得られたグラフは,コントラスト学習技術を用いた拡張グラフオートエンコーダにより,クラスタリングに適した特徴表現を学習することを可能にする。 さらに、ロバストな連続クラスタリング(RCC)によって得られたクラスタリング結果を利用して、負のサンプリングのためのプロトタイプを生成し、さらに正のペア間の一貫性を促進し、正のサンプルと負のサンプルのギャップを拡大する。 ASRCは、学習した特徴表現にRCCを適用し、その一貫したグラフ構造とエッジ重みで最終的なクラスタリング結果を得る。 7つのベンチマークデータセットで実施された大規模な実験は、ASRCの有効性を示し、他の一般的なクラスタリングモデルよりも優れた性能を示している。 特に、ASRCはクラスタ数の事前知識に依存するメソッドよりも優れており、非構造化データのクラスタリングの課題に対処する上での有効性を強調している。

We introduce a novel self-supervised deep clustering approach tailored for unstructured data without requiring prior knowledge of the number of clusters, termed Adaptive Self-supervised Robust Clustering (ASRC). In particular, ASRC adaptively learns the graph structure and edge weights to capture both local and global structural information. The obtained graph enables us to learn clustering-friendly feature representations by an enhanced graph auto-encoder with contrastive learning technique. It further leverages the clustering results adaptively obtained by robust continuous clustering (RCC) to generate prototypes for negative sampling, which can further contribute to promoting consistency among positive pairs and enlarging the gap between positive and negative samples. ASRC obtains the final clustering results by applying RCC to the learned feature representations with their consistent graph structure and edge weights. Extensive experiments conducted on seven benchmark datasets demonstrate the efficacy of ASRC, demonstrating its superior performance over other popular clustering models. Notably, ASRC even outperforms methods that rely on prior knowledge of the number of clusters, highlighting its effectiveness in addressing the challenges of clustering unstructured data.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# AxiomVision:パースペクティブ・アウェア・ビデオ・アナリティクスのための精度保証型適応型視覚モデル選択

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics ( http://arxiv.org/abs/2407.20124v2 )

ライセンス: Link先を確認
Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C. S. Lui, (参考訳) マルチメディアとコンピュータビジョン技術の急速な進化は、多様なタスクや様々な環境を効果的に扱うために適応的な視覚モデル展開戦略を必要とする。 AxiomVisionは、エッジコンピューティングを活用して、多様なシナリオ下でビデオ分析のための最も効率的なビジュアルモデルを動的に選択することで、精度を保証する新しいフレームワークである。 階層化されたエッジクラウドアーキテクチャを利用することで、AxiomVisionは、軽量なDNNから複雑なDNNまで、幅広いビジュアルモデルのデプロイを可能にする。 さらに、AxiomVisionは、(1)連続的なオンライン学習を利用した動的視覚モデル選択機構、(2)カメラの視点の影響を効果的に考慮した効率的なオンライン手法、(3)モデル選択プロセスを加速するトポロジ駆動型グループ化アプローチの3つの中心的イノベーションを提供する。 厳密な理論的保証により、これらの進歩は、オブジェクト検出、分類、カウントといったマルチメディアシステム固有の視覚的タスクに対して、スケーラブルで効果的なソリューションを提供する。 経験的に、AxiomVisionは精度が25.7%向上した。

The rapid evolution of multimedia and computer vision technologies requires adaptive visual model deployment strategies to effectively handle diverse tasks and varying environments. This work introduces AxiomVision, a novel framework that can guarantee accuracy by leveraging edge computing to dynamically select the most efficient visual models for video analytics under diverse scenarios. Utilizing a tiered edge-cloud architecture, AxiomVision enables the deployment of a broad spectrum of visual models, from lightweight to complex DNNs, that can be tailored to specific scenarios while considering camera source impacts. In addition, AxiomVision provides three core innovations: (1) a dynamic visual model selection mechanism utilizing continual online learning, (2) an efficient online method that efficiently takes into account the influence of the camera's perspective, and (3) a topology-driven grouping approach that accelerates the model selection process. With rigorous theoretical guarantees, these advancements provide a scalable and effective solution for visual tasks inherent to multimedia systems, such as object detection, classification, and counting. Empirically, AxiomVision achieves a 25.7\% improvement in accuracy.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30
# SpaER:胎児脳運動追跡のための時空間等価表現の学習

SpaER: Learning Spatio-temporal Equivariant Representations for Fetal Brain Motion Tracking ( http://arxiv.org/abs/2407.20198v2 )

ライセンス: Link先を確認
Jian Wang, Razieh Faghihpirayesh, Polina Golland, Ali Ghoulipour, (参考訳) 本稿では,同変フィルタと自己注意機構を利用して時空間表現を効果的に学習する胎児運動追跡の先駆的手法であるSpERを紹介する。 一対の画像から胎児の脳の運動を静的に推定する従来の手法とは異なり、本手法は胎児の頭部の時間的・空間的な動きパターンを動的に追跡する。 具体的には、まず、画像の低次元空間表現による剛性運動列を効率的に学習する同変ニューラルネットワークを開発する。 その後、時間符号化と自己注意型ニューラルネットワーク層を組み込むことで時空間表現を学習する。 このアプローチは、胎児の脳の運動の長期的依存関係を捕捉し、コントラストの変化と重度の運動アーチファクトによるアライメントエラーに対処する。 また,全時間フレーム間の画像歪みを適切に扱える幾何学的変形推定も提供する。 我々の知る限り、我々のアプローチは、データ拡張なしで胎児の動き追跡のための深層ニューラルネットワークを介して空間時間表現を初めて学習するものである。 シミュレーションおよび実動作を用いた実胎児エコープラナー画像を用いて本モデルの有効性を検証した。 本手法は胎児MRIにおける胎児の動きを正確に測定・追跡・補正する上で有意な潜在性を持っている。

In this paper, we introduce SpaER, a pioneering method for fetal motion tracking that leverages equivariant filters and self-attention mechanisms to effectively learn spatio-temporal representations. Different from conventional approaches that statically estimate fetal brain motions from pairs of images, our method dynamically tracks the rigid movement patterns of the fetal head across temporal and spatial dimensions. Specifically, we first develop an equivariant neural network that efficiently learns rigid motion sequences through low-dimensional spatial representations of images. Subsequently, we learn spatio-temporal representations by incorporating time encoding and self-attention neural network layers. This approach allows for the capture of long-term dependencies of fetal brain motion and addresses alignment errors due to contrast changes and severe motion artifacts. Our model also provides a geometric deformation estimation that properly addresses image distortions among all time frames. To the best of our knowledge, our approach is the first to learn spatial-temporal representations via deep neural networks for fetal motion tracking without data augmentation. We validated our model using real fetal echo-planar images with simulated and real motions. Our method carries significant potential value in accurately measuring, tracking, and correcting fetal motion in fetal MRI sequences.
翻訳日:2024-07-31 12:20:00 公開日:2024-07-30