このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240709となっている論文です。

PDF登録状況(公開日: 20240709)

TitleAuthorsAbstract論文公表日・翻訳日
# MolTRES:分子特性予測のための化学言語表現学習の改善

MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction ( http://arxiv.org/abs/2408.01426v1 )

ライセンス: Link先を確認
Jun-Hyung Park, Yeachan Kim, Mingyu Lee, Hyuntae Park, SangKeun Lee, (参考訳) 化学表現学習は、薬物や材料設計などの分野における教師付きデータの利用が限られているため、関心が高まっている。 この関心は特に化学言語表現学習にまで広がり、SMILES配列上のトランスフォーマー -- 分子のテキスト記述子 -- を事前学習する。 分子特性予測の成功にもかかわらず、現在のプラクティスはしばしば初期の収束によって過度に適合し、スケーラビリティが制限される。 本稿では,これらの問題に対処するために,MolTRESと呼ばれる新しい化学言語表現学習フレームワークを提案する。 MolTRESはジェネレータと識別器のトレーニングを取り入れており、構造的理解を必要とするより難しい例からモデルを学習することができる。 さらに, 外部材料を埋め込むことにより, 科学文献から知識を伝達することで分子表現を充実させる。 実験結果から,本モデルは分子特性予測タスクにおける既存の最先端モデルよりも優れていることがわかった。

Chemical representation learning has gained increasing interest due to the limited availability of supervised data in fields such as drug and materials design. This interest particularly extends to chemical language representation learning, which involves pre-training Transformers on SMILES sequences -- textual descriptors of molecules. Despite its success in molecular property prediction, current practices often lead to overfitting and limited scalability due to early convergence. In this paper, we introduce a novel chemical language representation learning framework, called MolTRES, to address these issues. MolTRES incorporates generator-discriminator training, allowing the model to learn from more challenging examples that require structural understanding. In addition, we enrich molecular representations by transferring knowledge from scientific literature by integrating external materials embedding. Experimental results show that our model outperforms existing state-of-the-art models on popular molecular property prediction tasks.
翻訳日:2024-08-19 05:08:48 公開日:2024-07-09
# Bitcoinのアルゴリズム取引のための機械学習モデルの包括的分析

A Comprehensive Analysis of Machine Learning Models for Algorithmic Trading of Bitcoin ( http://arxiv.org/abs/2407.18334v1 )

ライセンス: Link先を確認
Abdul Jabbar, Syed Qaisar Jalil, (参考訳) 本研究は,アルゴリズム取引におけるビットコイン価格の予測において,21の分類器と20の回帰器を含む41の機械学習モデルの性能を評価する。 さまざまな市場条件下でこれらのモデルを検証することにより、揮発性暗号市場への正確性、堅牢性、適応性を強調します。 我々の包括的な分析は、各モデルの強みと限界を明らかにし、効果的な取引戦略を開発する上で重要な洞察を与えます。 私たちは、機械学習のメトリクス(例:Mean Absolute Error、Root Mean Squared Error)とトレーディングのメトリクス(例:ProfitとLoss%、Sharpe Ratio)の両方を使って、モデルパフォーマンスを評価しています。 我々の評価には、過去のデータに対するバックテスト、最近の目に見えないデータに対する前方テスト、実世界のトレーディングシナリオ、モデルの堅牢性と実用性を保証することが含まれる。 主要な発見は、ランダムフォレスト(Random Forest)やStochastic Gradient Descent(Stochastic Gradient Descent)のような特定のモデルが、利益とリスク管理の点で他よりも優れていることを示している。 これらの洞察は、暗号通貨取引に機械学習を活用することを目的としたトレーダーや研究者に貴重なガイダンスを提供する。

This study evaluates the performance of 41 machine learning models, including 21 classifiers and 20 regressors, in predicting Bitcoin prices for algorithmic trading. By examining these models under various market conditions, we highlight their accuracy, robustness, and adaptability to the volatile cryptocurrency market. Our comprehensive analysis reveals the strengths and limitations of each model, providing critical insights for developing effective trading strategies. We employ both machine learning metrics (e.g., Mean Absolute Error, Root Mean Squared Error) and trading metrics (e.g., Profit and Loss percentage, Sharpe Ratio) to assess model performance. Our evaluation includes backtesting on historical data, forward testing on recent unseen data, and real-world trading scenarios, ensuring the robustness and practical applicability of our models. Key findings demonstrate that certain models, such as Random Forest and Stochastic Gradient Descent, outperform others in terms of profit and risk management. These insights offer valuable guidance for traders and researchers aiming to leverage machine learning for cryptocurrency trading.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-09
# 深部残留ネットワークを用いた3次元剛体力学の予測

Predicting 3D Rigid Body Dynamics with Deep Residual Network ( http://arxiv.org/abs/2407.18798v1 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji, (参考訳) 本研究では,3次元剛体相互作用のダイナミクスを予測するためのディープ残差ネットワークの適用について検討した。 本稿では,C++で実装された3次元物理シミュレータとPyTorchを用いたディープラーニングモデルを組み合わせたフレームワークを提案する。 シミュレータは、線形および角運動、弾性衝突、流体摩擦、重力効果、減衰を含むトレーニングデータを生成する。 入力層,複数の残差ブロック,出力層から構成される深部残差ネットワークは,3次元力学の複雑さを扱うように設計されている。 我々は,1万のシミュレーションシナリオのデータセットを用いて,ネットワークの性能を評価する。 このモデルは位置予測の平均2乗誤差が0.015、方向予測が0.022であり、ベースライン法よりも25%改善されている。 以上の結果から,ネットワークの複雑な物理的相互作用を捉える能力,特に弾性衝突や回転力学の予測に成功していることを示す。 この研究は、複雑な3次元物理システムのモデリングにおいて、深い残留ネットワークの潜在可能性を示すことによって、物理学インフォームド・機械学習に大きく貢献する。 提案手法の限界について議論し,より多様な物体形状や材料への一般化に向けた今後の方向性を提案する。

This study investigates the application of deep residual networks for predicting the dynamics of interacting three-dimensional rigid bodies. We present a framework combining a 3D physics simulator implemented in C++ with a deep learning model constructed using PyTorch. The simulator generates training data encompassing linear and angular motion, elastic collisions, fluid friction, gravitational effects, and damping. Our deep residual network, consisting of an input layer, multiple residual blocks, and an output layer, is designed to handle the complexities of 3D dynamics. We evaluate the network's performance using a datasetof 10,000 simulated scenarios, each involving 3-5 interacting rigid bodies. The model achieves a mean squared error of 0.015 for position predictions and 0.022 for orientation predictions, representing a 25% improvement over baseline methods. Our results demonstrate the network's ability to capture intricate physical interactions, with particular success in predicting elastic collisions and rotational dynamics. This work significantly contributes to physics-informed machine learning by showcasing the immense potential of deep residual networks in modeling complex 3D physical systems. We discuss our approach's limitations and propose future directions for improving generalization to more diverse object shapes and materials.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-09
# Few-Shot Meta-Promptingによるハードプロンプトの最適化

Optimising Hard Prompts with Few-Shot Meta-Prompting ( http://arxiv.org/abs/2407.18920v1 )

ライセンス: Link先を確認
Sayash Raaj Hiraou, (参考訳) Promptingは、LLM(Large Language Model)に命令を提供するフレキシブルで適応可能な方法である。 文脈的プロンプトには、LLMへの自然言語命令とともに、文書や対話の形式でのコンテキストが含まれており、しばしば LLMは命令に準拠しながら、与えられたコンテキストの事実を制限している。 コンテキストを判断すると、プロンプトのテンプレートとして機能する。 本稿では,既存のプロンプトテンプレートのセットからLCMを用いて,そのコンテキストを明らかにすることなく,より優れたテンプレートを生成するための反復的手法を提案する。 LLM自体を用いてプロンプトを最適化する複数の手法を探索し、言語スタイルと構文を保ちながら反復的伝播に少数のサンプリング法が与える影響を検証し、最も優れた手法を用いて103.87%の改善を実現した。 複数の文脈タスクの結果の比較は、LLMが文法を維持しながら言語スタイルを再現する能力を示している。 さらに、異なるプロンプトテンプレート生成方法による出力への影響を示す。

Prompting is a flexible and adaptable way of providing instructions to a Large Language Model (LLM). Contextual prompts include context in the form of a document or dialogue along with the natural language instructions to the LLM, often constraining the LLM to restrict facts to that of the given context while complying with the instructions. Masking the context, it acts as template for prompts. In this paper, we present an iterative method to generate better templates using an LLM from an existing set of prompt templates without revealing the context to the LLM. Multiple methods of optimising prompts using the LLM itself are explored to check the effect of few shot sampling methods on iterative propagation while maintaining linguistic styles and syntax on optimisation of prompt templates, yielding a 103.87% improvement using the best performing method. Comparison of the results of multiple contextual tasks demonstrate the ability of LLMs to maintain syntax while learning to replicate linguistic styles. Additionally, the effect on the output with different methods of prompt template generation is shown.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-09
# 大規模言語モデルのためのモバイルエッジインテリジェンス:現代調査

Mobile Edge Intelligence for Large Language Models: A Contemporary Survey ( http://arxiv.org/abs/2407.18921v1 )

ライセンス: Link先を確認
Guanqiao Qu, Qiyuan Chen, Wei Wei, Zheng Lin, Xianhao Chen, Kaibin Huang, (参考訳) エッジデバイス上でLLMを実行するオンデバイス大型言語モデル(LLM)は、プライバシーやレイテンシの低減、帯域幅の削減などにより、大きな関心を集めている。 それでも、オンデバイスLCMの能力は、より強力なクラウドセンターと比較してエッジデバイスの限られた容量によって本質的に制限されている。 クラウドベースとオンデバイスAIのギャップを埋めるために、モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善したモバイルネットワークのエッジにAI機能をプロビジョニングすることで、この問題に対して実行可能なソリューションを提供する。 MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。 本稿では,LLMのMEI活用に関する現代の調査を紹介する。 まず LLM と MEI から始め, 資源効率のよい LLM 技術について概説する。 次に、ネットワークエッジにLLMをデプロイする必要性を示すキラーアプリケーションをいくつか紹介し、MEI for LLM(MEI4LLM)のアーキテクチャ概要を示す。 その後,MEI4LLM の様々な側面を探索し,エッジ LLM キャッシングと配信,エッジ LLM トレーニング,エッジ LLM 推論を広範囲に網羅した。 最後に,今後の研究の機会を特定する。 我々は,モバイルエッジコンピューティングを活用してユーザと近接してLLMをデプロイし,様々なプライバシや遅延に敏感なアプリケーションにLLMの可能性を開放することを目的としている。

On-device large language models (LLMs), referring to running LLMs on edge devices, have raised considerable interest owing to their superior privacy, reduced latency, and bandwidth saving. Nonetheless, the capabilities of on-device LLMs are intrinsically constrained by the limited capacity of edge devices compared to the much more powerful cloud centers. To bridge the gap between cloud-based and on-device AI, mobile edge intelligence (MEI) presents a viable solution to this problem by provisioning AI capabilities within the edge of mobile networks with improved privacy and latency relative to cloud computing. MEI sits between on-device AI and cloud-based AI, featuring wireless communications and more powerful computing resources than end devices. This article provides a contemporary survey on harnessing MEI for LLMs. We first cover the preliminaries of LLMs, starting with LLMs and MEI, followed by resource-efficient LLM techniques. We then illustrate several killer applications to demonstrate the need for deploying LLMs at the network edge and present an architectural overview of MEI for LLMs (MEI4LLM). Subsequently, we delve into various aspects of MEI4LLM, extensively covering edge LLM caching and delivery, edge LLM training, and edge LLM inference. Finally, we identify future research opportunities. We aim to inspire researchers in the field to leverage mobile edge computing to facilitate LLM deployment in close proximity to users, thereby unleashing the potential of LLMs across various privacy- and delay-sensitive applications.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-09
# 量子キー分散型クラウドコンピューティングのための新しいプライバシ保護型分散マルチパーティデータアウトソーシングスキーム

Towards a Novel Privacy-Preserving Distributed Multiparty Data Outsourcing Scheme for Cloud Computing with Quantum Key Distribution ( http://arxiv.org/abs/2407.18923v1 )

ライセンス: Link先を確認
D. Dhinakaran, D. Selvaraj, N. Dharini, S. Edwin Raja, C. Sakthi Lakshmi Priya, (参考訳) クラウドコンピューティングとブロックチェーン技術の交差、そして量子コンピューティングの差し迫った時代は、データセキュリティにとって重要な分岐点である。 この研究は、クラウドベースのブロックチェーンシステムでデータを保護するために、Quantum Key Distribution(QKD)、CRYSTALS Kyber、Zero-Knowledge Proofs(ZKP)を統合する包括的なフレームワークを提案することで、脆弱性のエスカレーションに対処する。 主な目的は、量子セーフ暗号プロトコルであるQKDの実装を通じて、量子脅威に対してデータを強化することである。 我々は、格子ベースの暗号機構であるCRYSTALS Kyberを活用し、量子攻撃に対するレジリエンスで知られている。 さらに、ZKPは、クラウドとブロックチェーン環境内のデータプライバシと検証プロセスを強化するために導入された。 本研究の重要な焦点は,提案フレームワークの性能評価である。 厳密な分析には、暗号化と復号化プロセス、量子鍵生成率、システム全体の効率が含まれている。 ファイルサイズ、応答時間、計算オーバーヘッドなどの要因を考慮すると、実際的な影響は精査される。 この評価は、現実世界のクラウド環境におけるフレームワークの生存可能性に光を当て、量子脅威を緩和する効率を強調している。 この発見は、クラウドベースのブロックチェーンストレージに適した、堅牢な量子安全性とZKP統合セキュリティフレームワークに貢献している。 理論的進歩における重要なギャップに対処することで、この研究は、量子的脅威に対してデータを保護しようとする組織に実践的な洞察を提供する。 このフレームワークの効率性とスケーラビリティは、クラウド環境における量子コンピューティングとブロックチェーンの統合の進化する状況において、拡張されたデータセキュリティを実装するためのガイドとして機能する。

The intersection of cloud computing, blockchain technology, and the impending era of quantum computing presents a critical juncture for data security. This research addresses the escalating vulnerabilities by proposing a comprehensive framework that integrates Quantum Key Distribution (QKD), CRYSTALS Kyber, and Zero-Knowledge Proofs (ZKPs) for securing data in cloud-based blockchain systems. The primary objective is to fortify data against quantum threats through the implementation of QKD, a quantum-safe cryptographic protocol. We leverage the lattice-based cryptographic mechanism, CRYSTALS Kyber, known for its resilience against quantum attacks. Additionally, ZKPs are introduced to enhance data privacy and verification processes within the cloud and blockchain environment. A significant focus of this research is the performance evaluation of the proposed framework. Rigorous analyses encompass encryption and decryption processes, quantum key generation rates, and overall system efficiency. Practical implications are scrutinized, considering factors such as file size, response time, and computational overhead. The evaluation sheds light on the framework's viability in real-world cloud environments, emphasizing its efficiency in mitigating quantum threats. The findings contribute a robust quantum-safe and ZKP-integrated security framework tailored for cloud-based blockchain storage. By addressing critical gaps in theoretical advancements, this research offers practical insights for organizations seeking to secure their data against quantum threats. The framework's efficiency and scalability underscore its practical feasibility, serving as a guide for implementing enhanced data security in the evolving landscape of quantum computing and blockchain integration within cloud environments.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-09
# 光電図駆動型デジタルツインニングによる歴史構造物の経時変化のモニタリング

Monitoring Time-Varying Changes of Historic Structures Through Photogrammetry-Driven Digital Twinning ( http://arxiv.org/abs/2407.18925v1 )

ライセンス: Link先を確認
Xiangxiong Kong, (参考訳) 歴史的構造は我々の社会にとって重要であるが、長いサービス期間と自然の影響により構造劣化しがちである。 歴史的建造物の劣化のモニタリングは、ステークホルダーが適切な介入をすることが不可欠である。 文献における既存の研究は主に、経時劣化の発生を評価するのではなく、特定の瞬間における構造的損傷を評価することに焦点を当てている。 このギャップに対処するため,歴史建造物の時間変化をモニタリングする新しい5成分デジタルツインフレームワークを提案した。 グアム島のソレダード砦の検問所が、我々の枠組みを検証するために選ばれた。 このテストベッドを使用して、ディジタルツインフレームワークにおける重要な実装ステップを実行しました。 本研究は,デジタル双生児の枠組みが時間とともに劣化を効果的に監視できることを示すものである。

Historic structures are important for our society but could be prone to structural deterioration due to long service durations and natural impacts. Monitoring the deterioration of historic structures becomes essential for stakeholders to take appropriate interventions. Existing work in the literature primarily focuses on assessing the structural damage at a given moment instead of evaluating the development of deterioration over time. To address this gap, we proposed a novel five-component digital twin framework to monitor time-varying changes in historic structures. A testbed of a casemate in Fort Soledad on the island of Guam was selected to validate our framework. Using this testbed, key implementation steps in our digital twin framework were performed. The findings from this study confirm that our digital twin framework can effectively monitor deterioration over time, which is an urgent need in the cultural heritage preservation community.
翻訳日:2024-08-05 01:16:13 公開日:2024-07-09
# AIコンパニオンによる並列性低減

AI Companions Reduce Loneliness ( http://arxiv.org/abs/2407.19096v1 )

ライセンス: Link先を確認
Julian De Freitas, Ahmet K Uguralp, Zeliha O Uguralp, Puntoni Stefano, (参考訳) チャットボットは、関係分野における消費者との高度な会話を行えるようになり、広範囲な社会的孤独に対する潜在的な対処ソリューションを提供する。 振舞いの研究は、これらのアプリケーションが孤独を和らげるのに効果的かどうかについての洞察をほとんど与えない。 我々は、消費者に合成インタラクションパートナーを提供するように設計されたAIコンパニオンアプリケーションに焦点を当て、この問題に対処する。 研究1と2は、消費者がAIコンパニオンを使用して孤独を和らげているという示唆的な証拠を見つける。 研究3では、AIコンパニオンが、他の人と対話するだけでなく、YouTubeビデオを見るといった他の活動と同等の孤独を和らげることに成功していることがわかった。 さらに、消費者はAIコンパニオンが孤独性を改善する程度を過小評価する。 研究4では、縦長の設計を使用して、AIが1週間にわたって一貫して孤独を和らげていることに気付きました。 研究5は、チャットボットのパフォーマンスと、特にユーザーが聞き取りを感じさせるかどうかの両方が、孤独感の低下を説明する証拠を提供する。 研究6は、AIコンパニオンの孤独を緩和するための、さらなる堅牢性チェックを提供する。

Chatbots are now able to engage in sophisticated conversations with consumers in the domain of relationships, providing a potential coping solution to widescale societal loneliness. Behavioral research provides little insight into whether these applications are effective at alleviating loneliness. We address this question by focusing on AI companions applications designed to provide consumers with synthetic interaction partners. Studies 1 and 2 find suggestive evidence that consumers use AI companions to alleviate loneliness, by employing a novel methodology for fine tuning large language models to detect loneliness in conversations and reviews. Study 3 finds that AI companions successfully alleviate loneliness on par only with interacting with another person, and more than other activities such watching YouTube videos. Moreover, consumers underestimate the degree to which AI companions improve their loneliness. Study 4 uses a longitudinal design and finds that an AI companion consistently reduces loneliness over the course of a week. Study 5 provides evidence that both the chatbots' performance and, especially, whether it makes users feel heard, explain reductions in loneliness. Study 6 provides an additional robustness check for the loneliness alleviating benefits of AI companions.
翻訳日:2024-08-05 01:06:22 公開日:2024-07-09
# 人間とAIのコラボレーションを評価する: レビューと方法論の枠組み

Evaluating Human-AI Collaboration: A Review and Methodological Framework ( http://arxiv.org/abs/2407.19098v1 )

ライセンス: Link先を確認
George Fragiadakis, Christos Diou, George Kousiouris, Mara Nikolaidou, (参考訳) Human-AI Collaboration (HAIC)として知られる個人との作業環境における人工知能(AI)の利用は、さまざまな領域において不可欠となり、意思決定、効率、革新が促進されている。 HAICの幅広い可能性にもかかわらず、その有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。 本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。 我々のフレームワークには、異なるHAICモード(AI-Centric, Human-Centric, Symbiotic)に基づいて関連するメトリクスを選択するための構造化決定木が含まれている。 量的および質的な指標の両方を含めることで、このフレームワークはHAICの動的かつ相互の性質を表現し、その影響と成功の評価を可能にしようとしている。 このフレームワークの実用性は、製造業、医療、金融、教育など様々な分野に適用することで検証することができる。 本研究は,現実の応用におけるHAICの体系的評価のさらなる研究を促進することを願っている。

The use of artificial intelligence (AI) in working environments with individuals, known as Human-AI Collaboration (HAIC), has become essential in a variety of domains, boosting decision-making, efficiency, and innovation. Despite HAIC's wide potential, evaluating its effectiveness remains challenging due to the complex interaction of components involved. This paper provides a detailed analysis of existing HAIC evaluation approaches and develops a fresh paradigm for more effectively evaluating these systems. Our framework includes a structured decision tree which assists to select relevant metrics based on distinct HAIC modes (AI-Centric, Human-Centric, and Symbiotic). By including both quantitative and qualitative metrics, the framework seeks to represent HAIC's dynamic and reciprocal nature, enabling the assessment of its impact and success. This framework's practicality can be examined by its application in an array of domains, including manufacturing, healthcare, finance, and education, each of which has unique challenges and requirements. Our hope is that this study will facilitate further research on the systematic evaluation of HAIC in real-world applications.
翻訳日:2024-08-05 00:56:24 公開日:2024-07-09
# FuncEvalGMN:グラフマッチングネットワークによるSQLの機能的正確性の評価

FuncEvalGMN: Evaluating Functional Correctness of SQL via Graph Matching Network ( http://arxiv.org/abs/2407.14530v1 )

ライセンス: Link先を確認
Yi Zhan, Yang Sun, Han Weng, Longjie Cui, Guifeng Wang, Jiajun Xie, Yu Tian, Xiaoming Yin, Boyi Liu, Dongchi Huang, (参考訳) 本稿では,SQL 生成の関数的正確性を評価するための新しいグラフベースの手法を提案する。 マッチングベースのメソッドや実行ベースのメソッド(例えば、正確なセットマッチングと実行の正確性)のような、SQLコード生成を評価するための従来のメトリクスは、2つの主要な制限を受けています。 まず、異なるSQLクエリが同一の機能を持つ可能性があるため、前者は機能的正しさを効果的に評価できない。 第二に、後者は評価において偽陽性のサンプルを生成する可能性がある。 提案手法は,テストデータの十分な準備に依存せず,コードの機能的正しさを正確に検証することができる。 まず、論理的実行の観点からリッチな意味情報を含む関係演算木(ROT)を用いてSQLを解析し、生成したSQLの機能的正しさを予測するためのGNNベースのアプローチを導入する。 このアプローチは、従来のグラフマッチングフレームワークにおけるトポロジ情報の欠如に対処するために、グローバルな位置埋め込みを取り入れている。 本稿では,ルールベースのマッチングアルゴリズムであるRelnode partial Matching (\texttt{RelPM}) をベースラインとして提案する。 最後に、トレーニングセットと2つのテストセットでデータセットである \texttt{Pair-Aug-Spider} をコントリビュートし、それぞれがペアのSQLコードで構成され、さまざまなSQLコード評価シナリオをシミュレートする。 トレーニングセットと1つのテストデータセットは、大きな言語モデル(LLM)を使用したコード生成に重点を置いている。

In this paper, we propose a novel graph-based methodology to evaluate the functional correctness of SQL generation. Conventional metrics for assessing SQL code generation, such as matching-based and execution-based methods (e.g., exact set match and execution accuracy), are subject to two primary limitations. Firstly, the former fails to effectively assess functional correctness, as different SQL queries may possess identical functionalities. Secondly, the latter is susceptible to producing false positive samples in evaluations. Our proposed evaluation method, \texttt{FuncEvalGMN}, does not depend on the sufficient preparation of the test data, and it enables precise testing of the functional correctness of the code. Firstly, we parse SQL using a relational operator tree (ROT) called \textit{Relnode}, which contains rich semantic information from the perspective of logical execution.Then, we introduce a GNN-based approach for predicting the functional correctness of generated SQL. This approach incorporates global positional embeddings to address the limitations with the loss of topological information in conventional graph matching frameworks. As an auxiliary contribution, we propose a rule-based matching algorithm, Relnode Partial Matching (\texttt{RelPM}) as a baseline. Finally, we contribute a dataset, \texttt{Pair-Aug-Spider} with a training set and two testing sets, each comprising pairs of SQL codes to simulate various SQL code evaluation scenarios. The training set and one testing dataset focus on code generation using large language models (LLMs), while the other emphasizes SQL equivalence rewriting.
翻訳日:2024-07-28 18:39:09 公開日:2024-07-09
# マイクロサービス管理におけるAIOpsアルゴリズム評価のためのシナリオ指向ベンチマーク

A Scenario-Oriented Benchmark for Assessing AIOps Algorithms in Microservice Management ( http://arxiv.org/abs/2407.14532v1 )

ライセンス: Link先を確認
Yongqian Sun, Jiaju Wang, Zhengdan Li, Xiaohui Nie, Minghua Ma, Shenglin Zhang, Yuhe Ji, Lu Zhang, Wen Long, Hengmao Chen, Yongnan Luo, Dan Pei, (参考訳) AIOpsアルゴリズムは、マイクロサービスシステムのメンテナンスにおいて重要な役割を果たす。 以前のベンチマークでは、適切なアルゴリズムを選択するための貴重なガイダンスが提供されている。 しかし、既存のAIOpsベンチマークは主にアルゴリズムを評価するためにオフラインデータセットを使用している。 リアルタイムデータセットを用いてアルゴリズムの性能を常に評価することはできず、評価のための運用シナリオは静的であり、効率的なアルゴリズム選択には不十分である。 これらの課題に対処するため,我々はMicroServoという評価一貫性とシナリオ指向評価フレームワークを提案する。 コアとなる考え方は、リアルタイムデータセットを生成し、その上で特定の運用シナリオを一貫してシミュレートする、ライブマイクロサービスベンチマークを構築することだ。 MicroServoは、運用シナリオに応じて特定のアルゴリズムとデータセットを選択することで、さまざまなリーダボードをサポートする。 また、さまざまなタイプのアルゴリズムのデプロイをサポートし、アルゴリズムのホットプラグを可能にする。 最後に、私たちはMicroServoを3つの典型的なマイクロサービスオペレーションシナリオでテストし、その効率性とユーザビリティを実証しました。

AIOps algorithms play a crucial role in the maintenance of microservice systems. Many previous benchmarks' performance leaderboard provides valuable guidance for selecting appropriate algorithms. However, existing AIOps benchmarks mainly utilize offline datasets to evaluate algorithms. They cannot consistently evaluate the performance of algorithms using real-time datasets, and the operation scenarios for evaluation are static, which is insufficient for effective algorithm selection. To address these issues, we propose an evaluation-consistent and scenario-oriented evaluation framework named MicroServo. The core idea is to build a live microservice benchmark to generate real-time datasets and consistently simulate the specific operation scenarios on it. MicroServo supports different leaderboards by selecting specific algorithms and datasets according to the operation scenarios. It also supports the deployment of various types of algorithms, enabling algorithms hot-plugging. At last, we test MicroServo with three typical microservice operation scenarios to demonstrate its efficiency and usability.
翻訳日:2024-07-28 18:39:09 公開日:2024-07-09
# 色分類のためのファジィクラスタのセントロイドの選択について

On selection of centroids of fuzzy clusters for color classification ( http://arxiv.org/abs/2407.17423v1 )

ライセンス: Link先を確認
Dae-Won Kim, Kwang H. Lee, (参考訳) カラークラスタリング問題に対して,ファジィc平均(FCM)アルゴリズムの新たな初期化法を提案する。 色点のセットが与えられた場合、提案した初期化は最も鮮明で識別可能な色である支配的な色を抽出する。 支配色に最も近い色点は、FCMの初期セントロイドとして選択される。 支配的な色とその最も近い色点を得るために、基準色を導入し、色点と基準色との間のファジィ会員制モデルを定義する。

A novel initialization method in the fuzzy c-means (FCM) algorithm is proposed for the color clustering problem. Given a set of color points, the proposed initialization extracts dominant colors that are the most vivid and distinguishable colors. Color points closest to the dominant colors are selected as initial centroids in the FCM. To obtain the dominant colors and their closest color points, we introduce reference colors and define a fuzzy membership model between a color point and a reference color.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-09
# ウクライナ革命の出来事の報道におけるメディア・マニピュレーション--歴史的・言語学的・心理学的アプローチ

Media Manipulations in the Coverage of Events of the Ukrainian Revolution of Dignity: Historical, Linguistic, and Psychological Approaches ( http://arxiv.org/abs/2407.17425v1 )

ライセンス: Link先を確認
Ivan Khoma, Solomia Fedushko, Zoryana Kunch, (参考訳) 本稿では、大衆メディアにおけるウクライナ革命の出来事、すなわちオンライン新聞「ウクライナの真実」(ウクライナ語版)、オンライン新聞「ハイキャッスル」(ウクライナ語版)、「ザモク」(ウクライナ語版)、およびオンライン新聞「ザモク」(ウクライナ語版)の報道における操作の使用について考察する。 これらのオンライン新聞の内容には、歴史的、言語的、心理的アプローチが使用されている。 また、ウクライナ革命の出来事を報道するメディア操作も研究されている。 ニュースを報道するインターネットリソースが分析される。 現在および最も人気のあるインターネットリソースが特定されている。 オンライン新聞の内容は分析され、統計的に処理される。 新聞のインターネットコンテンツは、データの重要度(非常に重要なデータ、重要なデータ、重要なデータ)によって分類される。 歴史的、言語的、心理的アプローチに基づいて、ウクライナ革命の過程をハイライトするメディア操作を検出するアルゴリズムが設計されている。 オンライン新聞における情報攻撃対策手法が開発されている。

This article examines the use of manipulation in the coverage of events of the Ukrainian Revolution of Dignity in the mass media, namely in the content of the online newspaper Ukrainian Truth (Ukrainska pravda), online newspaper High Castle (Vysokyi Zamok), and online newspaper ZIK during the public protest, namely during the Ukrainian Revolution of Dignity. Contents of these online newspapers the historical, linguistic, and psychological approaches are used. Also media manipulations in the coverage of events of the Ukrainian Revolution of Dignity are studied. Internet resources that cover news are analyzed. Current and most popular Internet resources are identified. The content of online newspapers is analyzed and statistically processed. Internet content of newspapers by the level of significance of data (very significant data, significant data and insignificant data) is classified. The algorithm of detection of the media manipulations in the highlighting the course of the Ukrainian revolutions based on historical, linguistic, and psychological approaches is designed. Methods of counteracting information attacks in online newspapers are developed.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-09
# 持続可能な懸念をアジャイルソフトウェア開発プロセスに統合する

Integrating Sustainability Concerns into Agile Software Development Process ( http://arxiv.org/abs/2407.17426v1 )

ライセンス: Link先を確認
Shola Oyedeji, Ruzanna Chitchyan, Mikhail Ola Adisa, Hatef Shamshiri, (参考訳) ソフトウェアは、サステナビリティを育む上で重要な要素となる可能性がある。 このような可能性にもかかわらず、ソフトウェア産業がサステナビリティをその共通ソフトウェア開発プロセスにどのように統合するかは明らかではない。 この調査は、調査を通じてソフトウェアエンジニアリング業界におけるサステナビリティ考慮の現状を調査することから始まります。 その結果,ソフトウェア開発活動に持続可能性を考慮した実践的な統合の進展の欠如が浮き彫りになった。 このギャップに対処するため、業界パートナとのケーススタディが実施され、持続可能性に関する懸念と効果がアジャイルソフトウェア開発にどのように統合できるかを実証する。 このケーススタディは,ソフトウェア開発プラクティスに持続可能性を統合するための実践的なアプローチを示すものである。 調査とケーススタディの調査結果を反映して、持続可能性に関する考慮事項をアジャイルソフトウェア開発の日々の実践にスケールアップする上での洞察を留意する。

Software has the potential to be a key driver in fostering sustainability. Despite this potential, it is not clear if and how the software industry integrates consideration of sustainability into its common software development processes. This research starts by investigating the current state of sustainability consideration within the software engineering industry through a survey. The results highlight a lack of progress in practically integrating sustainability considerations into software development activities. To address this gap, a case study with an industry partner is conducted to demonstrate how sustainability concerns and effects can be integrated into agile software development. The findings of this case study demonstrate practical approaches to integrating sustainability into software development practices. Reflecting on the findings from the survey and the case study, we note some insights on scaling up the adoption of sustainability consideration into the daily practice of agile software development.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-09
# 状態空間モデルを用いた不確実性保存型深部知識追跡

Uncertainty-preserving deep knowledge tracing with state-space models ( http://arxiv.org/abs/2407.17427v1 )

ライセンス: Link先を確認
S. Thomas Christie, Carson Cook, Anna N. Rafferty, (参考訳) 知識の追跡と従来の評価の両面での中心的な目標は、ある時点における学生の知識とスキルの定量化である。 深い知識追跡は生徒の反応履歴を柔軟に考慮するが、IRTとCDMは測定誤差を計算しているが、学生の過去の反応とは独立して個々のテストに対する応答のみを考慮する。 EloとBKTはこの隔たりを埋める可能性があるが、基礎となるモデルの単純さは、スキル間での情報共有を制限し、強力な帰納的バイアスを課す。 これらの制約を克服するために,変分オートエンコーダのフレキシブルな不確実性保存特性とベイズ状態空間モデルの原理的情報統合を組み合わせたモデリングパラダイムであるDynamic LENSを導入する。 動的LENSは、学生の反応からの情報を時間にわたって収集すると同時に、共有潜在状態によって生成された交換可能な観測と同じテストからの応答を処理します。 これは高次元空間におけるガウス分布として学生の知識を表し、ベイズ更新を用いてテストと時間の両方で推定を組み合わせている。 我々は、DKTモデルに欠けている認識の不確実性(測定誤差の深い学習類似)を保ちながら、Dynamic LENSが競合モデルと類似した予測性能を持つことを示す。 このアプローチは、フォーマティブな実践と要約的な評価のために設計されたモデルの間に重要な隔たりをまたぐ概念的な橋渡しを提供する。

A central goal of both knowledge tracing and traditional assessment is to quantify student knowledge and skills at a given point in time. Deep knowledge tracing flexibly considers a student's response history but does not quantify epistemic uncertainty, while IRT and CDM compute measurement error but only consider responses to individual tests in isolation from a student's past responses. Elo and BKT could bridge this divide, but the simplicity of the underlying models limits information sharing across skills and imposes strong inductive biases. To overcome these limitations, we introduce Dynamic LENS, a modeling paradigm that combines the flexible uncertainty-preserving properties of variational autoencoders with the principled information integration of Bayesian state-space models. Dynamic LENS allows information from student responses to be collected across time, while treating responses from the same test as exchangeable observations generated by a shared latent state. It represents student knowledge as Gaussian distributions in high-dimensional space and combines estimates both within tests and across time using Bayesian updating. We show that Dynamic LENS has similar predictive performance to competing models, while preserving the epistemic uncertainty - the deep learning analogue to measurement error - that DKT models lack. This approach provides a conceptual bridge across an important divide between models designed for formative practice and summative assessment.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-09
# 遠隔操作におけるAIGCタスク割り当てのための視覚言語モデルを用いた契約理論

Vision Language Model-Empowered Contract Theory for AIGC Task Allocation in Teleoperation ( http://arxiv.org/abs/2407.17428v1 )

ライセンス: Link先を確認
Zijun Zhan, Yaxian Dong, Yuqing Hu, Shuai Li, Shaohua Cao, Zhu Han, (参考訳) 夜間遠隔操作を向上するためには,拡散型AIGC(AIGC)モデルが期待できる低照度画像強調技術を統合する必要がある。 注目すべきは、AIGCモデルが計算集約的であるため、計算リソースが豊富なエッジサーバにAIGCタスクを割り当てる必要があることだ。 異なる需要を持つさまざまなサイズのデータセットとAIGCタスクでトレーニングされたAIGCモデルの明確なコストを考えると、テレオペレータとエッジサーバの機能を同時に最適化するための差分価格戦略を定式化することが不可欠である。 それでも、価格戦略の定式化は、情報非対称性、すなわちAIGCタスクの要求(例えば、AIGCタスクの困難度とその分布)は、エッジサーバに隠された情報である。 さらに、AIGCタスクの難易度を手動で評価することは、テレオペレーターにとって面倒で不要である。 この目的のために,視覚言語モデル(VLM)を用いた契約理論によって支援されるAIGCタスクアロケーションの枠組みを考案し,VLMを活用した困難評価と契約理論によるAIGCタスクアロケーションの2つのコンポーネントを含む。 第1のコンポーネントは、自動的かつ正確なAIGCタスク障害評価を可能にする。 第2のコンポーネントは、情報非対称性の下でエッジサーバの価格戦略を定式化し、エッジサーバとテレオペレータの両方の有用性を最適化する。 シミュレーションの結果,提案フレームワークはテレオペレータとエッジサーバの平均有効性をそれぞれ10.88~12.43%,1.4~2.17%向上できることがわかった。 コードとデータはhttps://github.com/ZiJun0819/VLM-Contract-Theoryで公開されている。

Integrating low-light image enhancement techniques, in which diffusion-based AI-generated content (AIGC) models are promising, is necessary to enhance nighttime teleoperation. Remarkably, the AIGC model is computation-intensive, thus necessitating the allocation of AIGC tasks to edge servers with ample computational resources. Given the distinct cost of the AIGC model trained with varying-sized datasets and AIGC tasks possessing disparate demand, it is imperative to formulate a differential pricing strategy to optimize the utility of teleoperators and edge servers concurrently. Nonetheless, the pricing strategy formulation is under information asymmetry, i.e., the demand (e.g., the difficulty level of AIGC tasks and their distribution) of AIGC tasks is hidden information to edge servers. Additionally, manually assessing the difficulty level of AIGC tasks is tedious and unnecessary for teleoperators. To this end, we devise a framework of AIGC task allocation assisted by the Vision Language Model (VLM)-empowered contract theory, which includes two components: VLM-empowered difficulty assessment and contract theory-assisted AIGC task allocation. The first component enables automatic and accurate AIGC task difficulty assessment. The second component is capable of formulating the pricing strategy for edge servers under information asymmetry, thereby optimizing the utility of both edge servers and teleoperators. The simulation results demonstrated that our proposed framework can improve the average utility of teleoperators and edge servers by 10.88~12.43% and 1.4~2.17%, respectively. Code and data are available at https://github.com/ZiJun0819/VLM-Contract-Theory.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-09
# ロボット学習における品質多様性:限界と今後の方向性

Quality Diversity for Robot Learning: Limitations and Future Directions ( http://arxiv.org/abs/2407.17515v1 )

ライセンス: Link先を確認
Sumeet Batra, Bryon Tjanaka, Stefanos Nikolaidis, Gaurav Sukhatme, (参考訳) 品質多様性(QD: Quality Diversity)は、ロボットスキル学習のための高性能で多様なポリシーを発見することに成功している。 現在のベンチマークは、強力なQD手法の開発につながっているが、我々は、オープンな検索と一般化を容易にするために、新しいパラダイムを開発する必要があると論じている。 特に、MAP-Elitesスタイルの有界アーカイブにおいて、それぞれ異なるxy位置に移動する多様なエージェントの学習に焦点が当てられている。 ここでは、そのようなタスクは古典的なプランナーと組み合わせた単一目標条件のポリシーで達成でき、O(1)空間の複雑さを達成できる。 本手法は, 隣接セル間の関係グラフをモデル化することにより, タスク不変構造知識を抽出し, タスク不変構造知識を抽出する。 我々は、この見解を、計算神経科学の新たな証拠で動機付け、人間や他の動物の脳におけるQDと認知地図のモデルとの関係を探る。 そこで本研究では,QDマップと認知地図の関係を考察し,認識地図に触発された今後の研究方向を,真のオープンエンド検索が可能な一般化可能なアルゴリズムに向けて提案する。

Quality Diversity (QD) has shown great success in discovering high-performing, diverse policies for robot skill learning. While current benchmarks have led to the development of powerful QD methods, we argue that new paradigms must be developed to facilitate open-ended search and generalizability. In particular, many methods focus on learning diverse agents that each move to a different xy position in MAP-Elites-style bounded archives. Here, we show that such tasks can be accomplished with a single, goal-conditioned policy paired with a classical planner, achieving O(1) space complexity w.r.t. the number of policies and generalization to task variants. We hypothesize that this approach is successful because it extracts task-invariant structural knowledge by modeling a relational graph between adjacent cells in the archive. We motivate this view with emerging evidence from computational neuroscience and explore connections between QD and models of cognitive maps in human and other animal brains. We conclude with a discussion exploring the relationships between QD and cognitive maps, and propose future research directions inspired by cognitive maps towards future generalizable algorithms capable of truly open-ended search.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-09
# 教師なしグラフドメイン適応の再検討、ベンチマーク、理解

Revisiting, Benchmarking and Understanding Unsupervised Graph Domain Adaptation ( http://arxiv.org/abs/2407.11052v1 )

ライセンス: Link先を確認
Meihan Liu, Zhen Zhang, Jiachen Tang, Jiajun Bu, Bingsheng He, Sheng Zhou, (参考訳) 教師なしグラフドメイン適応(Unsupervised Graph Domain Adaptation、UGDA)は、ラベル豊富なソースグラフから、ドメインの相違の下でラベルなしのターゲットグラフへの知識の転送を含む。 この新たなタスク用に設計されたメソッドが急増しているにも関わらず、標準的な実験的な設定や公正なパフォーマンス比較が欠如しているため、モデルがさまざまなシナリオでうまく機能するかどうかを理解するのは難しい。 このギャップを埋めるために、GDABenchという、74の適応タスクを持つ5つのデータセットにまたがる16のアルゴリズムを含む、教師なしグラフ領域適応のための、最初の包括的なベンチマークを示す。 広範な実験を通して、現在のUGDAモデルの性能はデータセットや適応シナリオによって大きく異なることが観察された。 具体的には、ソースグラフとターゲットグラフが大きな分布シフトに直面している場合、グラフ構造シフトに効果的に対処し緩和するための戦略を定式化することが重要であることを認識している。 また, 局所凝集機構が適切であれば, 単純な GNN 変種は最先端の UGDA ベースラインを超えることもある。 再現性を高めるため,既存のUGDA手法を学習・評価するためのPyGDAライブラリを開発した。 ソースコードとデータセットは、https://github.com/pygda-team/pygda.comで確認できます。

Unsupervised Graph Domain Adaptation (UGDA) involves the transfer of knowledge from a label-rich source graph to an unlabeled target graph under domain discrepancies. Despite the proliferation of methods designed for this emerging task, the lack of standard experimental settings and fair performance comparisons makes it challenging to understand which and when models perform well across different scenarios. To fill this gap, we present the first comprehensive benchmark for unsupervised graph domain adaptation named GDABench, which encompasses 16 algorithms across 5 datasets with 74 adaptation tasks. Through extensive experiments, we observe that the performance of current UGDA models varies significantly across different datasets and adaptation scenarios. Specifically, we recognize that when the source and target graphs face significant distribution shifts, it is imperative to formulate strategies to effectively address and mitigate graph structural shifts. We also find that with appropriate neighbourhood aggregation mechanisms, simple GNN variants can even surpass state-of-the-art UGDA baselines. To facilitate reproducibility, we have developed an easy-to-use library PyGDA for training and evaluating existing UGDA methods, providing a standardized platform in this community. Our source codes and datasets can be found at: https://github.com/pygda-team/pygda.
翻訳日:2024-07-22 12:09:54 公開日:2024-07-09
# K末端スパンニングツリーを用いたネットワーク信頼度推定のためのサンプリングおよびアクティブラーニング手法

Sampling and active learning methods for network reliability estimation using K-terminal spanning tree ( http://arxiv.org/abs/2407.11053v1 )

ライセンス: Link先を確認
Chen Ding, Pengfei Wei, Yan Shi, Jinxing Liu, Matteo Broggi, Michael Beer, (参考訳) ネットワークの信頼性分析は、ネットワークのサイズと複雑さが増大しているため、依然として課題である。 本稿では,ノード障害およびエッジ障害シナリオ下でのネットワーク信頼度を効果的かつ高精度に推定するための新しいサンプリング手法とアクティブラーニング手法を提案する。 提案手法では,モンテカルロ法を用いて成分寿命を推定し,K末端スパンニング木アルゴリズムを用いて構造関数計算を高速化する。 サンプル毎に1つの構造関数値しか計算しない既存の手法とは異なり、本手法では複数の成分状態ベクトルと対応する構造関数値を各サンプルから生成する。 これらの値から得られた生存シグネチャに基づいて,ネットワークの信頼性を推定する。 変換手法はこの手法を拡張し、ノード障害とエッジ障害の両方を扱う。 提案手法の効率を高め,ネットワークトポロジ変化への適応性を実現するために,ランダムフォレスト分類器を用いた能動的学習手法を提案する。 この分類器は、構造関数の値を直接予測し、様々なトポロジにわたってネットワークの挙動を統合し、予測精度を高めるために反復的な改善を行う。 重要なことは、トレーニングされたRF分類器は、サンプリング法以外の機能として、変種ネットワークの信頼性を直接予測することができることである。 いくつかのネットワーク事例と2つの実践的応用を調査し、提案手法の有効性を実証した。

Network reliability analysis remains a challenge due to the increasing size and complexity of networks. This paper presents a novel sampling method and an active learning method for efficient and accurate network reliability estimation under node failure and edge failure scenarios. The proposed sampling method adopts Monte Carlo technique to sample component lifetimes and the K-terminal spanning tree algorithm to accelerate structure function computation. Unlike existing methods that compute only one structure function value per sample, our method generates multiple component state vectors and corresponding structure function values from each sample. Network reliability is estimated based on survival signatures derived from these values. A transformation technique extends this method to handle both node failure and edge failure. To enhance efficiency of proposed sampling method and achieve adaptability to network topology changes, we introduce an active learning method utilizing a random forest (RF) classifier. This classifier directly predicts structure function values, integrates network behaviors across diverse topologies, and undergoes iterative refinement to enhance predictive accuracy. Importantly, the trained RF classifier can directly predict reliability for variant networks, a capability beyond the sampling method alone. Through investigating several network examples and two practical applications, the effectiveness of both proposed methods is demonstrated.
翻訳日:2024-07-22 12:09:54 公開日:2024-07-09
# 医療技術評価のためのジェネレーティブAI : 機会,課題,政策的考察

Generative AI for Health Technology Assessment: Opportunities, Challenges, and Policy Considerations ( http://arxiv.org/abs/2407.11054v1 )

ライセンス: Link先を確認
Rachael Fleurence, Jiang Bian, Xiaoyan Wang, Hua Xu, Dalia Dawoud, Tala Fakhouri, Mitch Higashi, Jagpreet Chhatwal, (参考訳) 本稿では,医療技術評価(HTA)のための生成人工知能(AI)と,大規模言語モデル(LLM)を含む基礎モデルについて紹介する。 1)エビデンス・シンセサイザー、エビデンス・ジェネレーション、臨床試験、経済モデリングの応用を探る:(1)エビデンス・シンセサイザー: 生成AIは、文献レビューとメタアナリシスの自動化を支援する能力を持ち、検索用語の提案、要約のスクリーニング、顕著な精度でデータの抽出を行う。(2)エビデンス・ジェネレーション: これらのモデルにより、プロセスの自動化と、非構造化された臨床ノートや画像を含む利用可能な膨大な実世界のデータ(RWD)の収集、実世界のエビデンス(RWE)生成のスピードと品質の向上、(3)臨床試験: 生成AIは、治験設計を最適化し、患者マッチングを改善し、治験データをより効率的に管理するために使用できる;(4)エビデンス・モデリング: 経済モデルの開発にも役立つ。 約束にもかかわらず、これらの技術は急速に改善されているものの、まだ初期段階にあり、HTAへの適用には慎重な評価が引き続き必要である。 責任ある使用と実施を保証するため、これらのツールを取り入れた研究の開発者と利用者は、科学的妥当性、偏見のリスク、公平性や倫理的含意など、現在の制限に精通するべきである。 我々はまた、現在の政策状況を調査し、HTAエージェンシーに対して、生成AIを彼らのワークフローに責任を持って統合することを提案し、人間の監視の重要性とこれらのツールの急速な進化の性質を強調した。

This review introduces the transformative potential of generative Artificial Intelligence (AI) and foundation models, including large language models (LLMs), for health technology assessment (HTA). We explore their applications in four critical areas, evidence synthesis, evidence generation, clinical trials and economic modeling: (1) Evidence synthesis: Generative AI has the potential to assist in automating literature reviews and meta-analyses by proposing search terms, screening abstracts, and extracting data with notable accuracy; (2) Evidence generation: These models can potentially facilitate automating the process and analyze the increasingly available large collections of real-world data (RWD), including unstructured clinical notes and imaging, enhancing the speed and quality of real-world evidence (RWE) generation; (3) Clinical trials: Generative AI can be used to optimize trial design, improve patient matching, and manage trial data more efficiently; and (4) Economic modeling: Generative AI can also aid in the development of health economic models, from conceptualization to validation, thus streamlining the overall HTA process. Despite their promise, these technologies, while rapidly improving, are still nascent and continued careful evaluation in their applications to HTA is required. To ensure their responsible use and implementation, both developers and users of research incorporating these tools, should familiarize themselves with their current limitations, including the issues related to scientific validity, risk of bias, and consider equity and ethical implications. We also surveyed the current policy landscape and provide suggestions for HTA agencies on responsibly integrating generative AI into their workflows, emphasizing the importance of human oversight and the fast-evolving nature of these tools.
翻訳日:2024-07-22 12:09:54 公開日:2024-07-09
# ロバストVQAのためのクエリ認識セグメンテーションとクロスアテンションの統合

Integrating Query-aware Segmentation and Cross-Attention for Robust VQA ( http://arxiv.org/abs/2407.12055v1 )

ライセンス: Link先を確認
Wonjun Choi, Sangbeom Lee, Seungyeon Lee, Heechul Jung, Dong-Gyu Lee, (参考訳) 本稿では,LVLMを用いたVizWiz-VQA法を提案する。 私たちは以下の条件でモデルをトレーニングします。 1)オリジナル画像によるトレーニング。 2)CLIPSegを用いた強調画像によるトレーニングにより,画像の強調や対比を行う。 3)視覚変換器(ViT)の出力機能とオリジナル画像のCLIPSeg機能を統合したトレーニング。 そして,レベンシュテイン距離に基づいて結果をアンサンブルし,最終回答の予測を強化する。 実験では,提案手法の有効性を実証し,解析する。

This paper introduces a method for VizWiz-VQA using LVLM with trainable cross-attention and LoRA finetuning. We train the model with the following conditions: 1) Training with original images. 2) Training with enhanced images using CLIPSeg to highlight or contrast the original image. 3) Training with integrating the output features of Vision Transformer (ViT) and CLIPSeg features of the original images. Then, we ensemble the results based on Levenshtein distance to enhance the prediction of the final answer. In the experiments, we demonstrate and analyze the proposed method's effectiveness.
翻訳日:2024-07-22 09:07:34 公開日:2024-07-09
# クロスオブジェクトアンサンブル学習は、fMRI復号のための大規模なサンプルの必要性を緩和する

Across-subject ensemble-learning alleviates the need for large samples for fMRI decoding ( http://arxiv.org/abs/2407.12056v1 )

ライセンス: Link先を確認
Himanshu Aggarwal, Liza Al-Shikhley, Bertrand Thirion, (参考訳) 機能的磁気共鳴画像からの認知状態の復号は、脳の機能的構造を理解するために重要である。 オブジェクト内のデコーディングは、オブジェクト間の対応の問題を回避するが、正確な予測を行うには大きなサンプルサイズを必要とする。 本稿では、他の被験者のデータに基づいて訓練された分類器を組み合わせて、新しい被験者の認知状態を復号化するためのアンサンブルアプローチについて検討する。 従来の5つのデータセットと認知タスクのデコード手法と比較した。 特にオブジェクトごとのデータに制限のあるデータセットでは,従来の手法よりも最大20%精度が高いことが判明した。 アンサンブルアプローチは、分類器がボクセル空間で訓練されるときに特に有利である。 さらに、マルチレイヤパーセプトロンはアンサンブルメソッドとして良いデフォルト選択であることが判明した。 これらの結果から,事前学習戦略により,オブジェクトごとの大きなデータの必要性が軽減されることがわかった。

Decoding cognitive states from functional magnetic resonance imaging is central to understanding the functional organization of the brain. Within-subject decoding avoids between-subject correspondence problems but requires large sample sizes to make accurate predictions; obtaining such large sample sizes is both challenging and expensive. Here, we investigate an ensemble approach to decoding that combines the classifiers trained on data from other subjects to decode cognitive states in a new subject. We compare it with the conventional decoding approach on five different datasets and cognitive tasks. We find that it outperforms the conventional approach by up to 20% in accuracy, especially for datasets with limited per-subject data. The ensemble approach is particularly advantageous when the classifier is trained in voxel space. Furthermore, a Multi-layer Perceptron turns out to be a good default choice as an ensemble method. These results show that the pre-training strategy reduces the need for large per-subject data.
翻訳日:2024-07-22 09:07:34 公開日:2024-07-09
# Fact Checkingにおけるクレームの正当性の自動生成 - アーキテクチャとアプローチに関する調査

Automated Justification Production for Claim Veracity in Fact Checking: A Survey on Architectures and Approaches ( http://arxiv.org/abs/2407.12853v1 )

ライセンス: Link先を確認
Islam Eldifrawi, Shengrui Wang, Amine Trabelsi, (参考訳) AFC(Automated Fact-Checking)は、クレーム精度の自動検証である。 AFCは、特に大量のコンテンツが毎日オンラインで生成されることを考えると、誤報から真実を識別するために不可欠である。 現在の研究は、メタデータ分析と言語精査を通じてクレームの正確性を予測することに焦点を当て、評定の正当化に重点を置いている。 本稿では,近年の方法論を考察し,包括的分類法を提案し,その景観における研究の進化を示す。 ファクトチェックの説明可能性向上のための方法論と今後の方向性の比較分析についても論じる。

Automated Fact-Checking (AFC) is the automated verification of claim accuracy. AFC is crucial in discerning truth from misinformation, especially given the huge amounts of content are generated online daily. Current research focuses on predicting claim veracity through metadata analysis and language scrutiny, with an emphasis on justifying verdicts. This paper surveys recent methodologies, proposing a comprehensive taxonomy and presenting the evolution of research in that landscape. A comparative analysis of methodologies and future directions for improving fact-checking explainability are also discussed.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-09
# Trillion-Tokenデータストアによる検索言語モデルのスケーリング

Scaling Retrieval-Based Language Models with a Trillion-Token Datastore ( http://arxiv.org/abs/2407.12854v1 )

ライセンス: Link先を確認
Rulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh, (参考訳) トレーニングデータの量とパラメータ数に関する法則のスケーリングにより、異なる構成で事前学習言語モデル(LM)のコスト対効果のトレードオフを予測することができる。 本稿では,推論時に利用可能なデータの量という,スケーリングの別の次元について考察する。 具体的には,検索型LMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善し,大きなデータストアを付加した小さなモデルでは,知識集約型タスクにおいて,より大きなLMのみのモデルよりも優れることがわかった。 データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。 我々は,検索型LMにおいて,これまで最大かつ最も多様なオープンソースデータストアであるMassiveDSという1.4兆トン規模のデータストアを構築し,データストアのスケーリングを計算容易な方法で研究するための効率的なパイプラインを設計する。 最後に,レトリバーの改善,データストアの品質フィルタリング,その他の設計選択がスケーリングの傾向に及ぼす影響を分析する。 以上の結果から,データストアのサイズはLM効率と性能トレードオフの不可欠な部分であると考えられた。 今後の研究を容易にするため、私たちはデータストアとコードをhttps://github.com/RulinShao/retrieval-scaling.comでオープンソース化しました。

Scaling laws with respect to the amount of training data and the number of parameters allow us to predict the cost-benefit trade-offs of pretraining language models (LMs) in different configurations. In this paper, we consider another dimension of scaling: the amount of data available at inference time. Specifically, we find that increasing the size of the datastore used by a retrieval-based LM monotonically improves language modeling and several downstream tasks without obvious saturation, such that a smaller model augmented with a large datastore outperforms a larger LM-only model on knowledge-intensive tasks. By plotting compute-optimal scaling curves with varied datastore, model, and pretraining data sizes, we show that using larger datastores can significantly improve model performance for the same training compute budget. We carry out our study by constructing a 1.4 trillion-token datastore named MassiveDS, which is the largest and the most diverse open-sourced datastore for retrieval-based LMs to date, and designing an efficient pipeline for studying datastore scaling in a computationally accessible manner. Finally, we analyze the effect of improving the retriever, datastore quality filtering, and other design choices on our observed scaling trends. Overall, our results show that datastore size should be considered as an integral part of LM efficiency and performance trade-offs. To facilitate future research, we open-source our datastore and code at https://github.com/RulinShao/retrieval-scaling.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-09
# 大規模言語モデルは政治家や他の公的な人物を偽装できる

Large Language Models can impersonate politicians and other public figures ( http://arxiv.org/abs/2407.12855v1 )

ライセンス: Link先を確認
Steffen Herbold, Alexander Trautsch, Zlata Kikteva, Annette Hautli-Janisz, (参考訳) 大規模言語モデル(LLM)のような現代のAI技術は、公開情報領域をメイクアップコンテンツで汚染する可能性があり、社会全体の結束に重大な脅威をもたらす。 幅広い研究により、LLMは説得力のある政治的スピーチ、事前に定義されたスタイルのテキスト、役割固有のコンテンツなど、印象的な品質のテキストを生成することができることが示されている。 我々は、LLMが政治的、社会的な代表者にとっていかに有能であるか、そして一般大衆がこれらの偽装を、真正性、関連性、一貫性の観点からどのように判断するかについて、大規模かつ体系的な研究を欠いている。 本研究は、イギリス社会の横断的なセクションに基づく研究結果であり、イギリスにおける放送政治討論プログラムの一部である議論に対する回答をLLMが生成可能であることを示すものである。 偽装された反応は、偽装された人々の本来の反応よりも真正かつ関連性が高いと判断される。 1) LLM は公共の政治討論に有意義な貢献をしうること,(2) 社会に与えうる潜在的な害について一般大衆に知らせる必要があること,である。

Modern AI technology like Large language models (LLMs) has the potential to pollute the public information sphere with made-up content, which poses a significant threat to the cohesion of societies at large. A wide range of research has shown that LLMs are capable of generating text of impressive quality, including persuasive political speech, text with a pre-defined style, and role-specific content. But there is a crucial gap in the literature: We lack large-scale and systematic studies of how capable LLMs are in impersonating political and societal representatives and how the general public judges these impersonations in terms of authenticity, relevance and coherence. We present the results of a study based on a cross-section of British society that shows that LLMs are able to generate responses to debate questions that were part of a broadcast political debate programme in the UK. The impersonated responses are judged to be more authentic and relevant than the original responses given by people who were impersonated. This shows two things: (1) LLMs can be made to contribute meaningfully to the public political debate and (2) there is a dire need to inform the general public of the potential harm this can have on society.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-09
# AIAIバイアス:大規模言語モデルは独自の生成コンテンツを好む

AI AI Bias: Large Language Models Favor Their Own Generated Content ( http://arxiv.org/abs/2407.12856v1 )

ライセンス: Link先を確認
Walter Laurito, Benjamin Davis, Peli Grietzer, Tomáš Gavenčiak, Ada Böhm, Jan Kulveit, (参考訳) 大規模言語モデル(LLM)は、人間によって書かれたテキスト上でLLMによって生成されたテキストに偏りがあるのか? 雇用差別研究に触発された古典的実験設計を用いて,二分選択シナリオにおいて,GPT-3.5やGPT4を含む広く利用されているLCMを検証した。 これらは、LLMをベースとしたエージェントで、人間またはLLMが同一条件下で記述した製品と学術論文を選択できる。 以上の結果から,LLMベースのAIがLLM生成コンテンツを好む傾向が一貫したことが明らかとなった。 これは、AIシステムが暗黙的に人間を差別し、AIエージェントに不公平な優位性を与える可能性を示唆している。

Are large language models (LLMs) biased towards text generated by LLMs over text authored by humans, leading to possible anti-human bias? Utilizing a classical experimental design inspired by employment discrimination studies, we tested widely-used LLMs, including GPT-3.5 and GPT4, in binary-choice scenarios. These involved LLM-based agents selecting between products and academic papers described either by humans or LLMs under identical conditions. Our results show a consistent tendency for LLM-based AIs to prefer LLM-generated content. This suggests the possibility of AI systems implicitly discriminating against humans, giving AI agents an unfair advantage.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-09
# 紙SEAにおける自動ピアレビュー:標準化・評価・分析

Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis ( http://arxiv.org/abs/2407.12857v1 )

ライセンス: Link先を確認
Jianxiang Yu, Zichen Ding, Jiaqi Tan, Kangyang Luo, Zhenmin Weng, Chenghua Gong, Long Zeng, Renjing Cui, Chengcheng Han, Qiushi Sun, Zhiyong Wu, Yunshi Lan, Xiang Li, (参考訳) 近年、科学論文の急速な増加は、従来のレビューメカニズムを圧倒し、出版物の質が変化している。 既存の手法では、自動科学的レビューのためのLarge Language Models (LLMs) の機能を探っているが、生成された内容はしばしば汎用的あるいは部分的である。 上記の問題に対処するために、自動紙レビューフレームワークSEAを紹介します。 標準化、評価、分析の3つのモジュールから構成されており、それぞれSEA-S、SEA-E、SEA-Aのモデルで表される。 当初、SEA-SはGPT-4のデータ標準化機能を蒸留し、複数のレビューを統合する。 そして、SEA-Eは標準化されたデータを使って微調整を行い、構築的なレビューを生成する。 最後に、SEA-Aは、紙の内容とレビューの整合性を評価するために、ミスマッチスコアと呼ばれる新しい評価指標を導入した。 さらに,一貫性を高めるための自己補正戦略を設計する。 8つの会場から収集されたデータセットに関する大規模な実験結果から、SEAは著者が論文を改善する上で貴重な洞察を得られることを示している。

In recent years, the rapid increase in scientific papers has overwhelmed traditional review mechanisms, resulting in varying quality of publications. Although existing methods have explored the capabilities of Large Language Models (LLMs) for automated scientific reviewing, their generated contents are often generic or partial. To address the issues above, we introduce an automated paper reviewing framework SEA. It comprises of three modules: Standardization, Evaluation, and Analysis, which are represented by models SEA-S, SEA-E, and SEA-A, respectively. Initially, SEA-S distills data standardization capabilities of GPT-4 for integrating multiple reviews for a paper. Then, SEA-E utilizes standardized data for fine-tuning, enabling it to generate constructive reviews. Finally, SEA-A introduces a new evaluation metric called mismatch score to assess the consistency between paper contents and reviews. Moreover, we design a self-correction strategy to enhance the consistency. Extensive experimental results on datasets collected from eight venues show that SEA can generate valuable insights for authors to improve their papers.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-09
# 強弱自然対称性破砕の有効場理論としての流体力学

Hydrodynamics as the effective field theory of strong-to-weak spontaneous symmetry breaking ( http://arxiv.org/abs/2407.08760v1 )

ライセンス: Link先を確認
Xiaoyang Huang, Marvin Qi, Jian-Hao Zhang, Andrew Lucas, (参考訳) 量子混合状態における新しい物質相の探索に触発されて、統計力学におけるミクロカノニカルアンサンブルとカノニカルアンサンブルの等価性は、基礎となる多体量子記述における強弱自然対称性の破れ(SWSSB)の顕在化であると考えられている。 ここでは、大域的U(1)対称性のSWSSBの有効場理論を構築し、その解は保存された電荷に対する拡散のシュウィンガー・ケルディシュ実場理論を正確に再現する。 非可逆性はSWSSBの可測順序パラメータであり、拡散モードは自然に壊れた連続対称性のゴールドストーンボソンであり、ゴールドストーンの定理の一般化は、拡散モードは常に長寿命であることを意味する。 この観点は、シュウィンガー=ケルディシュ効果場理論の「正規流体」に対する必要成分である特異な「パラメータ化」対称性の透明な物理的説明を与える。

Inspired by the hunt for new phases of matter in quantum mixed states, it has recently been proposed that the equivalence of microcanonical and canonical ensembles in statistical mechanics is a manifestation of strong-to-weak spontaneous symmetry breaking (SWSSB) in an underlying many-body quantum description. Here, we build an effective field theory for SWSSB of a global U(1) symmetry; the answer exactly reproduces the Schwinger-Keldysh effective field theory of diffusion for the conserved charge. We conclude that hydrodynamics can be understood as a theory of "superfluidity" for the broken strong symmetry: a non-vanishing susceptibility is a measurable order parameter for SWSSB, the diffusion mode is the Goldstone boson of the spontaneously broken continuous symmetry, and a generalization of Goldstone's Theorem implies that the diffusion mode is always long-lived. This perspective provides a transparent physical explanation for the unusual "reparameterization" symmetries which are a necessary ingredient of Schwinger-Keldysh effective field theories for "normal fluids".
翻訳日:2024-07-16 03:38:34 公開日:2024-07-09
# GNNのための通勤時間最適化グラフ

Commute-Time-Optimised Graphs for GNNs ( http://arxiv.org/abs/2407.08762v1 )

ライセンス: Link先を確認
Igor Sterner, Shiye Su, Petar Veličković, (参考訳) 通勤時間を最適化するグラフ再構成法について検討する。 最近のグラフリウィリングアプローチはスパースグラフにおける長距離相互作用を促進し、そのようなリウィリングは可換時最適$\textit{on average}$となる。 しかし、どのノードペアが相互作用すべきでなければ、専門家が事前に存在する場合、優れたリライトはこれらの特権ノードペア間の短い通勤時間を好む。 我々は、現実的な設定を反映した、既知の事前を反映した2つの合成データセットを構築し、これらを用いて、既知の事前を組み込んだ2つのbespoke rewiringメソッドの動機付けを行う。 本研究は, 合成データセットにおいて, 再配線により試験性能が向上する状況について検討する。 最後に,本研究の実践的意義を明らかにするために,実世界の引用グラフのケーススタディを行う。

We explore graph rewiring methods that optimise commute time. Recent graph rewiring approaches facilitate long-range interactions in sparse graphs, making such rewirings commute-time-optimal $\textit{on average}$. However, when an expert prior exists on which node pairs should or should not interact, a superior rewiring would favour short commute times between these privileged node pairs. We construct two synthetic datasets with known priors reflecting realistic settings, and use these to motivate two bespoke rewiring methods that incorporate the known prior. We investigate the regimes where our rewiring improves test performance on the synthetic datasets. Finally, we perform a case study on a real-world citation graph to investigate the practical implications of our work.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-09
# Covariate Assisted Entity Ranking with Sparse Intrinsic Scores

Covariate Assisted Entity Ranking with Sparse Intrinsic Scores ( http://arxiv.org/abs/2407.08814v1 )

ライセンス: Link先を確認
Jianqing Fan, Jikai Hou, Mengxin Yu, (参考訳) 本稿では,共変量によって選好スコアが完全に説明できないシナリオと,残りの内在スコアがスパースであるシナリオに着目し,関連共変量を用いた項目ランキング問題に対処する。 具体的には,共変量情報を組み込んだBradley-Terry-Luce(BTL)モデルを拡張し,個々の内在スコアを疎結合に検討する。 本研究は, 新たなモデル同定条件を導入し, 正規化最大等量推定器 (MLE) の統計率について検討する。 次に, ペナル化MLEの脱バイアス推定器を構築し, その分布特性を解析する。 さらに,各項目の選好スコアを完全に説明できるような潜在固有スコアを持たないモデルに対する適合性テストに本手法を適用した。 私たちはまた、ランクの信頼区間も提供します。 我々の数値研究は、我々の理論的な発見をさらに支援し、提案手法の検証を実証する。

This paper addresses the item ranking problem with associate covariates, focusing on scenarios where the preference scores can not be fully explained by covariates, and the remaining intrinsic scores, are sparse. Specifically, we extend the pioneering Bradley-Terry-Luce (BTL) model by incorporating covariate information and considering sparse individual intrinsic scores. Our work introduces novel model identification conditions and examines the regularized penalized Maximum Likelihood Estimator (MLE) statistical rates. We then construct a debiased estimator for the penalized MLE and analyze its distributional properties. Additionally, we apply our method to the goodness-of-fit test for models with no latent intrinsic scores, namely, the covariates fully explaining the preference scores of individual items. We also offer confidence intervals for ranks. Our numerical studies lend further support to our theoretical findings, demonstrating validation for our proposed method
翻訳日:2024-07-16 01:46:09 公開日:2024-07-09
# 後ろ向きに働く - ピッキングによる場所への学習

Working Backwards: Learning to Place by Picking ( http://arxiv.org/abs/2312.02352v3 )

ライセンス: Link先を確認
Oliver Limoyo, Abhisek Konar, Trevor Ablett, Jonathan Kelly, Francois R. Hogan, Gregory Dudek, (参考訳) 我々は,物体を特定の接触制約のある場所に操作しなければならないタスクを配置する家族に対して,現実のデモンストレーションを自律的に収集する手法であるピッキング・バイ・ピッキング(PvP)を提案する。 PvPでは、把握過程を逆転させ、ピック・アンド・プレイス問題固有の対称性を活用することにより、ロボット物体配置デモの収集にアプローチする。 具体的には、まず、対象位置にある対象物の一連の把握シーケンスから、実演を配置する。 本システムでは,人間の介入なしに接触拘束環境下で数百のデモを収集することができる。 我々は、自律的に収集された実演を用いて、行動クローンを通して視覚的観察から直接ポリシーを訓練する。 これにより、ポリシーは、特権情報(例えば、テーブルから拾ったプレートを置く)なしで、トレーニング環境外のオブジェクト配置シナリオに一般化することができる。 食器洗い機とテーブル設定を含む家庭内ロボットシナリオにおけるアプローチを検証する。 我々のアプローチは、人間の監督を必要とせず、成功率とデータ効率の両面において、審美教育で訓練されたポリシーを上回り、ロボットの配置方針を導出する。

We present placing via picking (PvP), a method to autonomously collect real-world demonstrations for a family of placing tasks in which objects must be manipulated to specific, contact-constrained locations. With PvP, we approach the collection of robotic object placement demonstrations by reversing the grasping process and exploiting the inherent symmetry of the pick and place problems. Specifically, we obtain placing demonstrations from a set of grasp sequences of objects initially located at their target placement locations. Our system can collect hundreds of demonstrations in contact-constrained environments without human intervention using two modules: compliant control for grasping and tactile regrasping. We train a policy directly from visual observations through behavioural cloning, using the autonomously-collected demonstrations. By doing so, the policy can generalize to object placement scenarios outside of the training environment without privileged information (e.g., placing a plate picked up from a table). We validate our approach in home robot scenarios that include dishwasher loading and table setting. Our approach yields robotic placing policies that outperform policies trained with kinesthetic teaching, both in terms of success rate and data efficiency, while requiring no human supervision.
翻訳日:2024-07-15 20:44:29 公開日:2024-07-09
# JolteonとDitto:非同期フォールバックによるネットワーク適応型効率コンセンサス

Jolteon and Ditto: Network-Adaptive Efficient Consensus with Asynchronous Fallback ( http://arxiv.org/abs/2106.10362v4 )

ライセンス: Link先を確認
Rati Gelashvili, Lefteris Kokoris-Kogias, Alberto Sonnino, Alexander Spiegelman, Zhuolun Xiang, (参考訳) 既存の委員会ベースのByzantineステートマシンレプリケーション(SMR)プロトコルは、一般的に運用ブロックチェーンにデプロイされるが、明確なトレードオフに直面している。 既存の線形プロトコルは、最悪の場合、漸近的な二次コストを持つため、このトレードオフは保証されていないと我々は信じている。 我々は,ビザンチンのSMRプロトコルであるDittoを設計する。このプロトコルは,ハッピーパス(それぞれ線形および二次)の最適な通信と,非同期およびDDoS攻撃下でのプログレス保証である。 我々は、部分同期プロトコルのビュー同期化を、余分な漸近的なコストで非同期のフォールバック機構に置き換えることで、これを実現する。 具体的には、最先端の線形プロトコルであるHotStuffから始まり、徐々にDittoを構築します。 別個のコントリビューションと中間ステップとして,標準的な3チェーンHotStuffのレイテンシを低減するために,二次ビュー変更機構を活用するHotStuff,Jolteonの2チェーンバージョンを設計する。 すべてのシステムを実装し,実験的に評価する。 特に、Jolteonのコミットレイテンシは、さまざまなシステムサイズでHotStuffを200~300ms上回る。 さらに、Dittoはネットワークに適応し、障害条件下でのJolteonよりも優れたパフォーマンスを提供し、フォールトレス条件下でのVABA(最先端の非同期プロトコル)よりも優れたパフォーマンスを提供する。 このことは、堅牢性と効率性のトレードオフを破ることが実用性の範囲にあることを証明しています。

Existing committee-based Byzantine state machine replication (SMR) protocols, typically deployed in production blockchains, face a clear trade-off: (1) they either achieve linear communication cost in the happy path, but sacrifice liveness during periods of asynchrony, or (2) they are robust (progress with probability one) but pay quadratic communication cost. We believe this trade-off is unwarranted since existing linear protocols still have asymptotic quadratic cost in the worst case. We design Ditto, a Byzantine SMR protocol that enjoys the best of both worlds: optimal communication on and off the happy path (linear and quadratic, respectively) and progress guarantee under asynchrony and DDoS attacks. We achieve this by replacing the view-synchronization of partially synchronous protocols with an asynchronous fallback mechanism at no extra asymptotic cost. Specifically, we start from HotStuff, a state-of-the-art linear protocol, and gradually build Ditto. As a separate contribution and an intermediate step, we design a 2-chain version of HotStuff, Jolteon, which leverages a quadratic view-change mechanism to reduce the latency of the standard 3-chain HotStuff. We implement and experimentally evaluate all our systems. Notably, Jolteon's commit latency outperforms HotStuff by 200-300ms with varying system size. Additionally, Ditto adapts to the network and provides better performance than Jolteon under faulty conditions and better performance than VABA (a state-of-the-art asynchronous protocol) under faultless conditions. This proves our case that breaking the robustness-efficiency trade-off is in the realm of practicality.
翻訳日:2024-07-13 00:20:48 公開日:2024-07-09
# クロスモデルフェアネス:モデル多重性下におけるフェアネスと倫理の実証的研究

Cross-model Fairness: Empirical Study of Fairness and Ethics Under Model Multiplicity ( http://arxiv.org/abs/2203.07139v4 )

ライセンス: Link先を確認
Kacper Sokol, Meelis Kull, Jeffrey Chan, Flora Salim, (参考訳) データ駆動予測モデルは厳密な技術的構成であるが、特定の工学的選択が暗黙的、間接的、予期せぬ現実的な結果をもたらす社会的文脈の中で機能する。 アルゴリズムは、これらの特性がデータに含まれるか、あるいはプロキシ変数を通して識別可能であるかに関わらず、様々な保護された特徴にまたがる人々を識別することができる。 今まで、この概念は、しばしば異なる分類しきい値の下で固定されたモデルに対して研究され、望ましくない、差別的で、おそらく違法な操作の側面を特定し、根絶しようと試みてきた。 ここでは、この固定モデル仮定をバックトラックし、実用性に基づくモデル乗法の観点から、1つの予測者が等しく機能するモデル群からアドホックに選択されたときに個人が害を受けることのできる、クロスモデルフェアネスの新たな定義を提案し、探求する。 この個人は、他のモデルと同等と見なされるモデルによって異なる分類がなされる可能性があるため、この個人は、他の人に悪影響を及ぼす可能性のある、最も好ましい結果を与える予測器を主張することができる。 そこで我々は,このシナリオを2次元の例と線形分類を用いて紹介し,アルゴリズムフェアネスコミュニティで人気がある実生活予測モデルとデータセットに基づく包括的実証研究を行い,最後に,クロスモデルフェアネスの解析的性質とその影響について,より広い文脈で検討する。 以上の結果から,このような不公平さは実生活で容易に発見できることが示唆され,技術的手段だけでは予測性能を低下させる可能性が示唆された。

While data-driven predictive models are a strictly technological construct, they may operate within a social context in which benign engineering choices entail implicit, indirect and unexpected real-life consequences. Fairness of such systems -- pertaining both to individuals and groups -- is one relevant consideration in this space; algorithms can discriminate people across various protected characteristics regardless of whether these properties are included in the data or discernible through proxy variables. To date, this notion has predominantly been studied for a fixed model, often under different classification thresholds, striving to identify and eradicate undesirable, discriminative and possibly unlawful aspects of its operation. Here, we backtrack on this fixed model assumption to propose and explore a novel definition of cross-model fairness where individuals can be harmed when one predictor is chosen ad hoc from a group of equally well performing models, i.e., in view of utility-based model multiplicity. Since a person may be classified differently across models that are otherwise considered equivalent, this individual could argue for a predictor granting them the most favourable outcome, employing which may have adverse effects on other people. We introduce this scenario with a two-dimensional example and linear classification; then, we present a comprehensive empirical study based on real-life predictive models and data sets that are popular with the algorithmic fairness community; finally, we investigate analytical properties of cross-model fairness and its ramifications in a broader context. Our findings suggest that such unfairness can be readily found in real life and it may be difficult to mitigate by technical means alone as doing so is likely to degrade predictive performance.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-09
# MixTex: 明白な認識は、実際のデータにしっかりと依存すべきでない

MixTex: Unambiguous Recognition Should Not Rely Solely on Real Data ( http://arxiv.org/abs/2406.17148v2 )

ライセンス: Link先を確認
Renqing Luo, Yuhan Xu, (参考訳) 本稿では,低バイアス多言語認識のためのLaTeX OCRモデルであるMixTexと,その新しいデータ収集手法を提案する。 LaTeXテキスト認識にTransformerアーキテクチャを適用する際、e-t$を$e^{-t}$と誤解釈するなど、特定のバイアス問題を特定しました。 このバイアスは、トレーニングによく使用されるarXivデータセットの特徴に起因している。 このバイアスを軽減するために,革新的なデータ拡張手法を提案する。 提案手法では,本文と擬似テキストを混合し,少数の破壊的文字を組み込むことにより,制御ノイズを認識対象に導入する。 さらに,本手法は,演奏における誤音の正確な識別を含む,様々な曖昧性認識タスクに適用可能であることを示唆する。 MixTexのアーキテクチャは、Swin Transformerをエンコーダとして、RoBERTaをデコーダとして利用する。 実験結果から,本手法は認識タスクのバイアスを大幅に低減することが示された。 特に、鮮明で曖昧な画像を処理する場合、そのモデルはトークン予測の文脈的手がかりを過度に反映するのではなく、画像に厳密に固執する。

This paper introduces MixTex, an end-to-end LaTeX OCR model designed for low-bias multilingual recognition, along with its novel data collection method. In applying Transformer architectures to LaTeX text recognition, we identified specific bias issues, such as the frequent misinterpretation of $e-t$ as $e^{-t}$. We attribute this bias to the characteristics of the arXiv dataset commonly used for training. To mitigate this bias, we propose an innovative data augmentation method. This approach introduces controlled noise into the recognition targets by blending genuine text with pseudo-text and incorporating a small proportion of disruptive characters. We further suggest that this method has broader applicability to various disambiguation recognition tasks, including the accurate identification of erroneous notes in musical performances. MixTex's architecture leverages the Swin Transformer as its encoder and RoBERTa as its decoder. Our experimental results demonstrate that this approach significantly reduces bias in recognition tasks. Notably, when processing clear and unambiguous images, the model adheres strictly to the image rather than over-relying on contextual cues for token prediction.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-09
# 大規模言語モデルを用いた一般自然言語記述最適化問題の解法

Solving General Natural-Language-Description Optimization Problems with Large Language Models ( http://arxiv.org/abs/2407.07924v1 )

ライセンス: Link先を確認
Jihai Zhang, Wei Wang, Siyan Guo, Li Wang, Fangquan Lin, Cheng Yang, Wotao Yin, (参考訳) 最適化問題は、一連の制約の下で目的に対する最良の解を見つけようとしており、現実世界のアプリケーションで広く研究されている。 特定のドメインにおける最適化問題のモデリングと解決には、通常、ドメイン知識、数学的スキル、プログラミング能力の組み合わせが必要である。 本稿では,LLMを外部解法で拡張するOPtLLMという新しいフレームワークを提案する。 具体的には、OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して意思決定の結果を計算する。 さらに、OpsLLMは複数ラウンドの対話をサポートし、最適化問題のモデリングと解決を徐々に洗練する。 OptLLMの有効性を説明するために、我々は3つの典型的な最適化アプリケーションに関するチュートリアルを提供し、大規模自己開発最適化データセットを用いたプロンプトベースGPTモデルと微調整Qwenモデルの両方の実験を行う。 実験結果から, OptLLM は様々な LLM で動作することが示された。 OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている(https://opt.alibabacloud.com/chat、https://opt.aliyun.com/chat)。

Optimization problems seek to find the best solution to an objective under a set of constraints, and have been widely investigated in real-world applications. Modeling and solving optimization problems in a specific domain typically require a combination of domain knowledge, mathematical skills, and programming ability, making it difficult for general users and even domain professionals. In this paper, we propose a novel framework called OptLLM that augments LLMs with external solvers. Specifically, OptLLM accepts user queries in natural language, convert them into mathematical formulations and programming codes, and calls the solvers to calculate the results for decision-making. In addition, OptLLM supports multi-round dialogues to gradually refine the modeling and solving of optimization problems. To illustrate the effectiveness of OptLLM, we provide tutorials on three typical optimization applications and conduct experiments on both prompt-based GPT models and a fine-tuned Qwen model using a large-scale selfdeveloped optimization dataset. Experimental results show that OptLLM works with various LLMs, and the fine-tuned model achieves an accuracy boost compared to the promptbased models. Some features of OptLLM framework have been available for trial since June 2023 (https://opt.alibabacloud.com/chat or https://opt.aliyun.com/chat).
翻訳日:2024-07-12 21:58:43 公開日:2024-07-09
# ソーシャルメディアパーソナライゼーションの強化:トランスフォーマーモデルを用いた動的ユーザプロファイル埋め込みとマルチモーダルコンテキスト解析

Enhancing Social Media Personalization: Dynamic User Profile Embeddings and Multimodal Contextual Analysis Using Transformer Models ( http://arxiv.org/abs/2407.07925v1 )

ライセンス: Link先を確認
Pranav Vachharajani, (参考訳) 本研究では,動的ユーザプロファイルの埋め込みがソーシャルネットワークにおける個人化されたコンテキスト認識体験に与える影響について検討する。 2000万以上のデータポイントのデータセット上で、多言語と英語のトランスフォーマーモデルの比較分析を行った。 この分析には、動的プロファイル埋め込みと非埋め込み(事実上静的なプロファイル埋め込み)を比較するための幅広いメトリクスとパフォーマンス指標が含まれていた。 劣化関数を用いた比較研究を行った。 徹底的なテストと研究により、動的埋め込みはユーザーの好みや好みの変化を追跡し、より正確なレコメンデーションとより高いユーザエンゲージメントを提供することを確認した。 これらの結果は、ソーシャルメディアプラットフォームにおいて、関連する機能や高度なレコメンデーションエンジンによるユーザエクスペリエンスの向上を目的としている。

This study investigates the impact of dynamic user profile embedding on personalized context-aware experiences in social networks. A comparative analysis of multilingual and English transformer models was performed on a dataset of over twenty million data points. The analysis included a wide range of metrics and performance indicators to compare dynamic profile embeddings versus non-embeddings (effectively static profile embeddings). A comparative study using degradation functions was conducted. Extensive testing and research confirmed that dynamic embedding successfully tracks users' changing tastes and preferences, providing more accurate recommendations and higher user engagement. These results are important for social media platforms aiming to improve user experience through relevant features and sophisticated recommendation engines.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-09
# 合成データ - プライバシとユーティリティのトレードオフを再考する

Synthetic Data: Revisiting the Privacy-Utility Trade-off ( http://arxiv.org/abs/2407.07926v1 )

ライセンス: Link先を確認
Fatima Jahan Sarmin, Atiquer Rahman Sarkar, Yang Wang, Noman Mohammed, (参考訳) 合成データは、伝統的に衛生化されたデータに代えて、さまざまなアプリケーションにまたがるより良いプライバシー保護の代替と見なされてきた。 しかし、最近の記事では、合成データは従来の匿名化技術よりもプライバシーとユーティリティのトレードオフが優れているわけではなく、予測不可能なユーティリティ損失と予測不能なプライバシ向上につながっている、というこの概念に異議を唱えている。 記事はまた、PATEGANとPrivBayesが提供した差分プライバシー保証の違反を特定したと主張している。 ある研究が事前の発見を否定または無効化すると主張する場合、その研究を検証し検証することが不可欠である。 本稿では,本論文に記載されているプライバシゲームの実装について分析し,非常に専門的で制約のある環境で動作し,その結果を一般事例に限定した。 調査の結果,PATEGANとPrivBayesによって提供される差分プライバシー保証に違反していると認識されたため,このゲームはデータ配信に関する重要な前提を満たしていないことが明らかとなった。 また、より一般的で制約のない環境で、プライバシ・ユーティリティ・トレードオフ分析を行った。 実験により, 合成データは, k-匿名化の実装よりも, より良好なプライバシーとユーティリティのトレードオフを実現し, 早期の結論を再確認した。

Synthetic data has been considered a better privacy-preserving alternative to traditionally sanitized data across various applications. However, a recent article challenges this notion, stating that synthetic data does not provide a better trade-off between privacy and utility than traditional anonymization techniques, and that it leads to unpredictable utility loss and highly unpredictable privacy gain. The article also claims to have identified a breach in the differential privacy guarantees provided by PATEGAN and PrivBayes. When a study claims to refute or invalidate prior findings, it is crucial to verify and validate the study. In our work, we analyzed the implementation of the privacy game described in the article and found that it operated in a highly specialized and constrained environment, which limits the applicability of its findings to general cases. Our exploration also revealed that the game did not satisfy a crucial precondition concerning data distributions, which contributed to the perceived violation of the differential privacy guarantees offered by PATEGAN and PrivBayes. We also conducted a privacy-utility trade-off analysis in a more general and unconstrained environment. Our experimentation demonstrated that synthetic data achieves a more favorable privacy-utility trade-off compared to the provided implementation of k-anonymization, thereby reaffirming earlier conclusions.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-09
# 大規模言語モデルにおけるソースコード要約

Source Code Summarization in the Era of Large Language Models ( http://arxiv.org/abs/2407.07959v1 )

ライセンス: Link先を確認
Weisong Sun, Yun Miao, Yuekang Li, Hongyu Zhang, Chunrong Fang, Yi Liu, Gelei Deng, Yang Liu, Zhenyu Chen, (参考訳) プログラムの理解と保守を支援するため、与えられたコードスニペットに対して簡潔な自然言語要約(すなわちコメント)を生成するために、様々な自動(ソース)コード要約技術が提案されている。 近年,大規模言語モデル(LLM)の出現により,コード関連タスクのパフォーマンスが大幅に向上している。 本稿では,LLMのコード要約のワークフローに関わる複数の側面を網羅する,LLM時代のコード要約に関する体系的かつ包括的な研究を行う。 具体的には, LLM が生成する要約の質を評価するための一般的な自動評価手法を調べ, GPT-4 評価手法の結果が人間の評価と最もよく一致していることを見出した。 次に,LLMをコード要約タスクに適用する5つのプロンプト技術(ゼロショット,少数ショット,チェーンオブ思想,批判,専門家)の有効性について検討する。 期待とは対照的に、高度なプロンプト技術は単純なゼロショットプロンプトよりも優れているとは限らない。 次に,LLMのモデル設定(トップ\_pおよび温度パラメータを含む)が生成した要約の品質に及ぼす影響について検討する。 要約品質に対する2つのパラメータの影響は,LLMとプログラミング言語によって異なるが,その影響は類似している。 さらに、異なるタイプのプログラミング言語でコードスニペットを要約するLLMの能力を活用できます。 その結果,LLMは他の言語と比較して,論理型言語で記述されたコードを要約する場合に準最適に動作することがわかった。 最後に, 7B パラメータを持つ CodeLlama-Instruct が,コード実装の詳細記述やコードプロパティのアサートにおいて,高度な GPT-4 よりも優れていることを発見した。 LLM時代のコード要約を包括的に理解できればと思っています。

To support software developers in understanding and maintaining programs, various automatic (source) code summarization techniques have been proposed to generate a concise natural language summary (i.e., comment) for a given code snippet. Recently, the emergence of large language models (LLMs) has led to a great boost in the performance of code-related tasks. In this paper, we undertake a systematic and comprehensive study on code summarization in the era of LLMs, which covers multiple aspects involved in the workflow of LLM-based code summarization. Specifically, we begin by examining prevalent automated evaluation methods for assessing the quality of summaries generated by LLMs and find that the results of the GPT-4 evaluation method are most closely aligned with human evaluation. Then, we explore the effectiveness of five prompting techniques (zero-shot, few-shot, chain-of-thought, critique, and expert) in adapting LLMs to code summarization tasks. Contrary to expectations, advanced prompting techniques may not outperform simple zero-shot prompting. Next, we investigate the impact of LLMs' model settings (including top\_p and temperature parameters) on the quality of generated summaries. We find the impact of the two parameters on summary quality varies by the base LLM and programming language, but their impacts are similar. Moreover, we canvass LLMs' abilities to summarize code snippets in distinct types of programming languages. The results reveal that LLMs perform suboptimally when summarizing code written in logic programming languages compared to other language types. Finally, we unexpectedly find that CodeLlama-Instruct with 7B parameters can outperform advanced GPT-4 in generating summaries describing code implementation details and asserting code properties. We hope that our findings can provide a comprehensive understanding of code summarization in the era of LLMs.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-09
# SpiralShard:Linked Cross-Shardによる高並列かつセキュアなブロックチェーンシャーディング

SpiralShard: Highly Concurrent and Secure Blockchain Sharding via Linked Cross-shard Endorsement ( http://arxiv.org/abs/2407.08651v1 )

ライセンス: Link先を確認
You Lin, Mingzhe Li, Jin Zhang, (参考訳) ブロックチェーンシャーディングは、ブロックチェーン状態、ノード、トランザクションワークロード全体をさまざまなシャードに分割することで、ブロックチェーンシステムのスケーラビリティを向上させる。 しかし、既存のブロックチェーンシャーディングシステムは一般的に少数のシャードに悩まされ、結果として並行性が制限される。 主な理由は、セキュリティを確保するために既存のシャーディングシステムが大きなシャーディングサイズを必要とするためである。 ブロックチェーンシャーディングの並列性を確実に向上するために、SpralShardを提案する。 その直感は、より少数の悪意のあるノード(すなわち、破損したシャード)を持つシャードの存在を許容し、シャードのサイズを減らすことである。 SpiralShardは、同じネットワークサイズで高い並行性を実現するために、より小さなシャードを設定することができる。 破損したシャードの存在に対するセキュリティを確保するため,Linked Cross-Shard Endorsement (LCE)プロトコルを提案する。 LCEプロトコルによると、各シャードのブロックは、確定する前に一連のシャードによってシーケンシャルに検証され、支持される。 その結果、破損したシャードは、他のシャードの助けを借りてフォークを除去することができる。 我々は、Harmonyに基づくSpralShardを実装し、広範囲な評価を行う。 実験の結果、Harmonyと比較して、SpralShardは4000以上のノードを持つ大規模なネットワークサイズで、約19倍のスループット向上を達成した。

Blockchain sharding improves the scalability of blockchain systems by partitioning the whole blockchain state, nodes, and transaction workloads into different shards. However, existing blockchain sharding systems generally suffer from a small number of shards, resulting in limited concurrency. The main reason is that existing sharding systems require large shard sizes to ensure security. To enhance the concurrency of blockchain sharding securely, we propose SpiralShard. The intuition is to allow the existence of some shards with a larger fraction of malicious nodes (i.e., corrupted shards), thus reducing shard sizes. SpiralShard can configure more and smaller shards for higher concurrency at the same network size. To ensure security with the existence of corrupted shards, we propose the Linked Cross-shard Endorsement (LCE) protocol. According to our LCE protocol, the blocks of each shard are sequentially verified and endorsed by a group of shards before being finalized. As a result, a corrupted shard can eliminate forks with the help of the other shards. We implement SpiralShard based on Harmony and conduct extensive evaluations. Experimental results show that, compared with Harmony, SpiralShard achieves around 19x throughput gain under a large network size with 4,000+ nodes.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-09
# ライドハイリングシステムにおけるマルチタスク学習エキスパートの時空間混合のゲーテッドアンサンブル

Gated Ensemble of Spatio-temporal Mixture of Experts for Multi-task Learning in Ride-hailing System ( http://arxiv.org/abs/2012.15408v4 )

ライセンス: Link先を確認
M. H. Rahman, S. M. Rifaat, S. N. Sadeek, M. Abrar, D. Wang, (参考訳) タスク・ワイド・シティ・ワイドで個別に時空間予測モデルを設計することは、拡大する輸送ネットワーク企業にとって重荷となる。 そこで本研究では,各都市における時空間タスクを同時に予測するための,専門家ネットワーク(GESME-Net)と畳み込みリカレントニューラルネットワーク(CRNN),畳み込みニューラルネット(CNN),およびリカレントニューラルネットワーク(RNN)を併用した,時空間ネットワーク(GESME-Net)のゲートアンサンブルを開発することにより,マルチタスク学習アーキテクチャを提案する。 さらに、タスク適応層をマルチタスク学習における共同表現学習のアーキテクチャに統合し、予測に使用する入力特徴の寄与を明らかにする。 提案されたアーキテクチャは、Didi Chuxingのデータでテストされている。 一 北京の需要と需給ギャップを同時に予測すること (二)Chengdu、Xianの需要を同時に予測する。 どちらのシナリオでも、提案したアーキテクチャのモデルは、シングルタスクとマルチタスクのディープラーニングベンチマークとアンサンブルベースの機械学習アルゴリズムよりも優れています。

Designing spatio-temporal forecasting models separately in a task-wise and city-wise manner poses a burden for the expanding transportation network companies. Therefore, a multi-task learning architecture is proposed in this study by developing gated ensemble of spatio-temporal mixture of experts network (GESME-Net) with convolutional recurrent neural network (CRNN), convolutional neural network (CNN), and recurrent neural network (RNN) for simultaneously forecasting spatio-temporal tasks in a city as well as across different cities. Furthermore, a task adaptation layer is integrated with the architecture for learning joint representation in multi-task learning and revealing the contribution of the input features utilized in prediction. The proposed architecture is tested with data from Didi Chuxing for: (i) simultaneously forecasting demand and supply-demand gap in Beijing, and (ii) simultaneously forecasting demand across Chengdu and Xian. In both scenarios, models from our proposed architecture outperformed the single-task and multi-task deep learning benchmarks and ensemble-based machine learning algorithms.
翻訳日:2024-07-11 22:45:35 公開日:2024-07-09
# 適応レーダ処理と畳み込みニューラルネットワークを用いたデータ駆動型ターゲットローカライゼーション

Data-Driven Target Localization Using Adaptive Radar Processing and Convolutional Neural Networks ( http://arxiv.org/abs/2209.02890v6 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh, (参考訳) 本稿では、適応レーダ処理に特化して設計された現代無線周波数モデリング・シミュレーションツールの高度な機能を活用し、適応レーダ検出後のレーダターゲット位置決め精度を向上させるためのデータ駆動方式を提案する。 この目的のために、RFView(高忠実でサイト固有のRFモデリングとシミュレーションツール)を用いて、予め定義された領域に可変強度のターゲットをランダムに配置することで、多数のレーダリターンを生成する。 我々は、正規化適応整合フィルタ(NAMF)のレーダリターン、範囲、方位(およびドップラー)から熱マップテンソルを生成する。 次に、これらの熱マップテンソルから目標位置を推定するために回帰畳み込みニューラルネットワーク(CNN)を訓練し、この手法の目標位置をピークフィンディング法と局所探索法と比較する。 この実験により,我々の回帰CNNは目標位置推定精度を大幅に向上することが示された。 回帰CNNは、NAMFの分解しきい値SCNRに近いSCNR(Signal-to-clutter-plus-noise ratio)レジームにおいても、顕著な利得と妥当な精度を提供する。 また、トレーニングされていない領域から収集したヒートマップテンソルでCNNを試験するレーダーデータにミスマッチするように、トレーニングされたCNNの堅牢性についても検討する。 我々のCNNは、比較的少数の新しいトレーニングサンプルを使用して、数ショットの学習によってレーダーデータのミスマッチを堅牢にできることを示す。

Leveraging the advanced functionalities of modern radio frequency (RF) modeling and simulation tools, specifically designed for adaptive radar processing applications, this paper presents a data-driven approach to improve accuracy in radar target localization post adaptive radar detection. To this end, we generate a large number of radar returns by randomly placing targets of variable strengths in a predefined area, using RFView, a high-fidelity, site-specific, RF modeling & simulation tool. We produce heatmap tensors from the radar returns, in range, azimuth [and Doppler], of the normalized adaptive matched filter (NAMF) test statistic. We then train a regression convolutional neural network (CNN) to estimate target locations from these heatmap tensors, and we compare the target localization accuracy of this approach with that of peak-finding and local search methods. This empirical study shows that our regression CNN achieves a considerable improvement in target location estimation accuracy. The regression CNN offers significant gains and reasonable accuracy even at signal-to-clutter-plus-noise ratio (SCNR) regimes that are close to the breakdown threshold SCNR of the NAMF. We also study the robustness of our trained CNN to mismatches in the radar data, where the CNN is tested on heatmap tensors collected from areas that it was not trained on. We show that our CNN can be made robust to mismatches in the radar data through few-shot learning, using a relatively small number of new training samples.
翻訳日:2024-07-11 22:39:21 公開日:2024-07-09
# 非コヒーレントオーバーザエア分散グラディエント染料

Non-Coherent Over-the-Air Decentralized Gradient Descent ( http://arxiv.org/abs/2211.10777v3 )

ライセンス: Link先を確認
Nicolo' Michelusi, (参考訳) 無線システムにおけるDGDの実装は、ノイズ、フェーディング、帯域幅の制限、トポロジ認識、送信スケジューリング、干渉を緩和し信頼性の高い通信を維持するためにチャネル状態情報(CSI)の取得を必要とするため、困難である。 これらの操作は、中央調整が欠如している大規模ネットワークにおいて、オーバヘッドとスケーラビリティの重大なシグナリングをもたらす可能性がある。 本稿では、スケジューリング、トポロジ情報、CSI(平均と瞬時の両方)の必要性を解消するスケーラブルなDGDアルゴリズムを提案する。 中心となるのは、無線チャネルのノイズの多いエネルギー重畳特性を利用する非コヒーレントオーバー・ザ・エア(NCOTA)コンセンサススキームである。 ノードはローカル最適化信号をOFDMフレーム内のエネルギーレベルにエンコードし、調整することなく同時に送信する。 重要な洞察は、受信したエネルギーが平均的に、それぞれの平均チャネルゲインによってスケールされた送信信号のエネルギーの合計と、コンセンサスステップと等しいことである。 この特性は、平均チャネルゲインを混合重みとして利用し、明示的な設計やCSIの必要性を排除し、バイアスのないコンセンサス推定を可能にする。 コンセンサスのステップ化の導入は、期待値の周りのエネルギー変動によるコンセンサス推定誤差を緩和する。 強凸問題に対しては、局所的な最適モデルと大域的な最適モデルの間の期待される2乗距離が$\mathcal O(1/\sqrt{k})$の繰り返しの後に消失し、学習とコンセンサスを適切に減少させる。 拡張は幅広い種類のフェージングモデルと周波数選択チャネルに対応している。 画像分類に関する数値実験は、特に高密度ネットワークシナリオにおいて、最先端のスキームと比較して、実行時間での収束が速いことを示す。

Implementing Decentralized Gradient Descent (DGD) in wireless systems is challenging due to noise, fading, and limited bandwidth, necessitating topology awareness, transmission scheduling, and the acquisition of channel state information (CSI) to mitigate interference and maintain reliable communications. These operations may result in substantial signaling overhead and scalability challenges in large networks lacking central coordination. This paper introduces a scalable DGD algorithm that eliminates the need for scheduling, topology information, or CSI (both average and instantaneous). At its core is a Non-Coherent Over-The-Air (NCOTA) consensus scheme that exploits a noisy energy superposition property of wireless channels. Nodes encode their local optimization signals into energy levels within an OFDM frame and transmit simultaneously, without coordination. The key insight is that the received energy equals, on average, the sum of the energies of the transmitted signals, scaled by their respective average channel gains, akin to a consensus step. This property enables unbiased consensus estimation, utilizing average channel gains as mixing weights, thereby removing the need for their explicit design or for CSI. Introducing a consensus stepsize mitigates consensus estimation errors due to energy fluctuations around their expected values. For strongly-convex problems, it is shown that the expected squared distance between the local and globally optimum models vanishes at a rate of $\mathcal O(1/\sqrt{k})$ after $k$ iterations, with suitable decreasing learning and consensus stepsizes. Extensions accommodate a broad class of fading models and frequency-selective channels. Numerical experiments on image classification demonstrate faster convergence in terms of running time compared to state-of-the-art schemes, especially in dense network scenarios.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-09
# 絶対軌道誤差って何が悪いの?

What's Wrong with the Absolute Trajectory Error? ( http://arxiv.org/abs/2212.05376v4 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, (参考訳) 一般的に使用される絶対軌道誤差(ATE)の限界の一つは、異常値に非常に敏感であることである。 結果として、わずか数個のアウトレーヤが存在する場合、インレーヤ軌道誤差やアウトレーヤの数が異なるため、精度の変化を反映しないことが多い。 本研究では,再構成されたカメラ軌跡の精度を評価するための代替誤差指標を提案する。 筆者らの測度はDTE (Disnalible Trajectory Error) と命名され,(1) 基底軌道と推定軌道をシフトし,両者の幾何的中央値が起点となるように計算した。 2)対応するカメラ配向間の測地距離の和を最小限に抑えるように推定軌道を回転させる。 (3) カメラの中央値から幾何学的中央値までの距離が地上の真理と同じであるような推定軌道をスケールする。 (4)コンピュータは、対応するカメラ間の距離をウィンソライズし、正規化する。 (5) 平均距離と結果距離の根平均二乗(RMS)の値を取ることによりDTEを得る。 この計量は ATE の代用として魅力的であり、不整形軌道誤差や外れ値の数によって異なる軌跡の精度を識別できる。 同様の考え方を用いて、DTEに類似した長所を持つDRE(Disdisernible Rotation Error)という新しい回転誤差指標を提案する。 さらに,計測値の計算に必要となる,カメラとマーカーの回転を校正するための簡易かつ効果的な手法を提案する。 我々の手法は広範囲なシミュレーションによって検証される。

One of the limitations of the commonly used Absolute Trajectory Error (ATE) is that it is highly sensitive to outliers. As a result, in the presence of just a few outliers, it often fails to reflect the varying accuracy as the inlier trajectory error or the number of outliers varies. In this work, we propose an alternative error metric for evaluating the accuracy of the reconstructed camera trajectory. Our metric, named Discernible Trajectory Error (DTE), is computed in five steps: (1) Shift the ground-truth and estimated trajectories such that both of their geometric medians are located at the origin. (2) Rotate the estimated trajectory such that it minimizes the sum of geodesic distances between the corresponding camera orientations. (3) Scale the estimated trajectory such that the median distance of the cameras to their geometric median is the same as that of the ground truth. (4) Compute, winsorize and normalize the distances between the corresponding cameras. (5) Obtain the DTE by taking the average of the mean and the root-mean-square (RMS) of the resulting distances. This metric is an attractive alternative to the ATE, in that it is capable of discerning the varying trajectory accuracy as the inlier trajectory error or the number of outliers varies. Using the similar idea, we also propose a novel rotation error metric, named Discernible Rotation Error (DRE), which has similar advantages to the DTE. Furthermore, we propose a simple yet effective method for calibrating the camera-to-marker rotation, which is needed for the computation of our metrics. Our methods are verified through extensive simulations.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-09
# 宇宙形態の主成分分析

Principal Component Analysis in Space Forms ( http://arxiv.org/abs/2301.02750v2 )

ライセンス: Link先を確認
Puoya Tabaghi, Michael Khanzadeh, Yusu Wang, Sivash Mirarab, (参考訳) 主成分分析(英: principal Component Analysis、PCA)は、現代のデータ科学の研究分野である。 PCAは、データがユークリッド幾何学に準拠していると仮定するが、階層データ構造や巡回データ構造のような特定のデータ型については、他の空間の方がより適切である。 我々は空間形式、すなわち一定の曲率を持つ空間でPCAを研究する。 リーマン多様体上のある点において、接ベクトルの集合に基づいてリーマンアフィン部分空間を定義することができる。 空間形式における与えられた点に対する最適の低次元アフィン部分空間を見つけることは次元減少に等しい。 我々の空間形式PCA (SFPCA) は、最小射影コストの多様体値点の集合を最もよく表すアフィン部分空間を求める。 最適アフィン部分空間は等式への解であり、(2)異なる次元の最適アフィン部分空間はネスト集合を形成する。 これらの性質は、ほとんどの場合、収束が遅く、理論的な保証が弱い反復アルゴリズムである既存の手法よりも進歩する。 球面および双曲空間における実データおよび模擬データに対して提案したSFPCAを評価する。 この手法は、収束速度や精度に関して真の部分空間(シミュレーションデータ)を推定する際の代替手法よりも優れていることを示す。

Principal Component Analysis (PCA) is a workhorse of modern data science. While PCA assumes the data conforms to Euclidean geometry, for specific data types, such as hierarchical and cyclic data structures, other spaces are more appropriate. We study PCA in space forms; that is, those with constant curvatures. At a point on a Riemannian manifold, we can define a Riemannian affine subspace based on a set of tangent vectors. Finding the optimal low-dimensional affine subspace for given points in a space form amounts to dimensionality reduction. Our Space Form PCA (SFPCA) seeks the affine subspace that best represents a set of manifold-valued points with the minimum projection cost. We propose proper cost functions that enjoy two properties: (1) their optimal affine subspace is the solution to an eigenequation, and (2) optimal affine subspaces of different dimensions form a nested set. These properties provide advances over existing methods, which are mostly iterative algorithms with slow convergence and weaker theoretical guarantees. We evaluate the proposed SFPCA on real and simulated data in spherical and hyperbolic spaces. We show that it outperforms alternative methods in estimating true subspaces (in simulated data) with respect to convergence speed or accuracy, often both.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-09
# ConGraT: 共同グラフとテキスト埋め込みのための自己監督型コントラスト事前学習

ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings ( http://arxiv.org/abs/2305.14321v2 )

ライセンス: Link先を確認
William Brannon, Wonjune Kang, Suyash Fulay, Hang Jiang, Brandon Roy, Deb Roy, Jad Kabbara, (参考訳) ノードが1つ以上のテキストに関連付けられているテキスト分散グラフ(TAG)での学習は、非常に最近の研究の対象となっている。 しかし、ほとんどのアプローチは、関心の下流のタスクについて強い仮定をし、手書きのデータに依存しているか、テキストとグラフの表現の重要性を等しくバランスが取れない傾向にある。 本研究では,TAGにおけるテキストとノードの分離表現を共同で学習するための汎用的自己教師型アプローチであるContrastive Graph-Text Pretraining(ConGraT)を提案する。 提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。 さらに,ノード間の類似性に関する情報を取り込むためにグラフ構造を利用するCLIPの目的の拡張を提案する。 大規模な実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインを上回ります。 最後に,本手法のソーシャルグラフにおけるコミュニティ検出への応用について述べる。 コードと特定のデータセットはhttps://github.com/wwbrannon/congrat.comで入手できる。

Learning on text-attributed graphs (TAGs), in which nodes are associated with one or more texts, has been the subject of much recent work. However, most approaches tend to make strong assumptions about the downstream task of interest, are reliant on hand-labeled data, or fail to equally balance the importance of both text and graph representations. In this work, we propose Contrastive Graph-Text pretraining (ConGraT), a general, self-supervised approach for jointly learning separate representations of texts and nodes in a TAG. Our method trains a language model (LM) and a graph neural network (GNN) to align their representations in a common latent space using a batch-wise contrastive learning objective inspired by CLIP. We further propose an extension to the CLIP objective that leverages graph structure to incorporate information about inter-node similarity. Extensive experiments demonstrate that ConGraT outperforms baselines on various downstream tasks, including node and text category classification, link prediction, and language modeling. Finally, we present an application of our method to community detection in social graphs, which enables finding more textually grounded communities, rather than purely graph-based ones. Code and certain datasets are available at https://github.com/wwbrannon/congrat.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-09
# CHOP: 恥ずかしいほどシンプルなLCM圧縮

Just CHOP: Embarrassingly Simple LLM Compression ( http://arxiv.org/abs/2305.14864v3 )

ライセンス: Link先を確認
Ananya Harsh Jha, Tom Sherborne, Evan Pete Walsh, Dirk Groeneveld, Emma Strubell, Iz Beltagy, (参考訳) LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。 圧縮の方法の多様化は, 展開におけるLLMの計算負担を軽減することを約束するが, これまでのところ, ゼロショット性能を維持しつつも, LLM圧縮に有効な量子化手法のみが実証されている。 圧縮プロセスにおける重要なステップであるpretrain-then-finetuneパラダイムは、既存のプルーニング戦略をLSMに適用したり、新しい手法を提案する際に、ほとんど見落とされた。 本研究では, より推論効率のよい7Bスケールのモデルに対して, 微細化相として事前学習した拡張言語モデルに, 恥ずかしいほど単純なレイヤプルーニングが組み合わさった結果をもたらすことを示す。 この手法をLayerChopと呼び、モデルから層を決定論的に取り除き、継続した自己教師付き事前訓練によって残りの重みをタスク非依存で微調整する。 このスケールでは,より小型のBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純なプルーニング技術に対して非効率になることを示す。

Large language models (LLMs) enable unparalleled few- and zero-shot reasoning capabilities but at a high computational footprint. A growing assortment of methods for compression promises to reduce the computational burden of LLMs in deployment, but so far, only quantization approaches have been demonstrated to be effective for LLM compression while maintaining zero-shot performance. A critical step in the compression process, the pretrain-then-finetune paradigm, has largely been overlooked when adapting existing pruning strategies to LLMs or proposing new ones. In this work, we show that embarrassingly simple layer pruning coupled with an extended language model pretraining as the finetuning phase produces state-of-the-art results against structured and even semi-structured compression of models at a 7B scale while being more inference efficient. We call this method LayerChop, where we deterministically remove layers from a model followed by task-agnostic finetuning of the remaining weights by continued self-supervised pretraining. At this scale, we also show how distillation, which has been super effective in task-agnostic compression of smaller BERT-style models, becomes inefficient against our simple pruning technique.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-09
# 2次元骨格列の調整と多モード融合による学習

Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion ( http://arxiv.org/abs/2305.19480v6 )

ライセンス: Link先を確認
Quoc-Huy Tran, Muhammad Ahmed, Murad Popattia, M. Hassan Ahmed, Andrey Konin, M. Zeeshan Zia, (参考訳) 本稿では,人的活動理解の微粒化に有用な自己監督型時間的ビデオアライメントフレームワークを提案する。 CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。 時間領域のみに自己アテンションを行うCASAとは異なり、時間領域と時間領域の両方で自己アテンションを行うビデオトランスフォーマーに2次元スケルトンヒートマップを供給し、効果的な時空間的特徴と文脈的特徴を抽出する。 さらに,本研究では,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。 3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。 さらに、Penn Action、IKEA ASM、H2Oの3つの公開データセットに対する広範囲な評価により、我々のアプローチは、異なるきめ細かな人間の活動理解タスクにおいて、従来の手法よりも優れていることを示した。 最後に、RGBビデオと2Dスケルトンヒートマップを融合すると、すべてのメトリクスとデータセットが最先端になる。 我々の知る限り、我々の研究は初めて2Dスケルトン熱マップ入力を利用し、時間的ビデオアライメントのための多モード融合を初めて探求した。

This paper presents a self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Unlike CASA which performs self-attention in the temporal domain only, we feed 2D skeleton heatmaps to a video transformer which performs self-attention both in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Furthermore, extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks. Finally, fusing 2D skeleton heatmaps with RGB videos yields the state-of-the-art on all metrics and datasets. To our best knowledge, our work is the first to utilize 2D skeleton heatmap inputs and the first to explore multi-modality fusion for temporal video alignment.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-09
# 制御変数を用いたスケーラブルなニューラルシンボリック回帰

Scalable Neural Symbolic Regression using Control Variables ( http://arxiv.org/abs/2306.04718v2 )

ライセンス: Link先を確認
Xieting Chu, Hongjue Zhao, Enze Xu, Hairong Qi, Minghan Chen, Huajie Shao, (参考訳) シンボリック回帰(SR)は、データから解析数学的表現を発見するための強力な手法であり、結果の良好な解釈可能性から自然科学の様々な応用を見出す。 しかし、既存の手法は、複数の変数を含む複雑な方程式を扱う際にスケーラビリティの問題に直面している。 この課題に対処するために,制御変数を活用するスケーラブルなシンボリック回帰モデルであるScaleSRを提案し,精度とスケーラビリティを両立させる。 中心となる考え方は、多変数のシンボリック回帰を単変数のSR問題の集合に分解し、ボトムアップ的に組み合わせることである。 提案手法は4段階のプロセスを含む。 まず、ディープニューラルネットワーク(DNN)を用いて観測データからデータジェネレータを学習する。 次に、データジェネレータを使用して、入力変数を制御することで、特定の変数のサンプルを生成する。 第三に、対応する数学的表現を推定するために、単変数の記号回帰を適用する。 最後に、段階 2 と 3 を、段階的に変数を一つずつ加えることで、完了まで繰り返す。 複数のベンチマークデータセットを用いて,本手法の性能評価を行った。 実験結果から,複数の変数を持つ数学的表現の発見において,提案した ScaleSR は最先端のベースラインを著しく上回ることがわかった。 さらに、シンボリック回帰のための探索空間を大幅に削減することができる。 ソースコードは公開時に公開される。

Symbolic regression (SR) is a powerful technique for discovering the analytical mathematical expression from data, finding various applications in natural sciences due to its good interpretability of results. However, existing methods face scalability issues when dealing with complex equations involving multiple variables. To address this challenge, we propose ScaleSR, a scalable symbolic regression model that leverages control variables to enhance both accuracy and scalability. The core idea is to decompose multi-variable symbolic regression into a set of single-variable SR problems, which are then combined in a bottom-up manner. The proposed method involves a four-step process. First, we learn a data generator from observed data using deep neural networks (DNNs). Second, the data generator is used to generate samples for a certain variable by controlling the input variables. Thirdly, single-variable symbolic regression is applied to estimate the corresponding mathematical expression. Lastly, we repeat steps 2 and 3 by gradually adding variables one by one until completion. We evaluate the performance of our method on multiple benchmark datasets. Experimental results demonstrate that the proposed ScaleSR significantly outperforms state-of-the-art baselines in discovering mathematical expressions with multiple variables. Moreover, it can substantially reduce the search space for symbolic regression. The source code will be made publicly available upon publication.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-09
# (安全)大規模言語モデルによる引用

(Security) Assertions by Large Language Models ( http://arxiv.org/abs/2306.14027v2 )

ライセンス: Link先を確認
Rahul Kande, Hammond Pearce, Benjamin Tan, Brendan Dolan-Gavitt, Shailja Thakur, Ramesh Karri, Jeyavijayan Rajendran, (参考訳) コンピュータシステムのセキュリティは通常、ハードウェアの信頼基盤に依存している。 ハードウェアの脆弱性はシステムに深刻な影響を及ぼす可能性があるため、セキュリティ検証活動をサポートする技術が必要である。 アクセレーションベースの検証は、正式な検証やテストベースのチェックで使用できる一連のアサーションで設計意図をキャプチャする一般的な検証テクニックである。 しかし、セキュリティ中心のアサーションを書くことは難しい課題です。 本研究では,セキュリティのためのハードウェアアサーション生成におけるコード生成における,新たな大規模言語モデル(LLM)の利用について検討する。 我々は、人気のあるLCMに注目し、プロンプトの様々なレベルの詳細を考慮し、アサーションを箱から書き出す能力を特徴付ける。 我々は,様々なプロンプトを生成する評価フレームワークを設計し,実世界のハードウェア設計とLLMで生成したい黄金の基準アサーションからなるベンチマークスイートを作成する。

The security of computer systems typically relies on a hardware root of trust. As vulnerabilities in hardware can have severe implications on a system, there is a need for techniques to support security verification activities. Assertion-based verification is a popular verification technique that involves capturing design intent in a set of assertions that can be used in formal verification or testing-based checking. However, writing security-centric assertions is a challenging task. In this work, we investigate the use of emerging large language models (LLMs) for code generation in hardware assertion generation for security, where primarily natural language prompts, such as those one would see as code comments in assertion files, are used to produce SystemVerilog assertions. We focus our attention on a popular LLM and characterize its ability to write assertions out of the box, given varying levels of detail in the prompt. We design an evaluation framework that generates a variety of prompts, and we create a benchmark suite comprising real-world hardware designs and corresponding golden reference assertions that we want to generate with the LLM.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-09
# オートフォーマライゼーションに向けた新しいアプローチ

A New Approach Towards Autoformalization ( http://arxiv.org/abs/2310.07957v3 )

ライセンス: Link先を確認
Nilay Patel, Rahul Saha, Jeffrey Flanigan, (参考訳) 数学的証明の検証は難しいが、コンピュータの助けを借りて自動化することができる。 オートフォーマル化(Autoformalization)は、自然言語をプログラムで検証可能な形式言語に自動翻訳するタスクである。 これは難しい課題であり、特に研究論文に見られる高次数学にとっては特に重要である。 研究論文数学は大量の背景と文脈を必要とする。 本稿では,非リンク形式化(リンクのない定義と定理の形式化),エンティティリンク(適切な定理と定義のリンク),そして最後に型を調整して型チェッカーを通過させることにより,研究レベルの数学における自己形式化に取り組む方法を提案する。 また、arXiv2Formalは、arXiv.orgの論文からサンプリングされたLean定理証明器のために形式化された50の定理からなる非リンク形式化のためのベンチマークデータセットである。 このデータセットの将来バージョンへのコミュニティからのコントリビューションを歓迎します。

Verifying mathematical proofs is difficult, but can be automated with the assistance of a computer. Autoformalization is the task of automatically translating natural language mathematics into a formal language that can be verified by a program. This is a challenging task, and especially for higher-level mathematics found in research papers. Research paper mathematics requires large amounts of background and context. In this paper, we propose an avenue towards tackling autoformalization for research-level mathematics, by breaking the task into easier and more approachable subtasks: unlinked formalization (formalization with unlinked definitions and theorems), entity linking (linking to the proper theorems and definitions), and finally adjusting types so it passes the type checker. In addition, we present arXiv2Formal, a benchmark dataset for unlinked formalization consisting of 50 theorems formalized for the Lean theorem prover sampled from papers on arXiv.org. We welcome any contributions from the community to future versions of this dataset.
翻訳日:2024-07-11 22:09:31 公開日:2024-07-09
# 複合ラテント宇宙ベイズ最適化

Joint Composite Latent Space Bayesian Optimization ( http://arxiv.org/abs/2311.02213v2 )

ライセンス: Link先を確認
Natalie Maus, Zhiyuan Jerry Lin, Maximilian Balandat, Eytan Bakshy, (参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、確率モデルを用いて予測可能な入力位置を推定する、サンプリング効率の良いブラックボックス最適化手法である。 f=g o h のような複合構造関数を扱うとき、特定の位置 x を評価すると、最終的な結果 f(x) = g(h(x)) と中間出力 h(x) の両方の観測結果が得られる。 従来の研究では、これらの中間出力からの情報の統合によりBO性能が大幅に向上することが示されている。 しかし、出力 h(x) が高次元である場合、既存の手法は困難である。 多くの関連する問題は、生成AI、分子設計、ロボット工学など、この設定に該当する。 これらの課題を効果的に解決するために,ニューラルネットワークエンコーダと確率モデルを協調的にトレーニングし,高次元入力空間と出力空間を適応的に制御可能な潜在表現に変換するJoCo(JoCo)を提案する。 これにより、圧縮された表現上で実行可能なBOが可能となり、JoCoは様々なシミュレートされた実世界の問題において、高次元BOにおける他の最先端の方法よりも優れている。

Bayesian Optimization (BO) is a technique for sample-efficient black-box optimization that employs probabilistic models to identify promising input locations for evaluation. When dealing with composite-structured functions, such as f=g o h, evaluating a specific location x yields observations of both the final outcome f(x) = g(h(x)) as well as the intermediate output(s) h(x). Previous research has shown that integrating information from these intermediate outputs can enhance BO performance substantially. However, existing methods struggle if the outputs h(x) are high-dimensional. Many relevant problems fall into this setting, including in the context of generative AI, molecular design, or robotics. To effectively tackle these challenges, we introduce Joint Composite Latent Space Bayesian Optimization (JoCo), a novel framework that jointly trains neural network encoders and probabilistic models to adaptively compress high-dimensional input and output spaces into manageable latent representations. This enables viable BO on these compressed representations, allowing JoCo to outperform other state-of-the-art methods in high-dimensional BO on a wide variety of simulated and real-world problems.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-09
# 基本機構とAIアルゴリズムをリンクする循環経路:アモルファスネットワークにおけるポアソン比の調整例

A cyclical route linking fundamental mechanism and AI algorithm: An example from tuning Poisson's ratio in amorphous networks ( http://arxiv.org/abs/2312.03404v3 )

ライセンス: Link先を確認
Changliang Zhu, Chenchao Fang, Zhipeng Jin, Baowen Li, Xiangying Shen, Lei Xu, (参考訳) 「科学のためのAI」は科学研究の発展の今後の動向として広く認識されている。 現在、機械学習アルゴリズムは多くの成功事例で科学研究において重要な役割を担っているが、AIが特定の現象の背後にある物理的なメカニズムを明らかにするのを補助し、その後機械学習アルゴリズムの効率を改善するためにそのメカニズムを使用するというケースは比較的少ない。 本稿では, 極端なポアソン比値とアモルファスネットワークの構造との関係を事例研究として, 機械学習手法が基礎となる物理メカニズムを明らかにするのにどのように役立つかを説明する。 ポアソンの比が動的行列の低周波振動モードに依存していることを認識すると、従来の画像認識の代わりに動的行列で訓練された畳み込みニューラルネットワークを用いて、ポアソンの非晶質ネットワークの比をはるかに高い効率で予測することができる。 この例を通して,人工知能が基本的な物理メカニズムを明らかにする上で果たす役割を明らかにすることを目的として,機械学習アルゴリズムを大幅に改善する。

"AI for science" is widely recognized as a future trend in the development of scientific research. Currently, although machine learning algorithms have played a crucial role in scientific research with numerous successful cases, relatively few instances exist where AI assists researchers in uncovering the underlying physical mechanisms behind a certain phenomenon and subsequently using that mechanism to improve machine learning algorithms' efficiency. This article uses the investigation into the relationship between extreme Poisson's ratio values and the structure of amorphous networks as a case study to illustrate how machine learning methods can assist in revealing underlying physical mechanisms. Upon recognizing that the Poisson's ratio relies on the low-frequency vibrational modes of dynamical matrix, we can then employ a convolutional neural network, trained on the dynamical matrix instead of traditional image recognition, to predict the Poisson's ratio of amorphous networks with a much higher efficiency. Through this example, we aim to showcase the role that artificial intelligence can play in revealing fundamental physical mechanisms, which subsequently improves the machine learning algorithms significantly.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-09
# 信頼できないこと:言語モデルが不確実性表現に与える影響

Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty ( http://arxiv.org/abs/2401.06730v2 )

ライセンス: Link先を確認
Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Maarten Sap, (参考訳) 自然言語が人間-AIインタラクションのデフォルトインターフェースになるにつれて、下流アプリケーションで不確実性を適切に伝達するためのLMが必要である。 本研究では,LMが自然言語による応答の信頼度をどのように取り入れているか,および,LMによる不確実性に応答して下流ユーザがどのように振る舞うかを検討する。 一般に展開されたモデルについて検討し,不適切な応答を発生しても疑問に答える場合,LMは不確実性を表現することに消極的であることを示す。 LMは明示的に信頼を表現するよう促すことができるが、自信過剰な傾向があり、自信のある反応の中で高いエラー率(平均47%)をもたらす。 我々は、人間の実験を行うことで、LM過信のリスクを検証し、ユーザが確実にマークされているかどうかに関わらず、LM世代に大きく依存していることを示します。 最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。 我々の研究は、人間とLMの相互作用に直面する新たな安全性の害を強調し、今後の設計勧告と緩和戦略を提案する。

As natural language becomes the default interface for human-AI interaction, there is a need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how LMs incorporate confidence in responses via natural language and how downstream users behave in response to LM-articulated uncertainties. We examine publicly deployed models and find that LMs are reluctant to express uncertainties when answering questions even when they produce incorrect responses. LMs can be explicitly prompted to express confidences, but tend to be overconfident, resulting in high error rates (an average of 47%) among confident responses. We test the risks of LM overconfidence by conducting human experiments and show that users rely heavily on LM generations, whether or not they are marked by certainty. Lastly, we investigate the preference-annotated datasets used in post training alignment and find that humans are biased against texts with uncertainty. Our work highlights new safety harms facing human-LM interactions and proposes design recommendations and mitigating strategies moving forward.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-09
# YIG/Permalloy界面における反強磁性結合の起源の解明

Unraveling the origin of antiferromagnetic coupling at YIG/permalloy interface ( http://arxiv.org/abs/2402.14553v3 )

ライセンス: Link先を確認
Jiangchao Qian, Yi Li, Zhihao Jiang, Robert Busch, Hsu-Chih Ni, Tzu-Hsiang Lo, Axel Hoffmann, André Schleife, Jian-Min Zuo, (参考訳) イットリウム鉄ガーネット(YIG)とパーマロイ(Py)の原子準位における反強磁性(AFM)カップリングの構造と電子的起源について検討した。 強磁性共鳴(FMR)は、YIG/Py界面における反強磁性交換結合を示す表面イオンミリング法を用いて作製した試料に独自のハイブリッドモードを示す。 原子分解能走査透過電子顕微鏡 (STEM) を用いて, イオンミリングにより形成された四面体YIG表面のYIG/Py界面にAFMカップリングが存在することを確認した。 STEM測定は、界面AFMカップリングは酸素を介する超交換結合機構によって主に駆動され、密度汎関数理論(DFT)計算によりエネルギー的に有利であることが確認されたことを示唆している。 したがって,YIG/強磁性体ヘテロ構造における型磁気カップリング決定における界面原子構造の重要性を実験的および理論的に明らかにし,界面構造が表面イオンミリングによって実験的に調整可能であることを証明した。

We investigate the structural and electronic origin of antiferromagnetic (AFM) coupling in the Yttrium iron garnet (YIG) and permalloy (Py) bilayer system at the atomic level. Ferromagnetic Resonance (FMR) reveal unique hybrid modes in samples prepared with surface ion milling, indicative of antiferromagnetic exchange coupling at the YIG/Py interface. Using atomic resolution scanning transmission electron microscopy (STEM), we found that AFM coupling appears at the YIG/Py interface of the tetrahedral YIG surface formed with ion milling. The STEM measurements suggest that the interfacial AFM coupling is predominantly driven by an oxygen-mediated super-exchange coupling mechanism, which is confirmed by the density functional theory (DFT) calculations to be energetically favorable. Thus, the combined experimental and theoretical results reveal the critical role of interfacial atomic structure in determining the type magnetic coupling in a YIG/ferromagnet heterostructure, and prove that the interfacial structure can be experimentally tuned by surface ion-milling.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-09
# 地平線を越えてのさらなる解説

More Excitement Across the Horizon ( http://arxiv.org/abs/2402.14908v3 )

ライセンス: Link先を確認
María R. Preciado-Rivas, Manar Naeem, Robert B. Mann, Jorma Louko, (参考訳) アンルー・デウィット検出器(UDW)は、4次元シュワルツシルトブラックホールに放射状に落下し、ハートル・ホーキング状態またはウンルー状態に準備された質量のないスカラー場と線形に結合し、ブラックホールの地平線付近の遷移確率において局所的な極小値を示すことが最近示されている[K.K.Ng et al , New J. Phys. 24 (2022) 103018]。 我々は、UDW検出器がスピンレスBa\~nados-Teitelboim-Zanelli(BTZ)ブラックホールに放射状に落下する過程において、同様の現象が存在することを示した。 我々は、検出器のエネルギーギャップ、ブラックホールの質量、検出器の落下半径の関数として、広範な数値的な結果を与える。 この結果は、この効果が強固であり、他のブラックホールの時空における同様の効果の探索を動機付け、その効果の物理的起源の説明を求めることを示唆している。

An Unruh-DeWitt (UDW) detector falling radially into a four-dimensional Schwarzschild black hole, coupled linearly to a massless scalar field that has been prepared in the Hartle-Hawking or Unruh state, has recently been shown to exhibit a local extremum in its transition probability near the black hole horizon [K.K. Ng et al., New J. Phys. 24 (2022) 103018]. We show that a similar phenomenon is present in the transition rate of a UDW detector falling radially into a spinless Ba\~nados-Teitelboim-Zanelli (BTZ) black hole, with the scalar field prepared in the Hartle-Hawking state. We give extensive numerical results as a function of the detector's energy gap, the black hole's mass, and the detector's drop-off radius. Our results suggest that the effect is robust, motivating a search for a similar effect in other black hole spacetimes, and calling for an explanation of the physical origin of the effect.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-09
# セマンティックセグメンテーションのためのスワッピングアサインメントを用いた弱教師付き協調訓練

Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation ( http://arxiv.org/abs/2402.17891v2 )

ライセンス: Link先を確認
Xinyu Yang, Hossein Rahmani, Sue Black, Bryan M. Williams, (参考訳) クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。 不完全あるいは過剰なクラスアクティベーションのため、既存の研究はしばしばオフラインCAMの改良に頼り、追加のステージを導入したり、オフラインモジュールを提案する。 これにより、単一段階の手法の最適化が困難になり、一般化性が制限される。 本研究では,改良プロセスへの依存を軽減するため,観測されたCAMの不整合と誤りを低減することを目的とする。 我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。 提案手法は,スワッピングアサインメント (CoSA) を用いた協調学習であり,一方のサブネットワークが他方が生成するスワップアサインメントから学習するデュアルストリームフレームワークを利用する。 3つのテクニックを紹介します。 一 不確実な地域を罰するソフト複雑度に基づく規則化 二 信頼度閾値を動的に補正するためのしきい値探索方法、及び 三 共存問題に対処するための対照的な分離 CoSAは例外的な性能を示し、VOCとCOCOの検証データセットでそれぞれ76.2\%と51.0\%のmIoUを達成し、既存のベースラインをかなり上回っている。 特に、CoSAは、追加の監督対象を含む既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。 code is avilable at \url{https://github.com/youshyee/CoSA}

Class activation maps (CAMs) are commonly employed in weakly supervised semantic segmentation (WSSS) to produce pseudo-labels. Due to incomplete or excessive class activation, existing studies often resort to offline CAM refinement, introducing additional stages or proposing offline modules. This can cause optimization difficulties for single-stage methods and limit generalizability. In this study, we aim to reduce the observed CAM inconsistency and error to mitigate reliance on refinement processes. We propose an end-to-end WSSS model incorporating guided CAMs, wherein our segmentation model is trained while concurrently optimizing CAMs online. Our method, Co-training with Swapping Assignments (CoSA), leverages a dual-stream framework, where one sub-network learns from the swapped assignments generated by the other. We introduce three techniques: i) soft perplexity-based regularization to penalize uncertain regions; ii) a threshold-searching approach to dynamically revise the confidence threshold; and iii) contrastive separation to address the coexistence problem. CoSA demonstrates exceptional performance, achieving mIoU of 76.2\% and 51.0\% on VOC and COCO validation datasets, respectively, surpassing existing baselines by a substantial margin. Notably, CoSA is the first single-stage approach to outperform all existing multi-stage methods including those with additional supervision. Code is avilable at \url{https://github.com/youshyee/CoSA}.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-09
# 適度な入力次元を有するリークReLUネットワークにおけるベニグアオーバーフィッティング

Benign overfitting in leaky ReLU networks with moderate input dimension ( http://arxiv.org/abs/2403.06903v2 )

ライセンス: Link先を確認
Kedar Karhadkar, Erin George, Michael Murray, Guido Montúfar, Deanna Needell, (参考訳) 良性オーバーフィッティングの問題は、モデルがノイズの多いトレーニングデータに完全に適合し、いまだに一般化できるかどうかを問うものである。 二元分類タスクにおけるヒンジ損失を訓練した2層リークReLUネットワークにおけるベニグオーバーフィッティングについて検討した。 入力データを共通の信号とランダムノイズ成分の和に分解し、互いに直交する部分空間上に配置する。 特に、SNRが高い場合、良性オーバーフィッティングが発生し、逆に、SNRが低い場合、有害オーバーフィッティングが発生する。 我々は、良性および非良性オーバーフィッティングの両方を近似的マージン最大化特性とみなし、勾配降下(GD)によるヒンジ損失をトレーニングしたリークReLUネットワークが、この特性を満たすことを示す。 以前の作業とは対照的に、トレーニングデータをほぼ直交する必要はありません。 特に、入力次元$d$とトレーニングサンプルサイズ$n$の場合、事前の作業の結果は$d = \Omega(n^2 \log n)$であり、ここでは$d = \Omega\left(n\right)$のみである。

The problem of benign overfitting asks whether it is possible for a model to perfectly fit noisy training data and still generalize well. We study benign overfitting in two-layer leaky ReLU networks trained with the hinge loss on a binary classification task. We consider input data that can be decomposed into the sum of a common signal and a random noise component, that lie on subspaces orthogonal to one another. We characterize conditions on the signal to noise ratio (SNR) of the model parameters giving rise to benign versus non-benign (or harmful) overfitting: in particular, if the SNR is high then benign overfitting occurs, conversely if the SNR is low then harmful overfitting occurs. We attribute both benign and non-benign overfitting to an approximate margin maximization property and show that leaky ReLU networks trained on hinge loss with gradient descent (GD) satisfy this property. In contrast to prior work we do not require the training data to be nearly orthogonal. Notably, for input dimension $d$ and training sample size $n$, while results in prior work require $d = \Omega(n^2 \log n)$, here we require only $d = \Omega\left(n\right)$.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-09
# RASP: ファンデーションモデルによる物理環境構築のためのドローンによる再構成可能なアクチュレーションとセンシングプラットフォーム

RASP: A Drone-based Reconfigurable Actuation and Sensing Platform for Engaging Physical Environments with Foundation Models ( http://arxiv.org/abs/2403.12853v2 )

ライセンス: Link先を確認
Minghui Zhao, Junxi Xia, Kaiyuan Hou, Yanchen Liu, Stephen Xia, Xiaofan Jiang, (参考訳) 基礎モデルと大規模言語モデルは、テキストやデジタルメディアを生成するための人間的な理解と能力を示してきた。 しかし、デジタルドメインのような物理的な世界を自由に理解し、相互作用し、活性化できる基盤モデルは、実現されるには程遠い。 これは、次のようないくつかの課題による。 1) 搭載される静的デバイスやセンサの種類に制約されていること。 2 イベントは、しばしば大きな空間の一部に局所化され、 3) 完全なカバレッジを達成するためには、デバイスを密集してデプロイする必要がある。 RASPは、モジュラーで再構成可能なセンシングおよびアクチュエータプラットフォームで、オンボードセンサーとアクチュエータをわずか25ドル秒で自律的に交換し、単一のドローンがさまざまなタスクに迅速に適応できるようにする。 RASPがFMとLLMの多様なタスクを最大8,5 %以上の成功率で完了できるように、実際のスマートホームデプロイメントを通じてデモを行い、特定のセンサーやアクチュエータをオンザフライで特定の領域をターゲットにできるようにしました。

Foundation models and large language models have shown immense human-like understanding and capabilities for generating text and digital media. However, foundation models that can freely sense, interact, and actuate the physical world like in the digital domain is far from being realized. This is due to a number of challenges including: 1) being constrained to the types of static devices and sensors deployed, 2) events often being localized to one part of a large space, and 3) requiring dense and deployments of devices to achieve full coverage. As a critical step towards enabling foundation models to successfully and freely interact with the physical environment, we propose RASP, a modular and reconfigurable sensing and actuation platform that allows drones to autonomously swap onboard sensors and actuators in only $25$ seconds, allowing a single drone to quickly adapt to a diverse range of tasks. We demonstrate through real smart home deployments that RASP enables FMs and LLMs to complete diverse tasks up to $85\%$ more successfully by allowing them to target specific areas with specific sensors and actuators on-the-fly.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-09
# 介護ロボットの危険な状況を避けるための人間の意図

Guessing human intentions to avoid dangerous situations in caregiving robots ( http://arxiv.org/abs/2403.16291v3 )

ライセンス: Link先を確認
Noé Zapata, Gerardo Pérez, Lucas Bonilla, Pedro Núñez, Pilar Bachiller, Pablo Bustos, (参考訳) ロボットが社会的に対話するには、人間の意図を解釈し、潜在的な結果を正確に予測する必要がある。 これは、人間のケアのために設計された社会ロボットにとって特に重要である。 本稿では,人間の意図を推論し解釈するためのATMアプローチについて考察する。 本研究では,人間の危険状況を検出するアルゴリズムを提案する。 ATMにシミュレーションベースのアプローチを導入し、「いいね!」ポリシーを採用し、人々に意図や行動を割り当てる。 この戦略を用いて、ロボットは時間制約のある状況下で高い成功率で検出および動作することができる。 このアルゴリズムは、既存のロボット認知アーキテクチャの一部として実装され、シミュレーションシナリオでテストされている。 シミュレーションシナリオ,Human-in-the-loopハイブリッド構成,実世界のシナリオなど,実装の堅牢性,精度,リアルタイム応答をテストするための3つの実験が実施されている。

For robots to interact socially, they must interpret human intentions and anticipate their potential outcomes accurately. This is particularly important for social robots designed for human care, which may face potentially dangerous situations for people, such as unseen obstacles in their way, that should be avoided. This paper explores the Artificial Theory of Mind (ATM) approach to inferring and interpreting human intentions. We propose an algorithm that detects risky situations for humans, selecting a robot action that removes the danger in real time. We use the simulation-based approach to ATM and adopt the 'like-me' policy to assign intentions and actions to people. Using this strategy, the robot can detect and act with a high rate of success under time-constrained situations. The algorithm has been implemented as part of an existing robotics cognitive architecture and tested in simulation scenarios. Three experiments have been conducted to test the implementation's robustness, precision and real-time response, including a simulated scenario, a human-in-the-loop hybrid configuration and a real-world scenario.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-09
# 効率的なマルチタスク地球観測モデルのためのニューラル埋め込み圧縮

Neural Embedding Compression For Efficient Multi-Task Earth Observation Modelling ( http://arxiv.org/abs/2403.17886v5 )

ライセンス: Link先を確認
Carlos Gomes, Thomas Brunschwiler, (参考訳) 地球観測(EO)における大規模データのリポジトリが成長するにつれて、モデルトレーニングと推論のための転送と保存コストが増大し、重要なリソースが消費される。 本稿では,生データではなく,データコンシューマへの圧縮埋め込みの転送に基づくNeural Embedding Compression(NEC)を提案する。 我々は、ニューラルネットワークによる基礎モデル(FM)を適用し、圧縮率と埋め込みユーティリティのトレードオフをナビゲートしながらマルチタスクの埋め込みを生成する。 FMパラメータのごく一部(10%)を短いトレーニング期間(事前トレーニングのイテレーションの1%)に更新します。 シーン分類とセマンティックセグメンテーションという2つのEOタスクにおけるNECの評価を行った。 従来の圧縮を生データに適用した場合と比較すると、NECも同様の精度で75%から90%のデータを削減できる。 99.7%の圧縮でも、シーン分類タスクでパフォーマンスは5%低下した。 全体として、NECはマルチタスクEOモデリングのためのデータ効率は高いがパフォーマンスのアプローチである。

As repositories of large scale data in earth observation (EO) have grown, so have transfer and storage costs for model training and inference, expending significant resources. We introduce Neural Embedding Compression (NEC), based on the transfer of compressed embeddings to data consumers instead of raw data. We adapt foundation models (FM) through learned neural compression to generate multi-task embeddings while navigating the tradeoff between compression rate and embedding utility. We update only a small fraction of the FM parameters (10%) for a short training period (1% of the iterations of pre-training). We evaluate NEC on two EO tasks: scene classification and semantic segmentation. Compared with applying traditional compression to the raw data, NEC achieves similar accuracy with a 75% to 90% reduction in data. Even at 99.7% compression, performance drops by only 5% on the scene classification task. Overall, NEC is a data-efficient yet performant approach for multi-task EO modelling.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-09
# AHDGAN:赤外・可視画像融合のためのアテンションベースジェネレータと異種デュアルディスクリミネータ生成アドバイザネットワーク

AHDGAN: An Attention-Based Generator and Heterogeneous Dual-Discriminator Generative Adversarial Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2404.15992v2 )

ライセンス: Link先を確認
Guosheng Lu, Zile Fang, Chunming He, Zhigang Zhao, (参考訳) 赤外線・可視画像融合(IVIF)は、可視画像からテクスチャの詳細を統合しつつ、赤外線画像からの熱放射情報を保存することを目的としている。 赤外線画像が主に画像強度で熱放射を表現しているのに対し、可視画像は画像勾配でテクスチャの詳細を表現している点の違いは、長い間IVIF技術の発達において重要な障害と考えられてきた。 既存の2つの識別器 GAN (Generative Adversarial Networks) は2つの同一の識別器を用いて、異なるタイプの情報を学ぶ際にモデルを導く。 しかし、赤外画像と可視画像の本質的な違いを考えると、2つの異種判別器の方が効果的である。 本稿では、赤外・可視画像融合のための新しい注意ベースジェネレータと異種二重識別器生成対向ネットワーク(AHDGAN)を提案する。 具体的には、赤外線と可視画像情報の異なる学習ニーズに対応するために、2つの構造的に異なる識別器を用いる。 これには、熱放射情報のためのグローバル判別器と、詳細な情報のためのマルコフ判別器が含まれる。 さらに、異なるマルチスケールアテンションモジュールを導入して、識別者がそれぞれのソースイメージをよりよくフォーカスできるようにする。 これに基づいて、異なるソース画像からの学習情報を効果的に統合するために、ジェネレータ内にアテンション機構を設計し、情報融合層を構築する。 提案手法では,赤外線画像からの熱放射情報を学習し,同時にテクスチャの詳細を可視化する。 様々な公開データセットに対する大規模な実験は、提案したAHDGANが他の最先端(SOTA)アルゴリズムよりも優れていることを示した。

Infrared and visible image fusion (IVIF) aims to preserve thermal radiation information from infrared images while integrating texture details from visible images. The differences that infrared images primarily express thermal radiation through image intensity while visible images mainly represent texture details via image gradients, has long been considered a significant obstacle to IVIF technology development. Existing dual-discriminator Generative Adversarial Networks (GANs) use two identical discriminators to guide the model in learning different types of information. However, given the intrinsic differences between infrared and visible images, using two heterogeneous discriminators is more effective. This paper proposes a novel attention-based generator and heterogeneous dual-discriminator generative adversarial network (AHDGAN) for infrared and visible image fusion. Specifically, the model employs two structurally different discriminators to address the distinct learning needs of infrared and visible image information. These include a global discriminator for thermal radiation information and a Markovian discriminator for detailed information. Additionally, different multi-scale attention modules are introduced to help the discriminators focus better on their respective source images. Based on this, to integrate the learned information from different source images effectively, an attention mechanism is designed in the generator to construct an information fusion layer. This approach guides the model to learn thermal radiation information from infrared images while simultaneously capturing texture details from visible images. Extensive experiments on various public datasets demonstrate the superiority of our proposed AHDGAN over other state-of-the-art (SOTA) algorithms, highlighting its enhanced potential for practical applications.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-09
# PANGeA: ターン型ビデオゲームのための生成AIを用いた手続き型人工物語

PANGeA: Procedural Artificial Narrative using Generative AI for Turn-Based Video Games ( http://arxiv.org/abs/2404.19721v3 )

ライセンス: Link先を確認
Steph Buongiorno, Lawrence Jake Klinkert, Tanishq Chawla, Zixin Zhuang, Corey Clark, (参考訳) 本研究では,大規模言語モデル(LLM)を活用するための構造化アプローチであるPANGeA(Procedural Artificial Narrative Using Generative AI)を紹介した。 ゲームデザインに使用されるLLMの以前の応用とは違って、PANGeAはゲームレベルデータ(設定、キーアイテム、非プレイ可能な文字(NPC)を含むものではない)を生成するだけでなく、プレイヤーとプロシージャゲーム物語に沿った環境との間の動的で自由な相互作用を育むことで革新する。 PANGeAが生成するNPCは人格バイアスを受けており、生成した応答においてBig 5 Personality Modelの特徴を表現している。 PANGeAは、ゲームナラティブの範囲を超えてLSM応答を促せる自由形式のテキスト入力の取り込みの背景にある課題に対処する。 LLMのインテリジェンスを利用した新しいバリデーションシステムは,テキスト入力を評価し,生成した応答を展開物語と整合させる。 これらのインタラクションを可能にするために、PANGeAは、生成されたレスポンスを拡張するためのコンテキストを提供するカスタムメモリシステムをホストするサーバによってサポートされ、手続き的な物語と整合する。 幅広いアプリケーションのために、サーバにはRESTインターフェースがあり、任意のゲームエンジンがPANGeAと直接統合できる。 2種類のデモゲームの実証実験とアブレーションテストにより, PANGeAの動的物語生成をプロシージャ物語に整合させることで, 動的物語生成を促進できることを示す。 これらは、ブラウザベースのカスタムGPTとUnityのデモだ。 結果が示すように、PANGeAは、可変かつ予測不能な自由形式のテキスト入力が提供された場合でも、ゲームデザイナーがLSMを使用して物語に一貫性のあるコンテンツを生成するのを支援する可能性がある。

This research introduces Procedural Artificial Narrative using Generative AI (PANGeA), a structured approach for leveraging large language models (LLMs), guided by a game designer's high-level criteria, to generate narrative content for turn-based role-playing video games (RPGs). Distinct from prior applications of LLMs used for video game design, PANGeA innovates by not only generating game level data (which includes, but is not limited to, setting, key items, and non-playable characters (NPCs)), but by also fostering dynamic, free-form interactions between the player and the environment that align with the procedural game narrative. The NPCs generated by PANGeA are personality-biased and express traits from the Big 5 Personality Model in their generated responses. PANGeA addresses challenges behind ingesting free-form text input, which can prompt LLM responses beyond the scope of the game narrative. A novel validation system that uses the LLM's intelligence evaluates text input and aligns generated responses with the unfolding narrative. Making these interactions possible, PANGeA is supported by a server that hosts a custom memory system that supplies context for augmenting generated responses thus aligning them with the procedural narrative. For its broad application, the server has a REST interface enabling any game engine to integrate directly with PANGeA, as well as an LLM interface adaptable with local or private LLMs. PANGeA's ability to foster dynamic narrative generation by aligning responses with the procedural narrative is demonstrated through an empirical study and ablation test of two versions of a demo game. These are, a custom, browser-based GPT and a Unity demo. As the results show, PANGeA holds potential to assist game designers in using LLMs to generate narrative-consistent content even when provided varied and unpredictable, free-form text input.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-09
# 線形サンプル複素数を持つ単一指標モデルの能動的学習

Agnostic Active Learning of Single Index Models with Linear Sample Complexity ( http://arxiv.org/abs/2405.09312v3 )

ライセンス: Link先を確認
Aarshvi Gajjar, Wai Ming Tai, Xingyu Xu, Chinmay Hegde, Yi Li, Christopher Musco, (参考訳) F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, ここでは、$f:\mathbb{R} \to \mathbb{R}$, ${\mathbf x,\mathbf w} \in \mathbb{R}^d$である。 非線型ニューラルネットワークの単純な例としての理論上の関心に加えて、偏微分方程式(PDE)の代理モデリングのような科学的機械学習への応用により、単一インデックスモデルは近年大きな注目を集めている。 このような応用には、対向雑音に頑健なサンプル効率の高い能動学習法が必要である。 つまり、それは挑戦的な無知の学習環境でも機能する。 単一指標モデルの非依存的能動学習に関する2つの主要な結果を提供する。 まず、$f$とLipschitzが知られているとき、$\tilde{O}(d)$サンプルが {statistical leverage score sample} によって収集され、ほぼ最適の単一インデックスモデルを学ぶのに十分であることを示す。 レバレッジスコアのサンプリングは実装が簡単で、効率的で、線形モデルを積極的に学習するためにすでに広く使われている。 我々の結果は、データ分布に関する仮定を必要とせず、ログファクタまで最適であり、最近の${O}(d^{2})$ bound of \cite{gajjar2023active}で4次的に改善する。 第二に、$f$ が \emph{unknown} であるときでさえ、$\tilde{O}(d)$ サンプルが十分であることを示す。 我々の結果は、ダドリーの不等式やスダコフの2重化等を含む高次元の確率から得られるツールと、リプシッツ函数のクラスを新しい分布対応で離散化することを利用する。

We study active learning methods for single index models of the form $F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, where $f:\mathbb{R} \to \mathbb{R}$ and ${\mathbf x,\mathbf w} \in \mathbb{R}^d$. In addition to their theoretical interest as simple examples of non-linear neural networks, single index models have received significant recent attention due to applications in scientific machine learning like surrogate modeling for partial differential equations (PDEs). Such applications require sample-efficient active learning methods that are robust to adversarial noise. I.e., that work even in the challenging agnostic learning setting. We provide two main results on agnostic active learning of single index models. First, when $f$ is known and Lipschitz, we show that $\tilde{O}(d)$ samples collected via {statistical leverage score sampling} are sufficient to learn a near-optimal single index model. Leverage score sampling is simple to implement, efficient, and already widely used for actively learning linear models. Our result requires no assumptions on the data distribution, is optimal up to log factors, and improves quadratically on a recent ${O}(d^{2})$ bound of \cite{gajjar2023active}. Second, we show that $\tilde{O}(d)$ samples suffice even in the more difficult setting when $f$ is \emph{unknown}. Our results leverage tools from high dimensional probability, including Dudley's inequality and dual Sudakov minoration, as well as a novel, distribution-aware discretization of the class of Lipschitz functions.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-09
# ECHOで高速でタイムリーに暗号化されたトラフィック分類

Non-uniformity is All You Need: Efficient and Timely Encrypted Traffic Classification With ECHO ( http://arxiv.org/abs/2406.01852v3 )

ライセンス: Link先を確認
Shilo Daum, Tal Shapira, Anat Bremler-Barr, David Hay, (参考訳) インターネットトラフィックの95%が暗号化されているため、このトラフィックを分類するための効果的なアプローチは、ネットワークのセキュリティと管理にとって不可欠である。 本稿では,ML/DLベースの暗号化トラフィック分類のための新しい最適化プロセスであるECHOを紹介する。 ECHOは、分類時間とメモリ利用の両方を目標とし、2つの革新的なテクニックを取り入れている。 最初のコンポーネントであるHO(Hyperparameter Optimization of binnings)は、効率的なトラフィック表現を作ることを目的としている。 従来の研究では,パケットサイズやパケット到着時刻を固定サイズのビンにマッピングする表現を用いていた。 これらの不均一な双対は、トレーニング段階でハイパーパラメータ最適化アルゴリズムを用いて導出される。 HOは必要な表現サイズに応じて精度を著しく向上させるか、または同等に、より小さな表現を用いて同等の精度を達成する。 次に,EC(Early Classification of traffic)を導入し,信頼度に基づいて,異なる終了時間に適応した分類器のカスケードを用いて,より高速な分類を可能にする。 ECは、平均分類遅延を最大90%削減する。 注目すべきは、この手法が分類精度を維持するだけでなく、場合によってはその精度を向上させることである。 3つの公開データセットを用いて、組み合わせた手法であるEarly Classification with Hyperparameter Optimization (ECHO)が、分類効率を大幅に向上させることを示した。

With 95% of Internet traffic now encrypted, an effective approach to classifying this traffic is crucial for network security and management. This paper introduces ECHO -- a novel optimization process for ML/DL-based encrypted traffic classification. ECHO targets both classification time and memory utilization and incorporates two innovative techniques. The first component, HO (Hyperparameter Optimization of binnings), aims at creating efficient traffic representations. While previous research often uses representations that map packet sizes and packet arrival times to fixed-sized bins, we show that non-uniform binnings are significantly more efficient. These non-uniform binnings are derived by employing a hyperparameter optimization algorithm in the training stage. HO significantly improves accuracy given a required representation size, or, equivalently, achieves comparable accuracy using smaller representations. Then, we introduce EC (Early Classification of traffic), which enables faster classification using a cascade of classifiers adapted for different exit times, where classification is based on the level of confidence. EC reduces the average classification latency by up to 90\%. Remarkably, this method not only maintains classification accuracy but also, in certain cases, improves it. Using three publicly available datasets, we demonstrate that the combined method, Early Classification with Hyperparameter Optimization (ECHO), leads to a significant improvement in classification efficiency.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-09
# 音声合成におけるCWTに基づくメルスペクトル強調パラダイム

A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis ( http://arxiv.org/abs/2406.12164v2 )

ライセンス: Link先を確認
Guoqiang Hu, Huaning Tan, Ruilai Li, (参考訳) 音響特徴は合成音声の品質向上に重要な役割を果たしている。 現在、メル・スペクトログラムは、ほとんどの音響モデルで広く使われている音響特性である。 しかし、フーリエ変換による微細な損失のため、メル分光法により合成された音声の明瞭度はミュータント信号によって損なわれる。 より詳細なMelスペクトルを得るために,連続ウェーブレット変換(CWT)に基づくMelスペクトル拡張パラダイムを提案する。 このパラダイムは、さらに詳細なウェーブレット・スペクトログラム(英語版)を導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。 自動回帰 (AR) と非自己回帰 (NAR) 音声システムをテストするために, 実験検証のためにTacotron2 と Fastspeech2 を選択する。 実験の結果,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較して0.14と0.09の改善がみられた。 これらの結果は、異なるアーキテクチャにおけるパラダイムの成功を実証するため、拡張パラダイムの普遍性を検証している。

Acoustic features play an important role in improving the quality of the synthesised speech. Currently, the Mel spectrogram is a widely employed acoustic feature in most acoustic models. However, due to the fine-grained loss caused by its Fourier transform process, the clarity of speech synthesised by Mel spectrogram is compromised in mutant signals. In order to obtain a more detailed Mel spectrogram, we propose a Mel spectrogram enhancement paradigm based on the continuous wavelet transform (CWT). This paradigm introduces an additional task: a more detailed wavelet spectrogram, which like the post-processing network takes as input the Mel spectrogram output by the decoder. We choose Tacotron2 and Fastspeech2 for experimental validation in order to test autoregressive (AR) and non-autoregressive (NAR) speech systems, respectively. The experimental results demonstrate that the speech synthesised using the model with the Mel spectrogram enhancement paradigm exhibits higher MOS, with an improvement of 0.14 and 0.09 compared to the baseline model, respectively. These findings provide some validation for the universality of the enhancement paradigm, as they demonstrate the success of the paradigm in different architectures.
翻訳日:2024-07-11 20:50:12 公開日:2024-07-09
# 病理組織学における安全なデータ共有のための画像蒸留

Image Distillation for Safe Data Sharing in Histopathology ( http://arxiv.org/abs/2406.13536v3 )

ライセンス: Link先を確認
Zhe Li, Bernhard Kainz, (参考訳) 病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。 深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。 フェデレートラーニングは、モデルをローカルにトレーニングし、サーバー上のパラメータを更新することで、この問題に対処している。 しかし、ドメインシフトやバイアスといった問題は持続し、全体的なパフォーマンスに影響を与える。 データセットの蒸留は、これらの課題を克服するための別のアプローチを示す。 それは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成することを含む。 現在, このパラダイムは, 非可読性表現のみを生成し, 下流学習タスクでは不十分な性能を示すため, 実行不可能である。 我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。 最大情報合成画像の選択は、表現空間のグラフコミュニティ解析によって行われる。 合成蒸留データに基づいて訓練された下流分類モデルと実データで訓練されたモデルとを比較検討し,実用化に適した性能を得た。

Histopathology can help clinicians make accurate diagnoses, determine disease prognosis, and plan appropriate treatment strategies. As deep learning techniques prove successful in the medical domain, the primary challenges become limited data availability and concerns about data sharing and privacy. Federated learning has addressed this challenge by training models locally and updating parameters on a server. However, issues, such as domain shift and bias, persist and impact overall performance. Dataset distillation presents an alternative approach to overcoming these challenges. It involves creating a small synthetic dataset that encapsulates essential information, which can be shared without constraints. At present, this paradigm is not practicable as current distillation approaches only generate non human readable representations and exhibit insufficient performance for downstream learning tasks. We train a latent diffusion model and construct a new distilled synthetic dataset with a small number of human readable synthetic images. Selection of maximally informative synthetic images is done via graph community analysis of the representation space. We compare downstream classification models trained on our synthetic distillation data to models trained on real data and reach performances suitable for practical application.
翻訳日:2024-07-11 20:50:12 公開日:2024-07-09
# scRNA-seqデータによるバッチ効果の存在下でのセル階層の発見

scTree: Discovering Cellular Hierarchies in the Presence of Batch Effects in scRNA-seq Data ( http://arxiv.org/abs/2406.19300v2 )

ライセンス: Link先を確認
Moritz Vandenhirtz, Florian Barkmann, Laura Manduchi, Julia E. Vogt, Valentina Boeva, (参考訳) 単一セルRNAシークエンシングデータへの階層的クラスタリング手法を拡張した,単一セルツリー変分自動エンコーダのための新しい手法 scTree を提案する。 scTreeは、ツリー構造データ表現を同時に学習しながら、バッチ効果を補正する。 このVAEベースの手法は、バッチのバイアス効果とは無関係に、複雑なセルランドスケープのより深い理解を可能にする。 scTreeがデータの基礎となるクラスタとそれらの間の階層的関係を発見する7つのデータセットを実証的に示すとともに、これらのデータセット全体で確立されたベースラインメソッドよりも優れています。 さらに,その生物学的関連性を理解するために学習階層を解析し,バッチ補正を直接クラスタリング手順に統合することの重要性を浮き彫りにした。

We propose a novel method, scTree, for single-cell Tree Variational Autoencoders, extending a hierarchical clustering approach to single-cell RNA sequencing data. scTree corrects for batch effects while simultaneously learning a tree-structured data representation. This VAE-based method allows for a more in-depth understanding of complex cellular landscapes independently of the biasing effects of batches. We show empirically on seven datasets that scTree discovers the underlying clusters of the data and the hierarchical relations between them, as well as outperforms established baseline methods across these datasets. Additionally, we analyze the learned hierarchy to understand its biological relevance, thus underpinning the importance of integrating batch correction directly into the clustering procedure.
翻訳日:2024-07-11 20:50:12 公開日:2024-07-09
# FedClust: 軽量クライアントクラスタリングによるフェデレーション学習におけるデータの不均一性に対処する

FedClust: Tackling Data Heterogeneity in Federated Learning through Weight-Driven Client Clustering ( http://arxiv.org/abs/2407.07124v1 )

ライセンス: Link先を確認
Md Sirajul Islam, Simin Javaherian, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng, (参考訳) Federated Learning(FL)は、分散型デバイス上での機械学習モデルの協調トレーニングを、ローカルデータを公開せずに実現する、新興の分散機械学習パラダイムである。 FLの大きな課題の1つは、クライアントデバイスに不均一なデータ分散が存在することである。 このようなデータの不均一性によって生じる性能劣化問題に対処するため、クラスタ化フェデレーション学習(CFL)は、クライアントをローカルデータ分布の類似性に基づいて、個別の学習クラスタにグループ化することで、その可能性を示す。 しかし、現状のCFLアプローチでは、クラスタの形成が安定するまで、トレーニング中に分布の類似性を学ぶために、多数の通信ラウンドを必要とする。 さらに、これらのアルゴリズムのいくつかは、事前に定義された数のクラスタに大きく依存しているため、柔軟性と適応性が制限される。 本稿では,局所モデル重みとクライアントのデータ分布の相関を利用したCFLの新しい手法である {\em FedClust} を提案する。 FedClust {\displaystyle {\em FedClust} は、局所的に訓練されたモデルの戦略的に選択された部分重みに基づいて、クライアント間の類似度を測定することによって、クライアントを1ショットでクラスタにグループ化する。 非IIDデータ設定の異なる4つのベンチマークデータセットに対して、広範な実験を行う。 実験の結果、FedClust {\displaystyle {\em FedClust} はモデル精度を$\sim$45\%に向上し、通信コストを2.7$\times$に下げた。

Federated learning (FL) is an emerging distributed machine learning paradigm that enables collaborative training of machine learning models over decentralized devices without exposing their local data. One of the major challenges in FL is the presence of uneven data distributions across client devices, violating the well-known assumption of independent-and-identically-distributed (IID) training samples in conventional machine learning. To address the performance degradation issue incurred by such data heterogeneity, clustered federated learning (CFL) shows its promise by grouping clients into separate learning clusters based on the similarity of their local data distributions. However, state-of-the-art CFL approaches require a large number of communication rounds to learn the distribution similarities during training until the formation of clusters is stabilized. Moreover, some of these algorithms heavily rely on a predefined number of clusters, thus limiting their flexibility and adaptability. In this paper, we propose {\em FedClust}, a novel approach for CFL that leverages the correlation between local model weights and the data distribution of clients. {\em FedClust} groups clients into clusters in a one-shot manner by measuring the similarity degrees among clients based on the strategically selected partial weights of locally trained models. We conduct extensive experiments on four benchmark datasets with different non-IID data settings. Experimental results demonstrate that {\em FedClust} achieves higher model accuracy up to $\sim$45\% as well as faster convergence with a significantly reduced communication cost up to 2.7$\times$ compared to its state-of-the-art counterparts.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 粗大化による一貫した属性グラフクラスタリングを支援するモジュラリティ

Modularity aided consistent attributed graph clustering via coarsening ( http://arxiv.org/abs/2407.07128v1 )

ライセンス: Link先を確認
Samarth Bhatia, Yukti Makhija, Manoj Kumar, Sandeep Kumar, (参考訳) グラフクラスタリングは、属性付きグラフを分割し、コミュニティを検出するための重要な教師なし学習手法である。 しかし、現在の手法では、真のコミュニティ構造とクラスタ内関係を正確に把握し、計算効率を上げ、より小さなコミュニティを特定するのに苦労している。 粗大化とモジュラリティの最大化を統合することで、これらの課題に対処し、クラスタリングの精度を高めるために、隣接性とノード機能の両方を効果的に活用する。 本稿では,ブロックの最大化最小化手法を用いて,ログ行列,滑らか度,モジュラリティ成分を組み込んだ損失関数を提案する。 この手法は、DC-SBM(Degree-Corrected Stochastic Block Model)の下で理論的に一貫性があり、漸近的なエラーのない性能と完全なラベル回復を保証する。 提案アルゴリズムはグラフニューラルネットワーク(GNN)と変分グラフオートエンコーダ(VGAE)とシームレスに統合し,拡張ノードの特徴を学習し,異常なクラスタリング性能を実現する。 ベンチマークデータセットの大規模な実験は、属性グラフと非属性グラフの両方に対して、既存の最先端手法よりも優れていることを示す。

Graph clustering is an important unsupervised learning technique for partitioning graphs with attributes and detecting communities. However, current methods struggle to accurately capture true community structures and intra-cluster relations, be computationally efficient, and identify smaller communities. We address these challenges by integrating coarsening and modularity maximization, effectively leveraging both adjacency and node features to enhance clustering accuracy. We propose a loss function incorporating log-determinant, smoothness, and modularity components using a block majorization-minimization technique, resulting in superior clustering outcomes. The method is theoretically consistent under the Degree-Corrected Stochastic Block Model (DC-SBM), ensuring asymptotic error-free performance and complete label recovery. Our provably convergent and time-efficient algorithm seamlessly integrates with graph neural networks (GNNs) and variational graph autoencoders (VGAEs) to learn enhanced node features and deliver exceptional clustering performance. Extensive experiments on benchmark datasets demonstrate its superiority over existing state-of-the-art methods for both attributed and non-attributed graphs.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 適応型連続学習のためのニューロミメティック・メタ塑性

Neuromimetic metaplasticity for adaptive continual learning ( http://arxiv.org/abs/2407.07133v1 )

ライセンス: Link先を確認
Suhee Cho, Hyeonsu Lee, Seungdae Baek, Se-Bum Paik, (参考訳) ディープニューラルネットワーク(DNN)モデルに基づく従来型のインテリジェントシステムは、破滅的な忘れ込みによる人間のような継続的な学習を実現する上で、課題に直面している。 本稿では,人間の作業記憶にインスパイアされたメタ塑性モデルを提案する。 このアプローチの重要な側面は、安定から柔軟性までの異なるタイプのシナプスを実装し、それらをランダムに混在させて、柔軟性の異なるシナプス接続をトレーニングすることである。 この戦略により、予期せぬ入力長の変化の下でも、ネットワークは連続した情報のストリームを学習することができた。 このモデルは、メモリ容量と性能のバランスの取れたトレードオフを、追加のトレーニングや構造変更を必要とせずに達成し、古い情報と新しい情報の両方を保持するためにメモリ資源を動的に割り当てた。 さらに,誤記憶を選択的に除去し,Hebb繰り返し効果を利用して有意データの保持を強化することにより,データ中毒攻撃に対するロバスト性を示した。

Conventional intelligent systems based on deep neural network (DNN) models encounter challenges in achieving human-like continual learning due to catastrophic forgetting. Here, we propose a metaplasticity model inspired by human working memory, enabling DNNs to perform catastrophic forgetting-free continual learning without any pre- or post-processing. A key aspect of our approach involves implementing distinct types of synapses from stable to flexible, and randomly intermixing them to train synaptic connections with different degrees of flexibility. This strategy allowed the network to successfully learn a continuous stream of information, even under unexpected changes in input length. The model achieved a balanced tradeoff between memory capacity and performance without requiring additional training or structural modifications, dynamically allocating memory resources to retain both old and new information. Furthermore, the model demonstrated robustness against data poisoning attacks by selectively filtering out erroneous memories, leveraging the Hebb repetition effect to reinforce the retention of significant data.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 既存ポストホック法を併用したアウトオブディストリビューション検出の改善

Improving Out-of-Distribution Detection by Combining Existing Post-hoc Methods ( http://arxiv.org/abs/2407.07135v1 )

ライセンス: Link先を確認
Paul Novello, Yannick Prudent, Joseba Dalmau, Corentin Friedrich, Yann Pequignot, (参考訳) Hendrycks et al arXiv:1610.02136のセミナー論文以来、ポストホックディープ・オブ・ディストリビューション(OOD)の検出は急速に拡大している。 その結果、安全クリティカルなアプリケーションに取り組んでいる実践者や、ニューラルネットワークの堅牢性の向上を目指す実践者の中には、選択すべき方法が多々ある。 しかしながら、すべてのデータセットにおいて、どのメソッドも、arXiv:2210.07242で他のどのメソッドよりも優れているわけではないため、現在のベストプラクティスは、データセット上のすべてのメソッドをテストすることである。 本稿では,OOD検出を効果的に組み合わせるための新しい手法の開発に焦点を移す。 我々は,複数検出スコアを統一OOD検出器に統合するための4つの戦略を,多数決,経験的およびコプラによる累積分布関数モデリング,最適輸送に基づく多変量化などに基づいて提案し,比較する。 我々は、AUROCやFPRのような一般的なOOD評価指標を、これらの多次元OOD検出器に拡張することで、それらを評価し、広範囲なベンチマークで個別の手法と比較することができる。 さらに,OOD検出装置がより現実的な環境、すなわち既知のOODデータがない場合に,Outlier Exposure arXiv:1812.04606から引き出された原理に依存するものを選択するための一連のガイドラインを提案する。 コードはhttps://github.com/paulnovello/multi-ood.comで公開されている。

Since the seminal paper of Hendrycks et al. arXiv:1610.02136, Post-hoc deep Out-of-Distribution (OOD) detection has expanded rapidly. As a result, practitioners working on safety-critical applications and seeking to improve the robustness of a neural network now have a plethora of methods to choose from. However, no method outperforms every other on every dataset arXiv:2210.07242, so the current best practice is to test all the methods on the datasets at hand. This paper shifts focus from developing new methods to effectively combining existing ones to enhance OOD detection. We propose and compare four different strategies for integrating multiple detection scores into a unified OOD detector, based on techniques such as majority vote, empirical and copulas-based Cumulative Distribution Function modeling, and multivariate quantiles based on optimal transport. We extend common OOD evaluation metrics -- like AUROC and FPR at fixed TPR rates -- to these multi-dimensional OOD detectors, allowing us to evaluate them and compare them with individual methods on extensive benchmarks. Furthermore, we propose a series of guidelines to choose what OOD detectors to combine in more realistic settings, i.e. in the absence of known OOD data, relying on principles drawn from Outlier Exposure arXiv:1812.04606. The code is available at https://github.com/paulnovello/multi-ood.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 心的集合予測とTop-$k$分類

Cardinality-Aware Set Prediction and Top-$k$ Classification ( http://arxiv.org/abs/2407.07140v1 )

ライセンス: Link先を確認
Corinna Cortes, Anqi Mao, Christopher Mohri, Mehryar Mohri, Yutao Zhong, (参考訳) 低濃度を維持しながら正確なトップ値のセット予測器を学習することを目的とした新しい手法である、濃度対応トップ値の分類について、詳細な研究を行う。 この設定に合わせた新たな目標損失関数を導入し、予測された集合の分類誤差と濃度の両方を考慮に入れた。 この損失関数を最適化するために、コスト感受性のcomp-sum損失とコスト感受性の制約された損失の2種類のサロゲート損失を提案する。 これらの損失関数の最小化は、トップ$kとしきい値ベースの分類器の両方の場合、より詳細に記述した新しい濃度認識アルゴリズムをもたらす。 我々は、基数対応の損失関数に対して$H$一貫性境界を確立することにより、アルゴリズムの強力な理論的基盤を提供する。 CIFAR-10, CIFAR-100, ImageNet, SVHNデータセットの広範な実験結果について報告する。

We present a detailed study of cardinality-aware top-$k$ classification, a novel approach that aims to learn an accurate top-$k$ set predictor while maintaining a low cardinality. We introduce a new target loss function tailored to this setting that accounts for both the classification error and the cardinality of the set predicted. To optimize this loss function, we propose two families of surrogate losses: cost-sensitive comp-sum losses and cost-sensitive constrained losses. Minimizing these loss functions leads to new cardinality-aware algorithms that we describe in detail in the case of both top-$k$ and threshold-based classifiers. We establish $H$-consistency bounds for our cardinality-aware surrogate loss functions, thereby providing a strong theoretical foundation for our algorithms. We report the results of extensive experiments on CIFAR-10, CIFAR-100, ImageNet, and SVHN datasets demonstrating the effectiveness and benefits of our cardinality-aware algorithms.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 酸素暗黒物質検出のためのダイヤモンド中の窒素空洞を用いた核スピンメトロロジー

Nuclear Spin Metrology with Nitrogen Vacancy Center in Diamond for Axion Dark Matter Detection ( http://arxiv.org/abs/2407.07141v1 )

ライセンス: Link先を確認
So Chigusa, Masashi Hazumi, Ernst David Herbschleb, Yuichiro Matsuzaki, Norikazu Mizuochi, Kazunori Nakayama, (参考訳) 本稿では, ダイヤモンド中の窒素空孔中心を用いて, アクシオンダークマターを直接検出する方法を提案する。 特に,窒素の核スピンを利用して原子核結合を検出する。 これは暗黒物質探索のために設計されたプロトコルによって実現され、窒素空孔中心に基づく新しい量子センシング技術が導入された。 磁場と核スピンの結合強度は、従来の磁気学では電子スピンの結合強度より3桁小さいが、原子スピンと核スピンの相互作用強度は、電子スピンの結合強度と同じ桁である。 さらに、原子核スピンを軸方向ダークマター検出に用いることで、長いコヒーレンス時間を利用することができる。 本手法は,アクシオン質量$m_a \lesssim 4\times 10^{-13}\,\mathrm{eV}$に対応する広周波数範囲$\lesssim 100\,\mathrm{Hz}$に敏感であることを示す。 本稿では, アクシオン-中性子とアクシオン-陽子カップリングの双方に対する本手法の検出限界について述べる。

We present a method to directly detect the axion dark matter using nitrogen vacancy centers in diamonds. In particular, we use metrology leveraging the nuclear spin of nitrogen to detect axion-nucleus couplings. This is achieved through protocols designed for dark matter searches, which introduce a novel approach of quantum sensing techniques based on the nitrogen vacancy center. Although the coupling strength of the magnetic fields with nuclear spins is three orders of magnitude smaller than that with electron spins for conventional magnetometry, the axion interaction strength with nuclear spins is the same order of magnitude as that with electron spins. Furthermore, we can take advantage of the long coherence time by using the nuclear spins for the axion dark matter detection. We show that our method is sensitive to a broad frequency range $\lesssim 100\,\mathrm{Hz}$ corresponding to the axion mass $m_a \lesssim 4\times 10^{-13}\,\mathrm{eV}$. We present the detection limit of our method for both the axion-neutron and the axion-proton couplings and discuss its significance in comparison with other proposed ideas.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 循環型固体量子電池:熱力学特性と量子ハードウェアシミュレーション

Cyclic solid-state quantum battery: Thermodynamic characterization and quantum hardware simulation ( http://arxiv.org/abs/2407.07157v1 )

ライセンス: Link先を確認
Luca Razzoli, Giulia Gemme, Ilia Khomchenko, Maura Sassetti, Henni Ouerdane, Dario Ferraro, Giuliano Benenti, (参考訳) 熱浴に弱結合した相互作用型バイパルタイト系に基づく循環型量子電池モデルを提案する。 電池の動作サイクルは、システム熱化、サブシステムの切断、エルゴトロピー抽出、再接続の4つのストロークから構成される。 熱浴は熱化ストロークのチャージャーとして機能し、その後の熱状態が切断ストロークの後に受動的になくなるため、エルゴトロピー抽出が可能となる。 相互作用する2つの量子ビットの場合に着目し、位相コヒーレンス(相コヒーレンス)は、量子ビット間の非自明な相関の存在下で、有限エルゴトロピーを提供しながら50%以上の効率で作業状態に到達することができることを示す。 本プロトコルは,循環型超伝導量子電池の簡易かつ実現可能な回路モデルを用いて提案する。 さらに,超伝導IBM量子マシン上での考察サイクルをシミュレートする。 理論とシミュレーション結果の良好な一致は, 超伝導量子ハードウェアにおいて, 循環型量子電池のスキームをうまく実現できることを強く示唆している。

We introduce a cyclic quantum battery model, based on an interacting bipartite system, weakly coupled to a thermal bath. The working cycle of the battery consists of four strokes: system thermalization, disconnection of subsystems, ergotropy extraction, and reconnection. The thermal bath acts as a charger in the thermalization stroke, while ergotropy extraction is possible because the ensuing thermal state is no longer passive after the disconnection stroke. Focusing on the case of two interacting qubits, we show that phase coherence, in the presence of non-trivial correlations between the qubits, can be exploited to reach working regimes with efficiency higher than 50% while providing finite ergotropy. Our protocol is illustrated through a simple and feasible circuit model of a cyclic superconducting quantum battery. Furthermore, we simulate the considered cycle on superconducting IBM quantum machines. The good agreement between the theoretical and simulated results strongly suggests that our scheme for cyclic quantum batteries can be successfully realized in superconducting quantum hardware.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 野生のフェイクニュースサイトを見つける

Finding Fake News Websites in the Wild ( http://arxiv.org/abs/2407.07159v1 )

ライセンス: Link先を確認
Araujo Leandro, Cout Joao M. M., Nery Luiz Felipe, Rodrigues Isadora C., Almeida Jussara M., Reis Julio C. S., Benevenuto Fabricio, (参考訳) インターネット上での誤情報拡散との戦いは、現代社会が直面する恐ろしい課題である。 フェイクニュースコンテンツは、主にデジタルプラットフォームを通じて配信され、複雑なエコシステムにおいてそうしたコンテンツを制作し、広めるためのウェブサイトが重要な役割を担っている。 そのため、これらのウェブサイトは誤情報研究者にとって大きな関心を集めている。 しかし、特に発展途上国では、偽情報のプロデューサやスプレッドラーとしてラベル付けされたウェブサイトの包括的リストを取得することは困難である。 本研究では,ソーシャルメディア上で偽ニュースの確認事例を共有するユーザと密接に結びついている誤情報コンテンツの作成・拡散に責任を持つウェブサイトを識別する手法を提案する。 さまざまな実行モードやコンテキストを調べて,Twitter上でのアプローチを検証する。 本研究は, この現象をよりよく理解し, 社会の様々な領域において, 有能な存在がこの問題に対処できるように, 誤情報Webサイトを識別する手法の有効性を実証するものである。

The battle against the spread of misinformation on the Internet is a daunting task faced by modern society. Fake news content is primarily distributed through digital platforms, with websites dedicated to producing and disseminating such content playing a pivotal role in this complex ecosystem. Therefore, these websites are of great interest to misinformation researchers. However, obtaining a comprehensive list of websites labeled as producers and/or spreaders of misinformation can be challenging, particularly in developing countries. In this study, we propose a novel methodology for identifying websites responsible for creating and disseminating misinformation content, which are closely linked to users who share confirmed instances of fake news on social media. We validate our approach on Twitter by examining various execution modes and contexts. Our findings demonstrate the effectiveness of the proposed methodology in identifying misinformation websites, which can aid in gaining a better understanding of this phenomenon and enabling competent entities to tackle the problem in various areas of society.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# ウェーブパケットトンネルに対する相対論的量子場理論のアプローチ:超音速伝送の欠如

Relativistic Quantum Field Theory Approach to Wavepacket Tunneling: Lack of Superluminal Transmission ( http://arxiv.org/abs/2407.07160v1 )

ライセンス: Link先を確認
M. Alkhateeb, X. Gutierrez de la Cal, M. Pons, D. Sokolovski, A. Matzkin, (参考訳) 相対論的量子場理論(QFT)方程式に対する時空解を用いたポテンシャル障壁を通した電子トンネルの相対論的ウェーブレットダイナミクスについて検討する。 我々は,最近文献で報告された瞬間的あるいは超微視的効果を除外し,トンネル力学が完全に因果的であることを,微小因果性QFT特性とウェーブパケット挙動とを結びつけることによって証明した。 これらの結果は、電子トンネルの数値計算と、クライントンネルのポテンシャル障壁を通した数値計算によって説明される。 あらゆる場合(クライントンネル(英語版)、または標準または超臨界ポテンシャルにわたる規則的なトンネル)において、送信されたウェーブパレットは、その平均位置が対応する自由に伝播するウェーブパレットの平均位置よりも先にある場合でも、プロパゲーターの因果膜に留まる。

We investigate relativistic wavepacket dynamics for an electron tunneling through a potential barrier employing space-time resolved solutions to relativistic quantum field theory (QFT) equations. We prove by linking the QFT property of micro-causality to the wavepacket behavior that the tunneling dynamics is fully causal, precluding instantaneous or superluminal effects that have recently been reported in the literature. We illustrate these results by performing numerical computations for an electron tunneling through a potential barrier for standard tunneling as well for Klein tunneling. In all cases (Klein tunneling \ or regular tunneling across a standard or a supercritical potential) the transmitted wavepacket remains in the causal envelope of the propagator, even when its average position lies ahead of the average position of the corresponding freely propagated wavepacket.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-09
# 静的・記号解析を用いたUEFI脆弱性信号生成

UEFI Vulnerability Signature Generation using Static and Symbolic Analysis ( http://arxiv.org/abs/2407.07166v1 )

ライセンス: Link先を確認
Md Shafiuzzaman, Achintya Desai, Laboni Sarker, Tevfik Bultan, (参考訳) 2006年にメジャーリリースされて以来、Unified Extensible Firmware Interface (UEFI) はBIOSに代わり、コンピュータのハードウェアとオペレーティングシステムにインターフェースするための業界標準となっている。 UEFIはシステムカーネルを含む他のソフトウェアコンポーネントよりも、システムリソースへの特権的なセキュリティアクセスがある。 したがって、UEFIの脆弱性の特定と識別は、コンピュータセキュリティにとって極めて重要である。 しかし、UEFI脆弱性の自動検出とキャラクタリゼーションは難しい問題である。 静的脆弱性解析技術はスケーラブルだが精度は乏しく(多くの偽陽性を報告している)、シンボリック解析技術は正確だが、パスの爆発や制約解決のコストによるスケーラビリティの問題によって妨げられている。 本稿では,STASE(Static Analysis Guided Symbolic Execution)と呼ばれる手法を紹介する。 まず、LLVMビットコードのルールベースの静的脆弱性分析から始め、シンボリック実行のための潜在的な脆弱性ターゲットを特定する。 次に、各ターゲットにシンボル実行を集中させて、正確な脆弱性検出と署名生成を実現する。 STASEは、再利用可能な脆弱性ルールと攻撃者が制御する入力のマニュアル仕様に依存している。 しかし、これはシンボル実行プロセスのガイドとなるハーネスの生成を自動化し、シンボル実行のユーザビリティとスケーラビリティに対処する。 我々はUEFIコードベースの実装にSTASEを実装し,適用した。 STASEは、最近報告されたPixieFail脆弱性と、TianocoreのEDKIIコードベースの13の新しい脆弱性を検知し、9つのうち5つで脆弱性シグネチャを生成する。

Since its major release in 2006, the Unified Extensible Firmware Interface (UEFI) has become the industry standard for interfacing a computer's hardware and operating system, replacing BIOS. UEFI has higher privileged security access to system resources than any other software component, including the system kernel. Hence, identifying and characterizing vulnerabilities in UEFI is extremely important for computer security. However, automated detection and characterization of UEFI vulnerabilities is a challenging problem. Static vulnerability analysis techniques are scalable but lack precision (reporting many false positives), whereas symbolic analysis techniques are precise but are hampered by scalability issues due to path explosion and the cost of constraint solving. In this paper, we introduce a technique called STatic Analysis guided Symbolic Execution (STASE), which integrates both analysis approaches to leverage their strengths and minimize their weaknesses. We begin with a rule-based static vulnerability analysis on LLVM bitcode to identify potential vulnerability targets for symbolic execution. We then focus symbolic execution on each target to achieve precise vulnerability detection and signature generation. STASE relies on the manual specification of reusable vulnerability rules and attacker-controlled inputs. However, it automates the generation of harnesses that guide the symbolic execution process, addressing the usability and scalability of symbolic execution, which typically requires manual harness generation to reduce the state space. We implemented and applied STASE to the implementations of UEFI code base. STASE detects and generates vulnerability signatures for 5 out of 9 recently reported PixieFail vulnerabilities and 13 new vulnerabilities in Tianocore's EDKII codebase.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# ItTakesTwo: 半教師付きLiDARセマンティックセマンティックセグメンテーションのためのピア表現の活用

ItTakesTwo: Leveraging Peer Representations for Semi-supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2407.07171v1 )

ライセンス: Link先を確認
Yuyuan Liu, Yuanhong Chen, Hu Wang, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro, (参考訳) セマンティックLiDARセグメンテーション法をモデル化するための大規模なトレーニングセットを作成するための費用と時間を要するアノテーションプロセスは、半教師あり学習法(SSL)の開発を動機付けている。 しかし、このようなSSLアプローチは、個々のLiDAR表現にのみ一貫性学習を採用することに集中することが多い。 この狭い焦点は、一般的に効果的な一貫性学習を実現するのに失敗する限られた摂動をもたらす。 さらに、これらのSSLアプローチは、正および負の埋め込みサンプルの限られたセットからのサンプリングに基づいて、対照的な学習を採用する。 本稿では,ItTakesTwo (IT2)と呼ばれる,半教師付きLiDARセマンティックセマンティックセマンティクスフレームワークを提案する。 IT2は、ピアLiDAR表現からの一貫性のある予測を保証するために設計されており、一貫性学習における摂動効率を改善する。 さらに,本学習では,学習セット全体から学習した正および負の埋め込み分布から抽出した情報的サンプルを用いる。 その結果,本手法は従来のSOTA法よりも顕著に改善されていることがわかった。 コードは、https://github.com/yyliu01/IT2.comで入手できる。

The costly and time-consuming annotation process to produce large training sets for modelling semantic LiDAR segmentation methods has motivated the development of semi-supervised learning (SSL) methods. However, such SSL approaches often concentrate on employing consistency learning only for individual LiDAR representations. This narrow focus results in limited perturbations that generally fail to enable effective consistency learning. Additionally, these SSL approaches employ contrastive learning based on the sampling from a limited set of positive and negative embedding samples. This paper introduces a novel semi-supervised LiDAR semantic segmentation framework called ItTakesTwo (IT2). IT2 is designed to ensure consistent predictions from peer LiDAR representations, thereby improving the perturbation effectiveness in consistency learning. Furthermore, our contrastive learning employs informative samples drawn from a distribution of positive and negative embeddings learned from the entire training set. Results on public benchmarks show that our approach achieves remarkable improvements over the previous state-of-the-art (SOTA) methods in the field. The code is available at: https://github.com/yyliu01/IT2.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# CamFreeDiff:拡散モデルによるパノラマ生成のためのカメラ不要画像

CamFreeDiff: Camera-free Image to Panorama Generation with Diffusion Model ( http://arxiv.org/abs/2407.07174v1 )

ライセンス: Link先を確認
Xiaoding Yuan, Shitao Tang, Kejie Li, Alan Yuille, Peng Wang, (参考訳) 本稿では,1枚のカメラレス画像とテキスト記述から360度画像を出力するCamFreeDiffモデルを提案する。 この方法は、事前定義されたカメラポーズの要求を排除し、MVDiffusionのような既存の戦略と区別する。 その代わり,本モデルでは,マルチビュー拡散フレームワーク内でのホモグラフィーを直接予測する機構を組み込んでいる。 提案手法の核となるのは、入力ビューから予め定義された標準ビューへのホモグラフィ変換を予測することにより、カメラ推定を定式化することである。 このホモグラフィーは、入力画像とパノラマ画像との点レベル対応を提供し、完全に異なる方法で対応認識された接続を可能にする。 定性的かつ定量的な実験結果から、カメラレス入力の困難な状況下での360度画像の強靭性と一般化能力を示す。

This paper introduces Camera-free Diffusion (CamFreeDiff) model for 360-degree image outpainting from a single camera-free image and text description. This method distinguishes itself from existing strategies, such as MVDiffusion, by eliminating the requirement for predefined camera poses. Instead, our model incorporates a mechanism for predicting homography directly within the multi-view diffusion framework. The core of our approach is to formulate camera estimation by predicting the homography transformation from the input view to a predefined canonical view. The homography provides point-level correspondences between the input image and targeting panoramic images, allowing connections enforced by correspondence-aware attention in a fully differentiable manner. Qualitative and quantitative experimental results demonstrate our model's strong robustness and generalization ability for 360-degree image outpainting in the challenging context of camera-free inputs.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# タスクベクトルカスタマイズによるパーソナライズされた審美評価のスケールアップ

Scaling Up Personalized Aesthetic Assessment via Task Vector Customization ( http://arxiv.org/abs/2407.07176v1 )

ライセンス: Link先を確認
Jooyeol Yun, Jaegul Choo, (参考訳) パーソナライズされた画像美的評価の課題は、個別の好みと少数のユーザが提供する入力とを一致させるために、審美的スコア予測モデルをカスタマイズすることである。 しかし、現在のアプローチのスケーラビリティと一般化能力は、高価なキュレートされたデータベースに依存しているため、かなり制限されている。 この長期にわたるスケーラビリティの課題を克服するため,画像の美的評価や画像品質評価に手軽に利用可能なデータベースを活用する,ユニークなアプローチを提案する。 具体的には、各データベースを、パーソナライズポテンシャルの様々な度合いを示す画像スコア回帰タスクとみなす。 各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。 複数のモデルを統合するこのアプローチは、大量のデータを活用することができます。 これまでのアプローチでは,現実のシナリオに高い適用性を持たせるのに苦戦していた。 我々の新しいアプローチは、パーソナライズされた審美的評価のためのスケーラブルなソリューションを提供し、将来の研究のための高い標準を確立することで、この分野を著しく前進させます。 https://yeolj00.github.io/personal-projects/personalized-aesthetics/

The task of personalized image aesthetic assessment seeks to tailor aesthetic score prediction models to match individual preferences with just a few user-provided inputs. However, the scalability and generalization capabilities of current approaches are considerably restricted by their reliance on an expensive curated database. To overcome this long-standing scalability challenge, we present a unique approach that leverages readily available databases for general image aesthetic assessment and image quality assessment. Specifically, we view each database as a distinct image score regression task that exhibits varying degrees of personalization potential. By determining optimal combinations of task vectors, known to represent specific traits of each database, we successfully create personalized models for individuals. This approach of integrating multiple models allows us to harness a substantial amount of data. Our extensive experiments demonstrate the effectiveness of our approach in generalizing to previously unseen domains-a challenge previous approaches have struggled to achieve-making it highly applicable to real-world scenarios. Our novel approach significantly advances the field by offering scalable solutions for personalized aesthetic assessment and establishing high standards for future research. https://yeolj00.github.io/personal-projects/personalized-aesthetics/
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# 量子アニーリングと量子インスピレーション最適化を組み合わせた機械学習によるタンパク質設計

Protein Design by Integrating Machine Learning with Quantum Annealing and Quantum-inspired Optimization ( http://arxiv.org/abs/2407.07177v1 )

ライセンス: Link先を確認
Veronica Panizza, Philipp Hauke, Cristian Micheletti, Pietro Faccioli, (参考訳) タンパク質設計の問題は、与えられた三次元構造に折り畳まれたポリペプチド配列を見つけることである。 その厳密なアルゴリズム解は、列と構造空間におけるネストされた探索を含む、計算的に要求される。 最近の機械学習によるブレークスルーにより、構造検索はバイパスされ、正確で迅速な構造予測が可能になった。 同様に、シーケンス検索は、量子アニールマシンの出現と、古典的マシンでも実行可能な検索問題の新たなエンコーディングによって完全に変換されるかもしれない。 本研究では,機械学習と量子インスパイアされたアルゴリズムのアルゴリズム的および技術的進歩を統合できる汎用的なタンパク質設計手法を導入し,物理に基づく最適スコアリング関数を反復的に学習する。 この第1の概念実証アプリケーションでは,この反復法を網羅的なベンチマークが可能な格子タンパク質モデルに適用し,物理ベースのスコアリング関数を高速に学習し,設計性能を期待できることを示す。 興味深いことに、我々の量子インスパイアされた再構成は、古典機械に採用されても、従来のシーケンス最適化よりも優れています。 このスキームは汎用的で、例えば、オフラッチモデルを含むように容易に拡張でき、様々な計算プラットフォーム上で進歩を統合することができ、タンパク質設計の新しいパラダイムアプローチを表現できる。

The protein design problem involves finding polypeptide sequences folding into a given threedimensional structure. Its rigorous algorithmic solution is computationally demanding, involving a nested search in sequence and structure spaces. Structure searches can now be bypassed thanks to recent machine learning breakthroughs, which have enabled accurate and rapid structure predictions. Similarly, sequence searches might be entirely transformed by the advent of quantum annealing machines and by the required new encodings of the search problem, which could be performative even on classical machines. In this work, we introduce a general protein design scheme where algorithmic and technological advancements in machine learning and quantum-inspired algorithms can be integrated, and an optimal physics-based scoring function is iteratively learned. In this first proof-of-concept application, we apply the iterative method to a lattice protein model amenable to exhaustive benchmarks, finding that it can rapidly learn a physics-based scoring function and achieve promising design performances. Strikingly, our quantum-inspired reformulation outperforms conventional sequence optimization even when adopted on classical machines. The scheme is general and can be easily extended, e.g., to encompass off-lattice models, and it can integrate progress on various computational platforms, thus representing a new paradigm approach for protein design.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# トラックフォーマー:高輝度LHC時代の変圧器を用いた粒子追跡の探索

TrackFormers: In Search of Transformer-Based Particle Tracking for the High-Luminosity LHC Era ( http://arxiv.org/abs/2407.07179v1 )

ライセンス: Link先を確認
Sascha Caron, Nadezhda Dobreva, Antonio Ferrer Sánchez, José D. Martín-Guerrero, Uraz Odyurt, Roberto Ruiz de Austri Bazan, Zef Wolffs, Yue Zhao, (参考訳) 高エネルギー物理実験は、新しいイテレーション毎に複数倍のデータの増加に直面している。 これは間違いなく、次のHigh-Luminosity LHCアップグレードのケースだ。 このようなデータ処理要求の増加は、データ処理パイプラインのほぼすべてのステップにリビジョンを強制する。 このようなオーバーホールが必要なステップの1つは、粒子トラックの再構築、すなわち追跡のタスクである。 トラッキングにおける最も時間を要するステップは、粒子へのヒットの割り当てや、候補の追跡である。 これはこの論文の話題です。 私たちは大きな言語モデルからインスピレーションを受けます。 このように、文中の次の単語(トラック内の次のヒットポイント)の予測と、イベント内のすべてのヒットのワンショット予測の2つのアプローチを考える。 本研究では,Transformerアーキテクチャに基づく3つのモデルと,U-Netアーキテクチャに基づく1つのモデルを用いて,衝突事象のヒット点のトラックアソシエーション予測を行った。 評価では,問題の単純から複雑な表現のスペクトルを考察し,早期に低い指標を持つ設計を排除した。 予測精度(スコア)と計算性能の両方を網羅した広範な結果を報告する。 我々は、REDVIDシミュレーションフレームワークとTrackMLデータセットに適用した削減を利用して、5つのデータセットを単純なものから複雑なものへと構成し、実験を行った。 その結果、予測精度と計算性能の点で異なる設計の異なる利点を強調し、方法論の効率性を実証した。 最も重要なことは、追跡タスクの実践的なアプローチとして、ワンショットエンコーダ分類器ベースのTransformerソリューションが実現可能であることを示すことである。

High-Energy Physics experiments are facing a multi-fold data increase with every new iteration. This is certainly the case for the upcoming High-Luminosity LHC upgrade. Such increased data processing requirements forces revisions to almost every step of the data processing pipeline. One such step in need of an overhaul is the task of particle track reconstruction, a.k.a., tracking. A Machine Learning-assisted solution is expected to provide significant improvements, since the most time-consuming step in tracking is the assignment of hits to particles or track candidates. This is the topic of this paper. We take inspiration from large language models. As such, we consider two approaches: the prediction of the next word in a sentence (next hit point in a track), as well as the one-shot prediction of all hits within an event. In an extensive design effort, we have experimented with three models based on the Transformer architecture and one model based on the U-Net architecture, performing track association predictions for collision event hit points. In our evaluation, we consider a spectrum of simple to complex representations of the problem, eliminating designs with lower metrics early on. We report extensive results, covering both prediction accuracy (score) and computational performance. We have made use of the REDVID simulation framework, as well as reductions applied to the TrackML data set, to compose five data sets from simple to complex, for our experiments. The results highlight distinct advantages among different designs in terms of prediction accuracy and computational performance, demonstrating the efficiency of our methodology. Most importantly, the results show the viability of a one-shot encoder-classifier based Transformer solution as a practical approach for the task of tracking.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# アインシュタインエレベータにおける原子干渉計

Atom interferometry in an Einstein Elevator ( http://arxiv.org/abs/2407.07183v1 )

ライセンス: Link先を確認
Celia Pelluet, Romain Arguel, Martin Rabault, Vincent Jarlaud, Clement Metayer, Brynle Barrett, Philippe Bouyer, Baptiste Battelier, (参考訳) 原子干渉計の最近の進歩は、感度、精度、長期安定性の点で優れた性能を持つ量子慣性センサーの開発につながっている。 地上ベースの実装では、これらのセンサーは最終的に、拡張された時間スケールで原子を問うのに必要な原子泉のフリーフォール高さによって制限される。 この制限は、宇宙や落下塔や自由落下機のようなユニークな「微小重力」施設で克服することができる。 これらの施設は、大規模な投資、長期の開発期間、そしてより広範な使用を制限する楽器に厳格な制約を課す必要がある。 実験で利用できる ‘up time' も非常に低く、拡張された研究を難しくしています。 本研究では,実験室規模のアインシュタインエレベータで原子間干渉法を行う新しい手法を提案する。 実験は13.5秒毎に垂直自由落下軌道を模倣する移動プラットフォームに実装した。 総尋問時間は2T = 200$msであり, 原子試料の温度によって制限された6×10^{-7}$ m/s$^{2}$の加速感度を実証した。 さらに, 再現性が高く, 数日間にわたってアインシュタインエレベータを作動させることにより, 長期統計的研究を行う能力を示す。 これらは微小重力で達成された最先端の結果を表し、宇宙における量子慣性センサーの可能性をさらに示している。 我々の微小重力プラットフォームは、大きな原子泉の代替であり、将来の宇宙ミッションを準備するための多目的施設でもある。

Recent advances in atom interferometry have led to the development of quantum inertial sensors with outstanding performance in terms of sensitivity, accuracy, and long-term stability. For ground-based implementations, these sensors are ultimately limited by the free-fall height of atomic fountains required to interrogate the atoms over extended timescales. This limitation can be overcome in Space and in unique ``microgravity'' facilities such as drop towers or free-falling aircraft. These facilities require large investments, long development times, and place stringent constraints on instruments that further limit their widespread use. The available ``up time'' for experiments is also quite low, making extended studies challenging. In this work, we present a new approach in which atom interferometry is performed in a laboratory-scale Einstein Elevator. Our experiment is mounted to a moving platform that mimics the vertical free-fall trajectory every 13.5 seconds. With a total interrogation time of $2T = 200$ ms, we demonstrate an acceleration sensitivity of $6 \times 10^{-7}$ m/s$^{2}$ per shot, limited primarily by the temperature of our atomic samples. We further demonstrate the capability to perform long-term statistical studies by operating the Einstein Elevator over several days with high reproducibility. These represent state-of-the-art results achieved in microgravity and further demonstrates the potential of quantum inertial sensors in Space. Our microgravity platform is both an alternative to large atomic fountains and a versatile facility to prepare future Space missions.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# 空間的分離操作による量子現実の消去

Quantum Reality Erasure with Spacelike-Separated Operations ( http://arxiv.org/abs/2407.07185v1 )

ライセンス: Link先を確認
J. S. Araújo, Diego S. Starke, A. S. Coelho, J. Maziero, G. H. Aguilar, R. M. Angelo, (参考訳) 1935年、アインシュタイン、ポドルスキー、ローゼンは、局所的な作用が遠い場所(局所現実主義)における現実の要素に影響を与えないという仮定に基づいて、量子力学は不完全であると主張した。 この研究において、最近定義された量子現実量化器を用いて、アリスの局所的な量子演算は、ボブの因果的に非連結な実験室における観測可能物の現実の消去と相関できることを示した。 この目的のために、我々は、アリスとボブの測定が因果的に切断されていることを保証する、修正された光量子消去器実験を実装した。 絡み合った光子対と量子状態トモグラフィーを用いて、古典的なコミュニケーションのあらゆる形態が存在しないにもかかわらず、アリスが光子に適用した量子演算の選択は、ボブの光子の空間的要素の消去と相関していることを実験的に検証した。 この場合、ボブの光子は2つの余分な相互作用のない自由度を絡み合わせることができ、したがってボブの光子経路が物理的な現実の要素ではないことが確かめられる。

In 1935, Einstein, Podolsky, and Rosen argued that quantum mechanics is incomplete, based on the assumption that local actions cannot influence elements of reality at a distant location (local realism). In this work, using a recently defined quantum reality quantifier, we show that Alice's local quantum operations can be correlated with the erasure of the reality of observables in Bob's causally disconnected laboratory. To this end, we implement a modified optical quantum eraser experiment, ensuring that Alice's and Bob's measurements remain causally disconnected. Using an entangled pair of photons and quantum state tomography, we experimentally verify that, even with the total absence of any form of classical communication, the choice of quantum operation applied by Alice on her photon is correlated with the erasure of a spatial element of reality of Bob's photon. In this case, it is shown that Bob's photon can entangle two extra non-interacting degrees of freedom, thus confirming that Bob's photon path is not an element of physical reality.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# タービンサステナビリティのための高可視表面き裂検出

Barely-Visible Surface Crack Detection for Wind Turbine Sustainability ( http://arxiv.org/abs/2407.07186v1 )

ライセンス: Link先を確認
Sourav Agrawal, Isaac Corley, Conor Wallace, Clovis Vaughn, Jonathan Lwowski, (参考訳) 風力エネルギーの生産は、持続可能な開発と化石燃料への依存を減らす重要な部分である。 このエネルギーを生み出すために風力タービンの完全性を維持することは、繰り返し検査とメンテナンスを必要とするコストと時間を要する作業である。 自律ドローンは、このプロセスをより効率的にすることに成功したが、タービンブレードの破滅的な損傷を防ぐための異常を検出するアルゴリズムは、ヘアラインクラックのような危険な欠陥がほとんど見えないため、遅れている。 既存のデータセットや文献は欠落しており、地理的に多様性がないことに加えて、明らかで目に見える欠陥を検出する傾向にある。 本稿では,多くの風車検査から収集した,目立たないヘアラインひび割れの新しい,多種多様なデータセットについて紹介する。 本データセットの有効性を証明するため, 画像取得段階から風力タービンの寿命と効率を向上するための自動メンテナンスレコメンデーションを提供するための予測まで, エンド・ツー・エンドのタービンき裂検出パイプラインを詳述した。

The production of wind energy is a crucial part of sustainable development and reducing the reliance on fossil fuels. Maintaining the integrity of wind turbines to produce this energy is a costly and time-consuming task requiring repeated inspection and maintenance. While autonomous drones have proven to make this process more efficient, the algorithms for detecting anomalies to prevent catastrophic damage to turbine blades have fallen behind due to some dangerous defects, such as hairline cracks, being barely-visible. Existing datasets and literature are lacking and tend towards detecting obvious and visible defects in addition to not being geographically diverse. In this paper we introduce a novel and diverse dataset of barely-visible hairline cracks collected from numerous wind turbine inspections. To prove the efficacy of our dataset, we detail our end-to-end deployed turbine crack detection pipeline from the image acquisition stage to the use of predictions in providing automated maintenance recommendations to extend the life and efficiency of wind turbines.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# ColorPeel:色と形状の絡み合いによる拡散モデルによるカラープロンプト学習

ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement ( http://arxiv.org/abs/2407.07197v1 )

ライセンス: Link先を確認
Muhammad Atif Butt, Kai Wang, Javier Vazquez-Corral, Joost van de Weijer, (参考訳) テキスト・ツー・イメージ(T2I)生成は拡散モデルの出現とともに大きな進歩を遂げた。 これらのモデルは、テキストのプロンプトに基づいて画像を生成する優れた能力を示す。 現在のT2Iモデルでは、ユーザーは言語的な色名を使ってオブジェクトの色を指定することができる。 しかし、これらのラベルは幅広い色域を包含しており、正確な色マッチングを実現することは困難である。 この課題に対処するために,ユーザが選択した色に合わせた特定の色プロンプトを学習することを提案する。 既存のT2Iパーソナライズ手法は、色が絡み合う傾向にある。 これを解決するために、ターゲット色にいくつかの基本的な幾何学的オブジェクトを生成し、色速学習中に色と形状が乱れやすいようにする。 ColorPeelと呼ばれるこの手法は、T2Iモデルのカラープロンプトから新しい色のプロンプトを剥がすのに役立ちます。 実験では、T2Iモデルを用いて正確な色生成を実現する上で、ColorPeelの有効性を実証した。 さらに,ColorPeelを一般化して,テクスチャや材料など,抽象的な属性概念を効果的に学習する。 我々の発見は、T2Iモデルの精度と汎用性を向上させるための重要なステップであり、クリエイティブなアプリケーションやデザインタスクに新たな機会を提供する。 私たちのプロジェクトはhttps://moatifbutt.github.io/colorpeel/で利用可能です。

Text-to-Image (T2I) generation has made significant advancements with the advent of diffusion models. These models exhibit remarkable abilities to produce images based on textual prompts. Current T2I models allow users to specify object colors using linguistic color names. However, these labels encompass broad color ranges, making it difficult to achieve precise color matching. To tackle this challenging task, named color prompt learning, we propose to learn specific color prompts tailored to user-selected colors. Existing T2I personalization methods tend to result in color-shape entanglement. To overcome this, we generate several basic geometric objects in the target color, allowing for color and shape disentanglement during the color prompt learning. Our method, denoted as ColorPeel, successfully assists the T2I models to peel off the novel color prompts from these colored shapes. In the experiments, we demonstrate the efficacy of ColorPeel in achieving precise color generation with T2I models. Furthermore, we generalize ColorPeel to effectively learn abstract attribute concepts, including textures, materials, etc. Our findings represent a significant step towards improving precision and versatility of T2I models, offering new opportunities for creative applications and design tasks. Our project is available at https://moatifbutt.github.io/colorpeel/.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# 量子近似最適化 : 計算知能の観点から

Quantum Approximate Optimization: A Computational Intelligence Perspective ( http://arxiv.org/abs/2407.07202v1 )

ライセンス: Link先を確認
Christo Meriwether Keller, Satyajayant Misra, Andreas Bärtschi, Stephan Eidenbenz, (参考訳) 量子コンピューティング (quantum computing) は、物理学、工学、計算機科学の多分野的なインターフェースの分野であり、計算知能(CI)に大きな影響を与える可能性がある。 本研究の目的は、組合せ問題を解くことの直接的な関連性から、CIコミュニティに量子近似最適化手法を導入することである。 本稿では,量子コンピューティングと変分量子アルゴリズム(VQA)を紹介する。 VQAは、信頼性の低い量子ビットと早期誤差補正を備えたノイズの多い中間スケール量子(NISQ)デバイス上での量子解の短期実装に有効な方法である。 次に、Farhi et alの量子近似最適化アルゴリズム(FarhiのQAOA、混乱を避けるために)を説明する。 このVQAは、ゲートベースの量子コンピュータにおける組合せ最適化問題を解くために自然に着想を得た(特に断熱的な)量子メタヒューリスティックである量子交互演算子 ansatz (QAOA) にハドフィールドらによって一般化される。 本稿では,計算学習理論や遺伝的アルゴリズムなどの関連分野へのQAOAの関連性について論じ,量子古典的ハイブリッドインテリジェンスシステムに関する現在の技術と既知の結果について議論する。 本稿では、QAOAがどのように構築されているかのスキーマを示し、また、QAOAを改善するためにCI技術をどのように使用できるかについて議論する。 我々は、QAOAの使用に関心のあるCI実践者のテンプレートとして機能する、有名な最大カット、最大分割、旅行セールスパーソン問題に対するQAOAの実装を結論付けている。

Quantum computing is an emerging field on the multidisciplinary interface between physics, engineering, and computer science with the potential to make a large impact on computational intelligence (CI). The aim of this paper is to introduce quantum approximate optimization methods to the CI community because of direct relevance to solving combinatorial problems. We introduce quantum computing and variational quantum algorithms (VQAs). VQAs are an effective method for the near-term implementation of quantum solutions on noisy intermediate-scale quantum (NISQ) devices with less reliable qubits and early-stage error correction. Then, we explain Farhi et al.'s quantum approximate optimization algorithm (Farhi's QAOA, to prevent confusion). This VQA is generalized by Hadfield et al. to the quantum alternating operator ansatz (QAOA), which is a nature-inspired (particularly, adiabatic) quantum metaheuristic for approximately solving combinatorial optimization problems on gate-based quantum computers. We discuss connections of QAOA to relevant domains, such as computational learning theory and genetic algorithms, discussing current techniques and known results regarding hybrid quantum-classical intelligence systems. We present a schematic of how QAOA is constructed, and also discuss how CI techniques can be used to improve QAOA. We conclude with QAOA implementations for the well-known maximum cut, maximum bisection, and traveling salesperson problems, which can serve as templates for CI practitioners interested in using QAOA.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# 天皇が服を着る:パスワードマネージャによるWebユーザ認証のためのセキュアなガバナンスフレームワーク

The Emperor is Now Clothed: A Secure Governance Framework for Web User Authentication through Password Managers ( http://arxiv.org/abs/2407.07205v1 )

ライセンス: Link先を確認
Ali Cherry, Konstantinos Barmpis, Siamak F. Shahandashti, (参考訳) パスワードマネージャとWebアプリケーション間のインタラクションを促進する既存のアプローチは、適切な機能を提供し、重要な攻撃に対する緩和戦略を提供していない。 HTML Autofillは十分な表現力がなく、Credential Management APIはブラウザ拡張パスワードマネージャをサポートしておらず、他の提案されたソリューションは確立したユーザメンタルモデルに準拠していない。 本稿では,パスワードマネージャとWebアプリケーション間のインタラクションを仲介するブラウザベースのガバナンスフレームワークであるBerytusを提案する。 2つのAPIは、パスワードマネージャとWebアプリケーションの間のオーケストレータとして機能するBerytusをサポートするように設計されている。 Firefoxにおけるフレームワークの実装は、登録および認証プロセスを完全にサポートする。 これは、フィッシング、クロスサイトスクリプティング、インラインコードインジェクション(例えば、悪意のあるブラウザ拡張による)、TLSプロキシに対する効果的な緩和戦略を提供するのに対して、コンテンツセキュリティポリシーやクレデンシャルトークン化のような既存の緩和戦略は部分的に有効である。 フレームワーク設計は、マルチステップ、マルチファクタ、カスタム認証スキームのサポートなど、望ましい機能も提供する。 包括的セキュリティと機能評価を提供し、将来的な方向性について議論する。

Existing approaches to facilitate the interaction between password managers and web applications fall short of providing adequate functionality and mitigation strategies against prominent attacks. HTML Autofill is not sufficiently expressive, Credential Management API does not support browser extension password managers, and other proposed solutions do not conform to established user mental models. In this paper, we propose Berytus, a browser-based governance framework that mediates the interaction between password managers and web applications. Two APIs are designed to support Berytus acting as an orchestrator between password managers and web applications. An implementation of the framework in Firefox is developed that fully supports registration and authentication processes. As an orchestrator, Berytus is able to authenticate web applications and facilitate authenticated key exchange between web applications and password managers, which as we show, can provide effective mitigation strategies against phishing, cross-site scripting, inline code injection (e.g., by a malicious browser extension), and TLS proxy in the middle attacks, whereas existing mitigation strategies such as Content Security Policy and credential tokenisation are only partially effective. The framework design also provides desirable functional properties such as support for multi-step, multi-factor, and custom authentication schemes. We provide a comprehensive security and functionality evaluation and discuss possible future directions.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# 弱塩基性および報告バイアスは、流体関連偏微分方程式に対する機械学習における過最適化をもたらす

Weak baselines and reporting biases lead to overoptimism in machine learning for fluid-related partial differential equations ( http://arxiv.org/abs/2407.07218v1 )

ライセンス: Link先を確認
Nick McGreivy, Ammar Hakim, (参考訳) 計算物理学における機械学習(ML)の最も有望な応用の1つは、偏微分方程式(PDE)の解を加速することである。 MLベースのPDEソルバの主な目的は、ベースライン比較として使用される標準数値法よりも十分正確な解を出力することである。 まず,ML-for-PDE論文の体系的レビューを行う。 MLを用いて流体関連PDEを解き、標準的な数値法より優れていると主張する記事のうち、79%(60/76)が弱いベースラインと比較した。 第二に、レポートのバイアス、特に結果のバイアスと公開のバイアスが広く見られる証拠を見つけます。 我々は、ML-for-PDE問題解決研究は過度に最適化されていると結論付け、弱いベースラインは過度にポジティブな結果をもたらす一方、報告バイアスはネガティブな結果の過度な報告につながると結論付けた。 これらの問題は、研究者の自由度と肯定的な結果に対する偏見という、過去の再現可能性の危機に類似した要因によって大きく引き起こされたように見える。 我々は、偏見のある報告を最小限に抑えるためにボトムアップの文化的変化と、それを行うための逆のインセンティブを減らすことを目的としたトップダウンの構造改革を要求します。

One of the most promising applications of machine learning (ML) in computational physics is to accelerate the solution of partial differential equations (PDEs). The key objective of ML-based PDE solvers is to output a sufficiently accurate solution faster than standard numerical methods, which are used as a baseline comparison. We first perform a systematic review of the ML-for-PDE solving literature. Of articles that use ML to solve a fluid-related PDE and claim to outperform a standard numerical method, we determine that 79% (60/76) compare to a weak baseline. Second, we find evidence that reporting biases, especially outcome reporting bias and publication bias, are widespread. We conclude that ML-for-PDE solving research is overoptimistic: weak baselines lead to overly positive results, while reporting biases lead to underreporting of negative results. To a large extent, these issues appear to be caused by factors similar to those of past reproducibility crises: researcher degrees of freedom and a bias towards positive results. We call for bottom-up cultural changes to minimize biased reporting as well as top-down structural reforms intended to reduce perverse incentives for doing so.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# ガウススプレイティングによる参照型制御可能なシーンスティライゼーション

Reference-based Controllable Scene Stylization with Gaussian Splatting ( http://arxiv.org/abs/2407.07220v1 )

ライセンス: Link先を確認
Yiqun Mei, Jiacong Xu, Vishal M. Patel, (参考訳) コンテンツアラインな参照画像に基づいて外観を編集する参照ベースシーンスタイリングは、新たな研究領域である。 トレーニング済みのニューラルラディアンス場(NeRF)から始めると、既存の手法は通常、与えられたスタイルにマッチする新しい外観を学ぶ。 有効性にもかかわらず、それらは本質的に時間を要するボリュームレンダリングに悩まされており、多くのリアルタイムアプリケーションにとって実用的ではない。 本研究では,3次元ガウススティング(3DGS)を参照型スタイリゼーションに適用し,リアルタイムなスタイリゼーション・ビュー・シンセサイザーを実現するReGSを提案する。 事前訓練された3DGSの外観を編集することは、個々のガウスを3D表現として使用し、外観と幾何学を強く結び付けるため困難である。 与えられた参照画像の連続的なテクスチャをモデル化するには、事前の手法として外観を単純に最適化することが不十分であることが多い。 この課題に対処するために、我々は、局所的な責任を持つガウスを新しい幾何学的配置に適応的に調整し、所望のテクスチャの詳細に役立てる新しいテクスチャ誘導制御機構を提案する。 提案手法は, 効果的な外観編集のためのテクスチャヒントによってガイドされ, 元の幾何学的構造を保存するためのシーン深さによって正規化される。 これらの新しい設計により、ReGsは参照テクスチャを尊重し、フリービューナビゲーションのためのリアルタイムレンダリング速度を受け入れながら、最先端のスタイリング結果を生成することができることを示す。

Referenced-based scene stylization that edits the appearance based on a content-aligned reference image is an emerging research area. Starting with a pretrained neural radiance field (NeRF), existing methods typically learn a novel appearance that matches the given style. Despite their effectiveness, they inherently suffer from time-consuming volume rendering, and thus are impractical for many real-time applications. In this work, we propose ReGS, which adapts 3D Gaussian Splatting (3DGS) for reference-based stylization to enable real-time stylized view synthesis. Editing the appearance of a pretrained 3DGS is challenging as it uses discrete Gaussians as 3D representation, which tightly bind appearance with geometry. Simply optimizing the appearance as prior methods do is often insufficient for modeling continuous textures in the given reference image. To address this challenge, we propose a novel texture-guided control mechanism that adaptively adjusts local responsible Gaussians to a new geometric arrangement, serving for desired texture details. The proposed process is guided by texture clues for effective appearance editing, and regularized by scene depth for preserving original geometric structure. With these novel designs, we show ReGs can produce state-of-the-art stylization results that respect the reference texture while embracing real-time rendering speed for free-view navigation.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# フェデレーション・ラーニングの攻撃に対する悪質なクライアントの追跡

Tracing Back the Malicious Clients in Poisoning Attacks to Federated Learning ( http://arxiv.org/abs/2407.07221v1 )

ライセンス: Link先を確認
Yuqi Jia, Minghong Fang, Hongbin Liu, Jinghuai Zhang, Neil Zhenqiang Gong, (参考訳) 中毒攻撃は、学習したグローバルモデルがターゲット入力と呼ばれるアタッカー・チョセン入力を誤分類するように、連合学習(FL)の訓練フェーズを損なう。 既存の防衛は、学習したグローバルモデルが無毒であるように、FLのトレーニングフェーズの保護に重点を置いている。 しかし,本実験で確認したように,クライアントのローカルトレーニングデータが極めて非IDである場合や,悪意のあるクライアントの数が多ければ,これらの防御は限られた効果が得られることが多い。 本研究はFLForensics, FLForensics, the first poison-forensics methodである。 FLForensicsは既存の訓練段階の防衛を補完する。 特に、訓練段階の防衛が失敗し、有毒なグローバルモデルが展開された場合、FLForensicsは、誤分類されたターゲット入力が特定された後、毒攻撃を行った悪意のあるクライアントを追跡することを目的としている。 FLForensicsは、毒殺攻撃の正式な定義の下で、良性クライアントと悪意クライアントを正確に区別できることを理論的に示す。 さらに, FLForensicsが5つのベンチマークデータセットに対して, 既存および適応的な中毒攻撃の追跡に有効であることを実証的に示す。

Poisoning attacks compromise the training phase of federated learning (FL) such that the learned global model misclassifies attacker-chosen inputs called target inputs. Existing defenses mainly focus on protecting the training phase of FL such that the learnt global model is poison free. However, these defenses often achieve limited effectiveness when the clients' local training data is highly non-iid or the number of malicious clients is large, as confirmed in our experiments. In this work, we propose FLForensics, the first poison-forensics method for FL. FLForensics complements existing training-phase defenses. In particular, when training-phase defenses fail and a poisoned global model is deployed, FLForensics aims to trace back the malicious clients that performed the poisoning attack after a misclassified target input is identified. We theoretically show that FLForensics can accurately distinguish between benign and malicious clients under a formal definition of poisoning attack. Moreover, we empirically show the effectiveness of FLForensics at tracing back both existing and adaptive poisoning attacks on five benchmark datasets.
翻訳日:2024-07-11 18:41:00 公開日:2024-07-09
# SPINEXクラスタリング:クラスタリング問題に対する説明可能な近傍探索と類似性に基づく予測

SPINEX-Clustering: Similarity-based Predictions with Explainable Neighbors Exploration for Clustering Problems ( http://arxiv.org/abs/2407.07222v1 )

ライセンス: Link先を確認
MZ Naser, Ahmed Naser, (参考訳) 本稿では,SPINEX(Similarity-based Predictions with Explainable Neighbors Exploration)アルゴリズムの新たなクラスタリングアルゴリズムを提案する。 新たに提案されたクラスタリング変種は、複数のサブスペースにまたがる類似性と高次相互作用の概念を活用して、データをクラスタにグループ化する。 SPINEXの利点を示すために、Affinity Propagation, Agglomerative, Birch, DBSCAN, Gaussian Mixture, HDBSCAN, K-Means, KMedoids, Mean Shift, MiniBatch K-Means, OPTICS, Spectral Clustering, Ward Hierarchicalという13のアルゴリズムに対して、徹底的なベンチマーク実験を行った。 そして, 各種領域, 次元, 複雑度から合成された51個のデータセットに対して, 全アルゴリズムの性能について検討した。 さらに,SPINEXの複雑性と上記のアルゴリズムの複雑さを比較するために,相補的な複雑性解析を提案する。 以上の結果から,SPINEXのクラスタリングアルゴリズムは,上位5位以内のクラスタリングアルゴリズムより優れ,難易度が高いことが示唆された。 最後に,SPINEXにおける説明可能性の実証と今後の研究ニーズについて述べる。

This paper presents a novel clustering algorithm from the SPINEX (Similarity-based Predictions with Explainable Neighbors Exploration) algorithmic family. The newly proposed clustering variant leverages the concept of similarity and higher-order interactions across multiple subspaces to group data into clusters. To showcase the merit of SPINEX, a thorough set of benchmarking experiments was carried out against 13 algorithms, namely, Affinity Propagation, Agglomerative, Birch, DBSCAN, Gaussian Mixture, HDBSCAN, K-Means, KMedoids, Mean Shift, MiniBatch K-Means, OPTICS, Spectral Clustering, and Ward Hierarchical. Then, the performance of all algorithms was examined across 51 synthetic and real datasets from various domains, dimensions, and complexities. Furthermore, we present a companion complexity analysis to compare the complexity of SPINEX to that of the aforementioned algorithms. Our results demonstrate that SPINEX can outperform commonly adopted clustering algorithms by ranking within the top-5 best performing algorithms and has moderate complexity. Finally, a demonstration of the explainability capabilities of SPINEX, along with future research needs, is presented.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# ConvNLP:画像ベースのAIテキスト検出

ConvNLP: Image-based AI Text Detection ( http://arxiv.org/abs/2407.07225v1 )

ライセンス: Link先を確認
Suriya Prakash Jambunathan, Ashwath Shankarnarayan, Parijat Dube, (参考訳) 大規模言語モデル(LLM)のような生成AI技術が教育に革命をもたらす可能性は、その誤用に関する倫理的考察によって損なわれ、学術的不正の問題が悪化する。 GPT-4やLlama 2のようなLLMは、学術エッセイを書くことから複雑な数学問題を解くことまで、洗練されたコンテンツを生成し、質問に答える上でますます強力になっている。 学生はこれらの LLM を活用して課題を完了し、学術的整合性を損なう。 LLM生成テキストを検出するソリューションは計算集約的であり、一般化に欠けることが多い。 本稿では,単語埋め込みの視覚的表現を用いたLLM生成AIテキストの検出手法を提案する。 我々は、ZigZag ResNetと呼ばれる新しい畳み込みニューラルネットワークと、ZigZag Schedulerと呼ばれる一般化を改善するスケジューラを定式化した。 6種類のLLMから生成されたテキストのデータセットを広範囲に評価することにより,ドメイン内およびドメイン間一般化能力の強いモデルを示す。 我々の最良のモデルは、AI生成テキストを印象的な平均検出率(ドメイン間およびドメイン内テストデータ以上)88.35%で検出する。 徹底的なアブレーション調査を通じて、ZigZag ResNetとZigZag Schedulerは、バニラResNetよりも4%近いパフォーマンス改善を提供します。 私たちのモデルのエンドツーエンドの推論レイテンシは、文あたり2.5ms以下です。 私たちのソリューションは、AI生成テキスト検出のための既存のツールに代わる、軽量で、計算効率が高く、高速な代替手段を提供する。 学術的な環境でのLLMの誤用と戦う学術機関を支援することができる。 本研究は,学術的完全性の原則の保護と,先進LLM時代の学生労働の信頼性確保に貢献することを目的とする。

The potentials of Generative-AI technologies like Large Language models (LLMs) to revolutionize education are undermined by ethical considerations around their misuse which worsens the problem of academic dishonesty. LLMs like GPT-4 and Llama 2 are becoming increasingly powerful in generating sophisticated content and answering questions, from writing academic essays to solving complex math problems. Students are relying on these LLMs to complete their assignments and thus compromising academic integrity. Solutions to detect LLM-generated text are compute-intensive and often lack generalization. This paper presents a novel approach for detecting LLM-generated AI-text using a visual representation of word embedding. We have formulated a novel Convolutional Neural Network called ZigZag ResNet, as well as a scheduler for improving generalization, named ZigZag Scheduler. Through extensive evaluation using datasets of text generated by six different state-of-the-art LLMs, our model demonstrates strong intra-domain and inter-domain generalization capabilities. Our best model detects AI-generated text with an impressive average detection rate (over inter- and intra-domain test data) of 88.35%. Through an exhaustive ablation study, our ZigZag ResNet and ZigZag Scheduler provide a performance improvement of nearly 4% over the vanilla ResNet. The end-to-end inference latency of our model is below 2.5ms per sentence. Our solution offers a lightweight, computationally efficient, and faster alternative to existing tools for AI-generated text detection, with better generalization performance. It can help academic institutions in their fight against the misuse of LLMs in academic settings. Through this work, we aim to contribute to safeguarding the principles of academic integrity and ensuring the trustworthiness of student work in the era of advanced LLMs.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# インタラクション方程式の解明:ソーシャルメディアホームページ推薦におけるユーザインタラクションの効果の定量化

Uncovering the Interaction Equation: Quantifying the Effect of User Interactions on Social Media Homepage Recommendations ( http://arxiv.org/abs/2407.07227v1 )

ライセンス: Link先を確認
Hussam Habib, Ryan Stoldt, Raven Maragh-Lloyd, Brian Ekdale, Rishab Nithyanand, (参考訳) ソーシャルメディアプラットフォームは、ユーザーがパーソナライズしたコンテンツを選択、キュレート、提供するためのアルゴリズムに依存している。 これらのアルゴリズムは、ユーザの過去のインタラクションと広範なコンテンツライブラリを活用して、エクスペリエンスをパーソナライズし、エンゲージメントを高めるコンテンツの検索とランク付けを行う。 このアルゴリズムでキュレートされたコンテンツを配信できる様々なモダリティの中で、ホームページフィードが最も顕著である。 本稿は、YouTube、Reddit、X(旧Twitter)の3つの主要プラットフォームにわたる、ユーザのホームページフィードに提示されるコンテンツに、これまでのユーザーインタラクションがどのように影響するかを包括的に調査する。 我々は、ホームページコンテンツに対する特定のユーザーインタラクションの影響を明らかにすることのできるデータを収集するために、慎重に設計された一連の実験を使用する。 本研究は,各プラットフォームが使用するコンテンツキュレーションアルゴリズムの動作,ユーザインタラクションに対する反応,および特定のトピックの優先順位付けの証拠を明らかにする。

Social media platforms depend on algorithms to select, curate, and deliver content personalized for their users. These algorithms leverage users' past interactions and extensive content libraries to retrieve and rank content that personalizes experiences and boosts engagement. Among various modalities through which this algorithmically curated content may be delivered, the homepage feed is the most prominent. This paper presents a comprehensive study of how prior user interactions influence the content presented on users' homepage feeds across three major platforms: YouTube, Reddit, and X (formerly Twitter). We use a series of carefully designed experiments to gather data capable of uncovering the influence of specific user interactions on homepage content. This study provides insights into the behaviors of the content curation algorithms used by each platform, how they respond to user interactions, and also uncovers evidence of deprioritization of specific topics.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# 生成モデルのための物理に基づく地層真実の源としての銀河進化の利用

Using Galaxy Evolution as Source of Physics-Based Ground Truth for Generative Models ( http://arxiv.org/abs/2407.07229v1 )

ライセンス: Link先を確認
Yun Qi Li, Tuan Do, Evan Jones, Bernie Boscoe, Kevin Alfaro, Zooey Nguyen, (参考訳) 画像を生成する生成モデルは、科学分野における発見を前進させる大きな可能性があり、高次元の出力を定量化できるメトリクスを必要とする。 本研究では、銀河画像などの天体物理学データを用いて、人間による判断に加えて、物理を動機とした地上の真理を付加した生成モデルを検証できることを提案する。 例えば、宇宙の銀河は数十億年にわたって形成され変化し、物理的法則や関係に従えば容易に特徴づけられ、生成モデルの符号化が困難である。 我々は,条件付き拡散確率モデル (DDPM) と条件付き変分オートエンコーダ (CVAE) を構築し,その赤方偏移(ギャラクシー年代)に基づいて現実的な銀河を生成する能力を検証した。 これは、これらの生成モデルを物理的に動機付けられたメトリクスを用いて探索する最初の研究の1つである。 どちらのモデルも、人間の評価に基づいて、同等の現実的な銀河を生成することが分かっていますが、我々の物理学に基づくメトリクスは、生成モデルの強みと弱みをよりよく識別することができます。 DDPMモデルは、物理ベースの指標の大部分がCVAEよりも優れている。 最終的に、生成モデルが銀河進化の物理を学べることを示すことができれば、彼らは新しい天体物理学的な発見を解き放つ可能性がある。

Generative models producing images have enormous potential to advance discoveries across scientific fields and require metrics capable of quantifying the high dimensional output. We propose that astrophysics data, such as galaxy images, can test generative models with additional physics-motivated ground truths in addition to human judgment. For example, galaxies in the Universe form and change over billions of years, following physical laws and relationships that are both easy to characterize and difficult to encode in generative models. We build a conditional denoising diffusion probabilistic model (DDPM) and a conditional variational autoencoder (CVAE) and test their ability to generate realistic galaxies conditioned on their redshifts (galaxy ages). This is one of the first studies to probe these generative models using physically motivated metrics. We find that both models produce comparable realistic galaxies based on human evaluation, but our physics-based metrics are better able to discern the strengths and weaknesses of the generative models. Overall, the DDPM model performs better than the CVAE on the majority of the physics-based metrics. Ultimately, if we can show that generative models can learn the physics of galaxy evolution, they have the potential to unlock new astrophysical discoveries.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# 非マルコフ量子確率モデルに対するカーネルヒルベルト空間の再現的アプローチ

Reproducing Kernel Hilbert Space Approach to Non-Markovian Quantum Stochastic Models ( http://arxiv.org/abs/2407.07231v1 )

ライセンス: Link先を確認
John E. Gough, Haijin Ding, Nina H. Amini, (参考訳) ボソニック浴に結合した量子力学系のモデルから、Di{\'o}si と Strunz の非マルコフ量子状態拡散方程式を導出する。 浴槽のバルグマン・セガル(複素波)表現を用いて複雑な軌道が生じることを示す。 特に、入浴自己相関のための再生カーネルヒルベルト空間を構築し、ヒルベルト部分空間として複素軌跡の空間を実現する。 再生核は、基底となる特徴空間がバス量子の1粒子ヒルベルト空間であるような特徴空間から自然に生じる。 これを利用して、開量子系力学の暴言を導き、Di{\'o}si と Strunz の方程式と等価性を示す。 また、Jaynes-Cummings相互作用を介して浴槽に結合した二層系の還元力学を明示的に表現し、これが実際にDi{\'o}si-Strunz方程式の正確な解に対応することを示す。 最後に、複素軌道の物理的解釈について議論し、それらが本質的に観測不能であることを示す。

We give a derivation of the non-Markovian quantum state diffusion equation of Di{\'o}si and Strunz starting from a model of a quantum mechanical system coupled to a bosonic bath. We show that the complex trajectories arises as a consequence of using the Bargmann-Segal (complex wave) representation of the bath. In particular, we construct a reproducing kernel Hilbert space for the bath auto-correlation and realize the space of complex trajectories as a Hilbert subspace. The reproducing kernel naturally arises from a feature space where the underlying feature space is the one-particle Hilbert space of the bath quanta. We exploit this to derive the unravelling of the open quantum system dynamics and show equivalence to the equation of Di{\'o}si and Strunz. We also give an explicit expression for the reduced dynamics of a two-level system coupled to the bath via a Jaynes-Cummings interaction and show that this does indeed correspond to an exact solution of the Di{\'o}si-Strunz equation. Finally, we discuss the physical interpretation of the complex trajectories and show that they are intrinsically unobservable.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# ジェンダー後のスピーチ: 音声科学とテクノロジーの次のステップ

Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology ( http://arxiv.org/abs/2407.07235v1 )

ライセンス: Link先を確認
Robin Netzorg, Alyssa Cote, Sumi Koshin, Klo Vivienne Garoute, Gopala Krishna Anumanchipalli, (参考訳) 音声修正の専門家として、トランスフェミニン性確認音声教師は、現在の話者アイデンティティの理解を損なうような、音声に関するユニークな視点を持っている。 そこで本研究では,VVD(Versatile Voice Dataset, Versatile Voice Dataset, VVD)について紹介する。 VVDは、ジェンダーのカテゴリー的概念と声道テクスチャの静的理解に基づく話者モデリングにおける現在のアプローチが、声道の柔軟性を考慮しないことを示している。 公に利用可能な話者埋め込みを利用して、性別分類システムは音声修正に非常に敏感であることを示し、話者検証システムは、音声修正がより顕著になるにつれて、同じ話者から来るものを特定するのに失敗する。 話者識別のカテゴリー的および静的な概念を超えて進むための1つの道として、ピッチ、共鳴、重みといった声質の個々の特性をモデル化することを提案する。

As experts in voice modification, trans-feminine gender-affirming voice teachers have unique perspectives on voice that confound current understandings of speaker identity. To demonstrate this, we present the Versatile Voice Dataset (VVD), a collection of three speakers modifying their voices along gendered axes. The VVD illustrates that current approaches in speaker modeling, based on categorical notions of gender and a static understanding of vocal texture, fail to account for the flexibility of the vocal tract. Utilizing publicly-available speaker embeddings, we demonstrate that gender classification systems are highly sensitive to voice modification, and speaker verification systems fail to identify voices as coming from the same speaker as voice modification becomes more drastic. As one path towards moving beyond categorical and static notions of speaker identity, we propose modeling individual qualities of vocal texture such as pitch, resonance, and weight.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# 量子模倣ゲーム:量子機械学習モデルのリバースエンジニアリング

The Quantum Imitation Game: Reverse Engineering of Quantum Machine Learning Models ( http://arxiv.org/abs/2407.07237v1 )

ライセンス: Link先を確認
Archisman Ghosh, Swaroop Ghosh, (参考訳) 量子機械学習(QML)は、機械学習モデルと量子コンピューティングのパラダイムを融合させ、複雑な問題を解決するための大きな可能性を提供する。 しかし、量子コンピューティングのノイズイ中間スケール量子(NISQ)時代における多くのサードパーティベンダーの拡大により、QMLモデルのセキュリティは特にリバースエンジニアリングに対して重要であり、モデルの訓練されたパラメータやアルゴリズムを公開できる。 我々は、信頼できない量子クラウドプロバイダが、推論中にトランスパイルされたユーザ設計のトレーニングされたQMLモデルにホワイトボックスアクセスを持つ敵であると仮定する。 逆エンジニアリング(RE)は、プリトランスパイルされたQML回路を抽出し、全く異なるネイティブゲートセットと異なるキュービット技術を持つ様々なハードウェアに対するモデルの再トランスパイルと使用を可能にする。 このような柔軟性は、特定のハードウェアと量子ビット技術に結びついているトランスパイル回路から得られない。 パラメータの数や最適化された値に関する情報は、QMLモデルのさらなるトレーニングを可能にして、QMLモデルを変更したり、透かしを改ざんしたり、あるいは独自の透かしを埋め込んだり、他の目的のためにモデルを洗練したりすることができる。 本稿では,QML回路のREを調べるための最初の試みとして,様々なサイズのオリジナルおよびリバースエンジニアリング量子ニューラルネットワーク(QNN)のトレーニング精度を比較した。 マルチキュービット分類器は、順序1e-2の平均誤差を妥当な時間で、特定の条件下でリバースエンジニアリング可能であることに留意する。 また,QMLモデルにダミー固定パラメトリックゲートを追加して,防御のREオーバーヘッドを増大させる方法を提案する。 例えば、2つのダミーキュービットと2つのレイヤを追加すると、2つのキュービットと3つのレイヤを持つ分類器のオーバーヘッドが約1.76倍になる。 REは非常に強力な攻撃モデルであり、防衛へのさらなる努力を保証することに留意する。

Quantum Machine Learning (QML) amalgamates quantum computing paradigms with machine learning models, providing significant prospects for solving complex problems. However, with the expansion of numerous third-party vendors in the Noisy Intermediate-Scale Quantum (NISQ) era of quantum computing, the security of QML models is of prime importance, particularly against reverse engineering, which could expose trained parameters and algorithms of the models. We assume the untrusted quantum cloud provider is an adversary having white-box access to the transpiled user-designed trained QML model during inference. Reverse engineering (RE) to extract the pre-transpiled QML circuit will enable re-transpilation and usage of the model for various hardware with completely different native gate sets and even different qubit technology. Such flexibility may not be obtained from the transpiled circuit which is tied to a particular hardware and qubit technology. The information about the number of parameters, and optimized values can allow further training of the QML model to alter the QML model, tamper with the watermark, and/or embed their own watermark or refine the model for other purposes. In this first effort to investigate the RE of QML circuits, we perform RE and compare the training accuracy of original and reverse-engineered Quantum Neural Networks (QNNs) of various sizes. We note that multi-qubit classifiers can be reverse-engineered under specific conditions with a mean error of order 1e-2 in a reasonable time. We also propose adding dummy fixed parametric gates in the QML models to increase the RE overhead for defense. For instance, adding 2 dummy qubits and 2 layers increases the overhead by ~1.76 times for a classifier with 2 qubits and 3 layers with a performance overhead of less than 9%. We note that RE is a very powerful attack model which warrants further efforts on defenses.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# RotRNN: 長いシーケンスをローテーションでモデル化する

RotRNN: Modelling Long Sequences with Rotations ( http://arxiv.org/abs/2407.07239v1 )

ライセンス: Link先を確認
Rares Dolga, Kai Biegun, Jake Cunningham, David Barber, (参考訳) ステートスペースモデル(SSM)やリニアリカレントユニット(LRU)のような線形リカレントモデルは、最近、ロングシーケンスモデリングベンチマークで最先端のパフォーマンスを示している。 彼らの成功にもかかわらず、多くの欠点、特にその複雑な初期化と正規化スキームが伴っている。 本研究では、回転行列の便利な性質を利用する線形リカレントモデルであるRotRNNを提案することにより、これらの問題に対処する。 我々は,RotRNNが従来よりも理論的な仮定が少なく,理論的な導出に忠実で,LRUとSSMに匹敵するスコアを複数の長いシーケンスモデリングデータセットで達成できるような,シンプルなモデルを提供することを示した。

Linear recurrent models, such as State Space Models (SSMs) and Linear Recurrent Units (LRUs), have recently shown state-of-the-art performance on long sequence modelling benchmarks. Despite their success, they come with a number of drawbacks, most notably their complex initialisation and normalisation schemes. In this work, we address some of these issues by proposing RotRNN -- a linear recurrent model which utilises the convenient properties of rotation matrices. We show that RotRNN provides a simple model with fewer theoretical assumptions than prior works, with a practical implementation that remains faithful to its theoretical derivation, achieving comparable scores to the LRU and SSMs on several long sequence modelling datasets.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# $\exp(A+B)$のいくつかの非代数形式

Some non-algebraic forms of $\exp(A+B)$ ( http://arxiv.org/abs/2407.07241v1 )

ライセンス: Link先を確認
M. A. Tapia-Valerdi, I. Ramos-Prieto, F. Soto-Eguibar, H. M. Moya-Cessa, (参考訳) 演算子(あるいはスーパー演算子) $\hat{A}$ と $\hat{B}$ は既知の分解に繋がる方法で可換ではないが、$\exp(\hat{A}+\hat{B})$ の式を導出できる例を示す。 我々は、単光子崩壊をモデル化したリンドブラッド作用素や二元グラウバー・フォックフォトニック格子に適用する。

We present examples where expressions for $\exp(\hat{A}+\hat{B})$ can be derived even though the operators (or superoperators) $\hat{A}$ and $\hat{B}$ do not commute in a manner that leads to known factorizations. We apply our factorization to the case of a Lindblad operator modeling single photon decay and to a binary Glauber-Fock photonic lattice.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# クープマン作用素のテンソルネットワーク近似

Tensor network approximation of Koopman operators ( http://arxiv.org/abs/2407.07242v1 )

ライセンス: Link先を確認
Dimitrios Giannakis, Mohammad Javad Latifi Jebelli, Michael Montgomery, Philipp Pfeffer, Jörg Schumacher, Joanna Slawinska, (参考訳) 本稿では,測度保存エルゴディックシステムの可観測物の進化を近似するテンソルネットワークフレームワークを提案する。 我々のアプローチは、双対化可能で、スキュー随伴作用素 $W_\tau$ で、ヒルベルト空間 $\mathcal H_\tau$ に作用するスキュー随伴クープマン生成器のスペクトル収束近似と、関数の点積の下でのバナッハ代数構造に基づく。 この構造を利用すると、ユニタリ進化作用素 $e^{t W_\tau}$(正規化されたクープマン作用素と見なすことができる)を Fock 空間上のユニタリ進化群 $F(\mathcal H_\tau)$ に持ち上げ、テンソル積に関して乗法的に作用する$\mathcal H_\tau$ が生成される。 このスキームでは、フォック空間に作用する量子可観測子(自己随伴作用素)による古典的可観測関数(L^\infty$函数)の表現や、量子状態によるL^1$の確率密度の表現も採用している。 これらの構成を組み合わせることで、テンソル積部分空間 $\mathcal H_\tau^{\otimes n} \subset F(\mathcal H_\tau)$ 上に構築されたツリーテンソルネットワークの評価として表現可能な可観測物のクープマン進化が近似される。 この量子に着想を得た近似の重要な特徴は、次元$(2d+1)^n$のテンソル積空間からの情報を取り、$W_\tau$の2d + 1$固有関数の集合から生成されることである。 さらに、近似は正の保存である。 本論文は、2-トーラス上の2つの力学系に対する理論収束解析を含む: エルゴードトーラス回転を純点クープマンスペクトルの例とし、ステパノフフローを位相的弱混合の例とする。

We propose a tensor network framework for approximating the evolution of observables of measure-preserving ergodic systems. Our approach is based on a spectrally-convergent approximation of the skew-adjoint Koopman generator by a diagonalizable, skew-adjoint operator $W_\tau$ that acts on a reproducing kernel Hilbert space $\mathcal H_\tau$ with coalgebra structure and Banach algebra structure under the pointwise product of functions. Leveraging this structure, we lift the unitary evolution operators $e^{t W_\tau}$ (which can be thought of as regularized Koopman operators) to a unitary evolution group on the Fock space $F(\mathcal H_\tau)$ generated by $\mathcal H_\tau$ that acts multiplicatively with respect to the tensor product. Our scheme also employs a representation of classical observables ($L^\infty$ functions of the state) by quantum observables (self-adjoint operators) acting on the Fock space, and a representation of probability densities in $L^1$ by quantum states. Combining these constructions leads to an approximation of the Koopman evolution of observables that is representable as evaluation of a tree tensor network built on a tensor product subspace $\mathcal H_\tau^{\otimes n} \subset F(\mathcal H_\tau)$ of arbitrarily high grading $n \in \mathbb N$. A key feature of this quantum-inspired approximation is that it captures information from a tensor product space of dimension $(2d+1)^n$, generated from a collection of $2d + 1$ eigenfunctions of $W_\tau$. Furthermore, the approximation is positivity preserving. The paper contains a theoretical convergence analysis of the method and numerical applications to two dynamical systems on the 2-torus: an ergodic torus rotation as an example with pure point Koopman spectrum and a Stepanoff flow as an example with topological weak mixing.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# 条件緩和拡散インバージョンによるFew-Shot画像生成

Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion ( http://arxiv.org/abs/2407.07249v1 )

ライセンス: Link先を確認
Yu Cao, Shaogang Gong, (参考訳) 深部生成モデル(DGM)を用いたFew-Shot画像生成(FSIG)の分野では、最小サンプルで対象領域の分布を正確に推定することが大きな課題である。 これは、幅広い多様性と対象領域分布の真の特性の両方をキャプチャできる方法を必要とする。 合成画像生成における分布の多様性を高めるために, 条件緩和拡散インバージョン(CRDI, Conditional Relaxing Diffusion Inversion)を提案する。 従来の方法とは違って、CRDIはごく少数のサンプルに基づいて微調整をしない。 代わりに、ターゲットイメージインスタンスの再構築と、数ショットの学習による多様性の拡大に焦点を当てている。 この手法は拡散モデルに対してサンプル・ワイド・ガイダンス・エンベディング(SGE)を識別することで開始され、これはGAN(Generative Adversarial Network)モデルにおける明示的な潜伏符号に類似した目的を果たす。 その後、SGEに摂動を徐々に導入し、多様性を増大させるスケジューラを含む。 包括的実験により,本手法はGANに基づく再構築手法を超越し,最先端FSIG法に匹敵する性能を示した。 さらに、オーバーフィットと破滅的な忘れ、微調整アプローチの一般的な欠点を効果的に軽減する。

In the field of Few-Shot Image Generation (FSIG) using Deep Generative Models (DGMs), accurately estimating the distribution of target domain with minimal samples poses a significant challenge. This requires a method that can both capture the broad diversity and the true characteristics of the target domain distribution. We present Conditional Relaxing Diffusion Inversion (CRDI), an innovative `training-free' approach designed to enhance distribution diversity in synthetic image generation. Distinct from conventional methods, CRDI does not rely on fine-tuning based on only a few samples. Instead, it focuses on reconstructing each target image instance and expanding diversity through few-shot learning. The approach initiates by identifying a Sample-wise Guidance Embedding (SGE) for the diffusion model, which serves a purpose analogous to the explicit latent codes in certain Generative Adversarial Network (GAN) models. Subsequently, the method involves a scheduler that progressively introduces perturbations to the SGE, thereby augmenting diversity. Comprehensive experiments demonstrates that our method surpasses GAN-based reconstruction techniques and equals state-of-the-art (SOTA) FSIG methods in performance. Additionally, it effectively mitigates overfitting and catastrophic forgetting, common drawbacks of fine-tuning approaches.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# BHT-QAOA: 任意ブール問題をハミルトニアンとして解くための量子近似最適化アルゴリズムの一般化

BHT-QAOA: Generalizing Quantum Approximate Optimization Algorithm to Solve Arbitrary Boolean Problems as Hamiltonians ( http://arxiv.org/abs/2407.07250v1 )

ライセンス: Link先を確認
Ali Al-Bayaty, Marek Perkowski, (参考訳) 量子近似最適化アルゴリズム(QAOA)を用いて、ハミルトン派として古典ブール問題の解法を提案する。 我々の手法は、ブールオラクル(異なる構造)から位相オラクルに変換した後、QAOAのハミルトニアンに変換した後、ブール問題に対する最適化された近似解の全てをうまく見つける。 このような変換から、ハミルトニアンの最終量子回路において、量子ビットと量子ゲートの合計利用数が劇的に最小化されることに気付いた。 本稿では,様々な論理合成法,IBM量子コンピュータ,古典最適化最小化器を用いた手法を用いて,任意の古典ブール問題の解法について検討する。 したがって、この方法論は、いくつかのアルゴリズム、ロボティクス、機械学習の実践的な工学的応用のために、ハミルトニアンとして多くの古典的ブール問題を解く幅広い機会を提供する。

A new methodology is proposed to solve classical Boolean problems as Hamiltonians, using the quantum approximate optimization algorithm (QAOA). Our methodology successfully finds all optimized approximated solutions for Boolean problems, after converting them from Boolean oracles (in different structures) into Phase oracles, and then into the Hamiltonians of QAOA. From such a conversion, we noticed that the total utilized numbers of qubits and quantum gates are dramatically minimized for the final quantum circuits of Hamiltonians. In this paper, arbitrary classical Boolean problems are examined by successfully solving them with our proposed methodology, using structures based on various logic synthesis methods, an IBM quantum computer, and a classical optimization minimizer. Accordingly, this methodology will provide broad opportunities to solve many classical Boolean problems as Hamiltonians, for the practical engineering applications of several algorithms, robotics, machine learning, just to name a few, in the hybrid classical-quantum domain.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# HAMIL-QA:Atrial LGE MRI品質評価のためのマルチインスタンス学習のための階層的アプローチ

HAMIL-QA: Hierarchical Approach to Multiple Instance Learning for Atrial LGE MRI Quality Assessment ( http://arxiv.org/abs/2407.07254v1 )

ライセンス: Link先を確認
K M Arefeen Sultan, Md Hasibul Husain Hisham, Benjamin Orkild, Alan Morris, Eugene Kholmovski, Erik Bieging, Eugene Kwan, Ravi Ranjan, Ed DiBella, Shireen Elhabian, (参考訳) 左心房線維症の左心房細動の3次元遅延ガドリニウム造影(LGE)MRIによる評価は, 心房細動管理には重要であるが, 患者の運動や画像の変動などの要因によって妨げられる。 自動LGEMRI品質評価の追求は、診断精度の向上、評価の標準化、患者結果の改善に重要である。 このプロセスを自動化することを目的としたディープラーニングモデルは、専門家アノテーションの不足、高い計算コスト、高度に可変した画像の微妙な診断の詳細を捉える必要性など、重大な課題に直面している。 本研究では,これらの障害を克服するためのマルチインスタンス学習(MIL)フレームワークであるHAMIL-QAを紹介する。 HAMIL-QAは階層的なバッグとサブバッグ構造を採用しており、サブバッグ内のターゲット分析を可能にし、ボリュームレベルで洞察を集約する。 この階層的MILアプローチは、広範囲なアノテーションへの依存を減らし、計算負荷を減らし、診断的に重要な画像の特徴に焦点をあてることで、臨床的に関連する品質予測を確実にする。 実験の結果,HAMIL-QAは既存のMIL法や従来の教師付きアプローチ,AUROC,F1-Scoreを超越し,LGE MRI品質評価自動化のためのスケーラブルなソリューションとしての可能性を示した。 $\href{https://github.com/arf111/HAMIL-QA}{\text{this https URL}}$

The accurate evaluation of left atrial fibrosis via high-quality 3D Late Gadolinium Enhancement (LGE) MRI is crucial for atrial fibrillation management but is hindered by factors like patient movement and imaging variability. The pursuit of automated LGE MRI quality assessment is critical for enhancing diagnostic accuracy, standardizing evaluations, and improving patient outcomes. The deep learning models aimed at automating this process face significant challenges due to the scarcity of expert annotations, high computational costs, and the need to capture subtle diagnostic details in highly variable images. This study introduces HAMIL-QA, a multiple instance learning (MIL) framework, designed to overcome these obstacles. HAMIL-QA employs a hierarchical bag and sub-bag structure that allows for targeted analysis within sub-bags and aggregates insights at the volume level. This hierarchical MIL approach reduces reliance on extensive annotations, lessens computational load, and ensures clinically relevant quality predictions by focusing on diagnostically critical image features. Our experiments show that HAMIL-QA surpasses existing MIL methods and traditional supervised approaches in accuracy, AUROC, and F1-Score on an LGE MRI scan dataset, demonstrating its potential as a scalable solution for LGE MRI quality assessment automation. The code is available at: $\href{https://github.com/arf111/HAMIL-QA}{\text{this https URL}}$
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# コロンビアにおける2022年の選挙過程におけるTwitter上の感情の同定

Identification of emotions on Twitter during the 2022 electoral process in Colombia ( http://arxiv.org/abs/2407.07258v1 )

ライセンス: Link先を確認
Juan Jose Iguaran Fernandez, Juan Manuel Perez, German Rosati, (参考訳) 社会現象を解析する手段としてTwitterが研究されているのは、比較的自然環境において大量のデータが利用可能であることから、近年で注目されている。 意見マイニングタスクでは、感情検出が特に重要であり、ポーラリティに基づく従来の感情分析よりもよりきめ細かい方法で、異なる社会的事象に対する人々の主観的な反応を識別することができる。 特定の政治事件の場合、ソーシャルネットワークにおける感情の分析は、候補者の認識、提案、その他の公開討論の重要な側面に関する貴重な情報を提供することができる。 この重要性にもかかわらず、スペイン語における感情検出に関する研究はほとんどなく、私たちの知る限り、コロンビアのスペイン語における世論調査のための資源はほとんど存在せず、この品種の特定の文化的特徴に対処する資源の創出の必要性を強調している。 本研究では,2022年のコロンビア大統領選挙に関連するスペイン語のツイートの小さなコーパスを,微粒な分類法を用いて手動でラベル付けした。 教師付き最先端モデル(BERTモデル)を用いて分類実験を行い,GPT-3.5と比較した。 研究目的でデータセットとコードを公開しています。

The study of Twitter as a means for analyzing social phenomena has gained interest in recent years due to the availability of large amounts of data in a relatively spontaneous environment. Within opinion-mining tasks, emotion detection is specially relevant, as it allows for the identification of people's subjective responses to different social events in a more granular way than traditional sentiment analysis based on polarity. In the particular case of political events, the analysis of emotions in social networks can provide valuable information on the perception of candidates, proposals, and other important aspects of the public debate. In spite of this importance, there are few studies on emotion detection in Spanish and, to the best of our knowledge, few resources are public for opinion mining in Colombian Spanish, highlighting the need for generating resources addressing the specific cultural characteristics of this variety. In this work, we present a small corpus of tweets in Spanish related to the 2022 Colombian presidential elections, manually labeled with emotions using a fine-grained taxonomy. We perform classification experiments using supervised state-of-the-art models (BERT models) and compare them with GPT-3.5 in few-shot learning settings. We make our dataset and code publicly available for research purposes.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# 差分プライバシーとサブリニア時間は時として相容れない

Differential privacy and Sublinear time are incompatible sometimes ( http://arxiv.org/abs/2407.07262v1 )

ライセンス: Link先を確認
Jeremiah Blocki, Hendrik Fichtenberger, Elena Grigorescu, Tamalika Mukherjee, (参考訳) 差分プライバシーとサブリニアアルゴリズムは、ビッグデータ分析の時代に急速に進化するアルゴリズムのテーマである。 近年の研究では、グラフパラメータ推定やクラスタリングを含む多くの問題に対して、微分プライベートなサブ線形アルゴリズムが存在することが示されているが、これらのアルゴリズムの硬さについてはほとんど分かっていない。 本稿では,差分プライベートアルゴリズムとサブ線形時間アルゴリズムの両方を対象とする問題に対する下位境界の研究を開始する。 我々の主な成果は、一般的な場合のデシダラタの相容れないことである。 特に,一方向境界に基づく単純な問題は,差分プライベートなアルゴリズムとサブ線形時間アルゴリズムの両方をもたらすが,差分プライベートな ` `strictly'' のサブ線形時間アルゴリズムは認めない。

Differential privacy and sublinear algorithms are both rapidly emerging algorithmic themes in times of big data analysis. Although recent works have shown the existence of differentially private sublinear algorithms for many problems including graph parameter estimation and clustering, little is known regarding hardness results on these algorithms. In this paper, we initiate the study of lower bounds for problems that aim for both differentially-private and sublinear-time algorithms. Our main result is the incompatibility of both the desiderata in the general case. In particular, we prove that a simple problem based on one-way marginals yields both a differentially-private algorithm, as well as a sublinear-time algorithm, but does not admit a ``strictly'' sublinear-time algorithm that is also differentially private.
翻訳日:2024-07-11 18:31:06 公開日:2024-07-09
# Reuse, Don't Retrain: 言語モデルの継続事前トレーニングのためのレシピ

Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models ( http://arxiv.org/abs/2407.07263v1 )

ライセンス: Link先を確認
Jupinder Parmar, Sanjev Satheesh, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 言語モデルがパラメータ数と事前トレーニングデータセットサイズの両方をスケールしているため、事前トレーニングの計算コストは、最も資金の豊富なチームを除いて、難航している。 このコストの増加により、事前トレーニングが完了した後でモデルを再利用できることがより重要になります。 本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分散と学習率スケジュールを設計するためのガイドラインのセットを詳述する。 これらの知見を,よく訓練された15Bパラメーターモデル上で継続事前訓練の実行に適用した場合,事前訓練セットにおける継続トレーニングのベースラインと比較して,平均モデルの精度が95%向上したことを示す。 結果として得られたレシピは、再トレーニングではなく再利用を通じて言語モデルの開発を始めるための実践的な出発点を提供する。

As language models have scaled both their number of parameters and pretraining dataset sizes, the computational cost for pretraining has become intractable except for the most well-resourced teams. This increasing cost makes it ever more important to be able to reuse a model after it has completed pretraining; allowing for a model's abilities to further improve without needing to train from scratch. In this work, we detail a set of guidelines that cover how to design efficacious data distributions and learning rate schedules for continued pretraining of language models. When applying these findings within a continued pretraining run on top of a well-trained 15B parameter model, we show an improvement of 9\% in average model accuracy compared to the baseline of continued training on the pretraining set. The resulting recipe provides a practical starting point with which to begin developing language models through reuse rather than retraining.
翻訳日:2024-07-11 18:21:12 公開日:2024-07-09
# サービスコロニー: 自律的および協調的なサービスでソフトウェアシステムを開発するための新しいアーキテクチャスタイル

Service Colonies: A Novel Architectural Style for Developing Software Systems with Autonomous and Cooperative Services ( http://arxiv.org/abs/2407.07267v1 )

ライセンス: Link先を確認
Thakshila Imiya Mohottige, Artem Polyvyanyy, Rajkumar Buyya, Colin Fidge, Alistair Barros, (参考訳) 本稿では,サービスコロニーの概念とその特性について述べる。 サービスコロニーは、システムの目的を達成するために協力する自律的なソフトウェアサービスのグループとして、ソフトウェアシステムを開発するための新しいアーキテクチャスタイルである。 植民地内の各住民サービスは、特定のシステム機能を実装し、他のサービスと連携し、そのパフォーマンスと他の住民との相互作用パターンに影響を与える積極的な決定を行う。 個々のシステムコンポーネントで利用可能な自己認識と自律性のレベルを増大させることで、結果として得られるシステムは、より分散化され、分散され、柔軟で、適応可能で、分散され、モジュール化され、堅牢で、フォールトトレラントになります。

This paper presents the concept of a service colony and its characteristics. A service colony is a novel architectural style for developing a software system as a group of autonomous software services co-operating to fulfill the objectives of the system. Each inhabitant service in the colony implements a specific system functionality, collaborates with the other services, and makes proactive decisions that impact its performance and interaction patterns with other inhabitants. By increasing the level of self-awareness and autonomy available to individual system components, the resulting system is increasingly more decentralized, distributed, flexible, adaptable, distributed, modular, robust, and fault-tolerant.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-09
# 能動学習に基づく適応サンプリングによるデータセットの量子化

Dataset Quantization with Active Learning based Adaptive Sampling ( http://arxiv.org/abs/2407.07268v1 )

ライセンス: Link先を確認
Zhenghao Zhao, Yuzhang Shang, Junyi Wu, Yan Yan, (参考訳) ディープラーニングは最近、大きなラベル付きデータセットが利用可能であることから、目覚ましい進歩を遂げている。 しかし、そのようなデータセットのトレーニングはコストと計算要求を増加させる。 これを解決するために、コアセットの選択、データセットの蒸留、データセットの定量化といった様々な技術が文献で研究されている。 異なるクラスにまたがる均一なサンプル分布に依存する従来の手法とは異なり、不均一な分布であっても、性能の維持が可能であることを示す。 ある種のクラスでは、サンプル量の変動がパフォーマンスに最小限の影響を与えることがわかった。 この観察にインスパイアされた直感的な考え方は、安定したクラスのサンプル数を減らし、敏感なクラスのサンプル数を増し、同じサンプリング比でより良いパフォーマンスを達成することである。 最適なパフォーマンスを達成するために、データセットからサンプルを適応的に選択するにはどうすればよいのか? 本稿では,アクティブラーニングに基づく適応サンプリング手法であるDataset Quantization with Active Learning Based Adaptive Smpling (DQAS)を提案する。 さらに、データセット量子化の最終段階から特徴空間を利用して、より正確なデータセットビンを生成する、データセット量子化のための新しいパイプラインを導入する。 複数のデータセットに対する包括的な評価は、我々のアプローチが最先端のデータセット圧縮手法よりも優れていることを示している。

Deep learning has made remarkable progress recently, largely due to the availability of large, well-labeled datasets. However, the training on such datasets elevates costs and computational demands. To address this, various techniques like coreset selection, dataset distillation, and dataset quantization have been explored in the literature. Unlike traditional techniques that depend on uniform sample distributions across different classes, our research demonstrates that maintaining performance is feasible even with uneven distributions. We find that for certain classes, the variation in sample quantity has a minimal impact on performance. Inspired by this observation, an intuitive idea is to reduce the number of samples for stable classes and increase the number of samples for sensitive classes to achieve a better performance with the same sampling ratio. Then the question arises: how can we adaptively select samples from a dataset to achieve optimal performance? In this paper, we propose a novel active learning based adaptive sampling strategy, Dataset Quantization with Active Learning based Adaptive Sampling (DQAS), to optimize the sample selection. In addition, we introduce a novel pipeline for dataset quantization, utilizing feature space from the final stage of dataset quantization to generate more precise dataset bins. Our comprehensive evaluations on the multiple datasets show that our approach outperforms the state-of-the-art dataset compression methods.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-09
# GenAIによるモデルベースメンテナンスと進化:未来を振り返る

Model-based Maintenance and Evolution with GenAI: A Look into the Future ( http://arxiv.org/abs/2407.07269v1 )

ライセンス: Link先を確認
Luciano Marchezan, Wesley K. G. Assunção, Edvin Herac, Alexander Egyed, (参考訳) モデルベースエンジニアリング(MBE)は、抽象化と自動化に焦点を当てたソフトウェア開発を合理化している。 しかし、メンテナンスと進化におけるMBE(MBM&E)の採用は、ツールサポートの貧弱さと認識されるメリットの欠如により、依然として制限されている。 我々は、MBM&Eの限界に対処する手段として、生成人工知能(GenAI)を用いることができると論じる。 この意味では、Foundation Modelsが推進するGenAIは、MBM&Eタスクの強化に有望な可能性を秘めていると論じる。 この可能性を念頭に、MBM&EにおけるGenAIアプローチの分類スキームを含む研究ビジョンを導入する。 (i)元内が支給する増補の水準 (II)技術者の経験。 我々は、エンジニアの学習曲線の削減、レコメンデーションによる効率の最大化、ドメイン問題を理解するための推論ツールとしてのGenAIの使用を提案する。 さらに, この分野での課題を, 科学的, 実践的な将来の解決策を推進するための研究課題として概説する。 このビジョンにより、我々は、GenAIとMBM&Eのギャップを埋めることを目指しており、MBM&Eの実践を進めるための構造化された洗練された方法を提示している。

Model-Based Engineering (MBE) has streamlined software development by focusing on abstraction and automation. The adoption of MBE in Maintenance and Evolution (MBM&E), however, is still limited due to poor tool support and a lack of perceived benefits. We argue that Generative Artificial Intelligence (GenAI) can be used as a means to address the limitations of MBM&E. In this sense, we argue that GenAI, driven by Foundation Models, offers promising potential for enhancing MBM&E tasks. With this possibility in mind, we introduce a research vision that contains a classification scheme for GenAI approaches in MBM&E considering two main aspects: (i) the level of augmentation provided by GenAI and (ii) the experience of the engineers involved. We propose that GenAI can be used in MBM&E for: reducing engineers' learning curve, maximizing efficiency with recommendations, or serving as a reasoning tool to understand domain problems. Furthermore, we outline challenges in this field as a research agenda to drive scientific and practical future solutions. With this proposed vision, we aim to bridge the gap between GenAI and MBM&E, presenting a structured and sophisticated way for advancing MBM&E practices.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-09
# Remastering Divide and Remaster: マルチ言語サポートを備えたシネマティックオーディオソース分離データセット

Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support ( http://arxiv.org/abs/2407.07275v1 )

ライセンス: Link先を確認
Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife, (参考訳) シネマティックオーディオソース分離(CASS)は、音声ソース分離の比較的新しいサブタスクであり、混合物を対話、音楽、エフェクトに分離することを目的としている。 現在、CASSで利用可能なデータセットは、Divide and Remaster(DnR)データセットのみである。 DnR v2はCASSにとって非常に有用なリソースであるが、特に2023年のサウンド・デミックス・チャレンジ(Sound Demixing Challenge)においていくつかの改善点が特定されている。 本研究では,DnRデータセットのバージョン3を開発し,非対話幹の音声内容,大音量分布,習得過程,言語多様性に関する問題に対処する。 特に、DnR v3の対話ステムには、ゲルマン語、ロマンス語、インド・アーリア語、ドラヴィディア語、マラヨ・ポリネシア語、バントゥー語など、複数の家系の30以上の言語からの音声コンテンツが含まれている。 Banditモデルを用いたベンチマーク結果から,データ可用性の低い言語であっても,多言語データのトレーニングがモデルに多大な一般化性をもたらすことが示唆された。 高いデータ可用性を持つ言語でも、多言語モデルはモノリンガルCASSデータセットでトレーニングされた専用モデルよりも、同等かそれ以上で実行されることが多い。

Cinematic audio source separation (CASS) is a relatively new subtask of audio source separation, concerned with the separation of a mixture into the dialogue, music, and effects stems. To date, only one publicly available dataset exists for CASS, that is, the Divide and Remaster (DnR) dataset, which is currently at version 2. While DnR v2 has been an incredibly useful resource for CASS, several areas of improvement have been identified, particularly through its use in the 2023 Sound Demixing Challenge. In this work, we develop version 3 of the DnR dataset, addressing issues relating to vocal content in non-dialogue stems, loudness distributions, mastering process, and linguistic diversity. In particular, the dialogue stem of DnR v3 includes speech content from more than 30 languages from multiple families including but not limited to the Germanic, Romance, Indo-Aryan, Dravidian, Malayo-Polynesian, and Bantu families. Benchmark results using the Bandit model indicated that training on multilingual data yields significant generalizability to the model even in languages with low data availability. Even in languages with high data availability, the multilingual model often performs on par or better than dedicated models trained on monolingual CASS datasets.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-09
# 自律走行認識のためのカメラエンコーダ設計の探索

Exploring Camera Encoder Designs for Autonomous Driving Perception ( http://arxiv.org/abs/2407.07276v1 )

ライセンス: Link先を確認
Barath Lakshmanan, Joshua Chen, Shiyi Lan, Maying Shen, Zhiding Yu, Jose M. Alvarez, (参考訳) 自動運転車(AV)の基盤は、カメラエンコーダが重要な役割を果たす、しっかりとした認識システムである。 既存の作業は通常、画像分類、セグメンテーション、および2D検出などの一般的な視覚タスクのために設計された事前訓練された畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマー(ViT)を利用する。 これらのよく知られたアーキテクチャは、AV関連タスク、例えば3Dオブジェクト検出において最先端の精度を達成したが、産業レベルのAVデータセットの複雑さのため、ネットワーク設計の改善には大きな可能性を秘めている。 さらに、既存の公開AVベンチマークには、これらのアーキテクチャの不正確な評価につながる可能性のあるデータが含まれており、AV固有のモデル洞察を明らかにするために、標準汎用エンコーダであるConvNeXtから始め、設計を段階的に変換する。 モデルの幅と深さ,ステージ計算比,アテンション機構,入力分解能などの異なる設計パラメータを,各修正に対する系統的解析によって支援する。 このカスタマイズにより、AVカメラエンコーダに最適化されたアーキテクチャがベースラインに対して8.79%のmAP改善を実現している。 私たちは、私たちの努力がAV用のイメージエンコーダの甘いクックブックになり、次のレベルのドライブシステムへの道を歩むことができると考えています。

The cornerstone of autonomous vehicles (AV) is a solid perception system, where camera encoders play a crucial role. Existing works usually leverage pre-trained Convolutional Neural Networks (CNN) or Vision Transformers (ViTs) designed for general vision tasks, such as image classification, segmentation, and 2D detection. Although those well-known architectures have achieved state-of-the-art accuracy in AV-related tasks, e.g., 3D Object Detection, there remains significant potential for improvement in network design due to the nuanced complexities of industrial-level AV dataset. Moreover, existing public AV benchmarks usually contain insufficient data, which might lead to inaccurate evaluation of those architectures.To reveal the AV-specific model insights, we start from a standard general-purpose encoder, ConvNeXt and progressively transform the design. We adjust different design parameters including width and depth of the model, stage compute ratio, attention mechanisms, and input resolution, supported by systematic analysis to each modifications. This customization yields an architecture optimized for AV camera encoder achieving 8.79% mAP improvement over the baseline. We believe our effort could become a sweet cookbook of image encoders for AV and pave the way to the next-level drive system.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-09
# 新しい表現学習によるライフスタイルインフォームド・パーソナライズドバイオマーカーの予測

Lifestyle-Informed Personalized Blood Biomarker Prediction via Novel Representation Learning ( http://arxiv.org/abs/2407.07277v1 )

ライセンス: Link先を確認
A. Ali Heydari, Naghmeh Rezaei, Javier L. Prieto, Shwetak N. Patel, Ahmed A. Metwally, (参考訳) 血液バイオマーカーは、医療提供者にとって、幅広い医療状況の診断、モニタリング、治療に欠かせないツールである。 現在の基準値と推奨範囲は、しばしば人口レベルの統計に依存しており、ライフスタイルや遺伝学などの要因によって引き起こされる個人間の変動の影響を適切に考慮していない。 本研究では,将来の血液バイオマーカー値を予測するための新しい枠組みを導入し,ライフスタイルデータ(身体活動と睡眠)と血液バイオマーカーから学習した表現を通して,個人化された参照を定義する。 提案手法は,生物マーカーと生活習慣因子の複雑な関係を捉える類似性に基づく埋め込み空間を学習する。 UK Biobank (257Kの参加者) を用いて, 本研究の深層埋め込みは, 臨床診断の予測において, 従来および現在の最先端の表現学習技術より優れていることを示した。 追跡訪問を行った6440人の英国バイオバンクのサブセットを用いて、血液バイオマーカーモデルにこれらの埋め込みとライフスタイル要素を直接組み込むことで、実験室での1回の訪問から将来の検査値を予測することができることを検証した。 このパーソナライズされたモデリングアプローチは、より正確なリスク階層化ツールを開発し、予防ケア戦略を調整するための基盤を提供する。 臨床環境では、これは早期の疾患検出、よりタイムリーな介入、そして究極的にはパーソナライズされたヘルスケアへの移行の可能性を意味している。

Blood biomarkers are an essential tool for healthcare providers to diagnose, monitor, and treat a wide range of medical conditions. Current reference values and recommended ranges often rely on population-level statistics, which may not adequately account for the influence of inter-individual variability driven by factors such as lifestyle and genetics. In this work, we introduce a novel framework for predicting future blood biomarker values and define personalized references through learned representations from lifestyle data (physical activity and sleep) and blood biomarkers. Our proposed method learns a similarity-based embedding space that captures the complex relationship between biomarkers and lifestyle factors. Using the UK Biobank (257K participants), our results show that our deep-learned embeddings outperform traditional and current state-of-the-art representation learning techniques in predicting clinical diagnosis. Using a subset of UK Biobank of 6440 participants who have follow-up visits, we validate that the inclusion of these embeddings and lifestyle factors directly in blood biomarker models improves the prediction of future lab values from a single lab visit. This personalized modeling approach provides a foundation for developing more accurate risk stratification tools and tailoring preventative care strategies. In clinical settings, this translates to the potential for earlier disease detection, more timely interventions, and ultimately, a shift towards personalized healthcare.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-09
# 新しい行動による短期政策評価

Short-Long Policy Evaluation with Novel Actions ( http://arxiv.org/abs/2407.03674v2 )

ライセンス: Link先を確認
Hyunji Alex Nam, Yash Chandak, Emma Brunskill, (参考訳) 教育におけるLSMの導入、新薬の特定、電池の充電方法の改善など、イノベーターは学生、患者、消費者にとってより良い長期的な結果を探すための新しい戦略を常に試みている。 このイノベーションサイクルにおける大きなボトルネックの1つは、新たな介入を取り入れた意思決定ポリシーの下流効果を観察するのに要する時間である。 鍵となる課題は、長期的な観察を行わずに、新たな意思決定方針の長期的な成果を迅速に評価できるかどうかである。 組織は、しばしば過去の意思決定方針とその成果に関する事前データにアクセスでき、関心の全体にわたって評価されます。 そこで我々は,シーケンシャルな意思決定タスクに対する短期的な政策評価のための新しい設定を導入する。 提案手法は,HIV治療,腎臓透析,バッテリ充電のシミュレーターにおいて,従来よりも有意に優れていた。 また、新しい意思決定ポリシーが過去のポリシーよりも大幅にパフォーマンスが低下する可能性があることを素早く特定することで、AI安全性のアプリケーションに有効な方法を示す。

From incorporating LLMs in education, to identifying new drugs and improving ways to charge batteries, innovators constantly try new strategies in search of better long-term outcomes for students, patients and consumers. One major bottleneck in this innovation cycle is the amount of time it takes to observe the downstream effects of a decision policy that incorporates new interventions. The key question is whether we can quickly evaluate long-term outcomes of a new decision policy without making long-term observations. Organizations often have access to prior data about past decision policies and their outcomes, evaluated over the full horizon of interest. Motivated by this, we introduce a new setting for short-long policy evaluation for sequential decision making tasks. Our proposed methods significantly outperform prior results on simulators of HIV treatment, kidney dialysis and battery charging. We also demonstrate that our methods can be useful for applications in AI safety by quickly identifying when a new decision policy is likely to have substantially lower performance than past policies.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-09
# カーネル解析によるニューラルネットワーク分類2サンプル試験の指導要領

Training Guarantees of Neural Network Classification Two-Sample Tests by Kernel Analysis ( http://arxiv.org/abs/2407.04806v2 )

ライセンス: Link先を確認
Varun Khurana, Xiuyuan Cheng, Alexander Cloninger, (参考訳) 2つのデータセットが同じ分布(null仮説)から来たかどうか(代替仮説)を決定するために、ニューラルネットワークの2サンプルテストを構築し、分析する。 ニューラルタンジェントカーネル(NTK)の2サンプルテストで時間解析を行う。 特に、NTK2サンプルテストがデータセット間の偏差レベルを検出するのに必要となる、理論的に最小限のトレーニング時間を導出する。 同様に、NTK2サンプルテストが偏差レベルを検出する前に、理論的な最大トレーニング時間を導出する。 NTKダイナミックスとニューラルネットワークのダイナミクスを近似することにより、この時間解析を、時間変化のトレーニングダイナミクスと有限トレーニングサンプルから生成された現実的なニューラルネットワーク2サンプルテストに拡張する。 同様の拡張は、時間変化のトレーニングダイナミクスから生成されるニューラルネットワークの2サンプルテストに対して行われ、人口に基づいてトレーニングされる。 統計的保証を得るために、ニューラルネットワークのトレーニングサンプルとテスト評価サンプルが無限に近づくにつれて、ニューラルネットワークの2サンプルテストに関連する統計的パワーが1になることを示す。 さらに、nullと代替仮説のシナリオにおいて、同じ偏差レベルを検出するのに必要なトレーニング時間が十分に分離されていることを証明した。 最後に、ハードな2サンプルテスト問題に対する2層ニューラルネットワークの2サンプルテストを示し、トレーニング時間とネットワーク複雑性に関連する2サンプルテストの統計的パワーのヒートマップをプロットする実験を行った。

We construct and analyze a neural network two-sample test to determine whether two datasets came from the same distribution (null hypothesis) or not (alternative hypothesis). We perform time-analysis on a neural tangent kernel (NTK) two-sample test. In particular, we derive the theoretical minimum training time needed to ensure the NTK two-sample test detects a deviation-level between the datasets. Similarly, we derive the theoretical maximum training time before the NTK two-sample test detects a deviation-level. By approximating the neural network dynamics with the NTK dynamics, we extend this time-analysis to the realistic neural network two-sample test generated from time-varying training dynamics and finite training samples. A similar extension is done for the neural network two-sample test generated from time-varying training dynamics but trained on the population. To give statistical guarantees, we show that the statistical power associated with the neural network two-sample test goes to 1 as the neural network training samples and test evaluation samples go to infinity. Additionally, we prove that the training times needed to detect the same deviation-level in the null and alternative hypothesis scenarios are well-separated. Finally, we run some experiments showcasing a two-layer neural network two-sample test on a hard two-sample test problem and plot a heatmap of the statistical power of the two-sample test in relation to training time and network complexity.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-09
# FlowLearn:フローチャート理解のための大規模視覚言語モデルの評価

FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding ( http://arxiv.org/abs/2407.05183v2 )

ライセンス: Link先を確認
Huitong Pan, Qi Zhang, Cornelia Caragea, Eduard Dragut, Longin Jan Latecki, (参考訳) フローチャートは、複雑な概念を簡潔な視覚表現で表現するためのグラフィカルなツールである。 本稿ではフローチャートの理解を深めるためのリソースであるFlowLearnデータセットを紹介する。 FlowLearnは複雑な科学的フローチャートとシミュレートされたフローチャートを含んでいる。 科学的サブセットは、科学文献から得られた3,858個のフローチャートを含み、シミュレートされたサブセットは、カスタマイズ可能なスクリプトを使用して作成された10,000個のフローチャートを含む。 データセットには、ビジュアルコンポーネント、OCR、Mermaidコード表現、VQA質問応答ペアのアノテーションが備わっている。 様々な視覚的理解タスクにおけるLVLM(Large Vision-Language Models)の実証された能力にもかかわらず、フローチャートの復号化は科学的コミュニケーションの重要な要素であり、まだ十分には研究されていない。 FlowLearnテストセットは、フローチャート理解におけるLVLMの性能を評価するために作られている。 本研究は、現状のLVLMを徹底的に評価し、既存の限界を特定し、この比較的未探索領域における将来の拡張基盤を確立する。 例えば、シミュレーションフローチャートを含むタスクでは、GPT-4Vはノード数をカウントする際の最高精度(58%)を達成し、ClaudeはOCRタスクの最高精度(83%)を記録した。 注目すべきなのは,FlowLearnフレームワーク内のすべてのタスクにおいて,ひとつのモデルが優れていないことだ。

Flowcharts are graphical tools for representing complex concepts in concise visual representations. This paper introduces the FlowLearn dataset, a resource tailored to enhance the understanding of flowcharts. FlowLearn contains complex scientific flowcharts and simulated flowcharts. The scientific subset contains 3,858 flowcharts sourced from scientific literature and the simulated subset contains 10,000 flowcharts created using a customizable script. The dataset is enriched with annotations for visual components, OCR, Mermaid code representation, and VQA question-answer pairs. Despite the proven capabilities of Large Vision-Language Models (LVLMs) in various visual understanding tasks, their effectiveness in decoding flowcharts - a crucial element of scientific communication - has yet to be thoroughly investigated. The FlowLearn test set is crafted to assess the performance of LVLMs in flowchart comprehension. Our study thoroughly evaluates state-of-the-art LVLMs, identifying existing limitations and establishing a foundation for future enhancements in this relatively underexplored domain. For instance, in tasks involving simulated flowcharts, GPT-4V achieved the highest accuracy (58%) in counting the number of nodes, while Claude recorded the highest accuracy (83%) in OCR tasks. Notably, no single model excels in all tasks within the FlowLearn framework, highlighting significant opportunities for further development.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-09
# テクニックの洪水と理論の干ばつ:災害時の感情マイニング

Flood of Techniques and Drought of Theories: Emotion Mining in Disasters ( http://arxiv.org/abs/2407.05219v2 )

ライセンス: Link先を確認
Soheil Shapouri, Saber Soleymani, Saed Rezayi, (参考訳) 感情のマイニングは、災害時の人間の感情を理解するための重要なツールとなり、ソーシャルメディアプラットフォーム上で生成された広範囲なデータを活用する。 本稿では,災害状況における感情のマイニングに関する既存の研究を要約し,重要な発見と永続的な問題の両方を強調することを目的とする。 一方、感情のマイニング技術は、迅速な被害評価やメンタルヘルス監視といった適用を可能にするため、許容できる精度を実現している。 一方、データ駆動アプローチを採用する多くの研究において、いくつかの方法論的な問題が残されている。 これには、任意の感情分類、ソーシャルメディアからのデータ収集に固有のバイアスを無視すること、例えばTwitter上の社会経済的地位から個人を過剰に表現すること、異文化間比較のような理論的枠組みの適用の欠如などが含まれる。 これらの問題は、理論駆動研究の顕著な欠如と、社会科学や行動科学からの洞察を無視していると要約できる。 本稿では,コンピュータ科学者と社会科学者の学際的な連携の必要性を浮き彫りにした。 これらのギャップに対処することで、感情のマイニング手法の有効性と信頼性を高め、最終的に災害対策、対応、復旧に寄与することを目指している。 キーワード:感情のマイニング、感情分析、自然災害、心理学、技術的災害

Emotion mining has become a crucial tool for understanding human emotions during disasters, leveraging the extensive data generated on social media platforms. This paper aims to summarize existing research on emotion mining within disaster contexts, highlighting both significant discoveries and persistent issues. On the one hand, emotion mining techniques have achieved acceptable accuracy enabling applications such as rapid damage assessment and mental health surveillance. On the other hand, with many studies adopting data-driven approaches, several methodological issues remain. These include arbitrary emotion classification, ignoring biases inherent in data collection from social media, such as the overrepresentation of individuals from higher socioeconomic status on Twitter, and the lack of application of theoretical frameworks like cross-cultural comparisons. These problems can be summarized as a notable lack of theory-driven research and ignoring insights from social and behavioral sciences. This paper underscores the need for interdisciplinary collaboration between computer scientists and social scientists to develop more robust and theoretically grounded approaches in emotion mining. By addressing these gaps, we aim to enhance the effectiveness and reliability of emotion mining methodologies, ultimately contributing to improved disaster preparedness, response, and recovery. Keywords: emotion mining, sentiment analysis, natural disasters, psychology, technological disasters
翻訳日:2024-07-11 11:51:02 公開日:2024-07-09
# 非正規性下におけるベイズ半教師付き学習

Bayesian Semi-supervised learning under nonparanormality ( http://arxiv.org/abs/2001.03798v2 )

ライセンス: Link先を確認
Rui Zhu, Shuvrarghya Ghosh, Subhashis Ghosal, (参考訳) セミ教師付き学習はラベル付きデータとラベルなしデータの両方を使用するモデルトレーニング手法である。 本稿では,任意の二項分類問題に適用可能なベイズ半教師付き学習アルゴリズムを提案する。 半教師付き環境でラベル付きデータを使用する場合、ラベルがランダムに欠落していると仮定する。 観測ベクトルの各成分に共通な未知の変換を適用した後、それらの真のクラスラベルに依存する2つの多変量正規分布に従うと仮定する。 関数はB-スプライン級数で拡張され、前もって係数に置かれる。 我々は、係数の通常の事前を考慮し、正規性と識別可能性の制約を満たすために値を制約する。 2つのガウス分布の精度行列は、前は共役ウィシャートを持ち、前は不適切な一様である。 結果として得られる後部は、まだ条件付き共役であり、データ増強技術によって支援されたギブスサンプリング装置が採用できる。 シミュレーション実験では,提案手法と他のいくつかの方法との比較を行った。 乳がんの診断と信号の分類に関する実際のデータセットにも本手法を適用した。 提案手法は,様々なケースにおいて予測精度が向上している。

Semi-supervised learning is a model training method that uses both labeled and unlabeled data. This paper proposes a fully Bayes semi-supervised learning algorithm that can be applied to any binary classification problem. We assume the labels are missing at random when using unlabeled data in a semi-supervised setting. We assume that the observations follow two multivariate normal distributions depending on their true class labels after some common unknown transformation is applied to each component of the observation vector. The function is expanded in a B-splines series and a prior is put on the coefficients. We consider a normal prior on the coefficients and constrain the values to meet the requirement for normality and identifiability constraints. The precision matrices of the two Gaussian distributions have a conjugate Wishart prior, while the means have improper uniform priors. The resulting posterior is still conditionally conjugate, and the Gibbs sampler aided by a data augmentation technique can thus be adopted. An extensive simulation study compares the proposed method with several other available methods. The proposed method is also applied to real datasets on diagnosing breast cancer and classification of signals. We conclude that the proposed method has a better prediction accuracy in various cases.
翻訳日:2024-07-11 00:57:55 公開日:2024-07-09
# 50,000カテゴリス以上の大規模画像認識のアプローチ

Approaches of large-scale images recognition with more than 50,000 categoris ( http://arxiv.org/abs/2007.13072v2 )

ライセンス: Link先を確認
Wanhong Huang, Rui Geng, (参考訳) 現在のCVモデルは、数百から数千のカテゴリを持つ小規模画像分類データセットにおいて高い精度を達成することができたが、50,000以上のカテゴリを持つ大規模データセットに関しては、計算や空間消費では実現不可能なモデルが多い。 本稿では,従来のCV技術である.features extract and processing, BOVW(Bag of Visual Words),およびMini-Batch K-Means,SVMなどの統計学習技術を用いて,大規模種のデータセットを分類するための有効なソリューションを提案する。 そして、ニューラルネットワークモデルと混同する。 これらの手法を適用する際、我々は時間とメモリ消費を最適化し、大規模なデータセットで実現できるようにしました。 また、誤ラベルデータの影響を低減するために、いくつかのテクニックも使用しています。 我々は50,000以上のカテゴリを持つデータセットを使用し、すべての操作は、l 6GB RAMとCPUの3.3倍のCPUを持つ一般的なコンピュータ上で実行される。 OGHz。 私たちの貢献は次のとおりです。 1) 学習過程においてどのような問題が生じるか分析し, これらの問題を解決するための実現可能な方法をいくつか提示する。 2) 従来のCVモデルとニューラルネットワークモデルを組み合わせることで、時間と空間資源の制約の中で大規模に分類されたデータセットをトレーニングするためのシナリオが実現可能である。

Though current CV models have been able to achieve high levels of accuracy on small-scale images classification dataset with hundreds or thousands of categories, many models become infeasible in computational or space consumption when it comes to large-scale dataset with more than 50,000 categories. In this paper, we provide a viable solution for classifying large-scale species datasets using traditional CV techniques such as.features extraction and processing, BOVW(Bag of Visual Words) and some statistical learning technics like Mini-Batch K-Means,SVM which are used in our works. And then mixed with a neural network model. When applying these techniques, we have done some optimization in time and memory consumption, so that it can be feasible for large-scale dataset. And we also use some technics to reduce the impact of mislabeling data. We use a dataset with more than 50, 000 categories, and all operations are done on common computer with l 6GB RAM and a CPU of 3. OGHz. Our contributions are: 1) analysis what problems may meet in the training processes, and presents several feasible ways to solve these problems. 2) Make traditional CV models combined with neural network models provide some feasible scenarios for training large-scale classified datasets within the constraints of time and spatial resources.
翻訳日:2024-07-11 00:57:55 公開日:2024-07-09
# オープンリレーショナル抽出のためのBiLSTM-CRFモデル探索

Explore BiLSTM-CRF-Based Models for Open Relation Extraction ( http://arxiv.org/abs/2104.12333v2 )

ライセンス: Link先を確認
Tao Ni, Qing Wang, Gabriela Ferraro, (参考訳) テキストから複数の関係を抽出することは、現在のOpen Relation extract (Open RE)タスクの課題である。 本稿では,双方向LSTM-CRF(BiLSTM-CRF)ニューラルネットワークと,異なる文脈の単語埋め込み手法に基づく複数のOpen REモデルを開発する。 また,重なり合う問題を解消し,モデルの性能を向上させる新しいタグ付け手法を提案する。 評価結果とモデルの比較から、タグ付け方式、単語埋め込み方式、BiLSTM-CRFネットワークの最適組み合わせを選択し、複数関係文に対する顕著な抽出能力を持つオープンREモデルを実現する。

Extracting multiple relations from text sentences is still a challenge for current Open Relation Extraction (Open RE) tasks. In this paper, we develop several Open RE models based on the bidirectional LSTM-CRF (BiLSTM-CRF) neural network and different contextualized word embedding methods. We also propose a new tagging scheme to solve overlapping problems and enhance models' performance. From the evaluation results and comparisons between models, we select the best combination of tagging scheme, word embedder, and BiLSTM-CRF network to achieve an Open RE model with a remarkable extracting ability on multiple-relation sentences.
翻訳日:2024-07-11 00:57:55 公開日:2024-07-09
# MetaCOG:メタ認知視覚表現学習のための階層的確率モデル

MetaCOG: A Hierarchical Probabilistic Model for Learning Meta-Cognitive Visual Representations ( http://arxiv.org/abs/2110.03105v4 )

ライセンス: Link先を確認
Marlene D. Berke, Zhangir Azerbayev, Mario Belledonne, Zenna Tavares, Julian Jara-Ettinger, (参考訳) 人間は、私たちが見ているものを疑問視し、ビジョンが信頼できないと認識する能力を持っている(例えば、私たちが視覚錯覚を経験していることに気付いたとき)。 この能力にインスパイアされたMetaCOGは、ニューラルオブジェクト検出器にアタッチして出力を監視し、その信頼性を決定する階層的確率モデルである。 MetaCOGは、ベイジアン推論(すなわち、異なる対象カテゴリを幻覚または見逃すためのネットワークの正当性のメタ認知表現)を通して、対象検出器のパフォーマンスの確率モデルを学ぶことによってこれを達成している。 オブジェクト検出器によって処理されたビデオフレームのセットが与えられた後、MetaCOGは下層の3Dシーンと検出器の性能について共同推論を行い、オブジェクト永続性の基本的な仮定に基づいて推論を行う。 3つのニューラルオブジェクト検出器を用いて,MetaCOGが各検出器の性能パラメータを正確に回復し,システム全体の精度を向上させることを示す。 また,MetaCOGは物体検出出力の誤差レベルに頑健であることを示し,地中真実が得られない場合の視覚系における誤りの検出・修正問題に対する概念実証を行った。

Humans have the capacity to question what we see and to recognize when our vision is unreliable (e.g., when we realize that we are experiencing a visual illusion). Inspired by this capacity, we present MetaCOG: a hierarchical probabilistic model that can be attached to a neural object detector to monitor its outputs and determine their reliability. MetaCOG achieves this by learning a probabilistic model of the object detector's performance via Bayesian inference -- i.e., a meta-cognitive representation of the network's propensity to hallucinate or miss different object categories. Given a set of video frames processed by an object detector, MetaCOG performs joint inference over the underlying 3D scene and the detector's performance, grounding inference on a basic assumption of object permanence. Paired with three neural object detectors, we show that MetaCOG accurately recovers each detector's performance parameters and improves the overall system's accuracy. We additionally show that MetaCOG is robust to varying levels of error in object detector outputs, showing proof-of-concept for a novel approach to the problem of detecting and correcting errors in vision systems when ground-truth is not available.
翻訳日:2024-07-11 00:57:55 公開日:2024-07-09
# 並列スタックの線形化可能性の簡易検証法

A Simple Way to Verify Linearizability of Concurrent Stacks ( http://arxiv.org/abs/2110.05801v2 )

ライセンス: Link先を確認
Tangliu Wen, (参考訳) リニアライザビリティ(Linearizability)は、並列データ構造に対する一般的な正当性基準である。 しかし、高度に並列したデータ構造の線形化性を検証することは依然として難しい課題である。 本稿では,並列スタックの線形化可能性を検証するための,単純かつ完全な証明手法を提案する。 本手法は,並列スタックの線形化性を,条件セットの確立に還元する。 これらの条件は、LIFOセマンティクスを直感的に表現し、単純な議論によって証明できる操作の偶然の順序に基づいている。 並列データ構造のデザイナは,証明技術の使用を容易かつ迅速に学ぶことができる。 我々は、TSスタック、HSYスタック、FAスタックなど、いくつかの挑戦的な並行スタックに対して、このメソッドをうまく適用しました。

Linearizability is a commonly accepted correctness criterion for concurrent data structures. However, verifying linearizability of highly concurrent data structures is still a challenging task. In this paper, we present a simple and complete proof technique for verifying linearizability of concurrent stacks. Our proof technique reduces linearizability of concurrent stacks to establishing a set of conditions. These conditions are based on the happened-before order of operations, intuitively express the LIFO semantics and can be proved by simple arguments. Designers of concurrent data structures can easily and quickly learn to use the proof technique. We have successfully applied the method to several challenging concurrent stacks: the TS stack, the HSY stack, and the FA stack, etc.
翻訳日:2024-07-11 00:57:55 公開日:2024-07-09
# 条件付きフィルタ:高次元空間における追従状態と推定パラメータ

Factored Conditional Filtering: Tracking States and Estimating Parameters in High-Dimensional Spaces ( http://arxiv.org/abs/2206.02178v2 )

ライセンス: Link先を確認
Dawei Chen, Samuel Yang-Zhao, John Lloyd, Kee Siong Ng, (参考訳) 本稿では,条件付きフィルタ,高次元状態空間における状態の同時追跡とパラメータ推定のための新しいフィルタアルゴリズムを提案する。 アルゴリズムの条件付き性質はパラメータを推定するために使用され、因子付き性質は状態空間を低次元の部分空間に分解するために用いられる。 アルゴリズムをうまく応用するための条件は、観測が部分空間レベルで利用可能であり、遷移モデルは部分空間にほぼ制限された局所遷移モデルに分解できることである。 本研究では,我々のアプローチの有効性を示す大規模接触ネットワークにおける疫病の追跡とパラメータ推定に関する実験結果を示す。

This paper introduces factored conditional filters, new filtering algorithms for simultaneously tracking states and estimating parameters in high-dimensional state spaces. The conditional nature of the algorithms is used to estimate parameters and the factored nature is used to decompose the state space into low-dimensional subspaces in such a way that filtering on these subspaces gives distributions whose product is a good approximation to the distribution on the entire state space. The conditions for successful application of the algorithms are that observations be available at the subspace level and that the transition model can be factored into local transition models that are approximately confined to the subspaces; these conditions are widely satisfied in computer science, engineering, and geophysical filtering applications. We give experimental results on tracking epidemics and estimating parameters in large contact networks that show the effectiveness of our approach.
翻訳日:2024-07-11 00:57:55 公開日:2024-07-09
# CLIPは私の顔を知っていますか?

Does CLIP Know My Face? ( http://arxiv.org/abs/2209.07341v4 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Manuel Brack, Felix Friedrich, Patrick Schramowski, Kristian Kersting, (参考訳) さまざまなアプリケーションにおけるディープラーニングの台頭に伴い、トレーニングデータの保護に関するプライバシー上の懸念が研究の重要領域となっている。 従来の研究では,シングルモーダルモデルにおけるプライバシのリスクに着目していたが,特にCLIPのような視覚言語モデルにおいて,マルチモーダルモデルのプライバシを評価する新たな手法を導入する。 提案したIDIA攻撃(IDIA)は、同一人物の画像でモデルをクエリすることで、個人がトレーニングデータに含まれるかどうかを明らかにする。 モデルにさまざまな可能なテキストラベルを選択させると、その人物を認識したかどうかが明らかになり、トレーニングに使用された。 CLIPに関する大規模な実験では、トレーニングに使用する個人を極めて高い精度で識別できることが示されている。 本モデルでは,相手から抽出可能なセンシティブな情報の存在を示唆し,人物名と人物名とを関連付けることを学習したことを確認した。 我々の結果は、大規模モデルにおけるより強力なプライバシー保護の必要性を強調し、IDIAは、トレーニングに不正なデータの使用を証明し、プライバシー法を強制するために使用できることを示唆している。

With the rise of deep learning in various applications, privacy concerns around the protection of training data have become a critical area of research. Whereas prior studies have focused on privacy risks in single-modal models, we introduce a novel method to assess privacy for multi-modal models, specifically vision-language models like CLIP. The proposed Identity Inference Attack (IDIA) reveals whether an individual was included in the training data by querying the model with images of the same person. Letting the model choose from a wide variety of possible text labels, the model reveals whether it recognizes the person and, therefore, was used for training. Our large-scale experiments on CLIP demonstrate that individuals used for training can be identified with very high accuracy. We confirm that the model has learned to associate names with depicted individuals, implying the existence of sensitive information that can be extracted by adversaries. Our results highlight the need for stronger privacy protection in large-scale models and suggest that IDIAs can be used to prove the unauthorized use of data for training and to enforce privacy laws.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# 特定のインスタンスの認識を含む連続的な数ショット学習ベンチマーク

Expanding continual few-shot learning benchmarks to include recognition of specific instances ( http://arxiv.org/abs/2209.07863v4 )

ライセンス: Link先を確認
Gideon Kowadlo, Abdelrahman Ahmed, Amir Mayan, David Rawlinson, (参考訳) 継続的な学習と数発の学習は、より広範な機械学習(ML)機能に向けた進歩の重要なフロンティアである。 近年、両者の組み合わせに強い関心が寄せられている。 最初の例の1つは、Antoniou et al arXiv:2004.11967のCFSLフレームワークである。 本研究では,現実の状況下での知的エージェント行動において重要な,幅広い課題を捉える2つの方法でCFSLを拡張した。 まず、クラス数を桁違いに増やし、その結果を標準的連続学習実験と比較した。 第二に、私たちはクラスの特定のインスタンスを認識する必要がある「インスタンステスト」を導入しました -- MLでは無視される動物の認知能力です。 これらの条件下でのMLモデルの性能を最初に検討するために、元のCFSL作業から代表ベースラインモデルを選択し、リプレイによるモデル変種を追加した。 期待されたように、より多くのクラスを学ぶことは、元のCFSL実験よりも難しく、興味深いことに、イメージインスタンスやクラスが提示される方法が分類性能に影響を及ぼす。 驚くべきことに、ベースラインインスタンステストの精度は他の分類タスクに匹敵するが、かなりの閉塞とノイズが与えられていない。 統合のためのリプレイの使用は、両方のタスク、特にインスタンステストのパフォーマンスを大幅に向上させる。

Continual learning and few-shot learning are important frontiers in progress toward broader Machine Learning (ML) capabilities. Recently, there has been intense interest in combining both. One of the first examples to do so was the Continual few-shot Learning (CFSL) framework of Antoniou et al. arXiv:2004.11967. In this study, we extend CFSL in two ways that capture a broader range of challenges, important for intelligent agent behaviour in real-world conditions. First, we increased the number of classes by an order of magnitude, making the results more comparable to standard continual learning experiments. Second, we introduced an 'instance test' which requires recognition of specific instances of classes -- a capability of animal cognition that is usually neglected in ML. For an initial exploration of ML model performance under these conditions, we selected representative baseline models from the original CFSL work and added a model variant with replay. As expected, learning more classes is more difficult than the original CFSL experiments, and interestingly, the way in which image instances and classes are presented affects classification performance. Surprisingly, accuracy in the baseline instance test is comparable to other classification tasks, but poor given significant occlusion and noise. The use of replay for consolidation substantially improves performance for both types of tasks, but particularly for the instance test.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# 深層学習型医用画像解析における公平性問題への対処 : 体系的レビュー

Addressing Fairness Issues in Deep Learning-Based Medical Image Analysis: A Systematic Review ( http://arxiv.org/abs/2209.13177v7 )

ライセンス: Link先を確認
Zikang Xu, Jun Li, Qingsong Yao, Han Li, Mingyue Zhao, S. Kevin Zhou, (参考訳) 深層学習アルゴリズムは様々な医療画像解析(MedIA)の応用において顕著な効果を示した。 しかし,近年の研究では,高齢者の予測能力の低下など,特定のサブグループに適用した場合のアルゴリズムの性能格差が強調されている。 この公正問題に対処することは、AI科学者と臨床医が協力して、その起源を理解し、MedIA内で緩和のためのソリューションを開発しようとしている。 本調査では,MedIAにおける公平性問題に対する方法論的アプローチを中心に,現状の進歩を徹底的に検討する。 本稿では,グループフェアネスの基礎を紹介し,フェアネス評価と不公平度軽減に向け,フェアフェアMedIAの研究を分類する。 これらの研究に用いた詳細な方法も紹介する。 我々の調査は、公正なMedIAと医療システムを確立する上での既存の課題と機会に関する議論から締めくくっている。 この総合的なレビューを提供することにより、AI研究者と臨床医の間での公正性の共通理解を促進し、不公平緩和手法の開発を促進し、公平なメディア社会の創出に寄与することを目指している。

Deep learning algorithms have demonstrated remarkable efficacy in various medical image analysis (MedIA) applications. However, recent research highlights a performance disparity in these algorithms when applied to specific subgroups, such as exhibiting poorer predictive performance in elderly females. Addressing this fairness issue has become a collaborative effort involving AI scientists and clinicians seeking to understand its origins and develop solutions for mitigation within MedIA. In this survey, we thoroughly examine the current advancements in addressing fairness issues in MedIA, focusing on methodological approaches. We introduce the basics of group fairness and subsequently categorize studies on fair MedIA into fairness evaluation and unfairness mitigation. Detailed methods employed in these studies are presented too. Our survey concludes with a discussion of existing challenges and opportunities in establishing a fair MedIA and healthcare system. By offering this comprehensive review, we aim to foster a shared understanding of fairness among AI researchers and clinicians, enhance the development of unfairness mitigation methods, and contribute to the creation of an equitable MedIA society.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# エンタングルメント支援量子スピードアップ:局所的な量子スピード制限に打ち勝つ

Entanglement-assisted quantum speedup: Beating local quantum speed limits ( http://arxiv.org/abs/2211.14898v2 )

ライセンス: Link先を確認
Farha Yasmin, Jan Sperling, (参考訳) 量子情報科学の研究は、古典的な情報処理のスケーリングの限界を超えることを目的としている。 物理学者の観点からは、性能改善は量子領域における物理的スピードアップを伴い、量子相関を動的に利用することで達成される。 本研究では、相互作用量子系の速度制限は、実際の量子力学の変化率と、非絡み合いの分離状態の多様体に限定された準古典的進化を比較することによって導かれる。 絡み合いを補助するスピードアップの帰結の効用は、二部分量子ビット系、二部分量子系、および複素多重モード系で実証される。 具体的には、提案された速度制限は、システムのサイズと指数関数的にスケール可能な量子ゲインを含む、量子速度の優位性に厳密な拘束力を与える。 オープンシステムと測定可能な証人への結果の拡張について論じる。

Research in quantum information science aims to surpass the scaling limitations of classical information processing. From a physicist's perspective, performance improvement involves a physical speedup in the quantum domain, achieved by dynamically exploiting quantum correlations. In this study, speed limits in interacting quantum systems are derived by comparing the rates of change in actual quantum dynamics with the quasi-classical evolution confined to the manifold of non-entangled separable states. The utility of the resulting bounds on entanglement-assisted speedup is demonstrated on bipartite qubit systems, bipartite qudit systems, as well as a complex multimode systems. Specifically, the proposed speed limits provide a tight bound on quantum speed advantage, including a quantum gain that can scale exponentially with the system's size. Extensions of the results to open systems and measurable witnesses are discussed.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# SeqLink: 部分的に観測された時系列をモデル化するロバストニューラルネットワークアーキテクチャ

SeqLink: A Robust Neural-ODE Architecture for Modelling Partially Observed Time Series ( http://arxiv.org/abs/2212.03560v2 )

ライセンス: Link先を確認
Futoon M. Abushaqra, Hao Xue, Yongli Ren, Flora D. Salim, (参考訳) 通常微分方程式(ODE)に基づくモデルは、多くの時系列問題を解決する基礎モデルとして人気を集めている。 ニューラルODEと従来のRNNモデルを組み合わせることで、不規則な時系列を表現できる。 しかし、ODEベースのモデルは一般的に、初期観測値または最新の観測値に基づいて隠れ状態の軌跡を定義する必要があり、長いシーケンスと長い時間間隔を扱う場合の有効性について疑問を呈する。 本稿では、時系列データのコンテキストにおけるODEモデルの振る舞いについて、様々な範囲で検討する。 シーケンス表現の堅牢性を高めるために設計された,革新的なニューラルアーキテクチャであるSeqLinkを紹介する。 前回の観測値から生成された隠れ状態のみに依存する従来のアプローチとは異なり、SeqLinkは複数のデータサンプルから派生したODE潜在表現を利用して、シーケンスの長さやデータの疎度レベルに関わらず堅牢なデータ表現を生成する。 我々のモデルの背後にある中核的な概念は、サンプル間の関係(シーケンス間のリンク)に基づいて、観測されていない値に対する隠れ状態の定義である。 部分的に観測された合成および実世界のデータセットに関する広範な実験を通じて、SeqLinkは断続時系列のモデリングを改善し、一貫して最先端のアプローチより優れていることを示した。

Ordinary Differential Equations (ODE) based models have become popular as foundation models for solving many time series problems. Combining neural ODEs with traditional RNN models has provided the best representation for irregular time series. However, ODE-based models typically require the trajectory of hidden states to be defined based on either the initial observed value or the most recent observation, raising questions about their effectiveness when dealing with longer sequences and extended time intervals. In this article, we explore the behaviour of the ODE models in the context of time series data with varying degrees of sparsity. We introduce SeqLink, an innovative neural architecture designed to enhance the robustness of sequence representation. Unlike traditional approaches that solely rely on the hidden state generated from the last observed value, SeqLink leverages ODE latent representations derived from multiple data samples, enabling it to generate robust data representations regardless of sequence length or data sparsity level. The core concept behind our model is the definition of hidden states for the unobserved values based on the relationships between samples (links between sequences). Through extensive experiments on partially observed synthetic and real-world datasets, we demonstrate that SeqLink improves the modelling of intermittent time series, consistently outperforming state-of-the-art approaches.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# Fast-BEV:高速で強力な鳥の知覚ベースライン

Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline ( http://arxiv.org/abs/2301.12511v2 )

ライセンス: Link先を確認
Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu Shen, Fenggang Liu, Enze Xie, Lu Sheng, Wanli Ouyang, Jing Shao, (参考訳) 近年,Bird's-Eye View (BEV) の表現に基づく認識タスクがますます注目され,BEV の表現が次世代の自律走行車 (AV) の認識基盤として期待されている。 しかしながら、既存のBEVソリューションのほとんどは、車載推論を実行するためにかなりのリソースを必要とするか、控えめなパフォーマンスに悩まされている。 本稿では、車載チップ上で高速なBEV認識を実現するための、シンプルで効果的なフレームワークであるFast-BEVを提案する。 この目標に向けて、我々はまず、高価なトランスフォーマーベースの変換や深度表現なしに、BEV表現が十分に強力であることを実証的に見出した。 我々は,(1)2次元画像特徴を3次元ボクセル空間に高速に転送する軽量な展開フレンドリーなビュー変換,(2)マルチスケール画像エンコーダによる性能向上,(3)車載推論を高速化する効率的なBEVエンコーダを提案する。 さらに、画像とBEV空間の両面に強力なデータ拡張戦略を導入し、過度な適合を避けるため、(5)時間情報を活用するマルチフレーム機能融合機構を導入する。 2080Tiプラットフォーム上では、我々のR50モデルは52.6 FPSと47.3% NDSをヌースシーンの検証セットで実行でき、BEVDepth-R50モデルの41.3 FPSと47.5% NDS、BEVDet4D-R50モデルの30.2 FPSと45.7% NDSを超える。 我々の最大のモデル(R101@900x1600)は、nuScenes検証セット上で53.5%のNDSを確立する。 また,現在普及している車載チップの精度と効率を向上したベンチマークも開発している。 コードは以下の通り:https://github.com/Sense-GVT/Fast-BEV。

Recently, perception task based on Bird's-Eye View (BEV) representation has drawn more and more attention, and BEV representation is promising as the foundation for next-generation Autonomous Vehicle (AV) perception. However, most existing BEV solutions either require considerable resources to execute on-vehicle inference or suffer from modest performance. This paper proposes a simple yet effective framework, termed Fast-BEV , which is capable of performing faster BEV perception on the on-vehicle chips. Towards this goal, we first empirically find that the BEV representation can be sufficiently powerful without expensive transformer based transformation nor depth representation. Our Fast-BEV consists of five parts, We novelly propose (1) a lightweight deployment-friendly view transformation which fast transfers 2D image feature to 3D voxel space, (2) an multi-scale image encoder which leverages multi-scale information for better performance, (3) an efficient BEV encoder which is particularly designed to speed up on-vehicle inference. We further introduce (4) a strong data augmentation strategy for both image and BEV space to avoid over-fitting, (5) a multi-frame feature fusion mechanism to leverage the temporal information. Through experiments, on 2080Ti platform, our R50 model can run 52.6 FPS with 47.3% NDS on the nuScenes validation set, exceeding the 41.3 FPS and 47.5% NDS of the BEVDepth-R50 model and 30.2 FPS and 45.7% NDS of the BEVDet4D-R50 model. Our largest model (R101@900x1600) establishes a competitive 53.5% NDS on the nuScenes validation set. We further develop a benchmark with considerable accuracy and efficiency on current popular on-vehicle chips. The code is released at: https://github.com/Sense-GVT/Fast-BEV.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# 連続学習におけるGNNの限界と経験リプレイについて

On the Limitation and Experience Replay for GNNs in Continual Learning ( http://arxiv.org/abs/2302.03534v2 )

ライセンス: Link先を確認
Junwei Su, Difan Zou, Chuan Wu, (参考訳) 継続的な学習は、一連のタスクから徐々に情報を取得するモデルに力を与えようとしている。 このアプローチは、時間とともに動的かつ進化する多くの現実世界システムにとって、不可欠である。 最近の研究は、ノード関連タスクにおけるGNNの継続的なトレーニングを含む実用的かつ困難なパラダイムであるNGCL(Graph-wise Graph Continual Learning)におけるグラフニューラルネットワーク(GNN)の探索が急増しているのを目撃している。 NGCLにおけるGNNの継続的な学習戦略の進歩にもかかわらず、特に学習可能性に関する詳細な理論的理解は欠如している。 学習可能性とは、NGCL開発においてモデル選択に不可欠である仮説/重み空間から優れた候補モデルを生成することができる学習アルゴリズムの存在に関するものである。 本稿では,NGCLにおけるGNNの学習可能性に関する最初の理論的考察を紹介する。 特に、GNNは、大きな構造変化の下でNGCLに対して有効ではない可能性があり、構造変化を管理する必要性を強調している。 本研究では,構造変化の影響を軽減するために,SEA-ER(Structure-Evolution-Aware Experience Replay)と呼ばれる新しい体験再生手法を提案する。 SEA-ERは、GNNのトポロジカルな認識を生かした革新的な体験選択戦略と、構造的アライメントを利用した独自のリプレイ戦略を特徴としている。 本研究はSEA-ERの理論的知見と有効性を検証するものである。

Continual learning seeks to empower models to progressively acquire information from a sequence of tasks. This approach is crucial for many real-world systems, which are dynamic and evolve over time. Recent research has witnessed a surge in the exploration of Graph Neural Networks (GNN) in Node-wise Graph Continual Learning (NGCL), a practical yet challenging paradigm involving the continual training of a GNN on node-related tasks. Despite recent advancements in continual learning strategies for GNNs in NGCL, a thorough theoretical understanding, especially regarding its learnability, is lacking. Learnability concerns the existence of a learning algorithm that can produce a good candidate model from the hypothesis/weight space, which is crucial for model selection in NGCL development. This paper introduces the first theoretical exploration of the learnability of GNN in NGCL, revealing that learnability is heavily influenced by structural shifts due to the interconnected nature of graph data. Specifically, GNNs may not be viable for NGCL under significant structural changes, emphasizing the need to manage structural shifts. To mitigate the impact of structural shifts, we propose a novel experience replay method termed Structure-Evolution-Aware Experience Replay (SEA-ER). SEA-ER features an innovative experience selection strategy that capitalizes on the topological awareness of GNNs, alongside a unique replay strategy that employs structural alignment to effectively counter catastrophic forgetting and diminish the impact of structural shifts on GNNs in NGCL. Our extensive experiments validate our theoretical insights and the effectiveness of SEA-ER.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# 量子ネットワークにおけるマルチパートエンタングルメントのスケーラブル決定

Scalable Determination of Multipartite Entanglement in Quantum Networks ( http://arxiv.org/abs/2303.17771v3 )

ライセンス: Link先を確認
Wei-Ting Kao, Chien-Ying Huang, Tung-Ju Tsai, Shih-Hsuan Chen, Sheng-Yan Sun, Yu-Cheng Li, Teh-Lu Liao, Chih-Sung Chuu, He Lu, Che-Ming Li, (参考訳) 絡み合った終端ノードからなる量子ネットワークは、非並列な量子インターネットアプリケーションに対する古典的相関よりも強く機能する。 しかし、現実的な量子ネットワークはノイズの影響を受けており、最悪の場合、終端ノードは既存の古典的なデータによって記述される。 このような信頼できないネットワークでは、量子ネットワークの忠実度と真のマルチノードの絡み合いを決定することが重要である。 ここでは、信頼できない恒星ネットワークにおける量子ネットワークの忠実度と真の$N$ノードの絡み合いを決定するには、たったの$N+1$の設定が必要であることを示す。 この手法は半信頼の枠組みを確立し、いくつかのノードが仮定を緩和することを可能にする。 本手法は,真に$N$のEinstein-Podolsky-Rosenステアビリティを検出することで実現されている。 実験では、自発的なパラメトリックダウンコンバージョンエンタングルメント源を用いて、真の3光子および4光子量子ネットワークの決定と、広く使われているエンタングルメント証人の偽陽性、すなわち1/2$のフィデリティ基準を実証した。 本研究は,現実的な量子ネットワークにおけるマルチパーティ・エンタングルメントを決定するためのスケーラブルな手法を提案する。

Quantum networks comprised of entangled end nodes serve stronger than the classical correlation for unparalleled quantum internet applications. However, practical quantum networking is affected by noise, which at its worst, causes end nodes to be described by pre-existing classical data. In such untrusted networks, determining quantum network fidelity and genuine multi-node entanglement becomes crucial. Here, we show that determining quantum network fidelity and genuine $N$-node entanglement in an untrusted star network requires only $N+1$ measurement settings. This method establishes a semi-trusted framework, allowing some nodes to relax their assumptions. Our network determination method is enabled by detecting genuine $N$-node Einstein-Podolsky-Rosen steerability. Experimentally, using spontaneous parametric down-conversion entanglement sources, we demonstrate the determinations of genuine 3-photon and 4-photon quantum networks and the false positives of the widely used entanglement witness, the fidelity criterion of $1/2$. Our results provide a scalable method for the determination of multipartite entanglement in realistic quantum networks.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# MSS-PAE:予期せぬ再建からオートエンコーダによるアウトリーチ検出を省く

MSS-PAE: Saving Autoencoder-based Outlier Detection from Unexpected Reconstruction ( http://arxiv.org/abs/2304.00709v3 )

ライセンス: Link先を確認
Xu Tan, Jiawei Yang, Junqi Chen, Sylwan Rahardja, Susanto Rahardja, (参考訳) オートエンコーダ(AE)は、固有の学習能力のため、機械学習タスクに一般的に使用される。 このユニークな特徴は、Outlier Detection (OD) に利用することができる。 しかし、従来のAEベースの手法では、不確実な決定と予期せぬ外乱の復元結果が問題となり、ODの性能が制限される。 これらの問題を緩和するために、平均二乗誤差(MSE)と負対数類似度(NLL)をまず分析し、AE系ODにアレラトニック不確実性を導入することの重要性を解明した。 そして、異なるODシナリオに対する不確実性の影響を調整するために、WNLL(Weighted Negative Logarithmic Likelihood)を提案した。 さらに,データの局所的関係を利用して,AEによる偽インレーサの問題を低減するために,平均シフトスコア法(MSS)を提案した。 32個の実世界のODデータセットを用いて実験を行い,提案手法の有効性を実証した。 WNLLとMSSの組み合わせは、最高のベースラインに比べて41%パフォーマンスが向上した。 さらに、MSSは複数のAEベースの異常検知器の検知性能を平均20%改善した。 提案手法は、ODにおけるAEの発展を促進する可能性がある。

AutoEncoders (AEs) are commonly used for machine learning tasks due to their intrinsic learning ability. This unique characteristic can be capitalized for Outlier Detection (OD). However conventional AE-based methods face the issue of overconfident decisions and unexpected reconstruction results of outliers, limiting their performance in OD. To mitigate these issues, the Mean Squared Error (MSE) and Negative Logarithmic Likelihood (NLL) were firstly analyzed, and the importance of incorporating aleatoric uncertainty to AE-based OD was elucidated. Then the Weighted Negative Logarithmic Likelihood (WNLL) was proposed to adjust for the effect of uncertainty for different OD scenarios. Moreover, the Mean-Shift Scoring (MSS) method was proposed to utilize the local relationship of data to reduce the issue of false inliers caused by AE. Experiments on 32 real-world OD datasets proved the effectiveness of the proposed methods. The combination of WNLL and MSS achieved 41% relative performance improvement compared to the best baseline. In addition, MSS improved the detection performance of multiple AE-based outlier detectors by an average of 20%. The proposed methods have the potential to advance AE's development in OD.
翻訳日:2024-07-11 00:50:53 公開日:2024-07-09
# プライバシーの虚偽感覚:生体データ匿名化のための信頼性評価手法を目指して

A False Sense of Privacy: Towards a Reliable Evaluation Methodology for the Anonymization of Biometric Data ( http://arxiv.org/abs/2304.01635v2 )

ライセンス: Link先を確認
Simon Hanisch, Julian Todt, Jose Patino, Nicholas Evans, Thorsten Strufe, (参考訳) 生体データは、顔の特徴や歩行パターンのような特徴的な人間の特徴を含んでいる。 生体データを使用することで、識別および認証システムにおいて、データが効果的に活用されるように、正確に識別が可能である。 しかし、同じ理由からプライバシー保護は必然的に必要となる。 プライバシー保護は匿名化の技法によって広範囲に提供される。 匿名化技術は、バイオメトリックスから機密性の高い個人データを保護し、生成した個人にレコードをリンクできる情報を取り除き、高い匿名性を達成する。 しかし, 効果的な匿名化を実現するには, 匿名化性能を評価する手法の有効性が重要である。 本稿では,顔画像および歩行パターンの匿名化技術の性能評価に使用される最先端手法の評価を行う。 現状評価手法には深刻な欠点と頻繁な欠点があることを実証する。 特に、最先端の前提は極めて不確実であることがわかった。 最先端の手法は一般的に難解な認識シナリオを前提としており、弱敵である。 しかし、この仮定は、最先端の評価が匿名化の性能を大幅に過大評価する原因となっている。 そこで我々は,この匿名化を意識した強敵を提案する。 評価データセットの選択プロセスを改善し、データセットに含まれるアイデンティティの数を減らすとともに、これらのIDが互いに容易に識別可能であることを保証します。 我々の新しい評価手法は、最悪のケースのパフォーマンスを計測し、バイオメトリックの匿名化手法の信頼性の高い評価を提供するため、最先端の手法を超越している。

Biometric data contains distinctive human traits such as facial features or gait patterns. The use of biometric data permits an individuation so exact that the data is utilized effectively in identification and authentication systems. But for this same reason, privacy protections become indispensably necessary. Privacy protection is extensively afforded by the technique of anonymization. Anonymization techniques protect sensitive personal data from biometrics by obfuscating or removing information that allows linking records to the generating individuals, to achieve high levels of anonymity. However, our understanding and possibility to develop effective anonymization relies, in equal parts, on the effectiveness of the methods employed to evaluate anonymization performance. In this paper, we assess the state-of-the-art methods used to evaluate the performance of anonymization techniques for facial images and for gait patterns. We demonstrate that the state-of-the-art evaluation methods have serious and frequent shortcomings. In particular, we find that the underlying assumptions of the state-of-the-art are quite unwarranted. State-of-the-art methods generally assume a difficult recognition scenario and thus a weak adversary. However, that assumption causes state-of-the-art evaluations to grossly overestimate the performance of the anonymization. Therefore, we propose a strong adversary which is aware of the anonymization in place. We improve the selection process for the evaluation dataset, and we reduce the numbers of identities contained in the dataset while ensuring that these identities remain easily distinguishable from one another. Our novel evaluation methodology surpasses the state-of-the-art because we measure worst-case performance and so deliver a highly reliable evaluation of biometric anonymization techniques.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# モダリティの欠如に対する統一型マルチモーダル画像合成

Unified Multi-Modal Image Synthesis for Missing Modality Imputation ( http://arxiv.org/abs/2304.05340v2 )

ライセンス: Link先を確認
Yue Zhang, Chengtao Peng, Qiuli Wang, Dan Song, Kaiyan Li, S. Kevin Zhou, (参考訳) マルチモーダル医療画像は、疾患のスクリーニングと診断に役立つ相補的なソフト・タスクの特徴を提供する。 しかし、スキャン時間、画像の破損、様々な画像プロトコルは、しばしば不完全なマルチモーダル画像をもたらすため、臨床目的でのマルチモーダルデータの使用が制限される。 この問題に対処するため,本研究では,モダリティ計算の欠如を解消するために,新しいマルチモーダル画像合成法を提案する。 提案手法は, 利用可能な任意の組み合わせから1つのモデルを用いて, 欠落したモダリティを合成することを目的とした, 生成的対角構造を総合的に捉えたものである。 この目的のために、我々は、入力モダリティに含まれるモダリティ不変情報と特定情報の両方を活用するために、ジェネレータ用の共通性と離散性感性エンコーダを特に設計する。 どちらの種類の情報も組み込むことで、一貫した解剖学と、所望の分布の現実的な詳細を持つ画像の生成が容易になる。 さらに,利用可能な様々なモダリティからの情報を統合する動的特徴統一モジュールを提案し,ネットワークがランダムに欠落したモダリティに対して堅牢になるようにした。 モジュールはハードインテグレーションとソフトインテグレーションの両方を実行し、情報損失を回避しながら機能の組み合わせの有効性を保証する。 2つの公開マルチモーダル磁気共鳴データセットを検証し, 提案手法は各種合成タスクの処理に有効であり, 従来法よりも優れた性能を示す。

Multi-modal medical images provide complementary soft-tissue characteristics that aid in the screening and diagnosis of diseases. However, limited scanning time, image corruption and various imaging protocols often result in incomplete multi-modal images, thus limiting the usage of multi-modal data for clinical purposes. To address this issue, in this paper, we propose a novel unified multi-modal image synthesis method for missing modality imputation. Our method overall takes a generative adversarial architecture, which aims to synthesize missing modalities from any combination of available ones with a single model. To this end, we specifically design a Commonality- and Discrepancy-Sensitive Encoder for the generator to exploit both modality-invariant and specific information contained in input modalities. The incorporation of both types of information facilitates the generation of images with consistent anatomy and realistic details of the desired distribution. Besides, we propose a Dynamic Feature Unification Module to integrate information from a varying number of available modalities, which enables the network to be robust to random missing modalities. The module performs both hard integration and soft integration, ensuring the effectiveness of feature combination while avoiding information loss. Verified on two public multi-modal magnetic resonance datasets, the proposed method is effective in handling various synthesis tasks and shows superior performance compared to previous methods.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 正規化・多視点支援ベクトル機械学習のローカライズ

Localisation of Regularised and Multiview Support Vector Machine Learning ( http://arxiv.org/abs/2304.05655v3 )

ライセンス: Link先を確認
Aurelian Gheondea, Cankat Tilki, (参考訳) 我々は、H.Q. Minh, L. Bazzani, V. Murino, Journal of Machine Learning Research, 17(2016) 1-72によって導入された正規化および多ビューサポートベクター機械学習問題の局所化バージョンに対するいくつかの表現定理を証明した。 結果は、凸や非凸の損失関数や有限あるいは無限次元の入力空間が考慮される場合の一般的なケースに関係している。 特に損失関数がガトー微分可能であれば、一般のフレームワークは無限次元の入力空間と非凸損失関数をいくつかの特別な場合に対して許すことを示す。 より詳細な計算は指数最小二乗損失関数に対して提供され、この関数は部分的に非線形方程式を導き、ニュートンの近似法を用いることができる。

We prove a few representer theorems for a localised version of the regularised and multiview support vector machine learning problem introduced by H.Q. Minh, L. Bazzani, and V. Murino, Journal of Machine Learning Research, 17(2016) 1-72, that involves operator valued positive semidefinite kernels and their reproducing kernel Hilbert spaces. The results concern general cases when convex or nonconvex loss functions and finite or infinite dimensional input spaces are considered. We show that the general framework allows infinite dimensional input spaces and nonconvex loss functions for some special cases, in particular in case the loss functions are Gateaux differentiable. Detailed calculations are provided for the exponential least square loss function that lead to partially nonlinear equations for which a particular unconstrained potential reduction Newton's approximation method can be used.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 量子ディスクからのセキュアキー

Secure Key from Quantum Discord ( http://arxiv.org/abs/2304.05880v4 )

ライセンス: Link先を確認
Rong Wang, Guan-Jie Fan-Yuan, Zhen-Qiang Yin, Shuang Wang, Hong-Wei Li, Yao Yao, Wei Chen, Guang-Can Guo, Zheng-Fu Han, (参考訳) 量子情報処理の研究は、量子情報処理が従来の情報処理では不可能または非効率なタスクを実行できるようにするリソースを特徴付けようとしている。 量子暗号はそのような課題の一つであり、研究者は絡み合いをセキュアな鍵生成に十分なリソースとして認識している。 しかし、絡み合い以外の別の種類の量子相関である量子不協和は、情報漏洩に直接関係しているため、セキュアな通信を保証するために必要であることが判明した。 それにもかかわらず、特定の量子暗号プロトコルのセキュリティを分析するために不一致を利用するには、長年にわたる問題である。 ここでは、最近提案した量子不一致の証人に基づいて、BB84のような量子鍵分布プロトコルとその等価な絡み合いに基づくバージョンを考慮し、この問題に対処することに成功している。 提案手法は, 標準のBB84プロトコルよりも高い鍵レートを実現するため, 量子チャネルによる基底ミスアライメントだけでなく, 量子ビット源および量子ビット測定の不完全性に対して頑健である。 これらの利点はフォトニック位相符号化システムを用いて実験的に実証され、その結果の実用性を示している。

The study of quantum information processing seeks to characterize the resources that enable quantum information processing to perform tasks that are unfeasible or inefficient for classical information processing. Quantum cryptography is one such task, and researchers have identified entanglement as a sufficient resource for secure key generation. However, quantum discord, another type of quantum correlation beyond entanglement, has been found to be necessary for guaranteeing secure communication due to its direct relation to information leakage. Despite this, it is a long-standing problem how to make use of discord to analyze security in a specific quantum cryptography protocol. Here, based on our proposed quantum discord witness recently, we successfully address this issue by considering a BB84-like quantum key distribution protocol and its equivalent entanglement-based version. Our method is robust against imperfections in qubit sources and qubit measurements as well as basis misalignment due to quantum channels, which results in a better key rate than standard BB84 protocol. Those advantages are experimentally demonstrated via photonic phase encoding systems, which shows the practicality of our results.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 摂動量子井戸におけるカオスのシグナチャ

Signature of chaos in perturbed quantum wells ( http://arxiv.org/abs/2304.14272v5 )

ライセンス: Link先を確認
Pranaya Pratik Das, Biplab Ganguli, (参考訳) 従来の研究では, 局所的な最大ポテンシャルの近傍では, OTOC (textit{Out-of-Time-Order-Correlator}) が指数関数的に成長することが示された。 もしこの主張が真であるなら、局所的な最大値がシステム内にもはや存在しない場合、指数関数的な成長は停止するべきである。 小さな対称性を破る摂動を適用することで、最大値が存在しない場合でも、OTOCの挙動は著しくレジリエントであることに気づく。 さらに、摂動強度の増大に伴い、崩壊した対称領域が拡大し、広い範囲の固有状態がOTOCの指数的成長に関与していることにも気付きました。 したがって、臨界因子は局所的な最大値の存在ではなく、壊れた対称性領域における状態の密度の動的性質にある。 本研究は, この現象の普遍性を明らかにするために, 多様な潜在的景観にまたがる検討を行った。 また、他のカオス診断ツールである \textit{Loschmidt Echo} (LE) も使用しています。 興味深いことに、OTOCが指数関数的に成長するたびにカオスの徴候を示す。

Previous studies have concluded that \textit{Out-of-Time-Order-Correlator} (OTOC) shows exponential growth in the neighbourhood of a local maximum of a potential. If this statement holds true, the exponential growth should break off once the local maximum is no longer present within the system. By applying a small symmetry-breaking perturbation, we notice that the behaviour of the OTOCs remains remarkably resilient even in the absence of a maximum. Besides this, we also notice that with the increase in perturbation strength, the broken symmetric region expands, causing a broader range of eigenstates to engage in the exponential growth of OTOCs. Therefore, the critical factor lies not in the presence of a local maximum, but in the dynamic nature of the density of states in the broken symmetry regions. Our examination, spanning diverse potential landscapes, reveals the universality of this phenomenon. We also use other chaos diagnostic tool, \textit{Loschmidt Echo} (LE). Interestingly, they also show signature of chaos whenever there is an exponential growth of OTOC.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 大規模言語モデルにおける辞書プロンプト翻訳の連鎖

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models ( http://arxiv.org/abs/2305.06575v4 )

ライセンス: Link先を確認
Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei, (参考訳) 大規模言語モデル(LLM)は、並列データなしで訓練しても、MNMT(multilingual neural machine translation)において驚くほど優れた性能を示している。 しかし、トレーニングデータの量は膨大であるにもかかわらず、レアワードの翻訳に苦慮している。 さらに悪いことに、LLM上での低リソース言語によるテキスト内学習に関する関連するデモを検索することは非現実的です。 この目的のために,入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを増強し,LLMの翻訳能力を引き出す新しい手法であるCoDを提案する。 CoDによるChatGPTの拡張は、FLORES-200の完全なテストセット上で、MNMTの13倍のchrF++ポイント(キリル文字で書かれた英語からセルビア語への3.08から42.63)を大きく増加させることを示している。 さらに,多言語辞書のチェーン化の重要性や,低リソース言語における数ショットのデモに対するCoDの優位性も示している。

Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# セルラー車間通信サービス提供のためのエッジリソースのタスク配置とスケーリングに関する深部RLアプローチ

A Deep RL Approach on Task Placement and Scaling of Edge Resources for Cellular Vehicle-to-Network Service Provisioning ( http://arxiv.org/abs/2305.09832v2 )

ライセンス: Link先を確認
Cyril Shih-Huan Hsu, Jorge Martín-Pérez, Danny De Vleeschauwer, Koteswararao Kondepu, Luca Valcarenghi, Xi Li, Chrysa Papagianni, (参考訳) セルラーVehicle-to-Everything(C-V2X)は現在、私たちの社会のデジタルトランスフォーメーションの最前線にいます。 車両がセルラーネットワークを使って相互に交通環境と通信できるようにすることで、輸送を再定義し、道路の安全と交通サービスを改善し、車両交通の効率を向上し、環境への影響を低減する。 セルラーV2N(Cellular Vehicular-to-Network)サービスのプロビジョニングを容易にするため,サービスタスク配置とエッジリソースのスケーリングの相互依存問題に対処する。 具体的には、結合問題を定式化し、計算的に計算可能でないことを証明する。 その複雑さに対処するため,DHPGは複合行動空間に対する深層強化学習(DRL)アプローチであるDeep Hybrid Policy Gradient (DHPG)を導入し,実世界のC-V2Nトラフィックデータセットを用いたシミュレーションにより,いくつかの最先端(SoA)ソリューションに対してDHPGの性能を評価した。 その結果、DHPGは、プリセット遅延閾値以下でC-V2Nサービスのレイテンシを維持するのにSoAソリューションよりも優れ、同時にコンピューティングリソースの利用を最適化することを示した。 最後に,提案手法がリアルタイムC-V2Nサービスをサポート可能であることを確認するために,時間複雑性解析を行った。

Cellular-Vehicle-to-Everything (C-V2X) is currently at the forefront of the digital transformation of our society. By enabling vehicles to communicate with each other and with the traffic environment using cellular networks, we redefine transportation, improving road safety and transportation services, increasing efficiency of vehicular traffic flows, and reducing environmental impact. To effectively facilitate the provisioning of Cellular Vehicular-to-Network (C-V2N) services, we tackle the interdependent problems of service task placement and scaling of edge resources. Specifically, we formulate the joint problem and prove that it is not computationally tractable. To address its complexity we introduce a Deep Hybrid Policy Gradient (DHPG), a Deep Reinforcement Learning (DRL) approach for hybrid action spaces.The performance of DHPG is evaluated against several state-of-the-art (SoA) solutions through simulations employing a real-world C-V2N traffic dataset. The results demonstrate that DHPG outperforms SoA solutions in maintaining C-V2N service latency below the preset delay threshold, while simultaneously optimizing the utilization of computing resources. Finally, time complexity analysis is conducted to verify that the proposed approach can support real-time C-V2N services.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# TSGM: 合成時系列の生成モデリングのための柔軟なフレームワーク

TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series ( http://arxiv.org/abs/2305.11567v2 )

ライセンス: Link先を確認
Alexander Nikitin, Letizia Iannucci, Samuel Kaski, (参考訳) テンポラリインデックスされたデータは、幅広い分野や機械学習研究者の関心に欠かせない。 しかし、時系列データは、研究者と産業組織間のデータの共有や、既存のおよび新しいデータ集約型ML手法の適用を妨げているため、少ないか非常に敏感であることが多い。 このボトルネックの可能な解決策は、合成データを生成することである。 本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。 TSGMは、生成モデル、確率論的、シミュレータベースのアプローチという、機械学習手法の幅広いレパートリーを含んでいる。 このフレームワークにより、ユーザは、類似性、下流の有効性、予測一貫性、多様性、プライバシといった、さまざまな角度から生成されたデータの品質を評価することができる。 このフレームワークは拡張可能で、研究者は自身のメソッドを迅速に実装し、共有可能な環境で比較することができる。 TSGMはオープンデータセットと本番環境でテストされ、両方のケースで有益であることが証明された。 ライブラリに加えて、このプロジェクトでは、プログラミングのバックグラウンドを持たない人のエントリしきい値を下げる合成データ生成にコマンドラインインターフェイスを使用することができる。

Temporally indexed data are essential in a wide range of fields and of interest to machine learning researchers. Time series data, however, are often scarce or highly sensitive, which precludes the sharing of data between researchers and industrial organizations and the application of existing and new data-intensive ML methods. A possible solution to this bottleneck is to generate synthetic data. In this work, we introduce Time Series Generative Modeling (TSGM), an open-source framework for the generative modeling of synthetic time series. TSGM includes a broad repertoire of machine learning methods: generative models, probabilistic, and simulator-based approaches. The framework enables users to evaluate the quality of the produced data from different angles: similarity, downstream effectiveness, predictive consistency, diversity, and privacy. The framework is extensible, which allows researchers to rapidly implement their own methods and compare them in a shareable environment. TSGM was tested on open datasets and in production and proved to be beneficial in both cases. Additionally to the library, the project allows users to employ command line interfaces for synthetic data generation which lowers the entry threshold for those without a programming background.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 変圧器を用いたハイパーリレーショナルおよび数値知識グラフの表現学習

Representation Learning on Hyper-Relational and Numeric Knowledge Graphs with Transformers ( http://arxiv.org/abs/2305.18256v4 )

ライセンス: Link先を確認
Chanyoung Chung, Jaejun Lee, Joyce Jiyoung Whang, (参考訳) ハイパーリレーショナル知識グラフ(英語版)は、最近研究され、三重項が一組の等化子に関連付けられ、等化子は関係と実体から構成され、三重項の補助情報を提供する。 既存のハイパーリレーショナル知識グラフ埋め込み法は、エンティティが離散オブジェクトであると仮定するが、いくつかの情報は、例えば(J.R.R.は1892年に生まれた)数値を使って表現されるべきである。 また、三重項(オックスフォード大学で教育を受けたJ.R.R.)は(開始時間、1911年)等式に関連付けられる。 本稿では,三重項あるいは等化子に数値リテラルを含むハイパーリレーショナル知識グラフの表現を学習するHyNTという統合フレームワークを提案する。 我々は文脈変換器と予測変換器を定義し、三重項とその等化器の相関だけでなく、数値情報にもとづいて表現を学習する。 三重項と等化器のコンパクト表現を学習し、変換器に供給することにより、変換器を使用する際の計算コストを削減できる。 HyNTを用いて、ハイパーリレーショナルな知識グラフにおいて、欠落したエンティティや関係に加えて、欠落した数値を予測することができる。 実験の結果,HyNTは実世界のデータセットにおいて最先端の手法よりも優れていた。

A hyper-relational knowledge graph has been recently studied where a triplet is associated with a set of qualifiers; a qualifier is composed of a relation and an entity, providing auxiliary information for a triplet. While existing hyper-relational knowledge graph embedding methods assume that the entities are discrete objects, some information should be represented using numeric values, e.g., (J.R.R., was born in, 1892). Also, a triplet (J.R.R., educated at, Oxford Univ.) can be associated with a qualifier such as (start time, 1911). In this paper, we propose a unified framework named HyNT that learns representations of a hyper-relational knowledge graph containing numeric literals in either triplets or qualifiers. We define a context transformer and a prediction transformer to learn the representations based not only on the correlations between a triplet and its qualifiers but also on the numeric information. By learning compact representations of triplets and qualifiers and feeding them into the transformers, we reduce the computation cost of using transformers. Using HyNT, we can predict missing numeric values in addition to missing entities or relations in a hyper-relational knowledge graph. Experimental results show that HyNT significantly outperforms state-of-the-art methods on real-world datasets.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# DeSAM: 一般化可能な医用画像セグメンテーションのための分離セグメントモデル

DeSAM: Decoupled Segment Anything Model for Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2306.00499v2 )

ライセンス: Link先を確認
Yifan Gao, Wei Xia, Dingdu Hu, Wenkui Wang, Xin Gao, (参考訳) 深層学習に基づく医療画像セグメンテーションモデルは、ソースドメインでトレーニングされたモデルは、他の見えないドメインにうまく一般化しないため、ドメインシフトに悩まされることが多い。 強力な一般化能力を持つプロンプト駆動基盤モデルとして、SAM(Segment Anything Model)は、医用画像セグメンテーションのクロスドメインロバスト性を改善する可能性を示している。 しかし、SAMは手動で引き起こされた場合よりも自動セグメンテーションのシナリオでは著しくパフォーマンスが悪く、ドメインの一般化への直接の応用を妨げている。 さらなる調査の結果,性能劣化は避けられない不適切なプロンプトとマスク生成の結合効果と関連していることがわかった。 この結合効果に対処するために,Decoupled SAM (DeSAM)を提案する。 DeSAMは、プロンプト関連IoUモジュール(PRIM)とプロンプト分離マスクモジュール(PDMM)の2つの新しいモジュールを導入することでSAMのマスクデコーダを変更する。 PRIMはIoUスコアを予測してマスク埋め込みを生成し、PDMMは画像エンコーダの中間層からマルチスケールの特徴を抽出し、PRIMのマスク埋め込みと融合して最終セグメンテーションマスクを生成する。 この分離された設計により、DeSAMはトレーニング済みの重みを活用でき、プロンプトの低さによる性能劣化を最小限に抑えることができる。 前立腺および腹腔内画像分割データセットの公開実験を行った。 その結果,DeSAMは従来の最先端領域の一般化手法よりも大幅に性能が向上していることがわかった。 コードはhttps://github.com/yifangao112/DeSAMで公開されている。

Deep learning-based medical image segmentation models often suffer from domain shift, where the models trained on a source domain do not generalize well to other unseen domains. As a prompt-driven foundation model with powerful generalization capabilities, the Segment Anything Model (SAM) shows potential for improving the cross-domain robustness of medical image segmentation. However, SAM performs significantly worse in automatic segmentation scenarios than when manually prompted, hindering its direct application to domain generalization. Upon further investigation, we discovered that the degradation in performance was related to the coupling effect of inevitable poor prompts and mask generation. To address the coupling effect, we propose the Decoupled SAM (DeSAM). DeSAM modifies SAM's mask decoder by introducing two new modules: a prompt-relevant IoU module (PRIM) and a prompt-decoupled mask module (PDMM). PRIM predicts the IoU score and generates mask embeddings, while PDMM extracts multi-scale features from the intermediate layers of the image encoder and fuses them with the mask embeddings from PRIM to generate the final segmentation mask. This decoupled design allows DeSAM to leverage the pre-trained weights while minimizing the performance degradation caused by poor prompts. We conducted experiments on publicly available cross-site prostate and cross-modality abdominal image segmentation datasets. The results show that our DeSAM leads to a substantial performance improvement over previous state-of-theart domain generalization methods. The code is publicly available at https://github.com/yifangao112/DeSAM.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 発振器の独立振動子モデルと量子ランゲヴィン方程式

Independent-oscillator model and the quantum Langevin equation for an oscillator: A review ( http://arxiv.org/abs/2306.02665v2 )

ライセンス: Link先を確認
Aritra Ghosh, Malay Bandyopadhyay, Sushanta Dattagupta, Shamik Gupta, (参考訳) このレビューでは、振動子に対する量子ランゲヴィン方程式を簡潔かつ迅速に導入し、定常的な熱力学の側面に焦点をあてる。 量子ランゲヴィン方程式の導出は、多数の独立量子発振器(いわゆる独立振動子モデル)の集合として、熱浴の顕微鏡モデルに基づいて慎重に概説される。 これに続いて、関連する‘弱結合’制限に関する議論がある。 定常状態では、近年の文献でかなりの関心を集めているエネルギー分配定理の量子対の解析を行う。 調和井戸内の1次元量子ブラウン運動について、自由エネルギー、エントロピー、比熱、および熱力学の第三法則について論じる。 続いて、量子ブラウン振動子の文脈における散逸性双磁性のいくつかの側面を探求し、ポテンシャルの凝縮の役割と環境誘起古典量子交叉にも着目する。 本稿では,ベクトルポテンシャルの存在下での運動量-運動量結合のゲージ不変モデルに着目して,システムバス結合が運動量変数を経由する状況について議論し,量子ランゲヴィン方程式を導出し,量子熱力学関数について議論する。 最後に、変動定理のトピックは、熱浴に結合した粒子の古典的および量子サイクロトロン運動の文脈で(簡潔に)議論される。

This review provides a brief and quick introduction to the quantum Langevin equation for an oscillator, while focusing on the steady-state thermodynamic aspects. A derivation of the quantum Langevin equation is carefully outlined based on the microscopic model of the heat bath as a collection of a large number of independent quantum oscillators, the so-called independent-oscillator model. This is followed by a discussion on the relevant `weak-coupling' limit. In the steady state, we analyze the quantum counterpart of energy equipartition theorem which has generated a considerable amount of interest in recent literature. The free energy, entropy, specific heat, and third law of thermodynamics are discussed for one-dimensional quantum Brownian motion in a harmonic well. Following this, we explore some aspects of dissipative diamagnetism in the context of quantum Brownian oscillators, emphasizing upon the role of confining potentials and also upon the environment-induced classical-quantum crossover. We discuss situations where the system-bath coupling is via the momentum variables by focusing on a gauge-invariant model of momentum-momentum coupling in the presence of a vector potential; for this problem, we derive the quantum Langevin equation and discuss quantum thermodynamic functions. Finally, the topic of fluctuation theorems is discussed (albeit, briefly) in the context of classical and quantum cyclotron motion of a particle coupled to a heat bath.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 大規模言語モデルからレコメンダシステムにどのようなメリットがあるか:調査

How Can Recommender Systems Benefit from Large Language Models: A Survey ( http://arxiv.org/abs/2306.05817v6 )

ライセンス: Link先を確認
Jianghao Lin, Xinyi Dai, Yunjia Xi, Weiwen Liu, Bo Chen, Hao Zhang, Yong Liu, Chuhan Wu, Xiangyang Li, Chenxu Zhu, Huifeng Guo, Yong Yu, Ruiming Tang, Weinan Zhang, (参考訳) オンラインサービスの急速な発展に伴い、情報過負荷を軽減するためにレコメンダシステム(RS)はますます不可欠になっている。 目覚ましい進歩にもかかわらず、従来のレコメンデーションモデル(CRM)には、例えば、オープンワールドの知識の欠如、ユーザの基本的な好みやモチベーションを理解するのに困難がある。 一方、大きな言語モデル(LLM)は、その広範なオープンワールドの知識、推論能力、そして人間の文化や社会の理解から生まれた、印象的な汎用知能と人間のような能力を示してきた。 その結果、LLMの出現はレコメンダシステムの設計を刺激し、将来性のある研究方向、すなわち、LLMを取り入れてCRMの限界を補うための知識と能力の恩恵を享受できるかどうかを指摘する。 本稿では,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。 具体的には、2つの直交的な側面から既存の作品を要約する: LLM を RS に適用する場所と方法。 WHERE質問では,LLMがレコメンデーションパイプラインのさまざまな段階,すなわち機能工学,機能エンコーダ,スコアリング/ランク機能,ユーザインタラクション,パイプラインコントローラで果たす役割について議論する。 HOW質問では、トレーニングと推論戦略について検討し、2つのきめ細かい分類基準、すなわち、LSMをチューニングするか否か、推論のための従来の推奨モデルを含むべきかを結論付けている。 次に,3つの側面,すなわち効率性,有効性,倫理性から,LSMをRSに適用する上での課題を強調した。 最後に,調査の概要と今後の展望について考察する。 論文やその他の関連リソースのGitHubリポジトリを積極的に管理しています。

With the rapid development of online services, recommender systems (RS) have become increasingly indispensable for mitigating information overload. Despite remarkable progress, conventional recommendation models (CRM) still have some limitations, e.g., lacking open-world knowledge, and difficulties in comprehending users' underlying preferences and motivations. Meanwhile, large language models (LLM) have shown impressive general intelligence and human-like capabilities, which mainly stem from their extensive open-world knowledge, reasoning ability, as well as their comprehension of human culture and society. Consequently, the emergence of LLM is inspiring the design of recommender systems and pointing out a promising research direction, i.e., whether we can incorporate LLM and benefit from their knowledge and capabilities to compensate for the limitations of CRM. In this paper, we conduct a comprehensive survey on this research direction from the perspective of the whole pipeline in real-world recommender systems. Specifically, we summarize existing works from two orthogonal aspects: where and how to adapt LLM to RS. For the WHERE question, we discuss the roles that LLM could play in different stages of the recommendation pipeline, i.e., feature engineering, feature encoder, scoring/ranking function, user interaction, and pipeline controller. For the HOW question, we investigate the training and inference strategies, resulting in two fine-grained taxonomy criteria, i.e., whether to tune LLM or not, and whether to involve conventional recommendation models for inference. Then, we highlight key challenges in adapting LLM to RS from three aspects, i.e., efficiency, effectiveness, and ethics. Finally, we summarize the survey and discuss the future prospects. We actively maintain a GitHub repository for papers and other related resources: https://github.com/CHIANGEL/Awesome-LLM-for-RecSys/.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 適応的非同期更新によるストラグラー・レジリエントな分散学習

Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates ( http://arxiv.org/abs/2306.06559v2 )

ライセンス: Link先を確認
Guojun Xiong, Gang Yan, Shiqiang Wang, Jian Li, (参考訳) 機械学習モデルの大規模なトレーニングの需要が高まっているため、完全に分散化された最適化手法が、最近、人気のあるパラメータサーバフレームワークの代替手段として提唱されている。 このパラダイムでは、各ワーカーは最適なパラメータベクトルの局所的な見積を保持し、隣人から得られたすべての見積もりを待機して平均化することで反復的に更新し、そのローカルデータセットに基づいて修正する。 しかし、同期相はストラグラーに敏感である。 この効果を緩和する効果的な方法は、各ワーカーが確率的勾配を計算し、他のワーカーと自身のペースで通信する非同期更新を検討することである。 残念ながら、完全な非同期更新はストラグラーのパラメータの不安定さに悩まされている。 これらの制約に対処するため、各労働者が通信する近隣労働者の数を適応的に決定し、適応的な非同期更新を施した完全分散アルゴリズムDSGD-AAUを提案する。 DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。

With the increasing demand for large-scale training of machine learning models, fully decentralized optimization methods have recently been advocated as alternatives to the popular parameter server framework. In this paradigm, each worker maintains a local estimate of the optimal parameter vector, and iteratively updates it by waiting and averaging all estimates obtained from its neighbors, and then corrects it on the basis of its local dataset. However, the synchronization phase is sensitive to stragglers. An efficient way to mitigate this effect is to consider asynchronous updates, where each worker computes stochastic gradients and communicates with other workers at its own pace. Unfortunately, fully asynchronous updates suffer from staleness of stragglers' parameters. To address these limitations, we propose a fully decentralized algorithm DSGD-AAU with adaptive asynchronous updates via adaptively determining the number of neighbor workers for each worker to communicate with. We show that DSGD-AAU achieves a linear speedup for convergence and demonstrate its effectiveness via extensive experiments.
翻訳日:2024-07-11 00:40:48 公開日:2024-07-09
# 限定データに基づくソーシャル機械学習の非漸近的性能

Non-Asymptotic Performance of Social Machine Learning Under Limited Data ( http://arxiv.org/abs/2306.09397v2 )

ライセンス: Link先を確認
Ping Hu, Virginia Bordignon, Mert Kayaalp, Ali H. Sayed, (参考訳) 本稿では,グラフ上での協調的な意思決定フェーズに続き,独立した学習フェーズを含む社会機械学習フレームワークによる誤りの確率について検討する。 このフレームワークは、ラベルのないデータのストリームを分散的に分類する問題に対処する。 そこで本研究では,非漸近的性能解析を必要とする意思決定フェーズにおいて,限定的な観察による分類課題について検討する。 我々は、一貫した訓練条件を確立し、分類の誤差の確率に上限を導出する。 その結果、データの統計特性とグラフ上で使用される組み合わせポリシーへの依存を明らかにすることができた。 彼らはまた、ラベルのないサンプルの数に関して誤差の確率の指数関数的減衰を確立する。

This paper studies the probability of error associated with the social machine learning framework, which involves an independent training phase followed by a cooperative decision-making phase over a graph. This framework addresses the problem of classifying a stream of unlabeled data in a distributed manner. In this work, we examine the classification task with limited observations during the decision-making phase, which requires a non-asymptotic performance analysis. We establish a condition for consistent training and derive an upper bound on the probability of error for classification. The results clarify the dependence on the statistical properties of the data and the combination policy used over the graph. They also establish the exponential decay of the probability of error with respect to the number of unlabeled samples.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定

milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v7 )

ライセンス: Link先を確認
Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu, (参考訳) ヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズされたサービスにおいて、スマートシステムにおいて重要な役割を果たす。 大規模な研究は、主にカメラに基づいており、その侵入性はスマートホームアプリケーションでの使用を制限する。 この問題を解決するために、mWaveレーダーはプライバシーに優しい機能のために人気を集めている。 本研究では,mmWave 点雲の相補的な動き情報としてシーンフローを推定する新たな深層学習手法である MilliFlow を提案する。 実験により, 競合する手法と比較して, 提案手法の優れた性能が示された。 さらに、シーンフロー情報を取り入れることで、人間の活動認識と人間のパーシングの大幅な改善を実現し、人体部分追跡を支援する。

Human motion sensing plays a crucial role in smart systems for decision-making, user interaction, and personalized services. Extensive research that has been conducted is predominantly based on cameras, whose intrusive nature limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose milliFlow, a novel deep learning approach to estimate scene flow as complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method when compared with the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition and human parsing and support human body part tracking.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# オープンセットセマンティックセマンティックセグメンテーションのためのマルチモーダルプロトタイプ

Multi-Modal Prototypes for Open-Set Semantic Segmentation ( http://arxiv.org/abs/2307.02003v2 )

ライセンス: Link先を確認
Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang, (参考訳) セマンティックセグメンテーションにおいて、推論時に新しいオブジェクトカテゴリに視覚システムを適用することは、常に有用かつ困難である。 このような一般化を可能にするために、既存のメソッドは、ビジュアルキューのようないくつかのサポート例を提供するか、テキストキューとしてクラス名を提供するかに依存している。 開発は比較的楽観的であり、これらの2つの線は、低レベル視覚および高レベル言語情報の相補的な内在性を無視して、独立して研究されてきた。 本稿では,視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした,オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。 パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。 具体的には、視覚的特徴を視覚的プロトタイプとしていくつかのトークンに集約し、テキストプロトタイプ生成の詳細な記述でクラス名を強化する。 2つのモダリティは融合され、最終セグメンテーションのためのマルチモーダルプロトタイプを生成する。 そこで我々は,<pascal>と<coco>の2つのデータセットを用いて,フレームワークの有効性を評価する。 最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。 定量的にも質的にも、各成分を分離するために、徹底的なアブレーション研究が実施されている。

In semantic segmentation, adapting a visual system to novel object categories at inference time has always been both valuable and challenging. To enable such generalization, existing methods rely on either providing several support examples as visual cues or class names as textual cues. Through the development is relatively optimistic, these two lines have been studied in isolation, neglecting the complementary intrinsic of low-level visual and high-level language information. In this paper, we define a unified setting termed as open-set semantic segmentation (O3S), which aims to learn seen and unseen semantics from both visual examples and textual names. Our pipeline extracts multi-modal prototypes for segmentation task, by first single modal self-enhancement and aggregation, then multi-modal complementary fusion. To be specific, we aggregate visual features into several tokens as visual prototypes, and enhance the class name with detailed descriptions for textual prototype generation. The two modalities are then fused to generate multi-modal prototypes for final segmentation. On both \pascal and \coco datasets, we conduct extensive experiments to evaluate the framework effectiveness. State-of-the-art results are achieved even on more detailed part-segmentation, Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation studies are performed to dissect each component, both quantitatively and qualitatively.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# オープン量子系のシミュレーション支援学習

Simulation-assisted learning of open quantum systems ( http://arxiv.org/abs/2307.03858v3 )

ライセンス: Link先を確認
Ke Wang, Xiantao Li, (参考訳) 電子輸送問題や量子コンピューティングにおいて重要な役割を果たすオープン量子系のモデルは、量子系と周辺環境の相互作用を考慮する必要がある。 このようなモデルは特別な場合によっては導出できるが、ほとんどの場合、正確なモデルは未知であり、校正する必要がある。 本稿では,マルコフ開量子系のパラメータを計測データから推定する学習手法を提案する。 この方法の重要な要素の1つは量子マスター方程式の直接シミュレーション技術であり、完全正の性質を精度で保存するように設計されている。 この手法は,測定時間間隔が大きくなる状況において特に有用である。 この手法は誤差推定と数値実験によって検証される。

Models for open quantum systems, which play important roles in electron transport problems and quantum computing, must take into account the interaction of the quantum system with the surrounding environment. Although such models can be derived in some special cases, in most practical situations, the exact models are unknown and have to be calibrated. This paper presents a learning method to infer parameters in Markovian open quantum systems from measurement data. One important ingredient in the method is a direct simulation technique of the quantum master equation, which is designed to preserve the completely-positive property with guaranteed accuracy. The method is particularly helpful in the situation where the time intervals between measurements are large. The approach is validated with error estimates and numerical experiments.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# ハードウェアインスパイアされたゼロノイズ外挿を用いた変分固有解法における量子ゲート誤差の緩和

Mitigating Quantum Gate Errors for Variational Eigensolvers Using Hardware-Inspired Zero-Noise Extrapolation ( http://arxiv.org/abs/2307.11156v3 )

ライセンス: Link先を確認
Alexey Uvarov, Daniil Rabinovich, Olga Lakhmanskaya, Kirill Lakhmanskiy, Jacob Biamonte, Soumik Adhikary, (参考訳) 変分量子アルゴリズムは、現代の量子アルゴリズム研究の基盤として登場した。 これらのアルゴリズムの実践的実装は、体系的エラーに対してある程度の堅牢性を提供するが、確率的エラーとコヒーレンス時間に制限があるため、性能の低下を示す。 本研究では,ゼロノイズ外挿法を用いて変分アルゴリズムの量子ゲート誤差を緩和する手法を開発した。 本稿では,回路の誤差強度を制御するための実験的なアメニブル手法を提案する。 物理量子デバイスにおけるゲートエラーが、異なる量子ビットと量子ビットのペアで不均一に分散されているという事実を利用する。 その結果、回路内の抽象量子ビットを物理デバイスにマッピングする方法に基づいて、異なる回路誤差和を達成できる。 回路誤差和 (CES) に関して, 変動的アプローチにおける推定エネルギーは概ね線形であることがわかった。 したがって、CESをゼロにすると、エネルギー-CESデータによる線形フィットはノイズのない変動アルゴリズムによって推定されるエネルギーを近似することができる。 本手法の適用範囲を数値的に検証し,本手法の適用範囲について検討する。

Variational quantum algorithms have emerged as a cornerstone of contemporary quantum algorithms research. Practical implementations of these algorithms, despite offering certain levels of robustness against systematic errors, show a decline in performance due to the presence of stochastic errors and limited coherence time. In this work, we develop a recipe for mitigating quantum gate errors for variational algorithms using zero-noise extrapolation. We introduce an experimentally amenable method to control error strength in the circuit. We utilize the fact that gate errors in a physical quantum device are distributed inhomogeneously over different qubits and qubit pairs. As a result, one can achieve different circuit error sums based on the manner in which abstract qubits in the circuit are mapped to a physical device. We find that the estimated energy in the variational approach is approximately linear with respect to the circuit error sum (CES). Consequently, a linear fit through the energy-CES data, when extrapolated to zero CES, can approximate the energy estimated by a noiseless variational algorithm. We demonstrate this numerically and investigate the applicability range of the technique.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# サイバー物理生産システムにおけるドメインエキスパートオントロジー設計のCRISP-DMへの統合

Integration of Domain Expert-Centric Ontology Design into the CRISP-DM for Cyber-Physical Production Systems ( http://arxiv.org/abs/2307.11637v2 )

ライセンス: Link先を確認
Milapji Singh Gill, Tom Westermann, Marvin Schieseck, Alexander Fay, (参考訳) 産業 4.0 とサイバー物理生産システム (CPPS) の時代には、膨大な量の潜在的価値のあるデータが生成される。 機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。 得られた知識は、診断やメンテナンス計画といったタスクを改善するために使用できる。 しかし、このようなデータ駆動プロジェクトは、通常、CRISP-DM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。 ドメイン固有のオントロジーの応用は、上記の課題に関する様々な業界 4.0 アプリケーションシナリオにおいて、その優位性を示している。 しかし、CPPSのオントロジー設計のワークフローやアーティファクトは、まだCRISP-DMに体系的に統合されていない。 したがって、このコントリビューションは、データサイエンティストがCPPSに関するより迅速かつ確実な洞察を得られるように、統合されたアプローチを提案することを目的としている。 その結果は、異常検出ユースケースに例示的に適用される。

In the age of Industry 4.0 and Cyber-Physical Production Systems (CPPSs) vast amounts of potentially valuable data are being generated. Methods from Machine Learning (ML) and Data Mining (DM) have proven to be promising in extracting complex and hidden patterns from the data collected. The knowledge obtained can in turn be used to improve tasks like diagnostics or maintenance planning. However, such data-driven projects, usually performed with the Cross-Industry Standard Process for Data Mining (CRISP-DM), often fail due to the disproportionate amount of time needed for understanding and preparing the data. The application of domain-specific ontologies has demonstrated its advantageousness in a wide variety of Industry 4.0 application scenarios regarding the aforementioned challenges. However, workflows and artifacts from ontology design for CPPSs have not yet been systematically integrated into the CRISP-DM. Accordingly, this contribution intends to present an integrated approach so that data scientists are able to more quickly and reliably gain insights into the CPPS. The result is exemplarily applied to an anomaly detection use case.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# 画像の高分解能化とスチル化のための画素認識安定拡散

Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization ( http://arxiv.org/abs/2308.14469v4 )

ライセンス: Link先を確認
Tao Yang, Rongyuan Wu, Peiran Ren, Xuansong Xie, Lei Zhang, (参考訳) 拡散モデルは様々な画像生成、編集、拡張、翻訳タスクにおいて顕著な性能を示した。 特に、事前訓練されたテキスト・ツー・イメージの安定拡散モデルは、困難な現実的な超解像(Real-ISR)と画像スタイリング問題に対する潜在的な解決策となる。 しかし、この線に沿った既存の手法は、しばしば忠実なピクセル画像構造を維持するのに失敗する。 エンコーダとVAEのデコーダの間の余分なスキップ接続が詳細を再現するために使用される場合、画像空間における追加のトレーニングが必要となり、画像スタイリングのような潜在空間のタスクに制限が課される。 本研究では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。 具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。 補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。 ベース拡散モデルをスタイリングされたものに置き換えることによって、PASDはペアのトレーニングデータを収集することなく多様なスタイリングされた画像を生成することができ、ベースモデルを美的なものにシフトさせることで、古い写真を生き返らせることができる。 画像強調タスクとスタイリングタスクの多種多様な実験により,提案手法の有効性が示された。 ソースコードは \url{https://github.com/yangxy/PASD/} で公開しています。

Diffusion models have demonstrated impressive performance in various image generation, editing, enhancement and translation tasks. In particular, the pre-trained text-to-image stable diffusion models provide a potential solution to the challenging realistic image super-resolution (Real-ISR) and image stylization problems with their strong generative priors. However, the existing methods along this line often fail to keep faithful pixel-wise image structures. If extra skip connections between the encoder and the decoder of a VAE are used to reproduce details, additional training in image space will be required, limiting the application to tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR and personalized image stylization. Specifically, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. An adjustable noise schedule is introduced to further improve the image restoration results. By simply replacing the base diffusion model with a stylized one, PASD can generate diverse stylized images without collecting pairwise training data, and by shifting the base model with an aesthetic one, PASD can bring old photos back to life. Extensive experiments in a variety of image enhancement and stylization tasks demonstrate the effectiveness of our proposed PASD approach. Our source codes are available at \url{https://github.com/yangxy/PASD/}.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# CAGRA:GPUの並列グラフ構築と近似近傍探索

CAGRA: Highly Parallel Graph Construction and Approximate Nearest Neighbor Search for GPUs ( http://arxiv.org/abs/2308.15136v2 )

ライセンス: Link先を確認
Hiroyuki Ootomo, Akira Naruse, Corey Nolet, Ray Wang, Tamas Feher, Yong Wang, (参考訳) 近似Nearest Neighbor Search(ANNS)は、情報検索やコンピュータビジョンから自然言語処理、レコメンダシステムまで、データマイニングと人工知能にまたがる様々な分野において重要な役割を果たす。 近年,データ量の増加が進み,近接探索の計算コストの増大がしばしば禁止され,近似手法の採用が求められている。 グラフベースのアプローチのバランスの取れた性能とリコールは、ANNSアルゴリズムにおいて近年大きな注目を集めているが、大規模並列および汎用コンピューティングが広く使われているにもかかわらず、GPUとマルチコアプロセッサのパワーを活用する研究はごくわずかである。 このギャップを埋めるために,並列計算ハードウェアを用いた近接グラフと探索アルゴリズムを導入する。 現代のハードウェアの高性能機能を活用することで,本手法は顕著な効率向上を実現している。 特に,提案手法は,近接グラフ構築における既存のCPUおよびGPUベースの手法を超越し,大小両方の探索において高いスループットを示すとともに,精度の両立を図っている。 グラフ構築時間において,提案手法であるCAGRAは,CPU SOTA実装の一つであるHNSWよりも2.2~27倍高速である。 90%から95%のリコール範囲における大規模クエリスループットでは,HNSWよりも33~77倍,GPUのSOTA実装より3.8~8.8倍高速である。 単一のクエリでは、HNSWよりも95%リコールで3.4~53倍高速である。

Approximate Nearest Neighbor Search (ANNS) plays a critical role in various disciplines spanning data mining and artificial intelligence, from information retrieval and computer vision to natural language processing and recommender systems. Data volumes have soared in recent years and the computational cost of an exhaustive exact nearest neighbor search is often prohibitive, necessitating the adoption of approximate techniques. The balanced performance and recall of graph-based approaches have more recently garnered significant attention in ANNS algorithms, however, only a few studies have explored harnessing the power of GPUs and multi-core processors despite the widespread use of massively parallel and general-purpose computing. To bridge this gap, we introduce a novel parallel computing hardware-based proximity graph and search algorithm. By leveraging the high-performance capabilities of modern hardware, our approach achieves remarkable efficiency gains. In particular, our method surpasses existing CPU and GPU-based methods in constructing the proximity graph, demonstrating higher throughput in both large- and small-batch searches while maintaining compatible accuracy. In graph construction time, our method, CAGRA, is 2.2~27x faster than HNSW, which is one of the CPU SOTA implementations. In large-batch query throughput in the 90% to 95% recall range, our method is 33~77x faster than HNSW, and is 3.8~8.8x faster than the SOTA implementations for GPU. For a single query, our method is 3.4~53x faster than HNSW at 95% recall.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# ロンバルド効果と知能向上に及ぼす文型の影響:自然文と格子文の比較研究

Exploring Sentence Type Effects on the Lombard Effect and Intelligibility Enhancement: A Comparative Study of Natural and Grid Sentences ( http://arxiv.org/abs/2309.10485v2 )

ライセンス: Link先を確認
Hongyang Chen, Yuhong Yang, Zhongyuan Wang, Weiping Tu, Haojun Ai, Song Lin, (参考訳) 本研究は,文タイプがLombard効果とインテリジェンス向上にどのように影響するかを,自然文と格子文の比較に焦点をあてる。 Lombard Chinese-TIMIT (LCT) コーパスと Enhanced MAndarin Lombard Grid (EMALG) コーパスを用いて, 雑音レベルの異なる音質・音響特性の変化を解析した。 以上の結果から,格子文は自然文よりもロンバルド効果が顕著であることが示唆された。 そこで本研究では,LCTとEMALGコーパスを別々に学習した正規対ロンバルド変換モデルを開発した。 主観的・客観的評価を通じて、自然文は可知性向上における音声品質の維持に優れている。 対照的に、グリッド文は、より顕著なロンバルド効果のために、より優れた知性を提供することができる。 本研究は,雑音環境における音声コミュニケーションの強化に関する貴重な視点を提供する。

This study explores how sentence types affect the Lombard effect and intelligibility enhancement, focusing on comparisons between natural and grid sentences. Using the Lombard Chinese-TIMIT (LCT) corpus and the Enhanced MAndarin Lombard Grid (EMALG) corpus, we analyze changes in phonetic and acoustic features across different noise levels. Our results show that grid sentences produce more pronounced Lombard effects than natural sentences. Then, we develop and test a normal-to-Lombard conversion model, trained separately on LCT and EMALG corpora. Through subjective and objective evaluations, natural sentences are superior in maintaining speech quality in intelligibility enhancement. In contrast, grid sentences could provide superior intelligibility due to the more pronounced Lombard effect. This study provides a valuable perspective on enhancing speech communication in noisy environments.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# 量子ネットワークのトポロジーの証明:理論と実験

Certifying the Topology of Quantum Networks: Theory and Experiment ( http://arxiv.org/abs/2309.12907v2 )

ライセンス: Link先を確認
Lisa T. Weinbrenner, Nidhin Prasannan, Kiara Hansenne, Sophia Denker, Jan Sperling, Benjamin Brecht, Christine Silberhorn, Otfried Gühne, (参考訳) ネットワーク内の分散量子情報は、グローバルなセキュアな量子通信において最重要である。 さらに、クロック同期、磁場センシング、ブラインド量子計算など、関連するタスクのリソースとして応用を見出す。 しかし,量子ネットワーク解析や実装のベンチマークを行うためには,ネットワークのトポロジを特徴付けることが重要である。 ここでは、このトポロジ認証の効率的なスキームを示す。 提案方式では,二部構成と多部構成の絡み合いの異なるネットワークを,スケーラブルな方法で識別することが可能である。 半デバイス独立シナリオにも適用でき、測定装置とネットワークノードは十分に特徴付けられ、信頼できない。 偏光子で生成された6量子ビットネットワークのトポロジを検証し,アクティブフィードフォワードと時間多重化を用いて実験を行った。 本手法は, 量子技術における他の認証シナリオに有用であり, 複数の仮説の総合的な同時試験に使用することができる。

Distributed quantum information in networks is paramount for global secure quantum communication. Moreover, it finds applications as a resource for relevant tasks, such as clock synchronization, magnetic field sensing, and blind quantum computation. For quantum network analysis and benchmarking of implementations, however, it is crucial to characterize the topology of networks in a way that reveals the nodes between which entanglement can be reliably distributed. Here, we demonstrate an efficient scheme for this topology certification. Our scheme allows for distinguishing, in a scalable manner, different networks consisting of bipartite and multipartite entanglement sources. It can be applied to semi-device independent scenarios also, where the measurement devices and network nodes are not well characterized and trusted. We experimentally demonstrate our approach by certifying the topology of different six-qubit networks generated with polarized photons, employing active feed-forward and time multiplexing. Our methods can be used for general simultaneous tests of multiple hypotheses with few measurements, being useful for other certification scenarios in quantum technologies.
翻訳日:2024-07-11 00:31:04 公開日:2024-07-09
# リモートセンシング画像からのビルディング検出のためのコンテキスト拡張検出器

Context-Enhanced Detector For Building Detection From Remote Sensing Images ( http://arxiv.org/abs/2310.07638v2 )

ライセンス: Link先を確認
Ziyue Huang, Mingming Zhang, Qingjie Liu, Wei Wang, Zhe Dong, Yunhong Wang, (参考訳) リモートセンシング画像からの建物検出の分野は大きな進歩を遂げているが,ビルの外観の多様性や広大なシーンの複雑さにより,高精度な検出を実現する上での課題に直面している。 これらの課題に対処するために、コンテキスト拡張検出器(CEDet)と呼ばれる新しいアプローチを提案する。 提案手法では,3段階のカスケード構造を用いてコンテキスト情報の抽出を強化し,建物検出精度を向上させる。 具体的には、マルチスケールコンテキストを集約し、長距離インタラクションをキャプチャするアテンション機構を組み込んだセマンティックガイドコンテキストマイニング(SGCM)モジュールと、空間関係グラフを構築してインスタンスレベルのコンテキストをキャプチャするインスタンスコンテキストマイニングモジュール(ICMM)の2つのモジュールを紹介する。 さらに,擬似マスクに基づく意味的セグメンテーションの損失を導入し,文脈情報抽出を誘導する。 提案手法は,CNBuilding-9P,CNBuilding-23P,SpaceNetを含む3つのビルディング検出ベンチマークの最先端性能を実現する。

The field of building detection from remote sensing images has made significant progress, but faces challenges in achieving high-accuracy detection due to the diversity in building appearances and the complexity of vast scenes. To address these challenges, we propose a novel approach called Context-Enhanced Detector (CEDet). Our approach utilizes a three-stage cascade structure to enhance the extraction of contextual information and improve building detection accuracy. Specifically, we introduce two modules: the Semantic Guided Contextual Mining (SGCM) module, which aggregates multi-scale contexts and incorporates an attention mechanism to capture long-range interactions, and the Instance Context Mining Module (ICMM), which captures instance-level relationship context by constructing a spatial relationship graph and aggregating instance features. Additionally, we introduce a semantic segmentation loss based on pseudo-masks to guide contextual information extraction. Our method achieves state-of-the-art performance on three building detection benchmarks, including CNBuilding-9P, CNBuilding-23P, and SpaceNet.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# CLIPによるインクリメンタルオブジェクト検出

Incremental Object Detection with CLIP ( http://arxiv.org/abs/2310.08815v3 )

ライセンス: Link先を確認
Ziyue Huang, Yupeng He, Qingjie Liu, Yunhong Wang, (参考訳) インクリメンタルな分類タスクとは対照的に、インクリメンタルな検出タスクは、複数の連続学習段階にわたって異なるラベル付き境界ボックスを持つことができるため、データのあいまいさの存在によって特徴付けられる。 この現象は、しばしばモデルが新しいクラスを効果的に学習する能力を損なう。 しかし、既存の研究はモデルの前方互換性にはあまり注意を払わず、漸進的な学習に適していることを制限している。 この障害を克服するために、CLIPのような視覚言語モデルを用いて、異なるクラスセットのテキスト特徴埋め込みを生成することを提案する。 次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。 最後に、CLIP画像エンコーダを用いて、潜在的なオブジェクトを正確に識別する。 そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。 我々は,PASCAL VOC 2007データセットを用いた様々な漸進的な学習環境に対するアプローチを評価し,そのアプローチは,特に新クラスの認識において最先端の手法よりも優れていることを示す。

In contrast to the incremental classification task, the incremental detection task is characterized by the presence of data ambiguity, as an image may have differently labeled bounding boxes across multiple continuous learning stages. This phenomenon often impairs the model's ability to effectively learn new classes. However, existing research has paid less attention to the forward compatibility of the model, which limits its suitability for incremental learning. To overcome this obstacle, we propose leveraging a visual-language model such as CLIP to generate text feature embeddings for different class sets, which enhances the feature space globally. We then employ super-classes to replace the unavailable novel classes in the early learning stage to simulate the incremental scenario. Finally, we utilize the CLIP image encoder to accurately identify potential objects. We incorporate the finely recognized detection boxes as pseudo-annotations into the training process, thereby further improving the detection performance. We evaluate our approach on various incremental learning settings using the PASCAL VOC 2007 dataset, and our approach outperforms state-of-the-art methods, particularly for recognizing the new classes.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 物質パワースペクトルにおける動的暗黒エネルギー探索のための表現学習手法

A representation learning approach to probe for dynamical dark energy in matter power spectra ( http://arxiv.org/abs/2310.10717v2 )

ライセンス: Link先を確認
Davide Piras, Lucas Lombriser, (参考訳) 本稿では、宇宙大規模構造の観測研究において、動的ダークエネルギー(DE)モデルの圧縮表現を探索するための変分オートエンコーダ(VAE)アーキテクチャであるDE-VAEを提案する。 DE-VAEは、波数$k\in(0.01-2.5) \ h/\rm{Mpc}$と4つの赤方偏移値$z\in(0.1,0.48,0.78,1.5)$で生成される物質パワースペクトルブーストに基づいて訓練される。 ブーストは低次元の表現に圧縮され、標準のコールドダークマター(CDM)パラメータと連結され、再構成されたブーストにマッピングされる。 顕著なことに、1つの潜伏パラメータは、宇宙のばらつき、ショットノイズ、ステージIVのような調査のための体系的な効果を含むガウス誤差の1\sigma$(2\sigma$)の範囲内で、幅広い宇宙的パラメータで生成されるDECパワースペクトルの95%(99%)を予測するのに十分である。 この1つのパラメータは2つのDEパラメータと高い相互情報を示し、これらの3つの変数はシンボル回帰を通じて明示的な方程式とリンクすることができる。 2つの潜伏変数を持つモデルを考えると、予測の精度はわずかに改善され、第3の潜伏変数を追加することはモデルの性能に大きな影響を与えない。 本稿では,DE-VAE アーキテクチャを概念実証から一般のフレームワークに拡張して,より広い範囲のモデルと異なる宇宙論的データセットの共通低次元パラメトリゼーションを探索する方法について論じる。 そのようなフレームワークは、最適プローブを標的にすることで宇宙探査の発展を知らせることができ、また、$\Lambda$CDMモデル以上の一般的な現象学的側面に関する理論的洞察を与えることができる。

We present DE-VAE, a variational autoencoder (VAE) architecture to search for a compressed representation of dynamical dark energy (DE) models in observational studies of the cosmic large-scale structure. DE-VAE is trained on matter power spectra boosts generated at wavenumbers $k\in(0.01-2.5) \ h/\rm{Mpc}$ and at four redshift values $z\in(0.1,0.48,0.78,1.5)$ for the most typical dynamical DE parametrization with two extra parameters describing an evolving DE equation of state. The boosts are compressed to a lower-dimensional representation, which is concatenated with standard cold dark matter (CDM) parameters and then mapped back to reconstructed boosts; both the compression and the reconstruction components are parametrized as neural networks. Remarkably, we find that a single latent parameter is sufficient to predict 95% (99%) of DE power spectra generated over a broad range of cosmological parameters within $1\sigma$ ($2\sigma$) of a Gaussian error which includes cosmic variance, shot noise and systematic effects for a Stage IV-like survey. This single parameter shows a high mutual information with the two DE parameters, and these three variables can be linked together with an explicit equation through symbolic regression. Considering a model with two latent variables only marginally improves the accuracy of the predictions, and adding a third latent variable has no significant impact on the model's performance. We discuss how the DE-VAE architecture can be extended from a proof of concept to a general framework to be employed in the search for a common lower-dimensional parametrization of a wide range of beyond-$\Lambda$CDM models and for different cosmological datasets. Such a framework could then both inform the development of cosmological surveys by targeting optimal probes, and provide theoretical insight into the common phenomenological aspects of beyond-$\Lambda$CDM models.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 分割型経験的ベイズECMアルゴリズムによる疎高次元線形混合モデリング

Sparse high-dimensional linear mixed modeling with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2310.12285v2 )

ライセンス: Link先を確認
Anja Zgodic, Ray Bai, Jiajia Zhang, Peter Olejua, Alexander C. McLain, (参考訳) 高次元の縦データは、幅広い科学的研究でますます使われている。 高次元線形混合モデル (LMM) の統計的手法が開発されている。 しかし、これらの高次元 LMM を実装したパッケージは統計ソフトウェア R でのみ利用可能であり、また、いくつかのパッケージはスケーラビリティの問題に悩まされている。 この研究は、高次元LMMに対する効率的かつ正確なベイズ的枠組みを示す。 我々は,超パラメータの実証的ベイズ推定器を柔軟性の向上に利用し,パラメータの最大値(MAP)推定を計算的に効率的に行うために,期待-決定-最小化(ECM)アルゴリズムを用いた。 このアプローチの斬新さは、パーティショニングとパラメータ拡張と、高速でスケーラブルな計算にある。 本稿では,PaRtitiオンド実証ベイズECM (LMM-PROBE) を用いた線形混合モデリングについて,計算時間とともに固定効果とランダム効果の推定を評価するシミュレーション研究で説明する。 実世界の例では、小児のループスの研究データを用いて、新しいループスバイオマーカーに関連する遺伝子と臨床因子を特定し、時間とともにバイオマーカーを予測する。 追加資料はオンラインで入手できる。

High-dimensional longitudinal data is increasingly used in a wide range of scientific studies. To properly account for dependence between longitudinal observations, statistical methods for high-dimensional linear mixed models (LMMs) have been developed. However, few packages implementing these high-dimensional LMMs are available in the statistical software R. Additionally, some packages suffer from scalability issues. This work presents an efficient and accurate Bayesian framework for high-dimensional LMMs. We use empirical Bayes estimators of hyperparameters for increased flexibility and an Expectation-Conditional-Minimization (ECM) algorithm for computationally efficient maximum a posteriori probability (MAP) estimation of parameters. The novelty of the approach lies in its partitioning and parameter expansion as well as its fast and scalable computation. We illustrate Linear Mixed Modeling with PaRtitiOned empirical Bayes ECM (LMM-PROBE) in simulation studies evaluating fixed and random effects estimation along with computation time. A real-world example is provided using data from a study of lupus in children, where we identify genes and clinical factors associated with a new lupus biomarker and predict the biomarker over time. Supplementary materials are available online.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# プレトレーニングによる継続的学習のための一般的なフレームワークを目指して

Towards a General Framework for Continual Learning with Pre-training ( http://arxiv.org/abs/2310.13888v2 )

ライセンス: Link先を確認
Liyuan Wang, Jingyi Xie, Xingxing Zhang, Hang Su, Jun Zhu, (参考訳) 本研究は,人工知能システムが現実の力学に適応する上で有望な方向として現れる事前学習を用いて,逐次到着タスクの連続学習のための一般的な枠組みを提案する。 理論的観点からは、その目的を、タスク内予測、タスク同一性推論、タスク適応予測を含む3つの階層的な構成要素に分解する。 そこで本研究では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。 我々は、下流連続学習における我々のアプローチの優位性と一般性を実証的に実証し、上流連続学習におけるPEFT技術の適用性について検討する。 提案フレームワークの生物学的基盤と最近の神経科学の進歩についても論じる。

In this work, we present a general framework for continual learning of sequentially arrived tasks with the use of pre-training, which has emerged as a promising direction for artificial intelligence systems to accommodate real-world dynamics. From a theoretical perspective, we decompose its objective into three hierarchical components, including within-task prediction, task-identity inference, and task-adaptive prediction. Then we propose an innovative approach to explicitly optimize these components with parameter-efficient fine-tuning (PEFT) techniques and representation statistics. We empirically demonstrate the superiority and generality of our approach in downstream continual learning, and further explore the applicability of PEFT techniques in upstream continual learning. We also discuss the biological basis of the proposed framework with recent advances in neuroscience.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 関数近似と物理インフォームド逆問題に対するパワー強化残差ネットワーク

Power-Enhanced Residual Network for Function Approximation and Physics-Informed Inverse Problems ( http://arxiv.org/abs/2310.15690v2 )

ライセンス: Link先を確認
Amir Noorizadegan, D. L. Young, Y. C. Hon, C. S. Chen, (参考訳) 本研究では,前処理時の重みの更新と後処理時の勾配の計算が,ニューラルネットワーク,特に多層パーセプトロン(MLP)の最適化プロセス,トレーニング手順,全体的な性能に与える影響について検討した。 本稿では,2次元および3次元設定におけるスムーズかつ非スムーズな関数近似のネットワーク機能を改善するために,ハイウェイネットワークと残差ネットワークにインスパイアされた,パワーエンハンシング残差ネットワークと呼ばれる新しいニューラルネットワーク構造を提案する。 電力項を残留元素に組み込むことで、このアーキテクチャは重量更新の安定性を高め、より収束と精度を向上させる。 本研究は,ネットワーク深さ,幅,最適化手法について検討し,アーキテクチャの適応性と性能上の優位性を示す。 対照的に、この結果は、特に非滑らか関数に対して提案されたパワーエンハンシング残差ネットワークの例外的精度を強調している。 実世界の例では、正確性、収束性、効率性の点で、普通のニューラルネットワークよりも優れていることも確認されている。 さらに、提案アーキテクチャは逆バーガー方程式の解法にも適用され、優れた性能を示す。 結論として、Power-Enhancing残余ネットワークは、ディープニューラルネットワークにおける効果的なトレーニングのための安定したウェイト更新の重要性を強調することで、ニューラルネットワーク能力を大幅に向上する汎用的なソリューションを提供する。 実装されたコードは以下の通りである。

In this study, we investigate how the updating of weights during forward operation and the computation of gradients during backpropagation impact the optimization process, training procedure, and overall performance of the neural network, particularly the multi-layer perceptrons (MLPs). This paper introduces a novel neural network structure called the Power-Enhancing residual network, inspired by highway network and residual network, designed to improve the network's capabilities for both smooth and non-smooth functions approximation in 2D and 3D settings. By incorporating power terms into residual elements, the architecture enhances the stability of weight updating, thereby facilitating better convergence and accuracy. The study explores network depth, width, and optimization methods, showing the architecture's adaptability and performance advantages. Consistently, the results emphasize the exceptional accuracy of the proposed Power-Enhancing residual network, particularly for non-smooth functions. Real-world examples also confirm its superiority over plain neural network in terms of accuracy, convergence, and efficiency. Moreover, the proposed architecture is also applied to solving the inverse Burgers' equation, demonstrating superior performance. In conclusion, the Power-Enhancing residual network offers a versatile solution that significantly enhances neural network capabilities by emphasizing the importance of stable weight updates for effective training in deep neural networks. The codes implemented are available at: \url{https://github.com/CMMAi/ResNet_for_PINN}.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# インタースライスアウェア構造符号化による拡散線量予測

Diffusion-based Radiotherapy Dose Prediction Guided by Inter-slice Aware Structure Encoding ( http://arxiv.org/abs/2311.02991v2 )

ライセンス: Link先を確認
Zhenghao Feng, Lu Wen, Jianghong Xiao, Yuanyuan Xu, Xi Wu, Jiliu Zhou, Xingchen Peng, Yan Wang, (参考訳) 深層学習(DL)は放射線治療計画における線量分布の自動予測に成功し、効率と品質の両方を向上させる。 しかし, 従来の手法では, 後続平均計算によるL1あるいはL2損失の過平滑化に悩まされている。 この制限を緩和するために,がん患者の放射線治療線量分布を予測する拡散モデルに基づく方法(DiffDose)を提案する。 具体的には、DiffDoseモデルはフォワードプロセスとリバースプロセスを含んでいる。 前処理では、DiffDoseは低雑音を徐々に加えることによって線量分布マップを純粋なガウス雑音に変換し、同時にノイズ予測器を訓練し、各タイミングで加算された雑音を推定する。 逆処理では、よく訓練されたノイズ予測器を用いて、純粋なガウス雑音から複数のステップでノイズを除去し、最終的に予測された線量分布マップを出力する。

Deep learning (DL) has successfully automated dose distribution prediction in radiotherapy planning, enhancing both efficiency and quality. However, existing methods suffer from the over-smoothing problem for their commonly used L1 or L2 loss with posterior average calculations. To alleviate this limitation, we propose a diffusion model-based method (DiffDose) for predicting the radiotherapy dose distribution of cancer patients. Specifically, the DiffDose model contains a forward process and a reverse process. In the forward process, DiffDose transforms dose distribution maps into pure Gaussian noise by gradually adding small noise and a noise predictor is simultaneously trained to estimate the noise added at each timestep. In the reverse process, it removes the noise from the pure Gaussian noise in multiple steps with the well-trained noise predictor and finally outputs the predicted dose distribution maps...
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 不確かさを意識した教師学習と学生の協調学習による遠隔指導型エンティティ認識のロバスト性向上

Improving the Robustness of Distantly-Supervised Named Entity Recognition via Uncertainty-Aware Teacher Learning and Student-Student Collaborative Learning ( http://arxiv.org/abs/2311.08010v2 )

ライセンス: Link先を確認
Helan Hu, Shuzheng Si, Haozhe Zhao, Shuang Zeng, Kaikai An, Zefan Cai, Baobao Chang, (参考訳) Distantly-Supervised Named Entity Recognition (DS-NER) は現実世界のシナリオで広く使われている。 既存の知識ベース内のエンティティとテキスト中のスニペットとを一致させることで、アノテーションの負担を効果的に軽減できるが、ラベルノイズに悩まされる。 最近の研究は、教師の学習フレームワークを採用して、トレーニングラベルを徐々に洗練し、全体的な堅牢性を向上させることを目的としている。 しかし、教師ネットワークのキャリブレーションが不十分なため、これらの教師学生の手法は、誤った擬似ラベル付きサンプルを生成し、誤りの伝播を引き起こすため、限られた性能を達成する。 そこで本研究では,(1)自己学習段階における誤った擬似ラベルの数を減少させるために予測の不確実性を活用する不確実性学習,(2)教師の擬似ラベルを無差別に頼らずに2つの学生ネットワーク間で信頼性の高いラベルの移動を可能にする学生・学生協調学習,そしてさらに,信頼できない擬似ラベルのサンプルをフィルタリングするよりも、誤ラベル付きサンプルの完全な探索を可能にすることを提案する。 提案手法を5つのDS-NERデータセット上で評価し,提案手法が最先端のDS-NER手法よりも優れていることを示す。

Distantly-Supervised Named Entity Recognition (DS-NER) is widely used in real-world scenarios. It can effectively alleviate the burden of annotation by matching entities in existing knowledge bases with snippets in the text but suffer from the label noise. Recent works attempt to adopt the teacher-student framework to gradually refine the training labels and improve the overall robustness. However, these teacher-student methods achieve limited performance because the poor calibration of the teacher network produces incorrectly pseudo-labeled samples, leading to error propagation. Therefore, we propose: (1) Uncertainty-Aware Teacher Learning that leverages the prediction uncertainty to reduce the number of incorrect pseudo labels in the self-training stage; (2) Student-Student Collaborative Learning that allows the transfer of reliable labels between two student networks instead of indiscriminately relying on all pseudo labels from its teacher, and further enables a full exploration of mislabeled samples rather than simply filtering unreliable pseudo-labeled samples. We evaluate our proposed method on five DS-NER datasets, demonstrating that our method is superior to the state-of-the-art DS-NER methods.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 平均力ハミルトニアンの構造

Structure of the Hamiltonian of mean force ( http://arxiv.org/abs/2311.10427v2 )

ライセンス: Link先を確認
Phillip C. Burke, Goran Nakerst, Masudul Haque, (参考訳) 平均力のハミルトニアン(英: Hamiltonian of mean force)は、環境に非弱結合された量子系を有効なギブス状態に書き込むことができる実効ハミルトニアンである。 局所相互作用を持つ拡張量子系における平均力ハミルトニアンの構造に関する結果を示す。 我々は、その空間構造が ''skin effect'' を示し、ハミルトニアンが系環境境界からの距離で指数関数的に死するシステムとの違いを示す。 スピン系に対しては、逆温度で異なる順序で平均力のハミルトニアンに現れる用語を同定する。

The Hamiltonian of mean force is an effective Hamiltonian that allows a quantum system, non-weakly coupled to an environment, to be written in an effective Gibbs state. We present results on the structure of the Hamiltonian of mean force in extended quantum systems with local interactions. We show that its spatial structure exhibits a ``skin effect'' -- its difference from the system Hamiltonian dies off exponentially with distance from the system-environment boundary. For spin systems, we identify the terms that can appear in the Hamiltonian of mean force at different orders in the inverse temperature.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# ガウス補間流

Gaussian Interpolation Flows ( http://arxiv.org/abs/2311.11475v2 )

ライセンス: Link先を確認
Yuan Gao, Jian Huang, Yuling Jiao, (参考訳) ガウス分極は、生成モデルのためのシミュレーションのない連続正規化フローを構築するための強力な方法として登場した。 その経験的成功にもかかわらず、これらの流れの理論的性質とガウス分母の正規化効果は、ほとんど未発見のままである。 本研究では,ガウス法に基づくシミュレーションフリー連続正規化流れの健全性を検討することにより,このギャップに対処することを目的とする。 ガウス補間流と呼ばれる統一的な枠組みにより、フロー速度場のリプシッツ正則性、流れの存在と一意性、フローマップのリプシッツ連続性と、ターゲット分布の多種多様なクラスに対する時間反転フローマップを確立する。 この分析は、ガウス補間流の自己エンコーディングとサイクル整合性にも光を当てる。 さらに,2次ワッサーシュタイン距離を計量として,これらの流れの震源分布と速度場の摂動の安定性について検討した。 本研究は,ガウス補間フローを用いた生成モデル構築のための学習手法に関する貴重な知見を提供するとともに,ガウス補間フローの終端誤り解析と経験的観察の理論的基礎を提供する。

Gaussian denoising has emerged as a powerful method for constructing simulation-free continuous normalizing flows for generative modeling. Despite their empirical successes, theoretical properties of these flows and the regularizing effect of Gaussian denoising have remained largely unexplored. In this work, we aim to address this gap by investigating the well-posedness of simulation-free continuous normalizing flows built on Gaussian denoising. Through a unified framework termed Gaussian interpolation flow, we establish the Lipschitz regularity of the flow velocity field, the existence and uniqueness of the flow, and the Lipschitz continuity of the flow map and the time-reversed flow map for several rich classes of target distributions. This analysis also sheds light on the auto-encoding and cycle consistency properties of Gaussian interpolation flows. Additionally, we study the stability of these flows in source distributions and perturbations of the velocity field, using the quadratic Wasserstein distance as a metric. Our findings offer valuable insights into the learning techniques employed in Gaussian interpolation flows for generative modeling, providing a solid theoretical foundation for end-to-end error analyses of learning Gaussian interpolation flows with empirical observations.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 仮想環境における身体的エージェント

See and Think: Embodied Agent in Virtual Environment ( http://arxiv.org/abs/2311.15209v3 )

ライセンス: Link先を確認
Zhonghan Zhao, Wenhao Chai, Xuan Wang, Li Boyi, Shengyu Hao, Shidong Cao, Tian Ye, Gaoang Wang, (参考訳) 大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。 近年, LLM を用いたエンボディエージェントの構築がホットスポットとなっている。 本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。 STEVEは視覚知覚、言語命令、コードアクションの3つの重要なコンポーネントから構成される。 視覚知覚は環境内の視覚情報を解釈し、LLMコンポーネントにエージェント状態とタスク命令を組み込む。 言語指導は、複雑なタスクを反復的推論し、管理可能なガイドラインに分解する責任がある。 Code Actionは、スキルデータベースの検索に基づいて実行可能なスキルアクションを生成し、エージェントがMinecraft環境内で効果的に対話できるようにする。 また、600以上の視覚環境ペア、20Kの知識質問応答ペア、200以上のスキルコードペアを含むSTEVE-21Kデータセットを収集します。 我々は,連続的ブロック探索,知識質問と回答,および技術木熟達を行い,その性能を評価する。 大規模な実験の結果、STEVEは鍵となる技術ツリーの解錠を1.5倍、ブロック検索タスクを2.5倍高速化することがわかった。

Large language models (LLMs) have achieved impressive pro-gress on several open-world tasks. Recently, using LLMs to build embodied agents has been a hotspot. This paper proposes STEVE, a comprehensive and visionary embodied agent in the Minecraft virtual environment. STEVE comprises three key components: vision perception, language instruction, and code action. Vision perception involves interpreting visual information in the environment, which is then integrated into the LLMs component with agent state and task instruction. Language instruction is responsible for iterative reasoning and decomposing complex tasks into manageable guidelines. Code action generates executable skill actions based on retrieval in skill database, enabling the agent to interact effectively within the Minecraft environment. We also collect STEVE-21K dataset, which includes 600+ vision-environment pairs, 20K knowledge question-answering pairs, and 200+ skill-code pairs. We conduct continuous block search, knowledge question and answering, and tech tree mastery to evaluate the performance. Extensive experiments show that STEVE achieves at most 1.5x faster unlocking key tech trees and 2.5x quicker in block search tasks.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# 効率的な安定タスク適応

Efficient Stitchable Task Adaptation ( http://arxiv.org/abs/2311.17352v2 )

ライセンス: Link先を確認
Haoyu He, Zizheng Pan, Jing Liu, Jianfei Cai, Bohan Zhuang, (参考訳) 事前トレーニングと微調整のパラダイムは、ディープラーニングモデルをデプロイするための基盤となっている。 しかし、ほとんどの微調整方法は特定のリソース予算を満たすように設計されている。 近年,様々な資源予算による多様な展開シナリオを考慮すると,SN-Netはモデル縫合によりモデルファミリー内の事前訓練されたモデル(アンカー)から多数の新しいネットワーク(スティッチ)を迅速に得るために導入されている。 有望ではあるが、SN-Netは新しいターゲットドメインに適応する際の新たな課題に直面している。 本研究では,多様な資源制約に順応する微調整モデルのパレットを効率よく生成する新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。 具体的には、独立したバイアス項を維持しつつ、縫い目間で低ランク更新を共有するために、パラメータ効率の高い微調整を第1に調整する。 このようにして、我々は微調整メモリの負担を大幅に減らし、タスク適応時に生じる縫合の干渉を軽減する。 さらに、トレーニング時間勾配統計を用いてデプロイするための重要な縫合を推定する、シンプルで効果的なワンステージデプロイメントパイプラインを合理化します。 重要な縫合に高いサンプリング確率を割り当てることで、強化されたパレートフロンティアも得られる。 25下流の視覚認識タスクにおける広範囲な実験により、我々のESTAはスムーズな精度と効率のトレードオフを持つ縫合を生成でき、トレーニング時間を大幅に短縮し、トレーニング可能なパラメータを少なくして直接SN-Net適応をはるかに上回っていることが示された。 さらに,LLaMA ファミリーから LLM を縫合し,様々なサイズのチャットボットを縫合することで,ESTA フレームワークの柔軟性とスケーラビリティを実証する。 ソースコードはhttps://github.com/ziplab/Stitched_LLaMAで入手できる。

The paradigm of pre-training and fine-tuning has laid the foundation for deploying deep learning models. However, most fine-tuning methods are designed to meet a specific resource budget. Recently, considering diverse deployment scenarios with various resource budgets, SN-Net is introduced to quickly obtain numerous new networks (stitches) from the pre-trained models (anchors) in a model family via model stitching. Although promising, SN-Net confronts new challenges when adapting it to new target domains, including huge memory and storage requirements and a long and sub-optimal multistage adaptation process. In this work, we present a novel framework, Efficient Stitchable Task Adaptation (ESTA), to efficiently produce a palette of fine-tuned models that adhere to diverse resource constraints. Specifically, we first tailor parameter-efficient fine-tuning to share low-rank updates among the stitches while maintaining independent bias terms. In this way, we largely reduce fine-tuning memory burdens and mitigate the interference among stitches that arises in task adaptation. Furthermore, we streamline a simple yet effective one-stage deployment pipeline, which estimates the important stitches to deploy with training-time gradient statistics. By assigning higher sampling probabilities to important stitches, we also get a boosted Pareto frontier. Extensive experiments on 25 downstream visual recognition tasks demonstrate that our ESTA is capable of generating stitches with smooth accuracy-efficiency trade-offs and surpasses the direct SN-Net adaptation by remarkable margins with significantly lower training time and fewer trainable parameters. Furthermore, we demonstrate the flexibility and scalability of our ESTA framework by stitching LLMs from LLaMA family, obtaining chatbot stitches of assorted sizes. Source code is available at https://github.com/ziplab/Stitched_LLaMA
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# トカマク上のFPGA上に機械学習を配置した低レイテンシ光ベースモードトラッキング

Low latency optical-based mode tracking with machine learning deployed on FPGAs on a tokamak ( http://arxiv.org/abs/2312.00128v3 )

ライセンス: Link先を確認
Yumou Wei, Ryan F. Forelli, Chris Hansen, Jeffrey P. Levesque, Nhan Tran, Joshua C. Agar, Giuseppe Di Guglielmo, Michael E. Mauel, Gerald A. Navratil, (参考訳) 磁気閉じ込め融合装置のアクティブフィードバック制御は、プラズマ不安定性を緩和し、ロバストな動作を可能にするのが望ましい。 光高速カメラは強力で非侵襲的な診断を提供し、これらの用途に適している。 本研究では,100kfpsを超える速度で高速カメラデータを$\textit{in situ}$ Field Programmable Gate Array (FPGA)ハードウェア上で処理し,磁気流体力学(MHD)モードの進化を追跡し,リアルタイムに制御信号を生成する。 提案システムは畳み込みニューラルネットワーク(CNN)モデルを用いて,n$=1 MHDモードの振幅と位相を予測する。 このモデルを高速カメラ診断の標準FPGA読み出しハードウェアに直接実装することにより、モードトラッキングシステムは17.6$\mu$sのトリガー・ツー・アウトの待ち時間と最大120kfpsのスループットを実現する。 The High Beta Tokamak-Extended Pulse (HBT-EP) experimentでは、FPGAベースの高速カメラデータ取得・処理システムを実証し、リアルタイム機械学習に基づくトカマクの診断・制御と、他の科学領域における潜在的な応用を可能にする。

Active feedback control in magnetic confinement fusion devices is desirable to mitigate plasma instabilities and enable robust operation. Optical high-speed cameras provide a powerful, non-invasive diagnostic and can be suitable for these applications. In this study, we process fast camera data, at rates exceeding 100kfps, on $\textit{in situ}$ Field Programmable Gate Array (FPGA) hardware to track magnetohydrodynamic (MHD) mode evolution and generate control signals in real-time. Our system utilizes a convolutional neural network (CNN) model which predicts the $n$=1 MHD mode amplitude and phase using camera images with better accuracy than other tested non-deep-learning-based methods. By implementing this model directly within the standard FPGA readout hardware of the high-speed camera diagnostic, our mode tracking system achieves a total trigger-to-output latency of 17.6$\mu$s and a throughput of up to 120kfps. This study at the High Beta Tokamak-Extended Pulse (HBT-EP) experiment demonstrates an FPGA-based high-speed camera data acquisition and processing system, enabling application in real-time machine-learning-based tokamak diagnostic and control as well as potential applications in other scientific domains.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# VEXIR2Vec: バイナリ類似性のためのアーキテクチャニュートラルな埋め込みフレームワーク

VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity ( http://arxiv.org/abs/2312.00507v2 )

ライセンス: Link先を確認
S. VenkataKeerthy, Soumya Banerjee, Sayan Dey, Yashas Andaluri, Raghul PS, Subrahmanyam Kalyanasundaram, Fernando Magno Quintão Pereira, Ramakrishna Upadrasta, (参考訳) バイナリの類似性は、2つのバイナリプログラムが、しばしば同じソースコードから派生した、同様の機能を示すかどうかを決定することである。 本稿では,アーキテクチャニュートラル中間表現 (IR) である VEX-IR を用いたバイナリ類似性のためのアプローチ VexIR2Vec を提案する。 制御フローグラフ上のランダムウォークによって導かれる,ペプホールと呼ばれる基本ブロックの列から埋め込みを抽出する。 ピープホールはコンパイラ最適化にインスパイアされた変換を使用して正規化される。 VEX-IR正規化エンジンは、これらの変換により、アーキテクチャとコンパイラによるバイナリのバリエーションを緩和し、セマンティックな類似性を露呈する。 次に、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。 この語彙は、類似性評価のための関数埋め込みをVexNetを用いて導出するために用いられる。 このアプローチは、拡散タスクと探索タスクの両方に適しており、OF-Vocabulary (OOV)問題に対する堅牢性を保証する。 我々は、x86とARMアーキテクチャをターゲットにした12のコンパイラでコンパイルされた7つのプロジェクトから、2.7M関数と15.5Kバイナリからなるデータセット上で、VexIR2Vecを評価する。 回折実験では、VexIR2Vecは、それぞれ、クロス最適化、クロスコンパイル、クロスアーキテクチャ、難読化設定において、最も近いベースラインを$40\%、$18\%、$21\%、$60\%で上回る。 探索実験では、VexIR2Vecの平均平均精度は0.76ドルであり、最寄りのベースラインよりも46.%高い。 当社のフレームワークは高度にスケーラブルで,オープンソースツールのみを使用して,軽量でマルチスレッドな並列ライブラリとして構築されています。 VexIR2Vecは3.1$-$3.5 \times$で、他のツールよりも近いベースラインや命令より速い。

Binary similarity involves determining whether two binary programs exhibit similar functionality, often originating from the same source code. In this work, we propose VexIR2Vec, an approach for binary similarity using VEX-IR, an architecture-neutral Intermediate Representation (IR). We extract the embeddings from sequences of basic blocks, termed peepholes, derived by random walks on the control-flow graph. The peepholes are normalized using transformations inspired by compiler optimizations. The VEX-IR Normalization Engine mitigates, with these transformations, the architectural and compiler-induced variations in binaries while exposing semantic similarities. We then learn the vocabulary of representations at the entity level of the IR using the knowledge graph embedding techniques in an unsupervised manner. This vocabulary is used to derive function embeddings for similarity assessment using VexNet, a feed-forward Siamese network designed to position similar functions closely and separate dissimilar ones in an n-dimensional space. This approach is amenable for both diffing and searching tasks, ensuring robustness against Out-Of-Vocabulary (OOV) issues. We evaluate VexIR2Vec on a dataset comprising 2.7M functions and 15.5K binaries from 7 projects compiled across 12 compilers targeting x86 and ARM architectures. In diffing experiments, VexIR2Vec outperforms the nearest baselines by $40\%$, $18\%$, $21\%$, and $60\%$ in cross-optimization, cross-compilation, cross-architecture, and obfuscation settings, respectively. In the searching experiment, VexIR2Vec achieves a mean average precision of $0.76$, outperforming the nearest baseline by $46\%$. Our framework is highly scalable and is built as a lightweight, multi-threaded, parallel library using only open-source tools. VexIR2Vec is $3.1$-$3.5 \times$ faster than the closest baselines and orders-of-magnitude faster than other tools.
翻訳日:2024-07-11 00:21:19 公開日:2024-07-09
# UAV と Birds:Budgerigar Flight Study による短距離航法の強化

UAVs and Birds: Enhancing Short-Range Navigation through Budgerigar Flight Studies ( http://arxiv.org/abs/2312.00597v2 )

ライセンス: Link先を確認
Md. Mahmudur Rahman, Sajid Islam, Showren Chowdhury, Sadia Jahan Zeba, Debajyoti Karmaker, (参考訳) 本研究は,Budgerigars (Melopsittacus undulatus) の飛行行動について検討し,飛行軌跡や運動の知見を得た。 ステレオビデオカメラ記録からの3次元再構成を用いて, 3回の離陸, 飛行, 着陸時の速度, 加速度パターンを綿密に検討した。 この知見は鳥の行動の理解に寄与するだけでなく、無人航空機(UAV)におけるアルゴリズムの進歩にも重要な意味を持つ。 この研究は、鳥類で観察される生物学的原理と、より効率的で自律的なUAVの開発におけるこれらの洞察の応用のギャップを埋めることを目的としている。 ドローンの利用が増加する中で、この研究は、鳥の行動、特に離陸、飛行、着陸の際に引き起こされた生物学的にインスパイアされた原則に焦点を当て、UAV能力を向上する。 この研究のために作られたデータセットは、Budgerigarsの離陸、飛行、着陸技術に光を当て、さまざまな状況や表面の速度を制御できることを強調している。 この研究は、これらの原則をUAVアルゴリズムに組み込むことの可能性を強調し、短距離航法、離陸、飛行、着陸に関わる課題に対処する。

This study delves into the flight behaviors of Budgerigars (Melopsittacus undulatus) to gain insights into their flight trajectories and movements. Using 3D reconstruction from stereo video camera recordings, we closely examine the velocity and acceleration patterns during three flight motion takeoff, flying and landing. The findings not only contribute to our understanding of bird behaviors but also hold significant implications for the advancement of algorithms in Unmanned Aerial Vehicles (UAVs). The research aims to bridge the gap between biological principles observed in birds and the application of these insights in developing more efficient and autonomous UAVs. In the context of the increasing use of drones, this study focuses on the biologically inspired principles drawn from bird behaviors, particularly during takeoff, flying and landing flight, to enhance UAV capabilities. The dataset created for this research sheds light on Budgerigars' takeoff, flying, and landing techniques, emphasizing their ability to control speed across different situations and surfaces. The study underscores the potential of incorporating these principles into UAV algorithms, addressing challenges related to short-range navigation, takeoff, flying, and landing.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 納税コンプライアンスのためのグローバルに分散したソフトウェアアーキテクチャを記述する

Describing Globally Distributed Software Architectures for Tax Compliance ( http://arxiv.org/abs/2312.00925v3 )

ライセンス: Link先を確認
Michael Dorner, Oliver Treidler, Tom-Eric Kunz, Ehsan Zabardast, Daniel Mendez, Darja Šmite, Maximilian Capraro, Krzysztof Wnuk, (参考訳) 背景: 異なる国の組織単位が所有するソフトウェアコンポーネントの企業内再利用は、課税可能な国境を越えて暗黙のライセンスを構成する。 これにより、税務当局がソフトウェアアーキテクチャのステークホルダーとしてあまり知られていない。 目的: ソフトウェア企業がグローバルに分散したソフトウェアアーキテクチャの暗黙のライセンス構造を税務当局に説明できるかを検討する。 方法: 税務当局の懸念を浮き彫りにして, この視点を用いて, 多国籍企業の大規模マイクロサービスアーキテクチャの視点を構築し, 4人の税務専門家のパネルでソフトウェアアーキテクチャの説明結果を評価する。 結果: 提案した建築的視点を適切に把握し, 租税利害関係者の懸念を十分に把握した。 しかし、所有者の曖昧な管轄権と、コード所有とソフトウェアコンポーネントの定義の不十分さは、我々のソフトウェアアーキテクチャ記述の有用性と説明力を制限する大きなノイズをもたらす。 結論: 私たちのソフトウェアアーキテクチャ記述はしっかりとした基盤を提供するが、氷山の一角に過ぎないと信じています。 将来の研究は、ソフトウェア工学における税順守の進歩の道を開く必要がある。

Background: The company-internal reuse of software components owned by organizational units in different countries constitutes an implicit licensing across borders, which is taxable. This makes tax authorities a less known stakeholder in software architectures. Objective: Therefore, we investigate how software companies can describe the implicit license structure of their globally distributed software architectures to tax authorities. Method: We develop a viewpoint that frames the concerns of tax authorities, use this viewpoint to construct a view of a large-scale microservice architecture of a multinational enterprise, and evaluate the resulting software architecture description with a panel of four tax experts. Results: The panel found our proposed architectural viewpoint properly and sufficiently frames the concerns of taxation stakeholders. However, unclear jurisdictions of owners and potentially insufficient definitions of code ownership and software component introduce significant noise to the view that limits the usefulness and explanatory power of our software architecture description. Conclusion: While our software architecture description provides a solid foundation, we believe it only represents the tip of the iceberg. Future research is necessary to pave the way for advancements in tax compliance within software engineering.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# コントラスト損失の再バランスによる長期学習

Long-Tail Learning with Rebalanced Contrastive Loss ( http://arxiv.org/abs/2312.01753v2 )

ライセンス: Link先を確認
Charika De Alvis, Dishanika Denipitiyage, Suranga Seneviratne, (参考訳) 近年,長期学習問題への解決策として,教師付きコントラスト損失とクロスエントロピーに基づくコミュニケーションの統合が提案されている。 しかし、クラス不均衡比が高い場合には、従来のコントラスト学習がデフォルトでヘッドクラスに偏っているため、テールクラスをサポートするために教師付きコントラスト損失を調整する必要がある。 この目的のために,3つの主要な側面に対処することにより,長い尾の分類精度を向上させる効率的な手法であるRe Balanced Contrastive Learning(RCL)を提案する。 1. 特徴空間の均衡性 - すべてのクラスで特徴空間を等分する。 2. クラス内コンパクト性 - 同クラスの埋め込み間距離を削減する。 3. 正規化 - オーバーフィッティングを減らすためにテールクラスのマージンを大きくする。 RCLは、クラス周波数に基づくSoftMax損失分散を教師付きコントラスト学習損失に適用し、コントラスト学習損失に課されるスカラー乗算機能を利用してコンパクト性を強制する。 我々は、SOTAの性能を持つBCLフレームワーク上で、RCLを実装している。 3つのベンチマークデータセットに対する実験では、学習した埋め込みの豊かさと、BCLフレームワークに提供されるトップ1バランスの精度の向上が示されている。 さらに, 独立損失としてのRCLの性能は, 最先端の精度も達成できることを実証した。

Integrating supervised contrastive loss to cross entropy-based communication has recently been proposed as a solution to address the long-tail learning problem. However, when the class imbalance ratio is high, it requires adjusting the supervised contrastive loss to support the tail classes, as the conventional contrastive learning is biased towards head classes by default. To this end, we present Rebalanced Contrastive Learning (RCL), an efficient means to increase the long tail classification accuracy by addressing three main aspects: 1. Feature space balancedness - Equal division of the feature space among all the classes, 2. Intra-Class compactness - Reducing the distance between same-class embeddings, 3. Regularization - Enforcing larger margins for tail classes to reduce overfitting. RCL adopts class frequency-based SoftMax loss balancing to supervised contrastive learning loss and exploits scalar multiplied features fed to the contrastive learning loss to enforce compactness. We implement RCL on the Balanced Contrastive Learning (BCL) Framework, which has the SOTA performance. Our experiments on three benchmark datasets demonstrate the richness of the learnt embeddings and increased top-1 balanced accuracy RCL provides to the BCL framework. We further demonstrate that the performance of RCL as a standalone loss also achieves state-of-the-art level accuracy.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# マヨラナ境界状態の検証可能なシグネチャとしての表面誘起奇数周波数スピントリップレット超伝導

Surface induced odd-frequency spin-triplet superconductivity as a veritable signature of Majorana bound states ( http://arxiv.org/abs/2312.02961v2 )

ライセンス: Link先を確認
Subhajit Pal, Colin Benjamin, (参考訳) 我々は、表面誘起奇数周波数(odd-$\nu$)スピントリップ超伝導対は、ジョセフソン・ノダル$p$-wave超伝導体(p_{x}$)-スピンフッパー(SF)-nodal$p$-wave超伝導体(p_{x}$)接合におけるマヨナ境界状態(MBS)の検証可能なシグネチャと予測できる。 注目すべきは、$p_{x}$-SF-$p_{x}$ ジョセフソン接合において、3つの異なる位相が出現する: MBS を特徴とする位相位相、MBS を含まない位相位相、および MBS を含まない自明な位相位相である。 表面奇数$\nu$スピントリップレットペアリングは、MBSが現れる時、トポロジカルな状態にのみ誘導される。 対照的に、表面誘起の偶数周波数 (even-$\nu$) スピン・トリップレット対はMBSの有無にかかわらず有限である。 重要なことは、表面誘起奇数-$\nu$スピントリップレットペアリングは、MBSを特徴とするトポロジカルフェーズにおける障害に対する免疫であり、一方、自明なフェーズでは、表面誘起偶数-$\nu$スピントリップレットペアリングは障害によって影響を受ける。 本研究は, 自明な位相と, MBSの位相を欠いた位相相を, 主に誘導表面の奇数-$\nu$スピントリップ超伝導体を観察することによって, MBSを特徴とする位相を識別する潜在的手段を提供する。

We predict surface-induced odd-frequency (odd-$\nu$) spin-triplet superconducting pairing can be a veritable signature of Majorana bound states (MBS) in a Josephson nodal $p$-wave superconductor ($p_{x}$)-spin flipper (SF)-nodal $p$-wave superconductor ($p_{x}$) junction. Remarkably, in a $p_{x}$-SF-$p_{x}$ Josephson junction three distinct phases emerge: the topological phase featuring MBS, the topological phase without MBS, and the trivial phase devoid of MBS. Surface odd-$\nu$ spin-triplet pairing is induced only in the topological regime when MBS appears. In contrast, surface-induced even-frequency (even-$\nu$) spin-triplet pairing is finite regardless of the existence of MBS. Importantly, we find the surface induced odd-$\nu$ spin-triplet pairing is immune to disorder in the topological phase featuring MBS, while in the trivial phase the surface induced even-$\nu$ spin-triplet pairing is affected by disorder. Our study offers a potential means for distinguishing the topological phase featuring MBS from both the trivial phase as well as the topological phase devoid of MBS, primarily through the observation of induced surface odd-$\nu$ spin-triplet superconductivity.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 畳み込みニューラルネットワークによる物理逆問題の再パラメータ化のためのテスト時間学習手法

A Test-Time Learning Approach to Reparameterize the Geophysical Inverse Problem with a Convolutional Neural Network ( http://arxiv.org/abs/2312.04752v2 )

ライセンス: Link先を確認
Anran Xu, Lindsey J. Heagy, (参考訳) 正規化は、不適切な物理逆問題の解決に不可欠である。 明示的な正規化はよく用いられるが、ニューラルネットワーク構造に固有の暗黙的な正規化効果を探求する機会がある。 研究者たちは、畳み込みニューラルネットワーク(CNN)アーキテクチャが本質的に、コンピュータビジョンにおける様々な逆問題に対処する上で有利な正規化を強制していることを発見した。 本研究では,この暗黙的正則化の地学逆転への適用性について検討する。 CNNは任意のベクトルをモデル空間にマッピングする。 その後、予測された地下モデルが前方数値シミュレーションに入力され、対応する予測された測定値を生成する。 その後、これらの予測値と観測値を比較することにより、目的関数値を算出する。 逆プロパゲーションアルゴリズムは、インバージョン中にCNNのトレーニング可能なパラメータを更新するために使用される。 提案手法におけるCNNは、逆転前のトレーニングを必要としないが、逆転過程においてCNN重みが推定されるので、これはテスト時間学習(TTL)アプローチである。 本研究では, 直流比抵抗逆問題 (Tikhonov-style geophysical inversions, 例えば重力, 電磁場など) に着目し, 仮説の検証を行う。 実験結果から, 暗黙の正則化は直流比抵抗反転に有効であることが示唆された。 また、CNNアーキテクチャから導入されたこの暗黙の規則化の潜在的な源泉について検討し、提案手法を他の物理手法に適用するための実践的な指針について考察する。

Regularization is critical for solving ill-posed geophysical inverse problems. Explicit regularization is often used, but there are opportunities to explore the implicit regularization effects that are inherent in a Neural Network structure. Researchers have discovered that the Convolutional Neural Network (CNN) architecture inherently enforces a regularization that is advantageous for addressing diverse inverse problems in computer vision, including de-noising and in-painting. In this study, we examine the applicability of this implicit regularization to geophysical inversions. The CNN maps an arbitrary vector to the model space. The predicted subsurface model is then fed into a forward numerical simulation to generate corresponding predicted measurements. Subsequently, the objective function value is computed by comparing these predicted measurements with the observed measurements. The backpropagation algorithm is employed to update the trainable parameters of the CNN during the inversion. Note that the CNN in our proposed method does not require training before the inversion, rather, the CNN weights are estimated in the inversion process, hence this is a test-time learning (TTL) approach. In this study, we choose to focus on the Direct Current (DC) resistivity inverse problem, which is representative of typical Tikhonov-style geophysical inversions (e.g. gravity, electromagnetic, etc.), to test our hypothesis. The experimental results demonstrate that the implicit regularization can be useful in some DC resistivity inversions. We also provide a discussion of the potential sources of this implicit regularization introduced from the CNN architecture and discuss some practical guides for applying the proposed method to other geophysical methods.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 単結晶タングステートにおける常磁性および希土類イオンスピン欠陥の高精度マルチモードマイクロ波分光

Precision Multi-Mode Microwave Spectroscopy of Paramagnetic and Rare-Earth Ion Spin Defects in Single Crystal Calcium Tungstate ( http://arxiv.org/abs/2312.05199v3 )

ライセンス: Link先を確認
Elrina Hartman, Michael E Tobar, Ben T McAllister, Jeremy Bourhill, Maxim Goryachev, (参考訳) 低温で30mKまで冷却したCaWO$_4$の低損失単結晶単結晶試料中の希薄イオンスピンアンサンブル欠陥を実験的に観察した。 誘電体を装荷したマイクロ波空洞共振器を結晶から構築することにより, 結晶場摂動を解明した。 共振器は高いQファクターを最大3ドル(約3,300円)、10^7ドル(約3,300円)の低損失タンジェント10^{-8ドル(約3,300円)の多数のささやきギャラリーモードを示した。 低損失は多数の高Q因子光子-スピン相互作用の高精度多モード分光を可能にした。 7 GHzから22 GHzで測定したところ、Gd$^{3+}$, Fe$^{3+}$, 他の痕跡種の存在が判明した。 これらの発見は、この低損失誘電体材料を、精度と量子メートル法、および標準模型物理学を超える試験に応用するためのさらなる研究を動機付けている。

We present experimental observations of dilute ion spin ensemble defects in a low-loss single crystal cylindrical sample of CaWO$_4$ cooled to 30 mK in temperature. Crystal field perturbations were elucidated by constructing a dielectrically loaded microwave cavity resonator from the crystal. The resonator exhibited numerous whispering gallery modes with high Q-factors of up to $3\times 10^7$, equivalent to a low loss tangent of $\sim 3\times 10^{-8}$. The low-loss allowed precision multi-mode spectroscopy of numerous high Q-factor photon-spin interactions. Measurements between 7 to 22 GHz revealed the presence of Gd$^{3+}$, Fe$^{3+}$, and another trace species, inferred to be rare-earth, at concentrations on the order of parts per billion. These findings motivate further exploration of prospective uses of this low-loss dielectric material for applications regarding precision and quantum metrology, as well as tests for beyond standard model physics.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 単調性欠如におけるシャンブル・ポックアルゴリズムの収束性

Convergence of the Chambolle-Pock Algorithm in the Absence of Monotonicity ( http://arxiv.org/abs/2312.06540v2 )

ライセンス: Link先を確認
Brecht Evens, Puya Latafat, Panagiotis Patrinos, (参考訳) シャンブル・ポックアルゴリズム(英: Chambolle-Pock algorithm, CPA)は、大規模凸構造問題の解法の成功により、過去10年間で人気を博したアルゴリズムである。 この研究は、関連する原始双対作用素上のいわゆる斜め弱ミント条件によって定量化される、(非)単調性の異なる問題に対する収束解析を拡張した。 この結果から,線形写像のノルムに依存せず,他の特異値にも依存する新たなステップサイズと緩和パラメータの範囲が明らかとなった。 特に、非単調な設定では、古典的なステップサイズ条件に加えて、ステップサイズと緩和パラメータの余分な境界が必要である。 一方、強い単調な設定では、緩和パラメータは古典的な2つの上限を超えることが許される。 さらに、最近導入されたセミモノトン作用素のクラスを構築し、個々の作用素がセミモノトンである場合、CPAに対して十分な収束条件を提供する。 この演算子のクラスは(hypo)-およびco(hypo)-モノトン演算子を含む従来の演算子クラスを含むため、この分析はCPAの既存の結果を回復し拡張する。 提案した段差範囲の厚さは、いくつかの例を通して示される。

The Chambolle-Pock algorithm (CPA), also known as the primal-dual hybrid gradient method, has gained popularity over the last decade due to its success in solving large-scale convex structured problems. This work extends its convergence analysis for problems with varying degrees of (non)monotonicity, quantified through a so-called oblique weak Minty condition on the associated primal-dual operator. Our results reveal novel stepsize and relaxation parameter ranges which do not only depend on the norm of the linear mapping, but also on its other singular values. In particular, in nonmonotone settings, in addition to the classical stepsize conditions, extra bounds on the stepsizes and relaxation parameters are required. On the other hand, in the strongly monotone setting, the relaxation parameter is allowed to exceed the classical upper bound of two. Moreover, we build upon the recently introduced class of semimonotone operators, providing sufficient convergence conditions for CPA when the individual operators are semimonotone. Since this class of operators encompasses traditional operator classes including (hypo)- and co(hypo)-monotone operators, this analysis recovers and extends existing results for CPA. Tightness of the proposed stepsize ranges is demonstrated through several examples.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 大規模量子ネットワークのための真空ビームガイド

Vacuum Beam Guide for Large-Scale Quantum Networks ( http://arxiv.org/abs/2312.09372v3 )

ライセンス: Link先を確認
Yuexun Huang, Francisco Salces--Carcoba, Rana X Adhikari, Amir H. Safavi-Naeini, Liang Jiang, (参考訳) 真空ビームガイド(VBG)は、長距離量子通信のための既存のファイバーおよび衛星技術の限界を克服するために、量子チャネルに対して全く異なる解決策を提供する。 VBGは、レンズの配列を1km間隔で配置することで、広帯域の光波長に対して超高透過性を提供します。 現実的なパラメータでは、VBGは減衰率の点で3桁の精度で最高の繊維を上回ります。 したがって、VBGは、数千kmにわたる長距離量子通信を可能にし、量子チャネルの容量は10^{13}$ qubit/secを超え、最先端の量子衛星通信速度よりも桁違いに高い。 興味深いことに、VBGは量子リピータを使わずに、コンピューティング、通信、センシングのための新しい分散量子情報アプリケーションを可能にする、地上ベースで低損失で高帯域の量子チャネルを提供することができる。

The vacuum beam guide (VBG) presents a completely different solution for quantum channels to overcome the limitations of existing fiber and satellite technologies for long-distance quantum communication. With an array of aligned lenses spaced kilometers apart, the VBG offers ultra-high transparency over a wide range of optical wavelengths. With realistic parameters, the VBG can outperform the best fiber by three orders of magnitude in terms of attenuation rate. Consequently, the VBG can enable long-range quantum communication over thousands of kilometers with quantum channel capacity beyond $10^{13}$ qubit/sec, orders of magnitude higher than the state-of-the-art quantum satellite communication rate. Remarkably, without relying on quantum repeaters, the VBG can provide a ground-based, low-loss, high-bandwidth quantum channel that enables novel distributed quantum information applications for computing, communication, and sensing.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# Plasticine3D:マルチビュー埋め込み最適化によるテキスト誘導による3次元非デジタル編集

Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization ( http://arxiv.org/abs/2312.10111v2 )

ライセンス: Link先を確認
Yige Chen, Teng Hu, Yizhe Tang, Siyuan Chen, Ang Chen, Ran Yi, (参考訳) SDS(Score Distillation Sampling)とニューラル3D表現の急速な発展により、追加のジオメトリの追加やオーバーライトテクスチャなどの3D編集を行う方法が提案されている。 しかし、元のオブジェクトの構造(姿勢や構成)と外観(テクスチャ)の両方を変更する必要がある一般化された3D非剛性編集タスクは、3D編集領域では難しいままである。 本稿では,3次元非剛性編集を大規模構造変形で行うことができる,テキスト誘導型微粒化3D編集パイプラインであるPlastine 3Dを提案する。 本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。 異なる視点から元のオブジェクトの詳細を維持するために,誘導モデルが元のオブジェクトの特徴を様々な視点から学習することを保証するために,MVE最適化戦略を提案する。 微粒化制御のために,埋め込み空間における編集目的と原特性を混合し,融合率を調整して編集範囲を制御することを目的としたEmbedding-Fusion(EF)を提案する。 さらに、高い編集強度下での生成過程における詳細の段階的損失問題や、いくつかのシナリオにおいて重要な編集効果の問題に対処するため、スコア抽出サンプリングの代替としてスコア投影サンプリング(SPS)を提案する。 大規模実験による3次元非剛性編集作業における本手法の有効性の実証

With the help of Score Distillation Sampling (SDS) and the rapid development of neural 3D representations, some methods have been proposed to perform 3D editing such as adding additional geometries, or overwriting textures. However, generalized 3D non-rigid editing task, which requires changing both the structure (posture or composition) and appearance (texture) of the original object, remains to be challenging in 3D editing field. In this paper, we propose Plasticine3D, a novel text-guided fine-grained controlled 3D editing pipeline that can perform 3D non-rigid editing with large structure deformations. Our work divides the editing process into a geometry editing stage and a texture editing stage to achieve separate control of structure and appearance. In order to maintain the details of the original object from different viewpoints, we propose a Multi-View-Embedding (MVE) Optimization strategy to ensure that the guidance model learns the features of the original object from various viewpoints. For the purpose of fine-grained control, we propose Embedding-Fusion (EF) to blend the original characteristics with the editing objectives in the embedding space, and control the extent of editing by adjusting the fusion rate. Furthermore, in order to address the issue of gradual loss of details during the generation process under high editing intensity, as well as the problem of insignificant editing effects in some scenarios, we propose Score Projection Sampling (SPS) as a replacement of score distillation sampling, which introduces additional optimization phases for editing target enhancement and original detail maintenance, leading to better editing quality. Extensive experiments demonstrate the effectiveness of our method on 3D non-rigid editing tasks
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 真の三部交絡に対する忠実な幾何測度

Faithful geometric measures for genuine tripartite entanglement ( http://arxiv.org/abs/2312.17496v2 )

ライセンス: Link先を確認
Xiaozhen Ge, Lijun Liu, Yong Wang, Yu Xiang, Guofeng Zhang, Li Li, Shuming Cheng, (参考訳) 離散的,連続的,ハイブリッドな量子系の真の三部構造交絡に対する忠実な幾何学図式を示す。 まず、三角形関係 $\mathcal{E}^\alpha_{i|jk}\leq \mathcal{E}^\alpha_{j|ik}+\mathcal{E}^\alpha_{k|ij}$ は、すべての部分加法的二部分エンタングルメント測度 $\mathcal{E}$ 、すべてのパーティー $i, j, k$ 、すべての$\alpha \in [0, 1]$ と全ての純三部分状態に対して成り立つ。 幾何学的解釈では、$\mathcal{E}^\alpha$ で測られる二分交絡は三角形の側面に対応し、$\alpha \in (0, 1)$ の面積が 0 でないのは、基底状態が真に絡み合っている場合に限りである。 すると、0<\alpha\leq 1/2$ が真の三元交絡の測度であることを示す。 これらの測度に有効な下限と上限を求め,その結果の一般化も示す。 最後に、一組の加法的および非加法的な測度が与えられたとき、ある状態は常に任意の$\alpha>1$の三角形関係に反することが明らかとなり、三角形領域は$\alpha>1/2$の測度ではない。 したがって,本研究の結果は,離散的および連続的多部絡み合いの研究において大きな進展をもたらすことが期待されている。

We present a faithful geometric picture for genuine tripartite entanglement of discrete, continuous, and hybrid quantum systems. We first find that the triangle relation $\mathcal{E}^\alpha_{i|jk}\leq \mathcal{E}^\alpha_{j|ik}+\mathcal{E}^\alpha_{k|ij}$ holds for all subadditive bipartite entanglement measure $\mathcal{E}$, all permutations under parties $i, j, k$, all $\alpha \in [0, 1]$, and all pure tripartite states. It provides a geometric interpretation that bipartition entanglement, measured by $\mathcal{E}^\alpha$, corresponds to the side of a triangle, of which the area with $\alpha \in (0, 1)$ is nonzero if and only if the underlying state is genuinely entangled. Then, we rigorously prove the non-obtuse triangle area with $0<\alpha\leq 1/2$ is a measure for genuine tripartite entanglement. Useful lower and upper bounds for these measures are obtained, and generalizations of our results are also presented. Finally, it is significantly strengthened for qubits that, given a set of subadditive and non-additive measures, some state is always found to violate the triangle relation for any $\alpha>1$, and the triangle area is not a measure for any $\alpha>1/2$. Hence, our results are expected to aid significant progress in studying both discrete and continuous multipartite entanglement.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 強化メンバーシップ推論攻撃のための学習に基づく難易度校正

Learning-Based Difficulty Calibration for Enhanced Membership Inference Attacks ( http://arxiv.org/abs/2401.04929v3 )

ライセンス: Link先を確認
Haonan Shi, Tu Ouyang, An Wang, (参考訳) マシンラーニングモデル、特にディープニューラルネットワークは、現在、ヘルスケアからファイナンスまで、さまざまなアプリケーションの不可欠な部分です。 しかし、これらのモデルをトレーニングするために機密データを使用すると、プライバシとセキュリティに関する懸念が高まる。 トレーニングされたモデルがプライバシ保護であるかどうかを検証するために登場した方法の1つは、モデルのトレーニングデータセットに特定のデータポイントが含まれているかどうかを敵が判断することのできる、メンバーシップ推論攻撃(MIA)である。 文献では一連のMIAが提案されているが、低い偽陽性率(FPR)領域(0.01%〜1%)で高い真陽性率(TPR)を達成できるのはごくわずかである。 これは、MIAが現実世界の設定で実用的に有用であると考える上で重要な要素である。 本稿では,低FPRにおけるTPRを大幅に改善することを目的としたMIAに対する新しいアプローチを提案する。 本手法は,MIA(LDC-MIA)の学習難易度校正法であり,ニューラルネットワーク分類器を用いてデータ記録の硬度を特徴付ける。 実験の結果,LCD-MIAは,他の困難キャリブレーションに基づくMIAと比較して,低FPRでのTPRを最大4倍改善できることがわかった。 また、全データセットでAUC(Area Under ROC curve)が最も高い。 提案手法のコストは既存のMIAのほとんどに匹敵するが, 同等の性能を保ちながら, 最先端の手法であるLiRAよりも桁違いに効率的である。

Machine learning models, in particular deep neural networks, are currently an integral part of various applications, from healthcare to finance. However, using sensitive data to train these models raises concerns about privacy and security. One method that has emerged to verify if the trained models are privacy-preserving is Membership Inference Attacks (MIA), which allows adversaries to determine whether a specific data point was part of a model's training dataset. While a series of MIAs have been proposed in the literature, only a few can achieve high True Positive Rates (TPR) in the low False Positive Rate (FPR) region (0.01%~1%). This is a crucial factor to consider for an MIA to be practically useful in real-world settings. In this paper, we present a novel approach to MIA that is aimed at significantly improving TPR at low FPRs. Our method, named learning-based difficulty calibration for MIA(LDC-MIA), characterizes data records by their hardness levels using a neural network classifier to determine membership. The experiment results show that LDC-MIA can improve TPR at low FPR by up to 4x compared to the other difficulty calibration based MIAs. It also has the highest Area Under ROC curve (AUC) across all datasets. Our method's cost is comparable with most of the existing MIAs, but is orders of magnitude more efficient than one of the state-of-the-art methods, LiRA, while achieving similar performance.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# PartSTAD: 2D-to-3D 分割タスク適応

PartSTAD: 2D-to-3D Part Segmentation Task Adaptation ( http://arxiv.org/abs/2401.05906v2 )

ライセンス: Link先を確認
Hyunjin Kim, Minhyuk Sung, (参考訳) 2D-to-3Dセグメンテーションリフトのタスク適応を目的としたPartSTADを提案する。 最近の研究は、2Dセグメンテーションモデルを利用して、数ショット適応による高品質な3Dセグメンテーションを実現するという利点を強調している。 しかし、従来のアプローチでは、3Dセグメンテーションに特化してモデルを最適化するのではなく、レンダリング画像や合成テキスト記述へのドメインシフトのための2次元セグメンテーションモデルの適用に重点を置いていた。 提案手法は,3次元セグメント化のための目的関数を持つ2次元境界ボックス予測モデルを微調整する。 適応的なマージのための2次元バウンディングボックスの重みを導入し、小さな追加ニューラルネットワークを用いて重みを学習する。 さらに,境界ボックス上の前景セグメンテーションモデルであるSAMを組み込んで,2次元セグメンテーションの境界,すなわち3次元セグメンテーションのバウンダリを改善する。 PartNet-Mobilityデータセットを用いた実験では,タスク適応アプローチによる大幅な改善,mIoUの7.0%増加,セマンティックおよびインスタンスセグメンテーションにおけるmAP@50の5.2%向上を実現した。

We introduce PartSTAD, a method designed for the task adaptation of 2D-to-3D segmentation lifting. Recent studies have highlighted the advantages of utilizing 2D segmentation models to achieve high-quality 3D segmentation through few-shot adaptation. However, previous approaches have focused on adapting 2D segmentation models for domain shift to rendered images and synthetic text descriptions, rather than optimizing the model specifically for 3D segmentation. Our proposed task adaptation method finetunes a 2D bounding box prediction model with an objective function for 3D segmentation. We introduce weights for 2D bounding boxes for adaptive merging and learn the weights using a small additional neural network. Additionally, we incorporate SAM, a foreground segmentation model on a bounding box, to improve the boundaries of 2D segments and consequently those of 3D segmentation. Our experiments on the PartNet-Mobility dataset show significant improvements with our task adaptation approach, achieving a 7.0%p increase in mIoU and a 5.2%p improvement in mAP@50 for semantic and instance segmentation compared to the SotA few-shot 3D segmentation model.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# スピノルボース-アインシュタイン凝縮体における仕事分布のエントロピーの普遍力学

Universal dynamics of the entropy of work distribution in spinor Bose-Einstein condensates ( http://arxiv.org/abs/2401.05921v2 )

ライセンス: Link先を確認
Zhen-Xia Niu, (参考訳) 量子相転移(QPT)を有限時間で超える量子多体系(英語版)を駆動することは、物理学の様々な分野において、様々な基本的な問題を探究するために懸念されてきた。 ここでは, 強磁性スピノルBose-Einstein凝縮体の制御パラメータが有限時間における臨界点を通して調整されるとき, 基礎となるQPTが作業分布にどう影響するかを解析する。 ワークディストリビューションは、ドライブタイムを$\tau$に増やすことで、劇的な変化を経験していることが示されています。 作業分布の特徴を捉えるために、$P(W)$のエントロピーを分析し、$\tau$の関数としてエントロピーの進化における3つの異なる領域を求める。 具体的には、エントロピーは非常に短い$\tau$の領域の駆動時間に敏感であるが、中間値$\tau$の領域において普遍的なパワーロー減衰を示す。 特にエントロピーのパワー・ロースケーリングは、よく知られたキブル・ズレック機構に従っている。 大きな$\tau$を持つ領域では、断熱摂動理論の妥当性は$\tau^{-2}\ln\tau$としてエントロピー崩壊をもたらす。 本研究は, 臨界力学を理解するための作業分布のエントロピーの有用性を検証するとともに, 量子多体系における非平衡特性を実験的に研究するための代替手段を提供するものである。

Driving a quantum many-body system across the quantum phase transition (QPT) in the finite time has been concerned in different branches of physics to explore various fundamental questions. Here, we analyze how the underlying QPT affects the work distribution $P(W)$, when the control parameter of a ferromagnetic spinor Bose-Einstein condensates is tuned through the critical point in the finite time. We show that the work distribution undergoes a dramatic change with increasing the driving time $\tau$. To capture the characteristics of the work distribution, we analyze the entropy of $P(W)$ and find three different regions in the evolution of entropy as a function of $\tau$. Specifically, the entropy is insensitive to the driving time in the region of very short $\tau$, while it exhibits a universal power-law decay in the region with intermediate value of $\tau$. In particular, the power-law scaling of the entropy is according with the well-known Kibble-Zurek mechanism. For the region with large $\tau$, the validity of the adiabatic perturbation theory leads to the entropy decay as $\tau^{-2}\ln\tau$. Our results verify the usefulness of the entropy of the work distribution for understanding the critical dynamics and provide an alternative way to experimentally study nonequilibrium properties in quantum many-body systems.
翻訳日:2024-07-11 00:11:18 公開日:2024-07-09
# 量子近似最適化アルゴリズムにおけるパラメータ転送可能性のためのグラフ表現学習

Graph Representation Learning for Parameter Transferability in Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2401.06655v2 )

ライセンス: Link先を確認
Jose Falla, Quinn Langfitt, Yuri Alexeev, Ilya Safro, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子強化組合せ最適化による量子優位性を達成するための最も有望な候補の1つである。 特殊MaxCut問題インスタンスに対する最適QAOAパラメータ濃度効果が観測されているが、厳密な研究はいまだ不十分である。 MaxCutの最適QAOAパラメータのクラスタリングにより、グラフを構成するサブグラフ(光線)のタイプやグラフ内のノードの全体度(パリティ)など、グラフの局所特性に基づいて、異なるMaxCutインスタンス間のパラメータ転送性が説明され、予測できる。 本研究では,MaxCutインスタンスの異なるクラス間のパラメータ転送可能性を含む,パラメータ転送可能性の優れたドナー候補を決定するために,5種類のグラフ埋め込み手法を適用した。 この手法を用いて,パラメータ最適化に要するイテレーション数を効果的に削減し,目標問題に対する近似解を桁違いに高速化する。 この手法はパラメータの変分最適化時に不毛の高原に遭遇する問題を効果的に除去する。 さらに, 移動パラメータは雑音を受ける際の有効性を維持し, 実世界の量子アプリケーションでの利用をサポートすることを示した。 本研究は,QAOAが理想的条件と雑音条件の両方で著しく加速されるように最適なドナー候補を予測できる組合せ最適化インスタンスのクラスを特定するためのフレームワークを提案する。

The quantum approximate optimization algorithm (QAOA) is one of the most promising candidates for achieving quantum advantage through quantum-enhanced combinatorial optimization. Optimal QAOA parameter concentration effects for special MaxCut problem instances have been observed, but a rigorous study of the subject is still lacking. Due to clustering of optimal QAOA parameters for MaxCut, successful parameter transferability between different MaxCut instances can be explained and predicted based on local properties of the graphs, including the type of subgraphs (lightcones) from which graphs are composed as well as the overall degree of nodes in the graph (parity). In this work, we apply five different graph embedding techniques to determine good donor candidates for parameter transferability, including parameter transferability between different classes of MaxCut instances. Using this technique, we effectively reduce the number of iterations required for parameter optimization, obtaining an approximate solution to the target problem with an order of magnitude speedup. This procedure also effectively removes the problem of encountering barren plateaus during the variational optimization of parameters. Additionally, our findings demonstrate that the transferred parameters maintain effectiveness when subjected to noise, supporting their use in real-world quantum applications. This work presents a framework for identifying classes of combinatorial optimization instances for which optimal donor candidates can be predicted such that QAOA can be substantially accelerated under both ideal and noisy conditions.
翻訳日:2024-07-11 00:01:01 公開日:2024-07-09
# 低ランクニューラルネットワークの学習におけるハネシング直交性

Harnessing Orthogonality to Train Low-Rank Neural Networks ( http://arxiv.org/abs/2401.08505v3 )

ライセンス: Link先を確認
Daniel Coquelin, Katharina Flügel, Marie Weiel, Nicholas Kiefer, Charlotte Debus, Achim Streit, Markus Götz, (参考訳) 本研究は,ニューラルネットワークの学習力学を,トレーニングを通じて重みの特異値分解(SVD)を分析することによって研究する。 本研究は,多次元重みのSVD表現における直交基底がトレーニング中に安定していることを明らかにする。 そこで我々は,ニューラルネットワークの固有直交性を利用した新しいトレーニング手法であるOrthogonality-Informed Adaptive Low-Rank(OIALR)トレーニングを紹介した。 OIALRは、さまざまなデータセットと確立されたネットワークアーキテクチャのベンチマークで示されているように、既存のトレーニングワークフローを最小限の精度でシームレスに統合する。 適切なハイパーパラメータチューニングによって、OIALRは最先端のモデルを含む従来のトレーニング設定を超えることができる。

This study explores the learning dynamics of neural networks by analyzing the singular value decomposition (SVD) of their weights throughout training. Our investigation reveals that an orthogonal basis within each multidimensional weight's SVD representation stabilizes during training. Building upon this, we introduce Orthogonality-Informed Adaptive Low-Rank (OIALR) training, a novel training method exploiting the intrinsic orthogonality of neural networks. OIALR seamlessly integrates into existing training workflows with minimal accuracy loss, as demonstrated by benchmarking on various datasets and well-established network architectures. With appropriate hyperparameter tuning, OIALR can surpass conventional training setups, including those of state-of-the-art models.
翻訳日:2024-07-11 00:01:01 公開日:2024-07-09
# Tri$^{2}$-plane:Feature Pyramidでヘッドアバターを思い浮かべる

Tri$^{2}$-plane: Thinking Head Avatar via Feature Pyramid ( http://arxiv.org/abs/2401.09386v2 )

ライセンス: Link先を確認
Luchuan Song, Pinxin Liu, Lele Chen, Guojun Yin, Chenliang Xu, (参考訳) 近年は、神経ボリュームレンダリングによる顔アバターの再構築でかなりの成果を挙げている。 顕著な進歩にもかかわらず、単眼ビデオからの複雑な頭部運動とダイナミックな頭部運動の再構築は、細かな細部を捉え、復元することに苦しむ。 本研究では,モノクラーフォトリアリスティックな頭部アバター再構成のための新しいアプローチTri$^2$-planeを提案する。 動的顔モデリングのための1つの三面体変形場に依存する既存の研究とは違い、提案されたTri$^2$-planeは、特徴ピラミッドと3つの上下方向接続三面体の原理を利用して細部の改善を行う。 顔の詳細を複数のスケールで分析してレンダリングし、顔全体から特定の地域へ移行し、さらに洗練されたサブリージョンへと移行する。 さらに,カメラをベースとした幾何対応のスライドウインドウをトレーニングの強化として組み込むことで,標準空間を超えた堅牢性を向上し,特にクロスアイデンティティ生成能力の向上を図っている。 実験結果から、Tri$^2$-planeは既存の方法論を超越するだけでなく、定量的および定性的な評価よりも優れた性能が得られることが示唆された。 プロジェクトのWebサイトは: \url{https://songluchuan.github.io/Tri2Plane.github.io/}。

Recent years have witnessed considerable achievements in facial avatar reconstruction with neural volume rendering. Despite notable advancements, the reconstruction of complex and dynamic head movements from monocular videos still suffers from capturing and restoring fine-grained details. In this work, we propose a novel approach, named Tri$^2$-plane, for monocular photo-realistic volumetric head avatar reconstructions. Distinct from the existing works that rely on a single tri-plane deformation field for dynamic facial modeling, the proposed Tri$^2$-plane leverages the principle of feature pyramids and three top-to-down lateral connections tri-planes for details improvement. It samples and renders facial details at multiple scales, transitioning from the entire face to specific local regions and then to even more refined sub-regions. Moreover, we incorporate a camera-based geometry-aware sliding window method as an augmentation in training, which improves the robustness beyond the canonical space, with a particular improvement in cross-identity generation capabilities. Experimental outcomes indicate that the Tri$^2$-plane not only surpasses existing methodologies but also achieves superior performance across quantitative and qualitative assessments. The project website is: \url{https://songluchuan.github.io/Tri2Plane.github.io/}.
翻訳日:2024-07-11 00:01:01 公開日:2024-07-09
# グリオーマの病理像解析における人工知能の応用

Applications of artificial intelligence in the analysis of histopathology images of gliomas: a review ( http://arxiv.org/abs/2401.15022v3 )

ライセンス: Link先を確認
Jan-Philipp Redlich, Friedrich Feuerhake, Joachim Weis, Nadine S. Schaadt, Sarah Teuber-Hanselmann, Christoph Buck, Sabine Luttmann, Andrea Eberle, Stefan Nikolin, Arno Appenzeller, Andreas Portmann, André Homeyer, (参考訳) 近年,グリオーマの診断が複雑化している。 人工知能(AI)を用いたグリオーマ組織像の解析は,診断と予後予測を支援する新たな機会を提供する。 そこで本研究では,ヒトグリオーマの組織像全体に対するAIを用いた画像解析手法を提案し,脳卒中(23/83),脳卒中(27/83),分子マーカー(20/83),生存率(29/83)の診断課題について検討した。 方法論的側面と臨床応用性について検討した。 本研究の焦点は,成人型びまん性グリオーマのヘマトキシリンおよびエオシン染色組織分画の評価である。 研究の大半 (52/83) は、The Cancer Genome Atlas (TCGA) から入手可能なグリオーマと低グレードグリオーマのデータセットに基づいており、他のデータセット(16/83) やTCGAデータセット(15/83) に加えて、いくつかの研究しか使われていない。 現在のアプローチは主に20倍(35/83)で組織を分析するために畳み込みニューラルネットワーク(63/83)に依存している。 新しい研究分野は、臨床データ、オミクスデータ、磁気共鳴イメージング(29/83)の統合である。 これまでのところ、AIベースの手法は有望な成果を上げているが、実際の臨床環境ではまだ使われていない。 今後の研究は、高品質で最新の臨床および分子病理アノテーションを持つ大規模で多サイトなデータセットに対するメソッドの独立した検証に焦点をあてて、定期的な適用性を示す必要がある。

In recent years, the diagnosis of gliomas has become increasingly complex. Analysis of glioma histopathology images using artificial intelligence (AI) offers new opportunities to support diagnosis and outcome prediction. To give an overview of the current state of research, this review examines 83 publicly available research studies that have proposed AI-based methods for whole-slide histopathology images of human gliomas, covering the diagnostic tasks of subtyping (23/83), grading (27/83), molecular marker prediction (20/83), and survival prediction (29/83). All studies were reviewed with regard to methodological aspects as well as clinical applicability. It was found that the focus of current research is the assessment of hematoxylin and eosin-stained tissue sections of adult-type diffuse gliomas. The majority of studies (52/83) are based on the publicly available glioblastoma and low-grade glioma datasets from The Cancer Genome Atlas (TCGA) and only a few studies employed other datasets in isolation (16/83) or in addition to the TCGA datasets (15/83). Current approaches mostly rely on convolutional neural networks (63/83) for analyzing tissue at 20x magnification (35/83). A new field of research is the integration of clinical data, omics data, or magnetic resonance imaging (29/83). So far, AI-based methods have achieved promising results, but are not yet used in real clinical settings. Future work should focus on the independent validation of methods on larger, multi-site datasets with high-quality and up-to-date clinical and molecular pathology annotations to demonstrate routine applicability.
翻訳日:2024-07-11 00:01:01 公開日:2024-07-09
# フリーハンドスケッチによる高品質な医用画像生成

High-Quality Medical Image Generation from Free-hand Sketch ( http://arxiv.org/abs/2402.00353v2 )

ライセンス: Link先を確認
Quan Huu Cap, Atsushi Fukuda, (参考訳) 人間を描いたフリーハンドスケッチから医療画像を生成することは、様々な重要な医療画像の応用を約束する。 医用領域におけるフリーハンドスケッチデータの収集が極端に困難であるため、合成スケッチ(例えば、エッジマップや、実際の画像からのセグメンテーションマスクの輪郭)から医用画像を生成するディープラーニングベースの手法が提案されている。 しかしながら、これらのモデルはフリーハンドスケッチの一般化に失敗することが多く、不満足な結果をもたらす。 本論文では,StyleGANの潜在空間におけるスケッチを表現し,そこから医用画像を生成するSketch2MedIという,実用的なフリーハンドスケッチ・ツー・イメージ生成モデルを提案する。 スケッチをこの意味のある表現空間にエンコードする機能のおかげで、Sketch2MedIはトレーニングのために合成スケッチしか必要とせず、コスト効率のよい学習プロセスを実現する。 私たちのSketch2MedIは、フリーハンドスケッチへの堅牢な一般化を示し、高品質でリアルな医療画像生成を実現します。 Sketch2MedI の pix2pix, CycleGAN, UNIT, U-GAT-IT モデルとの比較評価により, 種々の指標における定量的および定性的な咽頭画像の生成において, 優れた性能を示した。

Generating medical images from human-drawn free-hand sketches holds promise for various important medical imaging applications. Due to the extreme difficulty in collecting free-hand sketch data in the medical domain, most deep learning-based methods have been proposed to generate medical images from the synthesized sketches (e.g., edge maps or contours of segmentation masks from real images). However, these models often fail to generalize on the free-hand sketches, leading to unsatisfactory results. In this paper, we propose a practical free-hand sketch-to-image generation model called Sketch2MedI that learns to represent sketches in StyleGAN's latent space and generate medical images from it. Thanks to the ability to encode sketches into this meaningful representation space, Sketch2MedI only requires synthesized sketches for training, enabling a cost-effective learning process. Our Sketch2MedI demonstrates a robust generalization to free-hand sketches, resulting in high-quality and realistic medical image generations. Comparative evaluations of Sketch2MedI against the pix2pix, CycleGAN, UNIT, and U-GAT-IT models show superior performance in generating pharyngeal images, both quantitative and qualitative across various metrics.
翻訳日:2024-07-11 00:01:00 公開日:2024-07-09
# 未知状態を用いた実時間ホロスティックロボットの姿勢推定

Real-time Holistic Robot Pose Estimation with Unknown States ( http://arxiv.org/abs/2402.05655v2 )

ライセンス: Link先を確認
Shikun Ban, Juling Fan, Xiaoxuan Ma, Wentao Zhu, Yu Qiao, Yizhou Wang, (参考訳) RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。 従来の手法は有望な性能を達成してきたが、そのほとんどはロボットの内部状態、例えば接地型ロボット関節角の完全な知識を前提としている。 しかし、この仮定は現実的な状況では必ずしも有効ではない。 マルチロボットのコラボレーションや人間とロボットのインタラクションのような現実世界のアプリケーションでは、ロボットの関節状態は共有されず、信頼できないこともある。 一方, 従来のロボットの動作推定手法は, 計算負荷が重いため, リアルタイムアプリケーションをサポートできない。 本研究は,RGB画像からリアルタイムロボットのポーズ推定を行う上で,既知のロボットの状態を必要としない効率的なフレームワークを提案する。 本手法では,ロボットの状態パラメータ,キーポイント位置,ルート深さを推定し,各タスクにニューラルネットワークモジュールを用いて学習とシミュレートを容易にする。 特に、繰り返し最適化することなく、単一のフィードフォワードパスでの推論を実現する。 提案手法は,最先端の精度で12倍の速度向上を実現し,実時間で総合的なロボットのポーズ推定を可能にする。 コードとモデルはhttps://github.com/Oliverbansk/Holistic-Robot-Pose-Estimationで公開されている。

Estimating robot pose from RGB images is a crucial problem in computer vision and robotics. While previous methods have achieved promising performance, most of them presume full knowledge of robot internal states, e.g. ground-truth robot joint angles. However, this assumption is not always valid in practical situations. In real-world applications such as multi-robot collaboration or human-robot interaction, the robot joint states might not be shared or could be unreliable. On the other hand, existing approaches that estimate robot pose without joint state priors suffer from heavy computation burdens and thus cannot support real-time applications. This work introduces an efficient framework for real-time robot pose estimation from RGB images without requiring known robot states. Our method estimates camera-to-robot rotation, robot state parameters, keypoint locations, and root depth, employing a neural network module for each task to facilitate learning and sim-to-real transfer. Notably, it achieves inference in a single feed-forward pass without iterative optimization. Our approach offers a 12-time speed increase with state-of-the-art accuracy, enabling real-time holistic robot pose estimation for the first time. Code and models are available at https://github.com/Oliverbansk/Holistic-Robot-Pose-Estimation.
翻訳日:2024-07-11 00:01:00 公開日:2024-07-09
# モデル再ベースと線形モード接続性の再考

Rethinking Model Re-Basin and Linear Mode Connectivity ( http://arxiv.org/abs/2402.05966v2 )

ライセンス: Link先を確認
Xingyu Qu, Samuel Horvath, (参考訳) 最近の研究は、十分に広いモデルで、ほとんどのSGDソリューションは、置換まで同じ盆地に収束することができることを示唆している。 この現象は、リニアモード接続を確実にすることで、モデル平均化に重大な影響を及ぼす。 しかし、現在の再ベース戦略は、基盤となるメカニズムの包括的な理解が欠如しているため、多くのシナリオでは効果がない。 このギャップに対処するため,本論文では,標準実践の理解と改善に関する新たな知見を提供する。 まず、再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化において重要な役割を担い、リベース性能はモデルアクティベーションのシフトに敏感であることを明らかにする。 この発見は、アクティベーションシフトをより微妙に扱うことを要求する。 第2に,統合モデルが活性化崩壊とマグニチュード崩壊の問題に悩まされていることを確かめる。 学習速度、体重減少、初期化の方法は、問題を緩和し、モデル性能を向上させることができる。 最後に,再ベースとプルーニングを統一する新たな視点を提案し,プルーニング後のモデル性能を大幅に向上させる軽量で効果的なポストプルーニング手法を導出する。 私たちの実装はhttps://github.com/XingyuQu/rethink-re-basin.comで公開されています。

Recent studies suggest that with sufficiently wide models, most SGD solutions can, up to permutation, converge into the same basin. This phenomenon, known as the model re-basin regime, has significant implications for model averaging by ensuring the linear mode connectivity. However, current re-basin strategies are ineffective in many scenarios due to a lack of comprehensive understanding of underlying mechanisms. Addressing this gap, this paper provides novel insights into understanding and improving the standard practice. Firstly, we decompose re-normalization into rescaling and reshift, uncovering that rescaling plays a crucial role in re-normalization while re-basin performance is sensitive to shifts in model activation. The finding calls for a more nuanced handling of the activation shift. Secondly, we identify that the merged model suffers from the issue of activation collapse and magnitude collapse. Varying the learning rate, weight decay, and initialization method can mitigate the issues and improve model performance. Lastly, we propose a new perspective to unify the re-basin and pruning, under which a lightweight yet effective post-pruning technique is derived, which can significantly improve the model performance after pruning. Our implementation is available at https://github.com/XingyuQu/rethink-re-basin.
翻訳日:2024-07-11 00:01:00 公開日:2024-07-09
# ラミネート設計のための量子コンピューティングとテンソルネットワーク:スタックシーケンス検索の新しいアプローチ

Quantum Computing and Tensor Networks for Laminate Design: A Novel Approach to Stacking Sequence Retrieval ( http://arxiv.org/abs/2402.06455v2 )

ライセンス: Link先を確認
Arne Wulff, Boyang Chen, Matthew Steinberg, Yinglu Tang, Matthias Möller, Sebastian Feld, (参考訳) 工学における多くのタスクと同様に、構造設計は複雑で計算コストのかかる問題をナビゲートする。 主な例として、積層複合材料の重量最適化があるが、これは今日まで指数的に大きな構成空間と非線形制約のため、非常に厳しい作業である。 量子計算の急速に発展する分野は、これらの複雑な問題に対処するための新しいアプローチを提供するかもしれない。 しかしながら、与えられた問題に量子アルゴリズムを適用する前に、量子コンピュータの基本的な操作と互換性のある形式に変換する必要がある。 本研究は,ラミネートパラメータを用いたスタッキングシーケンス検索を特に対象とする。 この問題を量子計算法に適応させるため、可能な積み重ねシーケンスを量子状態空間にマッピングする。 さらに、この状態空間内の線型作用素であるハミルトニアンを導出し、積み重ねシーケンス検索問題に固有の損失関数をカプセル化する。 さらに、ハミルトニアンのペナルティ項として、積み重ねシーケンスにおける製造制約の組み入れを実演する。 この量子表現は、量子ハミルトニアンの基底状態を見つけるために様々な古典的および量子的アルゴリズムに適している。 実演では、2つの変分量子アルゴリズムの状態ベクトルシミュレーションを行い、また従来のテンソルネットワークアルゴリズムであるDMRGアルゴリズムを選択し、我々のアプローチを数値的に検証した。 この研究は主に量子計算に焦点が当てられているが、テンソルネットワークアルゴリズムの適用により、配列検索を積み重ねるための新しい量子に着想を得たアプローチが提示される。

As with many tasks in engineering, structural design frequently involves navigating complex and computationally expensive problems. A prime example is the weight optimization of laminated composite materials, which to this day remains a formidable task, due to an exponentially large configuration space and non-linear constraints. The rapidly developing field of quantum computation may offer novel approaches for addressing these intricate problems. However, before applying any quantum algorithm to a given problem, it must be translated into a form that is compatible with the underlying operations on a quantum computer. Our work specifically targets stacking sequence retrieval with lamination parameters. To adapt this problem for quantum computational methods, we map the possible stacking sequences onto a quantum state space. We further derive a linear operator, the Hamiltonian, within this state space that encapsulates the loss function inherent to the stacking sequence retrieval problem. Additionally, we demonstrate the incorporation of manufacturing constraints on stacking sequences as penalty terms in the Hamiltonian. This quantum representation is suitable for a variety of classical and quantum algorithms for finding the ground state of a quantum Hamiltonian. For a practical demonstration, we performed state-vector simulations of two variational quantum algorithms and additionally chose a classical tensor network algorithm, the DMRG algorithm, to numerically validate our approach. Although this work primarily concentrates on quantum computation, the application of tensor network algorithms presents a novel quantum-inspired approach for stacking sequence retrieval.
翻訳日:2024-07-11 00:01:00 公開日:2024-07-09
# EcoVal: 機械学習のための効率的なデータ評価フレームワーク

EcoVal: An Efficient Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2402.09288v5 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Hong Ming Tan, Bowei Chen, Mohan Kankanhalli, (参考訳) 機械学習ワークフローにおけるデータの価値の定量化は、機械学習イニシアチブにおいて、より戦略的決定を下す上で重要な役割を果たす。 機械学習におけるデータバリュエーションのための既存のShapley値ベースのフレームワークは、Shapley値を得るためにモデルの繰り返しトレーニングを必要とするため、計算コストがかかる。 本稿では,機械学習モデルにおけるデータの価値を,高速かつ実用的な方法で推定する,効率的なデータアセスメントフレームワークであるEcoValを紹介する。 個々のデータサンプルを直接扱う代わりに、類似したデータポイントのクラスタの値を決定します。 この値は、全てのメンバークラスタポイントの間でさらに伝播する。 本研究では,各データの内在値と外因値とを推定することにより,データの全体値を決定することができることを示す。 これは、伝統的な自由経済市場において、労働や資本といった要因に基づいて出力の量を推定するために一般的に使用される概念である「textit{production function}」としてモデルのパフォーマンスを定式化することで実現される。 評価手法の正式な証明を提供し、その性能を加速する原理とメカニズムを解明する。 本研究では,本手法の実際の適用性を,分布内データとサンプル外データの両方に対して有効性を示すことによって実証する。 この研究は、機械学習モデルにおいて、大規模にスケールした効率的なデータバリュエーションのコア課題の1つに対処する。 コードは \underline{https://github.com/respai-lab/ecoval} で公開されている。

Quantifying the value of data within a machine learning workflow can play a pivotal role in making more strategic decisions in machine learning initiatives. The existing Shapley value based frameworks for data valuation in machine learning are computationally expensive as they require considerable amount of repeated training of the model to obtain the Shapley value. In this paper, we introduce an efficient data valuation framework EcoVal, to estimate the value of data for machine learning models in a fast and practical manner. Instead of directly working with individual data sample, we determine the value of a cluster of similar data points. This value is further propagated amongst all the member cluster points. We show that the overall value of the data can be determined by estimating the intrinsic and extrinsic value of each data. This is enabled by formulating the performance of a model as a \textit{production function}, a concept which is popularly used to estimate the amount of output based on factors like labor and capital in a traditional free economic market. We provide a formal proof of our valuation technique and elucidate the principles and mechanisms that enable its accelerated performance. We demonstrate the real-world applicability of our method by showcasing its effectiveness for both in-distribution and out-of-sample data. This work addresses one of the core challenges of efficient data valuation at scale in machine learning models. The code is available at \underline{https://github.com/respai-lab/ecoval}.
翻訳日:2024-07-11 00:01:00 公開日:2024-07-09
# DoRA:重量分解低ランク適応

DoRA: Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2402.09353v6 )

ライセンス: Link先を確認
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen, (参考訳) 広く使われているパラメータ効率の微調整(PEFT)手法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。 しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。 そこで本研究では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。 本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。 ここでは,LoRAの学習能力とトレーニング安定性を両立させながら,追加の推論オーバーヘッドを回避した。 微調整のLLaMA、LLaVA、VL-BARTでは、コモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解など、様々なダウンストリームタスクでLoRAを一貫して上回ります。 コードはhttps://github.com/NVlabs/DoRA.comで入手できる。

Among the widely used parameter-efficient fine-tuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed Low-Rank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing \ours, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. \ours~consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding. Code is available at https://github.com/NVlabs/DoRA.
翻訳日:2024-07-11 00:01:00 公開日:2024-07-09
# 再生可能な条件を再考する

Revisiting Experience Replayable Conditions ( http://arxiv.org/abs/2402.10374v2 )

ライセンス: Link先を確認
Taisuke Kobayashi, (参考訳) 深い)強化学習で使用される経験的リプレイ(ER)は、非政治的アルゴリズムにのみ適用できると考えられる。 しかし、ERがオン・ポリティクス・アルゴリズムに適用されたケースはいくつかあり、非政治性はERを適用するのに十分な条件である可能性が示唆されている。 本稿では,より厳密なERC(experience replayable conditions)を再考し,ERCを満たすために既存のアルゴリズムを変更する方法を提案する。 これを踏まえて、政策改善の不安定性は、ERCにおける重要な要因であると仮定した。 計量学習の観点から不安定因子が明らかにされる 一 陰性試料からの反発力及び 二 不適切な経験の再生 これにより、対応する安定化トリックが導出される。 その結果、数値シミュレーションにより、提案手法により、ERが有利なアクター・クリティカル、オン・ポリティクス・アルゴリズムに適用できることが確認された。 さらに、その学習性能は、最先端のオフ政治アルゴリズムであるソフトアクター批判に匹敵する。

Experience replay (ER) used in (deep) reinforcement learning is considered to be applicable only to off-policy algorithms. However, there have been some cases in which ER has been applied for on-policy algorithms, suggesting that off-policyness might be a sufficient condition for applying ER. This paper reconsiders more strict "experience replayable conditions" (ERC) and proposes the way of modifying the existing algorithms to satisfy ERC. In light of this, it is postulated that the instability of policy improvements represents a pivotal factor in ERC. The instability factors are revealed from the viewpoint of metric learning as i) repulsive forces from negative samples and ii) replays of inappropriate experiences. Accordingly, the corresponding stabilization tricks are derived. As a result, it is confirmed through numerical simulations that the proposed stabilization tricks make ER applicable to an advantage actor-critic, an on-policy algorithm. Moreover, its learning performance is comparable to that of a soft actor-critic, a state-of-the-art off-policy algorithm.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# ベイズ理論における信念に関する基礎言語

Grounding Language about Belief in a Bayesian Theory-of-Mind ( http://arxiv.org/abs/2402.10416v2 )

ライセンス: Link先を確認
Lance Ying, Tan Zhi-Xuan, Lionel Wong, Vikash Mansinghka, Joshua Tenenbaum, (参考訳) 信念が直接観察できない精神状態であるという事実にもかかわらず、人間は互いの信念を定期的に話し合う。 この能力が他の心の隠されたてんかんの内容を解釈するにはどうすればよいのか? 本稿では, ベイズ理論における信念のセマンティクスを基礎として, エージェントの行動を説明するために, 人間が協調して目標, 信念, 計画の集合を推論する方法をモデル化し, エージェントがこれらの推論に対する信念について, エピステミック論理を通して評価することにより, 枠組みは, 信念に対する概念的役割のセマンティクスを提供し, 人間の信念帰属の優等性と構成性を説明するとともに, 目標と計画との密接な関係を説明する。 この枠組みは,隠蔽対象の具体的推論を必要とするドア・アンド・キーズ・グリッドワールドパズルをエージェントが解くのを見ながら,人間が目標や信念をどう評価するかを研究することで評価する。 具体的計画の役割を無視する純粋論理的推論や非メンタリゼーション的ベースライン、そしてメンタライゼーションとは対照的に、我々のモデルは人間の目標や信念の帰属に適合し、信念の意味論における理論の重要性を示す。

Despite the fact that beliefs are mental states that cannot be directly observed, humans talk about each others' beliefs on a regular basis, often using rich compositional language to describe what others think and know. What explains this capacity to interpret the hidden epistemic content of other minds? In this paper, we take a step towards an answer by grounding the semantics of belief statements in a Bayesian theory-of-mind: By modeling how humans jointly infer coherent sets of goals, beliefs, and plans that explain an agent's actions, then evaluating statements about the agent's beliefs against these inferences via epistemic logic, our framework provides a conceptual role semantics for belief, explaining the gradedness and compositionality of human belief attributions, as well as their intimate connection with goals and plans. We evaluate this framework by studying how humans attribute goals and beliefs while watching an agent solve a doors-and-keys gridworld puzzle that requires instrumental reasoning about hidden objects. In contrast to pure logical deduction, non-mentalizing baselines, and mentalizing that ignores the role of instrumental plans, our model provides a much better fit to human goal and belief attributions, demonstrating the importance of theory-of-mind for a semantics of belief.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 重力による脱コヒーレンス

Gravity-mediated decoherence ( http://arxiv.org/abs/2402.11663v2 )

ライセンス: Link先を確認
Dimitris Moustos, Charis Anastopoulos, (参考訳) 質量体の重力場内の小さな量子系は、後者の量子自由度と絡み合う。 したがって、巨大体は環境として機能し、量子系への非単体力学、ノイズ、デコヒーレンスを誘導する。 この重力によるデコヒーレンスから地球上のシステムを保護することは不可能であり、これはマクロな量子システムによる全ての実験に深刻な影響を及ぼす可能性がある。 我々は、対応する開系力学を導出することにより、この効果の第一原理解析を行う。 近い将来の量子実験は影響を受けないが、人間のスケールでは強いデコヒーレンス効果がある。 1メートル分離された人間の2つの局所状態の重ね合わせのデコヒーレンス時間は1秒の順序である。

A small quantum system within the gravitational field of a massive body will be entangled with the quantum degrees of freedom of the latter. Hence, the massive body acts as an environment, and it induces non-unitary dynamics, noise, and decoherence to the quantum system. It is impossible to shield systems on Earth from this gravity-mediated decoherence, which could severely affect all experiments with macroscopic quantum systems. We undertake a first-principles analysis of this effect, by deriving the corresponding open system dynamics. We find that near-future quantum experiments are not affected, but there is a strong decoherence effect at the human scale. The decoherence time for a superposition of two localized states of a human with an one meter separation is of the order of one second.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 量子インターネットのための階層的アーキテクチャと通信モデルの構築

Building a Hierarchical Architecture and Communication Model for the Quantum Internet ( http://arxiv.org/abs/2402.11806v2 )

ライセンス: Link先を確認
Binjie He, Dong Zhang, Seng W. Loke, Shengrui Lin, Luke Lu, (参考訳) アーキテクチャの研究は量子インターネットの実現において極めて重要である。 標準的な量子インターネットアーキテクチャはまだ存在しないが、分散アーキテクチャは量子リピータや専用の絡み合い源をフラットな構造に利用して、絡み合いの準備と分散を行うことが可能なソリューションの1つである。 本稿では、分散アーキテクチャを詳細に分析し、3つの制限があることを示す。 1) 高いメンテナンスオーバーヘッドの可能性。 2)低性能エンタングルメント分布の可能性,及び 3)最適な絡み合いルーティングをサポートできない。 上記の問題を解決するために,階層型量子インターネットアーキテクチャと通信モデルを設計する。 W-state Based Centralized Entanglement Preparation & Distribution (W-state Based CEPD) スキームとCER (Centanglement Routing) アルゴリズムを階層アーキテクチャ内で提案し、分散アーキテクチャ内の他のエンタングルメント準備・配布スキームとエンタングルメントルーティングアルゴリズムとを実験的に比較した。 評価の結果、階層アーキテクチャの絡み合い分布効率は、分散アーキテクチャの平均よりも11.5%高い(最小3.3%、最大37.3%)。

The research of architecture has tremendous significance in realizing quantum Internet. Although there is not yet a standard quantum Internet architecture, the distributed architecture is one of the possible solutions, which utilizes quantum repeaters or dedicated entanglement sources in a flat structure for entanglement preparation & distribution. In this paper, we analyze the distributed architecture in detail and demonstrate that it has three limitations: 1) possible high maintenance overhead, 2) possible low-performance entanglement distribution, and 3) unable to support optimal entanglement routing. We design a hierarchical quantum Internet architecture and a communication model to solve the problems above. We also present a W-state Based Centralized Entanglement Preparation & Distribution (W-state Based CEPD) scheme and a Centralized Entanglement Routing (CER) algorithm within our hierarchical architecture and perform an experimental comparison with other entanglement preparation & distribution schemes and entanglement routing algorithms within the distributed architecture. The evaluation results show that the entanglement distribution efficiency of hierarchical architecture is 11.5% higher than that of distributed architecture on average (minimum 3.3%, maximum 37.3%), and the entanglement routing performance of hierarchical architecture is much better than that of a distributed architecture according to the fidelity and throughput.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 逆問題に対する変分および機械学習アプローチのロバスト性と探索:概要

Robustness and Exploration of Variational and Machine Learning Approaches to Inverse Problems: An Overview ( http://arxiv.org/abs/2402.12072v2 )

ライセンス: Link先を確認
Alexander Auras, Kanchana Vaishnavi Gandikota, Hannah Droege, Michael Moeller, (参考訳) 本稿では,変分法と機械学習を用いた画像の逆問題に対する現在のアプローチについて概説する。 特別な焦点は、点推定器とその敵の摂動に対する頑健性である。 この文脈では、1次元の玩具問題に対する数値実験を行い、異なるアプローチの堅牢性を示し、理論的保証を実証的に検証する。 このレビューのもう1つの焦点は、特定の意味的またはテクスチュラルな特性を満たすための明示的なガイダンスを通じて、データ一貫性のあるソリューションのサブスペースを探索することである。

This paper provides an overview of current approaches for solving inverse problems in imaging using variational methods and machine learning. A special focus lies on point estimators and their robustness against adversarial perturbations. In this context results of numerical experiments for a one-dimensional toy problem are provided, showing the robustness of different approaches and empirically verifying theoretical guarantees. Another focus of this review is the exploration of the subspace of data-consistent solutions through explicit guidance to satisfy specific semantic or textural properties.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 核崩壊の機械的検出

Mechanical detection of nuclear decays ( http://arxiv.org/abs/2402.13257v2 )

ライセンス: Link先を確認
Jiaxiang Wang, T. W. Penny, Juan Recoaro, Benjamin Siegel, Yu-Han Tseng, David C. Moore, (参考訳) 我々は、崩壊する核が埋め込まれたミクロンサイズの粒子全体の機械的再コイルを通して、個々の核の$\alpha$崩壊を検出することを報告した。 モメンタム保存は、既存の技術による検出を回避できる中性粒子を含む、崩壊によって放出されるあらゆる粒子に対して、そのような測定が敏感であることを保証する。 発光粒子の10^{12}=2倍の質量を持つ物体の極小リコイルの検出は、光学的に閉じ込められた粒子の高精度な光制御と機械的運動の測定を可能にする浮遊光学において最近開発された技術によって可能となった。 リコイルと一致する粒子の純電荷の変化を観察すると、崩壊はマイクロベクレルレベルの背景レベルと同一視できる。 ここで開発された技術は、核法医学からダークマター、ニュートリノ物理学まで、様々な分野で用いられる。

We report the detection of individual nuclear $\alpha$ decays through the mechanical recoil of the entire micron-sized particle in which the decaying nuclei are embedded. Momentum conservation ensures that such measurements are sensitive to any particles emitted in the decay, including neutral particles that may otherwise evade detection with existing techniques. Detection of the minuscule recoil of an object more than $10^{12}$ times more massive than the emitted particles is made possible by recently developed techniques in levitated optomechanics, which enable high-precision optical control and measurement of the mechanical motion of optically trapped particles. Observation of a change in the net charge of the particle coincident with the recoil allows decays to be identified with background levels at the micro-Becquerel level. The techniques developed here may find use in fields ranging from nuclear forensics to dark matter and neutrino physics.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 確率を超えて: 大規模言語モデルを評価する際の過ちを解消する

Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models ( http://arxiv.org/abs/2402.13887v2 )

ライセンス: Link先を確認
Chenyang Lyu, Minghao Wu, Alham Fikri Aji, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)研究のランドスケープを根本的に再構築し、様々なアプリケーションにまたがる顕著な機能を示している。 しかし、最近の評価フレームワークは、予測のためにLLMの出力確率に依存することが多い。 広く採用されているが、これらの確率に基づく評価戦略の有効性は、まだオープンな研究課題である。 本研究の目的は,LLMs for Multiple Choice Questions (MCQs) の文脈における確率に基づく評価手法の有効性を検討することである。 実験により,有意な確率ベース評価法が生成に基づく予測と不適切に一致していることが判明した。 さらに、現在の評価フレームワークは、計算上の制限のため、直接応答を生成するのではなく、出力確率に基づいて予測タスクを通してLCMを評価するのが一般的である。 これらの確率に基づくアプローチは、生成予測に効果的に対応しないことを示す。 本研究の結果は,LLM評価手法の理解を深め,今後の研究への洞察を与えることができる。

Large Language Models (LLMs) have demonstrated remarkable capabilities across various applications, fundamentally reshaping the landscape of natural language processing (NLP) research. However, recent evaluation frameworks often rely on the output probabilities of LLMs for predictions, primarily due to computational constraints, diverging from real-world LLM usage scenarios. While widely employed, the efficacy of these probability-based evaluation strategies remains an open research question. This study aims to scrutinize the validity of such probability-based evaluation methods within the context of using LLMs for Multiple Choice Questions (MCQs), highlighting their inherent limitations. Our empirical investigation reveals that the prevalent probability-based evaluation method inadequately aligns with generation-based prediction. Furthermore, current evaluation frameworks typically assess LLMs through predictive tasks based on output probabilities rather than directly generating responses, owing to computational limitations. We illustrate that these probability-based approaches do not effectively correspond with generative predictions. The outcomes of our study can enhance the understanding of LLM evaluation methodologies and provide insights for future research in this domain.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 真音を聴く時、人間の脳が特定のパターンを識別する:予備的証拠

Human Brain Exhibits Distinct Patterns When Listening to Fake Versus Real Audio: Preliminary Evidence ( http://arxiv.org/abs/2402.14982v3 )

ライセンス: Link先を確認
Mahsa Salehi, Kalin Stefanov, Ehsan Shareghi, (参考訳) 本稿では,実聴・偽聴における脳活動の変動について検討する。 予備的な結果は,最先端のディープフェイク音声検出アルゴリズムによって得られた表現は,実聴と偽聴の明確なパターンを示さないことを示唆している。 対照的に、脳波によって測定された人間の脳活動は、個人が偽の音声と実際の音声にさらされたときに異なるパターンを示す。 この予備的証拠は、ディープフェイク音声検出などの領域における将来の研究の方向性を可能にする。

In this paper we study the variations in human brain activity when listening to real and fake audio. Our preliminary results suggest that the representations learned by a state-of-the-art deepfake audio detection algorithm, do not exhibit clear distinct patterns between real and fake audio. In contrast, human brain activity, as measured by EEG, displays distinct patterns when individuals are exposed to fake versus real audio. This preliminary evidence enables future research directions in areas such as deepfake audio detection.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# マスク言語モデルを用いた確率的音波ビーム探索

Probabilistically-Sound Beam Search with Masked Language Models ( http://arxiv.org/abs/2402.15020v2 )

ライセンス: Link先を確認
Creston Brooks, Robert Calef, Charlie Cowen-Breen, Anna Sappington, (参考訳) マスク付き言語モデル(MLM)を用いたビームサーチは、自己回帰モデルとは異なり、シーケンス上の結合確率分布が容易には利用できないため、部分的には困難である。 しかし、そのような分布を推定することは、古代のテキスト復元やタンパク質工学など、ドメイン固有の重要な応用がある。 本稿では,MLMを用いたビームサーチの確率論的手法を提案する。 まず、標準ビームサーチを用いて、MLMでテキストを埋め込む理論的に健全な条件を明らかにする。 これらの条件が失敗した場合、さらなる計算複雑性を伴わない確率的音響修正を行い、上記の予測条件におけるビーム探索よりも優れていることを示す。 次に、複数の領域にまたがるMLMを用いて、複数の埋め込みアプローチを比較した経験的結果を示す。

Beam search with masked language models (MLMs) is challenging in part because joint probability distributions over sequences are not readily available, unlike for autoregressive models. However, estimating such distributions has important domain-specific applications such as ancient text restoration and protein engineering. Here we present probabilistically-sound methods for beam search with MLMs. First, we clarify the conditions under which it is theoretically sound to perform text infilling with MLMs using standard beam search. When these conditions fail, we provide a probabilistically-sound modification with no additional computational complexity and demonstrate that it is superior to the aforementioned beam search in the expected conditions. We then present empirical results comparing several infilling approaches with MLMs across several domains.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# コミュニケーションの最適不均衡なプライベート・セット・ユニオン

Communication Optimal Unbalanced Private Set Union ( http://arxiv.org/abs/2402.16393v2 )

ライセンス: Link先を確認
Jean-Guillaume Dumas, Alexis Galan, Bruno Grenet, Aude Maignan, Daniel S. Roche, (参考訳) プライベート・セット・ユニオン(PSU)問題を考えると、2つのパーティがそれぞれプライベート・セットの要素を持ち、2つのセットのユニオンを学ぶために1つのパーティ(受信機)を欲しがる。 本プロトコルは,受信者の設定サイズが送信者の設定サイズよりも大きい不均衡ケースを対象としており,通信量とローカル計算時間の両方において送信者のコストを最小限に抑えることを目的としている。 この設定は、受信機が小型の低消費電力デバイスで実現される可能性のある送信機よりもはるかに多くのデータ(入力セットサイズ)と計算資源を持つアプリケーションによって動機付けられている。 漸近的に、送信側(より小さい)設定サイズで通信コストを線形にし、各設定サイズでほぼ直線的な送信側と受信側の計算コストを計算します。 我々の知る限り、この不均衡な環境でPSUのほぼ直線的な通信と計算を実現する最初のアルゴリズムである。 本プロトコルは, 完全同型暗号(FHE)と任意に線形同型暗号(LHE)を用いて, プライバシを保ちながら必要な計算を行う。 基礎となる計算は、ホモモルフィック暗号の中で実現された単変量多項式演算、すなわち高速乗算、モジュラーリダクション、マルチポイント評価に基づいている。 これらの漸近的に高速なHE多項式算術アルゴリズムは独立した興味を持つかもしれない。

We consider the private set union (PSU) problem, where two parties each hold a private set of elements, and they want one of the parties (the receiver) to learn the union of the two sets and nothing else. Our protocols are targeted for the unbalanced case where the receiver's set size is larger than the sender's set size, with the goal of minimizing the costs for the sender both in terms of communication volume and local computation time. This setting is motivated by applications where the receiver has significantly more data (input set size) and computational resources than the sender which might be realized on a small, low-power device. Asymptotically, we achieve communication cost linear in the sender's (smaller) set size, and computation costs for sender and receiver which are nearly-linear in their respective set sizes. To our knowledge, ours is the first algorithm to achieve nearly-linear communication and computation for PSU in this unbalanced setting. Our protocols utilize fully homomorphic encryption (FHE) and, optionally, linearly homomorphic encryption (LHE) to perform the necessary computations while preserving privacy. The underlying computations are based on univariate polynomial arithmetic realized within homomorphic encryption, namely fast multiplication, modular reduction, and multi-point evaluation. These asymptotically fast HE polynomial arithmetic algorithms may be of independent interest.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 画像圧縮に先立ってセグメンテーションを用いた領域適応変換

Region-Adaptive Transform with Segmentation Prior for Image Compression ( http://arxiv.org/abs/2403.00628v2 )

ライセンス: Link先を確認
Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, Yao Zhao, (参考訳) Learned Image Compression (LIC)は近年顕著な進歩を見せている。 既存の作業では、圧縮の変換方法としてCNNベースのモジュールや自己アテンションベースのモジュールが一般的である。 しかし、特定の領域に焦点を当てたニューラルトランスフォーメーションに関する以前の研究はない。 そこで本研究では,地域適応型文脈情報抽出のための分類非依存セグメンテーションマスク(カテゴリーラベルのないセグメンテーションマスク)を提案する。 提案モジュールであるRerea-Adaptive Transformは,マスクによって導かれる異なる領域に適応的な畳み込みを適用する。 さらに,様々な領域のリッチなコンテキストを組み込むために,Scale Affine Layerというプラグイン・アンド・プレイモジュールを導入する。 セグメンテーションマスクを追加の中間入力として用いた画像圧縮作業は,これまで行われてきたが,本手法とは大きく異なる。 我々の利点は、余分なビットレートオーバーヘッドを避けるために、これらのマスクを特権情報として扱い、モデルトレーニング段階ではアクセス可能であるが、推論フェーズでは不要である。 我々の知る限り、我々は初めて特権情報としてクラス非依存マスクを採用し、Pak Signal to Noise Ratio (PSNR) などの画素忠実度測定において優れた性能を達成した。 実験の結果,VTM-17.0に比べて約8.2%のビットレート保存が可能であった。 ソースコードはhttps://github.com/GityuxiLiu/SegPIC-for-Image-Compressionで公開されている。

Learned Image Compression (LIC) has shown remarkable progress in recent years. Existing works commonly employ CNN-based or self-attention-based modules as transform methods for compression. However, there is no prior research on neural transform that focuses on specific regions. In response, we introduce the class-agnostic segmentation masks (i.e. semantic masks without category labels) for extracting region-adaptive contextual information. Our proposed module, Region-Adaptive Transform, applies adaptive convolutions on different regions guided by the masks. Additionally, we introduce a plug-and-play module named Scale Affine Layer to incorporate rich contexts from various regions. While there have been prior image compression efforts that involve segmentation masks as additional intermediate inputs, our approach differs significantly from them. Our advantages lie in that, to avoid extra bitrate overhead, we treat these masks as privilege information, which is accessible during the model training stage but not required during the inference phase. To the best of our knowledge, we are the first to employ class-agnostic masks as privilege information and achieve superior performance in pixel-fidelity metrics, such as Peak Signal to Noise Ratio (PSNR). The experimental results demonstrate our improvement compared to previously well-performing methods, with about 8.2% bitrate saving compared to VTM-17.0. The source code is available at https://github.com/GityuxiLiu/SegPIC-for-Image-Compression.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# 文章の読み方:著者との短編要約に基づく大規模言語モデルの評価

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers ( http://arxiv.org/abs/2403.01061v2 )

ライセンス: Link先を確認
Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown, (参考訳) 我々は,最近のLarge Language Models (LLMs) について,長文やスクランブルタイムラインを含む短いストーリーを要約する難題について評価する。 重要なことは、著者たちと直接協力して、ストーリーがオンラインに共有されていないこと(従ってモデルによっては見つからない)を確認し、著者自身による判断を用いて要約品質のインフォームド評価を得ることである。 GPT-4, Claude-2.1, LLama-2-70Bの比較を行った。 3つのモデル全てが要約の50%以上で忠実さの誤りを犯し、難解な文の特異性と解釈に苦慮していることがわかった。 また,LLM評価やその他の要約品質指標が,著者による品質評価と相関しないことを示す。

We evaluate recent Large Language Models (LLMs) on the challenging task of summarizing short stories, which can be lengthy, and include nuanced subtext or scrambled timelines. Importantly, we work directly with authors to ensure that the stories have not been shared online (and therefore are unseen by the models), and to obtain informed evaluations of summary quality using judgments from the authors themselves. Through quantitative and qualitative analysis grounded in narrative theory, we compare GPT-4, Claude-2.1, and LLama-2-70B. We find that all three models make faithfulness mistakes in over 50% of summaries and struggle with specificity and interpretation of difficult subtext. We additionally demonstrate that LLM ratings and other automatic metrics for summary quality do not correlate well with the quality ratings from the writers.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# LLMの全ての層は推論時に必要であるとは限らない

Not All Layers of LLMs Are Necessary During Inference ( http://arxiv.org/abs/2403.02181v3 )

ライセンス: Link先を確認
Siqi Fan, Xin Jiang, Xiang Li, Xuying Meng, Peng Han, Shuo Shang, Aixin Sun, Yequan Wang, Zhongyuan Wang, (参考訳) パラメータが多すぎるため、LLM(Large Language Models)の推論フェーズはリソース集約型である。 しかし、LLMに当てはまる全てのリクエストは、同じように扱うのが難しいわけではない。 解析により、LLMは中間層における最終的な出力に匹敵する結果が得られることを示す。 つまり、LLMのすべての層が推論時に必要であるとは限らない。 もしどの層で推論結果が最終結果と一致するかを予測できれば(すべての層の評価によって生成される)、推論コストを著しく削減できる。 そこで本研究では,AdaInferという単純なアルゴリズムを用いて,入力インスタンスの推論処理を適応的に終了する手法を提案する。 AdaInferは簡単に入手可能な統計機能とSVMのような古典的な分類器に依存している。 Llama2シリーズやOPTのような有名なLLMの実験では、AdaInferは平均17.8%のプルーニング比を達成でき、最大43%の感情タスクを達成でき、性能低下はほとんどない(1%)。 AdaInfer は LLM パラメータを変更しないため、AdaInfer に組み込まれた LLM はタスク間の一般化性を維持している。

Due to the large number of parameters, the inference phase of Large Language Models (LLMs) is resource-intensive. However, not all requests posed to LLMs are equally difficult to handle. Through analysis, we show that for some tasks, LLMs can achieve results comparable to the final output at some intermediate layers. That is, not all layers of LLMs are necessary during inference. If we can predict at which layer the inferred results match the final results (produced by evaluating all layers), we could significantly reduce the inference cost. To this end, we propose a simple yet effective algorithm named AdaInfer to adaptively terminate the inference process for an input instance. AdaInfer relies on easily obtainable statistical features and classic classifiers like SVM. Experiments on well-known LLMs like the Llama2 series and OPT, show that AdaInfer can achieve an average of 17.8% pruning ratio, and up to 43% on sentiment tasks, with nearly no performance drop (<1%). Because AdaInfer does not alter LLM parameters, the LLMs incorporated with AdaInfer maintain generalizability across tasks.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# ゼロLED:低光画像強調のためのゼロ参照光推定拡散モデル

Zero-LED: Zero-Reference Lighting Estimation Diffusion Model for Low-Light Image Enhancement ( http://arxiv.org/abs/2403.02879v2 )

ライセンス: Link先を確認
Jinhong He, Minglong Xue, Aoxiang Ning, Chengyun Song, (参考訳) 拡散モデルに基づく低照度画像強調法は、ペア化されたトレーニングデータに大きく依存しているため、広範な応用が限られている。 一方、既存の教師なし手法では、未知の劣化に対して効果的なブリッジ機能がない。 これらの制約に対処するため、Zero-LEDと呼ばれる低照度画像強調のための新しいゼロ参照光推定拡散モデルを提案する。 拡散モデルの安定収束能力を利用して、低照度領域と実常照度領域の間のギャップを埋め、ゼロ参照学習を通じてペアのトレーニングデータへの依存を緩和する。 具体的には,まず,入力画像の前処理を行う初期最適化ネットワークを設計し,複数の目的関数を通じて拡散モデルと初期最適化ネットワークとの間の双方向制約を実装する。 その後、実世界のシーンの劣化要因を反復的に最適化し、効果的な光強調を実現する。 さらに、周波数領域に基づくセマンティックガイド付き外観再構成モジュールを探索し、得られた画像の特徴的アライメントをきめ細かなレベルで促進し、主観的な期待を満足させる。 最後に、より広範な実験により、我々のアプローチが他の最先端手法やより重要な一般化能力に優越していることが示される。 論文の受理後、ソースコードを公開します。

Diffusion model-based low-light image enhancement methods rely heavily on paired training data, leading to limited extensive application. Meanwhile, existing unsupervised methods lack effective bridging capabilities for unknown degradation. To address these limitations, we propose a novel zero-reference lighting estimation diffusion model for low-light image enhancement called Zero-LED. It utilizes the stable convergence ability of diffusion models to bridge the gap between low-light domains and real normal-light domains and successfully alleviates the dependence on pairwise training data via zero-reference learning. Specifically, we first design the initial optimization network to preprocess the input image and implement bidirectional constraints between the diffusion model and the initial optimization network through multiple objective functions. Subsequently, the degradation factors of the real-world scene are optimized iteratively to achieve effective light enhancement. In addition, we explore a frequency-domain based and semantically guided appearance reconstruction module that encourages feature alignment of the recovered image at a fine-grained level and satisfies subjective expectations. Finally, extensive experiments demonstrate the superiority of our approach to other state-of-the-art methods and more significant generalization capabilities. We will open the source code upon acceptance of the paper.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# アトミッククライアントを用いた2段階施設における平衡

Equilibria in Two-Stage Facility Location with Atomic Clients ( http://arxiv.org/abs/2403.03114v2 )

ライセンス: Link先を確認
Simon Krogmann, Pascal Lenzner, Alexander Skopalik, Marc Uetz, Marnix C. Vos, (参考訳) 2種類のクライアントを持つ2段階のマルチエージェントシステムとして,競争力のある施設配置を検討する。 頂点上の重み付きクライアントを持つ所定のホストグラフに対して、最初の施設エージェントは、その施設を開くための頂点を戦略的に選択する。 そして、クライアントは、近隣のオープン施設のどれを戦略的に選択して支援する。 施設はできるだけ多くのクライアントを惹きつけたいと考えているが、クライアントは選択した施設の混雑を最小限に抑えたいと考えている。 最近研究されたこのモデルのすべてのバージョンは、クライアントが戦略的に重みを分割できると仮定している。 分割不能な重みを持つクライアントも検討していますが、戦略は混在しています。 そのため、クライアントは、どの施設をポータライズするかをランダムにすることができる。 自然なクライアントの振る舞いをモデル化するのに加えて、この微妙な変更は、例えば所定の施設配置に対して、質的に異なるクライアント平衡が可能であるような劇的な変化をもたらす。 主な結果として、全てのクライアントウェイトが同一であれば、純粋なサブゲーム完全平衡が常に存在することを示す。 このために我々は、クライアントの階層的な分類と、各ステップにおける洗練されたラウンドリングを利用して、新しいポテンシャル関数論法を用いる。 対照的に、同一でないクライアントに対しては、ほぼ安定な状態の存在を決定することは、計算的に難解であることを示す。 肯定的な面では、もし存在すれば均衡の社会福祉が高くなるというアナーキーの価格に厳格な2ドルを課す。

We consider competitive facility location as a two-stage multi-agent system with two types of clients. For a given host graph with weighted clients on the vertices, first facility agents strategically select vertices for opening their facilities. Then, the clients strategically select which of the opened facilities in their neighborhood to patronize. Facilities want to attract as much client weight as possible, clients want to minimize congestion on the chosen facility. All recently studied versions of this model assume that clients can split their weight strategically. We consider clients with unsplittable weights but allow mixed strategies. So clients may randomize over which facility to patronize. Besides modeling a natural client behavior, this subtle change yields drastic changes, e.g., for a given facility placement, qualitatively different client equilibria are possible. As our main result, we show that pure subgame perfect equilibria always exist if all client weights are identical. For this, we use a novel potential function argument, employing a hierarchical classification of the clients and sophisticated rounding in each step. In contrast, for non-identical clients, we show that deciding the existence of even approximately stable states is computationally intractable. On the positive side, we give a tight bound of $2$ on the price of anarchy which implies high social welfare of equilibria, if they exist.
翻訳日:2024-07-10 23:51:16 公開日:2024-07-09
# AUFormer:視覚変換器はパラメータ効率の良い顔アクションユニット検出器

AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors ( http://arxiv.org/abs/2403.04697v2 )

ライセンス: Link先を確認
Kaishen Yuan, Zitong Yu, Xin Liu, Weicheng Xie, Huanjing Yue, Jingyu Yang, (参考訳) AU(Facial Action Units)は、感情コンピューティングの領域において重要な概念であり、AU検出は常にホットな研究トピックである。 既存の手法は、AUアノテーションの少ないデータセット上で多くの学習可能なパラメータを利用できることや、相当量の関連するデータに大きく依存していることによって、過度に適合する問題に悩まされている。 パラメータ効率変換学習(PETL)はこれらの課題に対処する上で有望なパラダイムを提供する。 そこで本研究では,AUFormerを導入し,新しいMixture-of-Knowledge Expert(MoKE)コラボレーション機構を提案する。 最小限の学習可能なパラメータを持つ特定のAUに固有の個別のMoKEは、まずパーソナライズされたマルチスケールおよび相関知識を統合する。 そして、MoKEは専門家グループ内の他のMoKEと協力して集約された情報を取得し、凍結したビジョントランス(ViT)に注入し、パラメータ効率の良いAU検出を実現する。 さらに,不活性なAUの難易度を識別し,非活性なAUの難易度を識別し,潜在的に誤ラベルされたサンプルを排除し,モデルにアクティベートされたAUにもっと集中するよう促す,Margin-truncated Difficulty-aware Weighted Asymmetric Loss (MDWA-Loss) を設計する。 ドメイン内、クロスドメイン、データ効率、マイクロ圧縮ドメインなど、さまざまな観点からの広範な実験は、AUFormerの最先端性能と堅牢な一般化能力を、追加の関連データに頼ることなく実証している。 AUFormerのコードはhttps://github.com/yuankaishen2001/AUFormerで入手できる。

Facial Action Units (AU) is a vital concept in the realm of affective computing, and AU detection has always been a hot research topic. Existing methods suffer from overfitting issues due to the utilization of a large number of learnable parameters on scarce AU-annotated datasets or heavy reliance on substantial additional relevant data. Parameter-Efficient Transfer Learning (PETL) provides a promising paradigm to address these challenges, whereas its existing methods lack design for AU characteristics. Therefore, we innovatively investigate PETL paradigm to AU detection, introducing AUFormer and proposing a novel Mixture-of-Knowledge Expert (MoKE) collaboration mechanism. An individual MoKE specific to a certain AU with minimal learnable parameters first integrates personalized multi-scale and correlation knowledge. Then the MoKE collaborates with other MoKEs in the expert group to obtain aggregated information and inject it into the frozen Vision Transformer (ViT) to achieve parameter-efficient AU detection. Additionally, we design a Margin-truncated Difficulty-aware Weighted Asymmetric Loss (MDWA-Loss), which can encourage the model to focus more on activated AUs, differentiate the difficulty of unactivated AUs, and discard potential mislabeled samples. Extensive experiments from various perspectives, including within-domain, cross-domain, data efficiency, and micro-expression domain, demonstrate AUFormer's state-of-the-art performance and robust generalization abilities without relying on additional relevant data. The code for AUFormer is available at https://github.com/yuankaishen2001/AUFormer.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# 軽量不確実性推定による逆最適化の克服

Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation ( http://arxiv.org/abs/2403.05171v2 )

ライセンス: Link先を確認
Xiaoying Zhang, Jean-Francois Ton, Wei Shen, Hongning Wang, Yang Liu, (参考訳) 本稿では,大規模言語モデル(LLM)のための強化学習(RLHF)における報酬過剰最適化問題に対する新しい解法であるAdvPOを紹介する。 過度な最適化は、報酬モデルが人間の嗜好の不完全なプロキシとして機能し、RL駆動のポリシー最適化が誤って報酬の不正確さを悪用する場合に発生する。 本稿では,報酬モデルの最終層埋め込みのみに頼って,報酬の不確実性を定量化する軽量な手法を導入することから始める。 AdvPOは、政策改善のための報酬モデルの予測の信頼区間を中心とする分布的に堅牢な最適化問題に対処する。 HHとTL;DRの要約データセットに関する総合的な実験を通じて、過度な最適化問題を緩和するAdvPOの有効性を説明し、その結果、人間による評価により性能が向上することを示した。

We introduce Adversarial Policy Optimization (AdvPO), a novel solution to the pervasive issue of reward over-optimization in Reinforcement Learning from Human Feedback (RLHF) for Large Language Models (LLMs). Over-optimization occurs when a reward model serves as an imperfect proxy for human preference, and RL-driven policy optimization erroneously exploits reward inaccuracies. In this paper, we begin by introducing a lightweight way to quantify uncertainties in rewards, relying solely on the last layer embeddings of the reward model, without the need for computationally expensive reward ensembles. AdvPO then addresses a distributionally robust optimization problem centred around the confidence interval of the reward model's predictions for policy improvement. Through comprehensive experiments on the Anthropic HH and TL;DR summarization datasets, we illustrate the efficacy of AdvPO in mitigating the overoptimization issue, consequently resulting in enhanced performance as evaluated through human-assisted evaluation.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# 大規模言語モデルは人間とロボットの相互作用に対する人々の社会的直感に相応しいか?

Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? ( http://arxiv.org/abs/2403.05701v2 )

ライセンス: Link先を確認
Lennart Wachowiak, Andrew Coles, Oya Celiktutan, Gerard Canal, (参考訳) 大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。 一方、多くのロボティクスアプリケーションは、人間の監督者や協力者を含む。 したがって、LLMは人々の好みや価値観に合わせて社会的に受け入れられる行動を生成することが不可欠である。 本研究では,人間-ロボットインタラクション(HRI)シナリオにおける行動判断やコミュニケーションの嗜好に関する人々の直感をLLMが捉えているかどうかを検証する。 評価のために,3つのHRIユーザスタディを再現し,LLMの出力と実際の参加者の出力を比較した。 その結果, GPT-4 は他のモデルよりも優れており, ユーザの回答と強く相関する回答を2つの研究($\unicode{x2014}$)で生成することがわかった。 しかし、前回の研究では、人間がロボットと人間の行動を異なる方法で判断するかどうかを調べると、強い相関関係は得られない。 さらに,視覚モデルでは映像刺激の本質を捉えることができず,LLMは人よりもコミュニケーション行動や行動の嗜好性を高く評価する傾向があることを示す。

Large language models (LLMs) are increasingly used in robotics, especially for high-level action planning. Meanwhile, many robotics applications involve human supervisors or collaborators. Hence, it is crucial for LLMs to generate socially acceptable actions that align with people's preferences and values. In this work, we test whether LLMs capture people's intuitions about behavior judgments and communication preferences in human-robot interaction (HRI) scenarios. For evaluation, we reproduce three HRI user studies, comparing the output of LLMs with that of real participants. We find that GPT-4 strongly outperforms other models, generating answers that correlate strongly with users' answers in two studies $\unicode{x2014}$ the first study dealing with selecting the most appropriate communicative act for a robot in various situations ($r_s$ = 0.82), and the second with judging the desirability, intentionality, and surprisingness of behavior ($r_s$ = 0.83). However, for the last study, testing whether people judge the behavior of robots and humans differently, no model achieves strong correlations. Moreover, we show that vision models fail to capture the essence of video stimuli and that LLMs tend to rate different communicative acts and behavior desirability higher than people.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# Blind Image Super-Resolutionのための拡散モデルを用いた空間可変カーネル微細化の適応多モード核融合

Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution ( http://arxiv.org/abs/2403.05808v2 )

ライセンス: Link先を確認
Junxiong Lin, Yan Wang, Zeng Tao, Boyang Wang, Qing Zhao, Haorang Wang, Xuan Tong, Xinji Mai, Yuxuan Lin, Wei Song, Jiawen Yu, Shaoqi Yan, Wenqiang Zhang, (参考訳) 画像生成に利用した事前学習拡散モデルは、複雑なテクスチャに関連する事前知識のかなりの蓄積をカプセル化する。 画像超解像の文脈において、これを事前知識として活用する可能性を秘めていると、説得力のある道のりが提示される。 しかし,現在普及している拡散法は拡散過程の劣化情報によって課される制約を無視している。 さらに、これらの手法は、開環境シナリオにおける動きジッタやアウト・オブ・フォーカス要素などの要因から生じる、推定されたぼやけたカーネルに固有の空間的変動を考慮できない。 この監視により、画像の超解像効果は基本的な現実から顕著に逸脱する。 これらの問題に対処するため,Blind Image \textbf{S}uper-\textbf{R}esolution (SSR) のための拡散モデルを用いた適応多モード融合(Adaptive Multi-modal Fusion of \textbf{S}patially Variant Kernel Refinement with Diffusion Model for Blind Image \textbf{S}uper-\textbf{R}esolution) というフレームワークを導入する。 SSRフレームワーク内では,空間可変カーネルリファインメント (SVKR) モジュールを提案する。 SVKRは深度情報を考慮に入れ、空間的に不変である深度インフォームドカーネルを推定する。 さらに、SVKRはLR画像から取得した深度情報の精度を高め、深度マップとぼやけたカーネル推定との相互強化を可能にする。 最後に,アダプティブ・マルチモーダル・フュージョン (AMF) モジュールを導入し,低解像度画像,深度マップ,ぼかしカーネルといった3つのモードからの情報を整列させる。 このアライメントは拡散モデルを制約し、より正確なSR結果を生成する。

Pre-trained diffusion models utilized for image generation encapsulate a substantial reservoir of a priori knowledge pertaining to intricate textures. Harnessing the potential of leveraging this a priori knowledge in the context of image super-resolution presents a compelling avenue. Nonetheless, prevailing diffusion-based methodologies presently overlook the constraints imposed by degradation information on the diffusion process. Furthermore, these methods fail to consider the spatial variability inherent in the estimated blur kernel, stemming from factors such as motion jitter and out-of-focus elements in open-environment scenarios. This oversight results in a notable deviation of the image super-resolution effect from fundamental realities. To address these concerns, we introduce a framework known as Adaptive Multi-modal Fusion of \textbf{S}patially Variant Kernel Refinement with Diffusion Model for Blind Image \textbf{S}uper-\textbf{R}esolution (SSR). Within the SSR framework, we propose a Spatially Variant Kernel Refinement (SVKR) module. SVKR estimates a Depth-Informed Kernel, which takes the depth information into account and is spatially variant. Additionally, SVKR enhance the accuracy of depth information acquired from LR images, allowing for mutual enhancement between the depth map and blur kernel estimates. Finally, we introduce the Adaptive Multi-Modal Fusion (AMF) module to align the information from three modalities: low-resolution images, depth maps, and blur kernels. This alignment can constrain the diffusion model to generate more authentic SR results.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# 生産言語モデルの一部をステアリングする

Stealing Part of a Production Language Model ( http://arxiv.org/abs/2403.06634v2 )

ライセンス: Link先を確認
Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr, (参考訳) 我々は,OpenAIのChatGPTやGoogleのPaLM-2といったブラックボックス生産言語モデルから,正確な非自明な情報を抽出する最初のモデルステーリング攻撃を導入する。 具体的には、典型的なAPIアクセスを前提として、トランスモデルの埋め込みプロジェクション層(対称性まで)を回復する。 20ドル以下では,OpenAI の Ada および Babbage 言語モデル全体のプロジェクション行列を抽出する。 これにより、これらのブラックボックスモデルは、それぞれ1024と2048の隠れ次元を持つことを確認した。 また、gpt-3.5-turboモデルの正確な次元サイズを復元し、プロジェクション行列全体の復元に2000ドル未満のクエリを見積もる。 我々は、潜在的防衛と緩和で締めくくり、我々の攻撃を拡大できる将来の仕事の可能性について論じる。

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under \$20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# Challenging Forgets: マシンアンラーニングにおける最悪のツールセットの展開

Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning ( http://arxiv.org/abs/2403.07362v4 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Alfred Hero, Sijia Liu, (参考訳) 信頼できる機械学習(ML)コミュニティは、トレーニング後のデータポイントを選択的に'アンラーニング'できるモデルの必要性をますます認識している。 これにより、選択したデータポイントがモデルのパフォーマンスに与える影響を排除し、モデルの実用性を維持しながら、機械学習後の問題(MU)が発生する。 データ影響消去のための様々なMU手法にもかかわらず、評価はランダムなデータを忘れることに重点を置いており、未学習のパフォーマンスの真正性を評価するためにどのサブセットを選択するべきかという重要な調査を無視している。 この問題に対処するために,対立的な視点からMUの新たな評価アングルを導入する。 我々は、影響消去の最も重要な課題である、つまり最悪のケースの忘れセットをピンポイントするデータサブセットを特定することを提案する。 両レベル最適化の原則を用いることで、最悪ケースシナリオをエミュレートする上で、上位最適化レベルの未学習課題を増幅すると同時に、標準トレーニングとアンラーニングを低レベルのレベルで同時に実施し、データ影響の消去とモデルユーティリティのバランスを達成する。 本提案では,MUの弾力性と有効性を最悪のケースで評価する。 さまざまなデータセット(CIFAR-10、100、CelebA、Tiny ImageNet、ImageNetなど)とモデル(画像分類器と生成モデルの両方を含む)にわたる広範な実験を通じて、既存の(近似的な)未学習戦略におけるクリティカルな長所と短所を明らかにする。 本研究は,MUの複雑な課題を解明し,より正確で堅牢な未学習アルゴリズムの開発を導くものである。 コードはhttps://github.com/OPTML-Group/Unlearn-WorstCaseで入手できる。

The trustworthy machine learning (ML) community is increasingly recognizing the crucial need for models capable of selectively 'unlearning' data points after training. This leads to the problem of machine unlearning (MU), aiming to eliminate the influence of chosen data points on model performance, while still maintaining the model's utility post-unlearning. Despite various MU methods for data influence erasure, evaluations have largely focused on random data forgetting, ignoring the vital inquiry into which subset should be chosen to truly gauge the authenticity of unlearning performance. To tackle this issue, we introduce a new evaluative angle for MU from an adversarial viewpoint. We propose identifying the data subset that presents the most significant challenge for influence erasure, i.e., pinpointing the worst-case forget set. Utilizing a bi-level optimization principle, we amplify unlearning challenges at the upper optimization level to emulate worst-case scenarios, while simultaneously engaging in standard training and unlearning at the lower level, achieving a balance between data influence erasure and model utility. Our proposal offers a worst-case evaluation of MU's resilience and effectiveness. Through extensive experiments across different datasets (including CIFAR-10, 100, CelebA, Tiny ImageNet, and ImageNet) and models (including both image classifiers and generative models), we expose critical pros and cons in existing (approximate) unlearning strategies. Our results illuminate the complex challenges of MU in practice, guiding the future development of more accurate and robust unlearning algorithms. The code is available at https://github.com/OPTML-Group/Unlearn-WorstCase.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# MicroT:MCUの低エネルギー・適応モデル

MicroT: Low-Energy and Adaptive Models for MCUs ( http://arxiv.org/abs/2403.08040v2 )

ライセンス: Link先を確認
Yushan Huang, Ranya Aloufi, Xavier Cadet, Yuchen Zhao, Payam Barnaghi, Hamed Haddadi, (参考訳) 資源制約型MCUのための低エネルギーマルチタスク適応モデルフレームワークであるMicroTを提案する。 元のモデルを特徴抽出器と分類器に分割する。 この特徴抽出器は, 自己指導型知識蒸留により得られ, さらに, モデル分割とジョイントトレーニングにより, 部分モデルと完全モデルに最適化される。 これらのモデルは MCU 上に展開され、局所的なタスクに分類器を追加して訓練し、最終的には共同推論の段階決定を行う。 このプロセスでは、パートモデルはまずサンプルを処理し、信頼スコアが設定された閾値を下回ると、完全なモデルが再開され、推論が継続される。 我々はMicroTを2つのモデル、3つのデータセット、2つのMCUボードで評価した。 実験により、MicroTはモデル性能を効果的に向上し、複数のローカルタスクを扱う際のエネルギー消費量を削減できることが示された。 最適化されていない特徴抽出器と比較して、MicroTは最大9.87%精度を向上させることができる。 MCUでは、標準のフルモデル推論と比較して、MicroTはエネルギー消費の29.13%を節約できる。 MicroTでは、必要に応じてステージ決定比率を適応的に調整し、モデルパフォーマンスとエネルギー消費のバランスを改善することもできる。 標準段差比構成では、MicroTは精度を5.91%向上させ、エネルギー消費量の約14.47%を節約できる。

We propose MicroT, a low-energy, multi-task adaptive model framework for resource-constrained MCUs. We divide the original model into a feature extractor and a classifier. The feature extractor is obtained through self-supervised knowledge distillation and further optimized into part and full models through model splitting and joint training. These models are then deployed on MCUs, with classifiers added and trained on local tasks, ultimately performing stage-decision for joint inference. In this process, the part model initially processes the sample, and if the confidence score falls below the set threshold, the full model will resume and continue the inference. We evaluate MicroT on two models, three datasets, and two MCU boards. Our experimental evaluation shows that MicroT effectively improves model performance and reduces energy consumption when dealing with multiple local tasks. Compared to the unoptimized feature extractor, MicroT can improve accuracy by up to 9.87%. On MCUs, compared to the standard full model inference, MicroT can save up to about 29.13% in energy consumption. MicroT also allows users to adaptively adjust the stage-decision ratio as needed, better balancing model performance and energy consumption. Under the standard stage-decision ratio configuration, MicroT can increase accuracy by 5.91% and save about 14.47% of energy consumption.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# 状態認識型患者シミュレータを用いた大規模言語モデルの対話的自動評価

Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator ( http://arxiv.org/abs/2403.08495v3 )

ライセンス: Link先を確認
Yusheng Liao, Yutong Meng, Yuhao Wang, Hongcheng Liu, Yanfeng Wang, Yu Wang, (参考訳) 大規模言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示しているが、医療分野におけるそれらの応用はいまだ不十分である。 これまでの研究は主に、現実的なシナリオとは程遠い検査による医学的知識のパフォーマンスに焦点を当てており、臨床上のLCMの能力を評価するのに不足している。 医療におけるLarge Language Models(LLMs)の適用性を高めるために,従来のLSM評価と臨床実践の曖昧な要求とのギャップをターゲットとした,AIE(Automated Interactive Evaluation)フレームワークとSAPS(State-Aware patient Simulator)を導入する。 静的な医療知識評価に依存する従来の方法とは異なり、AIEとSAPSは多ターンの医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。 このアプローチは、実際の臨床シナリオに密接な近似を提供し、複雑な患者の相互作用に応答して、LCMの挙動を詳細に分析することを可能にする。 我々は,AIEフレームワークの有効性を実証し,ヒトの評価と良好に一致し,医療用LLM検査に革命をもたらす可能性を示した。

Large Language Models (LLMs) have demonstrated remarkable proficiency in human interactions, yet their application within the medical field remains insufficiently explored. Previous works mainly focus on the performance of medical knowledge with examinations, which is far from the realistic scenarios, falling short in assessing the abilities of LLMs on clinical tasks. In the quest to enhance the application of Large Language Models (LLMs) in healthcare, this paper introduces the Automated Interactive Evaluation (AIE) framework and the State-Aware Patient Simulator (SAPS), targeting the gap between traditional LLM evaluations and the nuanced demands of clinical practice. Unlike prior methods that rely on static medical knowledge assessments, AIE and SAPS provide a dynamic, realistic platform for assessing LLMs through multi-turn doctor-patient simulations. This approach offers a closer approximation to real clinical scenarios and allows for a detailed analysis of LLM behaviors in response to complex patient interactions. Our extensive experimental validation demonstrates the effectiveness of the AIE framework, with outcomes that align well with human evaluations, underscoring its potential to revolutionize medical LLM testing for improved healthcare delivery.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# ガウス画像:1000 FPS画像表現と2次元ガウススプラッティングによる圧縮

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting ( http://arxiv.org/abs/2403.08551v5 )

ライセンス: Link先を確認
Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang, (参考訳) Inlicit Neural representations (INR)は画像表現と圧縮で大成功を収め、十分なGPUリソースが利用できると仮定して、10-1000 FPSで高画質で高速なレンダリング速度を提供する。 しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。 そこで本研究では,ガウス画像と2次元ガウス画像による画像表現と圧縮の画期的なパラダイムを提案する。 まず、画像を表すために2D Gaussianを導入し、各 Gaussian は位置、共分散、色を含む8つのパラメータを持つ。 その後、累積和に基づく新しいレンダリングアルゴリズムを公表する。 注目すべきは、最低3$\times$GPUメモリ使用量と5$\times$高速適合時間を持つ手法は、表現性能においてINRs(例えば、WIRE、I-NGP)と競合するだけでなく、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を提供する。 さらに,既存のベクトル量子化手法を統合して画像コーデックを構築する。 実験の結果,コーデックはCOINやCOIN++などの圧縮ベースのINRに匹敵する速度歪み性能を示し,約2000FPSの復号速度を実現している。 さらに、予備的な概念実証では、コーデックが部分ビットバック符号を使用する場合、COINとCOIN++を上回る性能を示している。 コードはhttps://github.com/Xinjie-Q/GaussianImageから入手できる。

Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 2000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding. Code is available at https://github.com/Xinjie-Q/GaussianImage.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# 医学的異常検出のためのオートエンコーダの再考 : 理論的視点から

Rethinking Autoencoders for Medical Anomaly Detection from A Theoretical Perspective ( http://arxiv.org/abs/2403.09303v3 )

ライセンス: Link先を確認
Yu Cai, Hao Chen, Kwang-Ting Cheng, (参考訳) 医学的異常検出は、正常なトレーニングデータのみを用いて異常な発見を識別することを目的としており、健康診断やまれな疾患の認識において重要な役割を担っている。 再構成に基づく手法、特にオートエンコーダ(AE)を利用する手法がこの分野で優位である。 彼らは、通常のデータのみに基づいて訓練されたAEが、見えない異常な領域をうまく再構築できないという仮定の下で作業し、再構成エラーに基づく異常検出を可能にする。 しかし, この仮定は, 再建訓練目標と異常検出タスク目標とのミスマッチのため, 理論上は不正確である。 本研究は, 異常検出におけるAEを用いた再構成手法の理論的基礎を提供することに焦点をあてる。 情報理論を活用することにより,これらの手法の原理を解明し,異常検出におけるAE改善の鍵は潜伏ベクトルの情報エントロピーの最小化にあることを示す。 2つの画像モダリティを持つ4つのデータセットの実験により、我々の理論の有効性が検証された。 我々の知る限りでは、これは異常検出のためのAEの原理と設計哲学を理論的に解明する最初の試みである。 コードは \url{https://github.com/caiyu6666/AE4AD} で公開されている。

Medical anomaly detection aims to identify abnormal findings using only normal training data, playing a crucial role in health screening and recognizing rare diseases. Reconstruction-based methods, particularly those utilizing autoencoders (AEs), are dominant in this field. They work under the assumption that AEs trained on only normal data cannot reconstruct unseen abnormal regions well, thereby enabling the anomaly detection based on reconstruction errors. However, this assumption does not always hold due to the mismatch between the reconstruction training objective and the anomaly detection task objective, rendering these methods theoretically unsound. This study focuses on providing a theoretical foundation for AE-based reconstruction methods in anomaly detection. By leveraging information theory, we elucidate the principles of these methods and reveal that the key to improving AE in anomaly detection lies in minimizing the information entropy of latent vectors. Experiments on four datasets with two image modalities validate the effectiveness of our theory. To the best of our knowledge, this is the first effort to theoretically clarify the principles and design philosophy of AE for anomaly detection. The code is available at \url{https://github.com/caiyu6666/AE4AD}.
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# Prompt-Singer:自然言語による制御可能なSing-Voice-Synthesis

Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt ( http://arxiv.org/abs/2403.11780v2 )

ライセンス: Link先を確認
Yongqi Wang, Ruofan Hu, Rongjie Huang, Zhiqing Hong, Ruiqi Li, Wenrui Liu, Fuming You, Tao Jin, Zhou Zhao, (参考訳) 近年の歌声合成法(SVS)は,声質や自然性に優れるが,歌声のスタイル特性を明示的に制御する能力は乏しい。 本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。 マルチスケール階層を持つデコーダのみのトランスフォーマーに基づくモデルアーキテクチャを採用し、メロディ的精度を維持しつつテキスト条件付き声域制御が可能なレンジメロディデカップリングピッチ表現を設計する。 さらに,テキスト表現の種類,テキストエンコーダの微調整,データ不足を軽減するための音声データの導入など,さまざまな実験環境についても検討する。 実験により,本モデルは良好な制御能力と音質が得られることが示された。 オーディオサンプルはhttp://prompt-singer.github.io で公開されている。

Recent singing-voice-synthesis (SVS) methods have achieved remarkable audio quality and naturalness, yet they lack the capability to control the style attributes of the synthesized singing explicitly. We propose Prompt-Singer, the first SVS method that enables attribute controlling on singer gender, vocal range and volume with natural language. We adopt a model architecture based on a decoder-only transformer with a multi-scale hierarchy, and design a range-melody decoupled pitch representation that enables text-conditioned vocal range control while keeping melodic accuracy. Furthermore, we explore various experiment settings, including different types of text representations, text encoder fine-tuning, and introducing speech data to alleviate data scarcity, aiming to facilitate further research. Experiments show that our model achieves favorable controlling ability and audio quality. Audio samples are available at http://prompt-singer.github.io .
翻訳日:2024-07-10 23:41:10 公開日:2024-07-09
# 強相互干渉型超伝導回路格子におけるサイト分解電流の探索

Probing Site-Resolved Current in Strongly Interacting Superconducting Circuit Lattices ( http://arxiv.org/abs/2403.11967v2 )

ライセンス: Link先を確認
Botao Du, Ramya Suresh, Santiago López, Jeremy Cadiente, Ruichao Ma, (参考訳) 輸送測定は、超伝導から分数量子ホール効果まで、凝縮物質現象を理解するための基礎となる。 対照的に、これらは量子シミュレーターで合成量子物質を探索するための強力なツールである。 ここでは超伝導回路格子内のその場粒子電流の測定を実演し、コヒーレントおよびバス結合格子の輸送の研究に応用する。 本手法は,2重井戸電位による制御トンネル法を用いて,電流をオンサイト密度にマッピングし,サイト解決電流と電流統計を明らかにする。 格子充填の異なるBose-Hubbard格子を強く相互作用させ、多体状態が超流動からモット絶縁体へ遷移するにつれて現在の統計の変化を観察する。 さらに、格子を調整可能な粒子源および排水源として機能する工学的駆動散逸浴に結合させることにより、非平衡電流力学を考察する。 離散導電路および相互作用支援輸送路における定常電流を観測する。 これらの結果は超伝導回路における微視的量子輸送を研究するための多用途プラットフォームを確立する。

Transport measurements are fundamental for understanding condensed matter phenomena, from superconductivity to the fractional quantum Hall effect. Analogously, they can be powerful tools for probing synthetic quantum matter in quantum simulators. Here we demonstrate the measurement of in-situ particle current in a superconducting circuit lattice and apply it to study transport in both coherent and bath-coupled lattices. Our method utilizes controlled tunneling in a double-well potential to map current to on-site density, revealing site-resolved current and current statistics. We prepare a strongly interacting Bose-Hubbard lattice at different lattice fillings, and observe the change in current statistics as the many-body states transition from superfluid to Mott insulator. Furthermore, we explore non-equilibrium current dynamics by coupling the lattice to engineered driven-dissipative baths that serve as tunable particle source and drain. We observe steady-state current in discrete conduction channels and interaction-assisted transport. These results establish a versatile platform to investigate microscopic quantum transport in superconducting circuits.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 3次元解剖学的セグメンテーションにおけるスライス伝播不確かさの推定と解析

Estimation and Analysis of Slice Propagation Uncertainty in 3D Anatomy Segmentation ( http://arxiv.org/abs/2403.12290v2 )

ライセンス: Link先を確認
Rachaell Nihalaani, Tushar Kataria, Jadie Adams, Shireen Y. Elhabian, (参考訳) 3次元解剖学的セグメンテーションの監視手法は優れた性能を示すが、アノテートされたデータの可用性によって制限されることが多い。 この制限により、利用可能な無注釈データの豊富さと相まって、自己監督的なアプローチへの関心が高まっている。 スライス伝播は、スライス登録を自己監督タスクとして活用し、最小限の監督で完全な解剖学的セグメンテーションを実現する自己監督的アプローチとして登場した。 このアプローチによって、ドメインの専門知識、時間、およびセグメンテーションネットワークのトレーニングに必要な完全なアノテーション付きデータセット構築に伴うコストが大幅に削減される。 しかし、この決定論的ネットワークによる監視の削減へのシフトは、特により正確な教師付きアプローチと比較して、予測の信頼性と信頼性に関する懸念を提起する。 この問題に対処するため,キャリブレーションされた不確実性定量化(UQ)をスライス伝播法に統合し,モデルの予測信頼性と信頼性レベルについて考察する。 不確実性対策を取り入れることで、自己管理アプローチに対するユーザの信頼感を高め、実用的な適用性を向上させる。 5つのUQ法を用いて3次元腹部分割のための3つのデータセットについて実験を行った。 その結果,UQの導入はモデルの信頼性だけでなくセグメンテーションの精度も向上することがわかった。 さらに, エンドユーザーにはすぐには明らかでないかもしれないスライス伝播手法の様々な障害モードを明らかにした。 本研究は,スライス伝播法の精度と信頼性を向上させるため,新しい研究手法を開拓する。

Supervised methods for 3D anatomy segmentation demonstrate superior performance but are often limited by the availability of annotated data. This limitation has led to a growing interest in self-supervised approaches in tandem with the abundance of available un-annotated data. Slice propagation has emerged as an self-supervised approach that leverages slice registration as a self-supervised task to achieve full anatomy segmentation with minimal supervision. This approach significantly reduces the need for domain expertise, time, and the cost associated with building fully annotated datasets required for training segmentation networks. However, this shift toward reduced supervision via deterministic networks raises concerns about the trustworthiness and reliability of predictions, especially when compared with more accurate supervised approaches. To address this concern, we propose the integration of calibrated uncertainty quantification (UQ) into slice propagation methods, providing insights into the model's predictive reliability and confidence levels. Incorporating uncertainty measures enhances user confidence in self-supervised approaches, thereby improving their practical applicability. We conducted experiments on three datasets for 3D abdominal segmentation using five UQ methods. The results illustrate that incorporating UQ improves not only model trustworthiness, but also segmentation accuracy. Furthermore, our analysis reveals various failure modes of slice propagation methods that might not be immediately apparent to end-users. This study opens up new research avenues to improve the accuracy and trustworthiness of slice propagation methods.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# スパイダースタイル戦略発見とスケジュール構築における規則化

Regularization in Spider-Style Strategy Discovery and Schedule Construction ( http://arxiv.org/abs/2403.12869v2 )

ライセンス: Link先を確認
Filip Bártek, Karel Chvalovský, Martin Suda, (参考訳) 最高の性能を達成するために、自動定理証明者は、与えられた問題に対して(順次または平行に)試すべき様々な証明戦略のスケジュールに依存することが多い。 本稿では,アンドレイ・ヴォロンコフのシステムスパイダーのアイデアに基づいて,TPTPライブラリのFOFフラグメントをターゲットとした,ヴァンパイア証明のための戦略を発見するための大規模な実験について報告する。 様々な角度からプロセスを調べ、CASCコンペティションの強いヴァンパイアスケジュールを得る難しさ(あるいは容易さ)を議論し、スケジュールがいかにして未確認問題に一般化され、どのような要因がこの特性に影響を及ぼすかを明らかにする。

To achieve the best performance, automatic theorem provers often rely on schedules of diverse proving strategies to be tried out (either sequentially or in parallel) on a given problem. In this paper, we report on a large-scale experiment with discovering strategies for the Vampire prover, targeting the FOF fragment of the TPTP library and constructing a schedule for it, based on the ideas of Andrei Voronkov's system Spider. We examine the process from various angles, discuss the difficulty (or ease) of obtaining a strong Vampire schedule for the CASC competition, and establish how well a schedule can be expected to generalize to unseen problems and what factors influence this property.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# HuLP: 予後のための人間--the-Loop

HuLP: Human-in-the-Loop for Prognosis ( http://arxiv.org/abs/2403.13078v2 )

ライセンス: Link先を確認
Muhammad Ridzuan, Mai Kassem, Numan Saeed, Ikboljon Sobirov, Mohammad Yaqub, (参考訳) 本稿では,Human-in-the-Loop for Prognosis(Human-in-the-Loop for Prognosis)モデルについて紹介する。 HuLPは、人間の専門家による介入を可能にする革新的なアプローチを提供し、臨床医がモデルの予測と対話し、修正できるようにし、より正確な予後を生み出すために人間とAIモデルの協力を促進する。 加えて、HuLPは、ニューラルネットワークを活用し、欠落したデータを効果的に処理する調整済みの方法論を提供することによって、欠落するデータの課題に対処する。 従来の方法では、患者集団内のニュアンスな変化を捉えるのに苦労することが多く、予後予測の妥協につながった。 HuLPは、イメージング機能に基づいた共変体を欠いていることを示唆し、クリニックワークフローとより緊密に連携し、信頼性を高める。 我々は,HuLPの優位性と競争性を示すために,実世界の2つの公開医療データセットを用いて実験を行った。

This paper introduces HuLP, a Human-in-the-Loop for Prognosis model designed to enhance the reliability and interpretability of prognostic models in clinical contexts, especially when faced with the complexities of missing covariates and outcomes. HuLP offers an innovative approach that enables human expert intervention, empowering clinicians to interact with and correct models' predictions, thus fostering collaboration between humans and AI models to produce more accurate prognosis. Additionally, HuLP addresses the challenges of missing data by utilizing neural networks and providing a tailored methodology that effectively handles missing data. Traditional methods often struggle to capture the nuanced variations within patient populations, leading to compromised prognostic predictions. HuLP imputes missing covariates based on imaging features, aligning more closely with clinician workflows and enhancing reliability. We conduct our experiments on two real-world, publicly available medical datasets to demonstrate the superiority and competitiveness of HuLP.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# ハイブリッドLLMワークフローは,任意のサイズのプログラムにおけるユーザ権限関連変数の識別を支援する

A hybrid LLM workflow can help identify user privilege related variables in programs of any size ( http://arxiv.org/abs/2403.15723v2 )

ライセンス: Link先を確認
Haizhou Wang, Zhilong Wang, Peng Liu, (参考訳) 多くのプログラムは、組織のセキュリティに不可欠な、ユーザー特権を操作する操作とロジックを含んでいる。 そのため、攻撃者の悪質な目標の1つは特権の取得またはエスカレーションであり、特権の漏洩を引き起こす。 プログラムと組織を特権漏洩攻撃から保護するためには、そのような攻撃を達成するために利用される脆弱性を取り除くことが重要である。 残念なことに、メモリの脆弱性は見つけにくいが、ロジックの脆弱性はより差し迫ったものであり、有害で識別が難しい。 したがって、多くのアナリストは、まずユーザ権限関連変数(UPR)をスタートポイントとして見つけ、UPR変数が脆弱性、特にロジック変数が存在するかどうかを調べるコードを調べる。 本稿では,大規模言語モデル(LLM)ワークフローを導入し,そのようなUPR変数の同定を支援する。 具体的には、プログラム内のすべての変数を監査し、変数とユーザ特権の関係度(クローズネス)であるUPRスコアを各変数に対して出力する。 提案手法は,非常に長いコードスニペットをLLMに供給するのではなく,ステートメントレベルでLLMを活用することに集中することにより,LLMに直接UPR変数を見つけるように促すことによって導入された欠点を回避する。 高いUPRスコアを持つ変数は、基本的に潜在的UPR変数であり、手動で調べるべきである。 実験の結果,典型的なUPRスコア閾値(UPRスコア>0.8)を用いて,偽陽性率(FPR)は13.49%であり,UPR変数はヒューリスティック法よりも有意に高いことがわかった。

Many programs involves operations and logic manipulating user privileges, which is essential for the security of an organization. Therefore, one common malicious goal of attackers is to obtain or escalate the privileges, causing privilege leakage. To protect the program and the organization against privilege leakage attacks, it is important to eliminate the vulnerabilities which can be exploited to achieve such attacks. Unfortunately, while memory vulnerabilities are less challenging to find, logic vulnerabilities are much more imminent, harmful and difficult to identify. Accordingly, many analysts choose to find user privilege related (UPR) variables first as start points to investigate the code where the UPR variables may be used to see if there exists any vulnerabilities, especially the logic ones. In this paper, we introduce a large language model (LLM) workflow that can assist analysts in identifying such UPR variables, which is considered to be a very time-consuming task. Specifically, our tool will audit all the variables in a program and output a UPR score, which is the degree of relationship (closeness) between the variable and user privileges, for each variable. The proposed approach avoids the drawbacks introduced by directly prompting a LLM to find UPR variables by focusing on leverage the LLM at statement level instead of supplying LLM with very long code snippets. Those variables with high UPR scores are essentially potential UPR variables, which should be manually investigated. Our experiments show that using a typical UPR score threshold (i.e., UPR score >0.8), the false positive rate (FPR) is only 13.49%, while UPR variable found is significantly more than that of the heuristic based method.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# ChatTracer:大規模言語モデルによるリアルタイムBluetoothデバイス追跡システム

ChatTracer: Large Language Model Powered Real-time Bluetooth Device Tracking System ( http://arxiv.org/abs/2403.19833v2 )

ライセンス: Link先を確認
Qijun Wang, Shichen Zhang, Kunzhe Song, Huacheng Zeng, (参考訳) 大規模言語モデル(LLM)は、私たちがサイバー技術と対話する方法を変えました。 本稿では,LLMを無線センサネットワーク(WSN)に接続する可能性について検討する。 成功した設計は、LLMの知識の景観を物理世界へと拡張するだけでなく、WSNとの人間のインタラクションにも革命をもたらすだろう。 最後に,LLMを利用したリアルタイムBluetoothデバイストラッキングシステムChatTracerを紹介する。 ChatTracerは、Bluetoothスニッフィングノードの配列、データベース、微調整LDMの3つのキーコンポーネントから構成される。 ChatTracerは、Apple/Androidの商用デバイスがアイドル状態でも毎分数百のBLEパケットをブロードキャストする、という実験結果に基づいて設計されました。 その斬新さは2つの側面がある。 一 信頼性及び効率のよいBLEパケットグループ化アルゴリズム 二 教師付き微調整(SFT)と強化学習と人間のフィードバック(RLHF)を併用したLLM微調整戦略。 4つのスニッフィングノードを持つChatTracerのプロトタイプを開発しました。 実験の結果,ChatTracerは既存のローカライゼーションアプローチを上回るだけでなく,ユーザインタラクションのためのインテリジェントインターフェースも提供することがわかった。

Large language models (LLMs) have transformed the way we interact with cyber technologies. In this paper, we study the possibility of connecting LLM with wireless sensor networks (WSN). A successful design will not only extend LLM's knowledge landscape to the physical world but also revolutionize human interaction with WSN. To the end, we present ChatTracer, an LLM-powered real-time Bluetooth device tracking system. ChatTracer comprises three key components: an array of Bluetooth sniffing nodes, a database, and a fine-tuned LLM. ChatTracer was designed based on our experimental observation that commercial Apple/Android devices always broadcast hundreds of BLE packets per minute even in their idle status. Its novelties lie in two aspects: i) a reliable and efficient BLE packet grouping algorithm; and ii) an LLM fine-tuning strategy that combines both supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF). We have built a prototype of ChatTracer with four sniffing nodes. Experimental results show that ChatTracer not only outperforms existing localization approaches, but also provides an intelligent interface for user interaction.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 部分解による潜在的説明パターンのマイニング

Mining Potentially Explanatory Patterns via Partial Solutions ( http://arxiv.org/abs/2404.04388v2 )

ライセンス: Link先を確認
GianCarlo Catalano, Alexander E. I. Brownlee, David Cairns, John McCall, Russell Ainslie, (参考訳) 遺伝的アルゴリズムは多くの複雑な最適化問題を解く能力を確立した。 優れたソリューションが生み出されても、ユーザによる問題に対する理解は必ずしも改善されないため、結果に対する信頼性の欠如につながる可能性がある。 この問題を緩和するために、説明容易性は、アルゴリズムによって得られた知識をユーザに提供することで、ユーザに洞察を提供することを目的としている。 本稿では,組合せ最適化問題に対する解法の説明可能性を改善するために,部分解を提案する。 部分解は、集団を分析することによって得られる有益な特徴を表し、説明可能性のためにユーザに提示されるだけでなく、新しいソリューションを生成するための明示的なモデルも提供する。 本稿では,高適合性,単純性,原子性のバランスをとるために選択された部分解の集合を組み立てるアルゴリズムを提案する。 標準ベンチマークによる実験の結果,提案アルゴリズムは,探索性能に影響を与えることなく,合理的な計算コストで説明可能性を向上させる部分解を見つけることができることがわかった。

Genetic Algorithms have established their capability for solving many complex optimization problems. Even as good solutions are produced, the user's understanding of a problem is not necessarily improved, which can lead to a lack of confidence in the results. To mitigate this issue, explainability aims to give insight to the user by presenting them with the knowledge obtained by the algorithm. In this paper we introduce Partial Solutions in order to improve the explainability of solutions to combinatorial optimization problems. Partial Solutions represent beneficial traits found by analyzing a population, and are presented to the user for explainability, but also provide an explicit model from which new solutions can be generated. We present an algorithm that assembles a collection of Partial Solutions chosen to strike a balance between high fitness, simplicity and atomicity. Experiments with standard benchmarks show that the proposed algorithm is able to find Partial Solutions which improve explainability at reasonable computational cost without affecting search performance.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 品質制約付き遅延確率推定器を用いたポイントクラウド幾何スケーラブル符号化

Point Cloud Geometry Scalable Coding with a Quality-Conditioned Latents Probability Estimator ( http://arxiv.org/abs/2404.07698v2 )

ライセンス: Link先を確認
Daniele Mari, André F. R. Guarda, Nuno M. M. Rodrigues, Simone Milani, Fernando Pereira, (参考訳) 没入型視覚アプリケーションにおけるポイントクラウド(PC)の普及により、特にネットワーク、ハードウェア、ディスプレイ機能において、非常に異質な受信条件とデバイスが利用されるようになった。 このシナリオでは、品質のスケーラビリティ、すなわち、単一のビットストリームを段階的に復号化することで、異なる品質で信号を再構築する能力は、特に学習ベースのPCコーディングソリューションにおいて、まだ便利に対処されていない主要な要件である。 本稿では,品質条件付き遅延確率推定器(QuLPE)を用いて,PC学習ベース層に基づく高品質な表現をデコードする,学習ベースの静的点クラウド幾何コーデックに適応可能な,スケーラブル品質ハイププライア(SQH)という品質拡張性スキームを提案する。 SQHは将来のJPEG PCコーディング標準に統合されており、品質と忠実度を向上してPCの幾何学を段階的に復号するために使用できる階層化されたビットストリームを作成することができる。 実験により、SQHは、対応する非スケーリング可能なソリューションと比較して、圧縮性能のペナルティが極端に制限されているか、全くない品質のスケーラビリティ機能を提供しており、他の最先端のPCコーデックよりも大きな圧縮ゲインを保っていることが示された。

The widespread usage of point clouds (PC) for immersive visual applications has resulted in the use of very heterogeneous receiving conditions and devices, notably in terms of network, hardware, and display capabilities. In this scenario, quality scalability, i.e., the ability to reconstruct a signal at different qualities by progressively decoding a single bitstream, is a major requirement that has yet to be conveniently addressed, notably in most learning-based PC coding solutions. This paper proposes a quality scalability scheme, named Scalable Quality Hyperprior (SQH), adaptable to learning-based static point cloud geometry codecs, which uses a Quality-conditioned Latents Probability Estimator (QuLPE) to decode a high-quality version of a PC learning-based representation, based on an available lower quality base layer. SQH is integrated in the future JPEG PC coding standard, allowing to create a layered bitstream that can be used to progressively decode the PC geometry with increasing quality and fidelity. Experimental results show that SQH offers the quality scalability feature with very limited or no compression performance penalty at all when compared with the corresponding non-scalable solution, thus preserving the significant compression gains over other state-of-the-art PC codecs.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 移動変圧器を用いた軌道予測の伝達学習

Transfer Learning Study of Motion Transformer-based Trajectory Predictions ( http://arxiv.org/abs/2404.08271v2 )

ライセンス: Link先を確認
Lars Ullrich, Alex McMaster, Knut Graichen, (参考訳) 自動運転における軌道計画は、他の道路利用者の緊急行動を予測することに大きく依存している。 学習ベースの手法は現在、シミュレーションベースの課題において印象的な成果を上げており、トランスフォーマーベースのアーキテクチャが技術的に先導している。 しかし、究極的には、現実の世界では予測が必要である。 シミュレーションから現実へのシフトに加えて、センサーシステム、融合および認識アルゴリズム、交通規則や法則の違いなど、車種や国種による多くのシフトが議題となっている。 すべてのシステム設定と設計ドメインを一度にカバーできるモデルは、まだ予測できないため、モデル適応は中心的な役割を果たす。 そこで,トランスフォーマーモデルに基づくトランスファーラーニング手法のシミュレーションに基づく研究を行った。 さらに,本研究は,実世界への効果的な転送を支援するために,計算時間と性能のトレードオフの可能性に関する洞察を提供することを目的としている。

Trajectory planning in autonomous driving is highly dependent on predicting the emergent behavior of other road users. Learning-based methods are currently showing impressive results in simulation-based challenges, with transformer-based architectures technologically leading the way. Ultimately, however, predictions are needed in the real world. In addition to the shifts from simulation to the real world, many vehicle- and country-specific shifts, i.e. differences in sensor systems, fusion and perception algorithms as well as traffic rules and laws, are on the agenda. Since models that can cover all system setups and design domains at once are not yet foreseeable, model adaptation plays a central role. Therefore, a simulation-based study on transfer learning techniques is conducted on basis of a transformer-based model. Furthermore, the study aims to provide insights into possible trade-offs between computational time and performance to support effective transfers into the real world.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 自動検索結果検証と再ランク付けによるモバイル「ハウツー」クエリの強化

Enhancing Mobile "How-to" Queries with Automated Search Results Verification and Reranking ( http://arxiv.org/abs/2404.08860v3 )

ライセンス: Link先を確認
Lei Ding, Jeshwanth Bheemanpally, Yi Zhang, (参考訳) 多くの人が、コンピュータやモバイルデバイスの問題を解決するために、オンラインガイダンスを見つけるために検索エンジンを使用しています。 ユーザは検索結果から効果的なソリューションを識別する上で、しばしば課題に遭遇する。 本稿では,オンライン技術支援検索の精度と妥当性を,自動検索結果検証と再評価により向上させる新しい手法を提案する。 オンデバイス実行に特有の「ハウツー」クエリを出発点として、我々は、AIエージェントが、制御されたAndroid環境で検索結果のステップバイステップ命令を解釈し実行できるようにするための、最初のソリューションを開発した。 さらに,テスト手法の成功指標に基づいて検索結果を順序付けする機構に,エージェントの知見を組み込んだ。 本論文では,様々なアプリケーション領域にわたる一連のテストを通じて,ソリューションのアーキテクチャとシステム全体の評価について詳述する。 その結果,上位結果の品質と信頼性は著しく向上した。 我々の研究結果は、オンライン技術支援のための検索エンジンランキングの最適化にパラダイムシフトがあることを示唆し、効果的で信頼性の高いオンライン支援を見つけるという、広く普及している課題に対して、スケーラブルで自動化されたソリューションを提供する。

Many people use search engines to find online guidance to solve computer or mobile device problems. Users frequently encounter challenges in identifying effective solutions from search results, often wasting time trying ineffective solutions that seem relevant yet fail to solve real problems. This paper introduces a novel approach to improving the accuracy and relevance of online technical support search results through automated search results verification and reranking. Taking "How-to" queries specific to on-device execution as a starting point, we developed the first solution that allows an AI agent to interpret and execute step-by-step instructions in the search results in a controlled Android environment. We further integrated the agent's findings into a reranking mechanism that orders search results based on the success indicators of the tested solutions. The paper details the architecture of our solution and a comprehensive evaluation of the system through a series of tests across various application domains. The results demonstrate a significant improvement in the quality and reliability of the top-ranked results. Our findings suggest a paradigm shift in how search engine ranking for online technical support help can be optimized, offering a scalable and automated solution to the pervasive challenge of finding effective and reliable online help.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 正規化流を用いた自律走行におけるモデル予測軌道計画のサンプリング

Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows ( http://arxiv.org/abs/2404.09657v2 )

ライセンス: Link先を確認
Georg Rabenstein, Lars Ullrich, Knut Graichen, (参考訳) 最適化に基づくプランナーの他に、サンプリングに基づくアプローチは、単純さのために自動走行の軌道計画によく用いられる。 モデル予測経路積分制御は、入力軌跡の確率的サンプリングを取り入れつつ、最適化原理に基づくフレームワークである。 本稿では,軌道生成のためのサンプリング手法について検討する。 この文脈では、単純な分布からより複雑な分布の変換をモデル化するため、サンプリング分布の生成には変分推論の場に由来する正規化フローが考慮される。 したがって、学習に基づく正規化フローモデルを訓練し、タスクの入力領域をより効率的に探索する。 提案手法は,2つのシミュレーションシナリオで評価した。

Alongside optimization-based planners, sampling-based approaches are often used in trajectory planning for autonomous driving due to their simplicity. Model predictive path integral control is a framework that builds upon optimization principles while incorporating stochastic sampling of input trajectories. This paper investigates several sampling approaches for trajectory generation. In this context, normalizing flows originating from the field of variational inference are considered for the generation of sampling distributions, as they model transformations of simple to more complex distributions. Accordingly, learning-based normalizing flow models are trained for a more efficient exploration of the input domain for the task at hand. The developed algorithm and the proposed sampling distributions are evaluated in two simulation scenarios.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# テーブル認識のための実データ合成

Synthesizing Realistic Data for Table Recognition ( http://arxiv.org/abs/2404.11100v2 )

ライセンス: Link先を確認
Qiyu Hou, Jun Wang, Meixuan Qiao, Lujun Tian, (参考訳) そこで本研究では,従来の自動表データアノテーション手法と乱数表データ合成手法の限界と課題を克服するために,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。 この方法は、既存の複雑なテーブルの構造と内容を利用することで、ターゲット領域にある真のスタイルを忠実に再現するテーブルの効率的な作成を容易にする。 中国の金融発表からテーブルの実際の構造と内容を活用することで、この領域で最初の広範なテーブルアノテーションデータセットを開発した。 このデータセットを使用して、最近のディープラーニングベースのエンドツーエンドテーブル認識モデルをトレーニングしました。 さらに,中国の金融発表領域における実世界の複合表の初歩的ベンチマークを構築し,その手法を用いて,合成データに基づいてトレーニングしたモデルの性能評価を行い,本手法の実用性と有効性を効果的に検証した。 さらに,複数のスパンニングセルを持つテーブルの比率を増大させることにより,FinTabNetデータセットを英語の財務発表から抽出し,複雑さを増すために合成手法を適用した。 実験により, このデータセットでトレーニングしたモデルは, 特に複数のスパンニングセルを持つテーブルの認識において, 総合的な性能向上を実現することが示された。

To overcome the limitations and challenges of current automatic table data annotation methods and random table data synthesis approaches, we propose a novel method for synthesizing annotation data specifically designed for table recognition. This method utilizes the structure and content of existing complex tables, facilitating the efficient creation of tables that closely replicate the authentic styles found in the target domain. By leveraging the actual structure and content of tables from Chinese financial announcements, we have developed the first extensive table annotation dataset in this domain. We used this dataset to train several recent deep learning-based end-to-end table recognition models. Additionally, we have established the inaugural benchmark for real-world complex tables in the Chinese financial announcement domain, using it to assess the performance of models trained on our synthetic data, thereby effectively validating our method's practicality and effectiveness. Furthermore, we applied our synthesis method to augment the FinTabNet dataset, extracted from English financial announcements, by increasing the proportion of tables with multiple spanning cells to introduce greater complexity. Our experiments show that models trained on this augmented dataset achieve comprehensive improvements in performance, especially in the recognition of tables with multiple spanning cells.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 複素平面におけるリング構造:非エルミート運動エッジのフィンガープリント

Ring Structure in the Complex Plane: A Fingerprint of non-Hermitian Mobility Edge ( http://arxiv.org/abs/2404.12266v3 )

ライセンス: Link先を確認
Shan-Zhong Li, Zhi Li, (参考訳) アビラの大域的理論により、非エルミート移動エッジが複素平面の環構造を取ることを解析的に明らかにし、これを「運動環」と呼ぶ。 モビリティ環の普遍性は、エルミート極限、$PT$対称性保護、$PT$対称性保護、および$PT$対称性保護によってチェックおよび支持されている。 さらに、移動環と準周期的強度の進化について検討し、非エルミート系では複数の移動環構造が現れることを見出した。 エルミートの場合の多重モビリティエッジに対する相互参照により、最大モビリティリング数の表現を与える。 最後に、アビラの大域的定理と自己双対法の結果を比較することにより、自己双対関係が非エルミート系における臨界点を計算するのに独自の限界を持つことを示す。 私たちが知っているように、一般非エルミート系は複素スペクトルを持ち、非エルミートモビリティエッジは複素平面において環構造を示すことができると決定する。

By Avila's global theory, we analytically reveal that the non-Hermitian mobility edge will take on a ring structure in the complex plane, which we name as "mobility ring". The universality of mobility ring has been checked and supported by the Hermitian limit, $PT$-symmetry protection and without $PT$-symmetry cases. Further, we study the evolution of mobility ring versus quasiperiodic strength, and find that in the non-Hermitian system, there will appear multiple mobility ring structures. With cross-reference to the multiple mobility edges in Hermitian case, we give the expression of the maximum number of mobility rings. Finally, by comparing the results of Avila's global theorem and self-duality method, we show that self-duality relation has its own limitations in calculating the critical point in non-Hermitian systems. As we know, the general non-Hermitian system has a complex spectrum, which determines that the non-Hermitian mobility edge can but exhibit a ring structure in the complex plane.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 畳み込みオートエンコーダを用いたセマンティックセグメンテーション法の予測精度の向上

Improving Prediction Accuracy of Semantic Segmentation Methods Using Convolutional Autoencoder Based Pre-processing Layers ( http://arxiv.org/abs/2404.12718v2 )

ライセンス: Link先を確認
Hisashi Shimodaira, (参考訳) 本稿では,(1)意味的セグメンテーション手法の予測精度を向上させる手法を提案する。(1)意味的セグメンテーションネットワークの前に畳み込みオートエンコーダをベースとした事前処理層を持つニューラルネットワークを構築し,(2)事前学習したオートエンコーダの重みによって初期化されたネットワーク全体をトレーニングする。 本手法を完全畳み込みネットワーク(FCN)に適用し,その予測精度を都市景観データセット上で実験的に比較した。 He正規初期化を用いた対象モデルの平均IoUは、He正規初期化によるFCNよりも18.7%高い。 さらに、ターゲットモデルの修正モデルのモデルは、He正規初期化によるFCNの修正モデルよりも大幅に高い。 トレーニング中の精度と損失曲線から,これらは一般化能力の向上によるものであることが示された。 これらの結果から,提案手法がFCNの予測精度の向上に有効であることを示す。 提案手法は, 比較的単純であるが, FCNの一般化能力の向上と予測精度の向上には重要な効果がある。 原則として,提案手法は他のセマンティックセグメンテーション法にも適用可能である。 セマンティックセグメンテーションでは、現在、既存の手法の予測精度を改善する効果的な方法はない。 本手法と同一あるいは類似の手法を公表した者はおらず,実際にそのような手法を用いた者はいない。 したがって,本手法は実践に有用であり,広く知られ,用いられているにふさわしいと考えられる。

In this paper, we propose a method to improve prediction accuracy of semantic segmentation methods as follows: (1) construct a neural network that has pre-processing layers based on a convolutional autoencoder ahead of a semantic segmentation network, and (2) train the entire network initialized by the weights of the pre-trained autoencoder. We applied this method to the fully convolutional network (FCN) and experimentally compared its prediction accuracy on the cityscapes dataset. The Mean IoU of the proposed target model with the He normal initialization is 18.7% higher than that of FCN with the He normal initialization. In addition, those of the modified models of the target model are significantly higher than that of FCN with the He normal initialization. The accuracy and loss curves during the training showed that these are resulting from the improvement of the generalization ability. All of these results provide strong evidence that the proposed method is significantly effective in improving the prediction accuracy of FCN. The proposed method has the following features: it is comparatively simple, whereas the effect on improving the generalization ability and prediction accuracy of FCN is significant; the increase in the number of parameters by using it is very small, and that in the computation time is substantially large. In principle, the proposed method can be applied to other semantic segmentation methods. For semantic segmentation, at present, there is no effective way to improve the prediction accuracy of existing methods. None have published a method which is the same as or similar to our method and none have used such a method in practice. Therefore, we believe that our method is useful in practice and worthy of being widely known and used.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 非定常雑音下での確率的誤差キャンセルの改善

Improving probabilistic error cancellation in the presence of non-stationary noise ( http://arxiv.org/abs/2404.13269v2 )

ライセンス: Link先を確認
Samudra Dasgupta, Travis S. Humble, (参考訳) 非定常雑音の存在下での確率的誤差キャンセル(PEC)結果の安定性について検討する。 ベイズ法を利用して,PECの安定性と精度を向上させる戦略を設計する。 我々は,Bernstein-Vazirani アルゴリズムを5ビット実装し,ibm_kolkata デバイス上で行った実験により,非適応型 PEC と比較して精度が 42% 向上し,安定性が60% 向上したことを明らかにした。 これらの結果は,PECの活用に不可欠である非定常雑音に効果的に対処するための適応推定プロセスの重要性を浮き彫りにした。

We investigate the stability of probabilistic error cancellation (PEC) outcomes in the presence of non-stationary noise, which is an obstacle to achieving accurate observable estimates. Leveraging Bayesian methods, we design a strategy to enhance PEC stability and accuracy. Our experiments using a 5-qubit implementation of the Bernstein-Vazirani algorithm and conducted on the ibm_kolkata device reveal a 42% improvement in accuracy and a 60% enhancement in stability compared to non-adaptive PEC. These results underscore the importance of adaptive estimation processes to effectively address non-stationary noise, vital for advancing PEC utility.
翻訳日:2024-07-10 23:31:18 公開日:2024-07-09
# 予算を考慮した確率的マルチラウンドサブモジュール最適化

Stochastic Multi-round Submodular Optimization with Budget ( http://arxiv.org/abs/2404.13737v2 )

ライセンス: Link先を確認
Vincenzo Auletta, Diodato Ferraioli, Cosimo Vinci, (参考訳) 本研究では,各項目の集合上で定義された単調および部分モジュラー目的関数の値の複数のラウンドに対する和を適応的に最大化し,その関数の値が確率的事象の実現に依存し,全てのラウンドで選択できる項目の数は,与えられた予算によって制限されるという,SBMSm(Stochastic Budgeted Multi-round Submodular Maximization)の問題について検討する。 この問題は拡張され、(適応的な)影響の最大化や確率的探索のようなよく研究された問題に一般化される。 まず、アイテム数と確率事象が何らかの境界付けられた場合、SBMSmの多項式時間動的プログラミングアルゴリズムが存在することを示す。 次に,SBMSmに対して,まず,各ラウンドに費やされる予算を非適応的に割り当て,次に各ラウンドに割り当てられた予算を用いて,目的関数をグリーディかつ適応的に最大化する,簡単なグリーディ近似アルゴリズムを提案する。 そのようなアルゴリズムは、最適適応値に対する$(1-1/e-\epsilon)$-approximationを保証する。 最後に,予算アダプティビティギャップと呼ばれる指標を導入することにより,予算アロケーションと項目選択の両方に適応するSBMSmの最適政策が,我々の欲求アルゴリズムのように事前に予算アロケーションを決定する最適な部分アダプティビティポリシよりも優れているかを測定する。 予算-適応性ギャップには$e/(e-1)$の厳密な境界が示されており、この結果は、我々の欲求アルゴリズムが全ての部分適応ポリシーの中で最高の近似を保証していることを示唆している。

In this work we study the problem of {\em Stochastic Budgeted Multi-round Submodular Maximization} (SBMSm), in which we would like to adaptively maximize the sum over multiple rounds of the value of a monotone and submodular objective function defined on a subset of items, subject to the fact that the values of this function depend on the realization of stochastic events and the number of items that we can select over all rounds is limited by a given budget. This problem extends, and generalizes to multiple round settings, well-studied problems such as (adaptive) influence maximization and stochastic probing. We first show that, if the number of items and stochastic events is somehow bounded, there is a polynomial time dynamic programming algorithm for SBMSm. Then, we provide a simple greedy approximation algorithm for SBMSm, that first non-adaptively allocates the budget to be spent at each round, and then greedily and adaptively maximizes the objective function by using the budget assigned at each round. Such algorithm guarantees a $(1-1/e-\epsilon)$-approximation to the optimal adaptive value. Finally, by introducing a metric called {\em budget-adaptivity gap}, we measure how much an optimal policy for SBMSm, that is adaptive in both the budget allocation and item selection, is better than an optimal partially adaptive policy that, as in our greedy algorithm, determined the budget allocation in advance. We show a tight bound of $e/(e-1)$ on the budget-adaptivity gap, and this result implies that our greedy algorithm guarantees the best approximation among all partially adaptive policies.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# 多体傷モデルにおける準Nambu-Goldstoneモード

Quasi-Nambu-Goldstone modes in many-body scar models ( http://arxiv.org/abs/2405.00785v3 )

ライセンス: Link先を確認
Jie Ren, Yu-Peng Wang, Chen Fang, (参考訳) 準対称性-群の観点から [Phys. Lett. 126, 120604 (2021)] では、縮退限界における多体スカーモデルにおける集合的、一貫性のある励起モードの普遍的な存在を示す。 これらのモードの数とそれらが持つ量子数は、ハミルトニアンの対称性ではなく、スカータワーの準対称性によって与えられる。 これに基づいて、自発対称性の破れのパラダイムと退化極限における多体スカー物理との具体的な類似性を描く。

From the quasisymmetry-group perspective [Phys. Rev. Lett. 126, 120604 (2021)], we show the universal existence of collective, coherent modes of excitations in many-body scar models in the degenerate limit, where the energy spacing in the scar tower vanishes. The number of these modes, as well as the quantum numbers carried by them, are given, not by the symmetry of the Hamiltonian, but by the quasisymmetry of the scar tower: hence the name quasi-Nambu-Goldstone modes. Based on this, we draw a concrete analogy between the paradigm of spontaneous symmetry breaking and the many-body scar physics in the degenerate limit.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# バイレベル最適化とミニマックス最適化のための高速化された1次一階法

Accelerated Fully First-Order Methods for Bilevel and Minimax Optimization ( http://arxiv.org/abs/2405.00914v3 )

ライセンス: Link先を確認
Chris Junchi Li, (参考訳) 本稿では,emph{Bilevel Optimization} (BLO) における完全一階法の高速化について述べる。 第一に、下層関数が典型的強凸性仮定を許容する仮定の下では、二値近似(英語版)(\texttt{PRAF${}^2$BA})アルゴリズムを応用した二値近似(英語版)(Bilevel Approximation})(\texttt{PRAF${}^2$BA})アルゴリズムが提案される。 第二に、BLO の特別なケースとして \emph{nonconvex-strongly-convex} (NCSC) minimax Optimization, \texttt{PRAF${}^2$BA} rediscovers \emph{perturbed restarted accelerated gradient descent Ascent} (\textt{PRAGDA}) を適用すれば、近似二階定常点を見つけるのに最先端の複雑さを実現することができる。 さらに,低次関数が典型的に強い凸性仮定を欠いている場合,BLOにおける超対象関数の定常点を見つけることの課題について検討する。 これらの規則性条件の下では、多項式時間における超対象の近似定常点を求めるために、効率的なサブルーチンとして \emph{Inexact Gradient-Free Method} (\texttt{IGFM}) を応用した \emph{Switching Gradient Method} (\texttt{SGM}) を提案する。 本研究では,実世界の問題に対する実証的研究を行い,提案アルゴリズムの有効性を検証した。

We present in this paper novel accelerated fully first-order methods in \emph{Bilevel Optimization} (BLO). Firstly, for BLO under the assumption that the lower-level functions admit the typical strong convexity assumption, the \emph{(Perturbed) Restarted Accelerated Fully First-order methods for Bilevel Approximation} (\texttt{PRAF${}^2$BA}) algorithm leveraging \emph{fully} first-order oracles is proposed, whereas the algorithm for finding approximate first-order and second-order stationary points with state-of-the-art oracle query complexities in solving complex optimization tasks. Secondly, applying as a special case of BLO the \emph{nonconvex-strongly-convex} (NCSC) minimax optimization, \texttt{PRAF${}^2$BA} rediscovers \emph{perturbed restarted accelerated gradient descent ascent} (\texttt{PRAGDA}) that achieves the state-of-the-art complexity for finding approximate second-order stationary points. Additionally, we investigate the challenge of finding stationary points of the hyper-objective function in BLO when lower-level functions lack the typical strong convexity assumption, where we identify several regularity conditions of the lower-level problems that ensure tractability and present hardness results indicating the intractability of BLO for general convex lower-level functions. Under these regularity conditions we propose the \emph{Inexact Gradient-Free Method} (\texttt{IGFM}), utilizing the \emph{Switching Gradient Method} (\texttt{SGM}) as an efficient sub-routine to find an approximate stationary point of the hyper-objective in polynomial time. Empirical studies for real-world problems are provided to further validate the outperformance of our proposed algorithms.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# 分類精度の向上によるデータインプット:カーネル法を改良した手法

Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method ( http://arxiv.org/abs/2405.07800v2 )

ライセンス: Link先を確認
Ruikai Yang, Fan He, Mingzhen He, Kaijie Wang, Xiaolin Huang, (参考訳) 不完全なデータセットに欠落する特徴要素を埋めるデータ計算は、データ駆動学習において重要な役割を果たす。 基本的信念は、データ計算はパフォーマンスを学ぶのに有用であり、より良い分類の追求はデータ計算過程を導くことができるというものである。 このタスクを支援するためにラベル情報を利用することを検討する研究もあるが、ラベルの単純利用は柔軟性に欠けており、厳密な仮定に依存する可能性がある。 本稿では, 監視情報を効果的に活用し, 欠落したデータを分類する手法を提案する。 具体的には、このフレームワークは2つの段階で動作します。 まず、ラベルを利用して、カーネル行列で表されるデータ間の類似性関係の最適化を監督し、分類精度を向上する。 このプロセス中に発生するオーバーフィッティングを軽減するために、フレームワークの堅牢性を改善するために摂動変数が導入された。 第二に、学習されたカーネル行列は、ブロック座標降下法を利用して、回帰を通じてデータ計算を導くための追加の監視情報として機能する。 提案手法の優位性を4つの実世界のデータセットで評価し,最先端の計算手法と比較した。 注目すべきは、我々のアルゴリズムは、データが60倍以上の特徴を欠いている場合、他の手法よりもはるかに優れています。

Data imputation, the process of filling in missing feature elements for incomplete data sets, plays a crucial role in data-driven learning. A fundamental belief is that data imputation is helpful for learning performance, and it follows that the pursuit of better classification can guide the data imputation process. While some works consider using label information to assist in this task, their simplistic utilization of labels lacks flexibility and may rely on strict assumptions. In this paper, we propose a new framework that effectively leverages supervision information to complete missing data in a manner conducive to classification. Specifically, this framework operates in two stages. Firstly, it leverages labels to supervise the optimization of similarity relationships among data, represented by the kernel matrix, with the goal of enhancing classification accuracy. To mitigate overfitting that may occur during this process, a perturbation variable is introduced to improve the robustness of the framework. Secondly, the learned kernel matrix serves as additional supervision information to guide data imputation through regression, utilizing the block coordinate descent method. The superiority of the proposed method is evaluated on four real-world data sets by comparing it with state-of-the-art imputation methods. Remarkably, our algorithm significantly outperforms other methods when the data is missing more than 60\% of the features
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# エネルギーを考慮したMARLによるフェデレーション学習に向けて--モデルとクライアントのデュアル選択アプローチ

Towards Energy-Aware Federated Learning via MARL: A Dual-Selection Approach for Model and Client ( http://arxiv.org/abs/2405.08183v2 )

ライセンス: Link先を確認
Jun Xia, Yi Zhang, Yiyu Shi, (参考訳) フェデレートラーニング(FL)は、異種人工知能デバイス(AIoT)の知識共有において有望であるが、同種モデルパラダイムと異種デバイス能力のミスマッチに起因する「木樽効果」により、その訓練性能とエネルギー効率は、実用的なバッテリ駆動シナリオにおいて厳しく制限されている。 その結果, 既存のFL法では, デバイス間の各種の違いから, 電池の制約などエネルギー制約のあるシナリオにおいて, 効果的に訓練を行うことは困難であった。 このような課題に対処するために,クライアントと異種ディープラーニングモデルの両方のエネルギー制約を考慮し,エネルギー効率の高いFLを実現するDR-FLという,エネルギーを意識したFLフレームワークを提案する。 DR-FLは,Vanilla FLとは異なり,MARLをベースとしたMati-Agents Reinforcement Learning(MARL)ベースのデュアル選択方式を採用しており,MARLをベースとした計算能力とエネルギー容量に基づいて,参加者がグローバルモデルに効果的かつ適応的にコントリビューションを行うことができる。 DR-FLは、大規模AIoTシステムにおける多様なモデル間の知識の交換を、エネルギー制限に固執しながら最適化する能力を持つことを示した。 さらに、各異種デバイスモデルの性能も向上する。

Although Federated Learning (FL) is promising in knowledge sharing for heterogeneous Artificial Intelligence of Thing (AIoT) devices, their training performance and energy efficacy are severely restricted in practical battery-driven scenarios due to the ``wooden barrel effect'' caused by the mismatch between homogeneous model paradigms and heterogeneous device capability. As a result, due to various kinds of differences among devices, it is hard for existing FL methods to conduct training effectively in energy-constrained scenarios, such as battery constraints of devices. To tackle the above issues, we propose an energy-aware FL framework named DR-FL, which considers the energy constraints in both clients and heterogeneous deep learning models to enable energy-efficient FL. Unlike Vanilla FL, DR-FL adopts our proposed Muti-Agents Reinforcement Learning (MARL)-based dual-selection method, which allows participated devices to make contributions to the global model effectively and adaptively based on their computing capabilities and energy capacities in a MARL-based manner. Experiments conducted with various widely recognized datasets demonstrate that DR-FL has the capability to optimize the exchange of knowledge among diverse models in large-scale AIoT systems while adhering to energy limitations. Additionally, it improves the performance of each individual heterogeneous device's model.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# CycleGANを用いた肺CT画像の形状認識合成による半監督肺分画の増強

Shape-aware synthesis of pathological lung CT scans using CycleGAN for enhanced semi-supervised lung segmentation ( http://arxiv.org/abs/2405.08556v2 )

ライセンス: Link先を確認
Rezkellah Noureddine Khiati, Pierre-Yves Brillet, Aurélien Justet, Radu Ispas, Catalin Fetita, (参考訳) 本稿では, 病理組織学的肺分画の問題点, 特に肺組織と周辺部とのテキスト的類似性から, 末梢性不透明症(重篤な線維症, 固形化)の症例において顕著な課題である。 これらの課題を克服するために,既存の地底真実に適合した偽の病理画像を生成するための拡張手法として,不適切な画像・画像翻訳にCycleGANを用いることを強調した。 これまでの研究では、CycleGANを使用していたが、正確な医用画像セグメンテーションに欠かせない形状変形の課題を無視することが多かった。 我々の研究は、新たな損失関数を組み込んだ革新的な戦略を導入している。 具体的には、健康ドメインから病理ドメインへの遷移において、形状が変化しないように拘束された肺を囲む肺に基づくL1損失を提案する。 肺を取り囲む肺は、健康ドメインで利用可能な真理の肺マスクに基づいて誘導される。 さらに、リブ/頂点位置に基づく収穫などの前処理ステップを適用して、CycleGANの入力を洗練させ、ネットワークが肺領域に集中することを保証する。 これは、メインタスクから注意を逸らすことができるズーム効果バイアスのような、余分なバイアスを避けるために不可欠である。 本発明の方法は、CycleGANモデルにより生成された合成病理組織を組み込んだオンザフライデータ拡張により訓練されたU-Netモデルを用いることにより、肺分画過程を半監督的に向上させる。 本研究の予備的な結果は質的,定量的な改善を示し,病理肺分節の分野での新しいベンチマークを樹立した。 私たちのコードはhttps://github.com/noureddinekhiati/Semi-supervised-lung-segmentationで利用可能です。

This paper addresses the problem of pathological lung segmentation, a significant challenge in medical image analysis, particularly pronounced in cases of peripheral opacities (severe fibrosis and consolidation) because of the textural similarity between lung tissue and surrounding areas. To overcome these challenges, this paper emphasizes the use of CycleGAN for unpaired image-to-image translation, in order to provide an augmentation method able to generate fake pathological images matching an existing ground truth. Although previous studies have employed CycleGAN, they often neglect the challenge of shape deformation, which is crucial for accurate medical image segmentation. Our work introduces an innovative strategy that incorporates additional loss functions. Specifically, it proposes an L1 loss based on the lung surrounding which shape is constrained to remain unchanged at the transition from the healthy to pathological domains. The lung surrounding is derived based on ground truth lung masks available in the healthy domain. Furthermore, preprocessing steps, such as cropping based on ribs/vertebra locations, are applied to refine the input for the CycleGAN, ensuring that the network focus on the lung region. This is essential to avoid extraneous biases, such as the zoom effect bias, which can divert attention from the main task. The method is applied to enhance in semi-supervised manner the lung segmentation process by employing a U-Net model trained with on-the-fly data augmentation incorporating synthetic pathological tissues generated by the CycleGAN model. Preliminary results from this research demonstrate significant qualitative and quantitative improvements, setting a new benchmark in the field of pathological lung segmentation. Our code is available at https://github.com/noureddinekhiati/Semi-supervised-lung-segmentation
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# 時間適応位相推定

Time-adaptive phase estimation ( http://arxiv.org/abs/2405.08930v2 )

ライセンス: Link先を確認
Brennan de Neeve, Andrey V. Lebedev, Vlad Negnevitsky, Jonathan P. Home, (参考訳) 位相推定は量子コンピュータにおける単一量子ビットゲートキャリブレーションの堅牢な方法として知られており、ベイズ推定は量子系における学習の最適な方法の考案に広く用いられている。 本稿では,事前位相知識に基づいて制御位相とコヒーレント進化時期を適応的に選択するベイズ位相推定手法を提案する。 雑音の存在下では、既知の理論的境界に関してほぼ最適性能を示し、推定値が推定器のモデルで考慮されていない雑音に対して頑健であることを示し、量子コンピュータの演算を校正するのに適する手法を提案する。 本研究では, 制御パラメータ値の有用性を, 事前確率関数を用いて決定し, 予測される知識の獲得を, 予測される情報ゲインの絞り込み, あるいは期待される情報ゲインのいずれにおいても定量化する。 特に、期待される利得の速度を最大化することにより、ハイゼンベルク極限より1.42倍高い標準偏差を持つ位相推定値が得られる。 この方法は、利用者の最小限の努力で、利用可能な事前知識と実験的な欠陥を考慮に入れた最適なソリューションを提供する。 測定確率のモデルでは、多くの種類のノイズの影響を特定でき、状態準備や読み出しに要する時間など、未知の位相につながるコヒーレント進化以外の測定シーケンスに含まれる時間を考慮して、知識獲得率を容易に調整することができる。

Phase estimation is known to be a robust method for single-qubit gate calibration in quantum computers, while Bayesian estimation is widely used in devising optimal methods for learning in quantum systems. We present Bayesian phase estimation methods that adaptively choose a control phase and the time of coherent evolution based on prior phase knowledge. In the presence of noise, we find near-optimal performance with respect to known theoretical bounds, and demonstrate some robustness of the estimates to noise that is not accounted for in the model of the estimator, making the methods suitable for calibrating operations in quantum computers. We determine the utility of control parameter values using functions of the prior probability of the phase that quantify expected knowledge gain either in terms of expected narrowing of the posterior or expected information gain. In particular, we find that by maximising the rate of expected gain we obtain phase estimates having standard deviation a factor of 1.42 above the Heisenberg limit, which is the lowest value we know of for sequential phase estimation. The methods provide optimal solutions accounting for available prior knowledge and experimental imperfections with minimal effort from the user. The effect of many types of noise can be specified in the model of the measurement probabilities, and the rate of knowledge gain can easily be adjusted to account for times included in the measurement sequence other than the coherent evolution leading to the unknown phase, such as times required for state preparation or readout.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# 自然言語処理教育における古典的アプローチと深層学習アプローチのバランス

Striking a Balance between Classical and Deep Learning Approaches in Natural Language Processing Pedagogy ( http://arxiv.org/abs/2405.09854v2 )

ライセンス: Link先を確認
Aditya Joshi, Jake Renzella, Pushpak Bhattacharyya, Saurav Jha, Xiangyu Zhang, (参考訳) ディープラーニングのアプローチは、今日の自然言語処理(NLP)の現状を表しているが、古典的なアルゴリズムとアプローチは、近年のNLPの教科書やコースに依然として存在する。 本稿では,オーストラリアとインドで指導された2つのNLP授業の受講者の視点を考察し,講義計画と授業の評価において,古典的および深層学習のアプローチがどのようにバランスをとるかを検討する。 また、CS1教育におけるオブジェクトファーストとオブジェクト後期の議論に類似している。 我々は,NLP問題や潜在的な解法,さらには深層学習モデル自体の直感的な理解を構築することで,古典的アプローチの教育が学生の学習に価値をもたらすことを観察した。 古典的なアプローチは最先端とは言えないが、今日ではNLPコースに含められているという主張がなされている。

While deep learning approaches represent the state-of-the-art of natural language processing (NLP) today, classical algorithms and approaches still find a place in NLP textbooks and courses of recent years. This paper discusses the perspectives of conveners of two introductory NLP courses taught in Australia and India, and examines how classical and deep learning approaches can be balanced within the lecture plan and assessments of the courses. We also draw parallels with the objects-first and objects-later debate in CS1 education. We observe that teaching classical approaches adds value to student learning by building an intuitive understanding of NLP problems, potential solutions, and even deep learning models themselves. Despite classical approaches not being state-of-the-art, the paper makes a case for their inclusion in NLP courses today.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# Aubry-André-Starkモデルにおける量子臨界性とキブルズークスケーリング

Quantum criticality and Kibble-Zurek scaling in the Aubry-André-Stark model ( http://arxiv.org/abs/2405.10199v2 )

ライセンス: Link先を確認
En-Wen Liang, Ling-Zhi Tang, Dan-Wei Zhang, (参考訳) 量子臨界性とキブル・ズールクスケーリング(KZS)をオーブリー・アンドレ・スターク(AAS)モデルで探求し、スタークの強度場が1次元準周期格子に$\varepsilon$を付加する。 我々は、非局在化-局在化遷移の臨界特性を特徴付けるために、局所化長、逆参加比(IPR)、基底と第1励起状態の間のエネルギーギャップのスケーリング解析および数値計算を行う。 注目すべきことに、我々のスケーリング分析は、臨界点付近で、ローカライゼーション長$\xi$が$\varepsilon$ as $\xi\propto\varepsilon^{-\nu}$と$\nu\approx0.3$でスケールしていることを示しています。 IPR $\mathcal{I}$ scales as $\mathcal{I}\propto\varepsilon^{s}$ with the critical exponent $s\approx0.098$。 エネルギーギャップ$\Delta E$は、純粋なAAモデルと同じ臨界指数$z\approx2.374$で$\Delta E\propto \varepsilon^{\nu z} としてスケールする。 さらに、アンダーソン局所化とスターク局所化の臨界領域間の重なり合いにおけるハイブリッドスケーリング関数を明らかにする。 さらに、AASモデルにおける局所化遷移の駆動力学について検討する。 スターク電位(準周期)を線形に変化させることで、局所化長とIPPの進化を計算し、その駆動速度への依存性を調べる。 基底状態からの駆動力学は、静的スケーリング解析から得られた臨界指数とKZSによってよく説明されている。 スタークポテンシャルと準周期ポテンシャルの両方が関係すると、KZS形式は2つのスケーリング変数を含む。 本研究は、局所化遷移における臨界現象の理解を拡張し、ハイブリッドモデルへのKZSの適用を一般化する。

We explore quantum criticality and Kibble-Zurek scaling (KZS) in the Aubry-Andre-Stark (AAS) model, where the Stark field of strength $\varepsilon$ is added onto the one-dimensional quasiperiodic lattice. We perform scaling analysis and numerical calculations of the localization length, inverse participation ratio (IPR), and energy gap between the ground and first excited states to characterize critical properties of the delocalization-localization transition. Remarkably, our scaling analysis shows that, near the critical point, the localization length $\xi$ scales with $\varepsilon$ as $\xi\propto\varepsilon^{-\nu}$ with $\nu\approx0.3$ a new critical exponent for the AAS model, which is different from the counterparts for both the pure Aubry-Andre (AA) model and Stark model. The IPR $\mathcal{I}$ scales as $\mathcal{I}\propto\varepsilon^{s}$ with the critical exponent $s\approx0.098$, which is also different from both two pure models. The energy gap $\Delta E$ scales as $\Delta E\propto \varepsilon^{\nu z}$ with the same critical exponent $z\approx2.374$ as that for the pure AA model. We further reveal hybrid scaling functions in the overlap between the critical regions of the Anderson and Stark localizations. Moreover, we investigate the driven dynamics of the localization transitions in the AAS model. By linearly changing the Stark (quasiperiodic) potential, we calculate the evolution of the localization length and the IPR, and study their dependence on the driving rate. We find that the driven dynamics from the ground state is well described by the KZS with the critical exponents obtained from the static scaling analysis. When both the Stark and quasiperiodic potentials are relevant, the KZS form includes the two scaling variables. This work extends our understanding of critical phenomena on localization transitions and generalizes the application of the KZS to hybrid models.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# 確率差を用いた言語モデルによるテーマ評価

Language Models can Evaluate Themselves via Probability Discrepancy ( http://arxiv.org/abs/2405.10516v2 )

ライセンス: Link先を確認
Tingyu Xia, Bowen Yu, Yuan Wu, Yi Chang, Chang Zhou, (参考訳) 本稿では,Large Language Models (LLMs) がクエリに応答するタスクに対して,より熟練度が高い場合の確率分布を,より熟練度が低い場合の確率分布として示すことによって,議論を開始する。 本稿では, この基礎的知見を拡張し, 各種LLMの有効性を評価するための自己評価手法ProbDiffを提案する。 このアプローチは、追加評価モデルの必要性や、判断のためにGPT-4のような外部独自のモデルに依存しない。 テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。 与えられた2つのLLM間のクエリに対する高い差は、比較的弱い能力を示している。 提案したXiaohongshuブログ作成タスクやAlignBench, MT-Bench, AlpacaEvalなどのLCM評価のためのベンチマークなど, 自然言語生成タスク(NLG)の多種多様なシナリオを対象として, GPT-4に基づく評価から得られた結果に匹敵する結果が得られた。

In this paper, we initiate our discussion by demonstrating how Large Language Models (LLMs), when tasked with responding to queries, display a more even probability distribution in their answers if they are more adept, as opposed to their less skilled counterparts. Expanding on this foundational insight, we propose a new self-evaluation method ProbDiff for assessing the efficacy of various LLMs. This approach obviates the necessity for an additional evaluation model or the dependence on external, proprietary models like GPT-4 for judgment. It uniquely utilizes the LLMs being tested to compute the probability discrepancy between the initial response and its revised versions. A higher discrepancy for a given query between two LLMs indicates a relatively weaker capability. Our findings reveal that ProbDiff achieves results on par with those obtained from evaluations based on GPT-4, spanning a range of scenarios that include natural language generation (NLG) tasks such as translation, summarization, and our proposed Xiaohongshu blog writing task, and benchmarks for LLM evaluation like AlignBench, MT-Bench, and AlpacaEval, across LLMs of varying magnitudes.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# 自己監督型カメラリンクモデルの改良による都市規模多カメラ車両追跡システム

City-Scale Multi-Camera Vehicle Tracking System with Improved Self-Supervised Camera Link Model ( http://arxiv.org/abs/2405.11345v2 )

ライセンス: Link先を確認
Yuqiang Lin, Sam Lockyer, Adrian Evans, Markus Zarbock, Nic Zhang, (参考訳) MTMCT(Multi-Target Multi-Camera Tracking)は幅広い用途を持ち、将来の都市全体(交通管理、事故検出など)の基盤となっている。 しかし、特徴抽出のみに基づく異なるカメラ間の車両軌道の整合性の課題は、重大な困難を招いている。 本稿では,自己監督型カメラリンクモデルを用いた,革新的なマルチカメラ車両追跡システムを提案する。 手動の時空間アノテーションに依存する関連する作業とは対照的に,本モデルは車両マッチングにおいて重要なマルチカメラ関係を自動的に抽出する。 カメラリンクは、高品質トラックの特徴的類似性、ペア数、時間差を評価する事前マッチングプロセスによって確立される。 このプロセスは、すべてのカメラの組み合わせにおける空間リンクの確率を計算し、最高スコアのペアを選択してカメラリンクを作成する。 我々のアプローチは、人間のアノテーションの必要性を排除し、実世界のアプリケーションにおける効率性とコスト効率を大幅に改善することで、デプロイメント時間を大幅に改善します。 このペアリングプロセスは、空間的時間的制約を設定することでクロスカメラマッチングをサポートし、潜在的な車両マッチングの検索スペースを削減する。 実験結果によると,提案手法は61.07%のIDF1スコアを有するCityFlow V2ベンチマークにおいて,自動カメラリンク方式の新たな最先端化を実現している。

Multi-Target Multi-Camera Tracking (MTMCT) has broad applications and forms the basis for numerous future city-wide systems (e.g. traffic management, crash detection, etc.). However, the challenge of matching vehicle trajectories across different cameras based solely on feature extraction poses significant difficulties. This article introduces an innovative multi-camera vehicle tracking system that utilizes a self-supervised camera link model. In contrast to related works that rely on manual spatial-temporal annotations, our model automatically extracts crucial multi-camera relationships for vehicle matching. The camera link is established through a pre-matching process that evaluates feature similarities, pair numbers, and time variance for high-quality tracks. This process calculates the probability of spatial linkage for all camera combinations, selecting the highest scoring pairs to create camera links. Our approach significantly improves deployment times by eliminating the need for human annotation, offering substantial improvements in efficiency and cost-effectiveness when it comes to real-world application. This pairing process supports cross camera matching by setting spatial-temporal constraints, reducing the searching space for potential vehicle matches. According to our experimental results, the proposed method achieves a new state-of-the-art among automatic camera-link based methods in CityFlow V2 benchmarks with 61.07% IDF1 Score.
翻訳日:2024-07-10 23:21:23 公開日:2024-07-09
# レコメンデーションのための知識グラフプルーニング

Knowledge Graph Pruning for Recommendation ( http://arxiv.org/abs/2405.11531v2 )

ライセンス: Link先を確認
Fake Lin, Xi Zhu, Ziwei Zhao, Deqiang Huang, Yu Yu, Xueying Li, Zhi Zheng, Tong Xu, Enhong Chen, (参考訳) 近年,知識グラフに基づくレコメンデーションシステム(KGRS)の興隆が見られ,ユーザ,アイテム,エンティティの表現を目覚ましい改善を伴う構造的知識によって強化している。 それでも、その計算コストは、研究者がより洗練されたモデルを探索することを妨げている。 学習効率のボトルネックは知識グラフから生じており、知識爆発のよく知られた問題に悩まされている。 近年, 膨らませたKGを要約法によりスリム化しようとする研究もある。 しかし、これらの要約されたノードは協調的な信号を無視し、知識グラフのノードが現実世界の実体の象徴的な抽象を表現しているという事実から逸脱する可能性がある。 そこで本稿では,KGTrimmerという新しい手法を提案し,性能劣化を最小限に抑えつつ,有意なノードを除去する。 具体的には、両視点から重要な評価器を設計する。 集合的な視点では,多くのユーザを惹きつければ,ノードが重要と考えられるような,豊富な協調的な信号に基づいてコミュニティのコンセンサスを抽出することで,集合的知性の概念を取り入れる。 全体論的な観点から、我々はグローバルマスクを学習し、それらの特性や全体的な人気から価値のないノードを識別する。 次に、エンド・ツー・エンドの重要度を意識したグラフニューラルネットワークを構築し、フィルタされた知識を注入し、貴重なユーザ・イテム協調信号の蒸留を強化する。 最終的に、我々は、フォローアップレコメンデーションタスクを容易にするために、軽量で安定で堅牢な特性を持つプルーンドナレッジグラフを生成します。 KGTrimmerの有効性と一般化能力を証明するために、3つの公開データセットで大規模な実験が行われた。

Recent years have witnessed the prosperity of knowledge graph based recommendation system (KGRS), which enriches the representation of users, items, and entities by structural knowledge with striking improvement. Nevertheless, its unaffordable computational cost still limits researchers from exploring more sophisticated models. We observe that the bottleneck for training efficiency arises from the knowledge graph, which is plagued by the well-known issue of knowledge explosion. Recently, some works have attempted to slim the inflated KG via summarization techniques. However, these summarized nodes may ignore the collaborative signals and deviate from the facts that nodes in knowledge graph represent symbolic abstractions of entities from the real-world. To this end, in this paper, we propose a novel approach called KGTrimmer for knowledge graph pruning tailored for recommendation, to remove the unessential nodes while minimizing performance degradation. Specifically, we design an importance evaluator from a dual-view perspective. For the collective view, we embrace the idea of collective intelligence by extracting community consensus based on abundant collaborative signals, i.e. nodes are considered important if they attract attention of numerous users. For the holistic view, we learn a global mask to identify the valueless nodes from their inherent properties or overall popularity. Next, we build an end-to-end importance-aware graph neural network, which injects filtered knowledge to enhance the distillation of valuable user-item collaborative signals. Ultimately, we generate a pruned knowledge graph with lightweight, stable, and robust properties to facilitate the following-up recommendation task. Extensive experiments are conducted on three publicly available datasets to prove the effectiveness and generalization ability of KGTrimmer.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# Mamba-in-Mamba:Tokenized Mamba Modelにおけるハイパースペクトル画像分類のための集中型Mamba-Cross-Scan

Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.12003v3 )

ライセンス: Link先を確認
Weilian Zhou, Sei-Ichiro Kamata, Haipeng Wang, Man-Sing Wong, Huiying, Hou, (参考訳) ハイパースペクトル画像(HSI)分類は、リモートセンシング(RS)分野、特に深層学習技術の進歩において重要である。 RNN(Recurrent Neural Networks)やTransformers(Transformers)といった自然言語処理(NLP)の分野に適応したシーケンスモデルは、このタスクに特化しており、ユニークな視点を提供している。 しかし、いくつかの課題が続いている。 1)RNNは中心的特徴集約に苦慮し,画素干渉に敏感である。 2)変換器は重要な計算資源を必要とし、しばしば限られたHSIトレーニングサンプルで性能が低下する。 3) 画像からシーケンスデータに変換する現在の走査法は, 単純かつ非効率である。 そこで本研究では,HSI分類のための新しいMamba-in-Mamba(MiM)アーキテクチャを導入する。 MiM モデルには 1) 画像からシーケンスデータへ変換する新しい集中型マンバ・クロススキャン(MCS)機構 2)ガウス式Decay Mask(GDM)、STL(Semantic Token Learner)、STF(Semantic Token Fuser)を内蔵したT-Mambaエンコーダ 3) 重み付きMCSフュージョン(WMF)モジュールとマルチスケールロスデザインを組み合わせることで復号効率を向上する。 固定および非結合型トレーニング-テストサンプルを用いた3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れ,HSIアプリケーションの有効性と可能性を強調した。

Hyperspectral image (HSI) classification is pivotal in the remote sensing (RS) field, particularly with the advancement of deep learning techniques. Sequential models, adapted from the natural language processing (NLP) field such as Recurrent Neural Networks (RNNs) and Transformers, have been tailored to this task, offering a unique viewpoint. However, several challenges persist 1) RNNs struggle with centric feature aggregation and are sensitive to interfering pixels, 2) Transformers require significant computational resources and often underperform with limited HSI training samples, and 3) Current scanning methods for converting images into sequence-data are simplistic and inefficient. In response, this study introduces the innovative Mamba-in-Mamba (MiM) architecture for HSI classification, the first attempt of deploying State Space Model (SSM) in this task. The MiM model includes 1) A novel centralized Mamba-Cross-Scan (MCS) mechanism for transforming images into sequence-data, 2) A Tokenized Mamba (T-Mamba) encoder that incorporates a Gaussian Decay Mask (GDM), a Semantic Token Learner (STL), and a Semantic Token Fuser (STF) for enhanced feature generation and concentration, and 3) A Weighted MCS Fusion (WMF) module coupled with a Multi-Scale Loss Design to improve decoding efficiency. Experimental results from three public HSI datasets with fixed and disjoint training-testing samples demonstrate that our method outperforms existing baselines and state-of-the-art approaches, highlighting its efficacy and potential in HSI applications.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 未来:AIが生み出す未来との会話は不安を減らし、負の感情を減らし、未来的な自己連続性を高める

Future You: A Conversation with an AI-Generated Future Self Reduces Anxiety, Negative Emotions, and Increases Future Self-Continuity ( http://arxiv.org/abs/2405.12514v3 )

ライセンス: Link先を確認
Pat Pataranutaporn, Kavin Winson, Peggy Yin, Auttasak Lapapirojn, Pichayoot Ouppaphan, Monchai Lertsutthiwong, Pattie Maes, Hal Hershfield, (参考訳) 本稿では,対話的かつ簡潔な単一セッションのデジタルチャット介入である"Future You"を紹介した。これは,個人が時間的に離れた未来と感じる関係の程度,メンタルヘルスと幸福感に肯定的な特性である。 我々のシステムでは、ユーザーは、将来の目標と個人的品質に合わせた、相対性がありながらAIで動くバーチャルバージョンとチャットできる。 会話を現実的にするために、ユーザの現在(18~30歳)と60歳(60歳)の間に一線を画す「合成記憶」を生成する。 また、「フューチャーユー」という文字は、ユーザの現在の自己の年齢差の画像のペルソナも採用する。 フューチャーユー」のキャラクターとの短い対話の後、ユーザーは不安を減らし、将来的な自己継続性を高めたと報告した。 これは、パーソナライズされたAI生成文字を使用して、ユーザの将来的な自己持続性と幸福を改善するための最初の研究である。

We introduce "Future You," an interactive, brief, single-session, digital chat intervention designed to improve future self-continuity--the degree of connection an individual feels with a temporally distant future self--a characteristic that is positively related to mental health and wellbeing. Our system allows users to chat with a relatable yet AI-powered virtual version of their future selves that is tuned to their future goals and personal qualities. To make the conversation realistic, the system generates a "synthetic memory"--a unique backstory for each user--that creates a throughline between the user's present age (between 18-30) and their life at age 60. The "Future You" character also adopts the persona of an age-progressed image of the user's present self. After a brief interaction with the "Future You" character, users reported decreased anxiety, and increased future self-continuity. This is the first study successfully demonstrating the use of personalized AI-generated characters to improve users' future self-continuity and wellbeing.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v8 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 微粒化IDと属性制御を用いた事前学習拡散モデルのための顔適応器

Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control ( http://arxiv.org/abs/2405.12970v2 )

ライセンス: Link先を確認
Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu, (参考訳) 現在の顔の再現と交換は、主にGANフレームワークに依存しているが、近年では、より優れた生成能力のために、事前訓練された拡散モデルに焦点が移っている。 しかし、これらのモデルのトレーニングはリソース集約的であり、その結果はまだ満足のいくパフォーマンスレベルに達していない。 この問題に対処するために,事前学習した拡散モデルに対する高精度かつ高忠実な顔編集のための,効率的かつ効果的なアダプタであるFace-Adapterを導入する。 顔の再現・スワッピング作業は、基本的にターゲット構造、ID、属性の組み合わせを含む。 1つのモデルで両方のタスクを達成するために、これらの要因のコントロールを十分に分離することを目指している。 具体的には,以下の方法を含む。 1) 正確なランドマーク及び背景を提供する空間条件発生装置 2) 変圧器デコーダにより顔の埋め込みをテキスト空間に転送するプラグイン・アンド・プレイのアイデンティティ・エンコーダ。 3) 空間条件と詳細な属性を統合する属性コントローラ Face-Adapterは、完全に調整された顔の再現/スワッピングモデルと比較して、モーションコントロールの精度、ID保持能力、生成品質において同等またはそれ以上の性能を達成する。 さらに、Face-Adapterは様々なStableDiffusionモデルとシームレスに統合される。

Current face reenactment and swapping methods mainly rely on GAN frameworks, but recent focus has shifted to pre-trained diffusion models for their superior generation capabilities. However, training these models is resource-intensive, and the results have not yet achieved satisfactory performance levels. To address this issue, we introduce Face-Adapter, an efficient and effective adapter designed for high-precision and high-fidelity face editing for pre-trained diffusion models. We observe that both face reenactment/swapping tasks essentially involve combinations of target structure, ID and attribute. We aim to sufficiently decouple the control of these factors to achieve both tasks in one model. Specifically, our method contains: 1) A Spatial Condition Generator that provides precise landmarks and background; 2) A Plug-and-play Identity Encoder that transfers face embeddings to the text space by a transformer decoder. 3) An Attribute Controller that integrates spatial conditions and detailed attributes. Face-Adapter achieves comparable or even superior performance in terms of motion control precision, ID retention capability, and generation quality compared to fully fine-tuned face reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates with various StableDiffusion models.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# バンディットとタブラルMDPの原則的・実践的政策グラディエントに向けて

Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs ( http://arxiv.org/abs/2405.13136v2 )

ライセンス: Link先を確認
Michael Lu, Matin Aghaei, Anant Raj, Sharan Vaswani, (参考訳) バンディットおよび表型マルコフ決定過程(MDP)に対する(確率的)ソフトマックスポリシー勾配(PG)法を検討する。 PG目的は非凹面であるが、最近の研究では、最適政策への収束を達成するために、目的の滑らかさと勾配支配特性を用いている。 しかし、これらの理論的結果は、未知の問題依存量(例えば、バンドイット問題における最適作用や真の報酬ベクトル)に応じてアルゴリズムパラメータを設定する必要がある。 この問題に対処するために、最適化文献からアイデアを借りて、厳密かつ確率的な設定で実用的で原則化されたPG手法を設計する。 正確な設定では、Armijo線探索を用いて、ソフトマックスPGのステップサイズを設定し、線形収束率を示す。 確率的設定では、指数関数的に減少するステップサイズを利用し、結果のアルゴリズムの収束率を特徴付ける。 提案アルゴリズムは,技術結果と類似した理論的保証を提供するが,オラクルのような量の知識は必要としないことを示す。 マルチアームバンディット設定の場合,提案手法は明示的な探索や報奨ギャップの知識,報奨分布,ノイズを必要としない理論的なPGアルゴリズムを実現する。 最後に,提案手法と託宣知識を必要とするPG手法を実証的に比較し,競合性能を実証する。

We consider (stochastic) softmax policy gradient (PG) methods for bandits and tabular Markov decision processes (MDPs). While the PG objective is non-concave, recent research has used the objective's smoothness and gradient domination properties to achieve convergence to an optimal policy. However, these theoretical results require setting the algorithm parameters according to unknown problem-dependent quantities (e.g. the optimal action or the true reward vector in a bandit problem). To address this issue, we borrow ideas from the optimization literature to design practical, principled PG methods in both the exact and stochastic settings. In the exact setting, we employ an Armijo line-search to set the step-size for softmax PG and demonstrate a linear convergence rate. In the stochastic setting, we utilize exponentially decreasing step-sizes, and characterize the convergence rate of the resulting algorithm. We show that the proposed algorithm offers similar theoretical guarantees as the state-of-the art results, but does not require the knowledge of oracle-like quantities. For the multi-armed bandit setting, our techniques result in a theoretically-principled PG algorithm that does not require explicit exploration, the knowledge of the reward gap, the reward distributions, or the noise. Finally, we empirically compare the proposed methods to PG approaches that require oracle knowledge, and demonstrate competitive performance.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 高エネルギー物理のためのローレンツ等変幾何代数変換器

Lorentz-Equivariant Geometric Algebra Transformers for High-Energy Physics ( http://arxiv.org/abs/2405.14806v2 )

ライセンス: Link先を確認
Jonas Spinner, Victor Bresó, Pim de Haan, Tilman Plehn, Jesse Thaler, Johann Brehmer, (参考訳) 粒子物理実験から科学的理解を抽出するには、高精度で優れたデータ効率で多様な学習問題を解く必要がある。 高エネルギー物理のための新しい多目的アーキテクチャであるLorentz Geometric Algebra Transformer (L-GATr)を提案する。 L-GATrは4次元時空上の幾何学代数における高エネルギーデータを表し、相対論的運動学の対称性群であるローレンツ変換の下で同変である。 同時に、アーキテクチャはTransformerであり、大規模システムに対して多用途でスケーラブルである。 L-GATrは、粒子物理学からの回帰および分類タスクで最初に実証された。 次に,L-GATrネットワークに基づく連続正規化フローを,リーマン流マッチングを用いて学習した最初のローレンツ同変生成モデルを構築した。 実験全体では、L-GATrは強いドメイン固有のベースラインに匹敵する、あるいは優れています。

Extracting scientific understanding from particle-physics experiments requires solving diverse learning problems with high precision and good data efficiency. We propose the Lorentz Geometric Algebra Transformer (L-GATr), a new multi-purpose architecture for high-energy physics. L-GATr represents high-energy data in a geometric algebra over four-dimensional space-time and is equivariant under Lorentz transformations, the symmetry group of relativistic kinematics. At the same time, the architecture is a Transformer, which makes it versatile and scalable to large systems. L-GATr is first demonstrated on regression and classification tasks from particle physics. We then construct the first Lorentz-equivariant generative model: a continuous normalizing flow based on an L-GATr network, trained with Riemannian flow matching. Across our experiments, L-GATr is on par with or outperforms strong domain-specific baselines.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 量子コンピューティングにおける海洋音響からのスパース構造行列のブロック符号化

Block encoding of sparse structured matrices coming from ocean acoustics in quantum computing ( http://arxiv.org/abs/2405.18007v2 )

ライセンス: Link先を確認
Chunlin Yang, Hongmei Yao, Zexian Li, Zhaobing Fan, Guofeng Zhang, Jianshe Liu, (参考訳) ブロック符号化は、量子コンピュータで一般的に使用されるデータ入力モデルである。 これは、$\left\|A/ \alpha \right\| \leq 1$ を満たす行列 $A$ をより大きなユニタリ行列 $U_{A}$ に埋め込む巧妙な手法である。 その複雑さはブロック符号化のフレームワークにおける量子アルゴリズムの複雑さに影響を与える可能性がある。 本稿では,すべてのデータ項目がすべての列に現れるという制約を取り除くことで,‘cite{camps2024explicit}’のブロックエンコーディングを一般化する,ブロックエンコーディングの新たな基本方式を提案する。 プリアンプリフィケーションと状態準備の手法を適用すると、ベーススキームはさらに改善され、特別な場合である \cite{sunderhauf2024block} よりも低レベルの \textit{figures of merit} が得られる。 次に,ブロック符号化方式におけるオーラクルの構成について詳述する。 海洋音響学から得られる特別なスパース構造行列を考慮すると、ブロック符号化のベーススキームの実現可能性を示す具体例が2つあり、その明示的な量子回路が実装されている。 最後に、対応する \verb|MATLAB| 符号を示し、量子回路を効果的にシミュレートする。

Block encoding is a data input model commonly used in a quantum computer. It is an ingenious technique that embeds a matrix $A$ satisfying $\left\|A/ \alpha \right\| \leq 1$ into a larger unitary matrix $U_{A}$. Its complexity can affect the complexity of quantum algorithms in the framework of block encoding. In this paper, a new base scheme of block encoding is given which generalizes the one in \cite{camps2024explicit} by removing the constraint that every data item should appear in all columns. And applying preamplification and state preparation methods, the base scheme is further improved, which results in lower \textit{figures of merit} than that in special case \cite{sunderhauf2024block}. Then, the construction of oracles in block encoding schemes are discussed in detail. Considering special sparse structured matrices coming from ocean acoustics, two concrete examples are used to illustrate the feasibility of the proposed base scheme of block encoding and their explicit quantum circuits are implemented. Finally, the corresponding \verb|MATLAB| codes are presented to effectively simulate the quantum circuits.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 静止状態脳波信号を用いたクロスオブジェクト脳波モータ画像分類のための主観適応移動学習

Subject-Adaptive Transfer Learning Using Resting State EEG Signals for Cross-Subject EEG Motor Imagery Classification ( http://arxiv.org/abs/2405.19346v2 )

ライセンス: Link先を確認
Sion An, Myeongkyun Kang, Soopil Kim, Philip Chikontwe, Li Shen, Sang Hyun Park, (参考訳) 脳波 (EEG) 運動画像分類 (MI) は、個人間の信号のばらつき、すなわち物体間の変動により、基本的な課題であるが難しい課題である。 以前のアプローチでは、トレーニング中の対象者からのタスク固有(TS)脳波信号を使用してこれを緩和しようとしていた。 しかし、TS EEG信号を記録するには、様々な分野での時間と適用性を制限する必要がある。 対照的に、安静状態(RS)脳波信号は、リッチな主題情報による取得が容易であるため、有効な代替手段である。 本稿では、RS EEG信号を用いて、未知の対象データにモデルを適用する新しい対象適応型トランスファー学習戦略を提案する。 具体的には、抽出した特徴をタスク依存的特徴と主観依存的特徴に分解し、RS脳波信号を校正し、課題情報を取得しながら対象特性を保存する。 次に、キャリブレーションされた信号を使用して対象対象にモデルを適応させ、対象対象対象のTS EEG信号の処理をシミュレートする。 提案手法は,3つの公開ベンチマーク上での最先端の精度を実現し,クロスオブジェクトEEG MI分類における本手法の有効性を実証する。 本研究は,脳-コンピュータインタフェースの実用化にRS脳波信号を活用する可能性を明らかにするものである。 コードはhttps://github.com/SionAn/MICCAI2024-ResTLで公開されている。

Electroencephalography (EEG) motor imagery (MI) classification is a fundamental, yet challenging task due to the variation of signals between individuals i.e., inter-subject variability. Previous approaches try to mitigate this using task-specific (TS) EEG signals from the target subject in training. However, recording TS EEG signals requires time and limits its applicability in various fields. In contrast, resting state (RS) EEG signals are a viable alternative due to ease of acquisition with rich subject information. In this paper, we propose a novel subject-adaptive transfer learning strategy that utilizes RS EEG signals to adapt models on unseen subject data. Specifically, we disentangle extracted features into task- and subject-dependent features and use them to calibrate RS EEG signals for obtaining task information while preserving subject characteristics. The calibrated signals are then used to adapt the model to the target subject, enabling the model to simulate processing TS EEG signals of the target subject. The proposed method achieves state-of-the-art accuracy on three public benchmarks, demonstrating the effectiveness of our method in cross-subject EEG MI classification. Our findings highlight the potential of leveraging RS EEG signals to advance practical brain-computer interface systems. The code is available at https://github.com/SionAn/MICCAI2024-ResTL.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 二重分子のモダリティとマルチサブストラクチャー・エンハンスメントによる医薬勧告

Medication Recommendation via Dual Molecular Modalities and Multi-Substructure Enhancement ( http://arxiv.org/abs/2405.20358v2 )

ライセンス: Link先を確認
Shi Mu, Shunpan Liang, Xiang Li, (参考訳) 医薬推奨は、患者の医療履歴とバイオメディカル知識を組み合わせることで、医師が薬の組合せをより正確かつ安全に決定するのを手助けする。 既存の分子知識に基づく研究は、分子の3次元幾何学的構造を無視し、医薬品の高次元情報を学ぶのに失敗し、構造的混乱をもたらす。 さらに、単一の患者訪問から重要なサブ構造を抽出せず、その結果、現在の患者訪問に適した薬物分子の同定に失敗する。 本稿では,2次元分子構造における高次元分子情報の欠如を克服し,原子3次元座標とエッジ指標を得るために3次元分子構造を導入するBiMoRecという2次元分子レコメンデーションフレームワークを提案する。 推薦システムの高速なトレーニングと予測効率を維持するため,2次元および3次元の分子グラフの融合と訪問レベルでのサブ構造の再評価を達成し,2次元の分子モード間の相互情報を最大化するために,両モードグラフのコントラスト事前学習を用いる。 具体的には、深層学習ネットワークを用いて、2次元および3次元分子構造表現とサブ構造表現を取得する事前学習手法を構築し、対照的な学習を通して相互情報を得る。 そして, トレーニングしたGNNモジュールを用いて融合分子表現を生成し, 患者の臨床歴と組み合わせて, サブ構造表現の関連性を再決定する。 最後に,抽出したサブ構造配列に基づいて最終薬品の組み合わせを生成する。 MIMIC-IIIおよびMIMIC-IVデータセットの実装により,本手法が最先端の性能を実現することを示す。 2番目のベースラインに比べて精度は2.07%向上し,DDIはベースラインと同じレベルに向上した。

Medication recommendation combines patient medical history with biomedical knowledge to assist doctors in determining medication combinations more accurately and safely. Existing works based on molecular knowledge neglect the 3D geometric structure of molecules and fail to learn the high-dimensional information of medications, leading to structural confusion. Additionally, it does not extract key substructures from a single patient visit, resulting in the failure to identify medication molecules suitable for the current patient visit. To address the above limitations, we propose a bimodal molecular recommendation framework named BiMoRec, which introduces 3D molecular structures to obtain atomic 3D coordinates and edge indices, overcoming the inherent lack of high-dimensional molecular information in 2D molecular structures. To retain the fast training and prediction efficiency of the recommendation system, we use bimodal graph contrastive pretraining to maximize the mutual information between the two molecular modalities, achieving the fusion of 2D and 3D molecular graphs and re-evaluating substructures at the visit level. Specifically, we use deep learning networks to construct a pretraining method that acquires 2D and 3D molecular structure representations and substructure representations, and obtain mutual information through contrastive learning. We then generate fused molecular representations using the trained GNN module and re-determine the relevance of substructure representations in combination with the patient's clinical history. Finally, we generate the final medication combination based on the extracted substructure sequences. Our implementation on the MIMIC-III and MIMIC-IV datasets demonstrates that our method achieves state-of-the-art performance. Compared to the second-best baseline, our model improves accuracy by 2.07%, with DDI at the same level as the baseline.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# Frieren: フローマッチングによる効率的なビデオ・ツー・オーディオ生成

Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching ( http://arxiv.org/abs/2406.00320v2 )

ライセンス: Link先を確認
Yongqi Wang, Wenxiang Guo, Rongjie Huang, Jiawei Huang, Zehan Wang, Fuming You, Ruiqi Li, Zhou Zhao, (参考訳) Video-to-audio (V2A) の生成は、サイレントビデオからコンテンツマッチング音声を合成することを目的としており、高世代品質、効率、ビジュアルオーディオ時間同期を備えたV2Aモデルを構築することは依然として困難である。 本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。 Frierenは、ノイズからスペクトルへの遅延したスペクトルへの条件伝達ベクトル場を直線的な経路で回帰し、ODEを解くことでサンプリングを行い、オーディオ品質の観点から自己回帰モデルとスコアベースモデルより優れている。 フィードフォワード変換器をベースとした非自己回帰ベクトル場推定器と、時間的アライメントの強いチャネルレベルのクロスモーダル特徴融合を用いて、入力ビデオと高度に同期した音声を生成する。 さらに,リフローと誘導ベクトル場による一段階蒸留により,本モデルでは,数回,あるいは1回のみのサンプリングステップで良好な音声を生成できる。 実験により、フリーレンはVGGSoundにおける生成品質と時間的アライメントの両方で最先端のパフォーマンスを達成し、アライメント精度は97.22%に達し、強力な拡散ベースラインよりも6.2%向上した。 オーディオサンプルはhttp://frieren-v2a.github.ioで入手できる。

Video-to-audio (V2A) generation aims to synthesize content-matching audio from silent video, and it remains challenging to build V2A models with high generation quality, efficiency, and visual-audio temporal synchrony. We propose Frieren, a V2A model based on rectified flow matching. Frieren regresses the conditional transport vector field from noise to spectrogram latent with straight paths and conducts sampling by solving ODE, outperforming autoregressive and score-based models in terms of audio quality. By employing a non-autoregressive vector field estimator based on a feed-forward transformer and channel-level cross-modal feature fusion with strong temporal alignment, our model generates audio that is highly synchronized with the input video. Furthermore, through reflow and one-step distillation with guided vector field, our model can generate decent audio in a few, or even only one sampling step. Experiments indicate that Frieren achieves state-of-the-art performance in both generation quality and temporal alignment on VGGSound, with alignment accuracy reaching 97.22%, and 6.2% improvement in inception score over the strong diffusion-based baseline. Audio samples are available at http://frieren-v2a.github.io .
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 127キュービットゲートモデルIBM量子コンピュータを用いた量子最適化は、非自明なバイナリ最適化問題に対して量子アニールより優れている。

Quantum optimization using a 127-qubit gate-model IBM quantum computer can outperform quantum annealers for nontrivial binary optimization problems ( http://arxiv.org/abs/2406.01743v2 )

ライセンス: Link先を確認
Natasha Sachdeva, Gavin S. Hartnett, Smarak Maity, Samuel Marsh, Yulun Wang, Adam Winick, Ryan Dougherty, Daniel Canuto, You Quan Chong, Michael Hush, Pranav S. Mundada, Christopher D. B. Bentley, Michael J. Biercuk, Yuval Baum, (参考訳) ゲートモデル量子コンピュータにおける二項組合せ最適化問題に対する包括的量子解法を導入する。 内部ワークフローの概要として、カスタマイズされたアンサッツと変分パラメータ更新戦略の統合、ハードウェア実行におけるエラーの効率的な抑制、ビットフリップエラーの修正のためのオーバーヘッドのない後処理について述べる。 我々は、この問題をIBMの量子コンピュータにベンチマークし、古典的な非自明なバイナリ最適化問題をいくつか行ない、古典的なシミュレーションやソリューションの事前知識を使わずに、ハードウェア上で最適化を行う。 まず、最大120キュービットの密度を持つランダムな正規グラフに対して、そのグラフトポロジがデバイス接続と一致しないようなランダムな正規グラフに対して、Max-Cutのインスタンスを正しく解く能力を示す。 次に, 線形, 二次, 立方体相互作用項を持つ127キュービットスピングラスモデルの高次二乗最適化に適用し, 基底状態エネルギーの探索に成功した。 この新しい量子解法は、DWaveアニールラーを用いて公表された結果と比較して最大$\sim1500\times$で最小エネルギーを見つける可能性を高め、アニールラーが故障した場合に正しい解を見つけることができる。 さらに、どちらの問題にも、Q-CTRLソルバは、追求された問題の相対的難易度を示すために用いられるヒューリスティック局所解器よりも優れる。 全体として、これらの結果はハードウェア上での解決に成功している最大の量子最適化であり、ゲートモデル量子コンピュータが二進最適化のクラスにおいてアニールを初めて上回ったことを実証している。

We introduce a comprehensive quantum solver for binary combinatorial optimization problems on gate-model quantum computers that outperforms any published alternative and consistently delivers correct solutions for problems with up to 127 qubits. We provide an overview of the internal workflow, describing the integration of a customized ansatz and variational parameter update strategy, efficient error suppression in hardware execution, and overhead-free post-processing to correct for bit-flip errors. We benchmark this solver on IBM quantum computers for several classically nontrivial unconstrained binary optimization problems -- the entire optimization is conducted on hardware with no use of classical simulation or prior knowledge of the solution. First, we demonstrate the ability to correctly solve Max-Cut instances for random regular graphs with a variety of densities using up to 120 qubits, where the graph topologies are not matched to device connectivity. Next, we apply the solver to higher-order binary optimization and successfully search for the ground state energy of a 127-qubit spin-glass model with linear, quadratic, and cubic interaction terms. Use of this new quantum solver increases the likelihood of finding the minimum energy by up to $\sim1,500\times$ relative to published results using a DWave annealer, and it can find the correct solution when the annealer fails. Furthermore, for both problem types, the Q-CTRL solver outperforms a heuristic local solver used to indicate the relative difficulty of the problems pursued. Overall, these results represent the largest quantum optimizations successfully solved on hardware to date, and demonstrate the first time a gate-model quantum computer has been able to outperform an annealer for a class of binary optimization problems.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# グローバルクリッパー:トランスフォーマーを用いた物体検出モデルの安全性と信頼性を高める

Global Clipper: Enhancing Safety and Reliability of Transformer-based Object Detection Models ( http://arxiv.org/abs/2406.03229v4 )

ライセンス: Link先を確認
Qutub Syed Sha, Michael Paulitsch, Karthik Pattabiraman, Korbinian Hagn, Fabian Oboril, Cornelius Buerkle, Kay-Ulrich Scholl, Gereon Hinz, Alois Knoll, (参考訳) トランスフォーマーをベースとした物体検出モデルが進むにつれ、自動運転車や航空といった重要な分野への影響が拡大すると予想されている。 推論中にビットフリップを引き起こすソフトエラーは、DNNのパフォーマンスに大きく影響し、予測が変更された。 CNNの従来の範囲制限ソリューションは、トランスフォーマーでは不足している。 本研究は,トランスフォーマーモデルに特化して設計された効果的な緩和戦略であるGlobal ClipperとGlobal Hybrid Clipperを紹介する。 ソフトエラーに対するレジリエンスを大幅に向上させ、欠陥推論を ~ 0 % に削減する。 また、3つのデータセットを用いて2つのトランスフォーマーモデル(DINO-DETRとLite-DETR)と2つのCNNモデル(YOLOv3とSSD)を包括的にモデルロバスト性を評価するために、64以上のシナリオにわたる広範なテストについて詳述した。 さらに、トランスにおける注目ブロックのユニークな側面とCNNとの運用上の差異について検討する。

As transformer-based object detection models progress, their impact in critical sectors like autonomous vehicles and aviation is expected to grow. Soft errors causing bit flips during inference have significantly impacted DNN performance, altering predictions. Traditional range restriction solutions for CNNs fall short for transformers. This study introduces the Global Clipper and Global Hybrid Clipper, effective mitigation strategies specifically designed for transformer-based models. It significantly enhances their resilience to soft errors and reduces faulty inferences to ~ 0\%. We also detail extensive testing across over 64 scenarios involving two transformer models (DINO-DETR and Lite-DETR) and two CNN models (YOLOv3 and SSD) using three datasets, totalling approximately 3.3 million inferences, to assess model robustness comprehensively. Moreover, the paper explores unique aspects of attention blocks in transformers and their operational differences from CNNs.
翻訳日:2024-07-10 23:11:39 公開日:2024-07-09
# 残差ストリームアクティベーション分析による大規模言語モデルの攻撃に対する防御

Defending Large Language Models Against Attacks With Residual Stream Activation Analysis ( http://arxiv.org/abs/2406.03230v3 )

ライセンス: Link先を確認
Amelia Kawasaki, Andrew Davis, Houssam Abbas, (参考訳) OpenAIのChatGPTによって実証されたLLM(Large Language Models)の普及は、これらのモデルに対する敵対的脅威に対して防御する義務を最前線にもたらす。 悪意のある入力を導入してLLMの出力を操作するこれらの攻撃は、モデルの整合性を損なうとともに、信頼ユーザが出力に配置する。 そこで本論文では,LLMの変圧器層間の残余の活性化解析を生かした,白箱がLLMにアクセスできる革新的な防御戦略を提案する。 そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。 複数のデータセットをキュレートして、この新しい攻撃データセットを含む複数のタイプの攻撃シナリオに対して、この方法で高い精度で分類する方法を実証します。 さらに,LLMの安全微調整技術を統合して,攻撃検出能力への影響を計測することで,モデルのレジリエンスを向上させる。 その結果,LLMの運用するセキュリティフレームワークを推進し,敵入力の検出・緩和におけるアプローチの有効性を実証した。

The widespread adoption of Large Language Models (LLMs), exemplified by OpenAI's ChatGPT, brings to the forefront the imperative to defend against adversarial threats on these models. These attacks, which manipulate an LLM's output by introducing malicious inputs, undermine the model's integrity and the trust users place in its outputs. In response to this challenge, our paper presents an innovative defensive strategy, given white box access to an LLM, that harnesses residual activation analysis between transformer layers of the LLM. We apply a novel methodology for analyzing distinctive activation patterns in the residual streams for attack prompt classification. We curate multiple datasets to demonstrate how this method of classification has high accuracy across multiple types of attack scenarios, including our newly-created attack dataset. Furthermore, we enhance the model's resilience by integrating safety fine-tuning techniques for LLMs in order to measure its effect on our capability to detect attacks. The results underscore the effectiveness of our approach in enhancing the detection and mitigation of adversarial inputs, advancing the security framework within which LLMs operate.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# ウィスパーと大規模言語モデルを用いた自発音声による自殺リスク検出

Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models ( http://arxiv.org/abs/2406.03882v2 )

ライセンス: Link先を確認
Ziyun Cui, Chang Lei, Wen Wu, Yinan Duan, Diyang Qu, Ji Wu, Runsen Chen, Chao Zhang, (参考訳) 自殺リスクの早期発見は、自殺未遂を予防するための介入を可能にするため重要である。 本研究は,10歳から18歳までの10歳以上の若年者を対象に,自発音声に基づく自殺リスクの自動検出を行い,15時間以上の自発音声を用いたマンダリンデータセットを収集する。 自発音声に埋め込まれた多様な音響的・言語的特徴を活用するために、Whisper音声モデルとテキスト大言語モデル(LLM)の両方が自殺リスク検出に使用される。 自殺リスク検出のための事前訓練モデルに適用するために全パラメータ微調整法とパラメータ効率細調整法の両方を用い、WhisperとLLMの表現を組み合わせるために複数のオーディオテキスト融合法を評価した。 提案システムでは,被験者119名を対象に,検出精度0.807,F1スコア0.846を実現し,実際の自殺リスク検出への応用の可能性を示した。

The early detection of suicide risk is important since it enables the intervention to prevent potential suicide attempts. This paper studies the automatic detection of suicide risk based on spontaneous speech from adolescents, and collects a Mandarin dataset with 15 hours of suicide speech from more than a thousand adolescents aged from ten to eighteen for our experiments. To leverage the diverse acoustic and linguistic features embedded in spontaneous speech, both the Whisper speech model and textual large language models (LLMs) are used for suicide risk detection. Both all-parameter finetuning and parameter-efficient finetuning approaches are used to adapt the pre-trained models for suicide risk detection, and multiple audio-text fusion approaches are evaluated to combine the representations of Whisper and the LLM. The proposed system achieves a detection accuracy of 0.807 and an F1-score of 0.846 on the test set with 119 subjects, indicating promising potential for real suicide risk detection applications.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# プロンプトは本当にプロンプトか? ウィスパーの能力を理解するプロンプトを探る

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper ( http://arxiv.org/abs/2406.05806v2 )

ライセンス: Link先を確認
Chih-Kai Yang, Kuan-Po Huang, Hung-yi Lee, (参考訳) 本研究は,ハイパフォーマンス音声認識モデルであるWhisperとプロンプトの情報がどのように相互作用するかを考察する。 我々は、正しい情報を持つプロンプトと誤った情報を持つプロンプトによるパフォーマンスの比較を行う。 結果から,Whisperは人為的に文章のプロンプトを理解できない可能性が示唆された。 さらに,テキストのプロンプトでトピック情報に強く依存しても,性能改善は保証されないことがわかった。 また、英語のプロンプトは、トレーニング前のシナリオとミスマッチしているにも関わらず、これらの言語のトレーニングデータ分布が異なるため、両方の言語のデータセットで一般的にマンダリンのプロンプトを上回っていることも指摘されている。 逆に,不正確な言語トークンを無視し,正しい言語トークンに注目することで,Whisperが言語トークンの誤解を招く情報を認識していることが判明した。 要約すると、我々はウィスパーの素早い理解と反直感的行動について洞察に富んだ疑問を提起する。 我々はさらなる研究を奨励する。

This research explores how the information of prompts interacts with the high-performing speech recognition model, Whisper. We compare its performances when prompted by prompts with correct information and those corrupted with incorrect information. Our results unexpectedly show that Whisper may not understand the textual prompts in a human-expected way. Additionally, we find that performance improvement is not guaranteed even with stronger adherence to the topic information in textual prompts. It is also noted that English prompts generally outperform Mandarin ones on datasets of both languages, likely due to differences in training data distributions for these languages despite the mismatch with pre-training scenarios. Conversely, we discover that Whisper exhibits awareness of misleading information in language tokens by ignoring incorrect language tokens and focusing on the correct ones. In sum, We raise insightful questions about Whisper's prompt understanding and reveal its counter-intuitive behaviors. We encourage further studies.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# 大規模逆問題に対する確率的最適化の一指針

A Guide to Stochastic Optimisation for Large-Scale Inverse Problems ( http://arxiv.org/abs/2406.06342v2 )

ライセンス: Link先を確認
Matthias J. Ehrhardt, Zeljko Kereta, Jingwei Liang, Junqi Tang, (参考訳) 確率最適化アルゴリズムは、大量のデータを持つ機械学習のデファクトスタンダードである。 各最適化ステップで利用可能なデータのサブセットのみを扱うことは、解に対する大きな進歩を保ちながら、イテレーションごとの計算コストを劇的に削減する。 大規模な最適化問題を可能な限り効率的に解決する必要があるため、過去10年間、この分野で研究が爆発的に活発化してきた。 機械学習と逆問題の間の並列性を活用することで、この研究波のパワーを利用して逆問題を解決することができる。 本稿では,逆問題の観点から,確率的最適化における最先端の総合的な説明を行う。 本稿では,問題ランダム化の多様性をもつアルゴリズムを提案し,分散低減,加速度,高次法,その他のアルゴリズム修正の役割について論じ,理論的結果と実践的振る舞いを比較した。 我々は,逆画像問題に特有の確率的最適化の可能性と課題に焦点をあてる。 本稿では,新しい世代のアルゴリズムが逆問題にもたらす利点とデメリットを検討するために,画像問題から図示的な例を用いて調査を締めくくる。

Stochastic optimisation algorithms are the de facto standard for machine learning with large amounts of data. Handling only a subset of available data in each optimisation step dramatically reduces the per-iteration computational costs, while still ensuring significant progress towards the solution. Driven by the need to solve large-scale optimisation problems as efficiently as possible, the last decade has witnessed an explosion of research in this area. Leveraging the parallels between machine learning and inverse problems has allowed harnessing the power of this research wave for solving inverse problems. In this survey, we provide a comprehensive account of the state-of-the-art in stochastic optimisation from the viewpoint of inverse problems. We present algorithms with diverse modalities of problem randomisation and discuss the roles of variance reduction, acceleration, higher-order methods, and other algorithmic modifications, and compare theoretical results with practical behaviour. We focus on the potential and the challenges for stochastic optimisation that are unique to inverse imaging problems and are not commonly encountered in machine learning. We conclude the survey with illustrative examples from imaging problems to examine the advantages and disadvantages that this new generation of algorithms bring to the field of inverse problems.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# ランダム回路の非圧縮性とスペクトルギャップ

Incompressibility and spectral gaps of random circuits ( http://arxiv.org/abs/2406.07478v2 )

ライセンス: Link先を確認
Chi-Fang Chen, Jeongwan Haah, Jonas Haferkamp, Yunchao Liu, Tony Metger, Xinyu Tan, (参考訳) ランダム可逆性と量子回路は、交互群 $\mathrm{Alt}(2^n)$ とユニタリ群 $\mathrm{SU}(2^n)$ のランダムウォークを形成する。 これらのランダムウォークの$t$-次モーメントのスペクトルギャップの既知の境界は、$n$と$t$の両方の逆多項式依存性を持つ。 ランダム可逆回路のギャップは、すべての$t\geq 1$に対して$Omega(n^{-3})$であり、ランダム量子回路のギャップは、$t \leq \Theta(2^{n/2})$に対して$Omega(n^{-3})$であることを示す。 これらのギャップは、それぞれのレギュレーションにおいて$t$とは独立である。 どちらのギャップも$n^{-1}/\mathrm{polylog}(n, t)$ for $t\leq 2^{\Theta(n)}$に改善できる。 1)$\mathcal{O}(n^4 t)$ gates form multiplicative-error $t$-wise independent (even) permutations for all $t\geq 1$; for $t \leq \Theta(2^{n/6.1})$, $\tilde{\mathcal{O}}(n^2 t)$ gates suffice。 2)$\mathcal{O}(n^4 t)$ gates form multiplicative-error unitary $t$-designs for $t \leq \Theta(2^{n/2})$; for $t\leq \Theta(2^{2n/5})$, that $\tilde{\mathcal{O}}(n^2t)$ gates suffice。 3) ランダム回路のロバストな量子回路の複雑さは指数関数的に長い時間直線的に増大し、ロバストなブラウン-ススキンド予想[BS18,BCHJ+21]が証明される。 我々のスペクトルギャップ境界は、ランダムな量子回路をより構造化されたウォークに還元することで証明される: [MPSY24] から ``$\mathrm{PFC}$ ensemble'' の修正と Kassabov [Kas07a] による交互群の拡張により、可逆回路を用いた効率的な実装を与える。 本研究では, フラストレーションを伴わないハミルトニアン研究のツールを用いて, ギャップを無くすことなく, 局所ランダム回路による構造ウォークを近似した。

Random reversible and quantum circuits form random walks on the alternating group $\mathrm{Alt}(2^n)$ and unitary group $\mathrm{SU}(2^n)$, respectively. Known bounds on the spectral gap for the $t$-th moment of these random walks have inverse-polynomial dependence in both $n$ and $t$. We prove that the gap for random reversible circuits is $\Omega(n^{-3})$ for all $t\geq 1$, and the gap for random quantum circuits is $\Omega(n^{-3})$ for $t \leq \Theta(2^{n/2})$. These gaps are independent of $t$ in the respective regimes. We can further improve both gaps to $n^{-1}/\mathrm{polylog}(n, t)$ for $t\leq 2^{\Theta(n)}$, which is tight up to polylog factors. Our spectral gap results have a number of consequences: 1) Random reversible circuits with $\mathcal{O}(n^4 t)$ gates form multiplicative-error $t$-wise independent (even) permutations for all $t\geq 1$; for $t \leq \Theta(2^{n/6.1})$, we show that $\tilde{\mathcal{O}}(n^2 t)$ gates suffice. 2) Random quantum circuits with $\mathcal{O}(n^4 t)$ gates form multiplicative-error unitary $t$-designs for $t \leq \Theta(2^{n/2})$; for $t\leq \Theta(2^{2n/5})$, we show that $\tilde{\mathcal{O}}(n^2t)$ gates suffice. 3) The robust quantum circuit complexity of random circuits grows linearly for an exponentially long time, proving the robust Brown--Susskind conjecture [BS18,BCHJ+21]. Our spectral gap bounds are proven by reducing random quantum circuits to a more structured walk: a modification of the ``$\mathrm{PFC}$ ensemble'' from [MPSY24] together with an expander on the alternating group due to Kassabov [Kas07a], for which we give an efficient implementation using reversible circuits. In our reduction, we approximate the structured walk with local random circuits without losing the gap, which uses tools from the study of frustration-free Hamiltonians.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# AdaNCA: よりロバストな視覚変換器のアダプターとしての神経細胞性オートマタ

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer ( http://arxiv.org/abs/2406.08298v4 )

ライセンス: Link先を確認
Yitao Xu, Tong Zhang, Sabine Süsstrunk, (参考訳) 視覚変換器(ViT)は画像分類タスクにおいて、特に局所的な注意や畳み込みによる局所的な情報を備えた場合、顕著な性能を示した。 このようなアーキテクチャは機能集約を粒度によって改善するが、ネットワークの堅牢性に寄与しないことが多い。 ニューラルセルオートマタ(NCA)は、局所的な相互作用を通じてグローバルなセル表現のモデリングを可能にし、そのトレーニング戦略とアーキテクチャ設計は、ノイズの多い入力に対して強力な一般化能力と堅牢性をもたらす。 本稿では,視覚変換器用Adaptor Neural Cellular Automata (AdaNCA)を提案する。 標準的なNAAの計算オーバーヘッドを克服するために,より効率的な対話学習のための動的インタラクションを提案する。 さらに,AdaNCAの配置解析とロバスト性改善に基づいて,AdaNCAの最も効果的な挿入点を同定するアルゴリズムを開発した。 パラメータの3%未満の増加により、AdaNCAはImageNet1Kベンチマークの敵攻撃下での精度の10%以上の絶対的な改善に貢献している。 さらに,8つのロバスト性ベンチマークと4つのViTアーキテクチャに対して,プラグインモジュールであるAdaNCAが常にViTのロバスト性を改善することを実証した。

Vision Transformers (ViTs) have demonstrated remarkable performance in image classification tasks, particularly when equipped with local information via region attention or convolutions. While such architectures improve the feature aggregation from different granularities, they often fail to contribute to the robustness of the networks. Neural Cellular Automata (NCA) enables the modeling of global cell representations through local interactions, with its training strategies and architecture design conferring strong generalization ability and robustness against noisy inputs. In this paper, we propose Adaptor Neural Cellular Automata (AdaNCA) for Vision Transformer that uses NCA as plug-in-play adaptors between ViT layers, enhancing ViT's performance and robustness against adversarial samples as well as out-of-distribution inputs. To overcome the large computational overhead of standard NCAs, we propose Dynamic Interaction for more efficient interaction learning. Furthermore, we develop an algorithm for identifying the most effective insertion points for AdaNCA based on our analysis of AdaNCA placement and robustness improvement. With less than a 3% increase in parameters, AdaNCA contributes to more than 10% absolute improvement in accuracy under adversarial attacks on the ImageNet1K benchmark. Moreover, we demonstrate with extensive evaluations across 8 robustness benchmarks and 4 ViT architectures that AdaNCA, as a plug-in-play module, consistently improves the robustness of ViTs.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# BAMBINO-LM:(バイリンガル-)Human-Inspired Continual Pretraining of BabyLM

BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM ( http://arxiv.org/abs/2406.11418v2 )

ライセンス: Link先を確認
Zhewen Shen, Aditya Joshi, Ruey-Cheng Chen, (参考訳) バイリンガルの背景を持つ子供たちは、両親や教師との交流によって、彼らの遺産言語を再取得する恩恵を受ける。 本稿では,この行動学習からの洞察を,小規模言語モデルの学習に組み込む方法について検討する。 本研究では,親のイタリアモデルから誘導されるリフレクションとPPOに基づくパープレキシティ報酬を組み合わせたBabyLMの継続事前学習戦略であるBAMBINO-LMを紹介する。 英語とイタリア語のゼロショット分類タスクを評価すると、BAMBINO-LMはBabyLMベースラインのイタリア語能力を向上させる。 我々のアブレーション分析は、この効果を得る上で、変更戦略とPPOに基づくモデリングの両方を活用することが重要であることを示している。 また, 副作用として, 提案手法は, 人間の子どもが同等の学習シナリオで持つようなL1の有効性の低下につながることを示した。 モデリングと発見を通じて、BAMBINO-LMは、まず人間にインスパイアされた事前学習戦略を開発し、それが人間の行動と似た行動をもたらすことを示すことで、小規模言語モデルの事前学習に焦点を合わせている。

Children from bilingual backgrounds benefit from interactions with parents and teachers to re-acquire their heritage language. In this paper, we investigate how this insight from behavioral study can be incorporated into the learning of small-scale language models. We introduce BAMBINO-LM, a continual pre-training strategy for BabyLM that uses a novel combination of alternation and PPO-based perplexity reward induced from a parent Italian model. Upon evaluation on zero-shot classification tasks for English and Italian, BAMBINO-LM improves the Italian language capability of a BabyLM baseline. Our ablation analysis demonstrates that employing both the alternation strategy and PPO-based modeling is key to this effectiveness gain. We also show that, as a side effect, the proposed method leads to a similar degradation in L1 effectiveness as human children would have had in an equivalent learning scenario. Through its modeling and findings, BAMBINO-LM makes a focused contribution to the pre-training of small-scale language models by first developing a human-inspired strategy for pre-training and then showing that it results in behaviours similar to that of humans.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# 言語モデルネットワークにおける問題解決

Problem-Solving in Language Model Networks ( http://arxiv.org/abs/2406.12374v3 )

ライセンス: Link先を確認
Ciaran Regan, Alexandre Gournail, Mizuki Oka, (参考訳) 大規模言語モデル(LLM)の推論と質問応答能力を改善するために,複数のマルチエージェントアプローチが導入されている。 これらの手法によって性能が向上する一方、複雑なネットワーク構造への集合的知能に基づくアプローチの適用やエージェント相互作用のダイナミクスは未解明のままである。 この研究は、より一般的なネットワークトポロジへのマルチエージェント論争の概念を拡張し、質問答えの正確さ、影響、コンセンサス、偏見の影響を計測する。 その結果,トークンが著しく少ないにもかかわらず,ランダムネットワークは完全接続ネットワークと類似して動作することがわかった。 さらに、エージェント間の強いコンセンサスは正しい回答と相関するが、分割された応答は典型的には間違った回答を示す。 エージェントの影響を分析することで、自己反射と相互接続性のバランスが明らかになる。 さらに、バイアスがシステムのパフォーマンスに強く影響し、正しくバイアスされたハブノードによってパフォーマンスが向上する。 これらの知見は, ランダムネットワークや, エージェントを中央に配置したスケールフリーネットワークを用いることで, マルチエージェントシステム全体の質問応答性能を向上させることを示唆している。

To improve the reasoning and question-answering capabilities of Large Language Models (LLMs), several multi-agent approaches have been introduced. While these methods enhance performance, the application of collective intelligence-based approaches to complex network structures and the dynamics of agent interactions remain underexplored. This work extends the concept of multi-agent debate to more general network topologies, measuring the question-answering accuracy, influence, consensus, and the effects of bias on the collective. The results show that random networks perform similarly to fully connected networks despite using significantly fewer tokens. Furthermore, a strong consensus among agents correlates with correct answers, whereas divided responses typically indicate incorrect answers. Analysing the influence of the agents reveals a balance between self-reflection and interconnectedness; self-reflection aids when local interactions are incorrect, and local interactions aid when the agent itself is incorrect. Additionally, bias plays a strong role in system performance with correctly biased hub nodes boosting performance. These insights suggest that using random networks or scale-free networks with knowledgeable agents placed in central positions can enhance the overall question-answering performance of multi-agent systems.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# Bayesian-LoRA: 最適な量子化レベルとランク値を用いたLoRAに基づくパラメータ調整

Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates ( http://arxiv.org/abs/2406.13046v2 )

ライセンス: Link先を確認
Cristian Meo, Ksenia Sycheva, Anirudh Goyal, Justin Dauwels, (参考訳) 自然言語処理では、一般的なドメイン上で1つのモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。 しかし、大規模言語モデルの場合、モデル全体の微調整は計算コストがかかるため、非常にエネルギー消費が増加する。 その結果、パラメータ効率の良い細調整(PEFT)手法が提案されている。 最も一般的なアプローチの1つはローランク適応(LoRA)であり、そこで重要な洞察は、事前訓練されたモデルの更新重みを2つのローランク行列に分解することである。 しかし、提案手法は、全ての異なる重み行列で同じランク値を用いており、これは準最適選択であることが示されているか、あるいはモデルのエネルギー消費に関して最も重要な要素である量子化技術を使用していないかのいずれかである。 本研究では,量子化レベルとランク値の両方の事前分布を用いて,ベイズ的視点から低ランク適応と量子化にアプローチするベイズ的ロラを提案する。 その結果、B-LoRAは特定の下流タスクで事前訓練されたモデルを微調整することができ、各低ランク行列に対して最適なランク値と量子化レベルを求めることができる。 GLUEベンチマークで事前学習したDeBERTaV3を微調整することにより,提案モデルの有効性を検証した。 さらに,これを関連するベースラインと比較し,定性的かつ定量的な結果を示し,提案手法が最適ランクの量子化行列をいかに学習できるかを示した。 B-LoRAはベースラインと同等以上の性能を示し、ベースライン法と比較してビット演算の総数を約70%削減する。

It is a common practice in natural language processing to pre-train a single model on a general domain and then fine-tune it for downstream tasks. However, when it comes to Large Language Models, fine-tuning the entire model can be computationally expensive, resulting in very intensive energy consumption. As a result, several Parameter Efficient Fine-Tuning (PEFT) approaches were recently proposed. One of the most popular approaches is low-rank adaptation (LoRA), where the key insight is decomposing the update weights of the pre-trained model into two low-rank matrices. However, the proposed approaches either use the same rank value across all different weight matrices, which has been shown to be a sub-optimal choice, or do not use any quantization technique, one of the most important factors when it comes to a model's energy consumption. In this work, we propose Bayesian-LoRA which approaches low-rank adaptation and quantization from a Bayesian perspective by employing a prior distribution on both quantization levels and rank values. As a result, B-LoRA is able to fine-tune a pre-trained model on a specific downstream task, finding the optimal rank values and quantization levels for every low-rank matrix. We validate the proposed model by fine-tuning a pre-trained DeBERTaV3 on the GLUE benchmark. Moreover, we compare it to relevant baselines and present both qualitative and quantitative results, showing how the proposed approach is able to learn optimal-rank quantized matrices. B-LoRA performs on par with or better than the baselines while reducing the total number of bit operations by roughly 70% compared to the baseline methods.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# 三部構造系における相関行列によるEPRステアリング基準とモノガミー関係

EPR Steering Criterion and Monogamy Relation via Correlation Matrices in Tripartite Systems ( http://arxiv.org/abs/2406.13290v2 )

ライセンス: Link先を確認
Li-Juan Li, Xiao-Gang Fan, Xue-Ke Song, Liu Ye, Dong Wang, (参考訳) 量子ステアリングは、量子力学において最もよく知られた非局所現象の1つであると考えられている。 エンタングルメントやベル非局所性とは異なり、量子ステアリングの非対称性は片側デバイス非依存の量子情報処理に不可欠である。 バイパルタイトシステムのステアリング検出には多くの進歩があったが、トリパルタイトシステムにおけるEPRステアリングの基準は依然として困難で不十分である。 本稿では,まず,相関行列を用いて,任意の3ビット状態に対する新規かつ有望な操舵基準を導出する。 さらに, 派生基準に基づいて, システムのトライパートライトステアリングとサブシステムのバイパートライトステアリングとのモノガミー関係を提案する。 最後に, ステアリング基準とモノガミーの関係を, いくつかの代表例を用いて示す。 この研究で提示された結果と手法は、近い将来、真のマルチパーティイト・ステアリングを捕捉する上で有益であると信じている。

Quantum steering is considered as one of the most well-known nonlocal phenomena in quantum mechanics. Unlike entanglement and Bell non-locality, the asymmetry of quantum steering makes it vital for one-sided device-independent quantum information processing. Although there has been much progress on steering detection for bipartite systems, the criterion for EPR steering in tripartite systems remains challenging and inadequate. In this paper, we firstly derive a novel and promising steering criterion for any three-qubit states via correlation matrix. Furthermore, we propose the monogamy relation between the tripartite steering of system and the bipartite steering of subsystems based on the derived criterion. Finally, as illustrations, we demonstrate the performance of the steering criterion and the monogamy relation by means of several representative examples. We believe that the results and methods presented in this work could be beneficial to capture genuine multipartite steering in the near future.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# 第2回eXplainable AI for the Arts(XAIxArts)国際ワークショップの開催報告

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) ( http://arxiv.org/abs/2406.14485v4 )

ライセンス: Link先を確認
Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni, (参考訳) この第2回説明可能なAI for the Arts(XAIxArts)に関する国際ワークショップは、HCI、インタラクションデザイン、AI、説明可能なAI(XAI)、デジタルアートの研究者のコミュニティを集めて、XAI for the Artsの役割を探求した。 第16回 ACM Conference on Creativity and Cognition (C&C 2024) でワークショップを開催した。

This second international workshop on explainable AI for the Arts (XAIxArts) brought together a community of researchers in HCI, Interaction Design, AI, explainable AI (XAI), and digital arts to explore the role of XAI for the Arts. Workshop held at the 16th ACM Conference on Creativity and Cognition (C&C 2024), Chicago, USA.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# TemPrompt: RAGベースのクラウドソーシングシステムにおける時間関係抽出のためのマルチタスクプロンプト学習

TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems ( http://arxiv.org/abs/2406.14825v4 )

ライセンス: Link先を確認
Jing Yang, Yu Zhao, Linyao Yang, Xiao Wang, Long Chen, Fei-Yue Wang, (参考訳) 時間的関係抽出(TRE)は、イベントや行動の進化を把握し、関連するタスクのワークフローを形成することを目的としており、クラウドソーシングシステムにおける要求者によるタスク要求の理解を支援することを約束している。 しかし、既存のメソッドは限定的で不均一に分散されたアノテートデータに苦戦している。 そこで本研究では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。 PLMのより効果的なプロンプトを引き出すため,タスク指向のプロンプト構築手法を導入し,TREの無数の要因を自動プロンプト生成に深く取り込む。 さらに,モデルがイベントや時間的手がかりに焦点をあてる際の補助的なタスクとして,マスク付き言語モデリングの形で時間的事象推論を設計する。 実験結果によると、TemPromptは標準設定と少数ショット設定の両方で、ほとんどのメトリクスで比較されたベースラインを上回っている。 プリント基板の設計および製造に関するケーススタディは,クラウドソーシングのシナリオにおける有効性を検証するために提供される。

Temporal relation extraction (TRE) aims to grasp the evolution of events or actions, and thus shape the workflow of associated tasks, so it holds promise in helping understand task requests initiated by requesters in crowdsourcing systems. However, existing methods still struggle with limited and unevenly distributed annotated data. Therefore, inspired by the abundant global knowledge stored within pre-trained language models (PLMs), we propose a multi-task prompt learning framework for TRE (TemPrompt), incorporating prompt tuning and contrastive learning to tackle these issues. To elicit more effective prompts for PLMs, we introduce a task-oriented prompt construction approach that thoroughly takes the myriad factors of TRE into consideration for automatic prompt generation. In addition, we design temporal event reasoning in the form of masked language modeling as auxiliary tasks to bolster the model's focus on events and temporal cues. The experimental results demonstrate that TemPrompt outperforms all compared baselines across the majority of metrics under both standard and few-shot settings. A case study on designing and manufacturing printed circuit boards is provided to validate its effectiveness in crowdsourcing scenarios.
翻訳日:2024-07-10 23:01:54 公開日:2024-07-09
# 破損した人間のフィードバックからのロバスト強化学習

Robust Reinforcement Learning from Corrupted Human Feedback ( http://arxiv.org/abs/2406.15568v2 )

ライセンス: Link先を確認
Alexander Bukharin, Ilgee Hong, Haoming Jiang, Zichong Li, Qingru Zhang, Zixuan Zhang, Tuo Zhao, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。 例えば、個人の偏見、文脈のあいまいさ、トレーニングの欠如など、さまざまな理由から、人間のアノテーションは誤った、あるいは一貫性のない選好ラベルを与えることがある。 この課題に対処するために、ロバストなRLHFアプローチ-$R^3M$を提案する。 したがって、ロバスト報酬学習を$\ell_1$-regularized maximum max estimation problemとして定式化する。 計算学的には,従来のRLHF手法に比べて計算オーバーヘッドが無視できるような,効率的な交互最適化アルゴリズムを開発した。 理論的には、適切な正則性条件下では、$R^3M$ が必ず基礎となる報酬を学習し、アウトリーチを識別できることが証明される。 さらに、$R^3M$は汎用的であり、直接選好最適化(DPO)を含む様々な選好最適化手法に拡張できる。 大規模言語モデル(LLMs)を用いたロボット制御と自然言語生成の実験により、R^3M$は好みデータに対する様々な摂動に対する報酬の堅牢性を向上させることが示された。

Reinforcement learning from human feedback (RLHF) provides a principled framework for aligning AI systems with human preference data. For various reasons, e.g., personal bias, context ambiguity, lack of training, etc, human annotators may give incorrect or inconsistent preference labels. To tackle this challenge, we propose a robust RLHF approach -- $R^3M$, which models the potentially corrupted preference label as sparse outliers. Accordingly, we formulate the robust reward learning as an $\ell_1$-regularized maximum likelihood estimation problem. Computationally, we develop an efficient alternating optimization algorithm, which only incurs negligible computational overhead compared with the standard RLHF approach. Theoretically, we prove that under proper regularity conditions, $R^3M$ can consistently learn the underlying reward and identify outliers, provided that the number of outlier labels scales sublinearly with the preference sample size. Furthermore, we remark that $R^3M$ is versatile and can be extended to various preference optimization methods, including direct preference optimization (DPO). Our experiments on robotic control and natural language generation with large language models (LLMs) show that $R^3M$ improves robustness of the reward against several types of perturbations to the preference data.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# AllMatch: セミスーパービジョンの学習のために、ラベルのないすべてのデータを爆発させる

AllMatch: Exploiting All Unlabeled Data for Semi-Supervised Learning ( http://arxiv.org/abs/2406.15763v2 )

ライセンス: Link先を確認
Zhiyu Wu, Jinshi Cui, (参考訳) 既存の半教師付き学習アルゴリズムでは、擬似ラベル付けおよび整合性制御技術を用いて、未ラベルサンプルの監視信号を導入する。 しきい値に基づく擬似ラベルの本来の限界を克服するために、従来の研究では、信頼度閾値と、未ラベルデータに基づく予測によって推定されるモデルの進化的学習状態との整合を試みてきた。 本稿では,分類器の重み付けにより,カテゴリ間での差分学習状態を反映し,クラス固有の適応しきい値機構を提案する。 さらに、最適しきい値スキームでさえ、ラベル付けされていないサンプルを廃棄する問題を解決できないことを考えると、バイナリ分類整合性規制アプローチは、全てのラベル付けされていないサンプルに対して負のオプションから候補クラスを区別するように設計されている。 以上の戦略を組み合わせることで、擬似ラベル精度の向上とラベルなしデータの100%利用率を実現する、AllMatchという新しいSSLアルゴリズムを提案する。 我々は、バランスの取れた設定とバランスの取れていない設定の両方を含む、複数のベンチマークに対するアプローチを広範囲に評価した。 その結果、AllMatchは既存の最先端メソッドよりも一貫して優れています。

Existing semi-supervised learning algorithms adopt pseudo-labeling and consistency regulation techniques to introduce supervision signals for unlabeled samples. To overcome the inherent limitation of threshold-based pseudo-labeling, prior studies have attempted to align the confidence threshold with the evolving learning status of the model, which is estimated through the predictions made on the unlabeled data. In this paper, we further reveal that classifier weights can reflect the differentiated learning status across categories and consequently propose a class-specific adaptive threshold mechanism. Additionally, considering that even the optimal threshold scheme cannot resolve the problem of discarding unlabeled samples, a binary classification consistency regulation approach is designed to distinguish candidate classes from negative options for all unlabeled samples. By combining the above strategies, we present a novel SSL algorithm named AllMatch, which achieves improved pseudo-label accuracy and a 100% utilization ratio for the unlabeled data. We extensively evaluate our approach on multiple benchmarks, encompassing both balanced and imbalanced settings. The results demonstrate that AllMatch consistently outperforms existing state-of-the-art methods.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# Dzyaloshinskii-Moriya相互作用を持つハイゼンベルクスピンチェーンモデルにおける量子電池

Quantum battery in the Heisenberg spin chain models with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2406.16047v2 )

ライセンス: Link先を確認
Xiang-Long Zhang, Xue-Ke Song, Dong Wang, (参考訳) 量子電池(Quantum Battery, QB)は、量子力学の原理に準拠したエネルギー貯蔵・抽出装置である。 本研究では,ハイゼンベルクスピン鎖モデルにおけるジアロシンスキー-モリヤ相互作用の欠如と存在下でのQBの特性について考察する。 以上の結果から,DM相互作用によりQBのエルゴトロピーとパワーが向上し,QBの並列充電性能が向上することが示唆された。 さらに、一階のコヒーレンスは充電中に重要な量子資源であり、セル間の量子ステアリングはQBのエネルギー貯蔵に寄与しないことがわかった。 本研究は,ハイゼンベルクスピンチェーンモデルとDM相互作用を用いたQBの特性を考察し,現実的な量子電池の枠組みにおける性能の獲得を促進するものである。

Quantum battery (QB) is an energy storage and extraction device conforming to the principles of quantum mechanics. In this study, we consider the characteristics of QBs for the Heisenberg spin chain models in the absence and presence of Dzyaloshinskii-Moriya (DM) interaction. Our results show that the DM interaction can enhance the ergotropy and power of QBs, which shows the collective charging can outperform parallel charging regarding QB's performance. Besides, it turns out that first-order coherence is a crucial quantum resource during charging, while quantum steering between the cells is not conducive to the energy storage of QBs. Our investigations offer insight into the properties of QBs with Heisenberg spin chain models with DM interaction and facilitate us to acquire the performance in the framework of realistic quantum batteries.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# PharmaGPT:生物薬理化学のためのドメイン特有な大規模言語モデル

PharmaGPT: Domain-Specific Large Language Models for Bio-Pharmaceutical and Chemistry ( http://arxiv.org/abs/2406.18045v3 )

ライセンス: Link先を確認
Linqing Chen, Weilei Wang, Zilong Bai, Peng Xu, Yan Fang, Jie Fang, Wentao Wu, Lizhi Zhou, Ruiji Zhang, Yubin Xia, Chaobo Xu, Ran Hu, Licong Xu, Qijun Cai, Haoran Hua, Jing Sun, Jin Liu, Tian Qiu, Haowen Liu, Meng Hu, Xiuwen Li, Fei Gao, Yufu Wang, Lin Tie, Chaochao Wang, Jianping Lu, Cheng Sun, Yixin Wang, Shengjie Yang, Yuancheng Li, Lu Jin, Lisha Zhang, Fu Bian, Zhongkai Ye, Lidong Pei, Changyang Tu, (参考訳) 大規模言語モデル(LLM)は、複雑な機能工学の必要性を最小限に抑えて、自然言語処理(NLP)に革命をもたらした。 しかし、生物医薬品や化学といった専門分野へのLSMの応用は、まだほとんど解明されていない。 これらの分野の特徴は、複雑な用語、専門知識、そして汎用LLMがしばしば不足する精度の高い領域に対する高い需要である。 本研究では,13億~70億のパラメータを持つドメインスペクライズされたLLMのスイートであるPharmaGPTについて紹介する。 評価の結果、PharmaGPTはNAPLEXなどの特定のベンチマークで既存の一般的なモデルを超えており、ドメイン固有タスクにおける例外的な能力を示している。 注目すべきことに、この性能は、ある分数しか持たないモデルで達成され、時には汎用的な大モデルのパラメータの10分の1に過ぎない。 この進歩は、バイオ医薬品および化学分野におけるLSMの新しいベンチマークを確立し、特殊言語モデリングにおける既存のギャップに対処する。 また、これらの領域でより正確かつ効果的なNLPアプリケーションを実現するために、研究と開発を強化するための有望な道が提案されている。

Large language models (LLMs) have revolutionized Natural Language Processing (NLP) by minimizing the need for complex feature engineering. However, the application of LLMs in specialized domains like biopharmaceuticals and chemistry remains largely unexplored. These fields are characterized by intricate terminologies, specialized knowledge, and a high demand for precision areas where general purpose LLMs often fall short. In this study, we introduce PharmaGPT, a suite of domain specilized LLMs with 13 billion and 70 billion parameters, specifically trained on a comprehensive corpus tailored to the Bio-Pharmaceutical and Chemical domains. Our evaluation shows that PharmaGPT surpasses existing general models on specific-domain benchmarks such as NAPLEX, demonstrating its exceptional capability in domain-specific tasks. Remarkably, this performance is achieved with a model that has only a fraction, sometimes just one-tenth-of the parameters of general-purpose large models. This advancement establishes a new benchmark for LLMs in the bio-pharmaceutical and chemical fields, addressing the existing gap in specialized language modeling. It also suggests a promising path for enhanced research and development, paving the way for more precise and effective NLP applications in these areas.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# 1段階逆プロセスによる生体画像の安定拡散分割

Stable Diffusion Segmentation for Biomedical Images with Single-step Reverse Process ( http://arxiv.org/abs/2406.18361v3 )

ライセンス: Link先を確認
Tianyu Lin, Zhiguang Chen, Zhonghao Yan, Weijiang Yu, Fudan Zheng, (参考訳) 拡散モデルは、様々な生成タスクにまたがってその効果を実証してきた。 しかしながら、医療画像のセグメンテーションに適用した場合、これらのモデルは、重要なリソースや時間要件を含むいくつかの課題に直面する。 彼らはまた、信頼できる予測を生成するために、多段階の逆プロセスと複数のサンプルを必要とする。 これらの課題に対処するために、我々はSDSegと呼ばれる、安定拡散(SD)に基づく最初の潜伏拡散分割モデルを導入する。 SDSegは、単一ステップの逆過程を容易にするために単純な潜伏推定戦略を取り入れ、複数のサンプルの必要性を取り除くために潜伏融合結合を利用する。 大規模な実験により、SDSegは、多様な画像モダリティを特徴とする5つのベンチマークデータセットにおいて、既存の最先端手法を超越していることが示されている。 注目すべきは、SDSegは、単独の逆ステップとサンプルで安定した予測を生成することができ、その名前によってモデルの安定性を表わすことができることである。 コードはhttps://github.com/lin-tianyu/Stable-Diffusion-Segで公開されている。

Diffusion models have demonstrated their effectiveness across various generative tasks. However, when applied to medical image segmentation, these models encounter several challenges, including significant resource and time requirements. They also necessitate a multi-step reverse process and multiple samples to produce reliable predictions. To address these challenges, we introduce the first latent diffusion segmentation model, named SDSeg, built upon stable diffusion (SD). SDSeg incorporates a straightforward latent estimation strategy to facilitate a single-step reverse process and utilizes latent fusion concatenation to remove the necessity for multiple samples. Extensive experiments indicate that SDSeg surpasses existing state-of-the-art methods on five benchmark datasets featuring diverse imaging modalities. Remarkably, SDSeg is capable of generating stable predictions with a solitary reverse step and sample, epitomizing the model's stability as implied by its name. The code is available at https://github.com/lin-tianyu/Stable-Diffusion-Seg
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# WildGuard: LLMの安全性リスク、脱獄、拒絶のためのオープンワンストップモデレーションツール

WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs ( http://arxiv.org/abs/2406.18495v2 )

ライセンス: Link先を確認
Seungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri, (参考訳) 本研究では,LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介し,(1)ユーザプロンプトにおける悪意の識別,(2)モデル応答の安全性リスクの検出,(3)モデル拒絶率の決定という3つの目標を達成する。 WildGuardは、LLMインタラクションの自動安全性調整と評価の必要性を高め、13のリスクカテゴリにまたがる精度と広範なカバレッジを向上したワンストップツールを提供する。 Llama-Guard2のような既存のオープンモデレーションツールは、単純なモデルインタラクションの分類において合理的に優れているが、特に敵のジェイルブレイクを特定し、モデル応答における安全行動を評価するための重要な指標であるモデルの拒絶を評価する際に、GPT-4よりもはるかに遅れている。 これらの課題に対処するため、我々は、Vanilla(直接)プロンプトと敵ジェイルブレイクをカバーする92Kラベルの例を使って、大規模かつ慎重にバランスの取れたマルチタスクセーフティモデレーションデータセットであるWildGuardMixを構築し、さまざまな拒否応答とコンプライアンス応答を組み合わせました。 WildGuardMixは、WildGuardのトレーニングデータであるWildGuardTrainと、幅広いリスクシナリオをカバーする5Kラベルのアイテムを備えた高品質な人間アノテーションによるモデレーションテストセットであるWildGuardTestを組み合わせたものだ。 WildGuardTestと既存の10の公開ベンチマークに関する広範な評価を通じて、WildGuardは、既存の10つの強力なオープンソースモデレーションモデル(例えば、最大26.4%の拒絶検出の改善)と比較して、オープンソースの安全モデレーションにおける最先端のパフォーマンスを3つのタスクすべてにわたって確立していることを示す。 重要な点として、WildGuard は GPT-4 のパフォーマンスを上回り、時には GPT-4 を上回ります。 ワイルドガードはLLMインタフェースの安全性の高いモデレーターとして機能し、ジェイルブレイク攻撃の成功率を79.8%から2.4%に下げている。

We introduce WildGuard -- an open, light-weight moderation tool for LLM safety that achieves three goals: (1) identifying malicious intent in user prompts, (2) detecting safety risks of model responses, and (3) determining model refusal rate. Together, WildGuard serves the increasing needs for automatic safety moderation and evaluation of LLM interactions, providing a one-stop tool with enhanced accuracy and broad coverage across 13 risk categories. While existing open moderation tools such as Llama-Guard2 score reasonably well in classifying straightforward model interactions, they lag far behind a prompted GPT-4, especially in identifying adversarial jailbreaks and in evaluating models' refusals, a key measure for evaluating safety behaviors in model responses. To address these challenges, we construct WildGuardMix, a large-scale and carefully balanced multi-task safety moderation dataset with 92K labeled examples that cover vanilla (direct) prompts and adversarial jailbreaks, paired with various refusal and compliance responses. WildGuardMix is a combination of WildGuardTrain, the training data of WildGuard, and WildGuardTest, a high-quality human-annotated moderation test set with 5K labeled items covering broad risk scenarios. Through extensive evaluations on WildGuardTest and ten existing public benchmarks, we show that WildGuard establishes state-of-the-art performance in open-source safety moderation across all the three tasks compared to ten strong existing open-source moderation models (e.g., up to 26.4% improvement on refusal detection). Importantly, WildGuard matches and sometimes exceeds GPT-4 performance (e.g., up to 3.9% improvement on prompt harmfulness identification). WildGuard serves as a highly effective safety moderator in an LLM interface, reducing the success rate of jailbreak attacks from 79.8% to 2.4%.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# FHEベースのプライバシ保護クラウドコンピューティングのためのセキュアなアウトソース復号化

Secure Outsourced Decryption for FHE-based Privacy-preserving Cloud Computing ( http://arxiv.org/abs/2406.19964v2 )

ライセンス: Link先を確認
Xirong Ma, Chuan Li, Yuchang Hu, Yunting Tao, Yali Jiang, Yanbin Li, Fanyu Kong, Chunpeng Ge, (参考訳) 大量のデータ処理の需要は、機械学習技術の進歩により劇的に急増している。 大規模データ処理は、かなりの計算資源を必要とするため、個人や企業がクラウドサービスに目を向けるよう促す。 この傾向に対応することは、データ漏洩と誤用に関する懸念が高まっている。 ホモモルフィック暗号化(HE)は、データのプライバシを保護するためのソリューションのひとつであり、暗号化されたデータをクラウドでセキュアに処理できるようにする。 しかし、いくつかのHEスキームの暗号化と復号ルーチンは相当な計算資源を必要としており、クライアントにとっては簡単な作業である。 本稿では、RLWEをベースとした完全同型暗号方式のためのアウトソース復号化プロトコルを提案する。 このプロトコルは、元の復号化を2つのルーチンに分割し、計算集約的な部分はクラウドによってリモートで実行される。 そのセキュリティは、新たに設計されたブラインドキー分布を持つNTRU-search問題の不変性に依存している。 暗号化分析を行い、プロトコルパラメータを様々なセキュリティレベルにわたって設定する。 実験により,提案プロトコルはクライアントのローカル復号化において最大6,7 %の高速化を実現し,空間使用量の50 %の削減を図った。

The demand for processing vast volumes of data has surged dramatically due to the advancement of machine learning technology. Large-scale data processing necessitates substantial computational resources, prompting individuals and enterprises to turn to cloud services. Accompanying this trend is a growing concern regarding data leakage and misuse. Homomorphic encryption (HE) is one solution for safeguarding data privacy, enabling encrypted data to be processed securely in the cloud. However, the encryption and decryption routines of some HE schemes require considerable computational resources, presenting non-trivial work for clients. In this paper, we propose an outsourced decryption protocol for the prevailing RLWE-based fully homomorphic encryption schemes. The protocol splits the original decryption into two routines, with the computationally intensive part executed remotely by the cloud. Its security relies on an invariant of the NTRU-search problem with a newly designed blinding key distribution. Cryptographic analyses are conducted to configure protocol parameters across varying security levels. Our experiments demonstrate that the proposed protocol achieves up to a $67\%$ acceleration in the client's local decryption, accompanied by a $50\%$ reduction in space usage.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# Kermut: タンパク質変異効果のための複合カーネルレグレッション

Kermut: Composite kernel regression for protein variant effects ( http://arxiv.org/abs/2407.00002v2 )

ライセンス: Link先を確認
Peter Mørch Groth, Mads Herbert Kerrn, Lars Olsen, Jesper Salomon, Wouter Boomsma, (参考訳) タンパク質変異効果の信頼性予測は、タンパク質最適化と生物学的理解の促進の両方に不可欠である。 タンパク質工学の実用化のためには, 予測に対して信頼性の高い不確実性推定を行うことも重要であり, 予測精度は近年大きく進歩しているものの, 不確実性指標が報告されることは稀である。 ここでは,変異類似性をモデル化するための新しい複合カーネルを備えたガウスプロセス回帰モデルKermutについて述べる。 不確実性推定の品質分析は、我々のモデルが全体的なキャリブレーションの有意義なレベルを提供することを示したが、インスタンス固有の不確実性キャリブレーションはより難しいままである。 この将来的な方向に進むことを願っている」と述べた。

Reliable prediction of protein variant effects is crucial for both protein optimization and for advancing biological understanding. For practical use in protein engineering, it is important that we can also provide reliable uncertainty estimates for our predictions, and while prediction accuracy has seen much progress in recent years, uncertainty metrics are rarely reported. We here provide a Gaussian process regression model, Kermut, with a novel composite kernel for modelling mutation similarity, which obtains state-of-the-art performance for protein variant effect prediction while also offering estimates of uncertainty through its posterior. An analysis of the quality of the uncertainty estimates demonstrates that our model provides meaningful levels of overall calibration, but that instance-specific uncertainty calibration remains more challenging. We hope that this will encourage future work in this promising direction.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# Mooncake: LLM実行のためのKVキャッシュ中心の分散アーキテクチャ

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving ( http://arxiv.org/abs/2407.00079v3 )

ライセンス: Link先を確認
Ruoyu Qin, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, Xinran Xu, (参考訳) ムーンケーキ(Mooncake)は、ムーンショットAIが提供するLLMサービスであるキミのサービスプラットフォームである。 プリフィルとデコードクラスタを分離するKVCache中心の非集約アーキテクチャを備えている。 また、GPUクラスタの未使用CPU、DRAM、SSDリソースを活用して、KVCacheの非集約キャッシュを実装している。 Mooncakeのコアとなるのは、KVCache中心のスケジューラで、レイテンシに関連するサービスレベルオブジェクト(SLO)を満たしながら、全体的な効率的なスループットを最大化する。 すべての要求が処理されると仮定する従来の研究とは異なり、Mooncakeは過負荷のシナリオのために課題に直面している。 これらを緩和するため,予測に基づく早期拒絶政策を開発した。 実験によると、Mooncakeは長いコンテキストのシナリオで優れている。 ベースライン法と比較して、MooncakeはSLOに固執しながらシミュレーションシナリオのスループットを最大525%向上させることができる。 実際のワークロード下では、Mooncakeの革新的なアーキテクチャにより、Kimiは75%以上のリクエストを処理することができる。

Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI. It features a KVCache-centric disaggregated architecture that separates the prefill and decoding clusters. It also leverages the underutilized CPU, DRAM, and SSD resources of the GPU cluster to implement a disaggregated cache of KVCache. The core of Mooncake is its KVCache-centric scheduler, which balances maximizing overall effective throughput while meeting latency-related Service Level Objectives (SLOs). Unlike traditional studies that assume all requests will be processed, Mooncake faces challenges due to highly overloaded scenarios. To mitigate these, we developed a prediction-based early rejection policy. Experiments show that Mooncake excels in long-context scenarios. Compared to the baseline method, Mooncake can achieve up to a 525% increase in throughput in certain simulated scenarios while adhering to SLOs. Under real workloads, Mooncake's innovative architecture enables Kimi to handle 75% more requests.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# LLMによる微細・多次元要約評価

Fine-grained, Multi-dimensional Summarization Evaluation with LLMs ( http://arxiv.org/abs/2407.00908v2 )

ライセンス: Link先を確認
Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour, (参考訳) テキスト要約ベンチマークとモデル開発の合理化には自動評価が不可欠である。 ROUGEのような従来の手法は人間の判断とよく相関しないが、最近提案されたLCMベースのメトリクスは、Likertスケールスコアを用いた要約レベルの評価のみを提供する。 これは、例えば、1つの幻覚スコアを要約レベルで割り当てることしかできず、文レベルでは幻覚を含む文を数えることができる。 この制限を緩和するために,大言語モデル (LLM) を用いた要約タスクに適した細粒度評価器である FineSurE を提案する。 また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。 オープンソースとプロプライエタリなLLMをFineSurEのバックボーンとして比較する。 さらに,NLI法,QA法,LLM法などのSOTA法に対して,FinSurEの広範囲なベンチマークを行い,特に完全性および簡潔性に関する性能向上を示す。 コードはhttps://github.com/DISL-Lab/FineSurE-ACL24で公開されている。

Automated evaluation is crucial for streamlining text summarization benchmarking and model development, given the costly and time-consuming nature of human evaluation. Traditional methods like ROUGE do not correlate well with human judgment, while recently proposed LLM-based metrics provide only summary-level assessment using Likert-scale scores. This limits deeper model analysis, e.g., we can only assign one hallucination score at the summary level, while at the sentence level, we can count sentences containing hallucinations. To remedy those limitations, we propose FineSurE, a fine-grained evaluator specifically tailored for the summarization task using large language models (LLMs). It also employs completeness and conciseness criteria, in addition to faithfulness, enabling multi-dimensional assessment. We compare various open-source and proprietary LLMs as backbones for FineSurE. In addition, we conduct extensive benchmarking of FineSurE against SOTA methods including NLI-, QA-, and LLM-based methods, showing improved performance especially on the completeness and conciseness dimensions. The code is available at https://github.com/DISL-Lab/FineSurE-ACL24.
翻訳日:2024-07-10 22:52:10 公開日:2024-07-09
# 伝熱力学における非線形対流効果のベイズ灰色の箱同定

Bayesian grey-box identification of nonlinear convection effects in heat transfer dynamics ( http://arxiv.org/abs/2407.01226v2 )

ライセンス: Link先を確認
Wouter M. Kouw, Caspar Gruijthuijsen, Lennart Blanken, Enzo Evers, Timothy Rogers, (参考訳) 熱伝達力学における対流を同定する計算手法を提案する。 この手順は、導電効果と線形対流効果のホワイトボックス成分(すなわち既知の物理学)と非線形対流効果のブラックボックス成分として作用するガウス過程からなるガウス過程潜在力モデルに基づいている。 状態はベイズ的滑らか化を通して推定され、ラプラス法を用いてカーネル共分散関数のハイパーパラメータの近似後部分布を求める。 非線形対流関数はベイズ回帰モデルを用いてガウス過程状態から回収される。 同定された非線形対流関数を用いてシミュレーション誤差による手順をシミュレーションシステムからのデータと物理アセンブリからの測定の両方に基づいて検証する。

We propose a computational procedure for identifying convection in heat transfer dynamics. The procedure is based on a Gaussian process latent force model, consisting of a white-box component (i.e., known physics) for the conduction and linear convection effects and a Gaussian process that acts as a black-box component for the nonlinear convection effects. States are inferred through Bayesian smoothing and we obtain approximate posterior distributions for the kernel covariance function's hyperparameters using Laplace's method. The nonlinear convection function is recovered from the Gaussian process states using a Bayesian regression model. We validate the procedure by simulation error using the identified nonlinear convection function, on both data from a simulated system and measurements from a physical assembly.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# 効率的な共感:共感データの効率的かつ効果的な選択に向けて

Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data ( http://arxiv.org/abs/2407.01937v2 )

ライセンス: Link先を確認
Linzhuang Sun, Hao Liang, Jingxuan Wei, Linkun Sun, Bihui Yu, Bin Cui, Wentao Zhang, (参考訳) 近年,大規模言語モデル(LLM)の急速な進歩に伴い,共感的応答能力の向上が重要視されている。 その結果,大規模ビデオデータセットの管理と理解の重要性が高まっている。 しかし、共感的データは一般に品質の選択なしに訓練され、非効率なデータ利用と計算資源の浪費につながる。 さらに、生データを使用することで共感的対話の性能が低下する可能性がある。 本研究では,低品質データを捨てつつ,感性・合理性データを自動的に選択する,感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。 センシティビリティデータ(全データセットの59%)だけで、トレーニングされたセンシティビリティモデルは、最先端(SoTA)のパフォーマンスを効率的に達成できます。 さらに、複数のデータ選択ハイパーパラメーターを用いて、感性モデルによりSoTAの性能を実証し、本手法の堅牢性を示す。 感度と合理性データをMoE構造と組み合わせることで、より高い性能を実現し、効率的な共感アルゴリズムの有効性を実証する。

In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capability has become a crucial prerequisite. Consequently, managing and understanding large-scale video datasets has gained increasing importance. However, empathetic data are typically trained without any quality selection, leading to inefficient data usage and wasted computational resources. Additionally, using raw data can result in low performance in empathetic dialogues. In this work, we present Efficient-Empathy, a sensibility and rationality score-based data selection algorithm that automatically selects sensibility and rationality data while discarding low-quality data. With only the sensibility data (59% of the full dataset), our trained sensibility model efficiently achieves state-of-the-art (SoTA) performance. Furthermore, with multiple data selection hyperparameters, the sensibility model demonstrates SoTA performance, showcasing the robustness of our method. By integrating sensibility and rationality data with a MoE structure, we achieve even higher performance, demonstrating the effectiveness of our Efficient-Empathy algorithm.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# オン・ポリティクスとアクティブ・ラーニングを用いたコスト効果プロキシ・リワードモデルの構築

Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning ( http://arxiv.org/abs/2407.02119v2 )

ライセンス: Link先を確認
Yifang Chen, Shuohang Wang, Ziyi Yang, Hiteshi Sharma, Nikos Karampatziakis, Donghan Yu, Kevin Jamieson, Simon Shaolei Du, Yelong Shen, (参考訳) 現在の大規模言語モデルパイプラインで広く採用されているRLHF(Reinforcement Learning with Human feedback)は、人間の嗜好データのサイズに悩まされている。 従来の手法はオフラインの選好データセット構築に依存しているが、近年のオンライン設定では、学習者が少量のラベル付きシードデータとラベルなしの大量のプロンプトを使用して、自己生成された応答と高品質の報酬/参照フィードバックを通じて、新しい選好データを反復的に構築する。 しかし、現在のほとんどのオンラインアルゴリズムは、与えられたフィードバックのオーラクルでポリシーモデルの更新中に好みのラベル付けに重点を置いている。 私たちは、非常に限定されたラベル付きデータと専門的なクエリ予算で、さらにレコメンデーションや報酬をラベル付けするためのコスト効果の高いプロキシ報酬オークレス構築戦略を最初に探求しました。 提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。 これらの手法を用いて、専門家ラベル付きデータを最小限に抑えた評価モデルを訓練し、さらにRLHFトレーニングの9倍の選好ペアを効果的にラベル付けする。 例えば、DPO(Direct Preference Optimization)を用いたモデルでは、AlpacaEval2、MMLU-5shot、MMLU-0shotで平均1%以上の改善が得られ、クエリコストは1.7Kである。 我々の方法論は、他の専門家によるクエリベースの戦略と直交しているため、クエリコストをさらに削減するために、それらと統合される可能性がある。

Reinforcement learning with human feedback (RLHF), as a widely adopted approach in current large language model pipelines, is \textit{bottlenecked by the size of human preference data}. While traditional methods rely on offline preference dataset constructions, recent approaches have shifted towards online settings, where a learner uses a small amount of labeled seed data and a large pool of unlabeled prompts to iteratively construct new preference data through self-generated responses and high-quality reward/preference feedback. However, most current online algorithms still focus on preference labeling during policy model updating with given feedback oracles, which incurs significant expert query costs. \textit{We are the first to explore cost-effective proxy reward oracles construction strategies for further labeling preferences or rewards with extremely limited labeled data and expert query budgets}. Our approach introduces two key innovations: (1) on-policy query to avoid OOD and imbalance issues in seed data, and (2) active learning to select the most informative data for preference queries. Using these methods, we train a evaluation model with minimal expert-labeled data, which then effectively labels nine times more preference pairs for further RLHF training. For instance, our model using Direct Preference Optimization (DPO) gains around over 1% average improvement on AlpacaEval2, MMLU-5shot and MMLU-0shot, with only 1.7K query cost. Our methodology is orthogonal to other direct expert query-based strategies and therefore might be integrated with them to further reduce query costs.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# GemmAr:アラビア語の指導によるLLMの強化

GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning ( http://arxiv.org/abs/2407.02147v2 )

ライセンス: Link先を確認
Hasna Chouikhi, Manel Aloui, Cyrine Ben Hammou, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi, (参考訳) 大規模言語モデル(LLM)は、特に英語の自然言語処理(NLP)分野に大きな影響を与えている。 これらのモデルは、人間のようなテキストを理解して生成する能力を示している。 言語モデルの成功は、様々なプロンプトに正確に対処するためにモデルのトレーニングに不可欠である詳細なタスク記述とそれに対応する応答からなる高品質な命令データセットの可用性に大きく依存する。 しかし、これらのリソースの可用性と品質は言語によって異なる。 モデルは英語でうまく機能するが、微調整のアラビア特化タスクのためのデータセットが不足しているため、アラビア語のような言語を援助する必要があることが多い。 InstAr-500kは、複数のドメインと命令タイプをカバーするコンテンツを生成し、収集するアラビア文字の命令データセットである。 我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。 複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。 これらの結果は、アラビア語の言語モデルの能力を高めるために、我々のデータセットの有効性を強調している。 我々の指導データセットは、アラビア語のNLP開発を増幅するリソースを提供することで、英語とアラビア語のモデルのパフォーマンスギャップを埋める。 この基礎の上に構築したモデルGemmAr-7B-V1は、アラビア語のNLPタスクを多種多様なタスクで実行するために特別に調整された。

Large language models (LLMs) have greatly impacted the natural language processing (NLP) field, particularly for the English language. These models have demonstrated capabilities in understanding and generating human-like text. The success of language models largely depends on the availability of high-quality instruction datasets, which consist of detailed task descriptions and corresponding responses that are essential for training the models to address a variety of prompts accurately. However, the availability and quality of these resources vary by language. While models perform well in English, they often need help with languages like Arabic, due to the lack of datasets for fine-tuning Arabic-specific tasks. To address this issue, we introduce InstAr-500k, a new Arabic instruction dataset created by generating and collecting content that covers several domains and instruction types. We assess this dataset by fine-tuning an open-source Gemma-7B model on several downstream tasks to improve its functionality. Based on multiple evaluations, our fine-tuned model achieves excellent performance on several Arabic NLP benchmarks. These outcomes emphasize the effectiveness of our dataset in elevating the capabilities of language models for Arabic. Our instruction dataset bridges the performance gap between English and Arabic language models by providing resources that amplify Arabic NLP development. Building on this foundation, we developed a model, GemmAr-7B-V1, specifically tuned to excel at a wide range of Arabic NLP tasks.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# EvolBA: ハードラベルブラックボックス条件下での進化的境界攻撃

EvolBA: Evolutionary Boundary Attack under Hard-label Black Box condition ( http://arxiv.org/abs/2407.02248v3 )

ライセンス: Link先を確認
Ayane Tajima, Satoshi Ono, (参考訳) 研究によると、ディープニューラルネットワーク(DNN)には、特別に設計された摂動を伴う敵例(AE)の誤認識につながる脆弱性がある。 強ラベルブラックボックス(HL-BB)条件下で、損失勾配や信頼度が欠如している場合の脆弱性を検出するために、様々な逆攻撃法が提案されているが、これらの手法は、探索空間の局所領域のみを探索するため、局所的な解に該当する。 そこで本研究では, HL-BB条件下での共分散行列適応進化戦略(CMA-ES)を用いて, AE を生成するための EvolBA という逆攻撃手法を提案する。 公式駆動型教師あり学習にインスパイアされた本手法では,初期化プロセスにドメインに依存しない演算子を導入し,探索の強化を図る。 実験結果から,提案手法は,従来の手法が困難であった画像において,従来の手法よりも摂動の少ないAEを決定できることを確認した。

Research has shown that deep neural networks (DNNs) have vulnerabilities that can lead to the misrecognition of Adversarial Examples (AEs) with specifically designed perturbations. Various adversarial attack methods have been proposed to detect vulnerabilities under hard-label black box (HL-BB) conditions in the absence of loss gradients and confidence scores.However, these methods fall into local solutions because they search only local regions of the search space. Therefore, this study proposes an adversarial attack method named EvolBA to generate AEs using Covariance Matrix Adaptation Evolution Strategy (CMA-ES) under the HL-BB condition, where only a class label predicted by the target DNN model is available. Inspired by formula-driven supervised learning, the proposed method introduces domain-independent operators for the initialization process and a jump that enhances search exploration. Experimental results confirmed that the proposed method could determine AEs with smaller perturbations than previous methods in images where the previous methods have difficulty.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# GNNバックドアに対するグラフ削減のロバスト性について

On the Robustness of Graph Reduction Against GNN Backdoor ( http://arxiv.org/abs/2407.02431v2 )

ライセンス: Link先を確認
Yuxuan Zhu, Michael Mandulak, Kerui Wu, George Slota, Yuseok Jeon, Ka-Ho Chow, Lei Yu, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データ学習の有効性から,さまざまな領域で人気を集めている。 それにもかかわらず、バックドア中毒の攻撃を受けやすいことが示されており、これは現実世界の応用に深刻な脅威をもたらしている。 一方,大規模グラフ処理タスクのスケーラビリティ向上に長年使われてきた粗大化やスパーシフィケーションを含むグラフ削減技術は,近年,大規模グラフ上でのGNNトレーニングの高速化に有効な方法として浮上している。 しかし、GNNに対するデータ中毒攻撃の潜在的なリスクを見越して、大規模グラフのためのグラフ削減技術の開発と展開が進められている。 グラフの削減が既存のバックドア攻撃とどのように相互作用するかは、まだ明らかになっていない。 本稿では,スケーラブルなGNNトレーニングにおけるグラフ削減手法の堅牢性について,最先端のバックドアアタックの存在下で徹底的に検討する。 我々は,3つのGNNアーキテクチャに対する3つのGNNバックドア攻撃の下で,粗大化法と6つのスペーサー化法を包括的ロバストネス解析した。 以上の結果から,攻撃成功率の軽減にグラフ削減法が有効であることは明らかであり,攻撃を悪化させる方法もある。 トリガーと毒素ノードの詳細な分析を通じて、我々の発見を解釈し、グラフの減少がバックドア攻撃に対するロバスト性に与える影響について理解を深める。 これらの結果から,GNNトレーニングのグラフ化に頑健さを考慮に入れる必要性が強調され,計算効率の向上がGNNシステムのセキュリティを損なわないことが保証された。

Graph Neural Networks (GNNs) are gaining popularity across various domains due to their effectiveness in learning graph-structured data. Nevertheless, they have been shown to be susceptible to backdoor poisoning attacks, which pose serious threats to real-world applications. Meanwhile, graph reduction techniques, including coarsening and sparsification, which have long been employed to improve the scalability of large graph computational tasks, have recently emerged as effective methods for accelerating GNN training on large-scale graphs. However, the current development and deployment of graph reduction techniques for large graphs overlook the potential risks of data poisoning attacks against GNNs. It is not yet clear how graph reduction interacts with existing backdoor attacks. This paper conducts a thorough examination of the robustness of graph reduction methods in scalable GNN training in the presence of state-of-the-art backdoor attacks. We performed a comprehensive robustness analysis across six coarsening methods and six sparsification methods for graph reduction, under three GNN backdoor attacks against three GNN architectures. Our findings indicate that the effectiveness of graph reduction methods in mitigating attack success rates varies significantly, with some methods even exacerbating the attacks. Through detailed analyses of triggers and poisoned nodes, we interpret our findings and enhance our understanding of how graph reduction influences robustness against backdoor attacks. These results highlight the critical need for incorporating robustness considerations in graph reduction for GNN training, ensuring that enhancements in computational efficiency do not compromise the security of GNN systems.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# バイオメカニクスによる非剛性医用画像登録とその非線形弾性と非線形弾性による逆材料特性推定

Biomechanics-informed Non-rigid Medical Image Registration and its Inverse Material Property Estimation with Linear and Nonlinear Elasticity ( http://arxiv.org/abs/2407.03292v2 )

ライセンス: Link先を確認
Zhe Min, Zachary M. C. Baum, Shaheer U. Saeed, Mark Emberton, Dean C. Barratt, Zeike A. Taylor, Yipeng Hu, (参考訳) 本稿では,生体力学的制約のない医用画像登録と軟組織材料特性の正確な同定を物理インフォームドニューラルネットワーク(PINN)を用いて検討した。 複素非線形弾性理論を利用して、満たすべき生体力学的制約の物理法則を表す偏微分方程式(PDE)を正式に確立し、登録タスクと識別タスクをそれぞれ、PINNの下での逆(すなわちパラメータ推定)問題として前方(すなわちPDEのデータ駆動解)として扱う。 2つのネット構成(例えば Cfg1 と Cfg2)も線形および非線形物理モデルで比較されている。 前立腺癌生検の臨床例から、変形しないMRI画像と変形したMR画像のペアを用いて、2つの実験が実施された。 私たちの貢献は以下の通り要約される。 1) PINNを用いた学習型生体機械制約非剛性登録アルゴリズムを開発し, 非線形バージョンに線形弾性を一般化した。 2) 非線形弾性は点偏差ベクトルの計算において線形モデルに対して統計的に有意な意味を示さないが, それらの利点は有限要素計算(FE)を用いた特定の患者に依存している可能性がある。 3) 逆パラメータ推定問題の定式化と解法は, PINNを用いた登録とパラメータ識別の連立最適化方式により実現した。

This paper investigates both biomechanical-constrained non-rigid medical image registrations and accurate identifications of material properties for soft tissues, using physics-informed neural networks (PINNs). The complex nonlinear elasticity theory is leveraged to formally establish the partial differential equations (PDEs) representing physics laws of biomechanical constraints that need to be satisfied, with which registration and identification tasks are treated as forward (i.e., data-driven solutions of PDEs) and inverse (i.e., parameter estimation) problems under PINNs respectively. Two net configurations (i.e., Cfg1 and Cfg2) have also been compared for both linear and nonlinear physics model. Two sets of experiments have been conducted, using pairs of undeformed and deformed MR images from clinical cases of prostate cancer biopsy. Our contributions are summarised as follows. 1) We developed a learning-based biomechanical-constrained non-rigid registration algorithm using PINNs, where linear elasticity is generalised to the nonlinear version. 2) We demonstrated extensively that nonlinear elasticity shows no statistical significance against linear models in computing point-wise displacement vectors but their respective benefits may depend on specific patients, with finite-element (FE) computed ground-truth. 3) We formulated and solved the inverse parameter estimation problem, under the joint optimisation scheme of registration and parameter identification using PINNs, whose solutions can be accurately found by locating saddle points.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# CS3: spermセグメンテーションのためのカスケードSAM

CS3: Cascade SAM for Sperm Segmentation ( http://arxiv.org/abs/2407.03772v2 )

ライセンス: Link先を確認
Yi Shi, Xu-Peng Tian, Yun-Kai Wang, Tie-Yi Zhang, Bin Yao, Hui Wang, Yong Shao, Cen-Cen Wang, Rong Zeng, De-Chuan Zhan, (参考訳) 精子の自動形態解析は、雄の受精率を評価する上で重要な役割を担っているが、その効果は精子の画像を正確に分類する際の課題によってしばしば損なわれる。 Segment Anything Model(SAM)を含む既存のセグメンテーション技術は、臨床サンプルで頻繁に発生する精子重複の複雑な問題に対処する上で、特に不十分である。 以上の結果から, 精子頭部の除去による画像特性の変化と, 重なり合う領域の視認性の向上が, 複雑な精子構造の分節化におけるSAMの効率を著しく向上させることが明らかとなった。 これらの結果から,精子重複問題に対処するための無監督アプローチであるCS3 (Cascade SAM for Sperm Segmentation) を提示した。 この方法は、SAMのカスケードを用いて精子の頭部、単純な尾、複雑な尾を段階的に分断する。 その後、これらのセグメンテッドマスクは慎重にマッチングされ、完全な精子マスクを構築するために結合される。 主要な医療機関と共同で,約2000枚の未ラベル精子画像からなるデータセットを作成した。 実験の結果,既存手法と比較してCS3の性能は優れていた。

Automated sperm morphology analysis plays a crucial role in the assessment of male fertility, yet its efficacy is often compromised by the challenges in accurately segmenting sperm images. Existing segmentation techniques, including the Segment Anything Model(SAM), are notably inadequate in addressing the complex issue of sperm overlap-a frequent occurrence in clinical samples. Our exploratory studies reveal that modifying image characteristics by removing sperm heads and easily segmentable areas, alongside enhancing the visibility of overlapping regions, markedly enhances SAM's efficiency in segmenting intricate sperm structures. Motivated by these findings, we present the Cascade SAM for Sperm Segmentation (CS3), an unsupervised approach specifically designed to tackle the issue of sperm overlap. This method employs a cascade application of SAM to segment sperm heads, simple tails, and complex tails in stages. Subsequently, these segmented masks are meticulously matched and joined to construct complete sperm masks. In collaboration with leading medical institutions, we have compiled a dataset comprising approximately 2,000 unlabeled sperm images to fine-tune our method, and secured expert annotations for an additional 240 images to facilitate comprehensive model assessment. Experimental results demonstrate superior performance of CS3 compared to existing methods.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# 拘束誘導型マルチエージェントシステムによるゼブラノズルの解法

Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems ( http://arxiv.org/abs/2407.03956v2 )

ライセンス: Link先を確認
Shmuel Berman, Kathleen McKeown, Baishakhi Ray, (参考訳) それまでの研究では、チェーン・オブ・シンクレットのプロンプトや記号表現の導入といった手法を用いて、論理パズルを解くためのLarge Language Models (LLM) の機能を強化してきた。 これらのフレームワークは、自然言語の手がかりを論理文に翻訳する固有の複雑さのため、ゼブラパズルのような複雑な論理問題を解くには依然として不十分である。 本稿では, LLM をオフ・ザ・シェルフ定理証明器と統合したマルチエージェントシステム ZPS を提案する。 このシステムは、問題をより小さく管理可能な部分に分割し、SMT(Satisfiability Modulo Theories)コードを生成して定理証明器で解決し、エージェント間のフィードバックを用いて繰り返し回答を改善することで、複雑なパズル解決タスクに取り組む。 また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。 GPT-4では,完全正解数に対して166%の改善が見られた。

Prior research has enhanced the ability of Large Language Models (LLMs) to solve logic puzzles using techniques such as chain-of-thought prompting or introducing a symbolic representation. These frameworks are still usually insufficient to solve complicated logical problems, such as Zebra puzzles, due to the inherent complexity of translating natural language clues into logical statements. We introduce a multi-agent system, ZPS, that integrates LLMs with an off the shelf theorem prover. This system tackles the complex puzzle-solving task by breaking down the problem into smaller, manageable parts, generating SMT (Satisfiability Modulo Theories) code to solve them with a theorem prover, and using feedback between the agents to repeatedly improve their answers. We also introduce an automated grid puzzle grader to assess the correctness of our puzzle solutions and show that the automated grader is reliable by evaluating it in a user-study. Our approach shows improvement in all three LLMs we tested, with GPT-4 showing 166% improvement in the number of fully correct solutions.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# 低リソース言語におけるモデルマージの可能性の解き放つ

Unlocking the Potential of Model Merging for Low-Resource Languages ( http://arxiv.org/abs/2407.03994v2 )

ライセンス: Link先を確認
Mingxu Tao, Chen Zhang, Quzhe Huang, Tianyao Ma, Songfang Huang, Dongyan Zhao, Yansong Feng, (参考訳) 大規模言語モデル(LLM)を新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。 しかし、このCT-then-SFTアプローチは、低リソース言語のコンテキストにおいて限られたデータを扱うため、言語モデリングとタスク解決能力のバランスが取れない。 そこで我々は,低リソース言語に代わるモデルマージを提案する。 我々は、SFTデータを対象言語に含まない低リソース言語のためのタスク解決LLMを開発するために、モデルマージを使用する。 Llama-2-7Bをベースとした実験により, タスク解決能力の低い低リソース言語では, モデルマージがLLMを効果的に実現し, 極めて少ないシナリオではCT-then-SFTより優れていることが示された。 モデルマージにおける性能飽和をより多くのトレーニングトークンで観測し、さらにマージプロセスを分析し、モデルのマージアルゴリズムにスラック変数を導入し、重要なパラメータの損失を軽減し、性能を向上させる。 モデルマージは、データ不足とデータ効率の向上に苦しむ、より多くの人間の言語に恩恵をもたらすことを願っています。

Adapting large language models (LLMs) to new languages typically involves continual pre-training (CT) followed by supervised fine-tuning (SFT). However, this CT-then-SFT approach struggles with limited data in the context of low-resource languages, failing to balance language modeling and task-solving capabilities. We thus propose model merging as an alternative for low-resource languages, combining models with distinct capabilities into a single model without additional training. We use model merging to develop task-solving LLMs for low-resource languages without SFT data in the target languages. Our experiments based on Llama-2-7B demonstrate that model merging effectively endows LLMs for low-resource languages with task-solving abilities, outperforming CT-then-SFT in scenarios with extremely scarce data. Observing performance saturation in model merging with more training tokens, we further analyze the merging process and introduce a slack variable to the model merging algorithm to mitigate the loss of important parameters, thereby enhancing performance. We hope that model merging can benefit more human languages suffering from data scarcity with its higher data efficiency.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# DotaMath: 数学的推論のためのコードアシストと自己補正による思考の分解

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning ( http://arxiv.org/abs/2407.04078v2 )

ライセンス: Link先を確認
Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu, (参考訳) 大規模言語モデル(LLM)は、単純な数学問題に対処する上で驚くべき進歩を遂げてきたが、それでもより困難で複雑な数学的タスクに苦戦している。 本稿では,数理推論にコードアシストと自己補正を併用した思考分解システムであるDotaMathについて紹介する。 DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、これらのサブタスクを解決するためにコードを活用し、コードインタプリタからきめ細かいフィードバックを取得し、自己回帰と修正を行う。 GSM8KとMATHデータセットに多種多様な対話型ツール利用トラジェクトリを付加し、クエリ進化を利用することにより、574Kのクエリ応答対を持つDotaMathQAと呼ばれる命令微調整データセットを生成する。 そこで我々は,DotaMathQAの模倣学習を用いて一連のベースLLMをトレーニングし,様々なドメイン内およびドメイン外ベンチマークにおけるオープンソースLLMと比較して,優れた性能を実現するDotaMathモデルを作成した。 特にDotaMath-Deepseek-7Bは、競合するMATHデータセットで64.8%、GSM8Kで86.7%の優れたパフォーマンスを示している。 さらにDotaMath-Deepseek-7Bは、一連のドメイン内およびドメイン外ベンチマーク(Avg. 80.1%)で強い競争力を維持している。 今後,DotaMathパラダイムが複雑な数学的問題に対処するための新たな経路を開拓することを期待している。 私たちのコードはhttps://github.com/ChengpengLi1003/DotaMath.comで公開されています。

Large language models (LLMs) have made impressive progress in handling simple math problems, yet they still struggle with more challenging and complex mathematical tasks. In this paper, we introduce a series of LLMs that employs the Decomposition of thought with code assistance and self-correction for mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex mathematical tasks by decomposing them into simpler logical subtasks, leveraging code to solve these subtasks, obtaining fine-grained feedback from the code interpreter, and engaging in self-reflection and correction. By annotating diverse interactive tool-use trajectories and employing query evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning dataset called DotaMathQA with 574K query-response pairs. We train a series of base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models that achieve remarkable performance compared to open-source LLMs across various in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases an outstanding performance of 64.8% on the competitive MATH dataset and 86.7% on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward, we anticipate that the DotaMath paradigm will open new pathways for addressing intricate mathematical problems. Our code is publicly available at https://github.com/ChengpengLi1003/DotaMath.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# EventChat:中小企業におけるレジャーイベント探索のための大規模言語モデル駆動型会話推薦システムの実装とユーザ中心評価

EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context ( http://arxiv.org/abs/2407.04472v3 )

ライセンス: Link先を確認
Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim, (参考訳) 大規模言語モデル (LLM) は、対話レコメンデーションシステム (CRS) の戦略的ポテンシャルにおいて大きな進化をもたらす。 しかし、これまでの研究は、特に世界経済の基盤となる中小企業(中小企業)の観点から、エンドユーザー評価や戦略的意味ではなく、LCM主導のCRSを実装するための技術的な枠組みに重点を置いてきた。 本稿では,LCM駆動型CRSを中小企業環境で設計し,それに続く性能を客観的システムメトリクスと主観的ユーザ評価の両方を用いて詳述する。 さらに,LLM駆動型CRSを評価するために,短時間で改良されたResQueモデルについて概説する。 ユーザエクスペリエンスの観点からは,システムパフォーマンスが良好であること(推奨精度85.5%)は明らかだが,ビジネスの生存性に疑問を呈するレイテンシ,コスト,品質の面では過小評価されている。 特に、インタラクション毎の中央値が0.04ドル、レイテンシが5.7sであり、よりユーザフレンドリーで経済的に実行可能なLCM駆動の中小企業向けCRSを実現するための重要な領域として、コスト効率と応答時間が現れる。 これらのコストの1つの主要な要因は、検索強化世代(RAG)技術において、高度なLCMをローダとして使用することである。 また,本研究の結果は,ChatGPTを基盤としたPromptベースの学習のようなアプローチにのみ依存することで,生産環境における満足度の向上が困難であることを示唆している。 LLM駆動型CRSを配備する中小企業の戦略的考察について概説する。

Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# チュニジア方言における低音源SLUとASRのための音声エンコーダの性能解析

Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect ( http://arxiv.org/abs/2407.04533v2 )

ライセンス: Link先を確認
Salima Mdhaffar, Haroun Elleuch, Fethi Bougares, Yannick Estève, (参考訳) 自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、音声言語理解(SLU)や自動音声認識(ASR)など、様々な下流タスクにおいて顕著な性能を示した。 例えば、このようなタスクのための微調整されたSSLモデルは、大きな可能性を秘めており、挑戦的なデータセット間でSOTAパフォーマンスが改善されている。 既存の研究とは対照的に、本稿はSSLアプローチの有効性を文脈で比較することで貢献する。 (i)低資源のチュニジア・アラビア方言、および (II)低リソースのSLUとASRのシナリオを組み合わせたもので、微調整にはいくつかのセマンティックアノテーションしか利用できない。 我々は、TARIC-SLUデータセット上で、多くのSSL音声エンコーダを用いて実験を行う。 単言語か多言語かのいずれかの音声データに基づいて事前訓練された音声エンコーダを用いる。 そのうちのいくつかは、ドメイン内やチュニジアのデータをマルチモーダル教師/学生のパラダイムに含めずに洗練されている。 本研究は,本論文で論じている多くの重要な知見をもたらす。

Speech encoders pretrained through self-supervised learning (SSL) have demonstrated remarkable performance in various downstream tasks, including Spoken Language Understanding (SLU) and Automatic Speech Recognition (ASR). For instance, fine-tuning SSL models for such tasks has shown significant potential, leading to improvements in the SOTA performance across challenging datasets. In contrast to existing research, this paper contributes by comparing the effectiveness of SSL approaches in the context of (i) the low-resource spoken Tunisian Arabic dialect and (ii) its combination with a low-resource SLU and ASR scenario, where only a few semantic annotations are available for fine-tuning. We conduct experiments using many SSL speech encoders on the TARIC-SLU dataset. We use speech encoders that were pre-trained on either monolingual or multilingual speech data. Some of them have also been refined without in-domain nor Tunisian data through multimodal supervised teacher-student paradigm. This study yields numerous significant findings that we are discussing in this paper.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# OneRestore: 複合劣化のためのユニバーサル復元フレームワーク

OneRestore: A Universal Restoration Framework for Composite Degradation ( http://arxiv.org/abs/2407.04621v3 )

ライセンス: Link先を確認
Yu Guo, Yuan Gao, Yuxu Lu, Huilin Zhu, Ryan Wen Liu, Shengfeng He, (参考訳) 現実のシナリオでは、画像障害はしばしば複合的な劣化として現れ、低光、迷路、雨、雪といった要素の複雑な相互作用を示す。 この事実にもかかわらず、既存の修復手法は通常、孤立した分解タイプをターゲットにしており、複数の劣化要因が共存する環境では不足している。 本研究は, このギャップを埋めるために, 複雑な複合劣化シナリオを正確に表現するために, 4つの物理劣化パラダイムを統合した多目的イメージングモデルを提案する。 本研究では,適応的かつ制御可能なシーン復元を目的とした,新しいトランスフォーマーベースのフレームワークであるOneRestoreを提案する。 提案フレームワークは,劣化したシーンディスクリプタと画像特徴を融合したユニークなクロスアテンション機構を利用して,ニュアンスド復元を実現する。 本モデルでは,手動テキスト埋め込みから視覚属性に基づく自動抽出まで,多目的な入力シーン記述を可能にする。 モデル制約を補強するために, 余剰劣化画像を負のサンプルとして用いて, 複合劣化修復損失を増大させる。 合成および実世界のデータセットの比較結果は、OneRestoreが優れたソリューションであることを示している。

In real-world scenarios, image impairments often manifest as composite degradations, presenting a complex interplay of elements such as low light, haze, rain, and snow. Despite this reality, existing restoration methods typically target isolated degradation types, thereby falling short in environments where multiple degrading factors coexist. To bridge this gap, our study proposes a versatile imaging model that consolidates four physical corruption paradigms to accurately represent complex, composite degradation scenarios. In this context, we propose OneRestore, a novel transformer-based framework designed for adaptive, controllable scene restoration. The proposed framework leverages a unique cross-attention mechanism, merging degraded scene descriptors with image features, allowing for nuanced restoration. Our model allows versatile input scene descriptors, ranging from manual text embeddings to automatic extractions based on visual attributes. Our methodology is further enhanced through a composite degradation restoration loss, using extra degraded images as negative samples to fortify model constraints. Comparative results on synthetic and real-world datasets demonstrate OneRestore as a superior solution, significantly advancing the state-of-the-art in addressing complex, composite degradations.
翻訳日:2024-07-10 22:42:25 公開日:2024-07-09
# 信頼に足るフェデレーション学習におけるプライバシとユーティリティのトレードオフのための統一学習データフレームワーク

A Unified Learn-to-Distort-Data Framework for Privacy-Utility Trade-off in Trustworthy Federated Learning ( http://arxiv.org/abs/2407.04751v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Mingcong Xu, Wei Chen, (参考訳) 本稿では,ベイズ的プライバシー定義と全変動距離プライバシー定義に基づくフェデレーション学習におけるプライバシー利用均衡の理論的基礎について紹介する。 次に、プライバシ保存機構がもたらす歪みを学習可能な変数として明示的にモデル化し、モデルパラメータと協調して最適化することで、プライバシユーティリティ均衡をナビゲートする原則的なアプローチを提供する。 本稿では,データ歪みに基づくさまざまなプライバシ保護機構へのフレームワークの適用性を実証し,敵のトレーニングや入力の堅牢性,学習不可能な例など,関連分野との関係を明らかにする。 これらの接続により、これらの領域からのテクニックを活用して、‘textit{Learn-to-Distort-Data}フレームワーク下でのフェデレーション学習におけるプライバシー利用均衡のための効果的なアルゴリズムを設計することができる。

In this paper, we first give an introduction to the theoretical basis of the privacy-utility equilibrium in federated learning based on Bayesian privacy definitions and total variation distance privacy definitions. We then present the \textit{Learn-to-Distort-Data} framework, which provides a principled approach to navigate the privacy-utility equilibrium by explicitly modeling the distortion introduced by the privacy-preserving mechanism as a learnable variable and optimizing it jointly with the model parameters. We demonstrate the applicability of our framework to a variety of privacy-preserving mechanisms on the basis of data distortion and highlight its connections to related areas such as adversarial training, input robustness, and unlearnable examples. These connections enable leveraging techniques from these areas to design effective algorithms for privacy-utility equilibrium in federated learning under the \textit{Learn-to-Distort-Data} framework.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-09
# 優れた例によるゼロショットオブジェクトカウント

Zero-shot Object Counting with Good Exemplars ( http://arxiv.org/abs/2407.04948v2 )

ライセンス: Link先を確認
Huilin Zhu, Jingling Yuan, Zhengwei Yang, Yu Guo, Zheng Wang, Xian Zhong, Shengfeng He, (参考訳) Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。 しかし、現在のZOC法における重要な課題は、高品質な模範を効果的に識別できないことである。 この欠如は、様々なクラスにわたるスケーラビリティを損なうとともに、識別されたクラスと画像の内容との間の強力な視覚的関連の発達を損なう。 この目的のために,視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。 VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。 EEMは、先進的な視覚言語保持モデルを使用して、潜在的な先例を発見し、フレームワークの様々なクラスへの適応性を保証する。 一方、NSMは、最適対と準最適対を区別するために対照的な学習を採用し、誤対の負の効果を減少させる。 VA-Countは、2つのオブジェクトカウントデータセット上で優れたパフォーマンスを持つゼロショットコンテキストにおいて、その有効性とスケーラビリティを実証する。

Zero-shot object counting (ZOC) aims to enumerate objects in images using only the names of object classes during testing, without the need for manual annotations. However, a critical challenge in current ZOC methods lies in their inability to identify high-quality exemplars effectively. This deficiency hampers scalability across diverse classes and undermines the development of strong visual associations between the identified classes and image content. To this end, we propose the Visual Association-based Zero-shot Object Counting (VA-Count) framework. VA-Count consists of an Exemplar Enhancement Module (EEM) and a Noise Suppression Module (NSM) that synergistically refine the process of class exemplar identification while minimizing the consequences of incorrect object identification. The EEM utilizes advanced vision-language pretaining models to discover potential exemplars, ensuring the framework's adaptability to various classes. Meanwhile, the NSM employs contrastive learning to differentiate between optimal and suboptimal exemplar pairs, reducing the negative effects of erroneous exemplars. VA-Count demonstrates its effectiveness and scalability in zero-shot contexts with superior performance on two object counting datasets.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-09
# 教師付きローカルラーニングのためのモーメント補助ネットワーク

Momentum Auxiliary Network for Supervised Local Learning ( http://arxiv.org/abs/2407.05623v2 )

ライセンス: Link先を確認
Junhao Su, Changpeng Cai, Feiyu Zhu, Chenghao He, Xiaojie Xu, Dongzhi Guan, Chenyang Si, (参考訳) ディープニューラルネットワークは従来、トレーニングプロセスにエンドツーエンドのバックプロパゲーションを採用しており、生物学的信頼性が欠如し、ネットワークパラメータの更新中にロックジレンマを引き起こし、GPUメモリの使用が大幅に増加する。 ネットワークを独立した補助ネットワークによって更新された複数のローカルブロックに分割する。 しかし、これらの手法は、局所ブロック内でのみ勾配が伝播し、ブロック間の情報交換の欠如が生じるため、より低い精度でエンドツーエンドのトレーニングを置き換えることはできない。 この問題に対処し,ブロック間の情報伝達を確立するために,動的相互作用機構を確立するMomentum Auxiliary Network (MAN)を提案する。 MANは、隣接するローカルブロックからパラメータの指数移動平均(EMA)を利用して情報の流れを強化する。 EMAによって更新されたこの補助ネットワークは、ブロック間の情報ギャップをブリッジするのに役立つ。 それにもかかわらず、EMAパラメータの直接適用には、局所ブロック間の特徴の相違による一定の制限がある。 これを解決するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上します。 我々は,4つの画像分類データセット (CIFAR-10, STL-10, SVHN, ImageNet) で本手法の有効性を検証した。 特に,本手法は,エンドツーエンドのトレーニングに比べ,イメージネットデータセット上でのGPUメモリ使用率を45%以上削減し,高性能化を実現している。 そこで、Momentum Auxiliary Networkは、教師付きローカル学習の新しい視点を提供する。 私たちのコードは、https://github.com/JunhaoSu0/MAN.comで利用可能です。

Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: https://github.com/JunhaoSu0/MAN.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-09
# システム2からシステム1へ

Distilling System 2 into System 1 ( http://arxiv.org/abs/2407.06023v2 )

ライセンス: Link先を確認
Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov, (参考訳) 大規模言語モデル(LLM)は、中間的な思考を生成するために推論中に余分な計算に費やし、より優れた最終応答を生成するのに役立つ。 Chain-of-Thought (Wei et al , 2022)以降、Rephrase and Respond (Deng et al , 2023a)、System 2 Attention (Weston and Sukhbaatar, 2023)、Branch-Solve-Merge (Saha et al , 2023)など多くのシステム2技術が提案されている。 本研究は,システム2において,中間的推論トークンシーケンスを使わずに,システム2技術からLLM世代への高品質出力を<compile'(希釈)する自己指導手法について検討する。 1. 従来の System 1 の性能に比べ, 性能が向上し, 推論コストも System 1 よりも低い結果が得られた。 2. このようなシステム2の蒸留は,今後継続的に学習するAIシステムにとって重要な特徴であり,システム2の能力は,まだうまくいかない推論タスクに焦点を合わせることができると仮定する。

Large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since Chain-of-Thought (Wei et al., 2022), many such System 2 techniques have been proposed such as Rephrase and Respond (Deng et al., 2023a), System 2 Attention (Weston and Sukhbaatar, 2023) and Branch-Solve-Merge (Saha et al., 2023). In this work we investigate self-supervised methods to ``compile'' (distill) higher quality outputs from System 2 techniques back into LLM generations without intermediate reasoning token sequences, as this reasoning has been distilled into System 1. We show that several such techniques can be successfully distilled, resulting in improved results compared to the original System 1 performance, and with less inference cost than System 2. We posit that such System 2 distillation will be an important feature of future continually learning AI systems, enabling them to focus System 2 capabilities on the reasoning tasks that they cannot yet do well.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-09
# 軽量ビジョン変換器を用いたSAR自動目標認識マルチカテゴリSAR画像分類に向けて

Towards SAR Automatic Target Recognition MultiCategory SAR Image Classification Based on Light Weight Vision Transformer ( http://arxiv.org/abs/2407.06128v2 )

ライセンス: Link先を確認
Guibin Zhao, Pengfei Li, Zhibo Zhang, Fusen Guo, Xueting Huang, Wei Xu, Jinyin Wang, Jianlong Chen, (参考訳) 合成開口レーダーは多くの分野で広く使われており、関心領域に関する豊富な情報を集めることができる。 この大規模なシーンデータ集約技術は、利用者を解放し、効率を高めることができる自動目標認識に高い価値を与える。 人工知能の最近の進歩により、大量の入力データからターゲット特徴を自動的に識別できるディープラーニングベースのSAR ATRが作成できるようになった。 過去6年間、この領域で集中的な研究が行われてきたが、現在のSAR ATR分野のほとんどの論文では、SAR画像に対するレジームの理解を深めるために、リカレントニューラルネットワークと畳み込みニューラルネットワークを使用していた。 そこで本研究では,SAR画像の分類に軽量な視覚変換器モデルを適用した。 構造全体がオープンアクセスされたSARデータセットで検証され、最終的な分類結果が畳み込み層を使わずに参照される従来のネットワーク構造と比較して堅牢で精度が高いことが認識された。

Synthetic Aperture Radar has been extensively used in numerous fields and can gather a wealth of information about the area of interest. This large scene data intensive technology puts a high value on automatic target recognition which can free the utilizers and boost the efficiency. Recent advances in artificial intelligence have made it possible to create a deep learning based SAR ATR that can automatically identify target features from massive input data. In the last 6 years, intensive research has been conducted in this area, however, most papers in the current SAR ATR field used recurrent neural network and convolutional neural network varied models to deepen the regime's understanding of the SAR images. To equip SAR ATR with updated deep learning technology, this paper tries to apply a lightweight vision transformer based model to classify SAR images. The entire structure was verified by an open-accessed SAR data set and recognition results show that the final classification outcomes are robust and more accurate in comparison with referred traditional network structures without even using any convolutional layers.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-09
# データ可視化における自然言語発話におけるLLMのセマンティックプロファイリング能力の評価

Evaluating the Semantic Profiling Abilities of LLMs for Natural Language Utterances in Data Visualization ( http://arxiv.org/abs/2407.06129v2 )

ライセンス: Link先を確認
Hannah K. Bako, Arshnoor Bhutani, Xinyi Liu, Kwesi A. Cobbina, Zhicheng Liu, (参考訳) データセット上の人間の発話に対応するデータ視覚化を自動的に生成するには、データ属性への暗黙的かつ明示的な参照、可視化タスク、必要なデータ準備ステップを含む、データ発話の深いセマンティック理解が必要である。 データビジュアライゼーションのための自然言語インタフェース(NLI)は、そのような情報を推測する方法を模索してきたが、人間の発話に固有の不確実性のため、課題は続いている。 近年のLarge Language Models (LLM) の進歩はこれらの課題に対処するための道筋を提供するが、関連する意味情報を抽出する能力は未解明のままである。 本研究では,4つのLLM(GPT-4,Gemini-Pro,Llama3,Mixtral)を評価し,不確実性が存在する場合でも発話を理解する能力について検討し,関連するデータコンテキストや視覚的タスクを特定する。 その結果,LLMは発話の不確実性に敏感であることが判明した。 この感度にもかかわらず、関連するデータコンテキストを抽出することができる。 しかし、LLMは可視化タスクの推測に苦労している。 これらの結果に基づき、可視化生成にLLMを使うことに関する今後の研究の方向性を強調した。

Automatically generating data visualizations in response to human utterances on datasets necessitates a deep semantic understanding of the data utterance, including implicit and explicit references to data attributes, visualization tasks, and necessary data preparation steps. Natural Language Interfaces (NLIs) for data visualization have explored ways to infer such information, yet challenges persist due to inherent uncertainty in human speech. Recent advances in Large Language Models (LLMs) provide an avenue to address these challenges, but their ability to extract the relevant semantic information remains unexplored. In this study, we evaluate four publicly available LLMs (GPT-4, Gemini-Pro, Llama3, and Mixtral), investigating their ability to comprehend utterances even in the presence of uncertainty and identify the relevant data context and visual tasks. Our findings reveal that LLMs are sensitive to uncertainties in utterances. Despite this sensitivity, they are able to extract the relevant data context. However, LLMs struggle with inferring visualization tasks. Based on these results, we highlight future research directions on using LLMs for visualization generation.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-09
# In Search of Excellence:SHOA as a Competitive Shrike Optimization Algorithm for Multimodal Problems

In Search of Excellence: SHOA as a Competitive Shrike Optimization Algorithm for Multimodal Problems ( http://arxiv.org/abs/2407.06219v1 )

ライセンス: Link先を確認
Hanan K. AbdulKarim, Tarik A. Rashid, (参考訳) 本稿では,Shrike Optimization Algorithm (SHOA) として群知能最適化アルゴリズムを提案する。 群れの中で生き、次の世代に生き残る多くの生物はランダムに食料を探し、群れの中で最高の生物を追いかけ、群れ知性(swarm intelligence)と呼ばれる。 スワムベースのアルゴリズムは生物の行動を模倣するように設計されているが、マルチモーダルな問題競合では、いくつかの難しいケースでは最適解を見つけることができない。 提案アルゴリズムの主なインスピレーションは、自然界におけるシロチョウの群れ行動から取られたものである。 鳥は生き残るために自分の領土から移住しています。 しかし、SHOAは生き、適応、繁殖のためのシロイヌナギの生き残りを模倣している。 最適化探索と搾取の2つの部分は、シロイヌナギの繁殖をモデル化し、単独で飛行し生活する準備が整うまで、巣作りの餌を探すことによって設計されている。 本論文は,SHOAが最適化を行うための数学的モデルである。 SHOAは、CEC-2019から10、CEC-2022から12のよく知られた数学的なテスト関数をベンチマークし、41の競争力のある数学的なテスト関数をベンチマークし、異なる条件の4つの実世界の工学的問題を制約付きと非制約で比較した。 Wilcoxon sum ranking と Fridman test から得られた統計結果は、SHOA がマルチモーダル問題における競合アルゴリズムと比較してテストベンチマークの処理において有意な統計的優位性を持っていることを示している。 工学最適化問題の結果は、SHOAが他の自然に着想を得たアルゴリズムよりも優れていることを示している。

In this paper, a swarm intelligence optimization algorithm is proposed as the Shrike Optimization Algorithm (SHOA). Many creatures living in a group and surviving for the next generation randomly search for food; they follow the best one in the swarm, called swarm intelligence. Swarm-based algorithms are designed to mimic creatures' behaviours, but in multimodal problem competition, they cannot find optimal solutions in some difficult cases. The main inspiration for the proposed algorithm is taken from the swarming behaviours of shrike birds in nature. The shrike birds are migrating from their territory to survive. However, the SHOA mimics the surviving behaviour of shrike birds for living, adaptation, and breeding. Two parts of optimization exploration and exploitation are designed by modelling shrike breeding and searching for foods to feed nestlings until they get ready to fly and live independently. This paper is a mathematical model for the SHOA to perform optimization. The SHOA benchmarked 19 well-known mathematical test functions, 10 from CEC-2019, and 12 from CEC-2022 most recent test functions, a total of 41 competitive mathematical test functions benchmarked and four real-world engineering problems with different conditions, both constrained and unconstrained. The statistical results obtained from the Wilcoxon sum ranking and Fridman test show that SHOA has a significant statistical superiority in handling the test benchmarks compared to competitor algorithms in multi-modal problems. The results for engineering optimization problems show the SHOA outperforms other nature-inspired algorithms in many cases.
翻訳日:2024-07-10 22:22:56 公開日:2024-07-09
# SideSeeing: 歩道アセスメントのためのマルチモーダルデータセットとツールコレクション

SideSeeing: A multimodal dataset and collection of tools for sidewalk assessment ( http://arxiv.org/abs/2407.06464v1 )

ライセンス: Link先を確認
R. J. P. Damaceno, L. Ferreira, F. Miranda, M. Hosseini, R. M. Cesar Jr, (参考訳) 構築された環境を評価するためのツールとデータセットを提供する新しいイニシアティブであるSideSeeingを紹介する。 本稿では,道路レベルのデータ取得,ロード,分析のためのフレームワークを提案する。 このフレームワークを用いて,胸部搭載モバイルデバイスから撮影した映像とセンサデータ(加速度計,ジャイロスコープ,磁気センサ,GPS)を統合した新しいデータセットを収集した。 それぞれのデータサンプルは、ブラジルとアメリカの病院の近くで歩道を撮影するユーザーが横断する経路を表している。 データセットは、9つの病院の周囲12kmをカバーする3時間のコンテンツを含み、325,000のビデオフレームと対応するセンサーデータを含んでいる。 さらに,歩道のシーン識別のための新しい68要素分類法を提案する。 SideSeeingは、都市の専門家が深層歩道のアクセシビリティ評価に利用できる一連のツールへの一歩だ。 SideSeeingデータとツールはhttps://sites.usp.br/sideseeing/.comで公開されている。

This paper introduces SideSeeing, a novel initiative that provides tools and datasets for assessing the built environment. We present a framework for street-level data acquisition, loading, and analysis. Using the framework, we collected a novel dataset that integrates synchronized video footaged captured from chest-mounted mobile devices with sensor data (accelerometer, gyroscope, magnetometer, and GPS). Each data sample represents a path traversed by a user filming sidewalks near hospitals in Brazil and the USA. The dataset encompasses three hours of content covering 12 kilometers around nine hospitals, and includes 325,000 video frames with corresponding sensor data. Additionally, we present a novel 68-element taxonomy specifically created for sidewalk scene identification. SideSeeing is a step towards a suite of tools that urban experts can use to perform in-depth sidewalk accessibility evaluations. SideSeeing data and tools are publicly available at https://sites.usp.br/sideseeing/.
翻訳日:2024-07-10 19:44:58 公開日:2024-07-09
# ダイヤモンド量子センシングにおけるマイクロ波位相ノイズの影響

The impact of microwave phase noise on diamond quantum sensing ( http://arxiv.org/abs/2407.06465v1 )

ライセンス: Link先を確認
Andris Berzins, Maziar Saleh Ziabari, Yaser Silani, Ilja Fescenko, Joshua T. Damron, John F. Barry, Andrey Jarmola, Pauli Kehayias, Bryan A. Richards, Janis Smits, Victor M. Acosta, (参考訳) ダイヤモンド中の窒素空孔(NV)中心の電子スピン沈降の精密光学的測定は、多くの応用の基礎となっている。 フェムトテラ磁力計のような最も感度の高い応用は、サブミリヘルツレベルでのGHzスピン遷移周波数の変化を測定する能力を必要とする。 ここではマイクロ波(MW)位相雑音がNVセンサの応答に与える影響について検討する。 MW波形の位相のゆらぎは、NVスピン状態の望ましくない回転を引き起こす。 これらのゆらぎは光読み出し信号に印字され、残されているものは磁場ノイズと区別できない。 いくつかの商用MW発電機の位相ノイズは、MWキャリア周波数とパルスシーケンスの検出周波数によって変化する実効的なpT s^{1/2}レンジノイズフロアをもたらすことを示す。 データは、MW位相雑音スペクトルと検出プロトコルのフィルタ関数応答を組み込んだ周波数領域モデルにより記述される。 白とランダムウォークの位相ノイズを制御するために、観測されたNV磁気ノイズフロアは、パルスシーケンス長とπパルス数で正確にスケーリングをキャプチャする単純な解析式によって記述される。 MW位相雑音の影響を抑えるためのいくつかの戦略を概説し、グラジオメトリーに基づく10倍の抑制を実現するバージョンを実装した。 本研究は、高感度ダイヤモンド量子センサの追求において重要な課題であり、大きな遷移周波数を持つ他の量子ビット系にも適用可能であることを示す。

Precision optical measurements of the electron-spin precession of nitrogen-vacancy (NV) centers in diamond form the basis of numerous applications. The most sensitivity-demanding applications, such as femtotesla magnetometry, require the ability to measure changes in GHz spin transition frequencies at the sub-millihertz level, corresponding to a fractional resolution of better than 10^{-12}. Here we study the impact of microwave (MW) phase noise on the response of an NV sensor. Fluctuations of the phase of the MW waveform cause undesired rotations of the NV spin state. These fluctuations are imprinted in the optical readout signal and, left unmitigated, are indistinguishable from magnetic field noise. We show that the phase noise of several common commercial MW generators results in an effective pT s^{1/2}-range noise floor that varies with the MW carrier frequency and the detection frequency of the pulse sequence. The data are described by a frequency domain model incorporating the MW phase noise spectrum and the filter-function response of the sensing protocol. For controlled injection of white and random-walk phase noise, the observed NV magnetic noise floor is described by simple analytic expressions that accurately capture the scaling with pulse sequence length and the number of pi pulses. We outline several strategies to suppress the impact of MW phase noise and implement a version, based on gradiometry, that realizes a >10-fold suppression. Our study highlights an important challenge in the pursuit of sensitive diamond quantum sensors and is applicable to other qubit systems with a large transition frequency.
翻訳日:2024-07-10 19:44:58 公開日:2024-07-09
# AnatoMask:リコンストラクション誘導型セルフマスキングによる医用画像セグメンテーションの強化

AnatoMask: Enhancing Medical Image Segmentation with Reconstruction-guided Self-masking ( http://arxiv.org/abs/2407.06468v1 )

ライセンス: Link先を確認
Yuheng Li, Tianyu Luan, Yizhou Wu, Shaoyan Pan, Yenho Chen, Xiaofeng Yang, (参考訳) ラベル付きデータの不足により、ラベル付きデータから意味表現を抽出することにより、自己教師付き学習(SSL)が3次元画像のセグメンテーションにおいて大きな注目を集めている。 SSL戦略の中で、マスクされた画像をランダムに再構成して詳細な表現を学習することで、Masked Image Modeling (MIM)の有効性を示した。 しかし, 従来のMIM法では, 医用画像の撮影に課題があるため, 良好な成績を収めるために, 広範囲なトレーニングデータが必要である。 ランダムマスキングは医療画像内の全ての領域を均一にサンプリングするため、重要な解剖学的領域を見落とし、事前学習効率を低下させる可能性がある。 本稿では,再建損失を利用して解剖学的に重要な領域を動的に識別・マスキングし,事前トレーニングの有効性を向上させる新しいMIM手法であるAnatoMaskを提案する。 AnatoMaskは自己蒸留アプローチを採用し、より重要なマスク領域を見つける方法と、これらのマスクされた領域を再構築する方法の両方を学ぶ。 準最適学習を避けるため、Anatomaskはマスキングダイナミクス関数を用いて事前学習の難しさを段階的に調整する。 我々は,CT,MRI,PETの4つのパブリックデータセットを用いて,複数の画像モダリティ(CT,MRI,PET)を用いて評価を行った。 AnatoMaskは既存のSSLメソッドよりも優れたパフォーマンスとスケーラビリティを示している。 コードはhttps://github.com/ricklisz/AnatoMask.comで入手できる。

Due to the scarcity of labeled data, self-supervised learning (SSL) has gained much attention in 3D medical image segmentation, by extracting semantic representations from unlabeled data. Among SSL strategies, Masked image modeling (MIM) has shown effectiveness by reconstructing randomly masked images to learn detailed representations. However, conventional MIM methods require extensive training data to achieve good performance, which still poses a challenge for medical imaging. Since random masking uniformly samples all regions within medical images, it may overlook crucial anatomical regions and thus degrade the pretraining efficiency. We propose AnatoMask, a novel MIM method that leverages reconstruction loss to dynamically identify and mask out anatomically significant regions to improve pretraining efficacy. AnatoMask takes a self-distillation approach, where the model learns both how to find more significant regions to mask and how to reconstruct these masked regions. To avoid suboptimal learning, Anatomask adjusts the pretraining difficulty progressively using a masking dynamics function. We have evaluated our method on 4 public datasets with multiple imaging modalities (CT, MRI, and PET). AnatoMask demonstrates superior performance and scalability compared to existing SSL methods. The code is available at https://github.com/ricklisz/AnatoMask.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# スケッチガイドによるシーン画像生成

Sketch-Guided Scene Image Generation ( http://arxiv.org/abs/2407.06469v1 )

ライセンス: Link先を確認
Tianyu Zhang, Xiaoxuan Xie, Xusheng Du, Haoran Xie, (参考訳) テキスト・ツー・イメージのモデルは、高品質で多様な生成画像を作成できる素晴らしい能力を示している。 それでも、フリーハンドスケッチから複雑なシーンイメージへの移行は、拡散モデルを用いて難しいままである。 本研究では,スケッチ入力からオブジェクトレベルのクロスドメイン生成やシーンレベルの画像構築に至るまでのシーン画像生成のタスクを分解する,新しいスケッチ誘導シーン画像生成フレームワークを提案する。 事前学習した拡散モデルを用いて、個々のオブジェクトの描画をオブジェクトのイメージに変換し、余分なスケッチ構造を維持しながら追加の詳細を推測する。 シーン生成における前景の概念的忠実性を維持するため,オブジェクト画像の視覚的特徴をシーン生成のためのアイデンティティ埋め込みに変換する。 シーンレベルの画像構築において、分離した背景プロンプトを用いてシーンイメージの潜在表現を生成し、スケッチ入力のレイアウトに応じて生成された前景オブジェクトをブレンドする。 シーンイメージを自然に構成しながら、前景オブジェクトの細部が変化しないよう、トレーニングされたIDトークンを含むグローバルプロンプトを用いて、ブレンドされた潜在表現上のシーンイメージを推論する。 定性的かつ定量的な実験を通じて,手描きスケッチからシーン画像を生成する手法が,最先端のアプローチを超越することを示す。

Text-to-image models are showcasing the impressive ability to create high-quality and diverse generative images. Nevertheless, the transition from freehand sketches to complex scene images remains challenging using diffusion models. In this study, we propose a novel sketch-guided scene image generation framework, decomposing the task of scene image scene generation from sketch inputs into object-level cross-domain generation and scene-level image construction. We employ pre-trained diffusion models to convert each single object drawing into an image of the object, inferring additional details while maintaining the sparse sketch structure. In order to maintain the conceptual fidelity of the foreground during scene generation, we invert the visual features of object images into identity embeddings for scene generation. In scene-level image construction, we generate the latent representation of the scene image using the separated background prompts, and then blend the generated foreground objects according to the layout of the sketch input. To ensure the foreground objects' details remain unchanged while naturally composing the scene image, we infer the scene image on the blended latent representation using a global prompt that includes the trained identity tokens. Through qualitative and quantitative experiments, we demonstrate the ability of the proposed approach to generate scene images from hand-drawn sketches surpasses the state-of-the-art approaches.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# ワールドラインパス積分のパスワイズ微分

Pathwise Differentiation of Worldline Path Integrals ( http://arxiv.org/abs/2407.06470v1 )

ライセンス: Link先を確認
Jonathan B. Mackrory, He Zheng, Daniel A. Steck, (参考訳) The worldline method is a powerful numerical path-integral framework for computing Casimir and Casimir-Polder energys。 パス積分量(英語版)の微分を求めるとき、例えば標準有限差分法(英語版)が精度の悪い結果をもたらすとき、重要な課題が生じる。 本研究では,スカラー場のワールドライン型経路積分の導関数を計算し,力,エネルギー曲率,トルクを計算する手法を提案する。 カシミール・ポルダー型経路積分では、経路の原点に関する微分を必要とするが、この微分は経路積分の単純な再重み付けによって計算することができる。 しかし、微分された経路を計算的に効率的に表現するためには、部分拡張技術が必要である。 カシミール力、曲率、およびマクロ体間のトルクの計算についても論じる。 ここでは、ボディとの交叉のすべての導関数の和を含む異なる方法が用いられ、また別の部分的解法が経路を効率良くする。 本手法の効率性を示すため,原子面および平面面におけるこれらのワールドライン手法の数値的な実装結果を示す。 非常に一般的なので、ここでの手法は、世界の文脈外の経路積分(例えば、金融数学)に適用すべきである。

The worldline method is a powerful numerical path-integral framework for computing Casimir and Casimir-Polder energies. An important challenge arises when one desires derivatives of path-integral quantities--standard finite-difference techniques, for example, yield results of poor accuracy. In this work we present methods for computing derivatives of worldline-type path integrals of scalar fields to calculate forces, energy curvatures, and torques. In Casimir-Polder-type path integrals, which require derivatives with respect to the source point of the paths, the derivatives can be computed by a simple reweighting of the path integral. However, a partial-averaging technique is necessary to render the differentiated path integral computationally efficient. We also discuss the computation of Casimir forces, curvatures, and torques between macroscopic bodies. Here a different method is used, involving summing over the derivatives of all the intersections with a body; again, a different partial-averaging method makes the path integral efficient. To demonstrate the efficiency of the techniques, we give the results of numerical implementations of these worldline methods in atomplane and plane-plane geometries. Being quite general, the methods here should apply to path integrals outside the worldline context (e.g., financial mathematics).
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# Interaction Matters: 英語第二言語会話における対話的対話評価のための評価フレームワーク

Interaction Matters: An Evaluation Framework for Interactive Dialogue Assessment on English Second Language Conversations ( http://arxiv.org/abs/2407.06479v1 )

ライセンス: Link先を確認
Rena Gao, Carsten Roever, Jey Han Lau, (参考訳) 第二言語話者(ESL)としての英語の文脈における対話的対話評価のための評価フレームワークを提案する。 本フレームワークでは,対話レベルの対話性ラベル(トピック管理,合計4ラベル)とマイクロレベルのスパン機能(例えば,バックチャネル,合計17機能)を収集する。 注釈付きデータから,マイクロレベルの特徴がESL対話の(高レベルの)相互作用品質に与える影響を,機械学習モデルの構築により検討した。 以上の結果から,特定のマイクロレベルの特徴は,参照語(例:彼女,彼女,彼)のような相互作用品質と強く相関し,高レベルの対話品質と低レベルの言語信号との相互作用に関する新たな洞察を明らかにすることができる。 また,我々のフレームワークは,言語評価に有用なESL通信を評価する手段も提供する。

We present an evaluation framework for interactive dialogue assessment in the context of English as a Second Language (ESL) speakers. Our framework collects dialogue-level interactivity labels (e.g., topic management; 4 labels in total) and micro-level span features (e.g., backchannels; 17 features in total). Given our annotated data, we study how the micro-level features influence the (higher level) interactivity quality of ESL dialogues by constructing various machine learning-based models. Our results demonstrate that certain micro-level features strongly correlate with interactivity quality, like reference word (e.g., she, her, he), revealing new insights about the interaction between higher-level dialogue quality and lower-level linguistic signals. Our framework also provides a means to assess ESL communication, which is useful for language assessment.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# 最適部分輸送問題に対するシンクホーンアルゴリズムと線形計画解法

Sinkhorn algorithms and linear programming solvers for optimal partial transport problems ( http://arxiv.org/abs/2407.06481v1 )

ライセンス: Link先を確認
Yikun Bai, (参考訳) 本稿では, 古典的最適部分輸送(OPT)問題を, 「一般化最適部分輸送(Generalized optimal partial transport)」 という問題を導入して, 質量破壊/生成項を関数ベース項に変更することによって一般化する。 次に、これらの問題の二重定式化と関連するシンクホーン解法について議論する。 最後に、これらの新しいOPT問題と古典的最適輸送(OT)問題との関連性について検討し、これらの一般化シナリオに適した線形プログラミング解法を導入する。

In this note, we generalize the classical optimal partial transport (OPT) problem by modifying the mass destruction/creation term to function-based terms, introducing what we term ``generalized optimal partial transport'' problems. We then discuss the dual formulation of these problems and the associated Sinkhorn solver. Finally, we explore how these new OPT problems relate to classical optimal transport (OT) problems and introduce a linear programming solver tailored for these generalized scenarios.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# 言語モデルのための構成可能なインターベンション

Composable Interventions for Language Models ( http://arxiv.org/abs/2407.06483v1 )

ライセンス: Link先を確認
Arinbjorn Kolbeinsson, Kyle O'Brien, Tianjin Huang, Shanghua Gao, Shiwei Liu, Jonathan Richard Schwarz, Anurag Vaidya, Faisal Mahmood, Marinka Zitnik, Tianlong Chen, Thomas Hartvigsen, (参考訳) 言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。 しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。 実際には、複数の介入を同じモデルに順次適用する必要がありますが、介入がどのように相互作用するかを研究するための標準化された方法が欠如しています。 構成可能な介入を導入することで、このギャップを埋めます。同じ言語モデルに複数の介入を使用することによる影響を研究するためのフレームワークで、新しいメトリクスと統一されたコードベースが特徴です。 フレームワークを用いて、我々は、知識編集、モデル圧縮、機械学習という3つの新しい介入カテゴリから、広範な実験を行い、人気のあるメソッドを構成する。 圧縮は、編集や学習を妨げ、介入はアプリケーションの順序に左右され、一般的な汎用メトリクスは、コンポーザビリティを評価するのに不十分である。 この結果から,新たな多目的介入の必要性が示唆された。 コードはすべて公開されています。 https://github.com/hartvigsen-group/composable-interventions。

Test-time interventions for language models can enhance factual accuracy, mitigate harmful outputs, and improve model efficiency without costly retraining. But despite a flood of new methods, different types of interventions are largely developing independently. In practice, multiple interventions must be applied sequentially to the same model, yet we lack standardized ways to study how interventions interact. We fill this gap by introducing composable interventions, a framework to study the effects of using multiple interventions on the same language models, featuring new metrics and a unified codebase. Using our framework, we conduct extensive experiments and compose popular methods from three emerging intervention categories -- Knowledge Editing, Model Compression, and Machine Unlearning. Our results from 310 different compositions uncover meaningful interactions: compression hinders editing and unlearning, composing interventions hinges on their order of application, and popular general-purpose metrics are inadequate for assessing composability. Taken together, our findings showcase clear gaps in composability, suggesting a need for new multi-objective interventions. All of our code is public: https://github.com/hartvigsen-group/composable-interventions.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# CrowdTransfer: AIoTコミュニティにおけるクラウド知識転送の実現

CrowdTransfer: Enabling Crowd Knowledge Transfer in AIoT Community ( http://arxiv.org/abs/2407.06485v1 )

ライセンス: Link先を確認
Yan Liu, Bin Guo, Nuo Li, Yasan Ding, Zhouyangzi Zhang, Zhiwen Yu, (参考訳) AI(Artificial Intelligence of Things)は、IoT(Internet of Things)とAI(Artificial Intelligence)技術を深く融合した、新たなフロンティアである。 高度なディープラーニング技術は、複雑なIoTデータの効率的なデータ処理とインテリジェントな分析を促進するが、制約のあるリソースや多様なタスク要件など、実用的なAIoTアプリケーションにデプロイする際、注目すべき課題に悩まされている。 知識伝達は,データ再構成やモデル再学習に伴う余剰コストを回避し,学習性能を向上させる効果的な方法である。 中でも注目すべきは、転送学習に関する貴重な調査がすでにいくつかあるが、これらの調査は比較的孤立したアプローチを導入し、AIoT分野における様々な知識伝達技術の最近の進歩を欠いていることだ。 この調査では、クラウドナレッジトランスファー(Crowd Knowledge Transfer, クラウドナレッジトランスファー)と呼ばれる新しい知識伝達の概念を導入し、エージェントの集団から学んだ事前知識を移譲し、トレーニングコストを削減し、実際の複雑なシナリオにおけるモデルの性能を向上させることを目的としている。 特に,クラウドインテリジェンスの観点からは,導出,共有,進化,融合の4つのモードを提示する。 従来の移動学習法に基づいて,様々なAIoTアプリケーションに対する3つの視点から,より高度なクラウド知識伝達モデルを探索する。 さらに、人間の活動認識、都市コンピューティング、マルチロボットシステム、スマートファクトリなど、AIoT分野の応用についても検討する。 最後に,オープンな課題について論じ,AIoTコミュニティにおける知識伝達の今後の研究方向性について概説する。

Artificial Intelligence of Things (AIoT) is an emerging frontier based on the deep fusion of Internet of Things (IoT) and Artificial Intelligence (AI) technologies. Although advanced deep learning techniques enhance the efficient data processing and intelligent analysis of complex IoT data, they still suffer from notable challenges when deployed to practical AIoT applications, such as constrained resources, and diverse task requirements. Knowledge transfer is an effective method to enhance learning performance by avoiding the exorbitant costs associated with data recollection and model retraining. Notably, although there are already some valuable and impressive surveys on transfer learning, these surveys introduce approaches in a relatively isolated way and lack the recent advances of various knowledge transfer techniques for AIoT field. This survey endeavors to introduce a new concept of knowledge transfer, referred to as Crowd Knowledge Transfer (CrowdTransfer), which aims to transfer prior knowledge learned from a crowd of agents to reduce the training cost and as well as improve the performance of the model in real-world complicated scenarios. Particularly, we present four transfer modes from the perspective of crowd intelligence, including derivation, sharing, evolution and fusion modes. Building upon conventional transfer learning methods, we further delve into advanced crowd knowledge transfer models from three perspectives for various AIoT applications. Furthermore, we explore some applications of AIoT areas, such as human activity recognition, urban computing, multi-robot system, and smart factory. Finally, we discuss the open issues and outline future research directions of knowledge transfer in AIoT community.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# 大規模言語モデルを用いたシナリオシミュレーションによる最適意思決定

Optimal Decision Making Through Scenario Simulations Using Large Language Models ( http://arxiv.org/abs/2407.06486v1 )

ライセンス: Link先を確認
Sumedh Rasal, EJ Hauer, (参考訳) 大規模言語モデル(LLM)の急速な進化は、様々な領域にまたがってアプリケーションを著しく拡張し、複雑な問題へのアプローチと解決の仕方を変えました。 当初、テキスト中の後続の単語を予測するために考案されたこれらのモデルは、クエリの基盤となるコンテキストを理解して応答するように、元の設計を変換した。 現在、LLMはエッセイ、詩、物語、さらにはソフトウェア開発など、かつては恐ろしく思えたタスクを定期的に実行しています。 彼らの能力が拡大し続けるにつれて、より洗練されたドメインでの彼らのパフォーマンスへの期待も高まります。 これらの進歩にもかかわらず、LSMは依然として重大な課題に直面しており、特に計画旅行や複数の実行可能な選択肢の選択など、複雑な意思決定を必要とするシナリオにおいてである。 これらのタスクは、様々な結果の微妙な理解と、LLMの典型的な運用範囲外にある異なる選択の結果を予測する能力を必要とすることが多い。 本稿では,この能力ギャップを橋渡しする革新的な手法を提案する。 LLMがユーザから複数のオプションやパラメータを要求できるようにすることで,意思決定プロセス内に最適化機能を統合する動的フレームワークを導入する。 この関数は、与えられた選択肢を分析し、潜在的な結果をシミュレートし、事前定義された基準のセットに基づいて最も有利な解を決定するように設計されている。 この手法を利用することで、LLMは複雑な多変数問題に対する最適化された最適ソリューションを提供し、実世界のアプリケーションにおけるそれらの実用性と有効性を大幅に向上させることができる。 このアプローチはLLMの機能的包絡を広げるだけでなく、より自律的でインテリジェントなシステムが高度な意思決定タスクをサポートするための道を開く。

The rapid evolution of Large Language Models (LLMs) has markedly expanded their application across diverse domains, transforming how complex problems are approached and solved. Initially conceived to predict subsequent words in texts, these models have transcended their original design to comprehend and respond to the underlying contexts of queries. Today, LLMs routinely perform tasks that once seemed formidable, such as writing essays, poems, stories, and even developing software code. As their capabilities continue to grow, so too do the expectations of their performance in even more sophisticated domains. Despite these advancements, LLMs still encounter significant challenges, particularly in scenarios requiring intricate decision-making, such as planning trips or choosing among multiple viable options. These tasks often demand a nuanced understanding of various outcomes and the ability to predict the consequences of different choices, which are currently outside the typical operational scope of LLMs. This paper proposes an innovative approach to bridge this capability gap. By enabling LLMs to request multiple potential options and their respective parameters from users, our system introduces a dynamic framework that integrates an optimization function within the decision-making process. This function is designed to analyze the provided options, simulate potential outcomes, and determine the most advantageous solution based on a set of predefined criteria. By harnessing this methodology, LLMs can offer tailored, optimal solutions to complex, multi-variable problems, significantly enhancing their utility and effectiveness in real-world applications. This approach not only expands the functional envelope of LLMs but also paves the way for more autonomous and intelligent systems capable of supporting sophisticated decision-making tasks.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# タスク特異的ニューロンの検出と探索によるLLMのマルチタスク学習(一般化)の理解に向けて

Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons ( http://arxiv.org/abs/2407.06488v1 )

ライセンス: Link先を確認
Yongqi Leng, Deyi Xiong, (参考訳) 大規模言語モデル(LLM)は優れたマルチタスク機能を示しているが、この背景にある学習メカニズムを理解することは依然として難しい問題である。 本稿では、ニューロンの観点から、そのようなメカニズムを理解することを試みる。 具体的には,LLMにおけるタスク依存ニューロンを,タスク固有データに対する勾配属性によって検出する。 広範囲な不活性化実験と微調整実験により、検出されたニューロンが与えられたタスクと高い相関性を示し、タスク特異的ニューロンと呼ぶ。 これらの特定タスク特異的ニューロンを用いて、多タスク学習と連続学習の2つの一般的な問題、すなわち一般化と破滅的フォーッティングを探索する。 タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。 興味深いことに、LLMの特定の層では、異なるタスク特異的ニューロンのパラメータに高い類似性があり、そのような類似性は一般化性能と強く相関している。 これらの知見に触発されて,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案し,提案手法の有効性を実験的に検証した。 本研究は,マルチタスク学習におけるLLMの解釈可能性に関する知見を提供する。

While large language models (LLMs) have demonstrated superior multi-task capabilities, understanding the learning mechanisms behind this is still a challenging problem. In this paper, we attempt to understand such mechanisms from the perspective of neurons. Specifically, we detect task-sensitive neurons in LLMs via gradient attribution on task-specific data. Through extensive deactivation and fine-tuning experiments, we demonstrate that the detected neurons are highly correlated with the given task, which we term as task-specific neurons. With these identified task-specific neurons, we delve into two common problems in multi-task learning and continuous learning: Generalization and Catastrophic Forgetting. We find that the overlap of task-specific neurons is strongly associated with generalization and specialization across tasks. Interestingly, at certain layers of LLMs, there is a high similarity in the parameters of different task-specific neurons, and such similarity is highly correlated with the generalization performance. Inspired by these findings, we propose a neuron-level continuous fine-tuning method that only fine-tunes the current task-specific neurons during continuous learning, and extensive experiments demonstrate the effectiveness of the proposed method. Our study provides insights into the interpretability of LLMs in multi-task learning.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# VideoEval: ビデオファンデーションモデルの低コスト評価のための総合ベンチマークスイート

VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model ( http://arxiv.org/abs/2407.06491v1 )

ライセンス: Link先を確認
Xinhao Li, Zhenpeng Huang, Jing Wang, Kunchang Li, Limin Wang, (参考訳) 高品質なデータの増加と視覚前訓練のパラダイムの進歩により、ビデオファウンデーションモデル(VFM)は近年大きく進歩し、従来のビデオ理解ベンチマークで顕著なパフォーマンスを示している。 しかしながら、既存のベンチマーク(例えば、Kineetics)とその評価プロトコルは、比較的低い多様性、高い評価コスト、飽和パフォーマンスメトリクスによって制限されることが多い。 本稿では,これらの問題,すなわち VideoEval に対処するための総合的なベンチマークスイートを構築する。 具体的には,ビデオタスク適応ベンチマーク (VidTAB) とビデオ埋め込みベンチマーク (VidEB) を2つの視点から確立する。 VideoEvalでは、20の人気のあるオープンソースビジョン基盤モデルについて大規模な研究を行っている。 我々の研究は、VFMに関する洞察に富んだ発見を明らかにしている。 1) 全体として、現在のVFMは様々なタスクにまたがる弱い一般化を示す。 2) ラベル付き, ラベルの弱いビデオテキストペアであっても, 映像データの増大は必ずしもタスク性能を向上させるものではない。 3)事前学習のパラダイムの有効性は,以前のベンチマークでは十分に検証されない場合がある。 4) 異なる事前学習パラダイムを組み合わせることで、一般化能力を向上させることができる。 本研究は, VFMの現在の評価を補完する重要な役割を担い, 今後の研究に有用な知見を提供する。

With the growth of high-quality data and advancement in visual pre-training paradigms, Video Foundation Models (VFMs) have made significant progress recently, demonstrating their remarkable performance on traditional video understanding benchmarks. However, the existing benchmarks (e.g. Kinetics) and their evaluation protocols are often limited by relatively poor diversity, high evaluation costs, and saturated performance metrics. In this paper, we build a comprehensive benchmark suite to address these issues, namely VideoEval. Specifically, we establish the Video Task Adaption Benchmark (VidTAB) and the Video Embedding Benchmark (VidEB) from two perspectives: evaluating the task adaptability of VFMs under few-shot conditions and assessing their representation power by directly applying to downstream tasks. With VideoEval, we conduct a large-scale study on 20 popular open-source vision foundation models. Our study reveals some insightful findings on VFMs: 1) overall, current VFMs exhibit weak generalization across diverse tasks, 2) increasing video data, whether labeled or weakly-labeled video-text pairs, does not necessarily improve task performance, 3) the effectiveness of some pre-training paradigms may not be fully validated in previous benchmarks, and 4) combining different pre-training paradigms can help improve the generalization capabilities. We believe this study serves as an important complement to the current evaluation for VFMs and offers valuable insights for the future research.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# 複合物理系制御のための生成的アプローチ

A Generative Approach to Control Complex Physical Systems ( http://arxiv.org/abs/2407.06494v1 )

ライセンス: Link先を確認
Long Wei, Peiyan Hu, Ruiqi Feng, Haodong Feng, Yixuan Du, Tao Zhang, Rui Wang, Yue Wang, Zhi-Ming Ma, Tailin Wu, (参考訳) 複雑な物理システムの進化を制御することは、科学と工学における基本的な課題である。 古典的なテクニックは、適用性や計算コストの制限に悩まされる。 一方,近年の深層学習と強化学習に基づくアプローチは,システム力学の制約下での長期制御シーケンスの最適化に苦慮することが多い。 本稿では,物理系制御問題に対処する新しい手法である拡散物理系制御(DiffPhyCon)を紹介する。 DiffPhyConは、学習した生成エネルギー関数と、軌道と制御シーケンス全体にわたって定義された制御目的の両方を同時に最小化する。 これにより、世界中を探索し、最適に近い制御シーケンスを特定できる。 さらに、DiffPhyConを事前再重み付けにより強化し、トレーニング分布から著しく逸脱する制御シーケンスの発見を可能にする。 本手法を流体環境下での1D Burgers方程式と2Dクラゲ運動制御で検証した。 提案手法は,古典的アプローチや最先端の深層学習法,強化学習法よりも優れている。 特にDiffPhyConは、クラゲで観察される興味深い高速クロース・スロー・オープンパターンを公表し、流体力学の分野で確立された発見と一致している。

Controlling the evolution of complex physical systems is a fundamental task across science and engineering. Classical techniques suffer from limited applicability or huge computational costs. On the other hand, recent deep learning and reinforcement learning-based approaches often struggle to optimize long-term control sequences under the constraints of system dynamics. In this work, we introduce Diffusion Physical systems Control (DiffPhyCon), a new class of method to address the physical systems control problem. DiffPhyCon excels by simultaneously minimizing both the learned generative energy function and the predefined control objectives across the entire trajectory and control sequence. Thus, it can explore globally and identify near-optimal control sequences. Moreover, we enhance DiffPhyCon with prior reweighting, enabling the discovery of control sequences that significantly deviate from the training distribution. We test our method in 1D Burgers' equation and 2D jellyfish movement control in a fluid environment. Our method outperforms widely applied classical approaches and state-of-the-art deep learning and reinforcement learning methods. Notably, DiffPhyCon unveils an intriguing fast-close-slow-open pattern observed in the jellyfish, aligning with established findings in the field of fluid dynamics.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# DP-SGDに非凸損失のプライバシー対策はない

It's Our Loss: No Privacy Amplification for Hidden State DP-SGD With Non-Convex Loss ( http://arxiv.org/abs/2407.06496v1 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, (参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD)は、機械学習モデルのトレーニングに使用される一般的な反復アルゴリズムである。 しかし、DP-SGDのプライバシー分析は、アルゴリズムのすべての中間イテレート(つまり内部状態)が実際にリリースされてから、最終的なトレーニングモデル、すなわちアルゴリズムの最終イテレートのみが解放されるという非現実的な仮定である。 この隠れ状態設定において、先行研究は、損失関数が制約された場合にのみ、例えば、強く凸し、滑らかで、線形であるにもかかわらず、より厳密な解析を提供してきた。 一方,非凸損失関数を用いた場合においても,隠蔽状態DP-SGDのプライバシー漏洩は,理論的プライバシー解析と実際に達成されたプライバシー保証との間にギャップがあることを示唆している。 したがって、一般損失関数の隠蔽状態設定において、DP-SGDのプライバシー増幅が可能かどうかについては未解決のままである。 残念ながら、この研究は前述の研究の疑問に否定的に答えている。 DP-SGDの損失関数を慎重に構築することにより、DP-SGDの最終的な繰り返しは、全ての繰り返しの順序が組み合わされた情報だけをリークすることを示す。 さらに, DP-SGDの最終繰り返しからのプライバシー漏洩を損失関数と評価することにより, この結果を実証的に検証し, DPが保証する理論上界と正確に一致することを示す。 したがって、DP-SGDの現在のプライバシー分析は一般の損失関数に対して厳密であり、一般の(非凸的な)損失関数に対しては、DP-SGDのプライバシー増幅は不可能である。

Differentially Private Stochastic Gradient Descent (DP-SGD) is a popular iterative algorithm used to train machine learning models while formally guaranteeing the privacy of users. However the privacy analysis of DP-SGD makes the unrealistic assumption that all intermediate iterates (aka internal state) of the algorithm are released since in practice, only the final trained model, i.e., the final iterate of the algorithm is released. In this hidden state setting, prior work has provided tighter analyses, albeit only when the loss function is constrained, e.g., strongly convex and smooth or linear. On the other hand, the privacy leakage observed empirically from hidden state DP-SGD, even when using non-convex loss functions suggest that there is in fact a gap between the theoretical privacy analysis and the privacy guarantees achieved in practice. Therefore, it remains an open question whether privacy amplification for DP-SGD is possible in the hidden state setting for general loss functions. Unfortunately, this work answers the aforementioned research question negatively. By carefully constructing a loss function for DP-SGD, we show that for specific loss functions, the final iterate of DP-SGD alone leaks as much information as the sequence of all iterates combined. Furthermore, we empirically verify this result by evaluating the privacy leakage from the final iterate of DP-SGD with our loss function and show that this matches the theoretical upper bound guaranteed by DP exactly. Therefore, we show that the current privacy analysis fo DP-SGD is tight for general loss functions and conclude that no privacy amplification is possible for DP-SGD in general for all (possibly non-convex) loss functions.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# STORYSUMM: ストーリー要約における忠実さの評価

STORYSUMM: Evaluating Faithfulness in Story Summarization ( http://arxiv.org/abs/2407.06501v1 )

ライセンス: Link先を確認
Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen McKeown, (参考訳) 人間の評価は抽象的な要約における忠実性を確認するための金の基準となっている。 しかしながら、ナラティブのような難しいソースドメインでは、複数のアノテータが要約が忠実であることに同意できる一方で、一度だけ指摘された明らかなエラーの詳細が欠落している。 そこで我々は,局所的な忠実度ラベルと誤り説明を備えた短編小説のLCM要約を含む新しいデータセット,STORYSUMMを導入する。 このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。 このデータセットを用いて、まず、ある人間のアノテーションプロトコルが不整合を見逃しかねないことを示し、要約データセットの基礎的真理を確立する際に、様々な手法を追求することを提唱する。 最終的に、最近の自動メトリクスをテストし、このタスクで70%以上のバランスの取れた正確さを達成できないことを発見しました。

Human evaluation has been the gold standard for checking faithfulness in abstractive summarization. However, with a challenging source domain like narrative, multiple annotators can agree a summary is faithful, while missing details that are obvious errors only once pointed out. We therefore introduce a new dataset, STORYSUMM, comprising LLM summaries of short stories with localized faithfulness labels and error explanations. This benchmark is for evaluation methods, testing whether a given method can detect challenging inconsistencies. Using this dataset, we first show that any one human annotation protocol is likely to miss inconsistencies, and we advocate for pursuing a range of methods when establishing ground truth for a summarization dataset. We finally test recent automatic metrics and find that none of them achieve more than 70% balanced accuracy on this task, demonstrating that it is a challenging benchmark for future work in faithfulness evaluation.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# 効率的探索のための優先指導型強化学習

Preference-Guided Reinforcement Learning for Efficient Exploration ( http://arxiv.org/abs/2407.06503v1 )

ライセンス: Link先を確認
Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen, Xuyang Chen, Lin Zhao, (参考訳) 本稿では,RLエージェントが人間のフィードバックから学習できる嗜好に基づく強化学習(PbRL)について検討する。 これは、微粒な報酬関数を定義することは実現不可能な場合に特に有用である。 しかし、このアプローチは、長い地平線とまばらな報酬を持つハード探索タスクの深層探査を促進するために非効率で実用的ではない。 この課題に対処するために、私たちはLOPE:Learning Online with trajectory Preference guidancEという、ハード探索作業における探索効率を高めるエンドツーエンドの優先誘導RLフレームワークを紹介した。 我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、好みから別の報酬モデルを学ぶことを避けることで、オンライン探索の焦点を直接調整する。 具体的には、信頼領域に基づく政策改善と優先指導の2段階からなる2段階の政策最適化プロセスを含む。 我々は、好む軌道と学習方針との間の最大平均誤差距離を最小化する新しいトラジェクトリワイド状態境界マッチング問題として、嗜好指導を再構成する。 さらに,性能改善境界を特徴付ける理論解析を行い,LOPEの有効性を評価する。 様々な挑戦的なハード探索環境で評価されると、LOPEは収束率や全体的な性能に関していくつかの最先端の手法より優れている。 この研究で使用されたコードは、 \url{https://github.com/buaawgj/LOPE} で公開されている。

In this paper, we investigate preference-based reinforcement learning (PbRL) that allows reinforcement learning (RL) agents to learn from human feedback. This is particularly valuable when defining a fine-grain reward function is not feasible. However, this approach is inefficient and impractical for promoting deep exploration in hard-exploration tasks with long horizons and sparse rewards. To tackle this issue, we introduce LOPE: Learning Online with trajectory Preference guidancE, an end-to-end preference-guided RL framework that enhances exploration efficiency in hard-exploration tasks. Our intuition is that LOPE directly adjusts the focus of online exploration by considering human feedback as guidance, avoiding learning a separate reward model from preferences. Specifically, LOPE includes a two-step sequential policy optimization process consisting of trust-region-based policy improvement and preference guidance steps. We reformulate preference guidance as a novel trajectory-wise state marginal matching problem that minimizes the maximum mean discrepancy distance between the preferred trajectories and the learned policy. Furthermore, we provide a theoretical analysis to characterize the performance improvement bound and evaluate the LOPE's effectiveness. When assessed in various challenging hard-exploration environments, LOPE outperforms several state-of-the-art methods regarding convergence rate and overall performance. The code used in this study is available at \url{https://github.com/buaawgj/LOPE}.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# 医療ファウンデーションモデルのための蒸留のリプログラミング

Reprogramming Distillation for Medical Foundation Models ( http://arxiv.org/abs/2407.06504v1 )

ライセンス: Link先を確認
Yuhang Zhou, Siyuan Du, Haolin Li, Jiangchao Yao, Ya Zhang, Yanfeng Wang, (参考訳) 大規模データセットで事前訓練された医療基礎モデルは、様々なタスクに対して強力な汎用能力を実証している。 しかし、事前学習タスク(またはモダリティ)と下流タスク(またはモダリティ)のギャップ、現実世界の計算と速度制約のため、下流シナリオに医療基盤モデルを適用するのは簡単ではないかもしれない。 パラメータ効率のよい微調整(PEFT)法や知識蒸留(KD)法といった従来の手法では、タスク(あるいはモダリティ)の不整合に同時に対処することができず、多様な現実世界の要求の下で、パーソナライズされた軽量展開を実現することはできない。 上記の問題に対処するため、我々はReming Distillation (RD)と呼ばれる新しいフレームワークを提案する。 一方、RDはファンデーションモデルの本来の特徴空間を再プログラムし、下流のシナリオとより関連性があり、タスクやモダリティを整合させる。 一方、共学習機構と共有分類器により、プログラムされた知識と学生モデルの知識との接続が確立され、プログラムされた特徴空間が異なる構造の学生モデルによって円滑に模倣されることが保証される。 さらに、異なる訓練条件下でのランダム性を低減するために、堅牢な知識伝達を促進するためにCKA蒸留を設計する。 実験により, 従来のPEFT法やKD法と比較して, RDが常に優れた性能を発揮することを示す。

Medical foundation models pre-trained on large-scale datasets have demonstrated powerful versatile capabilities for various tasks. However, due to the gap between pre-training tasks (or modalities) and downstream tasks (or modalities), the real-world computation and speed constraints, it might not be straightforward to apply medical foundation models in the downstream scenarios. Previous methods, such as parameter efficient fine-tuning (PEFT) methods and knowledge distillation (KD) methods, are unable to simultaneously address the task (or modality) inconsistency and achieve personalized lightweight deployment under diverse real-world demands. To address the above issues, we propose a novel framework called Reprogramming Distillation (RD). On one hand, RD reprograms the original feature space of the foundation model so that it is more relevant to downstream scenarios, aligning tasks and modalities. On the other hand, through a co-training mechanism and a shared classifier, connections are established between the reprogrammed knowledge and the knowledge of student models, ensuring that the reprogrammed feature space can be smoothly mimic by the student model of different structures. Further, to reduce the randomness under different training conditions, we design a Centered Kernel Alignment (CKA) distillation to promote robust knowledge transfer. Empirically, we show that on extensive datasets, RD consistently achieve superior performance compared with previous PEFT and KD methods.
翻訳日:2024-07-10 19:35:13 公開日:2024-07-09
# Redditにおける留学生の情報検索とコミュニケーション

Information Seeking and Communication among International Students on Reddit ( http://arxiv.org/abs/2407.06506v1 )

ライセンス: Link先を確認
Chaeeun Han, Sangpil Youm, Sou Hyun Jang, (参考訳) 本研究では、新型コロナウイルスのパンデミックが学生の情報探索行動に与える影響について検討し、r/f1visa subredditに着目した。 本研究は,パンデミック期間中に複数の質問を投稿するユーザ数が著しく増加したことを示唆している。 繰り返し質問をする人はコミュニケーションに積極的に関与し、知識の継続的な追求を示唆している。 さらに、テーマは、新型コロナウイルス以前の仕事に関する質問から、金融、学校の準備、税金に関する懸念へとシフトしている。 これらの知見は,国際学生の進化するニーズを満たすために,タイムリーかつ関連性の高い情報を提供することの重要性を強調し,政策立案を支援することの意義を示唆している。 この動的環境に対する留学生の理解とナビゲーションを高めるためには,今後の研究が必要である。

This study examines the impact of the COVID-19 pandemic on information-seeking behaviors among international students, with a focus on the r/f1visa subreddit. Our study indicates a considerable rise in the number of users posting more than one question during the pandemic. Those asking recurring questions demonstrate more active involvement in communication, suggesting a continuous pursuit of knowledge. Furthermore, the thematic focus has shifted from questions about jobs before COVID-19 to concerns about finances, school preparations, and taxes during COVID-19. These findings carry implications for support policymaking, highlighting the importance of delivering timely and relevant information to meet the evolving needs of international students. To enhance international students' understanding and navigation of this dynamic environment, future research in this field is necessary.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# 深い強化学習に基づく橋梁の経済的な選択

Economic span selection of bridge based on deep reinforcement learning ( http://arxiv.org/abs/2407.06507v1 )

ライセンス: Link先を確認
Leye Zhang, Xiangxiang Tian, Chengli Zhang, Hongjun Zhang, (参考訳) ディープQネットワークアルゴリズムは、経済的な橋梁の選択に使用される。 橋梁の選定は橋梁の総コストに大きな影響を及ぼし、適切な橋梁の選択はエンジニアリングコストを低減させる。 橋梁の経済スパンを理論的に解析し, 経済スパンの理論解式を導出する。 橋梁シミュレーション環境の構築プロセスについて, 観測空間, 行動空間, 報奨関数などについて詳述する。 エージェントが構築され、畳み込みニューラルネットワークを使用してQ関数を近似し、アクション選択には{\epsilon}greedyポリシーを使用し、トレーニングにはエクスペリエンスリプレイを使用する。 この試験により, 最適政策の学習に成功し, 橋梁の経済的な選択を実現することができることを確認した。 本研究は橋梁設計のための潜在的な意思決定ツールを提供する。

Deep Q-network algorithm is used to select economic span of bridge. Selection of bridge span has a significant impact on the total cost of bridge, and a reasonable selection of span can reduce engineering cost. Economic span of bridge is theoretically analyzed, and the theoretical solution formula of economic span is deduced. Construction process of bridge simulation environment is described in detail, including observation space, action space and reward function of the environment. Agent is constructed, convolutional neural network is used to approximate Q function,{\epsilon} greedy policy is used for action selection, and experience replay is used for training. The test verifies that the agent can successfully learn optimal policy and realize economic span selection of bridge. This study provides a potential decision-making tool for bridge design.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# 自己監督型病理基盤モデルの臨床ベンチマーク

A Clinical Benchmark of Public Self-Supervised Pathology Foundation Models ( http://arxiv.org/abs/2407.06508v1 )

ライセンス: Link先を確認
Gabriele Campanella, Shengjia Chen, Ruchika Verma, Jennifer Zeng, Aryeh Stock, Matt Croken, Brandon Veremis, Abdulkadir Elmas, Kuan-lin Huang, Ricky Kwan, Jane Houldsworth, Adam J. Schoenfeld, Chad Vanderbilt, Thomas J. Fuchs, (参考訳) 病理基礎モデルのトレーニングにおける自己教師あり学習(SSL)の利用は,ここ数年で著しく増加している。 特に、大量の臨床データに基づいて訓練されたいくつかのモデルが、ここ数ヶ月で一般公開されている。 これにより、計算病理学の科学的研究が大幅に強化され、研究と臨床展開のギャップを埋める助けとなる。 異なるサイズの公立基礎モデルの可用性が向上し、異なるデータセット上で異なるアルゴリズムを用いて訓練されるようになると、複数の臓器や疾患にまたがる様々な臨床関連タスクにおいて、それらのモデルの性能を比較するためのベンチマークを確立することが重要となる。 本研究は、がん診断を含む臨床関連エンドポイントに関連する臨床スライドと、2つの医療センターから標準的な病院手術中に発生する各種バイオマーカーからなる病理データセットの収集について述べる。 これらのデータセットを利用して、公共病理基盤モデルの性能を体系的に評価し、新しい基礎モデルをトレーニングし、適切な事前学習モデルを選択するためのベストプラクティスに関する洞察を提供する。

The use of self-supervised learning (SSL) to train pathology foundation models has increased substantially in the past few years. Notably, several models trained on large quantities of clinical data have been made publicly available in recent months. This will significantly enhance scientific research in computational pathology and help bridge the gap between research and clinical deployment. With the increase in availability of public foundation models of different sizes, trained using different algorithms on different datasets, it becomes important to establish a benchmark to compare the performance of such models on a variety of clinically relevant tasks spanning multiple organs and diseases. In this work, we present a collection of pathology datasets comprising clinical slides associated with clinically relevant endpoints including cancer diagnoses and a variety of biomarkers generated during standard hospital operation from two medical centers. We leverage these datasets to systematically assess the performance of public pathology foundation models and provide insights into best practices for training new foundation models and selecting appropriate pretrained models.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# LuSNAR:Muti-Sensorを用いた自律探査用月面セグメンテーション・ナビゲーション・リコンストラクションデータセット

LuSNAR:A Lunar Segmentation, Navigation and Reconstruction Dataset based on Muti-sensor for Autonomous Exploration ( http://arxiv.org/abs/2407.06512v1 )

ライセンス: Link先を確認
Jiayi Liu, Qianyu Zhang, Xue Wan, Shengyang Zhang, Yaolin Tian, Haodong Han, Yutao Zhao, Baichuan Liu, Zeyuan Zhao, Xubo Luo, (参考訳) 月探査ミッションの複雑さにより、月はより高いレベルの自律性を持つ必要がある。 環境認識とナビゲーションアルゴリズムは、月探査船が自律的な探査を行うための基盤となっている。 アルゴリズムの開発と検証には信頼性の高いデータサポートが必要である。 既存の月のデータセットのほとんどは単一のタスクをターゲットにしており、多様なシーンと高精度の地上真実ラベルが欠如している。 この問題に対処するため,マルチタスク,マルチシーン,マルチラベルのベンチマークデータセットLuSNARを提案する。 このデータセットは、高解像度ステレオ画像ペア、パノラマセマンティックラベル、密度深度マップ、LiDAR点雲、ローバーの位置など、自律認識とナビゲーションシステムの総合的な評価に使用することができる。 よりリッチなシーンデータを提供するため,Unreal Engineをベースとした9つの月面シミュレーションシーンを構築した。 各シーンは、地形レリーフと物体の密度に応じて分割される。 データセットのユーザビリティを検証するために,セマンティックセグメンテーション,3次元再構成,自律ナビゲーションのアルゴリズムを評価し,分析した。 実験の結果,本論文で提案するデータセットは,自律環境認識やナビゲーションなどのタスクの地上検証に利用でき,アルゴリズムメトリクスのアクセシビリティをテストするためのベンチマークデータセットを提供する。 LuSNAR を https://github.com/autumn999999/LuSNAR-dataset で公開しています。

With the complexity of lunar exploration missions, the moon needs to have a higher level of autonomy. Environmental perception and navigation algorithms are the foundation for lunar rovers to achieve autonomous exploration. The development and verification of algorithms require highly reliable data support. Most of the existing lunar datasets are targeted at a single task, lacking diverse scenes and high-precision ground truth labels. To address this issue, we propose a multi-task, multi-scene, and multi-label lunar benchmark dataset LuSNAR. This dataset can be used for comprehensive evaluation of autonomous perception and navigation systems, including high-resolution stereo image pairs, panoramic semantic labels, dense depth maps, LiDAR point clouds, and the position of rover. In order to provide richer scene data, we built 9 lunar simulation scenes based on Unreal Engine. Each scene is divided according to topographic relief and the density of objects. To verify the usability of the dataset, we evaluated and analyzed the algorithms of semantic segmentation, 3D reconstruction, and autonomous navigation. The experiment results prove that the dataset proposed in this paper can be used for ground verification of tasks such as autonomous environment perception and navigation, and provides a lunar benchmark dataset for testing the accessibility of algorithm metrics. We make LuSNAR publicly available at: https://github.com/autumn999999/LuSNAR-dataset.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# 知的宇宙飛行のためのコンピュータビジョンタスクの概要

Computer vision tasks for intelligent aerospace missions: An overview ( http://arxiv.org/abs/2407.06513v1 )

ライセンス: Link先を確認
Huilin Chen, Qiyu Sun, Fangfei Li, Yang Tang, (参考訳) コンピュータビジョンタスクは、宇宙船が位置と向きを推定したり、3Dモデルを再構成したり、ミッションを成功させるために広く研究されてきた物体を認識するなど、宇宙環境の理解と解釈を助けるため、航空宇宙ミッションにとって不可欠である。 しかし、Kalman Filtering、Structure from Motion、Multi-View Stereoといった従来の手法は厳しい条件を処理できるほど堅牢ではないため、信頼性の低い結果をもたらす。 近年、ディープラーニング(DL)に基づく認識技術は、特に環境の変化に対する堅牢性の観点から、従来の手法よりも大きな可能性と性能を発揮している。 DLベースの航空宇宙認識をさらに前進させるため、様々なフレームワーク、データセット、戦略が提案され、将来の応用に有意義な可能性を示唆している。 本研究では,認識タスクに使用される有望な技術を探究し,DLに基づく航空宇宙認識の重要性を強調することを目的とする。 我々は、近年開発された古典的な宇宙プログラム、一般的なセンサー、従来の知覚方法など、航空宇宙の知覚の概要を提供することから始める。 その後,宇宙飛行における3つの基本的な認識課題,すなわちポーズ推定,3次元再構成,認識について検討する。 最後に,現在の研究の限界と可能性について論じ,限られたデータセットを扱うことの課題,改良されたアルゴリズムの必要性,マルチソース情報融合の潜在的なメリットなど,今後の発展を展望する。

Computer vision tasks are crucial for aerospace missions as they help spacecraft to understand and interpret the space environment, such as estimating position and orientation, reconstructing 3D models, and recognizing objects, which have been extensively studied to successfully carry out the missions. However, traditional methods like Kalman Filtering, Structure from Motion, and Multi-View Stereo are not robust enough to handle harsh conditions, leading to unreliable results. In recent years, deep learning (DL)-based perception technologies have shown great potential and outperformed traditional methods, especially in terms of their robustness to changing environments. To further advance DL-based aerospace perception, various frameworks, datasets, and strategies have been proposed, indicating significant potential for future applications. In this survey, we aim to explore the promising techniques used in perception tasks and emphasize the importance of DL-based aerospace perception. We begin by providing an overview of aerospace perception, including classical space programs developed in recent years, commonly used sensors, and traditional perception methods. Subsequently, we delve into three fundamental perception tasks in aerospace missions: pose estimation, 3D reconstruction, and recognition, as they are basic and crucial for subsequent decision-making and control. Finally, we discuss the limitations and possibilities in current research and provide an outlook on future developments, including the challenges of working with limited datasets, the need for improved algorithms, and the potential benefits of multi-source information fusion.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# 自己監督型実像復調のための非対称マスク方式

Asymmetric Mask Scheme for Self-Supervised Real Image Denoising ( http://arxiv.org/abs/2407.06514v1 )

ライセンス: Link先を確認
Xiangyu Liao, Tianheng Zheng, Jiayu Zhong, Pingping Zhang, Chao Ren, (参考訳) 近年, 自己監督型復調法が大きな成功を収め, 画像修復の分野で重要な役割を担っている。 その中でも、ブラインドスポットネットワークに基づく手法は最も典型的なタイプであり、多くの研究者の注目を集めている。 ブラインドスポット操作の導入は、ノイズからノイズへのアイデンティティマッピングを防止できるが、ネットワーク設計における受容的フィールドに対する厳密な要求を課し、全体的な性能を制限している。 この課題に対処するために,視覚障害者のための自己指導型聴覚訓練のためのマスク方式を提案し,ネットワーク構造設計の制約を取り除く。 さらに,推測中の全画像のデノベーションを実現するため,マルチマスク方式を提案する。 提案手法は,非対称マスク方式をトレーニングや推論に用い,既存の実雑音画像データセットの最先端性能を実現する。 すべてのソースコードが一般公開される予定だ。

In recent years, self-supervised denoising methods have gained significant success and become critically important in the field of image restoration. Among them, the blind spot network based methods are the most typical type and have attracted the attentions of a large number of researchers. Although the introduction of blind spot operations can prevent identity mapping from noise to noise, it imposes stringent requirements on the receptive fields in the network design, thereby limiting overall performance. To address this challenge, we propose a single mask scheme for self-supervised denoising training, which eliminates the need for blind spot operation and thereby removes constraints on the network structure design. Furthermore, to achieve denoising across entire image during inference, we propose a multi-mask scheme. Our method, featuring the asymmetric mask scheme in training and inference, achieves state-of-the-art performance on existing real noisy image datasets. All the source code will be made available to the public.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# VQA-Diff:自律走行におけるゼロショット画像-3次元車両アセット生成のためのVQAと拡散の爆発

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving ( http://arxiv.org/abs/2407.06516v1 )

ライセンス: Link先を確認
Yibo Liu, Zheyuan Yang, Guile Wu, Yuan Ren, Kejian Lin, Bingbing Liu, Yang Liu, Jinjun Shan, (参考訳) 飛行中の観察から3D車両の資産を生成することは、自動運転にとって不可欠である。 既存の画像から3Dの手法では、車載車(車種、メーカーなど)の深い理解なしに画像RGB情報から生成を学習するため、この問題にうまく対処できない。 これにより、隠蔽またはトリッキーな視角で現実世界の観測を処理できる、ゼロショット予測能力が貧弱になる。 この問題を解決するため,本研究では,車載画像を利用した自律走行用写真リアリスティック3D車両アセット作成のための新しいフレームワークであるVQA-Diffを提案する。 VQA-Diffは、視覚質問回答(VQA)モデルにおける大言語モデルから受け継がれた実世界の知識を利用して、堅牢なゼロショット予測と、構造と外観生成のための拡散モデルにおけるリッチイメージ事前知識を利用する。 特に,マルチエキスパート拡散モデルを用いて構造情報を生成し,主観駆動型構造制御生成機構を用いて外観情報をモデル化する。 結果として、VQA-Diffは、現実世界から収集した大規模な画像から3Dの車両のデータセットから学ぶ必要がなく、堅牢なゼロショット画像からノーベルビューの生成能力を持っている。 我々はPascal 3D+、Waymo、Objaverseなどのさまざまなデータセットで実験を行い、VQA-Diffが定性的かつ定量的に既存の最先端手法より優れていることを示す。

Generating 3D vehicle assets from in-the-wild observations is crucial to autonomous driving. Existing image-to-3D methods cannot well address this problem because they learn generation merely from image RGB information without a deeper understanding of in-the-wild vehicles (such as car models, manufacturers, etc.). This leads to their poor zero-shot prediction capability to handle real-world observations with occlusion or tricky viewing angles. To solve this problem, in this work, we propose VQA-Diff, a novel framework that leverages in-the-wild vehicle images to create photorealistic 3D vehicle assets for autonomous driving. VQA-Diff exploits the real-world knowledge inherited from the Large Language Model in the Visual Question Answering (VQA) model for robust zero-shot prediction and the rich image prior knowledge in the Diffusion model for structure and appearance generation. In particular, we utilize a multi-expert Diffusion Models strategy to generate the structure information and employ a subject-driven structure-controlled generation mechanism to model appearance information. As a result, without the necessity to learn from a large-scale image-to-3D vehicle dataset collected from the real world, VQA-Diff still has a robust zero-shot image-to-novel-view generation ability. We conduct experiments on various datasets, including Pascal 3D+, Waymo, and Objaverse, to demonstrate that VQA-Diff outperforms existing state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# Rydberg量子ゲートにおけるドップラー劣化誤差の消去

Erasing Doppler Dephasing Error in Rydberg Quantum Gates ( http://arxiv.org/abs/2407.06517v1 )

ライセンス: Link先を確認
Rui Li, Jing Qian, Weiping Zhang, (参考訳) 量子ビット原子の残留熱移動によるドップラー劣化は、中性原子量子ゲートにおける忠実度損失の主な原因である。 冷却とトラップの進歩に加えて、この誤差を軽減する効果的な方法はほとんど存在しない。 本研究では,一対の非共振場を用いて保護されたRydberg状態と補助状態とを連続的に調整し,同一のドップラー劣化源に対して逆だが高感度の感度を誘導する誤差検出手法を提案する。 レーザパルスの最適制御と組み合わせることで、ドップラーの劣化に完全に耐性を持つRbおよびCs原子の2量子制御NOTゲートのファミリーを実現する。 我々は、このゲート動作を、低励起補助状態に対して$F\approx0.9906$ at ${\it any}$温度でベンチマークし、F\approx0.9965$の高忠実度を50$\mu$Kで基底状態補助状態に対して達成することができる。 その結果、高忠実度量子ゲートの原子温度要件を大幅に低減し、中性原子を用いた実用的なエラー耐性量子コンピューティングの基本的なガイダンスを提供することができた。

The Doppler dephasing error due to residual thermal motion of qubit atoms is a major cause of fidelity loss in neutral-atom quantum gates. Besides cooling and trapping advancements, few effective methods exist to mitigate this error. In the present work, we introduce an error-erasing strategy that utilizes a pair of off-resonant fields to continuously dress the protected Rydberg state with an auxiliary state, which induces an opposite but enhanced sensitivity to the same source of Doppler dephasing error. Combining with an optimal control of laser pulses, we realize a family of Rydberg two-qubit controlled-NOT gates in Rb and Cs atoms that are fully robust to the Doppler dephasing error. We benchmark this gate operation with fidelity $F\approx0.9906$ at ${\it any}$ temperature for a lower-excited auxiliary state, and a higher fidelity of $F\approx0.9965$ can be attained for a ground-state auxiliary state at a temperature of 50 $\mu$K. Our results significantly reduce atomic temperature requirements for high-fidelity quantum gates, and may provide fundamental guidance to practical error-tolerant quantum computing with neutral atoms.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# V2X通信のためのグラフニューラルネットワークと深層強化学習に基づく資源配分

Graph Neural Networks and Deep Reinforcement Learning Based Resource Allocation for V2X Communications ( http://arxiv.org/abs/2407.06518v1 )

ライセンス: Link先を確認
Maoxin Ji, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief, (参考訳) Internet of Vehicles (IoV) 技術が急速に発展する中で,C-V2X (Cellular Vehicle-to-Everything) 通信が注目されている。 C-V2X内の資源配分は、安全情報の伝達を確実にし、V2V通信における超低レイテンシと高信頼性の厳しい要求を満たすために重要である。 本稿では,グラフニューラルネットワーク(GNN)と深層強化学習(DRL)を統合する手法を提案する。 グラフ構造の変化に対応するためにグラフサンプル・アグリゲーション(Graph Sample and Aggregation, GraphSAGE)モデルを用いて通信リンクをノードとして構築することにより,V2Vリンクの干渉を最小限に抑えながら,V2V通信における高い成功率を確保することを目的としている。 提案手法は,GNNのグローバルな特徴学習能力を維持し,分散ネットワーク展開をサポートし,局所観測に基づいてグラフネットワークから構造情報を含む低次元特徴を抽出し,独立した資源配分決定を行う。 シミュレーションの結果、GNNの導入は、計算負荷がわずかに増加し、エージェントの意思決定品質が効果的に向上し、他の方法よりも優れていることが示唆された。 本研究は,V2VおよびV2I通信における理論的に効率的な資源配分戦略を提供するだけでなく,実用IoV環境における資源管理のための新たな技術経路を開拓する。

In the rapidly evolving landscape of Internet of Vehicles (IoV) technology, Cellular Vehicle-to-Everything (C-V2X) communication has attracted much attention due to its superior performance in coverage, latency, and throughput. Resource allocation within C-V2X is crucial for ensuring the transmission of safety information and meeting the stringent requirements for ultra-low latency and high reliability in Vehicle-to-Vehicle (V2V) communication. This paper proposes a method that integrates Graph Neural Networks (GNN) with Deep Reinforcement Learning (DRL) to address this challenge. By constructing a dynamic graph with communication links as nodes and employing the Graph Sample and Aggregation (GraphSAGE) model to adapt to changes in graph structure, the model aims to ensure a high success rate for V2V communication while minimizing interference on Vehicle-to-Infrastructure (V2I) links, thereby ensuring the successful transmission of V2V link information and maintaining high transmission rates for V2I links. The proposed method retains the global feature learning capabilities of GNN and supports distributed network deployment, allowing vehicles to extract low-dimensional features that include structural information from the graph network based on local observations and to make independent resource allocation decisions. Simulation results indicate that the introduction of GNN, with a modest increase in computational load, effectively enhances the decision-making quality of agents, demonstrating superiority to other methods. This study not only provides a theoretically efficient resource allocation strategy for V2V and V2I communications but also paves a new technical path for resource management in practical IoV environments.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# UnmixingSR:ハイパースペクトル画像超解像のための補助課題としての教師なしアンミキシングを用いた教材認識ネットワーク

UnmixingSR: Material-aware Network with Unsupervised Unmixing as Auxiliary Task for Hyperspectral Image Super-resolution ( http://arxiv.org/abs/2407.06525v1 )

ライセンス: Link先を確認
Yang Yu, (参考訳) 深層学習ベース (DL-based) ハイパースペクトル画像 (HIS) 超解像法 (SR) は, 産業や学界で注目されている。 しかしながら、現在のほとんどの手法は、低分解能(LR)と高分解能(HR)HSIのマッピング関係を探索し、学習し、不確実なSR問題を解く際の不確実性と不合理性を増大させる副作用となった。 非常に興味深いことに、LRイメージングは混合ピクセル現象に類似している。 センサアレイ内の単一光検出器は、複数のクラスによって反射される反射信号を受け取り、空間分解能が低く、混合画素問題を引き起こす。 本研究は,HSIの材料成分を知覚するために,教師なしHUを補助的タスクとして使用するUnmixingSRと呼ばれるコンポーネント対応HSI SRネットワークを提案する。 我々は、HUを補助的タスクとみなし、LRとHRの制約を探索することで、HSI SRプロセスに組み込む。 LRとHR HSIのマッピング関係を学習する代わりに、LRとHRの結合を利用してSR問題の解法における手法の安定性を高める。 さらに、提案したアンミックスプロセスは、プラグインプレイ補助タスクとして既存のディープSRモデルに組み込むことができる。 超スペクトル実験による実験結果から、SR問題に組み込まれた補助的タスクとしての混合過程は実現可能で合理的であり、優れた性能を達成できることが示された。 コードは利用可能です

Deep learning-based (DL-based) hyperspectral image (HIS) super-resolution (SR) methods have achieved remarkable performance and attracted attention in industry and academia. Nonetheless, most current methods explored and learned the mapping relationship between low-resolution (LR) and high-resolution (HR) HSIs, leading to the side effect of increasing unreliability and irrationality in solving the ill-posed SR problem. We find, quite interestingly, LR imaging is similar to the mixed pixel phenomenon. A single photodetector in sensor arrays receives the reflectance signals reflected by a number of classes, resulting in low spatial resolution and mixed pixel problems. Inspired by this observation, this paper proposes a component-aware HSI SR network called UnmixingSR, in which the unsupervised HU as an auxiliary task is used to perceive the material components of HSIs. We regard HU as an auxiliary task and incorporate it into the HSI SR process by exploring the constraints between LR and HR abundances. Instead of only learning the mapping relationship between LR and HR HSIs, we leverage the bond between LR abundances and HR abundances to boost the stability of our method in solving SR problems. Moreover, the proposed unmixing process can be embedded into existing deep SR models as a plug-in-play auxiliary task. Experimental results on hyperspectral experiments show that unmixing process as an auxiliary task incorporated into the SR problem is feasible and rational, achieving outstanding performance. The code is available at
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# GNN-CLモデルを用いた高度なファイナンシャルフラッド検出

Advanced Financial Fraud Detection Using GNN-CL Model ( http://arxiv.org/abs/2407.06529v1 )

ライセンス: Link先を確認
Yu Cheng, Junjie Guo, Shiqing Long, You Wu, Mengfang Sun, Rong Zhang, (参考訳) 本稿では、グラフニューラルネットワーク(gnn)、畳み込みニューラルネットワーク(cnn)、長期記憶(LSTM)の利点を相乗的に組み合わせることで、金融不正検出の分野における画期的なGNN-CLモデルを提案する。 この収束により、複雑なトランザクションパターンの多面的解析が可能となり、検出精度と複雑な不正行為に対するレジリエンスが改善される。 本稿では,マルチ層パーセプトロン(MLPS)を用いてノード類似性を推定し,偽陽性につながる近傍雑音を効果的に除去する手法を提案する。 このインテリジェントな浄化機構により、最も関連性の高い情報のみが考慮されることが保証され、それによってモデルによるネットワーク構造に対する理解が向上する。 特徴の弱化は、鍵信号の希釈によりグラフベースのモデルに悩まされることが多い。 機能弱化の課題にさらに対処するため、GNN-CLは強化学習戦略を採用している。 中央ノードに割り当てられた重みを動的に調整することで、情報の少ないデータでも重要な詐欺の手がかりを保持するために、これらの影響力のあるエンティティの重要性を補強する。 Yelpデータセットの実験的評価は、既存の手法と比較して、GNN-CLの優れたパフォーマンスを強調していることを示している。

The innovative GNN-CL model proposed in this paper marks a breakthrough in the field of financial fraud detection by synergistically combining the advantages of graph neural networks (gnn), convolutional neural networks (cnn) and long short-term memory (LSTM) networks. This convergence enables multifaceted analysis of complex transaction patterns, improving detection accuracy and resilience against complex fraudulent activities. A key novelty of this paper is the use of multilayer perceptrons (MLPS) to estimate node similarity, effectively filtering out neighborhood noise that can lead to false positives. This intelligent purification mechanism ensures that only the most relevant information is considered, thereby improving the model's understanding of the network structure. Feature weakening often plagues graph-based models due to the dilution of key signals. In order to further address the challenge of feature weakening, GNN-CL adopts reinforcement learning strategies. By dynamically adjusting the weights assigned to central nodes, it reinforces the importance of these influential entities to retain important clues of fraud even in less informative data. Experimental evaluations on Yelp datasets show that the results highlight the superior performance of GNN-CL compared to existing methods.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# あらゆるものを追跡する分解

Decomposition Betters Tracking Everything Everywhere ( http://arxiv.org/abs/2407.06531v1 )

ライセンス: Link先を確認
Rui Li, Dong Liu, (参考訳) 動き推定に関する最近の研究は、ビデオ全体、好ましくは各ピクセルに対して一様に一貫した、最適化された動き表現を提唱している。 均一な表現は、自然ビデオの複雑で多様な動きや外観を考慮しないため、これは難しい。 この問題に対処し,DecoMotionという新しいテスト時間最適化手法を提案する。 DecoMotionはビデオコンテンツを静的シーンと動的オブジェクトに明示的に分解する。 DecoMotionは局所空間と標準空間の間の変換を別々に調整し、カメラの動きに対応する静的シーンに対するアフィン変換を容易にする。 ダイナミックボリュームに対しては、DecoMotionは差別的かつ時間的に一貫した特徴を活用して、非厳密な変換を是正する。 最終的に2巻は、動きと外観を完全に表現するために融合される。 この分割・対数戦略は、閉塞や変形によるより堅牢な追跡につながり、一方、分解された外観を得る。 我々はTAP-Vidベンチマークで評価を行う。 その結果,提案手法は点追跡精度を高いマージンで向上させ,最先端の専用点追跡ソリューションと同等に動作することを示した。

Recent studies on motion estimation have advocated an optimized motion representation that is globally consistent across the entire video, preferably for every pixel. This is challenging as a uniform representation may not account for the complex and diverse motion and appearance of natural videos. We address this problem and propose a new test-time optimization method, named DecoMotion, for estimating per-pixel and long-range motion. DecoMotion explicitly decomposes video content into static scenes and dynamic objects, either of which uses a quasi-3D canonical volume to represent. DecoMotion separately coordinates the transformations between local and canonical spaces, facilitating an affine transformation for the static scene that corresponds to camera motion. For the dynamic volume, DecoMotion leverages discriminative and temporally consistent features to rectify the non-rigid transformation. The two volumes are finally fused to fully represent motion and appearance. This divide-and-conquer strategy leads to more robust tracking through occlusions and deformations and meanwhile obtains decomposed appearances. We conduct evaluations on the TAP-Vid benchmark. The results demonstrate our method boosts the point-tracking accuracy by a large margin and performs on par with some state-of-the-art dedicated point-tracking solutions.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# LETS-C: 時系列分類のための言語埋め込みの活用

LETS-C: Leveraging Language Embedding for Time Series Classification ( http://arxiv.org/abs/2407.06533v1 )

ライセンス: Link先を確認
Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso, (参考訳) 近年の言語モデリングの進歩は時系列データに適用した場合に有望な結果を示している。 特に、時系列分類タスクのための微調整済みの大規模言語モデル(LLM)は、標準ベンチマークで最先端(SOTA)性能を達成した。 しかしながら、これらのLCMベースのモデルは、数百万のトレーニング可能なパラメータの数で、大きなモデルサイズのため、大きな欠点がある。 本稿では,時系列領域における言語モデリングの成功を活用するための代替手法を提案する。 LLMを微調整する代わりに、言語埋め込みモデルを用いて時系列を埋め込み、その埋め込みを畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)からなる単純な分類ヘッドと組み合わせる。 我々は、確立された時系列分類ベンチマークデータセットについて広範な実験を行った。 LETS-Cは従来のSOTAモデルよりも精度が高いだけでなく、トレーニング可能なパラメータの14.5%しか使用せず、軽量なソリューションも提供することを示した。 この結果から,言語エンコーダを組み込んで時系列データを組み込むことにより,軽量なモデルアーキテクチャを維持しつつ,高速な時系列分類を実現する上で有望な方向性を示すことが示唆された。

Recent advancements in language modeling have shown promising results when applied to time series data. In particular, fine-tuning pre-trained large language models (LLMs) for time series classification tasks has achieved state-of-the-art (SOTA) performance on standard benchmarks. However, these LLM-based models have a significant drawback due to the large model size, with the number of trainable parameters in the millions. In this paper, we propose an alternative approach to leveraging the success of language modeling in the time series domain. Instead of fine-tuning LLMs, we utilize a language embedding model to embed time series and then pair the embeddings with a simple classification head composed of convolutional neural networks (CNN) and multilayer perceptron (MLP). We conducted extensive experiments on well-established time series classification benchmark datasets. We demonstrated LETS-C not only outperforms the current SOTA in classification accuracy but also offers a lightweight solution, using only 14.5% of the trainable parameters on average compared to the SOTA model. Our findings suggest that leveraging language encoders to embed time series data, combined with a simple yet effective classification head, offers a promising direction for achieving high-performance time series classification while maintaining a lightweight model architecture.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# ランプシフトが熱電流限界を破る

Lamb Shift Breaks the Heat Current Limit ( http://arxiv.org/abs/2407.06534v1 )

ライセンス: Link先を確認
Zi-chen Zhang, Chang-shui Yu, (参考訳) 2つの結合した2層原子を通した定常熱電流を一定温度で熱貯水池と相互作用させることによりラムシフトを考察した。 ラムシフトはエネルギーレベルを大きく変化させる。 特に、ラムシフトが考慮されない場合、熱電流が上界に接近し、一方、ラムシフトが考慮された場合、熱電流が上界を壊すことが示されている。 この発見は、量子熱力学におけるラムシフトの理解を深めることができる。

We study the Lamb shift by considering the steady-state heat current through two coupled two-level atoms, which, respectively, interact with a heat reservoir at a certain temperature. It is found that the Lamb shift significantly alters the energy levels. In particular, it is shown that the heat current will approach an upper bound if the Lamb shift isn't considered, while the heat current will break the upper bound if the Lamb shift is considered. This finding can deepen our understanding of Lamb shift in the quantum thermodynamic field.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# 多目的最適化のための2段階進化フレームワーク

A Two-stage Evolutionary Framework For Multi-objective Optimization ( http://arxiv.org/abs/2407.06536v1 )

ライセンス: Link先を確認
Peng Chen, Jing Liang, Kangjia Qiao, Ponnuthurai Nagaratnam Suganthan, Xuanxuan Ban, (参考訳) 進化的多目的最適化の分野では、パレートフロント(PF)の近似は、望ましい収束と多様性を示す代表候補解の集合を利用して達成される。 複数の多目的進化アルゴリズム (MOEA) が設計されているが、集団の収束と多様性のバランスを維持するには依然として困難である。 本稿では,多目的最適化のための2段階進化フレームワーク(TEMOF)を提案する。 アルゴリズムは、人口の探索能力を高めるために、2つの段階に分けられる。 進化の前半において、親の選抜は一次個体群からのみ行われる。 さらに、現在人口の環境選択を行うだけでなく、第1のPFに位置する個人を収容するための外部アーカイブも設置する。 その後、第2段階では、親は人口またはアーカイブからランダムに選択される。 実験では、1つの古典的MOEAと2つの最先端MOEAがフレームワークに統合され、3つの新しいアルゴリズムが形成される。 実験結果から,提案するフレームワークの多種多様なMOPに対して,優れた,堅牢な性能を示す。 さらに、3つの新しいアルゴリズムの勝者は、既存のMOEAと比較され、より良い結果を示す。 一方、既存のベンチマーク機能に2段階フレームワークが有効である理由を結論付けている。

In the field of evolutionary multi-objective optimization, the approximation of the Pareto front (PF) is achieved by utilizing a collection of representative candidate solutions that exhibit desirable convergence and diversity. Although several multi-objective evolutionary algorithms (MOEAs) have been designed, they still have difficulties in keeping balance between convergence and diversity of population. To better solve multi-objective optimization problems (MOPs), this paper proposes a Two-stage Evolutionary Framework For Multi-objective Optimization (TEMOF). Literally, algorithms are divided into two stages to enhance the search capability of the population. During the initial half of evolutions, parental selection is exclusively conducted from the primary population. Additionally, we not only perform environmental selection on the current population, but we also establish an external archive to store individuals situated on the first PF. Subsequently, in the second stage, parents are randomly chosen either from the population or the archive. In the experiments, one classic MOEA and two state-of-the-art MOEAs are integrated into the framework to form three new algorithms. The experimental results demonstrate the superior and robust performance of the proposed framework across a wide range of MOPs. Besides, the winner among three new algorithms is compared with several existing MOEAs and shows better results. Meanwhile, we conclude the reasons that why the two-stage framework is effect for the existing benchmark functions.
翻訳日:2024-07-10 19:25:27 公開日:2024-07-09
# sLLMに基づくDPOを用いた効率よく正確な記憶可能会話モデル

Efficient and Accurate Memorable Conversation Model using DPO based on sLLM ( http://arxiv.org/abs/2407.06537v1 )

ライセンス: Link先を確認
Youngkyung Seo, Yoonseok Heo, Jun-Seok Koh, Du-Seoung Chang, (参考訳) マルチセッションダイアログシステムでは、セッションが進行するにつれてメモリを継続的に更新することが不可欠である。 メモリを蓄積するだけでは、限られた入力文サイズのため、推論のための会話の内容に焦点を合わせるのが難しくなる。 したがって,会話履歴を連続的に反映するメモリ管理が可能な,効率的かつ正確な会話モデルが必要である。 本稿では,セッション進行時にメモリを効率的に管理し,SFT,DPO,DPOの3つの手法を用いて,会話履歴を正確に反映する会話モデルを提案する。 DPOアルゴリズムを用いたモデルでは,BERTScoreのメモリ精度が約0.0591向上し,メモリを反映する応答率も向上した。 また、応答生成性能は約4.292回、コヒーレンス3.935回、一貫性2.896回向上した。 本稿では,モデルサイズが小さい場合でも,パラメータサイズが2倍以上のモデルよりも優れた性能を示す訓練手法について述べる。 したがって,本モデルでは,精度だけでなく資源利用においても効率性を示す。

In multi-session dialog system, it is essential to continuously update the memory as the session progresses. Simply accumulating memory can make it difficult to focus on the content of the conversation for inference due to the limited input sentence size. Therefore, efficient and accurate conversation model that is capable of managing memory to reflect the conversation history continuously is necessary. This paper presents a conversation model that efficiently manages memory as sessions progress and incorporates this into the model to reflect the conversation history accurately with 3 methodologies: SFT, DPO and DPO with SFT model. Our model using DPO algorithm shows an improvement about 0.0591 of BERTScore in memory accuracy, and the rate of responses reflecting the memory increased as well. Also, response generation performance enhanced about 4.292 in fluency, 3.935 in coherence, and 2.896 in consistency. This paper describes a training method that yields better performance than models with more than twice the parameter size, even when the model size is smaller. Thus, our model demonstrates efficiency not only in terms of accuracy but also in resource utilization.
翻訳日:2024-07-10 19:15:33 公開日:2024-07-09
# マルチリンガルエンコーダと知識蒸留を併用した低リソースNMTの実施例

Enhancing Low-Resource NMT with a Multilingual Encoder and Knowledge Distillation: A Case Study ( http://arxiv.org/abs/2407.06538v1 )

ライセンス: Link先を確認
Aniruddha Roy, Pretam Ray, Ayush Maheshwari, Sudeshna Sarkar, Pawan Goyal, (参考訳) ニューラルネットワーク翻訳(NMT)は、特に低リソース言語を扱う場合、依然として大きな課題である。 mBART-50のような事前訓練されたシーケンス・ツー・シークエンス(seq2seq)マルチ言語モデルは、様々な低リソースNTTタスクにおいて顕著な性能を示している。 しかし、プレトレーニングは50言語に限られており、特にインド亜大陸で話されている多くの低リソース言語のサポートは残されている。 mBART-50の言語サポートを拡張するには、複雑な事前トレーニングが必要である。 そこで本研究では,mBART-50でカバーされていない言語を含む低リソース言語への翻訳を容易にするために,事前学習型言語モデルの利点とセq2seqアーキテクチャの知識蒸留を活用するフレームワークについて検討する。 提案フレームワークは,多言語エンコーダをベースとしたセク2セックモデルを基礎的アーキテクチャとして使用し,その後,不均衡学習の影響を軽減するために補完的知識蒸留技術を用いている。 本フレームワークは,低リソースのIndic言語を4つのIndic-to-Indic方向で評価し,BLEU-4とchrFの改善を実現した。 さらに,本手法の有効性を確認するために人的評価を行う。 私たちのコードはhttps://github.com/raypretam/Two-step-low-res-NMTで公開されています。

Neural Machine Translation (NMT) remains a formidable challenge, especially when dealing with low-resource languages. Pre-trained sequence-to-sequence (seq2seq) multi-lingual models, such as mBART-50, have demonstrated impressive performance in various low-resource NMT tasks. However, their pre-training has been confined to 50 languages, leaving out support for numerous low-resource languages, particularly those spoken in the Indian subcontinent. Expanding mBART-50's language support requires complex pre-training, risking performance decline due to catastrophic forgetting. Considering these expanding challenges, this paper explores a framework that leverages the benefits of a pre-trained language model along with knowledge distillation in a seq2seq architecture to facilitate translation for low-resource languages, including those not covered by mBART-50. The proposed framework employs a multilingual encoder-based seq2seq model as the foundational architecture and subsequently uses complementary knowledge distillation techniques to mitigate the impact of imbalanced training. Our framework is evaluated on three low-resource Indic languages in four Indic-to-Indic directions, yielding significant BLEU-4 and chrF improvements over baselines. Further, we conduct human evaluation to confirm effectiveness of our approach. Our code is publicly available at https://github.com/raypretam/Two-step-low-res-NMT.
翻訳日:2024-07-10 19:15:33 公開日:2024-07-09
# 汎用とタスク指向のビデオセグメンテーション

General and Task-Oriented Video Segmentation ( http://arxiv.org/abs/2407.06540v1 )

ライセンス: Link先を確認
Mu Chen, Liulei Li, Wenguan Wang, Ruijie Quan, Yi Yang, (参考訳) GvSegは、4つの異なるビデオセグメンテーションタスク(セマンティクス、パノプティクス、先例誘導)を同一のアーキテクチャ設計を維持しながら扱うための一般的なビデオセグメンテーションフレームワークである。 現在、複数のタスクにまたがって適用可能な一般的なビデオセグメンテーションソリューションの開発が進んでいる。 これにより、リサーチの取り組みが合理化され、デプロイが簡単になる。 しかし、現在の設計において、各要素が一様性を維持するような高度に均質化されたフレームワークは、異なるタスクの固有の多様性を見落とし、最適以下のパフォーマンスをもたらす可能性がある。 これに取り組むため、GvSeg: 一 セグメント目標に対する全体的歪曲及びモデリングを提供し、外観、位置及び形状の観点から徹底的に検証し、この限りでないこと。 二 タスク固有の要件に従って、クエリの初期化、マッチング及びサンプリング戦略を変更すること。 これらのアーキテクチャに依存しない革新により、GvSegはそれぞれのユニークなタスクに効果的に対処できる。 7つのゴールド標準ベンチマークデータセットに対する大規模な実験により、GvSegは4つの異なるビデオセグメンテーションタスクにおいて、既存の専門/一般のソリューションをはるかに上回っていることが示された。

We present GvSeg, a general video segmentation framework for addressing four different video segmentation tasks (i.e., instance, semantic, panoptic, and exemplar-guided) while maintaining an identical architectural design. Currently, there is a trend towards developing general video segmentation solutions that can be applied across multiple tasks. This streamlines research endeavors and simplifies deployment. However, such a highly homogenized framework in current design, where each element maintains uniformity, could overlook the inherent diversity among different tasks and lead to suboptimal performance. To tackle this, GvSeg: i) provides a holistic disentanglement and modeling for segment targets, thoroughly examining them from the perspective of appearance, position, and shape, and on this basis, ii) reformulates the query initialization, matching and sampling strategies in alignment with the task-specific requirement. These architecture-agnostic innovations empower GvSeg to effectively address each unique task by accommodating the specific properties that characterize them. Extensive experiments on seven gold-standard benchmark datasets demonstrate that GvSeg surpasses all existing specialized/general solutions by a significant margin on four different video segmentation tasks.
翻訳日:2024-07-10 19:15:33 公開日:2024-07-09
# LIONs: 言語モデルに対する経験的に最適化されたアプローチ

LIONs: An Empirically Optimized Approach to Align Language Models ( http://arxiv.org/abs/2407.06542v1 )

ライセンス: Link先を確認
Xiao Yu, Qingyang Wu, Yu Li, Zhou Yu, (参考訳) アライメントは、言語モデルの命令追従能力と会話能力を強化するための重要なステップである。 新たなアルゴリズム、データセット、トレーニングパイプラインを提案する最近の多くの作業にもかかわらず、トレーニングプロセス全体を通してさまざまな設計選択の影響を測定する包括的な研究が欠如している。 まず、教師付き微調整、オフライン選好学習、オンライン選好学習からなる3段階の学習パイプラインについて厳密な分析を行う。 我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。 次に、Gemma-2bベースとLLama-3-8bベースからトレーニングを行い、クローズドソースデータとアルゴリズムで調整された公式インストラクションモデルの性能より優れたモデルを見つける。 私たちのコードとモデルは、https://github.com/Columbia-NLP-Lab/LionAlignment.orgにある。

Alignment is a crucial step to enhance the instruction-following and conversational abilities of language models. Despite many recent work proposing new algorithms, datasets, and training pipelines, there is a lack of comprehensive studies measuring the impact of various design choices throughout the whole training process. We first conduct a rigorous analysis over a three-stage training pipeline consisting of supervised fine-tuning, offline preference learning, and online preference learning. We have found that using techniques like sequence packing, loss masking in SFT, increasing the preference dataset size in DPO, and online DPO training can significantly improve the performance of language models. We then train from Gemma-2b-base and LLama-3-8b-base, and find that our best models exceed the performance of the official instruct models tuned with closed-source data and algorithms. Our code and models can be found at https://github.com/Columbia-NLP-Lab/LionAlignment.
翻訳日:2024-07-10 19:15:33 公開日:2024-07-09
# DriftGAN:教師なし再帰ドリフト検出における履歴データの利用

DriftGAN: Using historical data for Unsupervised Recurring Drift Detection ( http://arxiv.org/abs/2407.06543v1 )

ライセンス: Link先を確認
Christofer Fellicious, Sahib Julka, Lorenz Wendlinger, Michael Granitzer, (参考訳) 実世界のアプリケーションでは、入力データ分布は、概念ドリフト(concept drift)として知られる現象として、一定期間にわたって静的であることが多い。 このような概念はモデルの予測性能を低下させるため、これらの問題を克服するための方法が必要である。 最初のステップは、概念のドリフトを特定し、モデルのパフォーマンスを回復するためのトレーニング方法を用意することです。 ほとんどの概念ドリフト検出方法は、概念ドリフトを検出し、モデルを再訓練する要求をシグナル伝達する。 しかし、現実のケースでは、ある期間にわたって再帰するコンセプトドリフトが存在する可能性がある。 本稿では,GAN(Generative Adversarial Networks)に基づく教師なしの手法を提案する。 本手法は,ドリフトを繰り返すのに必要な時間とデータを削減する。 我々の主要な結果は、提案したモデルが、ほとんどのデータセットで現在の最先端モデルより優れていることを示唆している。 また,本手法を天体物理学から実世界のユースケースで試行し,既存の手法よりも優れた結果で弓の衝撃や磁気的交叉を検出する。

In real-world applications, input data distributions are rarely static over a period of time, a phenomenon known as concept drift. Such concept drifts degrade the model's prediction performance, and therefore we require methods to overcome these issues. The initial step is to identify concept drifts and have a training method in place to recover the model's performance. Most concept drift detection methods work on detecting concept drifts and signalling the requirement to retrain the model. However, in real-world cases, there could be concept drifts that recur over a period of time. In this paper, we present an unsupervised method based on Generative Adversarial Networks(GAN) to detect concept drifts and identify whether a specific concept drift occurred in the past. Our method reduces the time and data the model requires to get up to speed for recurring drifts. Our key results indicate that our proposed model can outperform the current state-of-the-art models in most datasets. We also test our method on a real-world use case from astrophysics, where we detect the bow shock and magnetopause crossings with better results than the existing methods in the domain.
翻訳日:2024-07-10 19:15:33 公開日:2024-07-09
# 複数インスタンス検証

Multiple Instance Verification ( http://arxiv.org/abs/2407.06544v1 )

ライセンス: Link先を確認
Xin Xu, Eibe Frank, Geoffrey Holmes, (参考訳) 我々は、クエリインスタンスが不均一で未知の関連性を持つターゲットインスタンスのバッグに対して検証される問題設定である多重インスタンス検証について検討する。 注意に基づく多重インスタンス学習(MIL)手法と、シームズニューラルネットワークのような標準的な検証手法の素直な適応は、この設定には適さない: 最先端のMIL法とシームズネットワークを直接組み合わせることは、単純なベースラインモデルよりも良く、時にさらに悪い。 これは、クエリーインスタンスを組み込むためにターゲットバッグの表現が失敗したことで引き起こされる可能性があると仮定し、 '`cross-attention pooling' (CAP) と呼ばれる新しいプール手法を導入する。 CAPフレームワークでは、ターゲットバッグ内の非常に類似したインスタンスを区別する問題に対処する2つの新しい注意機能を提案する。 3つの異なる検証課題に関する実証研究を通じて、CAPは分類のための説明の精度と品質の両面で、SOTA MIL法とベースラインの適応を実質的なマージンで上回ることを示した。 アブレーション研究は、キーインスタンスを識別する新しい注意関数の優れた能力を確認する。

We explore multiple-instance verification, a problem setting where a query instance is verified against a bag of target instances with heterogeneous, unknown relevancy. We show that naive adaptations of attention-based multiple instance learning (MIL) methods and standard verification methods like Siamese neural networks are unsuitable for this setting: directly combining state-of-the-art (SOTA) MIL methods and Siamese networks is shown to be no better, and sometimes significantly worse, than a simple baseline model. Postulating that this may be caused by the failure of the representation of the target bag to incorporate the query instance, we introduce a new pooling approach named ``cross-attention pooling'' (CAP). Under the CAP framework, we propose two novel attention functions to address the challenge of distinguishing between highly similar instances in a target bag. Through empirical studies on three different verification tasks, we demonstrate that CAP outperforms adaptations of SOTA MIL methods and the baseline by substantial margins, in terms of both classification accuracy and quality of the explanations provided for the classifications. Ablation studies confirm the superior ability of the new attention functions to identify key instances.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# エンド・ツー・エンド自動運転の因果性を探る

Exploring the Causality of End-to-End Autonomous Driving ( http://arxiv.org/abs/2407.06546v1 )

ライセンス: Link先を確認
Jiankun Li, Hao Li, Jiangjiang Liu, Zhikang Zou, Xiaoqing Ye, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang, (参考訳) ディープラーニングベースのモデルは、自動運転分野、特に注目されているエンドツーエンドソリューションに広くデプロイされている。 しかしながら、これらのモデルのブラックボックス特性は、自律運転の信頼性と安全性に関する懸念を提起し、因果関係のデバッグ方法が懸念されている。 自動運転車の説明可能性に関する既存の研究はいくつかあるが、現在、研究者が最終予想されるエンドツーエンドの自動運転の動作につながる主要な要因をデバッグし特定するための体系的な解決策はない。 本研究では,エンドツーエンド自動運転の因果性を探究し,分析するための総合的なアプローチを提案する。 まず,定性解析のための制御変数と対実的介入を用いることで,最終計画が依存する重要な情報を検証する。 そして,キーモデル入力の応答を可視化し,統計的に解析することにより,モデル決定に影響を与える要因を定量的に評価する。 最後に,多要素エンド・ツー・エンド自動運転システムの総合的な研究に基づいて,クローズループシミュレータCARLAの因果関係を探索する強力なベースラインとツールを開発した。 本質的な入力源を活用して、十分に設計されたモデルを得ることができ、結果として高い競争力が得られる。 私たちが知る限りでは、私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。 詳細なクローズループ実験により,本手法をエンド・ツー・エンドの自律運転ソリューションに適用し,因果デバッグを行えることを示した。 コードはhttps://github.com/bdvisl/DriveInsightで入手できる。

Deep learning-based models are widely deployed in autonomous driving areas, especially the increasingly noticed end-to-end solutions. However, the black-box property of these models raises concerns about their trustworthiness and safety for autonomous driving, and how to debug the causality has become a pressing concern. Despite some existing research on the explainability of autonomous driving, there is currently no systematic solution to help researchers debug and identify the key factors that lead to the final predicted action of end-to-end autonomous driving. In this work, we propose a comprehensive approach to explore and analyze the causality of end-to-end autonomous driving. First, we validate the essential information that the final planning depends on by using controlled variables and counterfactual interventions for qualitative analysis. Then, we quantitatively assess the factors influencing model decisions by visualizing and statistically analyzing the response of key model inputs. Finally, based on the comprehensive study of the multi-factorial end-to-end autonomous driving system, we have developed a strong baseline and a tool for exploring causality in the close-loop simulator CARLA. It leverages the essential input sources to obtain a well-designed model, resulting in highly competitive capabilities. As far as we know, our work is the first to unveil the mystery of end-to-end autonomous driving and turn the black box into a white one. Thorough close-loop experiments demonstrate that our method can be applied to end-to-end autonomous driving solutions for causality debugging. Code will be available at https://github.com/bdvisl/DriveInsight.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# Featural InfoWaveGANを用いたアサメ母音調和の解読

Deciphering Assamese Vowel Harmony with Featural InfoWaveGAN ( http://arxiv.org/abs/2407.06547v1 )

ライセンス: Link先を確認
Sneha Ray Barman, Shakuntala Mahanta, Neeraj Kumar Sharma, (参考訳) 音韻論的学習を理解する従来のアプローチは、主にキュレートされたテキストデータに依存してきた。 洞察に富んだアプローチではあるが、このようなアプローチは、音声言語のテキスト表現で得られた知識を制限する。 この制限を克服するために、生音声データを用いた反復長距離母音調和学習のためのFeatural InfoWaveGANモデルの可能性を検討する。 Assameseは音韻論的に回帰的かつ単語境界の母音調和で知られている言語である。 本研究では,アサメの音韻律の複雑さ,特に回帰方向の反復的長距離調和の把握に有効であることを示す。 また、人間の言語習得時の音声誤りに似た、意図しない不正な形式も生み出した。 統計的分析により,特徴学習の指標として,特定の[+high,+ATR]母音を新規項目のトリガーとして用いた。 より多くのデータとコントロールは、学習の普遍性と対照的に、モデルの習熟性を改善する可能性がある。

Traditional approaches for understanding phonological learning have predominantly relied on curated text data. Although insightful, such approaches limit the knowledge captured in textual representations of the spoken language. To overcome this limitation, we investigate the potential of the Featural InfoWaveGAN model to learn iterative long-distance vowel harmony using raw speech data. We focus on Assamese, a language known for its phonologically regressive and word-bound vowel harmony. We demonstrate that the model is adept at grasping the intricacies of Assamese phonotactics, particularly iterative long-distance harmony with regressive directionality. It also produced non-iterative illicit forms resembling speech errors during human language acquisition. Our statistical analysis reveals a preference for a specific [+high,+ATR] vowel as a trigger across novel items, indicative of feature learning. More data and control could improve model proficiency, contrasting the universality of learning.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# AutoTask:マルチタスク広告関連性を考慮したマルチフェイス単一モデル

AutoTask: Task Aware Multi-Faceted Single Model for Multi-Task Ads Relevance ( http://arxiv.org/abs/2407.06549v1 )

ライセンス: Link先を確認
Shouchang Guo, Sonam Damani, Keng-hao Chang, (参考訳) 広告関連モデルは、ユーザ検索クエリと広告オファリングの関連性を決定するのに不可欠であり、しばしば分類問題として扱われる。 モデリングの複雑さは、複数の広告タイプと、類似点と相違点の両方を示すさまざまなシナリオによって著しく増加する。 本研究では,タスク認識機能の組み合わせとタスク間相互作用モデリングを行う,新しい多面的アテンションモデルを提案する。 本手法は,特徴量とタスク次元の両面における自己回帰的注意を伴う「言語」モデリングとして特徴組合せ問題を定式化したものである。 具体的には、タスク表現のためのタスクIDエンコーディングの新たな次元を導入し、多様な広告シナリオにまたがる正確な関連性モデリングを可能にする。 シナリオが増大するにつれて,我々のモデルは,増大する計算および保守要求を効果的に処理するだけでなく,一般化されたDNNモデルや,単一統一モデルを用いて複数の広告アプリケーションにまたがるタスク固有モデルよりも優れていることを示す。

Ads relevance models are crucial in determining the relevance between user search queries and ad offers, often framed as a classification problem. The complexity of modeling increases significantly with multiple ad types and varying scenarios that exhibit both similarities and differences. In this work, we introduce a novel multi-faceted attention model that performs task aware feature combination and cross task interaction modeling. Our technique formulates the feature combination problem as "language" modeling with auto-regressive attentions across both feature and task dimensions. Specifically, we introduce a new dimension of task ID encoding for task representations, thereby enabling precise relevance modeling across diverse ad scenarios with substantial improvement in generality capability for unseen tasks. We demonstrate that our model not only effectively handles the increased computational and maintenance demands as scenarios proliferate, but also outperforms generalized DNN models and even task-specific models across a spectrum of ad applications using a single unified model.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# OffsetBias: チューニング評価のためのデバイアスデータを活用する

OffsetBias: Leveraging Debiased Data for Tuning Evaluators ( http://arxiv.org/abs/2407.06551v1 )

ライセンス: Link先を確認
Junsoo Park, Seungyeon Jwa, Meiying Ren, Daeyoung Kim, Sanghyuk Choi, (参考訳) 大規模言語モデル(LLM)を用いて、命令付きモデルや微調整型判断モデルなどの生成した応答の品質を評価する手法が広く採用されている。 また、そのような評価者が長い反応を好むなどバイアスに弱いことも知られている。 この問題を克服することは重要であるが、これらのバイアスの具体例は未解明のままである。 本研究では,様々な判断モデルに固有の6種類のバイアスを定性的に同定する。 バイアスタイプごとに手作りテストケースのメタ評価コレクションとしてEvalBiasBenchを提案する。 さらに、デバイアスデータセット構築法と関連する選好データセットOffsetBiasを提案する。 実験結果から,我々のデータセットの微調整により,判断モデルのバイアスに対する堅牢性が著しく向上し,ほとんどの評価シナリオにおける性能が向上することが示された。 データセットと微調整された判断モデルを公開しています。

Employing Large Language Models (LLMs) to assess the quality of generated responses, such as prompting instruct-tuned models or fine-tuning judge models, has become a widely adopted evaluation method. It is also known that such evaluators are vulnerable to biases, such as favoring longer responses. While it is important to overcome this problem, the specifics of these biases remain under-explored. In this work, we qualitatively identify six types of biases inherent in various judge models. We propose EvalBiasBench as a meta-evaluation collection of hand-crafted test cases for each bias type. Additionally, we present de-biasing dataset construction methods and the associated preference dataset OffsetBias. Experimental results demonstrate that fine-tuning on our dataset significantly enhances the robustness of judge models against biases and improves performance across most evaluation scenarios. We release our datasets and the fine-tuned judge model to public.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# DLOVE:ディープラーニングベースの透かし技術のための新しいセキュリティ評価ツール

DLOVE: A new Security Evaluation Tool for Deep Learning Based Watermarking Techniques ( http://arxiv.org/abs/2407.06552v1 )

ライセンス: Link先を確認
Sudev Kumar Padhi, Sk. Subidh Ali, (参考訳) 近年,ディープニューラルネットワーク(DNN)に基づく透かし技術が注目されている。 最先端のDNNベースの技術は、従来の透かし技法の堅牢性を超えただけでなく、多くの画像操作技術に対する堅牢性を示している。 本稿では,異なるDNNベースの透かし技術について,詳細なセキュリティ解析を行った。 本稿では,DLOVE攻撃(Deep Learning-based OVErwriting)と呼ばれる新たな攻撃手法を提案する。 私たちの知る限りでは、この攻撃はこの種の攻撃としては初めてだ。 我々は,ホワイトボックスやブラックボックスの設定において,逆攻撃を考案・定式化するために透かしを使用するシナリオを検討した。 適応性と効率性を示すため,HDDeN,ReDMark,PIMoG,Stegastamp,Aparecium,Distortion Agostic Deep Watermarking,Hiding Imagesの7種類のウォーターマーキング技術を用いてDLOVE攻撃解析を行った。 これらの手法はすべて異なるアプローチを用いて、知覚不能な透かし画像を生成する。 種々の制約のあるウォーターマーキング手法に対する攻撃解析は,DNNベースのウォーターマーキングの脆弱性を浮き彫りにする。 広汎な実験結果からDLOVEの能力が検証された。 我々は,将来の深層学習に基づく透かし技術の堅牢性をテストするためのベンチマークセキュリティ解析ツールとして,DLOVEを提案する。

Recent developments in Deep Neural Network (DNN) based watermarking techniques have shown remarkable performance. The state-of-the-art DNN-based techniques not only surpass the robustness of classical watermarking techniques but also show their robustness against many image manipulation techniques. In this paper, we performed a detailed security analysis of different DNN-based watermarking techniques. We propose a new class of attack called the Deep Learning-based OVErwriting (DLOVE) attack, which leverages adversarial machine learning and overwrites the original embedded watermark with a targeted watermark in a watermarked image. To the best of our knowledge, this attack is the first of its kind. We have considered scenarios where watermarks are used to devise and formulate an adversarial attack in white box and black box settings. To show adaptability and efficiency, we launch our DLOVE attack analysis on seven different watermarking techniques, HiDDeN, ReDMark, PIMoG, Stegastamp, Aparecium, Distortion Agostic Deep Watermarking and Hiding Images in an Image. All these techniques use different approaches to create imperceptible watermarked images. Our attack analysis on these watermarking techniques with various constraints highlights the vulnerabilities of DNN-based watermarking. Extensive experimental results validate the capabilities of DLOVE. We propose DLOVE as a benchmark security analysis tool to test the robustness of future deep learning-based watermarking techniques.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# TCKIN : 敗血症患者の死亡リスク予測のための統合型ネットワークモデル

TCKIN: A Novel Integrated Network Model for Predicting Mortality Risk in Sepsis Patients ( http://arxiv.org/abs/2407.06560v1 )

ライセンス: Link先を確認
Fanglin Dong, (参考訳) セプシスは世界的な健康上の脅威となり、毎年何百万人もの死者を出し、経済的にかなりのコストがかかる。 敗血症患者の死亡リスクの正確な予測は、医療資源の効率的な配分を促進し、患者の生存率と生活の質を高める。 正確なリスクアセスメントによって、医療施設は集中治療ベッド、医療機器、スタッフを効果的に分配することができ、高リスクの患者が適時かつ適切なケアを受けることを保証する。 早期の診断と介入は死亡率を著しく低下させ、患者の結果を改善する。 現在のメソッドは通常、定数、時間、ICDコードのいずれかの1種類のデータしか利用しない。 本研究は,電子カルテとICD符号の時間的・定常的なデータを統合することにより,敗血症死亡リスク予測の精度を高める革新的なモデルであるTime-Constant Kan Integrated Network(TCKIN)を紹介する。 MIMIC-IIIとMIMIC-IVデータセットに対して検証されたTCKINは、既存の機械学習およびディープラーニングメソッドを精度、感度、特異性で超越している。 特にTCKINは87.76%、88.07%のAUCを達成し、リスクの高い患者を特定する能力に優れていた。 さらに、TCKINは、臨床環境におけるデータ不均衡の問題に効果的に対処し、死亡リスクの高い患者の検出を改善し、タイムリーな介入を促進する。 これらの結果は,臨床実習における患者管理と治療最適化を変換するモデルの有効性と可能性を確認した。 この高度なリスクアセスメントツールにより、医療提供者はより適切な治療計画を策定し、リソース利用を最適化し、最終的に敗血症患者の生存率と生活の質を高めることができる。

Sepsis poses a major global health threat, accounting for millions of deaths annually and significant economic costs. Accurate predictions of mortality risk in sepsis patients facilitate the efficient allocation of medical resources, thereby enhancing patient survival and quality of life. Through precise risk assessments, healthcare facilities can effectively distribute intensive care beds, medical equipment, and staff, ensuring high-risk patients receive timely and appropriate care. Early identification and intervention significantly decrease mortality rates and improve patient outcomes. Current methods typically utilize only one type of data--either constant, temporal, or ICD codes. This study introduces the Time-Constant KAN Integrated Network(TCKIN), an innovative model that enhances the accuracy of sepsis mortality risk predictions by integrating both temporal and constant data from electronic health records and ICD codes. Validated against the MIMIC-III and MIMIC-IV datasets, TCKIN surpasses existing machine learning and deep learning methods in accuracy, sensitivity, and specificity. Notably, TCKIN achieved AUCs of 87.76% and 88.07%, demonstrating superior capability in identifying high-risk patients. Additionally, TCKIN effectively combats the prevalent issue of data imbalance in clinical settings, improving the detection of patients at elevated risk of mortality and facilitating timely interventions. These results confirm the model's effectiveness and its potential to transform patient management and treatment optimization in clinical practice. With this advanced risk assessment tool, healthcare providers can devise more tailored treatment plans, optimize resource utilization, and ultimately enhance survival rates and quality of life for sepsis patients.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# 知識グラフと大規模言語モデルを組み合わせる

Combining Knowledge Graphs and Large Language Models ( http://arxiv.org/abs/2407.06564v1 )

ライセンス: Link先を確認
Amanda Kau, Xuzeng He, Aishwarya Nambissan, Aland Astudillo, Hui Yin, Amir Aryani, (参考訳) 近年、自然言語処理(NLP)は、チャットボット、テキスト生成、言語翻訳など、さまざまな人工知能(AI)アプリケーションにおいて重要な役割を果たしている。 大規模言語モデル(LLM)の出現により、これらのアプリケーションの性能が大幅に向上し、言語理解と生成において驚くべき結果が得られた。 しかし、幻覚やドメイン固有の知識の欠如など、実際のタスクにおけるパフォーマンスに影響を与えるいくつかの欠点がまだ示されています。 これらの問題は知識グラフ(KG)を組み込むことによって効果的に緩和することができる。 同様に、KGsの構築と検証は、LLMsが解決に役立てることができる課題を提示する。 LLMとKGの相補的な関係は、これらの技術を組み合わせて信頼できる結果を得る傾向を導いている。 本研究は、KGを用いたLLM、LLMベースのKG、LLM-KGハイブリッドアプローチに関する28の論文の概要をまとめた。 我々は、これらのアプローチを体系的に分析し、比較し、重要なトレンド、革新的な技術、共通の課題を概観する包括的概要を提供した。 この合成は、研究者のこの分野への新たな関心と、KGとLLMを効果的に組み合わせてAIアプリケーション機能を強化する方法の理解を深めようとしている人たちに恩恵をもたらすだろう。

In recent years, Natural Language Processing (NLP) has played a significant role in various Artificial Intelligence (AI) applications such as chatbots, text generation, and language translation. The emergence of large language models (LLMs) has greatly improved the performance of these applications, showing astonishing results in language understanding and generation. However, they still show some disadvantages, such as hallucinations and lack of domain-specific knowledge, that affect their performance in real-world tasks. These issues can be effectively mitigated by incorporating knowledge graphs (KGs), which organise information in structured formats that capture relationships between entities in a versatile and interpretable fashion. Likewise, the construction and validation of KGs present challenges that LLMs can help resolve. The complementary relationship between LLMs and KGs has led to a trend that combines these technologies to achieve trustworthy results. This work collected 28 papers outlining methods for KG-powered LLMs, LLM-based KGs, and LLM-KG hybrid approaches. We systematically analysed and compared these approaches to provide a comprehensive overview highlighting key trends, innovative techniques, and common challenges. This synthesis will benefit researchers new to the field and those seeking to deepen their understanding of how KGs and LLMs can be effectively combined to enhance AI applications capabilities.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# 画像診断におけるロバストで説明可能なフレームワーク

Robust and Explainable Framework to Address Data Scarcity in Diagnostic Imaging ( http://arxiv.org/abs/2407.06566v1 )

ライセンス: Link先を確認
Zehui Zhao, Laith Alzubaidi, Jinglan Zhang, Ye Duan, Usman Naseem, Yuantong Gu, (参考訳) 深層学習は、自動診断を著しく進歩させ、臨床的圧力を減らすために人的資源の占有を解放したが、この分野のデータ不足という永続的な課題は、さらなる改善と応用を妨げている。 このギャップに対処するため,我々は,「効率的な伝達と自己教師型学習ベース・アンサンブル・フレームワーク(ETSEF)」と呼ばれる新しいアンサンブル・フレームワークを導入する。 ETSEFは、訓練済みの複数のディープラーニングモデルの特徴を活用して、限られたデータサンプルから強力な表現を効率的に学習する。 私たちの知識を最大限に活用するために、ETSEFは、2つの事前学習手法(トランスファーラーニングとセルフ教師あり学習)とアンサンブルラーニングアプローチを組み合わせた最初の戦略である。 データ拡張、特徴融合、特徴選択、決定融合といった様々なデータ拡張技術も、ETSEFモデルの効率性と堅牢性を最大化するためにデプロイされている。 内視鏡検査,乳がん,サルポックス,脳腫瘍,緑内障検出,緑内障検出の5つの独立した医療画像検査を行い,ETSEFの有効性と堅牢性について検討した。 限られたサンプル数と困難な医療課題に直面したETSEFは、強力なアンサンブルベースラインモデルと比較して診断精度を10\%から13.3\%に改善し、公表された最先端の方法と比較して14.4\%改善することで、その効果を証明している。 さらに,Grad-CAM,SHAP,t-SNEなどの視覚記述可能な人工知能技術を用いて,ETSEF法の堅牢性と信頼性を強調した。 これらの大規模ディープラーニングモデルと比較して、ETSEFはフレキシブルに展開でき、挑戦的な医療画像タスクに優れたパフォーマンスを保ち、トレーニングデータに欠けるより多くの領域に適用できる可能性を示している。

Deep learning has significantly advanced automatic medical diagnostics and released the occupation of human resources to reduce clinical pressure, yet the persistent challenge of data scarcity in this area hampers its further improvements and applications. To address this gap, we introduce a novel ensemble framework called `Efficient Transfer and Self-supervised Learning based Ensemble Framework' (ETSEF). ETSEF leverages features from multiple pre-trained deep learning models to efficiently learn powerful representations from a limited number of data samples. To the best of our knowledge, ETSEF is the first strategy that combines two pre-training methodologies (Transfer Learning and Self-supervised Learning) with ensemble learning approaches. Various data enhancement techniques, including data augmentation, feature fusion, feature selection, and decision fusion, have also been deployed to maximise the efficiency and robustness of the ETSEF model. Five independent medical imaging tasks, including endoscopy, breast cancer, monkeypox, brain tumour, and glaucoma detection, were tested to demonstrate ETSEF's effectiveness and robustness. Facing limited sample numbers and challenging medical tasks, ETSEF has proved its effectiveness by improving diagnostics accuracies from 10\% to 13.3\% when compared to strong ensemble baseline models and up to 14.4\% improvements compared with published state-of-the-art methods. Moreover, we emphasise the robustness and trustworthiness of the ETSEF method through various vision-explainable artificial intelligence techniques, including Grad-CAM, SHAP, and t-SNE. Compared to those large-scale deep learning models, ETSEF can be deployed flexibly and maintain superior performance for challenging medical imaging tasks, showing the potential to be applied to more areas that lack training data
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# FinCon: 金融意思決定の強化を目的とした概念的言語強化型LLMマルチエージェントシステム

FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making ( http://arxiv.org/abs/2407.06567v1 )

ライセンス: Link先を確認
Yangyang Yu, Zhiyuan Yao, Haohang Li, Zhiyang Deng, Yupeng Cao, Zhi Chen, Jordan W. Suchow, Rong Liu, Zhenyu Cui, Denghui Zhang, Zhaozhuo Xu, Koduvayur Subbalakshmi, Guojun Xiong, Yueru He, Jimin Huang, Dong Li, Qianqian Xie, (参考訳) 大規模言語モデル(LLM)は、複雑なタスクの実行において顕著な可能性を示し、様々な金融アプリケーションでますます活用されている。 しかし、高品質な金融投資の意思決定は依然として困難である。 これらのタスクは、すべての決定に対して揮発性環境と複数のインタラクションを必要とし、リターンを最大化し、リスクを管理するのに十分なインテリジェンスを必要とします。 LLMは、人間のチームを超えたエージェントシステムの開発や、見事な投資リターンを得るために使われてきたが、マルチソース情報合成を強化し、タイムリーな経験改善を通じて意思決定結果を最適化する機会は、まだ探索されていない。 本稿では,多様なFINancialタスクに適した概念的言語強化を備えたLLMベースのマルチエージェントフレームワークであるFinConを紹介する。 実世界の効果的な投資会社組織構造にインスパイアされたFinConは、マネージャが分析するコミュニケーション階層を利用している。 この構造は、自然言語の相互作用を通じて統一目標に向けて、同期されたクロスファンクショナルエージェントの協調を可能にし、各エージェントを人間よりも大きなメモリ容量で装備する。 さらに、FinConのリスクコントロールコンポーネントは、体系的な投資信条を更新するための自己基準機構をエピソード的に開始することで、意思決定品質を向上させる。 概念化された信念は、将来のエージェントの行動の言葉による強化として機能し、知識更新を必要とする適切なノードに選択的に伝播することができる。 この機能は、不要なピアツーピア通信コストを低減しつつ、パフォーマンスを著しく向上させる。 さらにFinConは、単一株式取引やポートフォリオ管理など、さまざまな金融業務において強力な一般化能力を示している。

Large language models (LLMs) have demonstrated notable potential in conducting complex tasks and are increasingly utilized in various financial applications. However, high-quality sequential financial investment decision-making remains challenging. These tasks require multiple interactions with a volatile environment for every decision, demanding sufficient intelligence to maximize returns and manage risks. Although LLMs have been used to develop agent systems that surpass human teams and yield impressive investment returns, opportunities to enhance multi-sourced information synthesis and optimize decision-making outcomes through timely experience refinement remain unexplored. Here, we introduce the FinCon, an LLM-based multi-agent framework with CONceptual verbal reinforcement tailored for diverse FINancial tasks. Inspired by effective real-world investment firm organizational structures, FinCon utilizes a manager-analyst communication hierarchy. This structure allows for synchronized cross-functional agent collaboration towards unified goals through natural language interactions and equips each agent with greater memory capacity than humans. Additionally, a risk-control component in FinCon enhances decision quality by episodically initiating a self-critiquing mechanism to update systematic investment beliefs. The conceptualized beliefs serve as verbal reinforcement for the future agent's behavior and can be selectively propagated to the appropriate node that requires knowledge updates. This feature significantly improves performance while reducing unnecessary peer-to-peer communication costs. Moreover, FinCon demonstrates strong generalization capabilities in various financial tasks, including single stock trading and portfolio management.
翻訳日:2024-07-10 19:15:32 公開日:2024-07-09
# Attack GAN (AGAN ): 知覚暗号化のための新しいセキュリティ評価ツール

Attack GAN (AGAN ): A new Security Evaluation Tool for Perceptual Encryption ( http://arxiv.org/abs/2407.06570v1 )

ライセンス: Link先を確認
Umesh Kashyap, Sudev Kumar Padhi, Sk. Subidh Ali, (参考訳) 最先端(SOTA)ディープラーニングモデルのトレーニングには大量のデータが必要である。 トレーニングデータに存在する視覚情報は誤用される可能性があるため、大きなプライバシー上の懸念が生じます。 この問題の顕著な解決策の1つは知覚暗号化であり、画像が認識不能なフォーマットに変換され、トレーニングデータ内のセンシティブな視覚情報を保護する。 これは、モデルの精度を大幅に下げるコストが伴う。 Adversarial Visual Information Hiding (AVIH) はこの欠点を克服し、ターゲットモデルに関連する機能を保ちながら、人間の目には認識できない暗号化されたイメージを作成しようとすることで、画像プライバシを保護する。 本稿では,新たなGANベースの攻撃であるAttack GAN (AGAN )法を紹介し,AVIH法における複数の脆弱性を明らかにする。 適応性を示すため、AGANは従来のLearningablecrypt(LE)とEncryption-then-Compression(EtC)の暗号化手法に拡張されている。 AGAN法の有効性を検証するため,多様な画像データセットとターゲットモデルを用いて大規模な実験を行った。 以上の結果から,AGANはAVIHの暗号化画像から元の画像を再構成することで,知覚的暗号化手法を破ることに成功した。 AGANは、AVIHのようなプライバシー保護のための暗号化手法の堅牢性を評価するためのベンチマークツールとして使用できる。

Training state-of-the-art (SOTA) deep learning models requires a large amount of data. The visual information present in the training data can be misused, which creates a huge privacy concern. One of the prominent solutions for this issue is perceptual encryption, which converts images into an unrecognizable format to protect the sensitive visual information in the training data. This comes at the cost of a significant reduction in the accuracy of the models. Adversarial Visual Information Hiding (AV IH) overcomes this drawback to protect image privacy by attempting to create encrypted images that are unrecognizable to the human eye while keeping relevant features for the target model. In this paper, we introduce the Attack GAN (AGAN ) method, a new Generative Adversarial Network (GAN )-based attack that exposes multiple vulnerabilities in the AV IH method. To show the adaptability, the AGAN is extended to traditional perceptual encryption methods of Learnable encryption (LE) and Encryption-then-Compression (EtC). Extensive experiments were conducted on diverse image datasets and target models to validate the efficacy of our AGAN method. The results show that AGAN can successfully break perceptual encryption methods by reconstructing original images from their AV IH encrypted images. AGAN can be used as a benchmark tool to evaluate the robustness of encryption methods for privacy protection such as AV IH.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# Majorana Tensor Decomposition: フェルミオンハミルトニアンをユニタリの線形結合に分解するための統一フレームワーク

Majorana Tensor Decomposition: A unifying framework for decompositions of fermionic Hamiltonians to Linear Combination of Unitaries ( http://arxiv.org/abs/2407.06571v1 )

ライセンス: Link先を確認
Ignacio Loaiza, Artur F. Izmaylov, (参考訳) ユニタリ(LCU)分解の線形結合は、量子コンピュータ上の演算子を符号化する主要なツールの1つとして現れ、任意の演算子の効率的な実装を可能にしている。 特に、LCUアプローチは、電子構造ハミルトニアンから量子回路に情報を符号化する方法を示す。 過去数年間、電子構造ハミルトニアンに多くの異なる分解技術が出現してきた。 ここでは,既存のLCUを統一するフレームワークであるMajorana Tensor Decomposition(MTD)について述べる。

Linear combination of unitaries (LCU) decompositions have appeared as one of the main tools for encoding operators on quantum computers, allowing efficient implementations of arbitrary operators. In particular, LCU approaches present a way of encoding information from the electronic structure Hamiltonian into a quantum circuit. Over the past years, many different decomposition techniques have appeared for the electronic structure Hamiltonian. Here we present the Majorana Tensor Decomposition (MTD), a framework that unifies existing LCUs and offers novel decomposition methods by using popular low-rank tensor factorizations.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# LLM for Mobile: 最初のロードマップ

LLM for Mobile: An Initial Roadmap ( http://arxiv.org/abs/2407.06573v1 )

ライセンス: Link先を確認
Daihang Chen, Yonghui Liu, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Shuai Wang, Xiao Chen, Tegawendé F. Bissyandé, Jacques Klein, Li Li, (参考訳) モバイルがLDMと出会うとき、モバイルアプリのユーザは、よりインテリジェントな利用経験を持つべきだ。 これを実現するためには,モバイルエコシステムにLDMを適用することが強く必要である,と私たちは主張する。 そのため、私たちは、同僚の研究者にそれを実現するための研究ロードマップを提供しています。 このロードマップでは、モバイルデバイスでネイティブインテリジェンスを実現するために、調査に緊急に必要な6つの方向をまとめる。 それぞれの方向において、現在の研究の進展と、我々の仲間の研究者がまだ満たす必要があるギャップをさらに要約する。

When mobile meets LLMs, mobile app users deserve to have more intelligent usage experiences. For this to happen, we argue that there is a strong need to appl LLMs for the mobile ecosystem. We therefore provide a research roadmap for guiding our fellow researchers to achieve that as a whole. In this roadmap, we sum up six directions that we believe are urgently required for research to enable native intelligence in mobile devices. In each direction, we further summarize the current research progress and the gaps that still need to be filled by our fellow researchers.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# バックストリーのアンソロジーによる言語モデルのための仮想ペルソナ

Virtual Personas for Language Models via an Anthology of Backstories ( http://arxiv.org/abs/2407.06576v1 )

ライセンス: Link先を確認
Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David M. Chan, (参考訳) 大規模言語モデル(LLM)は、何百万人もの異なる著者によって書かれた膨大なテキストリポジトリから訓練され、人間の特性の多様性を反映している。 これらのモデルは、行動学的研究において、人間の被験者の近似として使われる可能性があるが、これまでは、個人のユーザーに合わせてモデル応答を操ることに限られていた。 本研究では,オープンエンドのライフストーリーを活用することで,LLMを特定の仮想人格に調和させる手法であるAnthologyを紹介し,これを「バックストリー」と呼ぶ。 本手法は,実験結果の一貫性と信頼性を高めつつ,多様なサブ集団のより良い表現を確実にすることを示す。 Pew Research CenterのAmerican Trends Panel (ATP) で実施された3つの全国的代表的人間調査のうち、Anthology は人間の回答分布の一致を最大18%改善し、一貫性の指標を27%改善することを示した。 私たちのコードと生成されたバックストリーはhttps://github.com/CannyLab/anthology.comで公開されています。

Large language models (LLMs) are trained from vast repositories of text authored by millions of distinct authors, reflecting an enormous diversity of human traits. While these models bear the potential to be used as approximations of human subjects in behavioral studies, prior efforts have been limited in steering model responses to match individual human users. In this work, we introduce "Anthology", a method for conditioning LLMs to particular virtual personas by harnessing open-ended life narratives, which we refer to as "backstories." We show that our methodology enhances the consistency and reliability of experimental outcomes while ensuring better representation of diverse sub-populations. Across three nationally representative human surveys conducted as part of Pew Research Center's American Trends Panel (ATP), we demonstrate that Anthology achieves up to 18% improvement in matching the response distributions of human respondents and 27% improvement in consistency metrics. Our code and generated backstories are available at https://github.com/CannyLab/anthology.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# NoisyAG-News: テキスト分類におけるインスタンス依存ノイズの対応ベンチマーク

NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification ( http://arxiv.org/abs/2407.06579v1 )

ライセンス: Link先を確認
Hongfei Huang, Tingting Liang, Xixi Sun, Zikang Jin, Yuyu Yin, (参考訳) ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。 合成ノイズは明確に定義された構造特性を持つが、実世界のノイズパターンを正確に再現することができないことが多い。 近年,画像分類のための汎用・制御可能なインスタンス依存型ノイズデータセットの構築が盛んに行われており,この領域におけるノイズロバスト学習の発展が著しく進んでいる。 しかし、テキスト分類のためのノイズラベル学習の研究は依然として少ない。 実世界のテキスト分類設定におけるラベルノイズをよりよく理解するために,手動アノテーションを用いてベンチマークデータセットのNoisyAG-Newsを構築した。 まず,注釈付きデータを解析し,実環境騒音の観測を行った。 実世界のノイズラベルがインスタンス依存パターンに従うことを質的かつ定量的に実証した。 その後, 事前学習言語モデルとノイズハンドリング技術を用いて, NoisyAG-Newsとその合成ノイズデータセットに関する総合的な学習実験を行った。 以上の結果から,事前学習したモデルは合成ノイズに耐性があるが,実例依存ノイズに抗し,訓練と試験において不整合性を示す様々な混乱レベルのサンプルが得られた。 これらの実世界のノイズパターンは、新しい重要な課題を生じさせ、ノイズの多いラベル処理方法の再評価を促す。 NoisyAG-Newsは、ノイズラベルによる学習のための将来のソリューションの開発と評価を容易にすることを願っている。

Existing research on learning with noisy labels predominantly focuses on synthetic label noise. Although synthetic noise possesses well-defined structural properties, it often fails to accurately replicate real-world noise patterns. In recent years, there has been a concerted effort to construct generalizable and controllable instance-dependent noise datasets for image classification, significantly advancing the development of noise-robust learning in this area. However, studies on noisy label learning for text classification remain scarce. To better understand label noise in real-world text classification settings, we constructed the benchmark dataset NoisyAG-News through manual annotation. Initially, we analyzed the annotated data to gather observations about real-world noise. We qualitatively and quantitatively demonstrated that real-world noisy labels adhere to instance-dependent patterns. Subsequently, we conducted comprehensive learning experiments on NoisyAG-News and its corresponding synthetic noise datasets using pre-trained language models and noise-handling techniques. Our findings reveal that while pre-trained models are resilient to synthetic noise, they struggle against instance-dependent noise, with samples of varying confusion levels showing inconsistent performance during training and testing. These real-world noise patterns pose new, significant challenges, prompting a reevaluation of noisy label handling methods. We hope that NoisyAG-News will facilitate the development and evaluation of future solutions for learning with noisy labels.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# 視覚言語モデルは盲目です

Vision language models are blind ( http://arxiv.org/abs/2407.06581v1 )

ライセンス: Link先を確認
Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen, (参考訳) 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、数え切れないほどの画像テキストアプリケーションを動かし、多くの視覚基盤ベンチマークで高いスコアを得ている。 しかし、VLMが7つの視覚的タスクで失敗することを発見した。 (a) 2つの円が重複するか否か (b)二つの線が交差するか否か (c)どの文字が一言で丸められているか、 (d)オリンピックのようなロゴの円の数を数える。 4つの最先端のVLMの驚くほど低いパフォーマンスは、彼らのビジョンが、少なくともミオピアの人が細かい詳細をぼやけていると見ているように、そして最悪の場合には、盲目な知的人物のように、教育的な推測をしていることを示唆している。 コードは、https://vlmsareblind.github.io/で入手できる。

Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. The shockingly poor performance of four state-of-the-art VLMs suggests their vision is, at best, like of a person with myopia seeing fine details as blurry, and at worst, like an intelligent person that is blind making educated guesses. Code is available at: https://vlmsareblind.github.io/
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# クリフォード回路の低コストノイズ低減

Low-cost noise reduction for Clifford circuits ( http://arxiv.org/abs/2407.06583v1 )

ライセンス: Link先を確認
Nicolas Delfosse, Edwin Tham, (参考訳) 本稿では,クリフォード回路の論理誤差率を誤差補正よりも低く,誤差軽減の指数的サンプリングオーバーヘッドを伴わずに低減するClifford noise reduction (CliNR)方式を提案する。 CliNRはクリフォード回路をゲートテレポーテーションを用いてサブ回路に分割することで実装する。 ゲートテレポーテーションによって消費される資源状態の誤差を検出するために、いくつかのランダムな安定化器の測定が使用される。 これはCPCスキームのテレポート版と見なすことができ、オフラインのフォールト検出によってスケーラビリティが向上する。 我々は、CliNRが$n$-qubit Clifford回路の族に対して、$nsp^2$が 0 になるような$s$の論理的誤差率を達成することを証明し、$p$は物理的エラー率であり、すなわち、その状態が$ns = o(1/p^2)$に達するのに対して、直接実装は$s = o(1/p)$に制限される。 さらに、CliNRはわずか3n+1$ qubitsと2s + o(s)$ gatesしか使用せず、拒絶率もゼロである。 この小さなオーバーヘッドは、短期的には量子誤差補正よりも実用的であり、我々の数値シミュレーションは、CliNRが関連する雑音状態における論理誤差率の低減を提供することを示している。

We propose a Clifford noise reduction (CliNR) scheme that provides a reduction of the logical error rate of Clifford circuit with lower overhead than error correction and without the exponential sampling overhead of error mitigation. CliNR implements Clifford circuits by splitting them into sub-circuits that are performed using gate teleportation. A few random stabilizer measurements are used to detect errors in the resources states consumed by the gate teleportation. This can be seen as a teleported version of the CPC scheme, with offline fault-detection making it scalable. We prove that CliNR achieves a vanishing logical error rate for families of $n$-qubit Clifford circuits with size $s$ such that $nsp^2$ goes to 0, where $p$ is the physical error rate, meaning that it reaches the regime $ns = o(1/p^2)$ whereas the direct implementation is limited to $s = o(1/p)$. Moreover, CliNR uses only $3n+1$ qubits, $2s + o(s)$ gates and has zero rejection rate. This small overhead makes it more practical than quantum error correction in the near term and our numerical simulations show that CliNR provides a reduction of the logical error rate in relevant noise regimes.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# D-MASTER:乳がん検診における教師なし領域適応用マスクアニール変換器

D-MASTER: Mask Annealed Transformer for Unsupervised Domain Adaptation in Breast Cancer Detection from Mammograms ( http://arxiv.org/abs/2407.06585v1 )

ライセンス: Link先を確認
Tajamul Ashraf, Krithika Rangarajan, Mohit Gambhir, Richa Gabha, Chetan Arora, (参考訳) 乳がん検診におけるUnsupervised Domain Adaptation (\uda) の問題点について検討した。 近年の進歩により、マスク付き画像モデリングがUDAの頑健な前提課題となっていることが示されている。 しかし、クロスドメインのBCDMに適用する場合、これらのテクニックは、自然画像と比較して、通常より小さな関心領域の大きさのため、質量、非対称性、微小石灰化などの乳房異常に悩まされる。 これは多くの場合、画像当たりの偽陽性(FPI)が増加し、通常そのようなテクニックをブートストラップするために使用される擬似ラベルの顕著なノイズが生じる。 これらの課題を認識し,変圧器をベースとしたドメイン不変型Mask Annealed students autoencoder (D-MASTER) フレームワークを提案する。 D-MASTERは、マルチスケールの機能マップを適応的にマスクし、再構成し、信頼性の高いターゲットドメインの特徴を捕捉する能力を高める。 D-MASTERはまた、擬似ラベルをフィルタリングするための適応的信頼度改善が含まれており、高品質な検出しか考慮されない。 また、BCDMにおけるさらなる研究を支援するために、RSNA Breast Screening Dataset(RSNA-BSD1K)から1000個のマンモグラムの注釈付きサブセットを提供する。 多様なドメインから取得した複数のBCDMデータセット上でD-MASTERを評価する。 実験の結果, INBreast および DDSM データセット上での最先端 UDA 技術よりも 0.3 FPI で9% と 13% の感度が有意に向上した。 また、社内およびRSNA-BSD1Kデータセットの11%と17%の改善も報告した。 ソースコード、事前トレーニングされたD-MASTERモデル、RSNA-BSD1Kデータセットアノテーションはhttps://dmaster-iitd.github.io/webpageで公開されている。

We focus on the problem of Unsupervised Domain Adaptation (\uda) for breast cancer detection from mammograms (BCDM) problem. Recent advancements have shown that masked image modeling serves as a robust pretext task for UDA. However, when applied to cross-domain BCDM, these techniques struggle with breast abnormalities such as masses, asymmetries, and micro-calcifications, in part due to the typically much smaller size of region of interest in comparison to natural images. This often results in more false positives per image (FPI) and significant noise in pseudo-labels typically used to bootstrap such techniques. Recognizing these challenges, we introduce a transformer-based Domain-invariant Mask Annealed Student Teacher autoencoder (D-MASTER) framework. D-MASTER adaptively masks and reconstructs multi-scale feature maps, enhancing the model's ability to capture reliable target domain features. D-MASTER also includes adaptive confidence refinement to filter pseudo-labels, ensuring only high-quality detections are considered. We also provide a bounding box annotated subset of 1000 mammograms from the RSNA Breast Screening Dataset (referred to as RSNA-BSD1K) to support further research in BCDM. We evaluate D-MASTER on multiple BCDM datasets acquired from diverse domains. Experimental results show a significant improvement of 9% and 13% in sensitivity at 0.3 FPI over state-of-the-art UDA techniques on publicly available benchmark INBreast and DDSM datasets respectively. We also report an improvement of 11% and 17% on In-house and RSNA-BSD1K datasets respectively. The source code, pre-trained D-MASTER model, along with RSNA-BSD1K dataset annotations is available at https://dmaster-iitd.github.io/webpage.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# 電池解体の革命:電池解体自律移動マニピュレータロボット(BEAM-1)の設計と実装

Revolutionizing Battery Disassembly: The Design and Implementation of a Battery Disassembly Autonomous Mobile Manipulator Robot(BEAM-1) ( http://arxiv.org/abs/2407.06590v1 )

ライセンス: Link先を確認
Yanlong Peng, Zhigang Wang, Yisheng Zhang, Shengmin Zhang, Nan Cai, Fan Wu, Ming Chen, (参考訳) 終末期電気自動車電池(EOL-EVB)の効率的な分解は、グリーン製造と持続可能な開発に不可欠である。 自律移動マニピュレータロボット(AMMR)による現在のプログラムによる分解は、動的環境、複雑なシナリオ、非構造化プロセスにおける分解要求を満たすのに苦労している。 本稿では,NeuralSymbolic AIに基づく電池分解AMMR(BEAM-1)システムを提案する。 マルチセンサーと神経述語の組み合わせを利用して環境状態を検出し、その情報を準記号空間に変換する。 リアルタイムに LLM-heuristic tree search を用いてアクションプリミティブの最適なシーケンスを特定し、これらのプリミティブの高精度な実行を保証する。 さらに、直感的なネットワークを用いた位置投機的サンプリングを採用し、細心の注意を払って設計されたエンドエフェクタで様々なボルト型の分解を実現する。 BEAM-1は、人間のような主観的推論を可能とし、直観を持つ、継続的に学習する具体的知能システムである。 多数の実シーン実験により、ボルトの連続的な分解を、複数の、複数のカテゴリ、複雑な状況において、98.78%の成功率で、自律的に知覚し、決定し、実行できることが証明された。 この研究は、NeuroSymbolic AIを使って、ロボットに真の自律的推論、計画、学習能力を与える。 BEAM-1は電池分解の革命を実現する。 そのフレームワークは、さまざまなアプリケーションシナリオを実現するために、どんなロボットシステムにも容易に移植できる。

The efficient disassembly of end-of-life electric vehicle batteries(EOL-EVBs) is crucial for green manufacturing and sustainable development. The current pre-programmed disassembly conducted by the Autonomous Mobile Manipulator Robot(AMMR) struggles to meet the disassembly requirements in dynamic environments, complex scenarios, and unstructured processes. In this paper, we propose a Battery Disassembly AMMR(BEAM-1) system based on NeuralSymbolic AI. It detects the environmental state by leveraging a combination of multi-sensors and neural predicates and then translates this information into a quasi-symbolic space. In real-time, it identifies the optimal sequence of action primitives through LLM-heuristic tree search, ensuring high-precision execution of these primitives. Additionally, it employs positional speculative sampling using intuitive networks and achieves the disassembly of various bolt types with a meticulously designed end-effector. Importantly, BEAM-1 is a continuously learning embodied intelligence system capable of subjective reasoning like a human, and possessing intuition. A large number of real scene experiments have proved that it can autonomously perceive, decide, and execute to complete the continuous disassembly of bolts in multiple, multi-category, and complex situations, with a success rate of 98.78%. This research attempts to use NeuroSymbolic AI to give robots real autonomous reasoning, planning, and learning capabilities. BEAM-1 realizes the revolution of battery disassembly. Its framework can be easily ported to any robotic system to realize different application scenarios, which provides a ground-breaking idea for the design and implementation of future embodied intelligent robotic systems.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# リンドブラッド方程式のランダム化法と熱状態生成

A Randomized Method for Simulating Lindblad Equations and Thermal State Preparation ( http://arxiv.org/abs/2407.06594v1 )

ライセンス: Link先を確認
Hongrui Chen, Bowen Li, Jianfeng Lu, Lexing Ying, (参考訳) 我々はリンドブラッド方程式をシミュレートするqDRIFT型ランダム化法を検討した。 Lindbladians $\{\mathcal{L}_a\}_{a \in \mathcal{A}}$ のアンサンブルによって生成されるリンドブラディアンダイナミクスに対して、我々の手法は各ステップでランダムにサンプリングされたリンドブラディアン $\mathcal{L}_a$ を実装している。 唯一の仮定は、各$\mathcal{L}_a$ は、進化 $e^{t \mathcal{L}_a}$ で利用可能な効率的な実装を持つ単一のジャンプ演算子のみを含むということである。 ランダム化法の注目すべき応用は量子ギブズサンプリングであり、リンドブラッド力学を用いて特定のギブズ状態を作成する。 エルゴディディティを保証するために多くのジャンプ演算子を必要とする既存の決定論的手法とは異なり、本手法はランダムにサンプリングされたジャンプ演算子を用いて実装を単純化する。 一例として、スペクトル密度が半円法則に密接に依存するランダムなパウリ弦を特徴とするハミルトン系の高速熱化を保証する。

We study a qDRIFT-type randomized method to simulate the Lindblad equations. For Lindblad dynamics generated by an ensemble of Lindbladians $\{\mathcal{L}_a\}_{a \in \mathcal{A}}$, our approach implements a single randomly sampled Lindbladian $\mathcal{L}_a$ at each time step. The only assumption is that each $\mathcal{L}_a$ involves only a single jump operator with an efficient implementation available for the evolution $e^{t \mathcal{L}_a}$. A notable application of the randomized method is for quantum Gibbs sampling, where the Lindblad dynamics is utilized to prepare a specific Gibbs state. Unlike existing deterministic methods that require numerous jump operators to ensure ergodicity, our approach simplifies the implementation by using a single randomly sampled jump operator. As an example, we demonstrate that our method ensures fast thermalization of Hamiltonian systems characterized by random Pauli strings, where the spectral density closely adheres to the semi-circle law.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# TVR-Ranking:不正確なクエリでランク付けされた動画モーメント検索のデータセット

TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries ( http://arxiv.org/abs/2407.06597v1 )

ライセンス: Link先を確認
Renjie Liang, Li Li, Chongzhi Zhang, Jing Wang, Xizhou Zhu, Aixin Sun, (参考訳) 本稿では,ビデオのコレクションから,自然言語によるクエリを通じて,マッチングモーメントのランク付けされたリストを見つけるために, RVMR (textit{Ranked Video Moment Retrieval}) のタスクを提案する。 CV, NLP, IRコミュニティによっていくつかの関連タスクが提案され研究されているが, RVMRはモーメントサーチの実践的設定を最も反映したタスクである。 RVMRの研究を容易にするために,TVRデータセットが提供する生のビデオと既存のモーメントアノテーションに基づいて,TVR-Rankingデータセットを開発した。 私たちの重要な貢献は、94,442のクエリ-モーメントペアの関連度に関するマニュアルアノテーションです。 次に、この新しいタスクに対するNDCG@K, IoU\geq \mu$評価指標を開発し、3つのベースラインモデルを評価する実験を行う。 実験の結果、新しいRVMRタスクは既存のモデルに新たな課題をもたらし、このデータセットがマルチモーダリティ検索の研究に寄与していると信じている。 データセットは \url{https://github.com/Ranking-VMR/TVR-Ranking} で公開されている。

In this paper, we propose the task of \textit{Ranked Video Moment Retrieval} (RVMR) to locate a ranked list of matching moments from a collection of videos, through queries in natural language. Although a few related tasks have been proposed and studied by CV, NLP, and IR communities, RVMR is the task that best reflects the practical setting of moment search. To facilitate research in RVMR, we develop the TVR-Ranking dataset, based on the raw videos and existing moment annotations provided in the TVR dataset. Our key contribution is the manual annotation of relevance levels for 94,442 query-moment pairs. We then develop the $NDCG@K, IoU\geq \mu$ evaluation metric for this new task and conduct experiments to evaluate three baseline models. Our experiments show that the new RVMR task brings new challenges to existing models and we believe this new dataset contributes to the research on multi-modality search. The dataset is available at \url{https://github.com/Ranking-VMR/TVR-Ranking}
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# 並列セグメントエンタングルメントスワッピング

Parallel Segment Entanglement Swapping ( http://arxiv.org/abs/2407.06598v1 )

ライセンス: Link先を確認
Binjie He, Seng W. Loke, Dong Zhang, (参考訳) ノイズの多い中規模量子時代において、科学者は物理レベルでのアンチノイズ技術の研究により、エンタングルメントスワップの成功率を改善し、長距離エンタングルメントの発生率を高めようとしている。 しかし, 効率の良い絡み換え戦略を研究している別の観点から, 生成率を改善することができる。 本稿では,ノード割り当て原理,時間同期,絡み合いスワップ障害の処理など,既存の絡み合いスワップ戦略が直面する課題について分析する。 これらの問題を解決するために,PSES(Parallel Segment Entanglement Swapping)を提案する。 PSESの中核となる考え方は、経路を分割し、長距離絡みの発生率を改善するために、セグメント間で並列絡み替えを行うことである。 我々は,木のようなモデルをPSESのキャリアとして構築し,その経路を木のようなモデルに変換するためにレイヤグレディとセグメントグレディと呼ばれるヒューリスティックなアルゴリズムを提案する。 さらに、時間同期を実現し、障害の絡み合わせを処理するためのオンデマンド再送信機構を設計する。 実験の結果,PSESは他のエンタングルメントスワップ戦略よりも優れた性能を示し,オンデマンド再送信機構により,平均エンタングルメントスワップ時間を80%,平均エンタングルメント消費を80%削減できることがわかった。

In the noisy intermediate-scale quantum era, scientists are trying to improve the entanglement swapping success rate by researching anti-noise technology on the physical level, thereby obtaining a higher generation rate of long-distance entanglement. However, we may improve the generation rate from another perspective, which is studying an efficient entanglement swapping strategy. This paper analyzes the challenges faced by existing entanglement swapping strategies, including the node allocation principle, time synchronization, and processing of entanglement swapping failure. We present Parallel Segment Entanglement Swapping (PSES) to solve these problems. The core idea of PSES is to segment the path and perform parallel entanglement swapping between segments to improve the generation rate of long-distance entanglement. We construct a tree-like model as the carrier of PSES and propose heuristic algorithms called Layer Greedy and Segment Greedy to transform the path into a tree-like model. Moreover, we realize the time synchronization and design the on-demand retransmission mechanism to process entanglement swapping failure. The experiments show that PSES performs superiorly to other entanglement swapping strategies, and the on-demand retransmission mechanism can reduce the average entanglement swapping time by 80% and the average entanglement consumption by 80%.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# ローレンツブースト下の一般化ウェーブパケットによる量子コヒーレンス

Quantum coherence with generalized wave packets under Lorentz boost ( http://arxiv.org/abs/2407.06599v1 )

ライセンス: Link先を確認
Arnab Mukherjee, Soham Sen, Sunandan Gangopadhyay, (参考訳) 本稿では,1つの粒子,アピン-モーメント交絡状態について考察し,相対論的昇降が量子コヒーレンスに与える影響を測る。 単一粒子一般化ガウス波パケットに対する相対論的アップの効果について検討した。 励起オブザーバによって測定された波動関数のコヒーレンスを運動量とブーストパラメータの関数として検討した。 コヒーレンスの様々な定式化を用いて、一般にコヒーレンスは状態の運動量の増加とともに崩壊し、それに適用されるブースターが低下することを示した。 中性子よりも単一の粒子電子に対して相対論的加速によるコヒーレンスのより顕著な損失が観測される。 この解析は、一般化されたガウス波パケットを$\sim p^n \exp(-\frac{p^2}{\sigma^2})$で行う。 また、ウェーブパケットに現れる未知のパラメータ$n$のバウンダリも取得する。 粒子の質量とガウス波パケットの幅に依存することが判明した。

In this paper we consider a single particle, apin-momentum entangled state and measure the effect of relativistic boost on quantum coherence. The effect of the relativistic boost on single-particle generalized Gaussian wave packets is studied. The coherence of the wave function as measured by the boosted observer is studied as a function of the momentum and the boost parameter. Using various formulations of coherence, it is shown that in general the coherence decays with the increase in momentum of the state, as well as the boost applied to it. A more prominent loss of coherence due to relativistic boost is observed for a single particle electron than that of a neutron. The analysis is carried out with generalized Gaussian wave packet of the form $\sim p^n \exp(-\frac{p^2}{\sigma^2})$. We also obtain a bound on the unknown parameter $n$ appearing in the wave packet. It is found to have a dependence on the mass of the particle and the width of the Gaussian wave packet.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# 概念ボトルネックモデルへの臨床知識の統合

Integrating Clinical Knowledge into Concept Bottleneck Models ( http://arxiv.org/abs/2407.06600v1 )

ライセンス: Link先を確認
Winnie Pang, Xueyi Ke, Satoshi Tsutsui, Bihan Wen, (参考訳) 最終的な出力(例えば、細胞型)を予測する前に、人間の解釈可能な概念(例えば、細胞画像の核形状)を予測する概念ボトルネックモデル(CBM)は、モデルの意思決定プロセスに関する洞察を提供する。 しかし、CBMをデータ駆動方式でのみトレーニングすることは、予測性能を損なうような、望ましくないバイアスをもたらす可能性がある。 この課題を緩和するために,臨床知識の統合によるCBMの洗練,臨床医の意思決定プロセスとの整合性の向上を提案する。 具体的には,臨床医が優先する概念を優先するよう,モデルを指導する。 医療画像の2つのデータセット(白血球と皮膚画像)にアプローチを検証した。 実証的検証は、医学的ガイダンスを取り入れることで、さまざまな準備方法による未確認データセットの分類性能が向上し、実際の適用性が向上することを示した。

Concept bottleneck models (CBMs), which predict human-interpretable concepts (e.g., nucleus shapes in cell images) before predicting the final output (e.g., cell type), provide insights into the decision-making processes of the model. However, training CBMs solely in a data-driven manner can introduce undesirable biases, which may compromise prediction performance, especially when the trained models are evaluated on out-of-domain images (e.g., those acquired using different devices). To mitigate this challenge, we propose integrating clinical knowledge to refine CBMs, better aligning them with clinicians' decision-making processes. Specifically, we guide the model to prioritize the concepts that clinicians also prioritize. We validate our approach on two datasets of medical images: white blood cell and skin images. Empirical validation demonstrates that incorporating medical guidance enhances the model's classification performance on unseen datasets with varying preparation methods, thereby increasing its real-world applicability.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# マインドセットの課題 : 人工知能時代におけるニュースルーム型コーポレートコミュニケーションの特徴とプロセス

A Matter of Mindset? Features and Processes of Newsroom-based Corporate Communication in Times of Artificial Intelligence ( http://arxiv.org/abs/2407.06604v1 )

ライセンス: Link先を確認
Tobias Rohrbach, Mykola Makhortykh, (参考訳) 多くの企業は企業間のコミュニケーションを合理化するために企業ニュースルームモデルを採用している。 本稿では、人工知能(AI)システムの台頭に伴い、企業ニュースルームが企業コミュニケーションをいかに変化させるかについて論じる。 コーポレート・ニューズルームを利用するスイスの大企業の幹部コミュニケーションの専門家13人との半構造化されたインタビューの原資料を参考にしている。 インタビューは、企業ニュースルームがトピック指向のアジャイルな企業コミュニケーションのための組織的な(空間的な)調整組織として機能していることを示している。 これらの機能を実現するためには、通信構造の最適化と安定化の適切なバランスを見つけることが不可欠である。 ニュースルームは、日常的な作業を容易にし、生きたデータアーカイブやチャネル翻訳のようなより革新的なアプリケーションを可能にするために、AIを積極的に採用している。 インタビューはまた、企業コミュニケーションのためのAI規制に対する緊急の必要性を強調している。 この記事の調査結果は、企業ニュースルームの設立と管理のための実践的な課題と対処戦略、そしてニュースルームがAIによってどのように変革されるかに関する重要な洞察を提供する。

Many companies adopt the corporate newsroom model to streamline their corporate communication. This article addresses why and how corporate newsrooms transform corporate communication following the rise of artificial intelligence (AI) systems. It draws on original data from 13 semi-structured interviews with executive communication experts in large Swiss companies which use corporate newsrooms. Interviews show that corporate newsrooms serve as an organisational (rather than spatial) coordination body for topic-oriented and agile corporate communication. To enable their functionality, it is crucial to find the right balance between optimising and stabilising communication structures. Newsrooms actively adopt AI both to facilitate routine tasks and enable more innovative applications, such as living data archives and channel translations. Interviews also highlight an urgent need for AI regulation for corporate communication. The article's findings provide important insights into the practical challenges and coping strategies for establishing and managing corporate newsrooms and how newsrooms can be transformed by AI.
翻訳日:2024-07-10 19:05:47 公開日:2024-07-09
# ブランチフォーマを用いた音声・視覚音声認識モデルの設計

Tailored Design of Audio-Visual Speech Recognition Models using Branchformers ( http://arxiv.org/abs/2407.06606v1 )

ライセンス: Link先を確認
David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos, (参考訳) 近年のAVSR(Audio-Visual Speech Recognition)の進歩は、この分野において前例のない成果をもたらし、悪騒音環境におけるこの種のシステムの堅牢性を改善している。 ほとんどの場合、このタスクは2つの独立したエンコーダで構成されたモデルの設計によって対処され、それぞれが特定のモダリティに特化している。 しかし、近年の研究ではオーディオ・ビジュアル・エンコーダの統一化が検討されているが、最適なクロスモーダルアーキテクチャの決定は現在も進行中の課題である。 さらに、そのようなアプローチは、大量のパラメータと高い計算コストのトレーニングプロセスを含むモデルに依存することが多い。 本稿では,新しい視聴覚フレームワークを導入することで,この研究ギャップを埋めることを目的としている。 提案手法は,パラメータ効率のよいAVSRシステムの設計において,ブランチフォーマなどのエンコーダアーキテクチャが提供する柔軟性と解釈性を活用するための最初の試みである。 より正確に言うと、提案するフレームワークは、まず、オーディオとビデオのみのシステムを推定し、次に、モダリティ固有のモデルによって提供される階層レベルの分岐スコアに基づいて、調整されたオーディオと視覚の統一エンコーダを設計する。 複数のデータ条件とシナリオをカバーする英語とスペイン語のAVSRベンチマークによる大規模な実験により,提案手法の有効性が示された。 結果は、我々の調整されたAVSRシステムがどのように最先端の認識率に達することができるかを反映し、この分野における一般的なアプローチであるモデルの複雑さを著しく低減する。 コードと事前トレーニングされたモデルはhttps://github.com/david-gimeno/tailored-avsr.comで入手できる。

Recent advances in Audio-Visual Speech Recognition (AVSR) have led to unprecedented achievements in the field, improving the robustness of this type of system in adverse, noisy environments. In most cases, this task has been addressed through the design of models composed of two independent encoders, each dedicated to a specific modality. However, while recent works have explored unified audio-visual encoders, determining the optimal cross-modal architecture remains an ongoing challenge. Furthermore, such approaches often rely on models comprising vast amounts of parameters and high computational cost training processes. In this paper, we aim to bridge this research gap by introducing a novel audio-visual framework. Our proposed method constitutes, to the best of our knowledge, the first attempt to harness the flexibility and interpretability offered by encoder architectures, such as the Branchformer, in the design of parameter-efficient AVSR systems. To be more precise, the proposed framework consists of two steps: first, estimating audio- and video-only systems, and then designing a tailored audio-visual unified encoder based on the layer-level branch scores provided by the modality-specific models. Extensive experiments on English and Spanish AVSR benchmarks covering multiple data conditions and scenarios demonstrated the effectiveness of our proposed method. Results reflect how our tailored AVSR system is able to reach state-of-the-art recognition rates while significantly reducing the model complexity w.r.t. the prevalent approach in the field. Code and pre-trained models are available at https://github.com/david-gimeno/tailored-avsr.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 学習適応正規化器を用いた反復精細画像再構成

Iteratively Refined Image Reconstruction with Learned Attentive Regularizers ( http://arxiv.org/abs/2407.06608v1 )

ライセンス: Link先を確認
Mehrsa Pourya, Sebastian Neumayer, Michael Unser, (参考訳) 本稿では,古典的疎性促進モデルに頼りながら,深層学習の力を活用した画像再構成のための正規化手法を提案する。 多くのディープラーニングベースのモデルは解釈が困難で、理論的には解析が困難である。 対照的に、このスキームは一連の凸問題の最小化に対応するため解釈可能である。 シリーズの各問題に対して、前の解に基づいてマスクを生成し、空間的に正規化強度を洗練させる。 このようにして、モデルは画像構造に徐々に注意を払っていく。 基礎となる更新演算子に対しては、固定点の存在を証明します。 特別な場合として、固定点反復が明示的なエネルギー汎関数の臨界点に収束するマスク生成器について検討する。 実験では,逆問題解に対する最先端学習変分モデルの性能を比較検討した。 さらに、解釈可能性、理論的保証、信頼性、パフォーマンスの相違も有望です。

We propose a regularization scheme for image reconstruction that leverages the power of deep learning while hinging on classic sparsity-promoting models. Many deep-learning-based models are hard to interpret and cumbersome to analyze theoretically. In contrast, our scheme is interpretable because it corresponds to the minimization of a series of convex problems. For each problem in the series, a mask is generated based on the previous solution to refine the regularization strength spatially. In this way, the model becomes progressively attentive to the image structure. For the underlying update operator, we prove the existence of a fixed point. As a special case, we investigate a mask generator for which the fixed-point iterations converge to a critical point of an explicit energy functional. In our experiments, we match the performance of state-of-the-art learned variational models for the solution of inverse problems. Additionally, we offer a promising balance between interpretability, theoretical guarantees, reliability, and performance.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# CEIA: オープンワールドイベントベース理解のためのCLIPベースのイベントイメージアライメント

CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding ( http://arxiv.org/abs/2407.06611v1 )

ライセンス: Link先を確認
Wenhao Xu, Wenming Weng, Yueyi Zhang, Zhiwei Xiong, (参考訳) オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。 現在、大規模なイベントテキストモデルをトレーニングすることは、ペア化されたイベントテキストデータが不足しているため、依然として大きな課題となる。 この課題に対して、CEIAは、イベントデータとテキストデータを直接整列するのではなく、イベントデータとイメージデータを代替として整列することを学ぶ。 具体的には、リッチなイベントイメージデータセットを活用して、コントラスト学習を通じてCLIPの画像空間と整合したイベント埋め込み空間を学習する。 このようにして、画像データをブリッジとして使用することで、イベントデータとテキストデータを自然にアライメントする。 特にCEIAには2つの異なる利点がある。 まず、既存のイベントイメージデータセットをフル活用して、大規模なイベントテキストデータセットの不足を補うことができます。 第二に、より多くのトレーニングデータを活用することで、パフォーマンスを向上し、拡張性を確保する柔軟性も発揮される。 本フレームワークの汎用性を強調するために,オブジェクト認識,イベントイメージ検索,イベントテキスト検索,ドメイン適応など,さまざまなイベントベースのマルチモーダルアプリケーションを通じて,広範な評価を行う。 これらの結果は、CEIAが既存の手法よりも明らかにゼロショットの優位性を示している。

We present CEIA, an effective framework for open-world event-based understanding. Currently training a large event-text model still poses a huge challenge due to the shortage of paired event-text data. In response to this challenge, CEIA learns to align event and image data as an alternative instead of directly aligning event and text data. Specifically, we leverage the rich event-image datasets to learn an event embedding space aligned with the image space of CLIP through contrastive learning. In this way, event and text data are naturally aligned via using image data as a bridge. Particularly, CEIA offers two distinct advantages. First, it allows us to take full advantage of the existing event-image datasets to make up the shortage of large-scale event-text datasets. Second, leveraging more training data, it also exhibits the flexibility to boost performance, ensuring scalable capability. In highlighting the versatility of our framework, we make extensive evaluations through a diverse range of event-based multi-modal applications, such as object recognition, event-image retrieval, event-text retrieval, and domain adaptation. The outcomes demonstrate CEIA's distinct zero-shot superiority over existing methods on these applications.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# マルチモダリティ画像を用いたAIによる前立腺の自動セグメンテーション

AI-based Automatic Segmentation of Prostate on Multi-modality Images: A Review ( http://arxiv.org/abs/2407.06612v1 )

ライセンス: Link先を確認
Rui Jin, Derun Li, Dehui Xiang, Lei Zhang, Hailing Zhou, Fei Shi, Weifang Zhu, Jing Cai, Tao Peng, Xinjian Chen, (参考訳) 前立腺がんは健康にとって大きな脅威である。 前立腺癌患者の死亡率の低下には早期発見が不可欠である。 1つのアプローチは、前立腺領域にマルチモーダル(CT、MRI、USなど)コンピュータ支援診断(CAD)システムを使用することである。 しかし、前立腺の断片化は、画像や前立腺の複雑な組織構造に欠陥があるため困難である。 精密医療の出現と臨床能力の大幅な向上は、医用画像の分野で様々なデータ駆動タスクの必要性を喚起している。 近年,画像セグメンテーションなど,さまざまな医療領域に機械学習やデータマイニングツールが組み込まれている。 本稿では,指導段階において,数と種類を区別する新たな分類法を提案する。 その後,AIを用いた自動前立腺分割法の調査を行い,それぞれの利点と限界について検討した。 さらに,セグメンテーション手法の検証と性能評価のための評価指標の変種を導入し,現状の課題を要約する。 最後に, 文献調査の結果を反映した今後の研究の方向性と開発動向について考察し, 前立腺癌の早期発見と治療が期待できる道として示唆された。

Prostate cancer represents a major threat to health. Early detection is vital in reducing the mortality rate among prostate cancer patients. One approach involves using multi-modality (CT, MRI, US, etc.) computer-aided diagnosis (CAD) systems for the prostate region. However, prostate segmentation is challenging due to imperfections in the images and the prostate's complex tissue structure. The advent of precision medicine and a significant increase in clinical capacity have spurred the need for various data-driven tasks in the field of medical imaging. Recently, numerous machine learning and data mining tools have been integrated into various medical areas, including image segmentation. This article proposes a new classification method that differentiates supervision types, either in number or kind, during the training phase. Subsequently, we conducted a survey on artificial intelligence (AI)-based automatic prostate segmentation methods, examining the advantages and limitations of each. Additionally, we introduce variants of evaluation metrics for the verification and performance assessment of the segmentation method and summarize the current challenges. Finally, future research directions and development trends are discussed, reflecting the outcomes of our literature survey, suggesting high-precision detection and treatment of prostate cancer as a promising avenue.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# スパース-DeRF:スパースビューからの分解型ニューラルラジアンス場

Sparse-DeRF: Deblurred Neural Radiance Fields from Sparse View ( http://arxiv.org/abs/2407.06613v1 )

ライセンス: Link先を確認
Dogyoon Lee, Donghyeong Kim, Jungho Lee, Minhyeok Lee, Seunghoon Lee, Sangyoun Lee, (参考訳) 最近の研究は、多数のぼやけた画像しか利用できない場合、現実的なシナリオではない多くのぼやけた画像を用いて、デブロワード神経放射場(DeRF)を構築している。 本稿では,より現実的なシナリオのためのスパースビューからDeRFを構築することに焦点を当てる。 実験で確認したように、スパースビューからのDeRFの確立は、スパースビューからのボケカーネルとNeRFの同時最適化に起因する固有の複雑さにより、より困難な問題であることが証明された。 Sparse-DeRFは複雑なジョイント最適化を正則化し、緩和されたオーバーフィッティングアーティファクトとラディアンスフィールドの品質を向上した。 表面の滑らかさ, 実世界の統計的傾向に基づいて, ぼやけたカーネルから得られた隠された光線を正確に予測すること, 変調した勾配スケーリング, シーンオブジェクトの配置に応じてバックプロパゲート勾配の量を調整すること, 知覚的蒸留は, 画像の異常なマルチビューの不整合を克服し, プリフィルタされた情報を蒸留することにより, 知覚的品質を向上させること, ぼやけた画像におけるクリーンな情報の欠如を補うこと, などである。 2ビュー,4ビュー,6ビューのぼかし画像からDeRFをトレーニングすることにより,Sparse-DeRFの有効性を示す。

Recent studies construct deblurred neural radiance fields (DeRF) using dozens of blurry images, which are not practical scenarios if only a limited number of blurry images are available. This paper focuses on constructing DeRF from sparse-view for more pragmatic real-world scenarios. As observed in our experiments, establishing DeRF from sparse views proves to be a more challenging problem due to the inherent complexity arising from the simultaneous optimization of blur kernels and NeRF from sparse view. Sparse-DeRF successfully regularizes the complicated joint optimization, presenting alleviated overfitting artifacts and enhanced quality on radiance fields. The regularization consists of three key components: Surface smoothness, helps the model accurately predict the scene structure utilizing unseen and additional hidden rays derived from the blur kernel based on statistical tendencies of real-world; Modulated gradient scaling, helps the model adjust the amount of the backpropagated gradient according to the arrangements of scene objects; Perceptual distillation improves the perceptual quality by overcoming the ill-posed multi-view inconsistency of image deblurring and distilling the pre-filtered information, compensating for the lack of clean information in blurry images. We demonstrate the effectiveness of the Sparse-DeRF with extensive quantitative and qualitative experimental results by training DeRF from 2-view, 4-view, and 6-view blurry images.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 高感度CESTイメージングのためのサブスペースにおける入射回帰

Implicit Regression in Subspace for High-Sensitivity CEST Imaging ( http://arxiv.org/abs/2407.06614v1 )

ライセンス: Link先を確認
Chu Chen, Yang Liu, Se Weon Park, Jizhou Li, Kannie W. Y. Chan, Raymond H. F. Chan, (参考訳) CEST(Chemical Exchange Saturation Transfer)MRIは、交換可能なプロトンを介して低濃度のタンパク質や代謝物の検出を著しく増強する能力を示す。 しかし、CESTの臨床応用は、取得したデータにおける低コントラストと低信号-雑音比(SNR)に制約されている。 CESTデータの後処理段階の1つであるデノイングは、CEST定量化の精度を効果的に向上させることができる。 本研究では,空間変動zスペクトルを低次元部分空間にモデル化することにより,暗黙的ニューラル表現の優れた性質を連続写像に活かした教師なし復調アルゴリズムであるIRISを導入する。 本手法は, 定性および定量的性能の両面において, CEST法を上回り, 本手法が他のCEST法よりも優れていることを示す。

Chemical Exchange Saturation Transfer (CEST) MRI demonstrates its capability in significantly enhancing the detection of proteins and metabolites with low concentrations through exchangeable protons. The clinical application of CEST, however, is constrained by its low contrast and low signal-to-noise ratio (SNR) in the acquired data. Denoising, as one of the post-processing stages for CEST data, can effectively improve the accuracy of CEST quantification. In this work, by modeling spatial variant z-spectrums into low-dimensional subspace, we introduce Implicit Regression in Subspace (IRIS), which is an unsupervised denoising algorithm utilizing the excellent property of implicit neural representation for continuous mapping. Experiments conducted on both synthetic and in-vivo data demonstrate that our proposed method surpasses other CEST denoising methods regarding both qualitative and quantitative performance.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# Mobius:テキスト・ビデオ生成タスクのための高能率空間時間並列学習パラダイム

Mobius: An High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task ( http://arxiv.org/abs/2407.06617v1 )

ライセンス: Link先を確認
Yiran Yang, Jinchao Zhang, Ying Deng, Jie Zhou, (参考訳) テキスト・トゥ・イメージ(T2I)生成タスクの成功に触発されて、多くの研究者がテキスト・トゥ・ビデオ(T2V)生成タスクに力を注いでいる。 T2Vフレームワークの多くは、通常、T2Iモデルから継承し、動的ビデオを生成するための時間外トレーニング層を追加します。 しかし、従来の3D-Unetはシリアルモードであり、時空間層は空間層に追従する。 我々は、このシリアルモードは、環境に優しいものではなく、T2Vの開発に適さない大規模な拡散モデルと大規模なデータセットで、より多くのトレーニングコストをもたらすと信じている。 そこで本稿では,T2Vタスクのための高効率な時空間並列訓練パラダイムであるMobiusを提案する。 我々の3D-Unetでは、時間層と空間層は並列であり、特徴フローとバックプロパゲーションを最適化する。 Mobiusは24%のGPUメモリと12%のトレーニング時間を節約し、T2Vの微調整タスクを大幅に改善し、AIGCコミュニティに新たな洞察を与える。 将来、コードをリリースします。

Inspired by the success of the text-to-image (T2I) generation task, many researchers are devoting themselves to the text-to-video (T2V) generation task. Most of the T2V frameworks usually inherit from the T2I model and add extra-temporal layers of training to generate dynamic videos, which can be viewed as a fine-tuning task. However, the traditional 3D-Unet is a serial mode and the temporal layers follow the spatial layers, which will result in high GPU memory and training time consumption according to its serial feature flow. We believe that this serial mode will bring more training costs with the large diffusion model and massive datasets, which are not environmentally friendly and not suitable for the development of the T2V. Therefore, we propose a highly efficient spatial-temporal parallel training paradigm for T2V tasks, named Mobius. In our 3D-Unet, the temporal layers and spatial layers are parallel, which optimizes the feature flow and backpropagation. The Mobius will save 24% GPU memory and 12% training time, which can greatly improve the T2V fine-tuning task and provide a novel insight for the AIGC community. We will release our codes in the future.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 2つの巨大原子による導波路間の効率的な単一光子方向移動

Efficient single-photon directional transfer between waveguides via two giant atoms ( http://arxiv.org/abs/2407.06620v1 )

ライセンス: Link先を確認
Daqiang Bao, Zhirong Lin, (参考訳) 二重導波路量子電磁力学系における単一光子輸送特性について検討する。 我々は、2つの巨大原子間の直接結合強度を調整することで、集合状態のエネルギー縮退を強制する。 その結果、固有状態の散乱による2つの導波路間で共振光子を完全に伝達できることが示され、出力導波路における共振光子の指向性伝播がもたらされた。 完全な転移は、2つの散乱状態がエネルギーと崩壊速度で縮退したときに起こる。 さらに、指向性制御による効率的な光子転送を実現するための簡単なスキームを提案する。 この研究は量子ネットワークや集積フォトニック回路に応用できる可能性がある。

We investigate the single-photon transport properties in a double-waveguide quantum electrodynamic system. We force the energy degeneracy of the collective states by adjusting the direct coupling strength between the two giant atoms. Our results indicate that resonant photons can be completely transferred between the two waveguides owing to the scattering interference of eigenstates, which also results in the directional propagation of resonant photons in the output waveguide. Perfect transfer occurs when the two scattering states degenerate in the energy and decay rates. We further propose a simple scheme to realize the efficient photon transfer with directional control. This study has potential applications in quantum networks and integrated photonic circuits.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 予測外の変化と明示時間に関する推論

Reasoning about unpredicted change and explicit time ( http://arxiv.org/abs/2407.06622v1 )

ライセンス: Link先を確認
Florence Dupin de Saint-Cyr, Jérôme Lang, (参考訳) 予測不能な変化についての推論は,事象による観測を説明することから構成される。ここでは,流れの真理値の変化からなる単純な事象である,驚きによる時間スタンプ観測を説明するためのアプローチを提案する。 サプライズを扱うためのフレームワークが定義されています。 最小のサプライズセットは、各サプライズが発生した時間間隔と共に提供され、モデルに基づく診断の観点から特徴付けられる。 次に、サプライズ最小化の確率論的アプローチを提案する。

Reasoning about unpredicted change consists in explaining observations by events; we propose here an approach for explaining time-stamped observations by surprises, which are simple events consisting in the change of the truth value of a fluent. A framework for dealing with surprises is defined. Minimal sets of surprises are provided together with time intervals where each surprise has occurred, and they are characterized from a model-based diagnosis point of view. Then, a probabilistic approach of surprise minimisation is proposed.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# エゴセントリックな行動認識のためのマスク付きビデオとボディーウーンIMUオートエンコーダ

Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition ( http://arxiv.org/abs/2407.06628v1 )

ライセンス: Link先を確認
Mingfang Zhang, Yifei Huang, Ruicong Liu, Yoichi Sato, (参考訳) 視覚信号と比較すると、人間の手足に装着された慣性計測ユニット(IMU)は、光の変動や閉塞に対して頑健さを保ちながら正確な運動信号を捉えることができる。 これらの特徴は、自我中心の行動認識を助けるのに直感的に有用であるが、IMUの潜在能力は未解明のままである。 本研究では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。 ラベル付きマルチモーダルデータの不足により、視覚信号と運動信号の自然な相関をモデル化し、強力なマルチモーダル表現を得るMAEベースの自己教師付き事前学習法を設計する。 体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を活用し、人間の関節の相対運動特性をグラフ構造に埋め込むことを提案する。 実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。 MAEに基づく事前学習とグラフベースのIMUモデリングの有効性は、部分的に欠落したIMUデバイスやビデオ品質の劣化など、より困難なシナリオの実験によってさらに検証され、現実世界でのより柔軟な利用が促進される。

Compared with visual signals, Inertial Measurement Units (IMUs) placed on human limbs can capture accurate motion signals while being robust to lighting variation and occlusion. While these characteristics are intuitively valuable to help egocentric action recognition, the potential of IMUs remains under-explored. In this work, we present a novel method for action recognition that integrates motion data from body-worn IMUs with egocentric video. Due to the scarcity of labeled multimodal data, we design an MAE-based self-supervised pretraining method, obtaining strong multi-modal representations via modeling the natural correlation between visual and motion signals. To model the complex relation of multiple IMU devices placed across the body, we exploit the collaborative dynamics in multiple IMU devices and propose to embed the relative motion features of human joints into a graph structure. Experiments show our method can achieve state-of-the-art performance on multiple public datasets. The effectiveness of our MAE-based pretraining and graph-based IMU modeling are further validated by experiments in more challenging scenarios, including partially missing IMU devices and video quality corruption, promoting more flexible usages in the real world.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# エコーチャンバー研究の体系的レビュー:概念化、運用化、変数出力の比較分析

A Systematic Review of Echo Chamber Research: Comparative Analysis of Conceptualizations, Operationalizations, and Varying Outcomes ( http://arxiv.org/abs/2407.06631v1 )

ライセンス: Link先を確認
David Hartmann, Lena Pohlmann, Sonja Mei Wang, Bettina Berendt, (参考訳) この体系的なレビューは、エコーチャンバーとフィルターバブルに関する現在の研究を合成し、エコーチャンバーの研究において、その現象の存在、先行物質、および影響について、不一致の原因を明らかにする。 エコーチャンバー研究におけるコンセンサスの欠如は、エコーチャンバーの異なる概念化と運用化に基づいている。 エコーチャンバーをホモフィリーに概念化し、データ駆動型計算社会科学(CSS)法を利用した研究は、ソーシャルメディアにおけるエコーチャンバー仮説と偏光効果を確認してきたが、メディア露出の全スペクトルを探索したコンテンツ露出研究と調査はそれを拒絶している。 これらの研究の多くはアメリカ合衆国で行われており、このレビューでは、エコーチャンバーが2つ以上の政党とグローバル・ノース以外のシステムでどのように機能するかについて、より包括的な理解の必要性を強調している。 この現象の理解を深めるために、今後の研究は、連続的な監査によるアルゴリズム的フィルタリングの変化を考慮し、偏極化、断片化、オンラインエコーチャンバーの設置の因果方向を検討することで、よりクロスプラットフォームな研究を優先すべきである。 このレビューはまた、異なる運用方式の利点とデメリットを提供し、欧州連合(EU)における研究に推奨するものであり、近く施行されるデジタルサービス法(DSA)によって可能となる。 全体として、この体系的なレビューは、エコーチャンバーとフィルターバブルの存在、先行性、および影響について、現在進行中の学術的な議論に寄与している。

This systematic review synthesizes current research on echo chambers and filter bubbles to highlight the reasons for the dissent in echo chamber research on the existence, antecedents, and effects of the phenomenon. The review of 112 studies reveals that the lack of consensus in echo chamber research is based on different conceptualizations and operationalizations of echo chambers. While studies that have conceptualized echo chambers with homophily and utilized data-driven computational social science (CSS) methods have confirmed the echo chamber hypothesis and polarization effects in social media, content exposure studies and surveys that have explored the full spectrum of media exposure have rejected it. Most of these studies have been conducted in the United States, and the review emphasizes the need for a more comprehensive understanding of how echo chambers work in systems with more than two parties and outside the Global North. To advance our understanding of this phenomenon, future research should prioritize conducting more cross-platform studies, considering algorithmic filtering changes through continuous auditing, and examining the causal direction of the association between polarization, fragmentation, and the establishment of online echo chambers. The review also provides the advantages and disadvantages of different operationalizations and makes recommendations for studies in the European Union (EU), which will become possible with the upcoming Digital Services Act (DSA). Overall, this systematic review contributes to the ongoing scholarly discussion on the existence, antecedents, and effects of echo chambers and filter bubbles.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 可変ゼロショットマルチスペクトルパンシャーピング

Variational Zero-shot Multispectral Pansharpening ( http://arxiv.org/abs/2407.06633v1 )

ライセンス: Link先を確認
Xiangyu Rui, Xiangyong Cao, Yining Li, Deyu Meng, (参考訳) パンシャーペンは、低空間分解能マルチスペクトル画像(LRMS)とパンクロマチック画像(PAN)を融合させることにより、高空間分解能マルチスペクトル画像(HRMS)を生成することを目的としている。 このタスクの最も難しい問題は、to-be-fusedのLRMSとPANのみが利用可能であり、既存のディープラーニングベースのメソッドは多くのトレーニングペアに依存しているため、不適当であることだ。 従来の変分最適化(VO)に基づく手法は、そのような問題に対処するのに適している。 彼らは、研究者が画像関係と画像構造を発見したことに基づく最適化問題に対する規則化と同様に、明示的な融合規則を慎重に設計することに重点を置いている。 本研究では,従来のVO法とは異なり,手作業で設計した手法ではなく,パラメータ化項による複雑な関係を探索する。 具体的には、最適化目的にニューラルネットワークを導入することにより、ゼロショットパンスハーペン方式を提案する。 このネットワークは、HRMSとPANの関係を主に記述したHRMSの表現成分を推定する。 このようにして、ネットワークは、HRMSとPANイメージの関係をその固有の構造を通して暗黙的に規制するため、いわゆるディープイメージと同じような目標を達成する。 我々は,ネットワークパラメータとHRMS画像の反復更新により,この最適化目標を直接最小化する。 各種ベンチマークデータセットの大規模な実験により,提案手法は,他の最先端手法と比較して性能が向上することを示した。 コードはhttps://github.com/xyrui/PSDipで入手できる。

Pansharpening aims to generate a high spatial resolution multispectral image (HRMS) by fusing a low spatial resolution multispectral image (LRMS) and a panchromatic image (PAN). The most challenging issue for this task is that only the to-be-fused LRMS and PAN are available, and the existing deep learning-based methods are unsuitable since they rely on many training pairs. Traditional variational optimization (VO) based methods are well-suited for addressing such a problem. They focus on carefully designing explicit fusion rules as well as regularizations for an optimization problem, which are based on the researcher's discovery of the image relationships and image structures. Unlike previous VO-based methods, in this work, we explore such complex relationships by a parameterized term rather than a manually designed one. Specifically, we propose a zero-shot pansharpening method by introducing a neural network into the optimization objective. This network estimates a representation component of HRMS, which mainly describes the relationship between HRMS and PAN. In this way, the network achieves a similar goal to the so-called deep image prior because it implicitly regulates the relationship between the HRMS and PAN images through its inherent structure. We directly minimize this optimization objective via network parameters and the expected HRMS image through iterative updating. Extensive experiments on various benchmark datasets demonstrate that our proposed method can achieve better performance compared with other state-of-the-art methods. The codes are available at https://github.com/xyrui/PSDip.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 2次元1次元クロスオーバーにおける相互作用するボソンの有限サイズ解析

Finite size analysis for interacting bosons at the 2D-1D Dimensional Crossover ( http://arxiv.org/abs/2407.06634v1 )

ライセンス: Link先を確認
Lorenzo Pizzino, Hepeng Yao, Thierry Giamarchi, (参考訳) 本研究では、場の理論的アプローチ(ボゾン化)と量子モンテカルロシミュレーションを用いて、2D-1次元のクロスオーバーで相互作用するボソンを有限サイズと温度で解析する。 有限の大きさの低次元系は準順序位相しか持たないという事実から、準凝縮の分数とシステムサイズとのスケーリングを計算する自己整合調和近似を考える。 これにより、縮合性を決定するために、次元交叉を横切る有限の大きさと温度によって生じる重要な役割を理解することができる。 さらに、弱い相互作用と強い相互作用の両方に対するクロスオーバー温度に対する有限サイズ効果を計算する平均場近似を考察する。 ここで論じる物理量はすべて、次元交叉における量子気体の必須情報を提供し、低温原子実験で直接検出できる。

In this work, we extend the analysis of interacting bosons at 2D-1D dimensional crossover for finite size and temperature by using field-theory approach (bosonization) and quantum Monte Carlo simulations. Stemming from the fact that finite size low-dimensional systems are allowed only to have quasi-ordered phase, we consider the self-consistent harmonic approximation to compute the fraction of quasi-condensate and its scaling with the system size. It allows us to understand the important role played by finite size and temperature across the dimensional crossover for deciding the condensate nature. Furthermore, we consider a mean-field approximation to compute the finite size effect on the crossover temperature for both weak and strong interaction. All the physical quantities we discuss here provide essential information for quantum gas at dimensional crossover and are directly detectable in cold atom experiments
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 教師なし異常検出のための組立て型冷拡散修復法

Ensembled Cold-Diffusion Restorations for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2407.06635v1 )

ライセンス: Link先を確認
Sergio Naval Marimont, Vasilis Siomos, Matthew Baugh, Christos Tzelepis, Bernhard Kainz, Giacomo Tarroni, (参考訳) Unsupervised Anomaly Detection (UAD) は、異常のないデータセットから学習した規範的分布と比較したテストサンプル中の異常を識別することを目的としている。 生成モデルに基づくアプローチは、異常のないテスト画像を生成することによって解釈可能性を提供するが、通常、微妙な異常を識別することはできない。 あるいは、合成された異常に依存する機能モデリングや自己教師型手法を用いるアプローチは、アウト・オブ・ザ・ボックスの解釈性を提供しない。 本研究では, 合成劣化した画像の正常な外観に戻すことを目的とし, 両戦略の強みを組み合わせた新しい手法を提案する。 パイプラインを支援するために,DAGと呼ばれる新しい合成異常発生法と,異なる異常度で条件付き修復をアンサンブルする新規な異常スコアを導入する。 本手法は,3種類の脳MRIデータセットにおける教師なし異常検出技術に先行する手法を超越した手法である。

Unsupervised Anomaly Detection (UAD) methods aim to identify anomalies in test samples comparing them with a normative distribution learned from a dataset known to be anomaly-free. Approaches based on generative models offer interpretability by generating anomaly-free versions of test images, but are typically unable to identify subtle anomalies. Alternatively, approaches using feature modelling or self-supervised methods, such as the ones relying on synthetically generated anomalies, do not provide out-of-the-box interpretability. In this work, we present a novel method that combines the strengths of both strategies: a generative cold-diffusion pipeline (i.e., a diffusion-like pipeline which uses corruptions not based on noise) that is trained with the objective of turning synthetically-corrupted images back to their normal, original appearance. To support our pipeline we introduce a novel synthetic anomaly generation procedure, called DAG, and a novel anomaly score which ensembles restorations conditioned with different degrees of abnormality. Our method surpasses the prior state-of-the art for unsupervised anomaly detection in three different Brain MRI datasets.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# ネットワークサービス劣化の早期検出:フロー内アプローチ

Early Detection of Network Service Degradation: An Intra-Flow Approach ( http://arxiv.org/abs/2407.06637v1 )

ライセンス: Link先を確認
Balint Bicski, Adrian Pekar, (参考訳) 本研究では,早期のフロー特性を利用して,コンピュータネットワークにおけるサービス劣化(SD)を予測する新しい手法を提案する。 本稿では,ネットワークフローの観測可能な(O)セグメントに着目し,特にパケット間時間(PIAT)値や他の派生メトリクスを分析し,観測不可能な(NO)セグメントの挙動を推定する。 総合評価により,観測遅延サンプル10点の最適O/NO分割閾値を同定し,予測精度と資源利用量のバランスをとる。 Logistic Regression、XGBoost、Multi-Layer Perceptronなどのモデルを評価すると、XGBoostは他のモデルよりも優れており、F1スコアは0.74、バランスの取れた精度は0.84、AUROCは0.97である。 本研究は, 資源制約環境におけるネットワークトラフィック監視の実践的ソリューションとして, 包括的早期フロー機能の導入の有効性と本手法の可能性を明らかにするものである。 このアプローチは、潜在的なSDにプリエンプティブに対処することで、ユーザエクスペリエンスとネットワークパフォーマンスの向上を保証し、高品質なネットワークサービスを維持するための堅牢なフレームワークの基礎を提供する。

This research presents a novel method for predicting service degradation (SD) in computer networks by leveraging early flow features. Our approach focuses on the observable (O) segments of network flows, particularly analyzing Packet Inter-Arrival Time (PIAT) values and other derived metrics, to infer the behavior of non-observable (NO) segments. Through a comprehensive evaluation, we identify an optimal O/NO split threshold of 10 observed delay samples, balancing prediction accuracy and resource utilization. Evaluating models including Logistic Regression, XGBoost, and Multi-Layer Perceptron, we find XGBoost outperforms others, achieving an F1-score of 0.74, balanced accuracy of 0.84, and AUROC of 0.97. Our findings highlight the effectiveness of incorporating comprehensive early flow features and the potential of our method to offer a practical solution for monitoring network traffic in resource-constrained environments. This approach ensures enhanced user experience and network performance by preemptively addressing potential SD, providing the basis for a robust framework for maintaining high-quality network services.
翻訳日:2024-07-10 18:56:02 公開日:2024-07-09
# 強力で柔軟な:強化学習によるパーソナライズされたテキスト・ツー・イメージ生成

Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning ( http://arxiv.org/abs/2407.06642v1 )

ライセンス: Link先を確認
Fanyue Wei, Wei Zeng, Zhenyang Li, Dawei Yin, Lixin Duan, Wen Li, (参考訳) パーソナライズされたテキスト・ツー・イメージモデルにより、ユーザーはオブジェクト(参照画像のセットで指定)のさまざまなスタイルのイメージ(文で指定)を生成できる。 拡散に基づく生成モデルを用いて顕著な結果が得られたが、物体の視覚構造と詳細は拡散過程中に予期せず変化することがしばしばある。 主な理由の1つは、これらの拡散に基づくアプローチが訓練中に単純な再構成目的を採用するのが一般的であり、生成された画像と参照画像の間の適切な構造的一貫性をほとんど強制できないことである。 そこで,本稿では,画像の拡散モデルに差分,あるいは非差分といった様々な目的を組み込むことで,画像の質を向上させるための決定論的ポリシー勾配法を用いて,新たな強化学習フレームワークを設計する。 パーソナライズされたテキスト・ツー・イメージ・ジェネレーション・ベンチマーク・データセットによる実験結果から,提案手法はテキストアライメントを維持しつつ,視覚的忠実度に大きな差を伴って既存の最先端手法よりも優れていることが示された。 我々のコードは以下の通りである。

Personalized text-to-image models allow users to generate varied styles of images (specified with a sentence) for an object (specified with a set of reference images). While remarkable results have been achieved using diffusion-based generation models, the visual structure and details of the object are often unexpectedly changed during the diffusion process. One major reason is that these diffusion-based approaches typically adopt a simple reconstruction objective during training, which can hardly enforce appropriate structural consistency between the generated and the reference images. To this end, in this paper, we design a novel reinforcement learning framework by utilizing the deterministic policy gradient method for personalized text-to-image generation, with which various objectives, differential or even non-differential, can be easily incorporated to supervise the diffusion models to improve the quality of the generated images. Experimental results on personalized text-to-image generation benchmark datasets demonstrate that our proposed approach outperforms existing state-of-the-art methods by a large margin on visual fidelity while maintaining text-alignment. Our code is available at: \url{https://github.com/wfanyue/DPG-T2I-Personalization}.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# エントロピー法:データ圧縮とLLMパフォーマンスの背後にある物語

Entropy Law: The Story Behind Data Compression and LLM Performance ( http://arxiv.org/abs/2407.06645v1 )

ライセンス: Link先を確認
Mingjia Yin, Chuhan Wu, Yufei Wang, Hao Wang, Wei Guo, Yasheng Wang, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen, (参考訳) データは大きな言語モデル(LLM)の基盤であるが、すべてのデータがモデル学習に役立つわけではない。 慎重に選択されたデータは、計算オーバーヘッドをはるかに少なくしてLLMの能力を引き出すことができる。 多くの場合,データ選択における個々のサンプルの品質評価に重点を置いているが,サンプル間の組合せ効果は無視されている。 各標本が完全な品質であっても、それらの組み合わせは固有の均一性や矛盾のためにLLMを教えるのに最適である。 本稿では,LLMの性能とデータ選択の関係を明らかにすることを目的とする。 LLMの情報圧縮特性に着想を得て,LLMの性能とデータ圧縮率を結びつける「エントロピー法則」と,データセットの情報冗長性と,このデータセットに符号化された固有知識の習得を反映した第1のエポックトレーニング損失を明らかにする。 理論的推論と経験的評価の両方を通して、モデル性能はトレーニングデータの圧縮比と負の相関関係にあり、通常、トレーニング損失は低い。 エントロピー法則の知見に基づいて,低圧縮比を示すデータサブセットの優先順位付けを目的とした,LLMのトレーニングのための,非常に効率的で普遍的なデータ選択法である「textbf{ZIP}」を提案する。 多様なデータを選択する多段階アルゴリズムに基づいて、良好な多様性を持つ優れたデータサブセットを得ることができる。 異なるLLMバックボーンとアライメントステージにおけるエントロピー法則とZIPの優位性を検証するために、広範囲にわたる実験が行われた。 また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。

Data is the cornerstone of large language models (LLMs), but not all data is useful for model learning. Carefully selected data can better elicit the capabilities of LLMs with much less computational overhead. Most methods concentrate on evaluating the quality of individual samples in data selection, while the combinatorial effects among samples are neglected. Even if each sample is of perfect quality, their combinations may be suboptimal in teaching LLMs due to their intrinsic homogeneity or contradiction. In this paper, we aim to uncover the underlying relationships between LLM performance and data selection. Inspired by the information compression nature of LLMs, we uncover an ``entropy law'' that connects LLM performance with data compression ratio and first-epoch training loss, which reflect the information redundancy of a dataset and the mastery of inherent knowledge encoded in this dataset, respectively. Through both theoretical deduction and empirical evaluation, we find that model performance is negatively correlated to the compression ratio of training data, which usually yields a lower training loss. Based on the findings of the entropy law, we propose a quite efficient and universal data selection method named \textbf{ZIP} for training LLMs, which aim to prioritize data subsets exhibiting a low compression ratio. Based on a multi-stage algorithm that selects diverse data in a greedy manner, we can obtain a good data subset with satisfactory diversity. Extensive experiments have been conducted to validate the entropy law and the superiority of ZIP across different LLM backbones and alignment stages. We also present an interesting application of entropy law that can detect potential performance risks at the beginning of model training.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# 変分学習ISTA

Variational Learning ISTA ( http://arxiv.org/abs/2407.06646v1 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Christos Louizos, Arash Behboodi, (参考訳) 圧縮センシングは、凸最適化手法のパワーと信号空間上の疎性誘導前処理を組み合わせ、未決定方程式系を解く。 多くの問題において、スペーサー化辞書は直接与えられておらず、その存在も想定できない。 さらに、センサーマトリックスはさまざまなシナリオにまたがって変更できる。 これらの問題に対処するためには、学習辞書のエピステマティックな不確実性を考慮した辞書学習というスパース表現学習の課題を解決し、最後に、様々な感応行列条件の下でスパース表現と再構成を共同で学習する必要がある。 我々は、LISTAアーキテクチャのバリエーションを提案することによって、両方の懸念に対処する。 まず、拡張モジュールを組み込んだ拡張辞書学習ISTA(A-DLISTA)を導入し、パラメータを現在の測定設定に適応させる。 そこで我々は,変分学習ISTA (VLISTA) と呼ばれる変分学習手法を用いて辞書上の分布を学習することを提案する。 VLISTAは、A-DLISTAを可能性モデルとして利用し、拡張LISTAベースのリカバリアルゴリズムの一部として辞書上の後方分布を近似する。 結果として、VLISTAは、辞書分布と再構成アルゴリズムを様々な知覚行列で共同で学習する確率的方法を提供する。 アーキテクチャの理論的および実験的サポートを提供し、我々のモデルが校正された不確実性を学ぶことを示す。

Compressed sensing combines the power of convex optimization techniques with a sparsity-inducing prior on the signal space to solve an underdetermined system of equations. For many problems, the sparsifying dictionary is not directly given, nor its existence can be assumed. Besides, the sensing matrix can change across different scenarios. Addressing these issues requires solving a sparse representation learning problem, namely dictionary learning, taking into account the epistemic uncertainty of the learned dictionaries and, finally, jointly learning sparse representations and reconstructions under varying sensing matrix conditions. We address both concerns by proposing a variant of the LISTA architecture. First, we introduce Augmented Dictionary Learning ISTA (A-DLISTA), which incorporates an augmentation module to adapt parameters to the current measurement setup. Then, we propose to learn a distribution over dictionaries via a variational approach, dubbed Variational Learning ISTA (VLISTA). VLISTA exploits A-DLISTA as the likelihood model and approximates a posterior distribution over the dictionaries as part of an unfolded LISTA-based recovery algorithm. As a result, VLISTA provides a probabilistic way to jointly learn the dictionary distribution and the reconstruction algorithm with varying sensing matrices. We provide theoretical and experimental support for our architecture and show that our model learns calibrated uncertainties.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# SEBA:生体匿名化の強力な評価

SEBA: Strong Evaluation of Biometric Anonymizations ( http://arxiv.org/abs/2407.06648v1 )

ライセンス: Link先を確認
Julian Todt, Simon Hanisch, Thorsten Strufe, (参考訳) 生体データは広範に捕捉され分析される。 現代の機械学習アプローチを使用することで、アイデンティティと属性推論の攻撃は高い精度を証明している。 匿名化は、識別を防止する方法でデータを変更することによって、そのような開示を緩和することを目的としている。 しかし、いくつかの匿名化の有効性は明らかでない。 そのため、近年、対応する評価手法の改善が提案されている。 本稿では,生体匿名化の強力な評価フレームワークSEBAを紹介する。 使用が容易で拡張が容易なソフトウェアフレームワークで、最先端の方法論を組み合わせて実装する。 これにより、匿名化デザイナは、強力な評価手法を使って、彼らのテクニックを簡単にテストできる。 この議論の一環として、匿名化の試みに固有のプライバシーとユーティリティのトレードオフをより簡単に評価できる新しい指標を紹介し、議論する。 最後に,SEBAの適用性を示すためのプロトタイプ実験について報告する。

Biometric data is pervasively captured and analyzed. Using modern machine learning approaches, identity and attribute inferences attacks have proven high accuracy. Anonymizations aim to mitigate such disclosures by modifying data in a way that prevents identification. However, the effectiveness of some anonymizations is unclear. Therefore, improvements of the corresponding evaluation methodology have been proposed recently. In this paper, we introduce SEBA, a framework for strong evaluation of biometric anonymizations. It combines and implements the state-of-the-art methodology in an easy-to-use and easy-to-expand software framework. This allows anonymization designers to easily test their techniques using a strong evaluation methodology. As part of this discourse, we introduce and discuss new metrics that allow for a more straightforward evaluation of the privacy-utility trade-off that is inherent to anonymization attempts. Finally, we report on a prototypical experiment to demonstrate SEBA's applicability.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# 同時解釈・翻訳のための単語順同期基準

A Word Order Synchronization Metric for Evaluating Simultaneous Interpretation and Translation ( http://arxiv.org/abs/2407.06650v1 )

ライセンス: Link先を確認
Mana Makinae, Katsuhito Sudoh, Mararu Yamada, Satoshi Nakamura, (参考訳) ある言語を別の言語にリアルタイムで翻訳する同時解釈(SI)は、元のスピーチが終わる前に翻訳を開始する。 その評価はレイテンシと品質の両方を考慮する必要がある。 このトレードオフは、特に英語や日本語など、遠隔語順の言語ペアにとって困難である。 この単語の順序ギャップに対処するため、インタプリタはソース言語の単語順序を可能な限り維持し、その品質を維持しながら遅延を最小限に抑える。 つまり、ソース言語と同期した出力は、実際のSI状況に基づいて望ましいものであり、計算SIと同時機械翻訳(SiMT)のさらなる進歩の鍵である。 本研究では,単語順序同期に着目したSIとSiMTの自動評価指標を提案する。 評価基準は,言語間関係の事前学習言語モデルを利用したランク相関係数に基づく。 NAIST-SIC-AlignedおよびJNPCによる実験結果から,ソースとターゲット言語間の単語順序同期を計測するための指標の有効性が示された。

Simultaneous interpretation (SI), the translation of one language to another in real time, starts translation before the original speech has finished. Its evaluation needs to consider both latency and quality. This trade-off is challenging especially for distant word order language pairs such as English and Japanese. To handle this word order gap, interpreters maintain the word order of the source language as much as possible to keep up with original language to minimize its latency while maintaining its quality, whereas in translation reordering happens to keep fluency in the target language. This means outputs synchronized with the source language are desirable based on the real SI situation, and it's a key for further progress in computational SI and simultaneous machine translation (SiMT). In this work, we propose an automatic evaluation metric for SI and SiMT focusing on word order synchronization. Our evaluation metric is based on rank correlation coefficients, leveraging cross-lingual pre-trained language models. Our experimental results on NAIST-SIC-Aligned and JNPC showed our metrics' effectiveness to measure word order synchronization between source and target language.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# 運動ロバストネスに向けて:リモート光胸腺撮影におけるマスク付き注意規則化フレームワーク

Toward Motion Robustness: A masked attention regularization framework in remote photoplethysmography ( http://arxiv.org/abs/2407.06653v1 )

ライセンス: Link先を確認
Pengfei Zhao, Qigong Sun, Xiaolin Tian, Yige Yang, Shuo Tao, Jie Cheng, Jiantong Chen, (参考訳) 近年, 心拍数や心拍変動など, 種々の重要な指標を評価することに焦点を当て, 顔画像を用いた遠隔胸部CT(rPPG)測定への関心が高まっている。 静的データセットに対するこれまでの取り組みにもかかわらず、それらのアプローチは、関心領域(ROI)の非正確なローカライゼーションと動きの問題によって妨げられ、現実のシナリオでは限定的な一般化が示されてきた。 これらの課題に対処するために、ROI局在化と複雑な動きアーティファクトの影響を緩和する新しいマスキングアテンション正規化(MAR-rPPG)フレームワークを提案する。 具体的には、まず、マスク付き注意規則化機構をrPPGフィールドに統合し、顔クリップの視覚的意味的一貫性を捉えるとともに、モデルが不正確なROIに過度に収まらないようマスキング技術を用いて、その性能を劣化させる。 さらに,RPPG信号とアテンションマップを同時に取得するために,拡張rPPG専門家アグリゲーション(EREA)ネットワークをバックボーンとして提案する。 我々のEREAネットワークは、異なる顔領域から異なる注意を識別し、時空間の注意マップの一貫性を維持することができる。 データ前処理のための単純なオープンソース検出器MediaPipeは,rPPG信号抽出とアテンション正規化の優れた性能のために,我々のフレームワークに十分である。 3つのベンチマークデータセット(UBFC-rPPG, PURE, MMPD)に対する被曝実験は,提案手法の優位性を裏付けるものである。

There has been growing interest in facial video-based remote photoplethysmography (rPPG) measurement recently, with a focus on assessing various vital signs such as heart rate and heart rate variability. Despite previous efforts on static datasets, their approaches have been hindered by inaccurate region of interest (ROI) localization and motion issues, and have shown limited generalization in real-world scenarios. To address these challenges, we propose a novel masked attention regularization (MAR-rPPG) framework that mitigates the impact of ROI localization and complex motion artifacts. Specifically, our approach first integrates a masked attention regularization mechanism into the rPPG field to capture the visual semantic consistency of facial clips, while it also employs a masking technique to prevent the model from overfitting on inaccurate ROIs and subsequently degrading its performance. Furthermore, we propose an enhanced rPPG expert aggregation (EREA) network as the backbone to obtain rPPG signals and attention maps simultaneously. Our EREA network is capable of discriminating divergent attentions from different facial areas and retaining the consistency of spatiotemporal attention maps. For motion robustness, a simple open source detector MediaPipe for data preprocessing is sufficient for our framework due to its superior capability of rPPG signal extraction and attention regularization. Exhaustive experiments on three benchmark datasets (UBFC-rPPG, PURE, and MMPD) substantiate the superiority of our proposed method, outperforming recent state-of-the-art works by a considerable margin.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# SoftDedup: 言語モデルの事前学習を高速化する効率的なデータ再重み付け手法

SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training ( http://arxiv.org/abs/2407.06654v1 )

ライセンス: Link先を確認
Nan He, Weichen Xiong, Hanwen Liu, Yi Liao, Lei Ding, Kai Zhang, Guohua Tang, Xiao Han, Wei Yang, (参考訳) 大規模言語モデル(LLM)の有効性は、大規模な事前学習データセットの重複データによって妨げられることが多い。 現在のアプローチは主に重複の検出と削除に重点を置いており、これは貴重な情報の喪失を危険にさらすとともに、重複の度合いを無視する。 そこで本研究では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。 これは、n-gramモデルを用いてサンプルの発生確率を測定することにより、複製の度合いを定量化する指標である。 経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。 さらに、同等の期間のトレーニングを行うと、平均的な数発の下流精度が1.77%向上する。 重要なことに、このアプローチは厳格に重複したデータセットでも継続的にパフォーマンスを改善し、既存のメソッドを補完し、LLMの標準的な事前トレーニングプロセスになる可能性を示している。

The effectiveness of large language models (LLMs) is often hindered by duplicated data in their extensive pre-training datasets. Current approaches primarily focus on detecting and removing duplicates, which risks the loss of valuable information and neglects the varying degrees of duplication. To address this, we propose a soft deduplication method that maintains dataset integrity while selectively reducing the sampling weight of data with high commonness. Central to our approach is the concept of "data commonness", a metric we introduce to quantify the degree of duplication by measuring the occurrence probabilities of samples using an n-gram model. Empirical analysis shows that this method significantly improves training efficiency, achieving comparable perplexity scores with at least a 26% reduction in required training steps. Additionally, it enhances average few-shot downstream accuracy by 1.77% when trained for an equivalent duration. Importantly, this approach consistently improves performance, even on rigorously deduplicated datasets, indicating its potential to complement existing methods and become a standard pre-training process for LLMs.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# ジェネレーティブAI時代の教員代理店--デザイン学習のためのハイブリッドインテリジェンスの枠組みに向けて

Teacher agency in the age of generative AI: towards a framework of hybrid intelligence for learning design ( http://arxiv.org/abs/2407.06655v1 )

ライセンス: Link先を確認
Thomas B Frøsig, Margarida Romero, (参考訳) ジェネレーティブAI(genAI)は、異なる目的のために教育で使用されている。 教員の視点からは、ジェネシスはデザインの学習などの活動を支援することができる。 しかし,教員庁に対するgenAIの影響について検討する必要がある。 GenAIは、アイデア生成と共同創造の特定のプロセスをサポートすることができるが、教師の力不足により、プロのエージェンシーに悪影響を及ぼす可能性がある。 (一)行為、 (二)問題に影響を及ぼし、 三 決定又は選択をし、かつ、その可能性 (四)スタンスを取る。 エージェンシーは、学習科学研究において、AIを信頼する教師の能力の要因の1つとして特定されている。 本稿では,双対視点の導入をめざす。 第一に、他のコンピュータによるコミュニケーション(CMC)ツールとは対照的に、教育技術は2つの異なるユーザーグループと異なるユーザーニーズを持つ。 第二に、教育技術の設計は、しばしば学習者のエージェンシーとエンゲージメントを優先し、教師が技術に影響を与え行動を起こす機会を制限する。 本研究は,GenAIが教員庁に与える影響を分析することを目的としている。 GenAIの現在の限界を特定した上で,ハイブリッドインテリジェンスアプローチによる人工知能と人工知能の組み合わせに基づくソリューションを提案する。 この組み合わせは、教師の活動の拡張を支援するデザインの新たな実践を学習する上で、教師とgenAIのコラボレーションの議論を開放するものである。

Generative AI (genAI) is being used in education for different purposes. From the teachers' perspective, genAI can support activities such as learning design. However, there is a need to study the impact of genAI on the teachers' agency. While GenAI can support certain processes of idea generation and co-creation, GenAI has the potential to negatively affect professional agency due to teachers' limited power to (i) act, (ii) affect matters, and (iii) make decisions or choices, as well as the possibility to (iv) take a stance. Agency is identified in the learning sciences studies as being one of the factors in teachers' ability to trust AI. This paper aims to introduce a dual perspective. First, educational technology, as opposed to other computer-mediated communication (CMC) tools, has two distinctly different user groups and different user needs, in the form of learners and teachers, to cater for. Second, the design of educational technology often prioritises learner agency and engagement, thereby limiting the opportunities for teachers to influence the technology and take action. This study aims to analyse the way GenAI is influencing teachers' agency. After identifying the current limits of GenAI, a solution based on the combination of human intelligence and artificial intelligence through a hybrid intelligence approach is proposed. This combination opens up the discussion of a collaboration between teacher and genAI being able to open up new practices in learning design in which they HI support the extension of the teachers' activity.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# TriQXNet:不確かさを定量化した解釈可能な並列古典量子フレームワークによる太陽風データからのDst指数予測

TriQXNet: Forecasting Dst Index from Solar Wind Data Using an Interpretable Parallel Classical-Quantum Framework with Uncertainty Quantification ( http://arxiv.org/abs/2407.06658v1 )

ライセンス: Link先を確認
Md Abrar Jahin, M. F. Mridha, Zeyar Aung, Nilanjan Dey, R. Simon Sherratt, (参考訳) 太陽風による地球の磁場へのエネルギー移動による地磁気嵐は、GPS、衛星通信、電力網といった重要なインフラを破壊する可能性がある。 暴風雨時(Dst)指数は、嵐の強度を測定する。 実時間太陽風データを用いた経験的、物理学に基づく、および機械学習モデルの進歩にもかかわらず、極端に地磁気事象を正確に予測することは、ノイズやセンサーの故障のために難しいままである。 本研究は、Dst予測のためのハイブリッド古典量子ニューラルネットワークであるTriQXNetを紹介する。 我々のモデルは、古典的および量子コンピューティング、共形予測、およびハイブリッドアーキテクチャ内に説明可能なAI(XAI)を統合する。 高品質な入力データを確保するために,特徴選択,正規化,集約,計算を含む包括的前処理パイプラインを開発した。 TriQXNetはNASAのACEとNOAAのDSCOVR衛星からの事前処理された太陽風データを処理し、現在の時間と次の時間におけるDst指数を予測する。 TriQXNetは13の最先端ハイブリッドディープラーニングモデルより優れており、根平均2乗誤差は9.27ナノテラス(nT)である。 10倍のクロスバリッドペアTテストによる厳密な評価により,95%の信頼性で優れた性能が確認された。 コンフォーマル予測技術は、運用上の決定に不可欠である定量的不確実性を提供する一方、ShapTimeのようなXAIメソッドは解釈可能性を高める。 比較分析では、TriQXNetの予測精度が優れていること、地磁気嵐予測に対する新たな期待レベルを設定し、宇宙天気予報における古典的量子ハイブリッドモデルの可能性を強調している。

Geomagnetic storms, caused by solar wind energy transfer to Earth's magnetic field, can disrupt critical infrastructure like GPS, satellite communications, and power grids. The disturbance storm-time (Dst) index measures storm intensity. Despite advancements in empirical, physics-based, and machine-learning models using real-time solar wind data, accurately forecasting extreme geomagnetic events remains challenging due to noise and sensor failures. This research introduces TriQXNet, a novel hybrid classical-quantum neural network for Dst forecasting. Our model integrates classical and quantum computing, conformal prediction, and explainable AI (XAI) within a hybrid architecture. To ensure high-quality input data, we developed a comprehensive preprocessing pipeline that included feature selection, normalization, aggregation, and imputation. TriQXNet processes preprocessed solar wind data from NASA's ACE and NOAA's DSCOVR satellites, predicting the Dst index for the current hour and the next, providing vital advance notice to mitigate geomagnetic storm impacts. TriQXNet outperforms 13 state-of-the-art hybrid deep-learning models, achieving a root mean squared error of 9.27 nanoteslas (nT). Rigorous evaluation through 10-fold cross-validated paired t-tests confirmed its superior performance with 95% confidence. Conformal prediction techniques provide quantifiable uncertainty, which is essential for operational decisions, while XAI methods like ShapTime enhance interpretability. Comparative analysis shows TriQXNet's superior forecasting accuracy, setting a new level of expectations for geomagnetic storm prediction and highlighting the potential of classical-quantum hybrid models in space weather forecasting.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# AIを活用した学習活動の協調設計

Collaborative Design of AI-Enhanced Learning Activities ( http://arxiv.org/abs/2407.06660v1 )

ライセンス: Link先を確認
Margarida Romero, (参考訳) 人工知能は、市民の生活の様々な面でイノベーションを加速させてきた。 既に多くのコンテキストが技術強化学習に対処しているが、異なる教育レベルの教育者は、AIリテラシーと適切なAI使用法を教育に組み込む能力を開発する必要がある。 我々は、この目標と創造的な学習設計を考慮し、プレサービス教師、インサービス教師、EdTechスペシャリストがAIを教育実践に効果的に組み込むことができるような形式的な介入を作成する。 私たちは、AIの理解を高め、学習設計における創造的応用を促進するために、Terra NumericaとMaison de l'Intelligence Artificielleの2つのフェーズで形式的介入を開発しました。 参加者は、AIリテラシーを教育に組み込むさまざまなアクティビティを探求することで、AIの教育と学習のポテンシャルを反映している。 このアプローチは、プロフェッショナルをAIに教育するだけでなく、学習者のエンゲージメントとパーソナライズされた学習経験を促進するAI強化された教育活動を共同で設計する権限も重視する。 このプロセスを通じて、ワークショップの参加者は、AIを効果的に活用するために必要なスキルとマインドセットを開発し、教育におけるその影響を批判的に認識する。

Artificial intelligence has accelerated innovations in different aspects of citizens' lives. Many contexts have already addressed technology-enhanced learning, but educators at different educational levels now need to develop AI literacy and the ability to integrate appropriate AI usage into their teaching. We take into account this objective, along with the creative learning design, to create a formative intervention that enables preservice teachers, in-service teachers, and EdTech specialists to effectively incorporate AI into their teaching practices. We developed the formative intervention with Terra Numerica and Maison de l'Intelligence Artificielle in two phases in order to enhance their understanding of AI and foster its creative application in learning design. Participants reflect on AI's potential in teaching and learning by exploring different activities that can integrate AI literacy in education, including its ethical considerations and potential for innovative pedagogy. The approach emphasises not only acculturating professionals to AI but also empowering them to collaboratively design AI-enhanced educational activities that promote learner engagement and personalised learning experiences. Through this process, participants in the workshops develop the skills and mindset necessary to effectively leverage AI while maintaining a critical awareness of its implications in education.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# QAOA上の多段階量子ウォークの利点

Advantages of multistage quantum walks over QAOA ( http://arxiv.org/abs/2407.06663v1 )

ライセンス: Link先を確認
Lasse Gerblich, Tamanna Dasanjh, Horatio Wong, David Ross, Leonardo Novo, Nicholas Chancellor, Viv Kendon, (参考訳) イジング・ハミルトニアンに符号化された最適化問題の解状態を見つける方法は、現在の研究の非常に活発な領域である。 本研究では、量子近似最適化アルゴリズム(QAOA)とマルチステージ量子ウォーク(MSQW)を比較する。 どちらも変分量子アルゴリズムとして使用することができ、制御パラメータは古典的に最適化される。 公正な比較では、量子的資源と古典的資源の両方を評価する必要がある。 あるいは、この作業で行ったようにパラメータをヒューリスティックに選択して、比較の簡単な設定を提供することもできます。 数値的手法と解析的手法の両方を用いて,MSQWが等価資源を用いてQAOAより優れていることを示す。 また,MSQWが古典的最適化を伴わずに,少数の段階やヒューリスティックパラメータに対しても良好に動作するようなランダムなスピングラス基底状態問題についても数値的に示す。

Methods to find the solution state for optimization problems encoded into Ising Hamiltonians are a very active area of current research. In this work we compare the quantum approximate optimization algorithm (QAOA) with multi-stage quantum walks (MSQW). Both can be used as variational quantum algorithms, where the control parameters are optimized classically. A fair comparison requires both quantum and classical resources to be assessed. Alternatively, parameters can be chosen heuristically, as we do in this work, providing a simpler setting for comparisons. Using both numerical and analytical methods, we obtain evidence that MSQW outperforms QAOA, using equivalent resources. We also show numerically for random spin glass ground state problems that MSQW performs well even for few stages and heuristic parameters, with no classical optimization.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# CTRL-F:マルチレベル特徴のクロスアテンションと表現学習融合による画像分類のための変換器によるペアリング畳み込み

CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion ( http://arxiv.org/abs/2407.06673v1 )

ライセンス: Link先を確認
Hosam S. EL-Assiouti, Hadeer El-Saadawy, Maryam N. Al-Berry, Mohamed F. Tolba, (参考訳) トランスフォーマーは、大きな容量とグローバルな処理能力のおかげで、コンピュータビジョンにおける注目度が高まっている。 しかし、トランスフォーマーはデータ空腹であり、その一般化能力は畳み込みニューラルネットワーク(ConvNets)と比較して制限されている。 本稿では,画像分類タスクにおいて,畳み込みと変圧器の長所を最適に組み合わせることを試みる。 そこで本研究では,Representation Learning FusionとCTRL-Fというマルチレベル特徴クロスアテンションを用いた,コンボリューションとトランスフォーマーを組み合わせた軽量ハイブリッドネットワークを提案する。 我々のネットワークは、畳み込み分岐と、MFCA(Multi-level feature cross-attention)と呼ばれる新しいトランスフォーマーモジュールから構成される。 MFCAモジュールは、異なる畳み込み段階で得られたマルチレベル特徴表現で動作する。 複数レベルの特徴表現から抽出された小さなパッチトークンと大きなパッチトークンを2つのトランスフォーマーブランチを通じて処理し、両方のブランチがクロスアテンション機構を通じて知識を交換する。 畳み込み経路から得られた局所応答とMFCAモジュールから得られたグローバル応答を,適応的知識融合(AKF)と協調的知識融合(CKF)と呼ばれる新しい表現融合技術を用いて融合する。 実験により,我々のCTRL-F変種は,大規模データや低データ体制でスクラッチからトレーニングした場合でも,最先端のパフォーマンスを実現することが示された。 インスタンスの場合、CTRL-FはOxford-102 Flowers と PlantVillage のデータセットをスクラッチからトレーニングすると、82.24% と 99.91% というトップ1の精度を達成する。 コード:https://github.com/hosamsherif/CTRL-F

Transformers have captured growing attention in computer vision, thanks to its large capacity and global processing capabilities. However, transformers are data hungry, and their ability to generalize is constrained compared to Convolutional Neural Networks (ConvNets), especially when trained with limited data due to the absence of the built-in spatial inductive biases present in ConvNets. In this paper, we strive to optimally combine the strengths of both convolution and transformers for image classification tasks. Towards this end, we present a novel lightweight hybrid network that pairs Convolution with Transformers via Representation Learning Fusion and Multi-Level Feature Cross-Attention named CTRL-F. Our network comprises a convolution branch and a novel transformer module named multi-level feature cross-attention (MFCA). The MFCA module operates on multi-level feature representations obtained at different convolution stages. It processes small patch tokens and large patch tokens extracted from these multi-level feature representations via two separate transformer branches, where both branches communicate and exchange knowledge through cross-attention mechanism. We fuse the local responses acquired from the convolution path with the global responses acquired from the MFCA module using novel representation fusion techniques dubbed adaptive knowledge fusion (AKF) and collaborative knowledge fusion (CKF). Experiments demonstrate that our CTRL-F variants achieve state-of-the-art performance, whether trained from scratch on large data or even with low-data regime. For Instance, CTRL-F achieves top-1 accuracy of 82.24% and 99.91% when trained from scratch on Oxford-102 Flowers and PlantVillage datasets respectively, surpassing state-of-the-art models which showcase the robustness of our model on image classification tasks. Code at: https://github.com/hosamsherif/CTRL-F
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# 指数重みアルゴリズムによるゲーム

Games played by Exponential Weights Algorithms ( http://arxiv.org/abs/2407.06676v1 )

ライセンス: Link先を確認
Maurizio d'Andrea, Fabien Gensbittel, Jérôme Renault, (参考訳) 本稿では,指数重み付けアルゴリズムの学習速度を一定に抑えた最終項目収束特性について検討する。 そこで各プレイヤーは,初期混合作用と固定学習率を特徴とする指数重み付けアルゴリズムを用いて,ステージ$t$での混合動作プロファイル$p^t$が同質マルコフ連鎖に従うように,離散時間で繰り返し相互作用を考慮する。 まず、厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。 第二に、$p^t$ の極限が存在すればいつでも ``Nash Equilibria with Equalizing Payoffs''' の集合に属することを示す。 第三に、強調整ゲームにおいて、プレイヤーのペイオフが対角線上で正であり、他の場所で0である場合、$p^t$はほぼ確実に厳しいナッシュ均衡の1つに収束することを示す。 オープンな質問で締めくくります。

This paper studies the last-iterate convergence properties of the exponential weights algorithm with constant learning rates. We consider a repeated interaction in discrete time, where each player uses an exponential weights algorithm characterized by an initial mixed action and a fixed learning rate, so that the mixed action profile $p^t$ played at stage $t$ follows an homogeneous Markov chain. At first, we show that whenever a strict Nash equilibrium exists, the probability to play a strict Nash equilibrium at the next stage converges almost surely to 0 or 1. Secondly, we show that the limit of $p^t$, whenever it exists, belongs to the set of ``Nash Equilibria with Equalizing Payoffs''. Thirdly, we show that in strong coordination games, where the payoff of a player is positive on the diagonal and 0 elsewhere, $p^t$ converges almost surely to one of the strict Nash equilibria. We conclude with open questions.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# モジュールの混合:モジュールの動的アセンブリとしてのトランスフォーマーの再発明

Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules ( http://arxiv.org/abs/2407.06677v1 )

ライセンス: Link先を確認
Zhuocheng Gong, Ang Lv, Jian Guan, Junxi Yan, Wei Wu, Huishuai Zhang, Minlie Huang, Dongyan Zhao, Rui Yan, (参考訳) Transformerの浅い層から深い層へのトークンの計算は常に必要か? バニラ変圧器とその変種の成功は、未確認の「はい」を示唆している。 しかし,本稿では,モジュールの混合(Mix-of-modules, MM)と呼ばれる新しいアーキテクチャを提案し,どの層でもその位置に関係なく,必要な処理能力を持っていさえいればトークンを計算できるという直感に動機づけられた,奥行きの規則を破ろうとする。 MoMの構成は、マルチヘッドアテンションとフィードフォワードネットワークによって定義された有限の加群から始まり、それぞれが固有のパラメータ化によって区別される。 2つのルータは、トークンを処理するために、セットから注意モジュールとフィードフォワードモジュールを反復的に選択する。 選択は、トークンの前方通過における計算グラフを動的に拡張し、モジュールの集合で終了する。 我々は、MoMがトランスフォーマーとその多数の変種のための統一されたフレームワークを提供するだけでなく、トランスフォーマーパラメータ化における冗長性を低減するための柔軟で学習可能なアプローチも提供することを示した。 OpenWebTextを使って様々なMOMを事前訓練します。 実験により,パラメータ数が異なるMoMがGLUEとXSUMのベンチマークで常にバニラ変圧器より優れていることが示された。 より興味深いことに、固定パラメータ予算により、MoM-largeはGPT-2-largeと比較して計算グラフの深さが38%以上増加し、GLUEでは1.4、XSUMでは1が絶対的に向上する。 一方、MoM-largeは、層ごとのモジュール数の増加を伴いながら、深さの60%以上を減らし、TFLOPの16%を減らし、GPT-2-largeに比べてメモリ使用量の43%を減らし、同等の性能を維持している。

Is it always necessary to compute tokens from shallow to deep layers in Transformers? The continued success of vanilla Transformers and their variants suggests an undoubted "yes". In this work, however, we attempt to break the depth-ordered convention by proposing a novel architecture dubbed mixture-of-modules (MoM), which is motivated by an intuition that any layer, regardless of its position, can be used to compute a token as long as it possesses the needed processing capabilities. The construction of MoM starts from a finite set of modules defined by multi-head attention and feed-forward networks, each distinguished by its unique parameterization. Two routers then iteratively select attention modules and feed-forward modules from the set to process a token. The selection dynamically expands the computation graph in the forward pass of the token, culminating in an assembly of modules. We show that MoM provides not only a unified framework for Transformers and their numerous variants but also a flexible and learnable approach for reducing redundancy in Transformer parameterization. We pre-train various MoMs using OpenWebText. Empirical results demonstrate that MoMs, of different parameter counts, consistently outperform vanilla transformers on both GLUE and XSUM benchmarks. More interestingly, with a fixed parameter budget, MoM-large enables an over 38% increase in depth for computation graphs compared to GPT-2-large, resulting in absolute gains of 1.4 on GLUE and 1 on XSUM. On the other hand, MoM-large also enables an over 60% reduction in depth while involving more modules per layer, yielding a 16% reduction in TFLOPs and a 43% decrease in memory usage compared to GPT-2-large, while maintaining comparable performance.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# 製造センサデータセットにおける統計的特徴埋め込みを用いた変圧器の予測モデル

A Predictive Model Based on Transformer with Statistical Feature Embedding in Manufacturing Sensor Dataset ( http://arxiv.org/abs/2407.06682v1 )

ライセンス: Link先を確認
Gyeong Taek Lee, Oh-Ran Kwon, (参考訳) 製造プロセスにおいて,機器から収集したセンサデータは,プロセス管理と生産性向上のための予測モデルの構築に不可欠である。 しかし、この分野では、堅牢なモデルを構築するのに十分なデータを集めることは困難である。 本研究では,統計的特徴埋め込みとウィンドウ位置符号化を利用したトランスフォーマーに基づく新しい予測モデルを提案する。 統計的特徴は、センサデータの効果的な表現を提供し、埋め込みにより、Transformerは、時間とセンサー関連の情報の両方を学ぶことができる。 ウィンドウ位置エンコーディングは、機能の埋め込みから正確な時間の詳細をキャプチャする。 モデルの性能は, 断層検出と仮想気象学の2つの問題で評価され, ベースラインモデルよりも優れた結果を示した。 この改善は、しばしばサンプルサイズが限られているセンサデータに特に有益である、パラメータの効率的な使用に起因する。 結果は、様々な製造業におけるモデルの適用性を支持し、プロセス管理と収量を高める可能性を示している。

In the manufacturing process, sensor data collected from equipment is crucial for building predictive models to manage processes and improve productivity. However, in the field, it is challenging to gather sufficient data to build robust models. This study proposes a novel predictive model based on the Transformer, utilizing statistical feature embedding and window positional encoding. Statistical features provide an effective representation of sensor data, and the embedding enables the Transformer to learn both time- and sensor-related information. Window positional encoding captures precise time details from the feature embedding. The model's performance is evaluated in two problems: fault detection and virtual metrology, showing superior results compared to baseline models. This improvement is attributed to the efficient use of parameters, which is particularly beneficial for sensor data that often has limited sample sizes. The results support the model's applicability across various manufacturing industries, demonstrating its potential for enhancing process management and yield.
翻訳日:2024-07-10 18:46:17 公開日:2024-07-09
# 直接BEV機能注意によるオンラインマッピングと行動予測の高速化

Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention ( http://arxiv.org/abs/2407.06683v1 )

ライセンス: Link先を確認
Xunjiang Gu, Guanyu Song, Igor Gilitschenski, Marco Pavone, Boris Ivanovic, (参考訳) 道路形状を理解することは、自動運転車(AV)スタックの重要な構成要素である。 ハイデフィニション(HD)マップはそのような情報を容易に提供できるが、高いラベリングとメンテナンスコストに悩まされる。 近年,センサデータからHDマップをオンラインに推定する手法が提案されている。 近年のアプローチの大半は、マルチカメラ観測を中間表現(例えば、鳥眼ビュー(BEV)グリッド)にエンコードし、デコーダを介してベクトルマップ要素を生成する。 このアーキテクチャはパフォーマンスが高いが、中間表現に符号化された情報の多くを解読し、下流のタスク(例えば振る舞い予測)がそれらを活用するのを防ぐ。 本研究では,オンライン地図推定手法の豊富な内部的特徴を明らかにするとともに,オンライン地図と軌跡予測とのより緊密な統合を実現する方法を示す。 そうすることで、内部のBEV機能に直接アクセスすることで、実際のnuScenesデータセット上で最大で73%高速な推論速度と最大29%の正確な予測が可能になることが分かりました。

Understanding road geometry is a critical component of the autonomous vehicle (AV) stack. While high-definition (HD) maps can readily provide such information, they suffer from high labeling and maintenance costs. Accordingly, many recent works have proposed methods for estimating HD maps online from sensor data. The vast majority of recent approaches encode multi-camera observations into an intermediate representation, e.g., a bird's eye view (BEV) grid, and produce vector map elements via a decoder. While this architecture is performant, it decimates much of the information encoded in the intermediate representation, preventing downstream tasks (e.g., behavior prediction) from leveraging them. In this work, we propose exposing the rich internal features of online map estimation methods and show how they enable more tightly integrating online mapping with trajectory forecasting. In doing so, we find that directly accessing internal BEV features yields up to 73% faster inference speeds and up to 29% more accurate predictions on the real-world nuScenes dataset.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 極性双対と準状態:量子不確定性の幾何学的画像

Polar Duality and Quasi-States: a Geometric Picture of Quantum Indeterminacy ( http://arxiv.org/abs/2407.06684v1 )

ライセンス: Link先を確認
Maurice de Gosson, (参考訳) 本研究の目的は,凸幾何学からの極性双対性の概念を用いた量子不確定性の新しい解釈を提案することである。 量子不確実性を記述するためにUffink と Hilgevoord が用いている通常の分散や共分散は関係しない。 代わりに、「準状態」(quasi-states)という幾何学的概念を導入し、これは我々が以前の研究で導入した「量子ブロブ」(quantum blob)の概念に説明される。 準状態の対称性を考えると、準状態の正準群が定義され、それらが分類される。

The aim of this paper is to suggest a new interpretation of quantum indeterminacy using the notion of polar duality from convex geometry. Our approach does not involve the usual variances and covariances, whose use to describe quantum uncertainties has been questioned by Uffink and Hilgevoord. We introduce instead the geometric notion of "quasi-states" which are related in a way that will be explained to the notion of "quantum blob" we have introduced in previous work. Considering the symmetries of the quasi-states leads to the definition of the canonical group of a quasi-state, which allows to classify them.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 3次元CNNにおける重み付き空間注意を用いたMRIボリュームベースロバスト脳年齢推定

MRI Volume-Based Robust Brain Age Estimation Using Weight-Shared Spatial Attention in 3D CNNs ( http://arxiv.org/abs/2407.06686v1 )

ライセンス: Link先を確認
Vamshi Krishna Kancharla, Neelam Sinha, (参考訳) 機械学習の進歩の重要な応用は、医療分野にある。 神経学的状態を理解するための重要なステップは、時間的年齢からの逸脱を測定するために、構造的MRIボリュームを用いて脳年齢を推定することである。 脳年齢に寄与する要因は、深層学習のようなデータ駆動型アプローチで最もよく捉えられる。 しかし、多様なデータセットの可用性に大きな需要がある。 本研究では,3次元CNNモデルを用いた頑健な脳年齢推定パラダイムを提案する。 提案モデルでは,CNNの各層に共有空間アテンション層が組み込まれ,さらに5層に高密度層が組み込まれている。 提案手法の斬新さは,CNN層間の共有重みを持つ空間的注意モジュールの概念にある。 この重み共有は、データ内の年齢に関連する特徴をローカライズし、堅牢性を高めるために、特定の脳領域に注意を向けることを保証する。 提案モデルは, 健常者516T1重み付きMRI量からなるADNIデータセットを用いてトレーニングされ, 平均絶対誤差(MAE)が1.662年となり, 同一リポジトリからの解離試験サンプルに基づいて, 最新技術(SOTA)モデルよりも1.688年改善された。 一般化可能性を説明するため、OASIS3と呼ばれる公開ソースのボリュームで同じパイプラインが使用された。 OASIS3より、MRI第890巻の健康な被験者が利用され、2.265年のMAEが得られた。 複数のサイト、人種、遺伝的要因にわたる買収の多様性のため、伝統的なCNNモデルは年齢推定に不可欠な脳領域を優先することが保証されていない。 対照的に、提案する重み付き空間的注意モジュールは、推定に必要な特定の領域に注意を向ける。

Important applications of advancements in machine learning, are in the area of healthcare, more so for neurological disorder detection. A crucial step towards understanding the neurological status, is to estimate the brain age using structural MRI volumes, in order to measure its deviation from chronological age. Factors that contribute to brain age are best captured using a data-driven approach, such as deep learning. However, it places a huge demand on the availability of diverse datasets. In this work, we propose a robust brain age estimation paradigm that utilizes a 3D CNN model, by-passing the need for model-retraining across datasets. The proposed model consists of seven 3D CNN layers, with a shared spatial attention layer incorporated at each CNN layer followed by five dense layers. The novelty of the proposed method lies in the idea of spatial attention module, with shared weights across the CNN layers. This weight sharing ensures directed attention to specific brain regions, for localizing age-related features within the data, lending robustness. The proposed model, trained on ADNI dataset comprising 516 T1 weighted MRI volumes of healthy subjects, resulted in Mean Absolute Error (MAE) of 1.662 years, which is an improvement of 1.688 years over the state-of-the-art (SOTA) model, based on disjoint test samples from the same repository. To illustrate generalizability, the same pipeline was utilized on volumes from a publicly available source called OASIS3. From OASIS3, MRI volumes 890 healthy subjects were utilized resulting in MAE of 2.265 years. Due to diversity in acquisitions across multiple sites, races and genetic factors, traditional CNN models are not guaranteed to prioritize brain regions crucial for age estimation. In contrast, the proposed weight-shared spatial attention module, directs attention on specific regions, required for the estimation.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 遷移経路工学による条件付き運転の実現

Realization of Conditional Operations through Transition Pathway Engineering ( http://arxiv.org/abs/2407.06687v1 )

ライセンス: Link先を確認
Sheng Zhang, Peng Duan, Yun-Jie Wang, Tian-Le Wang, Peng Wang, Ren-Ze Zhao, Xiao-Yan Yang, Ze-An Zhao, Liang-Liang Guo, Yong Chen, Hai-Feng Zhang, Lei Du, Hao-Ran Tao, Zhi-Fei Li, Yuan Wu, Zhi-Long Jia, Wei-Cheng Kong, Zhao-Yun Chen, Yu-Chun Wu, Guo-Ping Guo, (参考訳) NISQ時代、大規模な量子コンピューティングを実現するためには、デコヒーレンスとゲートエラーの蓄積を緩和するためにコンパクトな回路が必要である。 様々な自由度を持つ量子演算は回路圧縮を約束するが、従来の手法は複数のパラメータを同時に調整する際の課題に直面する。 本稿では,状態選択型遷移経路工学に基づく遷移複合ゲート(TCG)方式を提案する。 制御ユニタリゲート(CU)を独立パラメータと連続パラメータで実験的に検証する。 $\rm X^{12}$ gate のパラメータを調整することで、量子プロセストモグラフィ(QPT)を利用した95.2%から99.0%の範囲のCUファミリーが得られる。 回路圧縮の能力を実証するために、TGスキームを用いて3量子グリーンバーガー・ホーネ・ザイリンガー(GHZ)およびW状態を作成し、その忠実度は96.77%と95.72%である。 TCGはCZゲートのみを使用する場合に比べて回路深さが約40%から44%減少する。 さらに,ショートパスTCG(SPTCG)により,状態調整回路の時間コストをさらに削減できることを示す。 TCGスキームは特定の量子回路の利点を示し、大規模量子アルゴリズムに大きな可能性を示す。

In the NISQ era, achieving large-scale quantum computing demands compact circuits to mitigate decoherence and gate error accumulation. Quantum operations with diverse degrees of freedom hold promise for circuit compression, but conventional approaches encounter challenges in simultaneously adjusting multiple parameters. Here, we propose a transition composite gate (TCG) scheme grounded on state-selective transition path engineering, enabling more expressive conditional operations. We experimentally validate a controlled unitary (CU) gate as an example, with independent and continuous parameters. By adjusting the parameters of $\rm X^{12}$ gate, we obtain the CU family with a fidelity range of 95.2% to 99.0% leveraging quantum process tomography (QPT). To demonstrate the capability of circuit compression, we use TCG scheme to prepare 3-qubit Greenberger-Horne-Zeilinger (GHZ) and W states, with the fidelity of 96.77% and 95.72%. TCG can achieve the reduction in circuit depth of about 40% and 44% compared with the use of CZ gates only. Moreover, we show that short-path TCG (SPTCG) can further reduce the state-preparation circuit time cost. The TCG scheme exhibits advantages in certain quantum circuits and shows significant potential for large-scale quantum algorithms.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# レイアウト最適化によるオブジェクト検出器に対するユニバーサルマルチビューブラックボックス攻撃

Universal Multi-view Black-box Attack against Object Detectors via Layout Optimization ( http://arxiv.org/abs/2407.06688v1 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Chao Li, Xiaoqian Chen, (参考訳) 物体検出器は、物体検出器を欺く小さな摂動によって作られた敵の例に対する脆弱性を実証している。 既存の敵攻撃は、主にホワイトボックス攻撃に焦点をあて、特定の視点でのみ有効であるが、普遍的なマルチビューブラックボックス攻撃は調査されていないため、実際には一般化が制限されている。 本稿では,設計したレイアウト最適化アルゴリズムを用いて,複数画像ステッカーによって構築された汎用対向UVテクスチャを最適化する,オブジェクト検出器に対する汎用マルチビューブラックボックス攻撃を提案する。 具体的には、UVテクスチャ上の画像ステッカーの配置を円ベースのレイアウト最適化問題として扱い、その目的は、画像ステッカーで満たされた最適な円配置を見つけることである。 画像ステッカーの適切な配置を保証するため、2つの制約を精巧に考案する。 レイアウトを最適化するために、設計した重要認識選択戦略によって強化されたランダム検索アルゴリズムを採用し、画像ステッカープールから各円に対して最適な画像ステッカーを求める。 4つの共通物体検出器で実施された大規模な実験により、マルチビューのシナリオでは、検出性能が平均74.29%低下することが示唆された。 さらに、テクスチャベースの攻撃を公平に評価するために、フォトリアリスティックシミュレータに基づく新しい評価ツールが設計されている。

Object detectors have demonstrated vulnerability to adversarial examples crafted by small perturbations that can deceive the object detector. Existing adversarial attacks mainly focus on white-box attacks and are merely valid at a specific viewpoint, while the universal multi-view black-box attack is less explored, limiting their generalization in practice. In this paper, we propose a novel universal multi-view black-box attack against object detectors, which optimizes a universal adversarial UV texture constructed by multiple image stickers for a 3D object via the designed layout optimization algorithm. Specifically, we treat the placement of image stickers on the UV texture as a circle-based layout optimization problem, whose objective is to find the optimal circle layout filled with image stickers so that it can deceive the object detector under the multi-view scenario. To ensure reasonable placement of image stickers, two constraints are elaborately devised. To optimize the layout, we adopt the random search algorithm enhanced by the devised important-aware selection strategy to find the most appropriate image sticker for each circle from the image sticker pools. Extensive experiments conducted on four common object detectors suggested that the detection performance decreases by a large magnitude of 74.29% on average in multi-view scenarios. Additionally, a novel evaluation tool based on the photo-realistic simulator is designed to assess the texture-based attack fairly.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 階層的平均逆線形可解マルコフ決定過程

Hierarchical Average-Reward Linearly-solvable Markov Decision Processes ( http://arxiv.org/abs/2407.06690v1 )

ライセンス: Link先を確認
Guillermo Infante, Anders Jonsson, Vicenç Gómez, (参考訳) 本稿では,無限水平平均回帰設定における線形解法マルコフ決定過程(LMDP)の階層的強化学習手法を提案する。 従来の作業とは異なり、我々の手法は低レベルタスクと高レベルタスクを同時に学習することができ、低レベルタスクの制限を課さない。 提案手法は,解くのが容易な小さなサブタスクを生成する状態空間のパーティションと,そのようなパーティション間の等価性がより効率的に学習できる状態空間のパーティションに依存している。 次に、低レベルのタスクの構成性を利用して、高レベルのタスクの値関数を正確に表現する。 実験により,本手法は1桁ないし数桁の平坦な平均逆強化学習より優れることが示された。

We introduce a novel approach to hierarchical reinforcement learning for Linearly-solvable Markov Decision Processes (LMDPs) in the infinite-horizon average-reward setting. Unlike previous work, our approach allows learning low-level and high-level tasks simultaneously, without imposing limiting restrictions on the low-level tasks. Our method relies on partitions of the state space that create smaller subtasks that are easier to solve, and the equivalence between such partitions to learn more efficiently. We then exploit the compositionality of low-level tasks to exactly represent the value function of the high-level task. Experiments show that our approach can outperform flat average-reward reinforcement learning by one or several orders of magnitude.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# Deep-Motion-Net:シングルビュー2次元投影によるGNNを用いた体積臓器形状再構成

Deep-Motion-Net: GNN-based volumetric organ shape reconstruction from single-view 2D projections ( http://arxiv.org/abs/2407.06692v1 )

ライセンス: Link先を確認
Isuru Wijesinghe, Michael Nix, Arezoo Zakeri, Alireza Hokmabadi, Bashar Al-Qaisieh, Ali Gooya, Zeike A. Taylor, (参考訳) In-treatment kV Planar X-ray image from a single in-treatment kV Planar X-ray image acquired at any arbitrary projection angle。 放射線治療中の真の解剖学的運動を推定・補正することは、臓器のリスクを分散させながら、目標体積への予定放射線線量の増加と治療率の向上に不可欠である。 放射線中、または代理信号や侵襲的画像マーカーを使わずに、限られた画像のみを用いてこれを達成することは、魅力的である。 提案モデルは、患者固有のテンプレートと、任意の投影角度でkV画像から抽出した深い特徴からメッシュ回帰を学習する。 2D-CNNエンコーダは画像の特徴を抽出し、4つの機能プーリングネットワークはこれらの特徴を3Dテンプレートオルガンメッシュに融合させる。 ResNetベースのグラフアテンションネットワークが特徴符号化メッシュを変形する。 このモデルは合成された臓器運動インスタンスと対応するkV画像を用いて訓練される。 後者は、テンプレートメッシュに整列した基準CTボリュームを変形させ、必要な投影角度でデジタル再構成されたラジオグラフ(DRR)を作成し、条件付きCycleGANモデルでDRR-to-kVスタイルの転送を行う。 総合的な枠組みは, 合成呼吸運動のシナリオを定量的に検討し, 肝癌患者に対するフルスキャンで得られた内処理画像について定性的に検討した。 総合的な予測誤差は0.16$\pm$0.13 mm, 0.18$\pm$0.19 mm, 0.22$\pm$0.34 mm, 0.12$\pm$0.11 mmであった。 平均ピーク予測誤差は 1.39 mm, 1.99 mm, 3.29 mm, 1.16 mm であった。

We propose Deep-Motion-Net: an end-to-end graph neural network (GNN) architecture that enables 3D (volumetric) organ shape reconstruction from a single in-treatment kV planar X-ray image acquired at any arbitrary projection angle. Estimating and compensating for true anatomical motion during radiotherapy is essential for improving the delivery of planned radiation dose to target volumes while sparing organs-at-risk, and thereby improving the therapeutic ratio. Achieving this using only limited imaging available during irradiation and without the use of surrogate signals or invasive fiducial markers is attractive. The proposed model learns the mesh regression from a patient-specific template and deep features extracted from kV images at arbitrary projection angles. A 2D-CNN encoder extracts image features, and four feature pooling networks fuse these features to the 3D template organ mesh. A ResNet-based graph attention network then deforms the feature-encoded mesh. The model is trained using synthetically generated organ motion instances and corresponding kV images. The latter is generated by deforming a reference CT volume aligned with the template mesh, creating digitally reconstructed radiographs (DRRs) at required projection angles, and DRR-to-kV style transferring with a conditional CycleGAN model. The overall framework was tested quantitatively on synthetic respiratory motion scenarios and qualitatively on in-treatment images acquired over full scan series for liver cancer patients. Overall mean prediction errors for synthetic motion test datasets were 0.16$\pm$0.13 mm, 0.18$\pm$0.19 mm, 0.22$\pm$0.34 mm, and 0.12$\pm$0.11 mm. Mean peak prediction errors were 1.39 mm, 1.99 mm, 3.29 mm, and 1.16 mm.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# ニューラルネットワーク回帰のための認定連続学習

Certified Continual Learning for Neural Network Regression ( http://arxiv.org/abs/2407.06697v1 )

ライセンス: Link先を確認
Long H. Pham, Jun Sun, (参考訳) 一方、近年、ニューラルネットワークの検証が大幅に進歩しており、ニューラルネットワークの認証が可能になっている。 一方で、ニューラルネットワークは、新しいデータ分散に対処したり、異なるタスク(すなわち継続的学習)を解決するために、時間をかけて再訓練されることが多い。 一度トレーニングを再開すると、ニューラルネットワークの正しさが失われる可能性が高く、特に破滅的忘れという現象が存在する。 本研究では,検証ネットワークの確立した正当性を可能な限り保ちながら,既存の連続学習手法を改良する,認証連続学習という手法を提案する。 提案手法は,複数のニューラルネットワークと2つの連続学習手法を用いて評価する。 その結果,本手法は効率が良く,訓練されたモデルでは正当性を保ち,高い実用性を維持していることがわかった。

On the one hand, there has been considerable progress on neural network verification in recent years, which makes certifying neural networks a possibility. On the other hand, neural networks in practice are often re-trained over time to cope with new data distribution or for solving different tasks (a.k.a. continual learning). Once re-trained, the verified correctness of the neural network is likely broken, particularly in the presence of the phenomenon known as catastrophic forgetting. In this work, we propose an approach called certified continual learning which improves existing continual learning methods by preserving, as long as possible, the established correctness properties of a verified network. Our approach is evaluated with multiple neural networks and on two different continual learning methods. The results show that our approach is efficient and the trained models preserve their certified correctness and often maintain high utility.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# PSPU: Pseudo Supervisionの活用による肯定的・非ラベル学習の強化

PSPU: Enhanced Positive and Unlabeled Learning by Leveraging Pseudo Supervision ( http://arxiv.org/abs/2407.06698v1 )

ライセンス: Link先を確認
Chengjie Wang, Chengming Xu, Zhenye Gan, Jianlong Hu, Wenbing Zhu, Lizhuag Ma, (参考訳) 正・無ラベル(PU)学習は、正・無ラベルのデータのみを訓練した二項分類モデルであり、一般に、一貫性のないデータ分布による過度なリスク推定に悩まされる。 そこで我々は,疑似教師付きPU学習フレームワーク(PSPU)を導入し,まずPUモデルを訓練し,疑似監督のための自信あるサンプルを収集する。 また、ノイズのあるサンプル効果を緩和するために、さらなる整合性損失も導入する。 我々のPSPUは、MNIST、CIFAR-10、CIFAR-100において、バランスの取れた設定とバランスの取れた設定の両方において、最近のPU学習方法よりも優れており、産業異常検出のためのMVTecAD上での競合性能を享受している。

Positive and Unlabeled (PU) learning, a binary classification model trained with only positive and unlabeled data, generally suffers from overfitted risk estimation due to inconsistent data distributions. To address this, we introduce a pseudo-supervised PU learning framework (PSPU), in which we train the PU model first, use it to gather confident samples for the pseudo supervision, and then apply these supervision to correct the PU model's weights by leveraging non-PU objectives. We also incorporate an additional consistency loss to mitigate noisy sample effects. Our PSPU outperforms recent PU learning methods significantly on MNIST, CIFAR-10, CIFAR-100 in both balanced and imbalanced settings, and enjoys competitive performance on MVTecAD for industrial anomaly detection.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 対物的手法による一貫性のある文書レベル関係抽出

Consistent Document-Level Relation Extraction via Counterfactuals ( http://arxiv.org/abs/2407.06699v1 )

ライセンス: Link先を確認
Ali Modarressi, Abdullatif Köksal, Hinrich Schütze, (参考訳) 多くのデータセットがドキュメントレベルの関係抽出(RE)モデルを訓練し、評価するために開発されている。 これらの多くは実世界のデータを使って構築されている。 実世界のデータに基づいてトレーニングされたREモデルは、事実バイアスに悩まされていることが示されている。 この問題を評価し,対処するために,エンティティ置換を用いた文書レベルの関係抽出データセットに対する対実データ生成手法であるCovEReDを提案する。 事実データから正確に三重項を抽出する一方で、反事実修正後に同じ三重項を抽出することができない。 この矛盾は、実データに基づいてトレーニングされたモデルは、入力コンテキスト$\unicode{x2013}$ではなく、特定のエンティティや外部知識$\unicode{x2013}$のような刺激的な信号に頼っていることを示唆している。 我々は,CovEReDを用いて文書レベルの反事実データを生成し,その上でトレーニングモデルを作成することにより,RE性能に最小限の影響を伴って整合性を維持することを示す。 CovEReDパイプラインと反ファクトのREドキュメントのデータセットであるRe-DocRED-CFをリリースし、ドキュメントレベルのREにおける一貫性の評価と対処を支援します。

Many datasets have been developed to train and evaluate document-level relation extraction (RE) models. Most of these are constructed using real-world data. It has been shown that RE models trained on real-world data suffer from factual biases. To evaluate and address this issue, we present CovEReD, a counterfactual data generation approach for document-level relation extraction datasets using entity replacement. We first demonstrate that models trained on factual data exhibit inconsistent behavior: while they accurately extract triples from factual data, they fail to extract the same triples after counterfactual modification. This inconsistency suggests that models trained on factual data rely on spurious signals such as specific entities and external knowledge $\unicode{x2013}$ rather than on the input context $\unicode{x2013}$ to extract triples. We show that by generating document-level counterfactual data with CovEReD and training models on them, consistency is maintained with minimal impact on RE performance. We release our CovEReD pipeline as well as Re-DocRED-CF, a dataset of counterfactual RE documents, to assist in evaluating and addressing inconsistency in document-level RE.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# HERMES: 変異効果と安定性予測のためのホログラフィック同変ニューラルネットワークモデル

HERMES: Holographic Equivariant neuRal network model for Mutational Effect and Stability prediction ( http://arxiv.org/abs/2407.06703v1 )

ライセンス: Link先を確認
Gian Marco Visani, Michael N. Pun, William Galvin, Eric Daniel, Kevin Borisiak, Utheri Wagura, Armita Nourmohammad, (参考訳) タンパク質のアミノ酸変異の安定性と適合性を予測することは、生物学的発見と工学の基礎となる。 突然変異効果を測定するために様々な実験的手法が開発され、多様なタンパク質の広範なデータセットが提供された。 これらのデータに基づいてトレーニングすることで、従来の計算モデルや最近の機械学習アプローチは、突然変異効果の予測に大きく進歩している。 本稿では,3次元回転同変構造に基づくニューラルネットワークモデルであるHERMESを紹介し,突然変異効果と安定性の予測を行う。 HERMESは、その周囲の3D構造からアミノ酸の親和性を予測するために事前訓練され、我々のオープンソースコードを用いて突然変異効果を微調整することができる。 本稿では,HERMESモデルの組を,異なる戦略で事前学習し,変異の安定性効果を予測するために微調整する。 他のモデルに対するベンチマークでは、HERMESは安定性、結合性、適合性に対する突然変異効果を予測する際に、性能を上回り、適合することが多い。 HERMESは突然変異効果を評価する汎用ツールを提供しており、特定の予測対象に対して微調整することができる。

Predicting the stability and fitness effects of amino acid mutations in proteins is a cornerstone of biological discovery and engineering. Various experimental techniques have been developed to measure mutational effects, providing us with extensive datasets across a diverse range of proteins. By training on these data, traditional computational modeling and more recent machine learning approaches have advanced significantly in predicting mutational effects. Here, we introduce HERMES, a 3D rotationally equivariant structure-based neural network model for mutational effect and stability prediction. Pre-trained to predict amino acid propensity from its surrounding 3D structure, HERMES can be fine-tuned for mutational effects using our open-source code. We present a suite of HERMES models, pre-trained with different strategies, and fine-tuned to predict the stability effect of mutations. Benchmarking against other models shows that HERMES often outperforms or matches their performance in predicting mutational effect on stability, binding, and fitness. HERMES offers versatile tools for evaluating mutational effects and can be fine-tuned for specific predictive objectives.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 物体との相互作用による自己教師付き視覚学習

Self-supervised visual learning from interactions with objects ( http://arxiv.org/abs/2407.06704v1 )

ライセンス: Link先を確認
Arthur Aubret, Céline Teulière, Jochen Triesch, (参考訳) 自己教師付き学習(SSL)は視覚表現学習に革命をもたらしたが、人間の視覚の堅牢性は達成できていない。 その理由は、SSLが学習中に人間が利用できるすべてのデータを活用していないからかもしれない。 物体について学ぶとき、人間が故意に物体を回したり動き回ったりすることがよくある。 ここでは、このようなオブジェクト関連のアクションがSSLを促進するかどうかを考察する。 そこで本研究では,あるオブジェクトのエゴ中心のビューから,あるオブジェクトから他のオブジェクトへ変化するためのアクションを4つのビデオデータセットで抽出する。 次に、同じクリップから抽出した2つの画像の表現と、実行された動作を一致させることで、視覚的および行動的埋め込みを学習する新しい損失関数を導入する。 これにより、実行されたアクションが潜在視覚表現を構成することができる。 実験の結果,提案手法は下流のカテゴリー認識において従来手法よりも常に優れていたことがわかった。 分析の結果、観察された改善は、同じカテゴリの異なるオブジェクトのより優れた視点的アライメントと関連していることがわかった。 全体として、我々の研究はオブジェクトとの相互作用がオブジェクトカテゴリのSSLを改善することを実証している。

Self-supervised learning (SSL) has revolutionized visual representation learning, but has not achieved the robustness of human vision. A reason for this could be that SSL does not leverage all the data available to humans during learning. When learning about an object, humans often purposefully turn or move around objects and research suggests that these interactions can substantially enhance their learning. Here we explore whether such object-related actions can boost SSL. For this, we extract the actions performed to change from one ego-centric view of an object to another in four video datasets. We then introduce a new loss function to learn visual and action embeddings by aligning the performed action with the representations of two images extracted from the same clip. This permits the performed actions to structure the latent visual representation. Our experiments show that our method consistently outperforms previous methods on downstream category recognition. In our analysis, we find that the observed improvement is associated with a better viewpoint-wise alignment of different objects from the same category. Overall, our work demonstrates that embodied interactions with objects can improve SSL of object categories.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# Top-K Pairwise Ranking: ランキングに基づくマルチラベル分類のギャップを埋める

Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification ( http://arxiv.org/abs/2407.06709v1 )

ライセンス: Link先を確認
Zitai Wang, Qianqian Xu, Zhiyong Yang, Peisong Wen, Yuan He, Xiaochun Cao, Qingming Huang, (参考訳) 各インスタンスの上位ラベルを複数返するマルチラベルランキングは、視覚的なタスクに幅広い応用がある。 複雑な設定のため、先行芸術はモデルパフォーマンスを評価するための様々な手段を提案してきた。 しかし、理論分析と経験的観察の両方で、モデルは異なる測度で矛盾する可能性があることが示されている。 このギャップを埋めるために,Top-K Pairwise Ranking (TKPR) という新しい尺度を提案する。 これを踏まえて、我々はさらに、TKPRのための実証的なサロゲートリスク最小化フレームワークを構築します。 一方、提案手法は、フィッシャーの整合性の理論的な支持により、凸状のサロゲート損失を享受する。 一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。 最後に、ベンチマークデータセットの実証結果により、提案フレームワークの有効性が検証された。

Multi-label ranking, which returns multiple top-ranked labels for each instance, has a wide range of applications for visual tasks. Due to its complicated setting, prior arts have proposed various measures to evaluate model performances. However, both theoretical analysis and empirical observations show that a model might perform inconsistently on different measures. To bridge this gap, this paper proposes a novel measure named Top-K Pairwise Ranking (TKPR), and a series of analyses show that TKPR is compatible with existing ranking-based measures. In light of this, we further establish an empirical surrogate risk minimization framework for TKPR. On one hand, the proposed framework enjoys convex surrogate losses with the theoretical support of Fisher consistency. On the other hand, we establish a sharp generalization bound for the proposed framework based on a novel technique named data-dependent contraction. Finally, empirical results on benchmark datasets validate the effectiveness of the proposed framework.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# MDP幾何学・正規化・値自由解法

MDP Geometry, Normalization and Value Free Solvers ( http://arxiv.org/abs/2407.06712v1 )

ライセンス: Link先を確認
Arsenii Mustafin, Aleksei Pakharev, Alex Olshevsky, Ioannis Ch. Paschalidis, (参考訳) マルコフ決定過程(英: Markov Decision Process、MDP)は、連続的な意思決定問題に対する一般的な数学的モデルである。 本稿では,主MDPアルゴリズムの力学解析に有用なMDPの幾何学的解釈を提案する。 この解釈に基づいて、MDPは、区別不能なアルゴリズム力学を持つ同値クラスに分割できることを実証する。 関連する正規化手順は、ポリシー値を計算せずに最適なポリシーを求める新しいタイプのMDP解決アルゴリズムの設計を可能にする。

Markov Decision Process (MDP) is a common mathematical model for sequential decision-making problems. In this paper, we present a new geometric interpretation of MDP, which is useful for analyzing the dynamics of main MDP algorithms. Based on this interpretation, we demonstrate that MDPs can be split into equivalence classes with indistinguishable algorithm dynamics. The related normalization procedure allows for the design of a new class of MDP-solving algorithms that find optimal policies without computing policy values.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# ルッティンガー液体テンソルネットワーク : 無質量ディラックフェルミオンの正弦と正接の分散

Luttinger liquid tensor network: sine versus tangent dispersion of massless Dirac fermions ( http://arxiv.org/abs/2407.06713v1 )

ライセンス: Link先を確認
V. A. Zakharov, S. Polla, A. Donís Vela, P. Emonts, M. J. Pacholski, J. Tworzydło, C. W. J. Beenakker, (参考訳) テンソルネットワークの強力な多体技法を質量を持たないディラックフェルミオンに適用するには、$p\cdot\sigma$ Hamiltonian を離散化し、行列積演算子(MPO)表現を構築したい。 本研究では,ハバード相互作用を有する1次元ラッティンガー液体に適用した2つの別の離散化スキームを比較した。 どちらのタイプの格子フェルミオンも、低い結合次元の正確なMPO表現を可能にするため、効率よく計算できるが、接分散のみが、連続体極限と一致してプロパゲータのパワーロー崩壊を与える: 正弦分散は、指数関数的に崩壊するプロパゲータによって証明される相互作用によってギャップがある。 未ペアのディラック円錐を持つテンソルネットワークの構築は、接フェルミオンの \textit{nonlocal} Hamiltonian が \textit{local} 一般化固有プロブレムを許すという事実を利用して、フェルミオン共役の障害を回避する。

To apply the powerful many-body techniques of tensor networks to massless Dirac fermions one wants to discretize the $p\cdot\sigma$ Hamiltonian and construct a matrix-product-operator (MPO) representation. We compare two alternative discretization schemes, one with a sine dispersion, the other with a tangent dispersion, applied to a one-dimensional Luttinger liquid with Hubbard interaction. Both types of lattice fermions allow for an exact MPO representation of low bond dimension, so they are efficiently computable, but only the tangent dispersion gives a power law decay of the propagator in agreement with the continuum limit: The sine dispersion is gapped by the interactions, evidenced by an exponentially decaying propagator. Our construction of a tensor network with an unpaired Dirac cone works around the fermion-doubling obstruction by exploiting the fact that the \textit{nonlocal} Hamiltonian of tangent fermions permits a \textit{local} generalized eigenproblem.
翻訳日:2024-07-10 18:36:32 公開日:2024-07-09
# 特徴増強による反対例の伝達性の向上

Improving the Transferability of Adversarial Examples by Feature Augmentation ( http://arxiv.org/abs/2407.06714v1 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Xiaohu Zheng, Junqi Wu, Xiaoqian Chen, (参考訳) 入力変換ベースの攻撃が敵の転送可能性を高めることに成功しているにもかかわらず、モデル間の不一致が無くなったため、性能は不満足である。 本稿では,計算コストの増大を伴わずに,対向移動性を向上する簡易かつ効果的な機能拡張攻撃法を提案する。 具体的には,攻撃勾配の多様性を増大させるために,モデルの中間的特徴にランダムノイズを注入することにより,特定のモデルに過度に適合するリスクを軽減し,特に対向移動性を増幅する。 さらに,本手法を既存の勾配攻撃と組み合わせることで,さらなる性能向上を図ることができる。 CNNとトランスフォーマーモデルにまたがるImageNetデータセットで実施された大規模な実験により、入力変換ベースの攻撃と組み合わせ手法において、それぞれ+26.22%と+5.57%の改善が達成された。

Despite the success of input transformation-based attacks on boosting adversarial transferability, the performance is unsatisfying due to the ignorance of the discrepancy across models. In this paper, we propose a simple but effective feature augmentation attack (FAUG) method, which improves adversarial transferability without introducing extra computation costs. Specifically, we inject the random noise into the intermediate features of the model to enlarge the diversity of the attack gradient, thereby mitigating the risk of overfitting to the specific model and notably amplifying adversarial transferability. Moreover, our method can be combined with existing gradient attacks to augment their performance further. Extensive experiments conducted on the ImageNet dataset across CNN and transformer models corroborate the efficacy of our method, e.g., we achieve improvement of +26.22% and +5.57% on input transformation-based attacks and combination methods, respectively.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 運動量不確かさと熱波長の関係について

On the relation between momentum uncertainty and thermal wavelength ( http://arxiv.org/abs/2407.06715v1 )

ライセンス: Link先を確認
Zi-Fan Zhu, Yao Wang, (参考訳) ボルツマン状態の量子粒子に対しては、運動量不確実性$\Delta p$と熱デブロリー波長$\lambda_{\rm th}$との不等式を導出する:$\Delta p \geq \sqrt{2\pi}\hbar/\lambda_{\rm th}$、前回の研究で提案されたハイゼンベルク不確実性積に対するボルツマン下界の系として表す[EPL, 143, 20001 (2023)]。

For quantum particles in a Boltzmann state, we derive an inequality between momentum uncertainty $\Delta p$ and thermal de Broglie wavelength $\lambda_{\rm th}$, expressed as $\Delta p \geq \sqrt{2\pi}\hbar/\lambda_{\rm th}$, as a corollary of the Boltzmann lower bound for the Heisenberg uncertainty product proposed in the previous work [EPL, 143, 20001 (2023)]
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# Retrieval-Augmented GenerationまたはMixture of Expertsを用いたロールベースのセキュリティとクリアランスレベルに基づくエンタープライズ大規模言語モデルアプリケーションのためのシンプルなアーキテクチャ

A Simple Architecture for Enterprise Large Language Model Applications based on Role based security and Clearance Levels using Retrieval-Augmented Generation or Mixture of Experts ( http://arxiv.org/abs/2407.06718v1 )

ライセンス: Link先を確認
Atilla Özgür, Yılmaz Uygun, (参考訳) 本研究では、ロールベースのセキュリティとNATOクリアランスレベルのためのLLM(Large Language Models)エンタープライズアプリケーションのためのシンプルなアーキテクチャを提案する。 本提案は,セキュリティと情報アクセスを扱う上で,現在のLLMの限界に対処することを目的としている。 提案アーキテクチャは、検索型拡張生成(RAG)とMixture of Expert Model(MoE)の微調整を併用して利用することができる。 RAGでのみ、あるいはMoEでのみ、あるいは両方でのみ使用することができる。 ユーザのロールとセキュリティクリアランスレベルを使用して、RAGのドキュメントとMoEの専門家がフィルタリングされる。 これにより、情報漏洩を防止する。

This study proposes a simple architecture for Enterprise application for Large Language Models (LLMs) for role based security and NATO clearance levels. Our proposal aims to address the limitations of current LLMs in handling security and information access. The proposed architecture could be used while utilizing Retrieval-Augmented Generation (RAG) and fine tuning of Mixture of experts models (MoE). It could be used only with RAG, or only with MoE or with both of them. Using roles and security clearance level of the user, documents in RAG and experts in MoE are filtered. This way information leakage is prevented.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# グラフベースのキャプション:リージョンキャプションの相互接続による視覚記述の強化

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions ( http://arxiv.org/abs/2407.06723v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi, (参考訳) 人間は複雑なシーンを構成性で記述し、リンクと関係性に富んだ単純なテキスト記述を用いて記述する。 視覚言語による研究は、構成的理解能力を持つモデルを開発することを目的としているが、既存のデータセットにはまだ反映されていない。 そこで本研究では,ラベル付きグラフ構造を用いて画像を記述する,新たなアノテーション戦略であるグラフベースのキャプション(GBC)を提案する。 GBCのノードは、第1段階で、オブジェクト検出と密接なキャプションツールをネストしてエンティティノードを発見して記述し、さらに第2段階では、新しいタイプのノード、構成、エンティティ間の関係をハイライトしてリンクする。 すべてのGBCノードは平易なテキスト記述を保持するため、GBCは自然言語の柔軟性を保持するが、エッジの階層的な情報をエンコードすることもできる。 GBC10Mという新しいデータセットを構築し,約1000万枚のCC12MデータセットのGBCアノテーションを収集することにより,市販のマルチモーダルLLMとオープンボキャブラリ検出モデルを用いて,GBCを自動的に生成できることを実証した。 GBC10M を用いて,CLIP トレーニングで測定した GBC が発見するノードキャプションの豊かさを示す。 GBCノードのアノテーション(特にコンポジションやリレーショナルノードに格納されているアノテーション)を使用することで、他のデータセットフォーマットと比較して、ダウンストリームモデルのパフォーマンスが大幅に向上することを示す。 また、GBCがもたらす機会をさらに探求するため、GBCグラフ全体を活用できる新しい注意機構を提案し、グラフ構造を組み込むことによる余分なメリットを示す実験結果を奨励する。 データセットは \url{https://huggingface.co/graph-based-captions} でリリースされています。

Humans describe complex scenes with compositionality, using simple text descriptions enriched with links and relationships. While vision-language research has aimed to develop models with compositional understanding capabilities, this is not reflected yet in existing datasets which, for the most part, still use plain text to describe images. In this work, we propose a new annotation strategy, graph-based captioning (GBC) that describes an image using a labelled graph structure, with nodes of various types. The nodes in GBC are created using, in a first stage, object detection and dense captioning tools nested recursively to uncover and describe entity nodes, further linked together in a second stage by highlighting, using new types of nodes, compositions and relations among entities. Since all GBC nodes hold plain text descriptions, GBC retains the flexibility found in natural language, but can also encode hierarchical information in its edges. We demonstrate that GBC can be produced automatically, using off-the-shelf multimodal LLMs and open-vocabulary detection models, by building a new dataset, GBC10M, gathering GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to showcase the wealth of node captions uncovered by GBC, as measured with CLIP training. We show that using GBC nodes' annotations -- notably those stored in composition and relation nodes -- results in significant performance boost on downstream models when compared to other dataset formats. To further explore the opportunities provided by GBC, we also propose a new attention mechanism that can leverage the entire GBC graph, with encouraging experimental results that show the extra benefits of incorporating the graph structure. Our datasets are released at \url{https://huggingface.co/graph-based-captions}.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 次世代ブロックチェーンにおけるビジネスプロセス実行コスト:Algorandの場合

The Cost of Executing Business Processes on Next-Generation Blockchains: The Case of Algorand ( http://arxiv.org/abs/2407.06725v1 )

ライセンス: Link先を確認
Fabian Stiehle, Ingo Weber, (参考訳) ブロックチェーン上でのプロセス(あるいはワークフロー)実行は、スケーラビリティの制限に悩まされている。具体的に言えば、トランザクション料金という形でのコストは、従来のパブリックブロックチェーンプラットフォームを実践する上で、大きな制限となります。 これまでの研究は主に、ビジネスプロセスの実施のための第1世代(Bitcoin)と第2世代(Ethereumなど)のブロックチェーンの探索に重点を置いてきた。 しかし、それ以来、前世代のブロックチェーンの多くの問題に取り組むことを目的とした、新しいブロックチェーンシステムが導入されている。 プロセス実行の観点から,このようなシステムであるAlgorandについて検討する。 Algorandは、低い取引手数料と高速なファイナリティを約束する。 しかしながら、Algorandのコスト構造は、以前の世代のブロックチェーンと大きく異なり、ブロックチェーンベースのプロセス実行のための以前のコストモデルが適用不可能である。 我々は、Algorand氏の新しいコスト構造とEthereumのよく知られたコストモデルについて議論し、対比する。 プロセス実行への影響を調べるため、マルチプラットフォーム出力をサポートし、Algorandのスマートコントラクト言語であるTEALコントラクトへの変換を提供する中間層を備えたBPMNコレオグラフィーのコンパイラを提案する。 Algorandのプロセス実行コストと従来のクラウドコンピューティングとの比較を行った。 要するに、コスト面でのメリットが大きいのです。 しかし, 今後の研究課題として, 調査・比較に引き続き多くの課題が残されていることに留意する。

Process (or workflow) execution on blockchain suffers from limited scalability; specifically, costs in the form of transactions fees are a major limitation for employing traditional public blockchain platforms in practice. Research, so far, has mainly focused on exploring first (Bitcoin) and second-generation (e.g., Ethereum) blockchains for business process enactment. However, since then, novel blockchain systems have been introduced - aimed at tackling many of the problems of previous-generation blockchains. We study such a system, Algorand, from a process execution perspective. Algorand promises low transaction fees and fast finality. However, Algorand's cost structure differs greatly from previous generation blockchains, rendering earlier cost models for blockchain-based process execution non-applicable. We discuss and contrast Algorand's novel cost structure with Ethereum's well-known cost model. To study the impact for process execution, we present a compiler for BPMN Choreographies, with an intermediary layer, which can support multi-platform output, and provide a translation to TEAL contracts, the smart contract language of Algorand. We compare the cost of executing processes on Algorand to previous work as well as traditional cloud computing. In short: they allow vast cost benefits. However, we note a multitude of future research challenges that remain in investigating and comparing such results.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 物理インフォームドサイクル型マルチPSFレンズレスイメージングに向けて

Towards Physics-informed Cyclic Adversarial Multi-PSF Lensless Imaging ( http://arxiv.org/abs/2407.06727v1 )

ライセンス: Link先を確認
Abeer Banerjee, Sanjay Singh, (参考訳) レンズレスイメージングは、逆撮影において有望な分野として現れ、コンパクトで費用対効果の高いソリューションを提供し、計算カメラ市場に革命をもたらす可能性がある。 レンズやミラーのような従来の光学部品を回避することによって、マスクベースのレンズレスイメージングのような新しいアプローチは、従来のハードウェアの必要性を排除している。 しかし、特にGAN(Generative Adversarial Networks)を利用したレンズレス画像再構成の進歩は、データ駆動型トレーニングプロセスへの依存によって妨げられ、画像システムのポイントスプレッド機能(PSF)にネットワーク特異性をもたらす。 これにより、小さなPSFの変更に対する完全な再トレーニングが必要となり、様々な画像シナリオに対する適応性と一般化性が制限される。 本稿では,マルチPSFレンズレス画像への新たなアプローチを提案する。 本研究では,レンズレス画像とレンズレス画像の領域ギャップを埋める物理インフォームドラーニングを容易にするために,差分畳み込みPSF対応補助ブランチとトレーニングループに統合されたフォワードモデルを組み合わせた独自のジェネレータアーキテクチャを提案する。 総合的な性能評価とアブレーション研究は、堅牢で適応可能なレンズレス画像再構成機能を提供し、我々のモデルの有効性を裏付けるものである。 提案手法は,既存のPSFに依存しない単一PSF症例に匹敵する性能を達成し,再トレーニングを必要とせずにPSF変化に対するレジリエンスを示す。

Lensless imaging has emerged as a promising field within inverse imaging, offering compact, cost-effective solutions with the potential to revolutionize the computational camera market. By circumventing traditional optical components like lenses and mirrors, novel approaches like mask-based lensless imaging eliminate the need for conventional hardware. However, advancements in lensless image reconstruction, particularly those leveraging Generative Adversarial Networks (GANs), are hindered by the reliance on data-driven training processes, resulting in network specificity to the Point Spread Function (PSF) of the imaging system. This necessitates a complete retraining for minor PSF changes, limiting adaptability and generalizability across diverse imaging scenarios. In this paper, we introduce a novel approach to multi-PSF lensless imaging, employing a dual discriminator cyclic adversarial framework. We propose a unique generator architecture with a sparse convolutional PSF-aware auxiliary branch, coupled with a forward model integrated into the training loop to facilitate physics-informed learning to handle the substantial domain gap between lensless and lensed images. Comprehensive performance evaluation and ablation studies underscore the effectiveness of our model, offering robust and adaptable lensless image reconstruction capabilities. Our method achieves comparable performance to existing PSF-agnostic generative methods for single PSF cases and demonstrates resilience to PSF changes without the need for retraining.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# LVLMを用いた視覚的位置認識のためのマルチモーダル表現学習

LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition ( http://arxiv.org/abs/2407.06730v1 )

ライセンス: Link先を確認
Teng Wang, Lingquan Meng, Lei Cheng, Changyin Sun, (参考訳) 視覚的位置認識(VPR)は、重要な視点の変化と外観の変化のために依然として困難である。 メインストリームは、深い特徴を堅牢でコンパクトなグローバル表現に変換する様々な特徴集約手法を開発することで、これらの課題に対処する。 残念なことに、困難な条件下では満足な結果が得られない。 我々は、新しい視点から始めて、視覚シーンの画像データとテキスト記述を融合させて、差別的なグローバル表現を構築しようとする。 モチベーションは2つある:(1)現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的指示に異常な創発的能力を示し、それによって効率よく柔軟な方法を提供し、(2)高レベルなシーン理解を提供するテキスト記述は、環境変動に対して強い堅牢性を示す。 有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。 さらに、LVLMは必然的に不正確な記述を生成するため、さらに困難になる。 これらの課題に対処するため、我々は新しいマルチモーダルVPRソリューションを提案する。 まず、訓練済みの視覚と言語の基礎モデルをVPRに適応させ、画像とテキストの特徴を抽出し、機能コンバインダに入力して互いに強化する。 特徴結合器は、まず、画像データに対する関連性に応じてテキストトークンを適応的に再分類するトークンワイドアテンションブロックを提案し、その後、異なるモダリティ間で情報を伝達する効率的なクロスアテンション融合モジュールを開発する。 強化されたマルチモーダル機能は、検索を行うための特徴記述子に圧縮される。 実験結果から,本手法は画像記述子次元が著しく小さい大きなマージンで最先端の手法よりも優れていた。

Visual place recognition (VPR) remains challenging due to significant viewpoint changes and appearance variations. Mainstream works tackle these challenges by developing various feature aggregation methods to transform deep features into robust and compact global representations. Unfortunately, satisfactory results cannot be achieved under challenging conditions. We start from a new perspective and attempt to build a discriminative global representations by fusing image data and text descriptions of the the visual scene. The motivation is twofold: (1) Current Large Vision-Language Models (LVLMs) demonstrate extraordinary emergent capability in visual instruction following, and thus provide an efficient and flexible manner in generating text descriptions of images; (2) The text descriptions, which provide high-level scene understanding, show strong robustness against environment variations. Although promising, leveraging LVLMs to build multi-modal VPR solutions remains challenging in efficient multi-modal fusion. Furthermore, LVLMs will inevitably produces some inaccurate descriptions, making it even harder. To tackle these challenges, we propose a novel multi-modal VPR solution. It first adapts pre-trained visual and language foundation models to VPR for extracting image and text features, which are then fed into the feature combiner to enhance each other. As the main component, the feature combiner first propose a token-wise attention block to adaptively recalibrate text tokens according to their relevance to the image data, and then develop an efficient cross-attention fusion module to propagate information across different modalities. The enhanced multi-modal features are compressed into the feature descriptor for performing retrieval. Experimental results show that our method outperforms state-of-the-art methods by a large margin with significantly smaller image descriptor dimension.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 画像ベースレコメンダシステムの説明可能性向上のためのポジティブアンラベリング学習

Positive-Unlabelled Learning for Improving Image-based Recommender System Explainability ( http://arxiv.org/abs/2407.06740v1 )

ライセンス: Link先を確認
Álvaro Fernández-Campa-González, Jorge Paz-Ruza, Amparo Alonso-Betanzos, Bertha Guijarro-Berdiñas, (参考訳) ビジュアルベースのレコメンダシステム(RS)の既存のアプローチの中で、ユーザアップロードされたアイテムイメージを効率的で信頼性の高い説明として活用することは、有望な選択肢である。 しかしながら、このパラダイムに従う現在のモデルは、どのユーザーにとっても、他のユーザーによってアップロードされたすべての画像はネガティブなトレーニング例(例えば、悪い説明画像)とみなすことができると仮定している。 本研究は,新しいユーザパーソナライズされた2段階の類似性に基づくPU学習アルゴリズムによって選択された各ユーザに対して,信頼性の高いネガティブなサンプルのサブセットを改良したサブセットで,イメージベースの説明器を訓練するために,肯定的アンラベリング(PU)学習技術を活用することによって,新たな説明器トレーニングパイプラインを提案する。 計算実験により、このPUベースのアプローチは、6つの一般的な実世界のデータセットにおいて最先端の非PUメソッドよりも優れており、モデル複雑さを増大させるのではなく、トレーニングデータ品質を最大化することで、視覚ベースのRS説明性の改善が達成できることを示した。

Among the existing approaches for visual-based Recommender System (RS) explainability, utilizing user-uploaded item images as efficient, trustable explanations is a promising option. However, current models following this paradigm assume that, for any user, all images uploaded by other users can be considered negative training examples (i.e. bad explanatory images), an inadvertedly naive labelling assumption that contradicts the rationale of the approach. This work proposes a new explainer training pipeline by leveraging Positive-Unlabelled (PU) Learning techniques to train image-based explainer with refined subsets of reliable negative examples for each user selected through a novel user-personalized, two-step, similarity-based PU Learning algorithm. Computational experiments show this PU-based approach outperforms the state-of-the-art non-PU method in six popular real-world datasets, proving that an improvement of visual-based RS explainability can be achieved by maximizing training data quality rather than increasing model complexity.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# Gray-box Combinatorial Optimization Operatorの一般化と統一

Generalizing and Unifying Gray-box Combinatorial Optimization Operators ( http://arxiv.org/abs/2407.06742v1 )

ライセンス: Link先を確認
Francisco Chicano, Darrell Whitley, Gabriela Ochoa, Renato Tinós, (参考訳) グレーボックス最適化は、最適化問題の数学的構造に関する情報を活用して効率的な探索演算子を設計する。 擬ブール最適化の領域では、効率的な登山家やクロスオーバー作用素が提案され、またいくつかの置換問題でも提案されている。 しかし、これらの効率的な作用素を異なる表現領域で設計する方法には一般的な規則はない。 本稿では、組合せ最適化問題に対するすべての既知のグレーボックス演算子を包含する一般的なフレームワークを提案する。 このフレームワークは、新しい問題や表現領域のための新しい効率的な演算子の設計に光を当てるのに十分である。 また,グレイボックス・ヒルクライマーとクロスオーバーの効率性の証明を統一し,グレイボックス・クロスオーバー演算子のスピードアップを説明する数学的性質を示すとともに,グレイボックス・ヒルクライマーの移動改善の効率的な同定について説明する。 線形順序問題と単機全重度目標問題という2つの関連する置換問題に対して,効率的な登山者および交差問題を提案することで,新しい枠組みの力を説明する。

Gray-box optimization leverages the information available about the mathematical structure of an optimization problem to design efficient search operators. Efficient hill climbers and crossover operators have been proposed in the domain of pseudo-Boolean optimization and also in some permutation problems. However, there is no general rule on how to design these efficient operators in different representation domains. This paper proposes a general framework that encompasses all known gray-box operators for combinatorial optimization problems. The framework is general enough to shed light on the design of new efficient operators for new problems and representation domains. We also unify the proofs of efficiency for gray-box hill climbers and crossovers and show that the mathematical property explaining the speed-up of gray-box crossover operators, also explains the efficient identification of improving moves in gray-box hill climbers. We illustrate the power of the new framework by proposing an efficient hill climber and crossover for two related permutation problems: the Linear Ordering Problem and the Single Machine Total Weighted Tardiness Problem.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 非マルコフ導波路QEDにおける局所減衰抑制

Suppression of Local Decay in non-Markovian Waveguide QED ( http://arxiv.org/abs/2407.06744v1 )

ライセンス: Link先を確認
Yuan liu, Linhan Lin, Hong-Bo Sun, (参考訳) 同じ環境に結合された原子は互いに干渉し、超放射能または準放射能を得る。 特に、サブラジアント状態の原子は、一般的な環境への免疫のため、長寿命の量子ビットと量子メモリの候補として期待されている。 しかし、サブラジアント状態は、異なる原子に対して不整合であり、干渉によってキャンセルできない局所環境の影響を受け続けることができる。 ここでは,非マルコフ系における導波路QED系の作成により,この限界を破ることを提案する。 さらに、同様の効果は自己干渉によって自然発生し、協調結合によってストレスを受けることができることを示す。

Atoms coupled to the same environment interfere with each other to yield super- or sub-radiance. Specifically, atoms in subradiant states are promising candidates for long-lifetime qubits and quantum memory because of the immunity to the common environment. However, subradiant states can still be influenced by local environments, which are incoherent for different atoms and cannot be canceled out through interference. Here we propose to break this limit by preparing a waveguide QED system in the non-Markovian regime, where the ultra-small decay rate arises because of the retarded interaction. We further show that similar effect occurs spontaneously by self-interference and can be stressed by cooperative coupling.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# iASiS:パーソナライズドメディカルのための異種ビッグデータ分析を目指して

iASiS: Towards Heterogeneous Big Data Analysis for Personalized Medicine ( http://arxiv.org/abs/2407.06748v1 )

ライセンス: Link先を確認
Anastasia Krithara, Fotis Aisopos, Vassiliki Rentoumi, Anastasios Nentidis, Konstantinos Bougatiotis, Maria-Esther Vidal, Ernestina Menasalvas, Alejandro Rodriguez-Gonzalez, Eleftherios G. Samaras, Peter Garrard, Maria Torrente, Mariano Provencio Pulla, Nikos Dimakopoulos, Rui Mauricio, Jordi Rambla De Argila, Gian Gaetano Tartaglia, George Paliouras, (参考訳) IASISプロジェクトのビジョンは、大きなバイオメディカルデータの波を、意思決定者のための実用的な知識に変えることです。 これは、ゲノム学、電子健康記録、書誌学などの異なる情報源からのデータを統合し、有用なパターンを見つけるために高度な分析手法を適用することで達成される。 目標は、利用可能な大量のデータを、公衆衛生活動や政策を計画する当局に実行可能な情報にすることです。 これらの異種情報の統合と分析により、最高の決定が下され、診断と治療が各個人にパーソナライズされる。 このプロジェクトは異種データソースに共通の表現スキーマを提供する。 iASiSインフラストラクチャは、臨床ノートを利用可能なデータに変換し、それらをゲノムデータ、関連する文献、画像データなどと組み合わせ、グローバルな知識ベースを作成することができる。 これにより、さまざまなリソースにまたがる有用なパターンを見つけるために、インテリジェントなメソッドの使用が容易になる。 データの意味的な統合を使用することで、リッチで監査可能で信頼性の高い情報を生成する機会が得られる。 この情報は、より良いケアを提供し、エラーを減らし、データの共有に対する信頼性を高め、より多くの洞察と機会を提供するために使用できる。 iASiSのユースケース,認知症,肺癌の2つの異なる疾患カテゴリのデータ資源について検討した。

The vision of IASIS project is to turn the wave of big biomedical data heading our way into actionable knowledge for decision makers. This is achieved by integrating data from disparate sources, including genomics, electronic health records and bibliography, and applying advanced analytics methods to discover useful patterns. The goal is to turn large amounts of available data into actionable information to authorities for planning public health activities and policies. The integration and analysis of these heterogeneous sources of information will enable the best decisions to be made, allowing for diagnosis and treatment to be personalised to each individual. The project offers a common representation schema for the heterogeneous data sources. The iASiS infrastructure is able to convert clinical notes into usable data, combine them with genomic data, related bibliography, image data and more, and create a global knowledge base. This facilitates the use of intelligent methods in order to discover useful patterns across different resources. Using semantic integration of data gives the opportunity to generate information that is rich, auditable and reliable. This information can be used to provide better care, reduce errors and create more confidence in sharing data, thus providing more insights and opportunities. Data resources for two different disease categories are explored within the iASiS use cases, dementia and lung cancer.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 耐放射線性TMRレジストに対するレーザー断層注入攻撃

Laser Fault Injection Attacks against Radiation Tolerant TMR Registers ( http://arxiv.org/abs/2407.06751v1 )

ライセンス: Link先を確認
Dmytro Petryk, Zoya Dyka, Ievgen Kabin, Anselm Breitenreiter, Jan Schaeffner, Milos Krstic, (参考訳) モノのインターネット(IoT)、無線センサノード、およびデータ交換のためにネットワークに接続された他の無線デバイスに対するセキュリティ要件は高い。 これらのデバイスは、秘密の隠された情報を明らかにするために、しばしば実験室での分析を受ける。 暗号鍵を明らかにするための攻撃の1つは、光学的フォールトインジェクション攻撃を実行することである。 本研究では,三重モード冗長フリップフロップを用いたIPP放射耐性シフトレジスタについて検討した。 実験では,TMRレジスタに異なる過渡断層を注入することができた。

Security requirements for the Internet of things (IoT), wireless sensor nodes, and other wireless devices connected in a network for data exchange are high. These devices are often subject to lab analysis with the objective to reveal secret hidden information. One kind of attacks to reveal the cryptographic key is to perform optical Fault Injection attacks. In this work, we investigated the IHP radiation tolerant shift registers built of Triple Modular Redundant flip-flops. In our experiments, we were able to inject different transient faults into TMR registers.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# テキスト攻撃パターンからの脆弱性特徴抽出法の比較

A Comparison of Vulnerability Feature Extraction Methods from Textual Attack Patterns ( http://arxiv.org/abs/2407.06753v1 )

ライセンス: Link先を確認
Refat Othman, Bruno Rossi, Russo Barbara, (参考訳) 今日では、サイバーセキュリティベンダーからの脅威報告には、非構造化テキストに攻撃の詳細な説明が組み込まれている。 これらの報告に関連する脆弱性を知ることは、サイバーセキュリティ研究者や実践者が、進化する攻撃を理解し、調整し、緩和計画を作成するのに役立つ。 本稿では,サイバーセキュリティ研究者や実践者が脅威情報の監視と共有を強化するための攻撃抽出方法を選択するのを支援することを目的とする。 本研究では,5つの特徴抽出法(TF-IDF,LSI,BERT,MiniLM,RoBERTa)について検討し,他の4つの手法よりも精度が75\%,F1スコアが64\%であることを示す。 この発見は、サイバーセキュリティコミュニティに貴重な洞察を与え、我々の研究は、サイバーセキュリティ研究者が今後の抽出方法の有効性を評価し、比較するのに役立つ。

Nowadays, threat reports from cybersecurity vendors incorporate detailed descriptions of attacks within unstructured text. Knowing vulnerabilities that are related to these reports helps cybersecurity researchers and practitioners understand and adjust to evolving attacks and develop mitigation plans. This paper aims to aid cybersecurity researchers and practitioners in choosing attack extraction methods to enhance the monitoring and sharing of threat intelligence. In this work, we examine five feature extraction methods (TF-IDF, LSI, BERT, MiniLM, RoBERTa) and find that Term Frequency-Inverse Document Frequency (TF-IDF) outperforms the other four methods with a precision of 75\% and an F1 score of 64\%. The findings offer valuable insights to the cybersecurity community, and our research can aid cybersecurity researchers in evaluating and comparing the effectiveness of upcoming extraction methods.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# フェデレーションラーニングライフサイクルにおける脅威と防御--包括的調査と課題

Threats and Defenses in Federated Learning Life Cycle: A Comprehensive Survey and Challenges ( http://arxiv.org/abs/2407.06754v1 )

ライセンス: Link先を確認
Yanli Li, Jifei Hu, Zhongliang Guo, Nan Yang, Huaming Chen, Dong Yuan, Weiping Ding, (参考訳) Federated Learning (FL)は、プライバシ保護のための協調機械学習(ML)のための革新的なソリューションを提供する。 その有望な可能性にもかかわらず、FLは分散した性質のために様々な攻撃に対して脆弱であり、FLサービスのライフサイクル全体に影響を及ぼす。 これらの脅威はモデルの実用性を傷つけたり、直接的または間接的に参加者のプライバシーを侵害する可能性がある。 これに対し、特定の設定やシナリオでの有効性を示す多くの防衛フレームワークが提案されている。 本稿では,FLサービスライフサイクル全体を通じて,最も代表的で最先端の脅威と防衛の枠組みを概観する。 まず、可能性や直接的な影響のあるものを含む、ユーティリティとプライバシを害するFL脅威を特定します。 そして、防衛枠組みを掘り下げ、脅威と防衛の関係を分析し、異なる防衛戦略のトレードオフを比較する。 最後に、現在の研究ボトルネックを概説し、今後の研究方向性についての洞察を提供して、この調査を結論づける。 この調査は、信頼できるFL研究に光を当て、FLコミュニティに貢献することを願っています。

Federated Learning (FL) offers innovative solutions for privacy-preserving collaborative machine learning (ML). Despite its promising potential, FL is vulnerable to various attacks due to its distributed nature, affecting the entire life cycle of FL services. These threats can harm the model's utility or compromise participants' privacy, either directly or indirectly. In response, numerous defense frameworks have been proposed, demonstrating effectiveness in specific settings and scenarios. To provide a clear understanding of the current research landscape, this paper reviews the most representative and state-of-the-art threats and defense frameworks throughout the FL service life cycle. We start by identifying FL threats that harm utility and privacy, including those with potential or direct impacts. Then, we dive into the defense frameworks, analyze the relationship between threats and defenses, and compare the trade-offs among different defense strategies. Finally, we summarize current research bottlenecks and offer insights into future research directions to conclude this survey. We hope this survey sheds light on trustworthy FL research and contributes to the FL community.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# 強化学習における周期的活性化関数の周波数と一般化

Frequency and Generalisation of Periodic Activation Functions in Reinforcement Learning ( http://arxiv.org/abs/2407.06756v1 )

ライセンス: Link先を確認
Augustine N. Mavor-Parker, Matthew J. Sargent, Caswell Barry, Lewis Griffin, Clare Lyle, (参考訳) 周期的活性化関数は、学習されたフーリエ特徴と呼ばれ、様々な深いRLアルゴリズムのサンプル効率と安定性を改善するために広く実証されている。 これらの改善の源泉について、おそらく非互換な仮説が立てられている。 ひとつは、周期的なアクティベーションは低頻度表現を学習し、結果としてブートストラップされたターゲットへの過度な適合を避けることである。 また、周期的アクティベーションはより表現力のある高周波表現を学習し、ネットワークが複雑な値関数に迅速に適合できるようにする。 我々はこれらの主張を実証的に分析し、周期表現が初期化周波数に関係なく常に高周波数に収束することを発見した。 また、周期的活性化関数はサンプリング効率を向上するが、観測ノイズを付加した状態では、特にReLUアクティベーション関数を持つ他の等価ネットワークと比較して、より悪い一般化を示す。 最後に、重み劣化正規化は周期的活性化関数の過度な適合を部分的に相殺でき、同時に一般化しながら素早く学習する値関数を提供する。

Periodic activation functions, often referred to as learned Fourier features have been widely demonstrated to improve sample efficiency and stability in a variety of deep RL algorithms. Potentially incompatible hypotheses have been made about the source of these improvements. One is that periodic activations learn low frequency representations and as a result avoid overfitting to bootstrapped targets. Another is that periodic activations learn high frequency representations that are more expressive, allowing networks to quickly fit complex value functions. We analyse these claims empirically, finding that periodic representations consistently converge to high frequencies regardless of their initialisation frequency. We also find that while periodic activation functions improve sample efficiency, they exhibit worse generalization on states with added observation noise -- especially when compared to otherwise equivalent networks with ReLU activation functions. Finally, we show that weight decay regularization is able to partially offset the overfitting of periodic activation functions, delivering value functions that learn quickly while also generalizing.
翻訳日:2024-07-10 18:26:46 公開日:2024-07-09
# レーザー照射が論理セル電流消費に及ぼす影響について

On the Influence of the Laser Illumination on the Logic Cells Current Consumption ( http://arxiv.org/abs/2407.06758v1 )

ライセンス: Link先を確認
Dmytro Petryk, Zoya Dyka, Milos Krstic, Jan Bělohoubek, Petr Fišer, František Steiner, Tomáš Blecha, Peter Langendörfer, Ievgen Kabin, (参考訳) 物理的なサイドチャネル攻撃は、今日のチップ設計にとって大きな課題です。 CMOSダイナミックパワーに対する攻撃は最先端の攻撃のクラスを表しているが、他の多くの効果はCMOSチップのセキュリティに類似して、老朽化、電離放射線、非電離照明などのチップの静的な動作に影響を与える可能性がある。 CMOS静的パワーにおけるデータ依存性を利用した脆弱性はすでに実証されており、光変調静的パワーを利用した類似の脆弱性はシミュレーションによって実証された。 本研究は,光変調データ依存静的パワーに関連するCMOS脆弱性を実験的に確認し,今後の課題について考察する。

Physical side-channel attacks represent a great challenge for today's chip design. Although attacks on CMOS dynamic power represent a class of state-of-the-art attacks, many other effects potentially affect the security of CMOS chips analogously by affecting mostly static behaviour of the chip, including aging, ionizing radiation, or non-ionizing illumination of the CMOS. Vulnerabilities exploiting data dependency in CMOS static power were already demonstrated in practice and the analogous vulnerability exploiting light-modulated static power was demonstrated by simulation. This work confirms the CMOS vulnerability related to the light-modulated data-dependent static power experimentally and discusses future work.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# サイバーセキュリティ防衛:攻撃記述によるCVEタイプの探索

Cybersecurity Defenses: Exploration of CVE Types through Attack Descriptions ( http://arxiv.org/abs/2407.06759v1 )

ライセンス: Link先を確認
Refat Othman, Bruno Rossi, Barbara Russo, (参考訳) ソフトウェアセキュリティの脆弱性は、悪用された後も未発見のままである。 脆弱性への攻撃のリンクは、専門家がインシデントを特定し、即座に応答するのに役立つ。 本稿では,攻撃記述からシステム脆弱性を特定するために,文変換器MPNETを用いた分類ツールであるVULDATを紹介する。 また,ATT&CKレポジトリから100件,CVEレポジトリから685件のアタック手法を適用した。 次に,VULDATの性能を文変換器に基づく他の8つの最先端分類器と比較する。 その結果,F1スコアが0.85,精度が0.86,リコールが0.83,F1スコアが0.85,F1スコアが0.83であった。 さらに,攻撃に関連する脆弱性の56%がVULDATで同定され,その61%がCVEリポジトリにあることがわかった。

Vulnerabilities in software security can remain undiscovered even after being exploited. Linking attacks to vulnerabilities helps experts identify and respond promptly to the incident. This paper introduces VULDAT, a classification tool using a sentence transformer MPNET to identify system vulnerabilities from attack descriptions. Our model was applied to 100 attack techniques from the ATT&CK repository and 685 issues from the CVE repository. Then, we compare the performance of VULDAT against the other eight state-of-the-art classifiers based on sentence transformers. Our findings indicate that our model achieves the best performance with F1 score of 0.85, Precision of 0.86, and Recall of 0.83. Furthermore, we found 56% of CVE reports vulnerabilities associated with an attack were identified by VULDAT, and 61% of identified vulnerabilities were in the CVE repository.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 安全分野における実験結果の再現性の重要性について

On the Importance of Reproducibility of Experimental Results Especially in the Domain of Security ( http://arxiv.org/abs/2407.06760v1 )

ライセンス: Link先を確認
Dmytro Petryk, Ievgen Kabin, Peter Langendörfer, Zoya Dyka, (参考訳) IoT、産業自動化、重要なインフラストラクチャの分野におけるセキュリティは、最近は最重要で、ホットな研究トピックである。 研究結果の信頼性を確保するためには、再現性が必要です。 過去の報告では、多くの出版物において、使用済み機器の詳細などの重要な情報が欠落している。 本稿では,実験装置に付随するデータシートで報告されたパラメータを検証するために実施した実験について報告する。 その結果,データシートと実世界のデータの間には大きな相違点があることが判明した。 これらの偏差は、位置、動き、レーザーショットの持続時間などの精度に関係している。 結果の再現性を向上させるために,研究グループは使用する機器のデータシートに与えられたデータを検証するとともに,cmや秒などの国際的に受け入れられている単位に測定設定パラメータを提供する。

Security especially in the fields of IoT, industrial automation and critical infrastructure is paramount nowadays and a hot research topic. In order to ensure confidence in research results they need to be reproducible. In the past we reported [18] that in many publications important information such as details about the equipment used are missing. In this paper we report on our own experiments that we run to verify the parameters reported in the datasheets that came along with our experimental equipment. Our results show that there are significant discrepancies between the datasheets and the real world data. These deviations concern accuracy of positions, movements, duration of laser shots etc. In order to improve reproducibility of results we therefore argue on the one hand that research groups verify the data given in datasheets of equipment they use and on the other hand that they provide measurement set-up parameters in globally accepted units such as cm, seconds, etc.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 非言語的社会的相互作用における信念予測のための心の理論の明示的モデリング

Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions ( http://arxiv.org/abs/2407.06762v1 )

ライセンス: Link先を確認
Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling, (参考訳) マルチモーダル入力から人間の社会的相互作用における信念とそのダイナミクスを予測するための、心の理論(ToM)ニューラルネットワークであるMToMnetを提案する。 ToMは効果的な非言語的コミュニケーションと協調のための鍵であるが、既存の信念モデリング手法には明示的なToMモデリングが含まれておらず、通常は1つか2つのモダリティに制限されている。 MToMnetは、コンテキストキュー(シーンビデオとオブジェクトロケーション)をエンコードし、個人固有のキュー(人間の視線とボディランゲージ)を、それぞれ個別のMindNetに統合する。 社会的認知とToMに関する先行研究から着想を得て,3種類のMToMnet変異体を提案する。 我々は,2つの現実的データセットに対するアプローチを評価し,その1つは信念の予測に焦点を当て,もう1つは信念のダイナミクスの予測について検討した。 以上の結果から,MToMnetは既存の手法をはるかに上回り,同時にパラメータも大幅に少なくなることが明らかとなった。 そこで本手法は,非言語的行動から人間の信念を強く予測し,人間とより効果的に協力することのできる,人工知能システムの将来的な研究に向けて,極めて有望な方向を導出する。

We propose MToMnet - a Theory of Mind (ToM) neural network for predicting beliefs and their dynamics during human social interactions from multimodal input. ToM is key for effective nonverbal human communication and collaboration, yet, existing methods for belief modelling have not included explicit ToM modelling or have typically been limited to one or two modalities. MToMnet encodes contextual cues (scene videos and object locations) and integrates them with person-specific cues (human gaze and body language) in a separate MindNet for each person. Inspired by prior research on social cognition and computational ToM, we propose three different MToMnet variants: two involving fusion of latent representations and one involving re-ranking of classification scores. We evaluate our approach on two challenging real-world datasets, one focusing on belief prediction, while the other examining belief dynamics prediction. Our results demonstrate that MToMnet surpasses existing methods by a large margin while at the same time requiring a significantly smaller number of parameters. Taken together, our method opens up a highly promising direction for future work on artificial intelligent systems that can robustly predict human beliefs from their non-verbal behaviour and, as such, more effectively collaborate with humans.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 近距離ネットワークの一般化境界

A Generalization Bound for Nearly-Linear Networks ( http://arxiv.org/abs/2407.06765v1 )

ライセンス: Link先を確認
Eugene Golikov, (参考訳) 非線形ネットワークを線形ネットワークの摂動とみなす。 このアプローチに基づき、線形に近いネットワークでは空でない新しい一般化境界を提案する。 非空の一般化境界を提案する以前の研究に対する大きな利点は、我々の境界がア・プリオリであることである。 我々の知る限りでは、これらはこの性質を持つニューラルネットに対する最初の非空一般化境界である。

We consider nonlinear networks as perturbations of linear ones. Based on this approach, we present novel generalization bounds that become non-vacuous for networks that are close to being linear. The main advantage over the previous works which propose non-vacuous generalization bounds is that our bounds are a-priori: performing the actual training is not required for evaluating the bounds. To the best of our knowledge, they are the first non-vacuous generalization bounds for neural nets possessing this property.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 多層貯留層計算による時間畳み込み

Temporal Convolution Derived Multi-Layered Reservoir Computing ( http://arxiv.org/abs/2407.06771v1 )

ライセンス: Link先を確認
Johannes Viehweg, Dominik Walther, Prof. Dr. -Ing. Patrick Mäder, (参考訳) 時系列の予測は、財務データの分析、フローのダイナミクスの予測、生物学的プロセスの理解など、様々な分野での課題である。 特に長い歴史に依存する混乱した時系列は、非常に難しい問題を引き起こす。 機械学習は、そのような時系列を予測するための有望なアプローチであることを示しているが、深いリカレントニューラルネットワークを使用する場合、長いトレーニング時間と多くのトレーニングデータを必要とする。 あるいは、貯水池コンピューティングアプローチを使用する場合、それは高い不確実性を持ち、通常、貯水池コンピューティングアプローチを使用する場合、多くのランダム初期化と広範囲なハイパーパラメータチューニングが伴う。 本稿では,貯水池の計算手法に着目し,貯水池の状態空間への入力データの新たなマッピングを提案する。 さらに,この手法を2つの新しいネットワークアーキテクチャに組み込むことにより,ニューラルネットワークの並列性,深さ,予測能力を向上し,ランダム性への依存度を低減させる。 本評価では,非カオス的およびカオス的挙動を呈するマッキーグラス方程式から時系列の集合を近似し,その予測能力について,状態ネットワークの反響や繰り返し単位のゲートに対するアプローチを比較した。 カオス時系列では、それぞれエコー状態ネットワークとゲートリカレントユニットとは対照的に、最大85.45\%$と最大87.90\%$の誤差低減が観察される。 さらに、既存のアプローチとは対照的に、非カオス時系列の99.99\%$の大幅な改善も観察する。

The prediction of time series is a challenging task relevant in such diverse applications as analyzing financial data, forecasting flow dynamics or understanding biological processes. Especially chaotic time series that depend on a long history pose an exceptionally difficult problem. While machine learning has shown to be a promising approach for predicting such time series, it either demands long training time and much training data when using deep recurrent neural networks. Alternative, when using a reservoir computing approach it comes with high uncertainty and typically a high number of random initializations and extensive hyper-parameter tuning when using a reservoir computing approach. In this paper, we focus on the reservoir computing approach and propose a new mapping of input data into the reservoir's state space. Furthermore, we incorporate this method in two novel network architectures increasing parallelizability, depth and predictive capabilities of the neural network while reducing the dependence on randomness. For the evaluation, we approximate a set of time series from the Mackey-Glass equation, inhabiting non-chaotic as well as chaotic behavior and compare our approaches in regard to their predictive capabilities to echo state networks and gated recurrent units. For the chaotic time series, we observe an error reduction of up to $85.45\%$ and up to $87.90\%$ in contrast to echo state networks and gated recurrent units respectively. Furthermore, we also observe tremendous improvements for non-chaotic time series of up to $99.99\%$ in contrast to existing approaches.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 動的自己回復型コミュニティ検出のための量子最適化の評価

Evaluating Quantum Optimization for Dynamic Self-Reliant Community Detection ( http://arxiv.org/abs/2407.06773v1 )

ライセンス: Link先を確認
David Bucher, Daniel Porawski, Benedikt Wimmer, Jonas Nüßlein, Corey O'Meara, Naeimeh Mohseni, Giorgio Cortiana, Claudia Linnhoff-Popien, (参考訳) 電力グリッドのパーティショニングは、回復力のある分散グリッドにとって重要な要件である。 電力生産は徐々に分散側にシフトするので、自己回復グリッドサブセットの動的同定は運用上重要である。 この問題は、よく知られたNP-hard Community Detection (CD)問題への修正として表現できる。 我々は、量子計算を用いて解くのに適した擬似非制約バイナリ最適化(QUBO)問題として定式化し、より高速に高品質なパーティションを見つけることが期待されている。 この定式化は、最大自己充足力とそれらの間を流れる最小限のパワーを持つコミュニティを見つけることを目的としている。 大規模化問題に対する量子最適化を評価するために,サブプロブレムQUBOを解く階層的分割法を開発した。 さらに,自己信頼を含むルーヴァンヒューリスティックのカスタマイズを提案する。 評価において、この問題は指数型ランタイムのスケーリングを古典的に検討することを最初に示す。 次に、異なるIEEEパワーシステムテストケースを用いて、D-Waveのハイブリッド量子古典解法、古典的ヒューリスティックス、分枝結合解法といった、複数のアプローチのソリューション品質をベンチマークする。 その結果, ハイブリッド解法は, 与えられた時間枠内で達成された解の質に関して, ディバイシブアルゴリズムと非ディバイシブアルゴリズムの両方で, 非常に有望な結果をもたらすことがわかった。 D-Waveの量子アニール(QA)ハードウェアを直接利用すると、パーティショニングは劣る。

Power grid partitioning is an important requirement for resilient distribution grids. Since electricity production is progressively shifted to the distribution side, dynamic identification of self-reliant grid subsets becomes crucial for operation. This problem can be represented as a modification to the well-known NP-hard Community Detection (CD) problem. We formulate it as a Quadratic Unconstrained Binary Optimization (QUBO) problem suitable for solving using quantum computation{\color{blue}, which is expected to find better-quality partitions faster. The formulation aims to find communities with maximal self-sufficiency and minimal power flowing between them}. To assess quantum optimization for sizeable problems, we develop a hierarchical divisive method that solves sub-problem QUBOs to perform grid bisections. Furthermore, we propose a customization of the Louvain heuristic that includes self-reliance. In the evaluation, we first demonstrate that this problem examines exponential runtime scaling classically. Then, using different IEEE power system test cases, we benchmark the solution quality for multiple approaches: D-Wave's hybrid quantum-classical solvers, classical heuristics, and a branch-and-bound solver. As a result, we observe that the hybrid solvers provide very promising results, both with and without the divisive algorithm, regarding solution quality achieved within a given time frame. Directly utilizing D-Wave's Quantum Annealing (QA) hardware shows inferior partitioning.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# ファジィc平均クラスタリングの新しい妥当性尺度

A new validity measure for fuzzy c-means clustering ( http://arxiv.org/abs/2407.06774v1 )

ライセンス: Link先を確認
Dae-Won Kim, Kwang H. Lee, (参考訳) ファジィc平均アルゴリズムから得られたファジィクラスタに対して,新しいクラスタ妥当性指数を提案する。 提案する妥当性指数はファジィクラスタ間のクラスタ間近接性を利用する。 クラスタ間近接は、クラスタ間のオーバーラップの度合いを測定するために使用される。 低近接値は、よく分割されたクラスタを指す。 最良のファジィc分割は、cに対するクラスタ間近接を最小化することによって得られる。 提案した指標の有効性と信頼性を示すために,よく知られたデータセットを検証した。

A new cluster validity index is proposed for fuzzy clusters obtained from fuzzy c-means algorithm. The proposed validity index exploits inter-cluster proximity between fuzzy clusters. Inter-cluster proximity is used to measure the degree of overlap between clusters. A low proximity value refers to well-partitioned clusters. The best fuzzy c-partition is obtained by minimizing inter-cluster proximity with respect to c. Well-known data sets are tested to show the effectiveness and reliability of the proposed index.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# プライバシー政策とGDPRの適合性に関する実証的研究

A BERT-based Empirical Study of Privacy Policies' Compliance with GDPR ( http://arxiv.org/abs/2407.06778v1 )

ライセンス: Link先を確認
Lu Zhang, Nabil Moukafih, Hamad Alamri, Gregory Epiphaniou, Carsten Maple, (参考訳) 2018年5月の実施以来、GDPR(General Data Protection Regulation)は、コンプライアンスを保証するために、データハンドリングのプラクティスを再検討し、改訂するよう企業に促している。 プライバシーポリシーは、ユーザーのプライバシの権利と企業のデータ慣行を通知する主要な手段であり、GDPR導入後の多くの企業によって大幅に更新された。 しかし、多くのプライバシーポリシーは、技術的な用語、長い説明、データプラクティスとユーザーの権利に関するあいまいな説明に満ちている。 これは、ユーザーや規制当局がこれらのプライバシーポリシーのGDPRコンプライアンスを手作業で検証する上で、困難なタスクである。 本研究では,GDPR(第13条)と5Gネットワークのプライバシポリシのコンプライアンス分析の課題に対処することを目的とする。 約70の異なる5G MNOから,手動でプライバシポリシを収集し,BERTベースの自動モデルを用いて分類を行った。 我々は、活気ある51$\%の企業がGDPRに強く固執していることを示します。 さらに,5Gネットワークにおけるプライバシーポリシーの可読性に関する実証的証拠を提示する。 我々は、様々な確立された可読性メトリクスを組み込んだ可読性分析ツールセットを採用した。 この調査結果は、現在のプライバシーポリシーの大半の可読性は依然として重大な課題であることを示している。 したがって、5Gプロバイダは、ユーティリティと全体的なユーザエクスペリエンスの両方を強化するために、これらのドキュメントの改訂に多大な労力を費やす必要がある。

Since its implementation in May 2018, the General Data Protection Regulation (GDPR) has prompted businesses to revisit and revise their data handling practices to ensure compliance. The privacy policy, which serves as the primary means of informing users about their privacy rights and the data practices of companies, has been significantly updated by numerous businesses post-GDPR implementation. However, many privacy policies remain packed with technical jargon, lengthy explanations, and vague descriptions of data practices and user rights. This makes it a challenging task for users and regulatory authorities to manually verify the GDPR compliance of these privacy policies. In this study, we aim to address the challenge of compliance analysis between GDPR (Article 13) and privacy policies for 5G networks. We manually collected privacy policies from almost 70 different 5G MNOs, and we utilized an automated BERT-based model for classification. We show that an encouraging 51$\%$ of companies demonstrate a strong adherence to GDPR. In addition, we present the first study that provides current empirical evidence on the readability of privacy policies for 5G network. we adopted readability analysis toolset that incorporates various established readability metrics. The findings empirically show that the readability of the majority of current privacy policies remains a significant challenge. Hence, 5G providers need to invest considerable effort into revising these documents to enhance both their utility and the overall user experience.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# プロンプト工学を用いた事前学習型大規模言語モデルを用いた生体医学的質問への回答

Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions ( http://arxiv.org/abs/2407.06779v1 )

ライセンス: Link先を確認
Wenxin Zhou, Thuy Hang Ngo, (参考訳) 我々のチームはBioASQ 2024 Task12bおよびSynergyタスクに参加し、PubMedデータベースから関連記事やスニペットを取得し、正確かつ理想的な回答を生成することで、バイオメディカルな質問に答えるシステムを構築しました。 本稿では,LLMのプロンプトエンジニアリングと応答後処理に着目した,事前学習型大規模言語モデル(LLM)に基づく2段階の情報検索と質問応答システムを提案する。 テキスト内数ショットの例でプロンプトを構築し、再サンプリングや不正な応答検出などの後処理技術を利用する。 この課題に対して、Mixtral、OpenAI GPT、Llama2など、様々な事前学習LLMモデルの性能を比較した。 本システムでは,文書検索における0.14 MAPスコア,スニペット検索における0.05 MAPスコア,イエス/ノー質問に対する0.96 F1スコア,ファクトイド質問に対する0.38 MRRスコア,タスク12bにおけるリスト質問に対する0.50 F1スコアを達成した。

Our team participated in the BioASQ 2024 Task12b and Synergy tasks to build a system that can answer biomedical questions by retrieving relevant articles and snippets from the PubMed database and generating exact and ideal answers. We propose a two-level information retrieval and question-answering system based on pre-trained large language models (LLM), focused on LLM prompt engineering and response post-processing. We construct prompts with in-context few-shot examples and utilize post-processing techniques like resampling and malformed response detection. We compare the performance of various pre-trained LLM models on this challenge, including Mixtral, OpenAI GPT and Llama2. Our best-performing system achieved 0.14 MAP score on document retrieval, 0.05 MAP score on snippet retrieval, 0.96 F1 score for yes/no questions, 0.38 MRR score for factoid questions and 0.50 F1 score for list questions in Task 12b.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# CoLA:条件付きドロップアウトと言語駆動のロバストなデュアルモーダル・サリアン・オブジェクト検出

CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection ( http://arxiv.org/abs/2407.06780v1 )

ライセンス: Link先を確認
Shuang Hao, Chunlin Zhong, He Tang, (参考訳) この深度・熱的情報は,従来のRGB画像を用いた有能な物体の検出に有用である。 しかし、デュアルモーダル・サリエント物体検出(SOD)モデルでは、ノイズ入力とモダリティの欠如に対する頑健性は不可欠であるが、まれに研究される。 この問題に対処するために,2つのコアコンポーネントからなる \textbf{Co}nditional Dropout と \textbf{LA}nguage-driven(\textbf{CoLA}) フレームワークを紹介する。 1) 言語駆動品質アセスメント(LQA): 事前学習した視覚言語モデルを学習者によって活用し、LQAは付加的な品質アノテーションを必要とせずに画像のコントリビューションを再検討する。 このアプローチは、ノイズ入力の影響を効果的に緩和する。 2) 条件付きドロップアウト(CD: Conditional Dropout) - 完全モダリティでモデルの性能を保ちながら、モダリティを欠いたシナリオにおけるモデルの適応性を高める学習手法。 CDは、モダリティミスを条件として扱うプラグイントレーニングスキームとして機能し、様々なデュアルモーダルSODモデルの全体的な堅牢性を強化する。 拡張実験により, 提案手法はモダリティ完全条件とモダリティ欠落条件の両方で, 最先端のデュアルモーダルSODモデルより優れていることが示された。 私たちは受け入れに応じてソースコードをリリースします。

The depth/thermal information is beneficial for detecting salient object with conventional RGB images. However, in dual-modal salient object detection (SOD) model, the robustness against noisy inputs and modality missing is crucial but rarely studied. To tackle this problem, we introduce \textbf{Co}nditional Dropout and \textbf{LA}nguage-driven(\textbf{CoLA}) framework comprising two core components. 1) Language-driven Quality Assessment (LQA): Leveraging a pretrained vision-language model with a prompt learner, the LQA recalibrates image contributions without requiring additional quality annotations. This approach effectively mitigates the impact of noisy inputs. 2) Conditional Dropout (CD): A learning method to strengthen the model's adaptability in scenarios with missing modalities, while preserving its performance under complete modalities. The CD serves as a plug-in training scheme that treats modality-missing as conditions, strengthening the overall robustness of various dual-modal SOD models. Extensive experiments demonstrate that the proposed method outperforms state-of-the-art dual-modal SOD models, under both modality-complete and modality-missing conditions. We will release source code upon acceptance.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# ファジィカラーモデルとカラークラスタリング問題に対するクラスタリングアルゴリズム

Fuzzy color model and clustering algorithm for color clustering problem ( http://arxiv.org/abs/2407.06782v1 )

ライセンス: Link先を確認
Dae-Won Kim, Kwang H. Lee, (参考訳) 本研究は,任意の色データに対する効率的なクラスタリング作業に焦点を当てた研究である。 この問題に対処するために,ファジィカラーモデルを用いた色データ固有の不確かさとあいまいさのモデル化を試みた。 色モデリングにファジィなアプローチを採用することで、隣り合う色の間のあいまいな領域をソフトに決定することができる。 提案したファジィカラーモデルは、3次元ファジィカラーボールと2つの色間距離を持つカラーメンバシップ計算法を定義した。 ファジィカラーモデルを用いて,色データの効率的な分割のためのファジィクラスタリングアルゴリズムを開発した。 各ファジィクラスタセットは、ファジィカラーセントロイドで表されるクラスタプロトタイプを有する。

The research interest of this paper is focused on the efficient clustering task for an arbitrary color data. In order to tackle this problem, we have tried to model the inherent uncertainty and vagueness of color data using fuzzy color model. By taking fuzzy approach to color modeling, we could make a soft decision for the vague regions between neighboring colors. The proposed fuzzy color model defined a three dimensional fuzzy color ball and color membership computation method with two inter-color distances. With the fuzzy color model, we developed a new fuzzy clustering algorithm for an efficient partition of color data. Each fuzzy cluster set has a cluster prototype which is represented by fuzzy color centroid.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 測度データを用いたポアソン方程式へのポアソン学習の収束率

Convergence rates for Poisson learning to a Poisson equation with measure data ( http://arxiv.org/abs/2407.06783v1 )

ライセンス: Link先を確認
Leon Bungert, Jeff Calder, Max Mihailescu, Kodjo Houssou, Amber Yuan, (参考訳) 本稿では,グラフに基づく半教師付き学習アルゴリズムであるPoisson Learningの連続収束率を,ラベル付き点に位置するDiracデルタの線形結合とラベル情報を持つソース項で解くことにより,離散的に証明する。 対応する連続方程式は、ユークリッド領域 $\Omega \subset \mathbb{R}^d$ の測度データを持つポアソン方程式である。 これらの方程式の特異性は困難であり、(1)ポアソン方程式の測度データと(およそ)ラジアル関数をボールで支持するときに定量的な誤差推定を証明しなければならない。 2) 帯域幅$\varepsilon>0$のランダムな幾何グラフ上での離散的連続収束率を証明するために, 定量的な変分法を用いる。 (3) グラフ熱核とのモル化によるグラフポアソン方程式の正則化方法を示し, ランダムな幾何グラフ上での熱核の微妙な漸近について検討する。 これら3つの柱を組み合わせることで、$O(\varepsilon^{\frac{1}{d+2}})$、$O(\varepsilon^{\frac{2-\sigma}{d+4}})$のような対数的因子までスケールする$L^1$収束率を得ることができ、$O(\varepsilon^{\frac{2-\sigma}{d+4}})$は均一に分散されたデータに対して$O(\varepsilon^{\frac{2-\sigma}{d+4}})$となる。 これらの値は高い確率で有効である:$\varepsilon\gg\left({\log n}/{n}\right)^q$ ここで$n$はグラフの頂点の数を表し、$q \approx \frac{1}{3d}$である。

In this paper we prove discrete to continuum convergence rates for Poisson Learning, a graph-based semi-supervised learning algorithm that is based on solving the graph Poisson equation with a source term consisting of a linear combination of Dirac deltas located at labeled points and carrying label information. The corresponding continuum equation is a Poisson equation with measure data in a Euclidean domain $\Omega \subset \mathbb{R}^d$. The singular nature of these equations is challenging and requires an approach with several distinct parts: (1) We prove quantitative error estimates when convolving the measure data of a Poisson equation with (approximately) radial function supported on balls. (2) We use quantitative variational techniques to prove discrete to continuum convergence rates on random geometric graphs with bandwidth $\varepsilon>0$ for bounded source terms. (3) We show how to regularize the graph Poisson equation via mollification with the graph heat kernel, and we study fine asymptotics of the heat kernel on random geometric graphs. Combining these three pillars we obtain $L^1$ convergence rates that scale, up to logarithmic factors, like $O(\varepsilon^{\frac{1}{d+2}})$ for general data distributions, and $O(\varepsilon^{\frac{2-\sigma}{d+4}})$ for uniformly distributed data, where $\sigma>0$. These rates are valid with high probability if $\varepsilon\gg\left({\log n}/{n}\right)^q$ where $n$ denotes the number of vertices of the graph and $q \approx \frac{1}{3d}$.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 地すべり予測のための物理インフォームドニューラルネットワークを目指して

Towards physics-informed neural networks for landslide prediction ( http://arxiv.org/abs/2407.06785v1 )

ライセンス: Link先を確認
Ashok Dahal, Luigi Lombardo, (参考訳) 地域規模の地すべり予測への解決策は、定義上は障害メカニズムの物理から切り離されたデータ駆動モデルに依存してきた。 このようなツールの成功と普及は、露骨な地理的手法ではなく、プロキシ変数を活用できる能力から来ており、後者は広い範囲で取得することが禁じられている。 我々の研究は物理インフォームドニューラルネットワーク (PINN) アプローチを実装し, 標準データ駆動型アーキテクチャ, ニューマーク斜面安定法に典型的な永久変形を解くための中間的制約を追加した。 これは、一般的なプロキシ変数から地理的パラメータを明示的に取得し、利用可能なコサイスミックなランドサイドインベントリに関して損失関数を最小化するニューラルネットワークに変換される。 この結果が有望であるのは,我々のモデルが標準感受性出力の形式で優れた予測性能を得られるだけでなく,その過程では,地域規模で予測される地形特性の地図も生成するからである。 このようなアーキテクチャは、他の研究で確認された場合、PINNベースの準リアルタイム予測に向けて開放される可能性がある、コサイスミックな地すべり予測に取り組むために構築されている。

For decades, solutions to regional scale landslide prediction have mostly relied on data-driven models, by definition, disconnected from the physics of the failure mechanism. The success and spread of such tools came from the ability to exploit proxy variables rather than explicit geotechnical ones, as the latter are prohibitive to acquire over broad landscapes. Our work implements a Physics Informed Neural Network (PINN) approach, thereby adding to a standard data-driven architecture, an intermediate constraint to solve for the permanent deformation typical of Newmark slope stability methods. This translates into a neural network tasked with explicitly retrieving geotechnical parameters from common proxy variables and then minimize a loss function with respect to the available coseismic landside inventory. The results are very promising, because our model not only produces excellent predictive performance in the form of standard susceptibility output, but in the process, also generates maps of the expected geotechnical properties at a regional scale. Such architecture is therefore framed to tackle coseismic landslide prediction, something that, if confirmed in other studies, could open up towards PINN-based near-real-time predictions.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# 準備・測定・ベルシナリオにおける測定不適合性の認定

Certifying measurement incompatibility in prepare-and-measure and Bell scenarios ( http://arxiv.org/abs/2407.06787v1 )

ライセンス: Link先を確認
Sophie Egelhaaf, Jef Pauwels, Marco Túlio Quintino, Roope Uola, (参考訳) 本稿では,PMシナリオにおける測定不適合性の検証の問題について考察する。 我々は、相容れないが、PMシナリオにおいて古典的な優位性を持つ量子に繋がることができない様々な量子ビット測定の族を提示する。 この例は、一組の量子二コトミック測度がPMシナリオで不整合性を証明できることを示す一般的な定理によって得られ、その不整合性が最大絡み合った状態を共有する二部形式ベルシナリオで証明できる場合に限る。 我々の枠組みは自然に、その次元性を高めて古典的なシミュレーションにより多くの力を与える、相容れないというより強い概念の階層を示唆している。 量子ビットに対しては、トリオシミュレーションに対して不整合性を証明できる測定の例を示し、このフレームワークにおいて最も強力な量子ビットの概念であることを示す。

We consider the problem of certifying measurement incompatibility in a prepare-and-measure (PM) scenario. We present different families of sets of qubit measurements which are incompatible, but cannot lead to any quantum over classical advantage in PM scenarios. Our examples are obtained via a general theorem which proves a set of qubit dichotomic measurements can have their incompatibility certified in a PM scenario if and only if their incompatibility can be certified in a bipartite Bell scenario where the parties share a maximally entangled state. Our framework naturally suggests a hierarchy of increasingly stronger notions of incompatibility, in which more power is given to the classical simulation by increasing its dimensionality. For qubits, we give an example of measurements whose incompatibility can be certified against trit simulations, which we show is the strongest possible notion for qubits in this framework.
翻訳日:2024-07-10 18:17:01 公開日:2024-07-09
# ERQ:視覚変換器のトレーニング後量子化における誤差低減

ERQ: Error Reduction for Post-Training Quantization of Vision Transformers ( http://arxiv.org/abs/2407.06794v1 )

ライセンス: Link先を確認
Yunshan Zhong, Jiawei Hu, You Huang, Yuxin Zhang, Rongrong Ji, (参考訳) 視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。 しかし、既存の方法は通常、量子化された重みとアクティベーションの間の複雑な相互依存性を見落とし、かなりの量子化誤差をもたらす。 本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。 ERQはまず、アクティベーション量子化誤差の最小化をリッジ回帰問題として戦略的に定式化したアクティベーション量子化誤差低減(Aqer)を導入し、それをフル精度で重みを更新することで対処する。 その後、ERQはウェイト量子化による量子化誤差を軽減するために反復的なアプローチを採用するウェイト量子化誤差低減(Wqer)を導入している。 各イテレーションにおいて、量子化された重みの丸め方向を改良するために、実験的に導出された効率的なプロキシが、重みの量子化誤差を縮めるためにリッジ回帰解法と組み合わせられる。 提案手法の有効性を実験的に検証した。 特に、ERQはW3A4 ViT-Sの精度を22.36%上回っている。

Post-training quantization (PTQ) for vision transformers (ViTs) has garnered significant attention due to its efficiency in compressing models. However, existing methods typically overlook the intricate interdependence between quantized weight and activation, leading to considerable quantization error. In this paper, we propose ERQ, a two-step PTQ approach meticulously crafted to sequentially reduce the quantization error arising from activation and weight quantization. ERQ first introduces Activation quantization error reduction (Aqer) that strategically formulates the minimization of activation quantization error as a Ridge Regression problem, tackling it by updating weights with full-precision. Subsequently, ERQ introduces Weight quantization error reduction (Wqer) that adopts an iterative approach to mitigate the quantization error induced by weight quantization. In each iteration, an empirically derived, efficient proxy is employed to refine the rounding directions of quantized weights, coupled with a Ridge Regression solver to curtail weight quantization error. Experimental results attest to the effectiveness of our approach. Notably, ERQ surpasses the state-of-the-art GPTQ by 22.36% in accuracy for W3A4 ViT-S.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# CycleSAM と PromptSAM を併用した一眼手術シーン分割

CycleSAM: One-Shot Surgical Scene Segmentation using Cycle-Consistent Feature Matching to Prompt SAM ( http://arxiv.org/abs/2407.06795v1 )

ライセンス: Link先を確認
Aditya Murali, Pietro Mascagni, Didier Mutter, Nicolas Padoy, (参考訳) 最近導入されたSegment-Anything Model (SAM)は、セグメンテーションモデルの開発を大幅に加速する可能性がある。 しかし,術中画像へのSAM直接適用には,(1)検査時の画像特異的なプロンプトの要求,(2)自然画像と外科画像の領域ギャップによる完全自動セグメンテーションの防止,など,重要な制限がある。 そこで本研究では,単発手術シーンセグメンテーションのアプローチであるCycleSAMを提案し,各オブジェクトクラスに対応するテスト画像中の点を自動的に識別し,SAMにオブジェクトマスクの生成を促す。 高忠実度マッチングを実現するために,テスト画像内の点提案を強制し,トレーニング画像内の対象前景領域内の点に再マッチする空間的周期整合性制約を導入する。 そして,SAMの視覚的特徴を直接利用するのではなく,自己監督型で手術画像に事前訓練されたResNet50エンコーダを用いて,高いラベル効率を維持する。 そこで我々はCycleSAMを2つの多様な外科的セグメンテーションデータセットのワンショットセグメンテーションで評価し、ベースラインアプローチを総合的に上回り、完全に教師されたパフォーマンスの最大50%に到達した。

The recently introduced Segment-Anything Model (SAM) has the potential to greatly accelerate the development of segmentation models. However, directly applying SAM to surgical images has key limitations including (1) the requirement of image-specific prompts at test-time, thereby preventing fully automated segmentation, and (2) ineffectiveness due to substantial domain gap between natural and surgical images. In this work, we propose CycleSAM, an approach for one-shot surgical scene segmentation that uses the training image-mask pair at test-time to automatically identify points in the test images that correspond to each object class, which can then be used to prompt SAM to produce object masks. To produce high-fidelity matches, we introduce a novel spatial cycle-consistency constraint that enforces point proposals in the test image to rematch to points within the object foreground region in the training image. Then, to address the domain gap, rather than directly using the visual features from SAM, we employ a ResNet50 encoder pretrained on surgical images in a self-supervised fashion, thereby maintaining high label-efficiency. We evaluate CycleSAM for one-shot segmentation on two diverse surgical semantic segmentation datasets, comprehensively outperforming baseline approaches and reaching up to 50% of fully-supervised performance.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# 無線信号分類における逆例対策

Countermeasures Against Adversarial Examples in Radio Signal Classification ( http://arxiv.org/abs/2407.06796v1 )

ライセンス: Link先を確認
Lu Zhang, Sangarapillai Lambotharan, Gan Zheng, Basil AsSadhan, Fabio Roli, (参考訳) ディープラーニングアルゴリズムは、自動変調分類を含む多くの通信ネットワーク設計問題において強力であることが示されている。 しかし、敵例と呼ばれる慎重な攻撃に対して脆弱である。 したがって、ディープラーニングアルゴリズムへの無線ネットワークの依存は、無線ネットワークのセキュリティと運用に深刻な脅威をもたらす。 本稿では,変調分類における逆例に対する対策として,初めて提案する。 本対策は,ラベルスムース化とガウスノイズ注入により強化されたニューラルリジェクション技術に基づいて,高い精度で敵のサンプルを検出し,拒否することができる。 提案手法は,ディープラーニングに基づく変調分類システムを敵の例から保護できることを示す。

Deep learning algorithms have been shown to be powerful in many communication network design problems, including that in automatic modulation classification. However, they are vulnerable to carefully crafted attacks called adversarial examples. Hence, the reliance of wireless networks on deep learning algorithms poses a serious threat to the security and operation of wireless networks. In this letter, we propose for the first time a countermeasure against adversarial examples in modulation classification. Our countermeasure is based on a neural rejection technique, augmented by label smoothing and Gaussian noise injection, that allows to detect and reject adversarial examples with high accuracy. Our results demonstrate that the proposed countermeasure can protect deep-learning based modulation classification systems against adversarial examples.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# ED-VAE:変分オートエンコーダにおけるELBOのエントロピー分解

ED-VAE: Entropy Decomposition of ELBO in Variational Autoencoders ( http://arxiv.org/abs/2407.06797v1 )

ライセンス: Link先を確認
Fotios Lygerakis, Elmar Rueckert, (参考訳) 従来の変分オートエンコーダ(VAE)は、エビデンス・ロウアー・バウンド(ELBO)の定式化の制限によって制約される。 これらの制限は、VAEが高品質なサンプルを生成し、明確で解釈可能な潜在表現を提供する能力を阻害する。 本研究は、エントロピーとクロスエントロピー成分を明示的に含むELBOの新たな再形式であるエントロピー分解変分オートエンコーダ(ED-VAE)を紹介する。 この改定によりモデルの柔軟性が大幅に向上し、複雑で非標準的な事前処理が統合される。 潜在空間の符号化と正規化に関するより詳細な制御を提供することで、ED-VAEは解釈可能性を改善するだけでなく、潜在変数と観測データの間の複雑な相互作用を効果的に捉え、それによって生成性能が向上する。

Traditional Variational Autoencoders (VAEs) are constrained by the limitations of the Evidence Lower Bound (ELBO) formulation, particularly when utilizing simplistic, non-analytic, or unknown prior distributions. These limitations inhibit the VAE's ability to generate high-quality samples and provide clear, interpretable latent representations. This work introduces the Entropy Decomposed Variational Autoencoder (ED-VAE), a novel re-formulation of the ELBO that explicitly includes entropy and cross-entropy components. This reformulation significantly enhances model flexibility, allowing for the integration of complex and non-standard priors. By providing more detailed control over the encoding and regularization of latent spaces, ED-VAE not only improves interpretability but also effectively captures the complex interactions between latent variables and observed data, thus leading to better generative performance.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# LLM vs. 人間によって認可された文書の弁護士の選好について

It Cannot Be Right If It Was Written by AI: On Lawyers' Preferences of Documents Perceived as Authored by an LLM vs a Human ( http://arxiv.org/abs/2407.06798v1 )

ライセンス: Link先を確認
Jakub Harasta, Tereza Novotná, Jaromir Savelka, (参考訳) 大きな言語モデル(LLM)は、ある種類の法律文書を自動的に生成する未来を可能にする。 これは、法的なプロセスを合理化し、法的なサービスのコストを下げ、司法へのアクセスを劇的に増やす大きな可能性を秘めている。 多くの研究者は、法的領域におけるタスクを支援するLLMベースのアプリケーションの提案と評価に力を入れているが、法律専門家がLLMによって生成されたと信じている場合、どのようにコンテンツが知覚されるかについて、注目すべき調査が欠如している。 しかし、過度な信頼性や根拠のない懐疑論が、そのような文書が適切な法的結果をもたらすかどうかに影響を及ぼす可能性があるため、これは重要なポイントである。 この研究は、成熟した生成AIシステムへの継続的な移行の文脈において必要な分析である。 具体的には,弁護士による「法的文書の認識」(n=75)は,その起源(人間工法とAI生成法)によって異なるかを検討した。 参加者は、その正しさと言語質に焦点を当てた文書を評価した。 我々の分析では、AIによって生成されたと考えられるものよりも、人間によって作成されたと考えられる文書が明らかに好まれていた。 同時に、ほとんどの参加者は、ドキュメントが自動的に生成される未来を期待しています。 これらの知見は、法律実務者、政策立案者、立法者が法的文書生成技術の実装と採用を責任を持って行い、最近の技術発展を反映して法プロセスの更新を行うために必要な議論を促進するために活用することができる。

Large Language Models (LLMs) enable a future in which certain types of legal documents may be generated automatically. This has a great potential to streamline legal processes, lower the cost of legal services, and dramatically increase access to justice. While many researchers focus their efforts on proposing and evaluating LLM-based applications supporting tasks in the legal domain, there is a notable lack of investigations into how legal professionals perceive content if they believe it has been generated by an LLM. Yet, this is a critical point as over-reliance or unfounded skepticism may influence whether such documents bring about appropriate legal consequences. This study is the necessary analysis in the context of the ongoing transition towards mature generative AI systems. Specifically, we examined whether the perception of legal documents' by lawyers (n=75) varies based on their assumed origin (human-crafted vs AI-generated). The participants evaluated the documents focusing on their correctness and language quality. Our analysis revealed a clear preference for documents perceived as crafted by a human over those believed to be generated by AI. At the same time, most of the participants are expecting the future in which documents will be generated automatically. These findings could be leveraged by legal practitioners, policy makers and legislators to implement and adopt legal document generation technology responsibly, and to fuel the necessary discussions into how legal processes should be updated to reflect the recent technological developments.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# 学習と忘れる - ASRファンデーションモデルに新しい言語を追加する

Learn and Don't Forget: Adding a New Language to ASR Foundation Models ( http://arxiv.org/abs/2407.06800v1 )

ライセンス: Link先を確認
Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales, (参考訳) ファンデーションASRモデルは、Whisperの100言語など、多くの言語をサポートすることが多い。 しかしながら、オリジナルの言語セットのパフォーマンスを維持しながら、追加の、通常は低リソースの言語を統合する作業は限られている。 微調整は単純ではあるが、元の集合の精度を低下させることがある。 適応パラメータを利用する3つのアプローチを比較する: ソフト言語コードチューニング、言語コードのみのトレーニング、ソフトプロンプトチューニング、事前トークンのトレーニング、小さなパラメータセットが最適化されたLoRA。 Elastic Weight Consolidation (EWC)は、特定のターゲット言語のパフォーマンスを維持する可能性を備えた代替の妥協を提供する。 結果は、直接微調整は、新しい言語で最高のパフォーマンスをもたらすが、既存の言語能力は低下することを示している。 EWCは特定の言語でこの問題に対処できる。 適応パラメータのみを使用する場合、言語能力は維持されるが、新しい言語の性能は維持される。

Foundation ASR models often support many languages, e.g. 100 languages in Whisper. However, there has been limited work on integrating an additional, typically low-resource, language, while maintaining performance on the original language set. Fine-tuning, while simple, may degrade the accuracy of the original set. We compare three approaches that exploit adaptation parameters: soft language code tuning, train only the language code; soft prompt tuning, train prepended tokens; and LoRA where a small set of additional parameters are optimised. Elastic Weight Consolidation (EWC) offers an alternative compromise with the potential to maintain performance in specific target languages. Results show that direct fine-tuning yields the best performance for the new language but degrades existing language capabilities. EWC can address this issue for specific languages. If only adaptation parameters are used, the language capabilities are maintained but at the cost of performance in the new language.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# 修正分類における対人攻撃に対するハイブリッド・トレーニング・タイムと実行時防御

A Hybrid Training-time and Run-time Defense Against Adversarial Attacks in Modulation Classification ( http://arxiv.org/abs/2407.06807v1 )

ライセンス: Link先を確認
Lu Zhang, Sangarapillai Lambotharan, Gan Zheng, Guisheng Liao, Ambra Demontis, Fabio Roli, (参考訳) コンピュータビジョンや自然言語処理など,多くのアプリケーションにおけるディープラーニングの優れたパフォーマンスに触発された最近の研究は,次世代の無線ネットワークを開発するためのディープニューラルネットワークの適用に重点を置いている。 しかし、近年の研究では、非知覚的かつ慎重に設計された敵の例(攻撃)が、分類精度を著しく低下させることが指摘されている。 本稿では,機械学習に基づく無線信号(変調)分類を敵攻撃から保護するための,訓練時間と実行時間の両方の防御技術に基づく防御機構について検討する。 トレーニングタイムディフェンスは対向的なトレーニングとラベルの平滑化で構成され、ランタイムディフェンスはサポートベクターマシンベースのニューラルリジェクション(NR)を採用している。 ホワイトボックスのシナリオと実際のデータセットを考慮すると、提案手法が既存の最先端技術より優れていることを示す。

Motivated by the superior performance of deep learning in many applications including computer vision and natural language processing, several recent studies have focused on applying deep neural network for devising future generations of wireless networks. However, several recent works have pointed out that imperceptible and carefully designed adversarial examples (attacks) can significantly deteriorate the classification accuracy. In this paper, we investigate a defense mechanism based on both training-time and run-time defense techniques for protecting machine learning-based radio signal (modulation) classification against adversarial attacks. The training-time defense consists of adversarial training and label smoothing, while the run-time defense employs a support vector machine-based neural rejection (NR). Considering a white-box scenario and real datasets, we demonstrate that our proposed techniques outperform existing state-of-the-art technologies.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# ガウスパルスエンベロープを用いた量子電池の2光子充電

Two-photon charging of a quantum battery with a Gaussian pulse envelope ( http://arxiv.org/abs/2407.06810v1 )

ライセンス: Link先を確認
C. A. Downing, M. S. Ukhtary, (参考訳) 量子エネルギー科学は、量子レベルでのエネルギーの生成、転送、貯蔵に関心を持つ領域として急速に発展しつつある。 特に、量子電池は、電気化学的等価量と比較して、その性能を高めるために量子力学の不思議を利用することができる。 ここでは,2光子充電プロトコルにより,蓄電エネルギーの指数的向上が量子電池によって達成されることを示す。 理論的には、量子調和振動子としてモデル化された量子バッテリを、二次場(ガウスパルスエンベロープによって特徴づけられる)によって駆動されると、バッテリのスクイーズが発生する。 この量子スクイーズにより、電池の人口が指数関数的にボゾンエネルギーのラグを上昇させることが保証される。 本研究は, 連続変数で定義された量子オブジェクトに大量のエネルギーを高速に蓄積する機構を実証し, 様々な量子光学プラットフォームで実験的に検討する。

Quantum energy science is rapidly emerging as a domain interested in the generation, transfer and storage of energy at the quantum level. In particular, quantum batteries have the scope to exploit the wonders of quantum mechanics in order to boost their performance as compared to their electrochemical equivalents. Here we show how an exponential enhancement in stored energy can be achieved with a quantum battery thanks to a two-photon charging protocol. We consider theoretically a quantum battery modelled as a quantum harmonic oscillator, which when driven by a quadratic field (manifested by a Gaussian pulse envelope) gives rise to squeezing of the battery. This quantum squeezing ensures that the population of the battery is driven exponentially up its bosonic energy ladder. Our results demonstrate a plausible mechanism for quickly storing a vast amount of energy in a quantum object defined by continuous variables, which may be explored experimentally in a variety of quantum optical platforms.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# Richelieu: AI外交のための自己進化型LLMベースのエージェント

Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy ( http://arxiv.org/abs/2407.06813v1 )

ライセンス: Link先を確認
Zhenyu Guan, Xiangyu Kong, Fangwei Zhong, Yizhou Wang, (参考訳) 外交は人間社会における最も洗練された活動の1つである。 複数の当事者やエージェント間の複雑な相互作用には、社会的推論、交渉術、長期戦略計画など様々な能力が含まれる。 従来のAIエージェントは、複数のエージェントを含むタスクにおいて、多段階ゲームやより大きなアクションスペースを扱う能力を確実に証明している。 しかし外交は、特に必要な交渉段階を考慮して、決定空間の停滞を伴う。 近年, LLMエージェントは, 複雑なマルチエージェント環境において, 従来のエージェントの境界を拡張できる可能性を示しているが, 複雑なマルチエージェント環境において, 非常に長い計画期間を扱うには不十分である。 最先端のLLM技術を活用して、我々は、より強力なLLMベースの社会エージェントに3つのコアと必須の機能を組み合わせることで、高度に包括的なマルチエージェントミッションのために、AIの上限を人間のようなエージェントに向けて探索する第一歩を踏み出します。 1) 記憶とリフレクションを有する戦略的プランナー 2 社会的理由づけによる目標志向の交渉 3) 自己プレイゲームによって記憶を増強し, ループ内の人間を介さずに自己進化する。

Diplomacy is one of the most sophisticated activities in human society. The complex interactions among multiple parties/ agents involve various abilities like social reasoning, negotiation arts, and long-term strategy planning. Previous AI agents surely have proved their capability of handling multi-step games and larger action spaces on tasks involving multiple agents. However, diplomacy involves a staggering magnitude of decision spaces, especially considering the negotiation stage required. Recently, LLM agents have shown their potential for extending the boundary of previous agents on a couple of applications, however, it is still not enough to handle a very long planning period in a complex multi-agent environment. Empowered with cutting-edge LLM technology, we make the first stab to explore AI's upper bound towards a human-like agent for such a highly comprehensive multi-agent mission by combining three core and essential capabilities for stronger LLM-based societal agents: 1) strategic planner with memory and reflection; 2) goal-oriented negotiate with social reasoning; 3) augmenting memory by self-play games to self-evolving without any human in the loop.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# Answer Set Semantics GL'88, GL'91, GK'14, D-V'12

Historical Review of Variants of Informal Semantics for Logic Programs under Answer Set Semantics: GL'88, GL'91, GK'14, D-V'12 ( http://arxiv.org/abs/2407.06814v1 )

ライセンス: Link先を確認
Yuliya Lierler, (参考訳) このノートは、応答集合のセマンティクスの下での論理プログラミングに関連する非公式なセマンティクスの歴史的調査を示す。 私たちはこれらを統一的な用語でレビューし、Answer Set ProgrammingとASP-Prolog – 人工知能における2つの顕著な知識表現と推論パラダイム – の2つのパラダイムと整合させる。 論理プログラミングの理論と実践(TPLP)

This note presents a historical survey of informal semantics that are associated with logic programming under answer set semantics. We review these in uniform terms and align them with two paradigms: Answer Set Programming and ASP-Prolog -- two prominent Knowledge Representation and Reasoning Paradigms in Artificial Intelligence. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# AstroSpy:Joint Image-Spectral Representationによる天文学におけるフェイク画像の検出について

AstroSpy: On detecting Fake Images in Astronomy via Joint Image-Spectral Representations ( http://arxiv.org/abs/2407.06817v1 )

ライセンス: Link先を確認
Mohammed Talha Alam, Raza Imam, Mohsen Guizani, Fakhri Karray, (参考訳) AI生成画像の流行は、天文学的な画像の真正性、特に安定拡散のような高度なテキストと画像のモデルが、非常に現実的な合成サンプルを生成することへの懸念を提起している。 既存の検出方法は、主に畳み込みニューラルネットワーク(CNN)やスペクトル分析に基づいており、独立して使用する場合に制限がある。 本稿では、スペクトル特徴と画像特徴を統合したハイブリッドモデルAstroSpyについて述べる。 AstroSpyは、NASAの実際の画像とAI生成のフェイク(約18kサンプル)のユニークなデータセットに基づいて、空間情報とスペクトル情報を融合するためにデュアルパスウェイアーキテクチャを利用している。 このアプローチにより、AstroSpyは、本物の天文学的画像を特定する上で、優れたパフォーマンスを実現することができる。 大規模な評価は、AstroSpyの有効性とロバスト性を示し、ドメイン内およびクロスドメインのタスクにおいてベースラインモデルよりも大幅に優れており、天文学における誤った情報に対処する可能性を示している。

The prevalence of AI-generated imagery has raised concerns about the authenticity of astronomical images, especially with advanced text-to-image models like Stable Diffusion producing highly realistic synthetic samples. Existing detection methods, primarily based on convolutional neural networks (CNNs) or spectral analysis, have limitations when used independently. We present AstroSpy, a hybrid model that integrates both spectral and image features to distinguish real from synthetic astronomical images. Trained on a unique dataset of real NASA images and AI-generated fakes (approximately 18k samples), AstroSpy utilizes a dual-pathway architecture to fuse spatial and spectral information. This approach enables AstroSpy to achieve superior performance in identifying authentic astronomical images. Extensive evaluations demonstrate AstroSpy's effectiveness and robustness, significantly outperforming baseline models in both in-domain and cross-domain tasks, highlighting its potential to combat misinformation in astronomy.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# 物体検出を用いたキューポイント推定

Cue Point Estimation using Object Detection ( http://arxiv.org/abs/2407.06823v1 )

ライセンス: Link先を確認
Giulia Argüello, Luca A. Lanzendörfer, Roger Wattenhofer, (参考訳) キューポイントは、DJミキシングにおける2つの音楽間の遷移における時間的境界を示し、自律的なDJシステムにおいて重要な要素であり、ライブミキシングのためのものである。 本研究では,コンピュータビジョンオブジェクト検出タスクとして解釈された自動キューポイント推定手法を提案する。 提案システムは,学習済みの物体検出変換器をベースとして,新しいキューポイントデータセットを微調整する。 提供されたデータセットには、人の専門家による21kの注釈付きキューポイントと、約5kの個々のトラックのメトロノーム情報が含まれており、このデータセットは、以前利用可能なキューポイントデータセットよりも35倍大きい。 従来手法とは異なり,提案手法では低レベル音楽情報解析は必要としなかった。 さらに,提案手法は,電子ダンス音楽で一般的に強調されるハイレベルな音楽構造である,フレーズの忠実性を示す。 コード、モデルチェックポイント、データセットが公開されている。

Cue points indicate possible temporal boundaries in a transition between two pieces of music in DJ mixing and constitute a crucial element in autonomous DJ systems as well as for live mixing. In this work, we present a novel method for automatic cue point estimation, interpreted as a computer vision object detection task. Our proposed system is based on a pre-trained object detection transformer which we fine-tune on our novel cue point dataset. Our provided dataset contains 21k manually annotated cue points from human experts as well as metronome information for nearly 5k individual tracks, making this dataset 35x larger than the previously available cue point dataset. Unlike previous methods, our approach does not require low-level musical information analysis, while demonstrating increased precision in retrieving cue point positions. Moreover, our proposed method demonstrates high adherence to phrasing, a type of high-level music structure commonly emphasized in electronic dance music. The code, model checkpoints, and dataset are made publicly available.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# VRDSynth:多言語で視覚的にリッチな文書情報抽出プログラム

VRDSynth: Synthesizing Programs for Multilingual Visually Rich Document Information Extraction ( http://arxiv.org/abs/2407.06826v1 )

ライセンス: Link先を確認
Thanh-Dat Nguyen, Tung Do-Viet, Hung Nguyen-Duy, Tuan-Hai Luu, Hung Le, Bach Le, Patanamon, Thongtanunam, (参考訳) 企業は、意思決定のために、レシート、医療記録、保険フォームなどの視覚的に豊かなドキュメント(VRD)を問い合わせる必要があります。 VRDからエンティティを抽出する既存のテクニックは、新しいレイアウトに苦労するか、あるいは広範な事前トレーニングデータを必要とする。 事前学習データを必要としない多言語VRDから実体関係を自動的に抽出するプログラム合成法であるVRDSynthを紹介する。 VRDドメインの複雑さを捉えるため、合成プログラムを記述するための空間的およびテキスト的関係をキャプチャするドメイン固有言語(DSL)を設計する。 また,空間関係の頻繁化,探索空間の刈り取り,肯定的,否定的,排他的なプログラムを組み合わせることで,カバー範囲を向上する新しい合成アルゴリズムを考案した。 セマンティックエンティティリンクのためのFUNSDおよびXFUNDベンチマークを用いて,8言語で1,592種類のVRDSynthを評価する。 VRDSynthは8言語中5、6、7言語で最先端の事前訓練モデル(LayoutXLM、InfoXLMBase、XLMRobertaBase)より優れており、英語ではLayoutXLMよりもF1スコアが42%向上している。 モデルの拡張性をテストするため、自動テーブル認識によるVRDSynthをさらに改善し、VRDSynth(Table)を作成し、事前訓練されたモデルの拡張バージョンであるInfoXLM(Large)とXLMRoberta(Large)と比較する。 VRDSynth(Table)は8言語中4言語、平均F1スコアでこれらのベースラインを上回っている。 VRDSynthはメモリフットプリント(1Mと380MB対1.48GB、LayoutXLMは3GB)を大幅に削減し、同様の時間効率を維持している。

Businesses need to query visually rich documents (VRDs) like receipts, medical records, and insurance forms to make decisions. Existing techniques for extracting entities from VRDs struggle with new layouts or require extensive pre-training data. We introduce VRDSynth, a program synthesis method to automatically extract entity relations from multilingual VRDs without pre-training data. To capture the complexity of VRD domain, we design a domain-specific language (DSL) to capture spatial and textual relations to describe the synthesized programs. Along with this, we also derive a new synthesis algorithm utilizing frequent spatial relations, search space pruning, and a combination of positive, negative, and exclusive programs to improve coverage. We evaluate VRDSynth on the FUNSD and XFUND benchmarks for semantic entity linking, consisting of 1,592 forms in 8 languages. VRDSynth outperforms state-of-the-art pre-trained models (LayoutXLM, InfoXLMBase, and XLMRobertaBase) in 5, 6, and 7 out of 8 languages, respectively, improving the F1 score by 42% over LayoutXLM in English. To test the extensibility of the model, we further improve VRDSynth with automated table recognition, creating VRDSynth(Table), and compare it with extended versions of the pre-trained models, InfoXLM(Large) and XLMRoberta(Large). VRDSynth(Table) outperforms these baselines in 4 out of 8 languages and in average F1 score. VRDSynth also significantly reduces memory footprint (1M and 380MB vs. 1.48GB and 3GB for LayoutXLM) while maintaining similar time efficiency.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# 反復計測による気象学的に有用な猫状態の生成

Generation of a metrologically useful cat state through repetitive measurements ( http://arxiv.org/abs/2407.06829v1 )

ライセンス: Link先を確認
Mamiko Tatsuta, Yuichiro Matsuzaki, Hiroki Kuji, Akira Shimizu, (参考訳) 絡み合いに基づく量子力学の最近の進歩は顕著である。 一般化された猫の状態と量子力学における感度の基本的な関係が最近確立されている。 一般化された猫状態は、マクロ的に異なる状態のコヒーレンスを示す指標によって特徴づけられる。 この基準は、指数的に多くの状態の古典的な混合を含む、一般化された猫状態として多様な状態の同定を可能にする。 しかし、大規模な一般化されたネコ状態の調製は、現在の技術では依然として困難である。 ここでは、Nスピンの量子スピン系上で繰り返し測定することで、気象学的に有用な猫の状態を生成するプロトコルを提案し、スピンアンサンブルと呼ぶ。 古典的限界を超えるためのセンサーとして用いられる状態は、気象学的に有用な猫状態と呼ばれ、マクロ的に異なる状態のコヒーレンスを示す指標によって特徴付けられる。 スピンアンサンブルがアシラリー量子ビットと結合されると、その全磁化から読み出すことができる。 スピンアンサンブルの熱平衡状態から始めて、アシラリー量子ビットを用いた全磁化の反復測定によりスピンアンサンブル間のコヒーレンスを高めることができることを示した。 特に,本手法では, スピンアンサンブルの制御は不要である。 実験的実現の可能性として,超伝導フラックス量子ビットとシリコン中のドナースピンからなるハイブリッドシステムについて論じる。 我々の結果は、絡み合いの強い量子メートル法の実現の道を開く。

Recent advancements in entanglement-based quantum metrology have been significant. A fundamental connection between generalized cat states and sensitivity in quantum metrology has recently been established. Generalized cat states are characterized by an index indicating coherence among macroscopically distinct states. This criterion enables the identification of diverse states as generalized cat states, encompassing classical mixtures of exponentially large numbers of states. However, preparing large generalized cat states remains challenging with current technology. Here we propose a protocol to generate metrologically useful cat states through repetitive measurements on a quantum spin system of N spins, which we call a spin ensemble. The states used as sensors to beat the classical limit are called the metrologically useful cat states, which are well characterized by the index to indicate the coherence between macroscopically distinct states. When the spin ensemble is collectively coupled with an ancillary qubit, it allows for the read out of its total magnetization. Starting from a thermal equilibrium state of the spin ensemble, we demonstrate that we can increase the coherence between the spin ensemble via repetitive measurements of the total magnetization using the ancillary qubit. Notably, our method for creating the metrologically useful cat states requires no control over the spin ensemble. As a potential experimental realization, we discuss a hybrid system composed of a superconducting flux qubit and donor spins in silicon. Our results pave the way for the realization of the entanglement-enhanced quantum metrology.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# 時間依存量子系に対する摂動的アプローチとワンクロス多状態ランダウ・ツェナーモデルへの応用

Perturbative approach to time-dependent quantum systems and applications to one-crossing multistate Landau-Zener models ( http://arxiv.org/abs/2407.06832v1 )

ライセンス: Link先を確認
Rongyu Hu, Chen Sun, (参考訳) 時間的不規則関数である非対角結合とダイアバティックエネルギーを一定に有する多段階時間依存量子系のクラスを研究するための摂動的アプローチを定式化する。 一般多状態ランダウ・ツェナー(MLZ)モデルに1点(一交差MLZモデルと呼ばれる)で交差する全てのダイアバティックレベルを持つモデルに適用することにより、結合における全遷移確率の解析式を最大4次まで導出する。 ダイアバティック限界におけるこれらの解析的漸近解は、未解決の片クロスMLZモデルの将来の研究のための信頼性の高いベンチマークとなる。

We formulate a perturbative approach for studying a class of multi-level time-dependent quantum systems with constant off-diagonal couplings and diabatic energies being odd functions of time. Applying this approach to a general multistate Landau-Zener (MLZ) model with all diabatic levels crossing at one point (named the one-crossing MLZ model), we derive analytical formulas of all its transition probabilities up to $4$th order in the couplings. These analytical asymptotic solutions at the diabatic limit can serve as reliable benchmarks for future studies of any unsolved one-crossing MLZ models.
翻訳日:2024-07-10 18:07:16 公開日:2024-07-09
# Event Trojan: 非同期イベントベースのバックドアアタック

Event Trojan: Asynchronous Event-based Backdoor Attacks ( http://arxiv.org/abs/2407.06838v1 )

ライセンス: Link先を確認
Ruofei Wang, Qing Guo, Haoliang Li, Renjie Wan, (参考訳) 非同期イベントデータがさまざまなビジョンタスクに頻繁に関与するため、バックドア攻撃のリスクはより明確になる。 しかし、非同期イベントデータにおけるバックドア攻撃に関連する潜在的なリスクの研究は少なく、関連するタスクは潜在的な脅威に弱いままである。 本稿では,Event Trojanフレームワークを提案することで,イベントデータストリームに直接害を与える可能性を明らかにした。 具体的には、私たちの2種類のイベントトリガは、シミュレーションされたイベントスパイクのシーケンスに基づいており、任意のイベントストリームに簡単に組み込んでバックドア攻撃を開始することができます。 さらに、変更可能なトリガに対して、アダプティブな学習機構を設計し、その攻撃性を最大化する。 ステルス性を向上させるため,変更可能なトリガの生成内容を制約し,有効性を保ちながらトリガとオリジナルイベントの差を最小限に抑える新規な損失関数を導入した。 公開イベントデータセットに関する大規模な実験は、提案されたバックドアトリガの有効性を示している。 この論文は、イベントベースのタスクに対するバックドア攻撃による潜在的な脅威に、より注意を向けることを願っている。 私たちのコードはhttps://github.com/rfww/EventTrojan.comから入手可能です。

As asynchronous event data is more frequently engaged in various vision tasks, the risk of backdoor attacks becomes more evident. However, research into the potential risk associated with backdoor attacks in asynchronous event data has been scarce, leaving related tasks vulnerable to potential threats. This paper has uncovered the possibility of directly poisoning event data streams by proposing Event Trojan framework, including two kinds of triggers, i.e., immutable and mutable triggers. Specifically, our two types of event triggers are based on a sequence of simulated event spikes, which can be easily incorporated into any event stream to initiate backdoor attacks. Additionally, for the mutable trigger, we design an adaptive learning mechanism to maximize its aggressiveness. To improve the stealthiness, we introduce a novel loss function that constrains the generated contents of mutable triggers, minimizing the difference between triggers and original events while maintaining effectiveness. Extensive experiments on public event datasets show the effectiveness of the proposed backdoor triggers. We hope that this paper can draw greater attention to the potential threats posed by backdoor attacks on event-based tasks. Our code is available at https://github.com/rfww/EventTrojan.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# HTD-Mamba:ピラミッド状態空間モデルによる効率的なハイパースペクトルターゲット検出

HTD-Mamba: Efficient Hyperspectral Target Detection with Pyramid State Space Model ( http://arxiv.org/abs/2407.06841v1 )

ライセンス: Link先を確認
Dunbin Shen, Xuanbing Zhu, Jiacheng Tian, Jianjun Liu, Zhenrong Du, Hongyu Wang, Xiaorui Ma, (参考訳) ハイパースペクトル目標検出(HTD)は、複雑な背景からの興味の対象をピクセルレベルで特定し、地球観測において重要な役割を果たす。 しかし、HTDは事前知識やスペクトルの変動が限られており、不適合なモデルや信頼性の低い性能に直面する。 これらの課題に対処するために,HTD-Mambaというピラミッド状態空間モデル(SSM)を用いた効率的な自己教師型HTD手法を提案する。 具体的には、十分なトレーニングサンプルを取得し、空間的文脈情報を活用するために、パッチ内の周囲のすべてのピクセルを中央ピクセルの変換ビューに符号化する空間符号化スペクトル拡張手法を提案する。 さらに,大域的帯域相関を探索するために,画素を連続的なグループワイドスペクトル埋め込みに分割し,スペクトル列の長距離依存性を線形複雑度でモデル化するために初めてMambaをHTDに導入する。 さらに、スペクトル変動を緩和し、ロバスト表現を高めるために、多分解能スペクトル固有特徴を捕捉・融合するバックボーンとしてピラミッドSSMを提案する。 4つの公開データセットで行った大規模な実験により,提案手法は定量評価と定性評価の両方において最先端の手法より優れていることが示された。 コードは \url{https://github.com/shendb2022/HTD-Mamba} で公開されている。

Hyperspectral target detection (HTD) identifies objects of interest from complex backgrounds at the pixel level, playing a vital role in Earth observation. However, HTD faces challenges due to limited prior knowledge and spectral variations, leading to underfitting models and unreliable performance. To address these challenges, this paper proposes an efficient self-supervised HTD method with a pyramid state space model (SSM), named HTD-Mamba, which employs spectrally contrastive learning to distinguish between target and background based on the similarity measurement of intrinsic features. Specifically, to obtain sufficient training samples and leverage spatial contextual information, we propose a spatial-encoded spectral augmentation technique that encodes all surrounding pixels within a patch into a transformed view of the central pixel. Additionally, to explore global band correlations, we divide pixels into continuous group-wise spectral embeddings and introduce Mamba to HTD for the first time to model long-range dependencies of the spectral sequence with linear complexity. Furthermore, to alleviate spectral variation and enhance robust representation, we propose a pyramid SSM as a backbone to capture and fuse multiresolution spectral-wise intrinsic features. Extensive experiments conducted on four public datasets demonstrate that the proposed method outperforms state-of-the-art methods in both quantitative and qualitative evaluations. Code is available at \url{https://github.com/shendb2022/HTD-Mamba}.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# Chat-Edit-3D:テキストによるインタラクティブな3Dシーン編集

Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts ( http://arxiv.org/abs/2407.06842v1 )

ライセンス: Link先を確認
Shuangkang Fang, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Wenrui Ding, Shuchang Zhou, Ming-Hsuan Yang, (参考訳) 視覚言語事前学習モデルに基づく画像コンテンツ操作に関する最近の研究は、テキスト駆動の3Dシーン編集に効果的に拡張されている。 しかし、既存の3Dシーン編集方式には欠点があり、さらにインタラクティブなデザインを妨げている。 このようなスキームは、通常、テキスト入力におけるユーザの柔軟性を制限する固定された入力パターンに固執する。 さらに、それらの編集機能は、単一のまたは少数の2次元視覚モデルによって制限されており、これらのモデルを3次元再構成プロセスに統合するために複雑なパイプライン設計が必要である。 上記の課題に対処するため,CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。CE3Dは,ユーザからの任意のテキスト入力を可能とし,その意図を解釈し,それに対応する視覚専門家モデルの自律的実行を容易にする,大規模言語モデルを中心にしている。 さらに,Hash-Atlasを用いた3次元シーンビュー表現方式を設計し,3次元シーンの編集を2次元アトラス画像に転送する。 この設計は、2D編集と3D再構成プロセスの完全な疎結合を実現し、複雑な融合設計を必要とせずに、CE3Dが様々な既存の2Dまたは3Dビジュアルモデルを柔軟に統合することを可能にする。 実験結果から,CE3Dは複数の視覚モデルを効果的に統合し,多様な編集視覚効果を実現し,シーン理解と多ラウンド対話機能を有することがわかった。 コードは <a href="https://sk-fun.fun/CE3D"> このhttps URLで入手できる。 </a>。

Recent work on image content manipulation based on vision-language pre-training models has been effectively extended to text-driven 3D scene editing. However, existing schemes for 3D scene editing still exhibit certain shortcomings, hindering their further interactive design. Such schemes typically adhere to fixed input patterns, limiting users' flexibility in text input. Moreover, their editing capabilities are constrained by a single or a few 2D visual models and require intricate pipeline design to integrate these models into 3D reconstruction processes. To address the aforementioned issues, we propose a dialogue-based 3D scene editing approach, termed CE3D, which is centered around a large language model that allows for arbitrary textual input from users and interprets their intentions, subsequently facilitating the autonomous invocation of the corresponding visual expert models. Furthermore, we design a scheme utilizing Hash-Atlas to represent 3D scene views, which transfers the editing of 3D scenes onto 2D atlas images. This design achieves complete decoupling between the 2D editing and 3D reconstruction processes, enabling CE3D to flexibly integrate a wide range of existing 2D or 3D visual models without necessitating intricate fusion designs. Experimental results demonstrate that CE3D effectively integrates multiple visual models to achieve diverse editing visual effects, possessing strong scene comprehension and multi-round dialog capabilities. Code is available at <a href="https://sk-fun.fun/CE3D"> this https URL.</a>
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# マルチラベル信頼度校正のための動的相関学習と正規化

Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration ( http://arxiv.org/abs/2407.06844v1 )

ライセンス: Link先を確認
Tianshui Chen, Weihang Wang, Tao Pu, Jinghui Qin, Zhijing Yang, Jie Liu, Liang Lin, (参考訳) 現代の視覚認識モデルは、複雑なディープニューラルネットワークと1ホットターゲットの監視に依存しているため、しばしば過信感を示し、その結果、キャリブレーションを必要とする信頼性の欠如が生じる。 現在の信頼性校正技術は、主にシングルラベルのシナリオに対処するが、より実用的で一般化可能なマルチラベルのコンテキストに焦点が当てられていない。 本稿では,マルチラベルシナリオにおける信頼度スコアの適正化を目的とした,MLCCタスクを提案する。 シングルラベル画像とは異なり、複数ラベル画像には複数のオブジェクトが含まれており、セマンティックな混乱と信頼性スコアの信頼性の低下につながる。 ラベルの平滑化に基づく既存のシングルラベルキャリブレーション手法は、意味的混乱に対処するために不可欠なカテゴリ相関を考慮できないため、サブ最適性能が得られる。 これらの制限を克服するために,多粒度意味的相関を利用して適応正規化のためのモデル意味的混乱を改善する動的相関学習と正規化(DCLR)アルゴリズムを提案する。 DCLRは、各カテゴリ固有の動的インスタンスレベルとプロトタイプレベルの類似性を学び、これらを使用して、異なるカテゴリ間での意味的相関を測定する。 この理解により、高い値を強い相関関係を持つカテゴリに割り当てる適応ラベルベクトルを構築し、より効果的な正規化を容易にする。 評価ベンチマークを構築し、いくつかの高度な信頼度校正アルゴリズムを再実装し、それらを先行するマルチラベル認識(MLR)モデルに適用し、公正な比較を行う。 広範にわたる実験を通じて,マルチラベルシナリオにおける信頼性スコアの提供において,既存の手法よりも優れたDCLR性能を示す。

Modern visual recognition models often display overconfidence due to their reliance on complex deep neural networks and one-hot target supervision, resulting in unreliable confidence scores that necessitate calibration. While current confidence calibration techniques primarily address single-label scenarios, there is a lack of focus on more practical and generalizable multi-label contexts. This paper introduces the Multi-Label Confidence Calibration (MLCC) task, aiming to provide well-calibrated confidence scores in multi-label scenarios. Unlike single-label images, multi-label images contain multiple objects, leading to semantic confusion and further unreliability in confidence scores. Existing single-label calibration methods, based on label smoothing, fail to account for category correlations, which are crucial for addressing semantic confusion, thereby yielding sub-optimal performance. To overcome these limitations, we propose the Dynamic Correlation Learning and Regularization (DCLR) algorithm, which leverages multi-grained semantic correlations to better model semantic confusion for adaptive regularization. DCLR learns dynamic instance-level and prototype-level similarities specific to each category, using these to measure semantic correlations across different categories. With this understanding, we construct adaptive label vectors that assign higher values to categories with strong correlations, thereby facilitating more effective regularization. We establish an evaluation benchmark, re-implementing several advanced confidence calibration algorithms and applying them to leading multi-label recognition (MLR) models for fair comparison. Through extensive experiments, we demonstrate the superior performance of DCLR over existing methods in providing reliable confidence scores in multi-label scenarios.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# TeVAE: 可変状態多変量時系列データにおける離散オンライン異常検出のための変分オートエンコーダアプローチ

TeVAE: A Variational Autoencoder Approach for Discrete Online Anomaly Detection in Variable-state Multivariate Time-series Data ( http://arxiv.org/abs/2407.06849v1 )

ライセンス: Link先を確認
Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas Bäck, Anna V. Kononova, (参考訳) 自動車テストの領域で記録データへの注目が高まり、手動による評価が限界に達するにつれ、自動オンライン異常検出の必要性が高まっている。 この現実世界のデータは多くの点で複雑で、テスターの振る舞いをモデル化する必要があります。 そこで本稿では,時間変動オートエンコーダ(TeVAE)を提案する。 提案手法では,このバイパス現象を回避し,個別のウィンドウを連続時系列に再マップする手法を提案する。 さらに,本手法の検知遅延と根本原因度を評価する指標を提案し,実世界の産業データセットの実験結果を示す。 適切に設定された場合、TeVAEは異常を6%だけ間違ったタイミングでフラグし、65%の異常を検知する。 また、より小さなトレーニングと検証サブセットでうまく機能する可能性があるが、より洗練されたしきい値推定方法が必要である。

As attention to recorded data grows in the realm of automotive testing and manual evaluation reaches its limits, there is a growing need for automatic online anomaly detection. This real-world data is complex in many ways and requires the modelling of testee behaviour. To address this, we propose a temporal variational autoencoder (TeVAE) that can detect anomalies with minimal false positives when trained on unlabelled data. Our approach also avoids the bypass phenomenon and introduces a new method to remap individual windows to a continuous time series. Furthermore, we propose metrics to evaluate the detection delay and root-cause capability of our approach and present results from experiments on a real-world industrial data set. When properly configured, TeVAE flags anomalies only 6% of the time wrongly and detects 65% of anomalies present. It also has the potential to perform well with a smaller training and validation subset but requires a more sophisticated threshold estimation method.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# セーフエンベッド: 文エンコーダの安全批判的知識を明らかにする

Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders ( http://arxiv.org/abs/2407.06851v1 )

ライセンス: Link先を確認
Jinseok Kim, Jaewon Jung, Sangyeop Kim, Sohyung Park, Sungzoon Cho, (参考訳) さまざまなタスクにおけるLLM(Large Language Models)の印象的な機能にもかかわらず、安全でないプロンプトに対する脆弱性は依然として重大な問題である。 これらのプロンプトは、LLMに違法または機密性の高いトピックに対する反応を誘導し、安全で倫理的な使用に重大な脅威をもたらす可能性がある。 既存のアプローチでは、分類モデルを使ってこの問題に対処しようとするが、いくつかの欠点がある。 安全でないプロンプトの複雑さの増大に伴い、安全でないプロンプトの特定の特徴を特定する類似性検索ベースの技術は、この進化する問題に対してより堅牢で効果的な解決策を提供する。 本稿では, 安全でないプロンプトと安全でないプロンプトを区別する文エンコーダの可能性と, 安全分類に基づく様々なアンセーフなプロンプトを分類する能力について検討する。 我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリ純粋度(CP)メトリクスを導入します。 以上の結果から,既存の文エンコーダの有効性と限界が明らかとなり,文エンコーダをより堅牢な安全検知器として運用するための方向性が提案された。 私たちのコードはhttps://github.com/JwdanielJung/Safe-Embed.comで入手可能です。

Despite the impressive capabilities of Large Language Models (LLMs) in various tasks, their vulnerability to unsafe prompts remains a critical issue. These prompts can lead LLMs to generate responses on illegal or sensitive topics, posing a significant threat to their safe and ethical use. Existing approaches attempt to address this issue using classification models, but they have several drawbacks. With the increasing complexity of unsafe prompts, similarity search-based techniques that identify specific features of unsafe prompts provide a more robust and effective solution to this evolving problem. This paper investigates the potential of sentence encoders to distinguish safe from unsafe prompts, and the ability to classify various unsafe prompts according to a safety taxonomy. We introduce new pairwise datasets and the Categorical Purity (CP) metric to measure this capability. Our findings reveal both the effectiveness and limitations of existing sentence encoders, proposing directions to improve sentence encoders to operate as more robust safety detectors. Our code is available at https://github.com/JwdanielJung/Safe-Embed.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# TE-SSL:アルツハイマー病の進行分析のための時間と事象を考慮した自己教師付き学習

TE-SSL: Time and Event-aware Self Supervised Learning for Alzheimer's Disease Progression Analysis ( http://arxiv.org/abs/2407.06852v1 )

ライセンス: Link先を確認
Jacob Thrasher, Alina Devkota, Ahmed Tafti, Binod Bhattarai, Prashnna Gyawali, (参考訳) Alzheimer's Dementia (AD) は神経変性疾患の分野で最も急進的な課題の1つであり、その進行分析は疾患のダイナミクスを理解し、標的とする介入を開発するのに不可欠である。 近年の深層学習の進歩と、自己教師付き学習(SSL)を含む様々な表現学習戦略は、複雑なデータから意味のあるパターンを抽出する革新的な方法を提供し、医用画像解析の強化に大きく貢献している。 特に、コンピュータビジョンの文献では、SSLに監視信号を組み込むことで、学習プロセスに付加的な関連情報を加えることにより、モデル性能をさらに向上させることができることが示されている。 しかし、病状進行分析の文脈におけるこのような監視信号の適用は、いまだに未解明のままである。 このギャップは、イベントとイベント間の情報の両方を学習パラダイムに組み込むという固有の課題から特に顕著である。 そこで本稿では,タイム・アンド・イブ・アウェア・SSL(TE-SSL)という新たなフレームワークを提案する。 残余解析の下流課題における既存のSSLベースの手法との比較分析は、標準メトリクスよりも優れた性能を示している。

Alzheimer's Dementia (AD) represents one of the most pressing challenges in the field of neurodegenerative disorders, with its progression analysis being crucial for understanding disease dynamics and developing targeted interventions. Recent advancements in deep learning and various representation learning strategies, including self-supervised learning (SSL), have shown significant promise in enhancing medical image analysis, providing innovative ways to extract meaningful patterns from complex data. Notably, the computer vision literature has demonstrated that incorporating supervisory signals into SSL can further augment model performance by guiding the learning process with additional relevant information. However, the application of such supervisory signals in the context of disease progression analysis remains largely unexplored. This gap is particularly pronounced given the inherent challenges of incorporating both event and time-to-event information into the learning paradigm. Addressing this, we propose a novel framework, Time and Even-aware SSL (TE-SSL), which integrates time-to-event and event data as supervisory signals to refine the learning process. Our comparative analysis with existing SSL-based methods in the downstream task of survival analysis shows superior performance across standard metrics.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# TimeTravel: 音波を用いたリアルタイムタイミングドリフトアタック

TimeTravel: Real-time Timing Drift Attack on System Time Using Acoustic Waves ( http://arxiv.org/abs/2407.06853v1 )

ライセンス: Link先を確認
Jianshuo Liu, Hong Li, Haining Wang, Mengjie Sun, Hui Wen, Jinfa Wang, Limin Sun, (参考訳) リアルタイムクロック(RTC)は、様々なリアルタイムシステムにおいて、正確なシステム時間を提供するために広く使われている。 本稿では、RTC回路の新たなセキュリティ脆弱性を明らかにし、内部記憶時間やタイムスタンプを任意に前方または後方に変更することができる。 この脆弱性によって引き起こされるシステム時間の動的変更に対するセキュリティ上の脅威は、TimeTravelと呼ばれる。 音響共鳴と圧電効果に基づいて、TimeTravelは水晶に音響誘導波を印加し、RTC回路に伝達される発振信号の特性を調整する。 音波のパラメータを操作することで、TimeTravelは、調整可能な速度でシステムタイムのタイミング速度を加速または減速することができる。 TimeTravelの重大性を評価するため、RTC回路下で9つのモジュールと2つの商用デバイスについて検討した。 実験の結果,TimeTravelは最大93%の精度で,選択した速度でシステムを前後にドリフトできることがわかった。 さらに,TimeTravelは,典型的な障害物のある環境下での攻撃成功率を77%以下に維持できることを示した。

Real-time Clock (RTC) has been widely used in various real-time systems to provide precise system time. In this paper, we reveal a new security vulnerability of the RTC circuit, where the internal storage time or timestamp can be arbitrarily modified forward or backward. The security threat of dynamic modifications of system time caused by this vulnerability is called TimeTravel. Based on acoustic resonance and piezoelectric effects, TimeTravel applies acoustic guide waves to the quartz crystal, thereby adjusting the characteristics of the oscillating signal transmitted into the RTC circuit. By manipulating the parameters of acoustic waves, TimeTravel can accelerate or decelerate the timing speed of system time at an adjustable rate, resulting in the relative drift of the timing, which can pose serious safety threats. To assess the severity of TimeTravel, we examine nine modules and two commercial devices under the RTC circuit. The experimental results show that TimeTravel can drift system time forward and backward at a chosen speed with a maximum 93% accuracy. Our analysis further shows that TimeTravel can maintain an attack success rate of no less than 77% under environments with typical obstacle items.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# 非敵攻撃による知識グラフ埋め込み手法の性能評価

Performance Evaluation of Knowledge Graph Embedding Approaches under Non-adversarial Attacks ( http://arxiv.org/abs/2407.06855v1 )

ライセンス: Link先を確認
Sourabh Kapoor, Arnab Sharma, Michael Röder, Caglar Demir, Axel-Cyrille Ngonga Ngomo, (参考訳) 知識グラフ埋め込み(KGE)は、個別の知識グラフ(KG)を連続ベクトル空間に変換することで、セマンティック検索、質問回答、リコメンダなど、AI駆動のさまざまなアプリケーションでの使用を容易にする。 KGEアプローチはこれらのアプリケーションで有効であるが、既存のアプローチの多くは、与えられたKGの全ての情報が正しいと仮定している。 これにより、攻撃者は入力を摂動することでこれらのアプローチ、例えば、出力に影響を与えることができる。 したがって、そのようなKGEアプローチの堅牢性に対処する必要がある。 最近の研究は敵の攻撃に焦点を当てている。 しかし、これらのアプローチの全ての攻撃面に対する非敵攻撃については、十分には検討されていない。 我々は,3つの攻撃面(グラフ,パラメータ,ラベル摂動)に対する攻撃に対して,最先端の5つのKGEアルゴリズムが5つのデータセット上での性能に与える影響を評価することにより,このギャップを埋める。 評価結果から, ラベル摂動はKGEの性能に強い影響を与えることが示唆された。

Knowledge Graph Embedding (KGE) transforms a discrete Knowledge Graph (KG) into a continuous vector space facilitating its use in various AI-driven applications like Semantic Search, Question Answering, or Recommenders. While KGE approaches are effective in these applications, most existing approaches assume that all information in the given KG is correct. This enables attackers to influence the output of these approaches, e.g., by perturbing the input. Consequently, the robustness of such KGE approaches has to be addressed. Recent work focused on adversarial attacks. However, non-adversarial attacks on all attack surfaces of these approaches have not been thoroughly examined. We close this gap by evaluating the impact of non-adversarial attacks on the performance of 5 state-of-the-art KGE algorithms on 5 datasets with respect to attacks on 3 attack surfaces-graph, parameter, and label perturbation. Our evaluation results suggest that label perturbation has a strong effect on the KGE performance, followed by parameter perturbation with a moderate and graph with a low effect.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# ウィンドウ・ツー・ウィンドウなBEV表現学習

Window-to-Window BEV Representation Learning for Limited FoV Cross-View Geo-localization ( http://arxiv.org/abs/2407.06861v1 )

ライセンス: Link先を確認
Lei Cheng, Teng Wang, Lingquan Meng, Changyin Sun, (参考訳) 特に、地上のクエリ画像が方向不明の視野しか持たない場合に、大きな視点の変化のために、クロスビューのジオローカライゼーションは重大な課題に直面している。 クロスビュー領域のギャップを埋めるため,地上クエリ画像から直接BEV表現を学習する試みを初めて行った。 しかし, 地上画像と地上画像の方向が不明であることと, カメラパラメータの欠如が組み合わさって, BEVクエリと地上基準とのあいまいさにつながった。 この課題に対処するために,ウィンドウスケールでBEVクエリをグラウンド参照に適応的にマッチングする,W2W-BEVと呼ばれる新しいWindow-to-Window BEV表現学習手法を提案する。 具体的には、予め定義されたBEV埋め込みと抽出された接地特徴を一定数の窓に分割し、コンテキスト対応のウィンドウマッチング戦略に基づいて、各BEV特徴に対して最もよく似た接地窓を選択する。 その後、一致したBEVとグラウンドウインドウの間で交差注意を行い、ロバストなBEV表現を学習する。 さらに、予測深度情報とともに地上機能を使用して、BEV埋め込みを初期化し、より強力なBEV表現の学習を支援する。 ベンチマークデータセットの大規模な実験結果から、未知の配向と限定されたFoV条件下での従来の最先端手法に比べて、W2W-BEVの顕著な優位性を示した。 具体的には、90度のFovと未知の方向を持つCVUSAデータセットにおいて、W2W-BEVは47.24%から64.73%(+17.49%)のR@1精度で大幅に改善された。

Cross-view geo-localization confronts significant challenges due to large perspective changes, especially when the ground-view query image has a limited field of view with unknown orientation. To bridge the cross-view domain gap, we for the first time explore to learn a BEV representation directly from the ground query image. However, the unknown orientation between ground and aerial images combined with the absence of camera parameters led to ambiguity between BEV queries and ground references. To tackle this challenge, we propose a novel Window-to-Window BEV representation learning method, termed W2W-BEV, which adaptively matches BEV queries to ground reference at window-scale. Specifically, predefined BEV embeddings and extracted ground features are segmented into a fixed number of windows, and then most similar ground window is chosen for each BEV feature based on the context-aware window matching strategy. Subsequently, the cross-attention is performed between the matched BEV and ground windows to learn the robust BEV representation. Additionally, we use ground features along with predicted depth information to initialize the BEV embeddings, helping learn more powerful BEV representations. Extensive experimental results on benchmark datasets demonstrate significant superiority of our W2W-BEV over previous state-of-the-art methods under challenging conditions of unknown orientation and limited FoV. Specifically, on the CVUSA dataset with limited Fov of 90 degree and unknown orientation, the W2W-BEV achieve an significant improvement from 47.24% to 64.73 %(+17.49%) in R@1 accuracy.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# 分散システムを実現するスマートコントラクトによるフェデレーション学習における信頼とレジリエンス

Trust and Resilience in Federated Learning Through Smart Contracts Enabled Decentralized Systems ( http://arxiv.org/abs/2407.06862v1 )

ライセンス: Link先を確認
Lorenzo Cassano, Jacopo D'Abramo, Siraj Munir, Stefano Ferretti, (参考訳) 本稿では,信頼性の確保と信頼性向上を目的とした分散型アーキテクチャを用いた,連邦学習(FL)システムについて検討する。 このシステムは、FLコラボレータが(暗号化された)モデルのパラメータをIPFS(Inter-Planetary File System)にアップロードし、その動作を追跡するために専用のスマートコントラクトと対話するという考え方に基づいている。 このスマートコントラクトのおかげで、パラメータ更新のフェーズは効率的に管理され、データセキュリティが強化される。 我々は,古典的平均化法と連合的近位アグリゲーションという,2つの異なるウェイトアグリゲーション手法を利用する実験を行った。 結果は提案の実現可能性を確認した。

In this paper, we present a study of a Federated Learning (FL) system, based on the use of decentralized architectures to ensure trust and increase reliability. The system is based on the idea that the FL collaborators upload the (ciphered) model parameters on the Inter-Planetary File System (IPFS) and interact with a dedicated smart contract to track their behavior. Thank to this smart contract, the phases of parameter updates are managed efficiently, thereby strengthening data security. We have carried out an experimental study that exploits two different methods of weight aggregation, i.e., a classic averaging scheme and a federated proximal aggregation. The results confirm the feasibility of the proposal.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# 美学を超えて: テキスト・画像モデルにおける文化的能力

Beyond Aesthetics: Cultural Competence in Text-to-Image Models ( http://arxiv.org/abs/2407.06863v1 )

ライセンス: Link先を確認
Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、さまざまなグローバルなコミュニティで採用され、独自の文化を視覚的に表現するようになっている。 現在のT2Iベンチマークは主に、文化的な能力の重要な側面を見越して、生成した画像の忠実さ、美学、リアリズムに焦点を当てている。 本稿では,文化意識と文化多様性という2つの重要な側面に沿って,T2Iモデルの文化的能力を評価する枠組みを導入するとともに,構造化知識ベースと大規模言語モデルを組み合わせたスケーラブルなアプローチを用いて,この評価を実現する。 特に,本手法を,T2Iモデルの文化的能力を評価するための第1級ベンチマークであるCUBE(Cutural BEnchmark for Text-to-Image Model)の構築に適用する。 CUBEは、異なる地理的文化圏の8か国、および3つの概念(料理、ランドマーク、芸術)に関連する文化的アーティファクトをカバーしている。 CUBEは 1)CUBE-1Kは、文化意識の評価を可能にする高品質なプロンプトのセットであり、 2)CUBE-CSpaceは、文化的多様性を評価するための基盤となる文化的アーティファクトのより大きなデータセットである。 品質重み付きベンディスコアを活用した新しいT2I評価コンポーネントとして,文化多様性も導入する。 本評価は,T2Iアウトプットの文化的多様性を,未指定のプロンプトに対して有意義な洞察を与えるとともに,既存モデルの文化的意識に重大なギャップを生じさせるものである。 我々の方法論は、他の文化地域や概念にも拡張可能であり、世界の人口により良いT2Iモデルの開発を促進することができる。

Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# ChatGPTは充電器のファンを信頼していない: ガードレールの感度

ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context ( http://arxiv.org/abs/2407.06866v1 )

ライセンス: Link先を確認
Victoria R. Li, Yida Chen, Naomi Saphra, (参考訳) 生産中の言語モデルのバイアスは広範囲に記録されているが、ガードレールのバイアスは無視されている。 本稿では,ユーザに関する情報がLCMの要求実行を拒否する可能性にどのように影響するかを検討する。 GPT-3.5では,イデオロギーや人口統計情報を提供するユーザ伝記を生成することで,ガードレールの感度に多くのバイアスが生じる。 若年、女性、アジア系アメリカ人の人物は、検閲された情報や違法な情報を要求する際に、拒否するガードレールを発生させる傾向にある。 ガードレールもサイコファンであり、ユーザーが反対する可能性が高い政治的立場の要求に従わない。 特定のアイデンティティグループや一見無害な情報、例えばスポーツファンダムは、政治的イデオロギーの直接的な言明に類似したガードレール感度の変化を誘発することができる。 それぞれのカテゴリーやアメリカンフットボールチームでさえ、ChatGPTは政治的イデオロギーを推測し、それに応じてガードレールの振る舞いを修正しているように見える。

While the biases of language models in production are extensively documented, the biases of their guardrails have been neglected. This paper studies how contextual information about the user influences the likelihood of an LLM to refuse to execute a request. By generating user biographies that offer ideological and demographic information, we find a number of biases in guardrail sensitivity on GPT-3.5. Younger, female, and Asian-American personas are more likely to trigger a refusal guardrail when requesting censored or illegal information. Guardrails are also sycophantic, refusing to comply with requests for a political position the user is likely to disagree with. We find that certain identity groups and seemingly innocuous information, e.g., sports fandom, can elicit changes in guardrail sensitivity similar to direct statements of political ideology. For each demographic category and even for American football team fandom, we find that ChatGPT appears to infer a likely political ideology and modify guardrail behavior accordingly.
翻訳日:2024-07-10 17:57:30 公開日:2024-07-09
# 等方性制約を用いた分布ロバストなリスク評価

Distributionally robust risk evaluation with an isotonic constraint ( http://arxiv.org/abs/2407.06867v1 )

ライセンス: Link先を確認
Yu Gui, Rina Foygel Barber, Cong Ma, (参考訳) 分布シフトによる統計的学習は、事前の知識も、対象の分布から完全にアクセス可能なデータも利用できない場合には困難である。 分散ロバスト学習(DRL)は、不確実な分布の集合内で最悪の統計的性能を制御することを目的としているが、その集合を適切に特定する方法は依然として難しい。 本稿では,分布のロバスト性に過度な保守性を持たせるために,未知のターゲット分布と推定値との相違点に関する事前情報を組み込んだDRLの形状制約型アプローチを提案する。 より具体的には、対象分布と推定値の間の未知密度比が、ある部分順序に関して等方性であると仮定する。 人口レベルでは、等方性制約を含まない形状制約最適化問題の解を提供する。 サンプルレベルでは、異なる設定で対象の実証的推定器に対して一貫性のある結果を提供する。 合成データと実データの両方に関する実証研究は、提案した形状制約手法の精度の向上を実証している。

Statistical learning under distribution shift is challenging when neither prior knowledge nor fully accessible data from the target distribution is available. Distributionally robust learning (DRL) aims to control the worst-case statistical performance within an uncertainty set of candidate distributions, but how to properly specify the set remains challenging. To enable distributional robustness without being overly conservative, in this paper, we propose a shape-constrained approach to DRL, which incorporates prior information about the way in which the unknown target distribution differs from its estimate. More specifically, we assume the unknown density ratio between the target distribution and its estimate is isotonic with respect to some partial order. At the population level, we provide a solution to the shape-constrained optimization problem that does not involve the isotonic constraint. At the sample level, we provide consistency results for an empirical estimator of the target in a range of different settings. Empirical studies on both synthetic and real data examples demonstrate the improved accuracy of the proposed shape-constrained approach.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# モバイルユーザのためのエネルギー効率の高いフェアSTAR-RIS

Energy Efficient Fair STAR-RIS for Mobile Users ( http://arxiv.org/abs/2407.06868v1 )

ライセンス: Link先を確認
Ashok S. Kumar, Nancy Nayak, Sheetal Kalyani, Himal A. Suraweera, (参考訳) 本研究では,モバイルユーザに対して,再構成可能なインテリジェントサーフェス(STAR-RIS)を同時に送信・反射するエネルギー効率と公平性を向上し,信頼性の高い通信を維持しながら消費電力の低減を図る手法を提案する。 そこで本研究では,各ユーザに対して割り当てるSTAR-RIS要素の個数を決定するパラメータとして,サブサイト代入変数(subground assignment variable)を提案する。 次に,STAR-RISの位相シフトと地下配置変数を同時に最適化することにより,新しい最適化問題を定式化する。 我々は、この最適化問題に対処するために、深層強化学習(DRL)技術を利用する。 DRLモデルはSTAR-RISの位相シフトを予測し、STAR-RISの要素をユーザに効率的に割り当てる。 さらに, DRLモデルにペナルティ項を組み込んで, エネルギー効率を高めるために使用していない場合のSTAR-RIS要素の知的不活性化を促進する。 広範にわたる実験により,提案手法は,伝送空間と反射空間の両方において,エネルギー効率のよい方法で,高いデータレートとほぼ等しいデータレートが得られることを示す。

In this work, we propose a method to improve the energy efficiency and fairness of simultaneously transmitting and reflecting reconfigurable intelligent surfaces (STAR-RIS) for mobile users, ensuring reduced power consumption while maintaining reliable communication. To achieve this, we introduce a new parameter known as the subsurface assignment variable, which determines the number of STAR-RIS elements allocated to each user. We then formulate a novel optimization problem by concurrently optimizing the phase shifts of the STAR-RIS and subsurface assignment variable. We leverage the deep reinforcement learning (DRL) technique to address this optimization problem. The DRL model predicts the phase shifts of the STAR-RIS and efficiently allocates elements of STAR-RIS to the users. Additionally, we incorporate a penalty term in the DRL model to facilitate intelligent deactivation of STAR-RIS elements when not in use to enhance energy efficiency. Through extensive experiments, we show that the proposed method can achieve fairly high and nearly equal data rates for all users in both the transmission and reflection spaces in an energy-efficient manner.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 画像から映像への適応を再考する:オブジェクト中心の視点

Rethinking Image-to-Video Adaptation: An Object-centric Perspective ( http://arxiv.org/abs/2407.06871v1 )

ライセンス: Link先を確認
Rui Qian, Shuangrui Ding, Dahua Lin, (参考訳) 画像から映像への適応は、ビデオ領域で使用される画像モデルを効率的に適応させようとする。 画像のバックボーン全体を微調整する代わりに、多くの画像から映像への適応パラダイムは空間モジュール上の時間的モデリングに軽量なアダプタを使用する。 しかし、これらの試みは効率と解釈可能性の制限を受ける。 本稿では,オブジェクト中心の視点から,新しい画像から映像への適応戦略を提案する。 物体を映像理解の鍵となる要素として認識する人間の知覚に触発され,物体発見のプロキシタスクを画像から映像への伝達学習に統合する。 具体的には、学習可能なクエリによるスロットアテンションを採用して、各フレームをコンパクトなオブジェクトトークンセットに蒸留する。 これらのオブジェクト中心のトークンは、時間にわたってオブジェクトの状態変化をモデル化するために、オブジェクト時インタラクションレイヤを通して処理されます。 2つの新しいオブジェクトレベルの損失と統合して、ビデオ下流タスクの圧縮されたオブジェクト中心表現にのみ、効率的な時間的推論が実現可能であることを示す。 提案手法は, 動作認識ベンチマークにおいて, 調整可能なパラメータが少なく, 完全に調整されたモデルの5倍, 効率的なチューニング手法の50倍の精度で, 最先端性能を実現する。 さらに,本モデルでは,再トレーニングやオブジェクトアノテーションを伴わずに,ゼロショットビデオオブジェクトセグメンテーションにおいて良好に動作し,オブジェクト中心の映像理解の有効性を実証する。

Image-to-video adaptation seeks to efficiently adapt image models for use in the video domain. Instead of finetuning the entire image backbone, many image-to-video adaptation paradigms use lightweight adapters for temporal modeling on top of the spatial module. However, these attempts are subject to limitations in efficiency and interpretability. In this paper, we propose a novel and efficient image-to-video adaptation strategy from the object-centric perspective. Inspired by human perception, which identifies objects as key components for video understanding, we integrate a proxy task of object discovery into image-to-video transfer learning. Specifically, we adopt slot attention with learnable queries to distill each frame into a compact set of object tokens. These object-centric tokens are then processed through object-time interaction layers to model object state changes across time. Integrated with two novel object-level losses, we demonstrate the feasibility of performing efficient temporal reasoning solely on the compressed object-centric representations for video downstream tasks. Our method achieves state-of-the-art performance with fewer tunable parameters, only 5\% of fully finetuned models and 50\% of efficient tuning methods, on action recognition benchmarks. In addition, our model performs favorably in zero-shot video object segmentation without further retraining or object annotations, proving the effectiveness of object-centric video understanding.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 分岐プログラムを用いた量子クエリ空間下界境界

Quantum Query-Space Lower Bounds Using Branching Programs ( http://arxiv.org/abs/2407.06872v1 )

ライセンス: Link先を確認
Debajyoti Bera, Tharrmashastha SAPV, (参考訳) 分岐プログラムは時間空間の低い境界を研究するのに非常に人気がある。 Bera らは最近、一般化量子分岐プログラム aka のモデルを導入した。 量子分岐プログラムの以前の2つのモデルを一般化したGQBP。 本研究では,GQBPの制限バージョンについて検討し,量子クエリ回路のクエリ空間要求に対する限界を証明した。 制限されたバージョンに対する最初の明示的なクエリスペースの低いバウンドを示す。 良く研究されたOR$_n$決定問題(英語版)は、$n$サイズのブールアレイの少なくとも1つの位置が 1 であることから、有界な$Q^2 s = \Omega(n^2)$ を満たすことを証明し、$Q$ はクエリの数を表し、$s$ は GQBP の幅を表す。 次に、この問題を一般化して、ハミング距離が一定である2つの弦間の決定において、同じ境界が成り立つことを示す。 我々の結果は、任意の非コンスタント対称ブール関数の問合せ複雑性に基づく$\Omega(\sqrt{n})$-lowerの代替証明を生成する。

Branching programs are quite popular for studying time-space lower bounds. Bera et al. recently introduced the model of generalized quantum branching program aka. GQBP that generalized two earlier models of quantum branching programs. In this work we study a restricted version of GQBP with the motivation of proving bounds on the query-space requirement of quantum-query circuits. We show the first explicit query-space lower bound for our restricted version. We prove that the well-studied OR$_n$ decision problem, given a promise that at most one position of an $n$-sized Boolean array is a 1, satisfies the bound $Q^2 s = \Omega(n^2)$, where $Q$ denotes the number of queries and $s$ denotes the width of the GQBP. We then generalize the problem to show that the same bound holds for deciding between two strings with a constant Hamming distance; this gives us query-space lower bounds on problems such as Parity and Majority. Our results produce an alternative proof of the $\Omega(\sqrt{n})$-lower bound on the query complexity of any non-constant symmetric Boolean function.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 接触相互作用を持つ量子系に対するハミルトニアン

Hamiltonians for Quantum Systems with Contact Interactions ( http://arxiv.org/abs/2407.06876v1 )

ライセンス: Link先を確認
Daniele Ferretti, Alessandro Teta, (参考訳) 接触(ゼロレンジまたは$\delta$)相互作用を持つ3次元の非相対論的量子粒子を$n>2$とする系に対して、自己共役および下界ハミルトニアンを構築する問題について論じる。 そのような相互作用は、2つの粒子の座標が一致するとき、偶然の超平面で満たされる(特異な)境界条件によって記述される。 文献に現れる最近の研究の行に続いて, 単体問題における通常の境界条件に対して, わずかに修正された境界条件を導入する。 このような新しい境界条件により、1962年にミンロスとファドデエフによって記述された中心現象の崩壊による不安定性は避けられることを示すことができる。 すると、系の物理的に妥当なハミルトニアンを得る。 この手法は、相互作用するボソンのガス$N$と、異なる粒子と相互作用する等しい質量$M$の区別可能な粒子$N$の場合に適用する。 後者の場合、$M \longrightarrow +\infty$ のモデルの極限についても論じる。 極限において、固定位置に置かれた$N$(非局所)点相互作用を受ける光粒子に対する一体ハミルトニアンを得ることを示す。 このような非局所的な点間相互作用が、標準的な局所的な点間相互作用の場合に存在する紫外線の病態を示さないことを検証する。

We discuss the problem of constructing self-adjoint and lower bounded Hamiltonians for a system of $n>2$ non-relativistic quantum particles in dimension three with contact (or zero-range or $\delta$) interactions. Such interactions are described by (singular) boundary conditions satisfied at the coincidence hyperplanes, \emph{i.e.}, when the coordinates of two particles coincide. Following the line of recent works appeared in the literature, we introduce a boundary condition slightly modified with respect to usual boundary condition one has in the one-body problem. With such new boundary condition we can show that the instability property due to the fall to the center phenomenon described by Minlos and Faddeev in 1962 is avoided. Then one obtains a physically reasonable Hamiltonian for the system. We apply the method to the case of a gas of $N$ interacting bosons and to the case of $N$ distinguishable particles of equal mass $M$ interacting with a different particle. In the latter case we also discuss the limit of the model for $M \longrightarrow +\infty$. We show that in the limit one obtains the one-body Hamiltonian for the light particle subject to $N$ (non-local) point interactions placed at fixed positions. We will verify that such non-local point interactions do not exhibit the ultraviolet pathologies that are present in the case of standard local point interactions.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 物理世界とサイバー空間の整合性: 体操AIに関する包括的調査

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI ( http://arxiv.org/abs/2407.06886v1 )

ライセンス: Link先を確認
Yang Liu, Weixing Chen, Yongjie Bai, Jingzhou Luo, Xinshuai Song, Kaixuan Jiang, Zhida Li, Ganlong Zhao, Junyi Lin, Guanbin Li, Wen Gao, Liang Lin, (参考訳) Embodied Artificial Intelligence (Embodied AI)は、AGI(Artificial General Intelligence)を達成するために不可欠であり、サイバースペースと物理世界を橋渡しする様々なアプリケーションの基盤として機能する。 近年,MLM(Multi-modal Large Models)やWM(World Models)の出現が注目されている。 しかし、MLMの時代には、Embodied AIに関する包括的な調査は行われていない。 本調査では,Embodied AIの最近の進歩を包括的に調査する。 まず,ロボットとシミュレータの代表的な研究の最前線をナビゲートし,研究の焦点とその限界を十分に理解する。 そして、主な研究対象を4つ分析する。 1)知覚の具体化。 2) 相互作用の具体化。 3)具体化剤、及び 4)シム・トゥ・リアルな適応、最先端の手法、必須パラダイム、包括的なデータセットを網羅する。 さらに,仮想および実実施エージェントにおけるMLMの複雑さを考察し,動的デジタルおよび物理環境における相互作用を促進することの重要性を強調した。 最後に、具体化AIの課題と限界を要約し、今後の方向性について論じる。 この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激することを期待しています。 関連するプロジェクトはhttps://github.com/HCPLab-SYSU/Embodied_AI_Paper_Listにある。

Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for the brain of embodied agents. However, there is no comprehensive survey for Embodied AI in the era of MLMs. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering the state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in dynamic digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss their potential future directions. We hope this survey will serve as a foundational reference for the research community and inspire continued innovation. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 繰り返しReLUのための2次制約の完全セット

A Complete Set of Quadratic Constraints For Repeated ReLU ( http://arxiv.org/abs/2407.06888v1 )

ライセンス: Link先を確認
Sahel Vahedi Noori, Bin Hu, Geir Dullerud, Peter Seiler, (参考訳) 本稿では、繰り返しReLUに対する2次制約(QC)の完全な集合を導出する。 QC の完全集合は、$n_v$ が繰り返し ReLU の次元であるような 2 つの行列共役条件の集合によって記述される。 また、完全集合のすべてのQCを満たす関数は、繰り返しReLUと繰り返しReLUの2つだけであることを示す。 したがって、QC の完全集合は、2次形式に固有の符号不変量まで可能な限り厳密な ReLU を束縛する。 リプシッツ境界は通常のリプシッツPDP法よりも保守的なリプシッツ境界を小さくする可能性がある。 最後に、ReLUアクティベーション機能を持つリカレントニューラルネットワークの安定性と性能を評価するために、QCの完全なセットを使用することについて説明する。 安定性/性能条件は、リアプノフ/分散理論と繰り返しReLUのためのQCを結合する。 数値的な実装は簡単な例によって与えられ、実証される。

This paper derives a complete set of quadratic constraints (QCs) for the repeated ReLU. The complete set of QCs is described by a collection of $2^{n_v}$ matrix copositivity conditions where $n_v$ is the dimension of the repeated ReLU. We also show that only two functions satisfy all QCs in our complete set: the repeated ReLU and a repeated "flipped" ReLU. Thus our complete set of QCs bounds the repeated ReLU as tight as possible up to the sign invariance inherent in quadratic forms. We derive a similar complete set of incremental QCs for repeated ReLU, which can potentially lead to less conservative Lipschitz bounds for ReLU networks than the standard LipSDP approach. Finally, we illustrate the use of the complete set of QCs to assess stability and performance for recurrent neural networks with ReLU activation functions. The stability/performance condition combines Lyapunov/dissipativity theory with the QCs for repeated ReLU. A numerical implementation is given and demonstrated via a simple example.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# SLAMにおける適応的特徴抽出のためのニューロシンボリックアプローチ

A Neurosymbolic Approach to Adaptive Feature Extraction in SLAM ( http://arxiv.org/abs/2407.06889v1 )

ライセンス: Link先を確認
Yasra Chandio, Momin A. Khan, Khotso Selialia, Luis Garcia, Joseph DeGol, Fatima M. Anwar, (参考訳) 自律ロボット、自動運転車、および混合現実のヘッドセットを身に着けている人間は、現実世界の環境を動的に変化させる際に、安全クリティカルなアプリケーションのために正確で信頼性の高い追跡サービスを必要とします。 しかし、SLAMのような既存の追跡手法は、広範囲な手動チューニングにもかかわらず、環境変化や境界条件に順応しない。 一方、ディープラーニングベースのアプローチは環境の変化に適応できるが、トレーニングにはかなりのデータが必要であり、新しいドメインに適応する柔軟性に欠けることが多い。 そこで本研究では,ニューロシンボリックプログラム合成手法を用いて,従来のSLAMアプローチからのドメイン知識を統合し,複雑な関係を学習するデータを活用する適応型SLAMパイプラインを構築することを提案する。 このアプローチはエンドツーエンドのSLAMパイプラインを合成できるが、機能抽出モジュールの合成に重点を置いている。 まずドメイン固有の言語(DSL)を考案し、特徴抽出の重要な属性と様々な特徴抽出器の実際の性能についてドメインの知識をカプセル化する。 我々のニューロシンボリックアーキテクチャは適応的特徴抽出を行い、最も適した特徴抽出器を選択するためにシンボリック推論を用いて学習を通してパラメータを最適化する。 評価の結果,神経シンボル的特徴抽出(nFEX)は高品質な特徴をもたらすことが示された。 また、最先端のベースライン特徴抽出器ORBとSIFTで観測されるポーズ誤差を最大90%、最大66%削減し、新しい環境へのシステムの効率性と適応性を向上する。

Autonomous robots, autonomous vehicles, and humans wearing mixed-reality headsets require accurate and reliable tracking services for safety-critical applications in dynamically changing real-world environments. However, the existing tracking approaches, such as Simultaneous Localization and Mapping (SLAM), do not adapt well to environmental changes and boundary conditions despite extensive manual tuning. On the other hand, while deep learning-based approaches can better adapt to environmental changes, they typically demand substantial data for training and often lack flexibility in adapting to new domains. To solve this problem, we propose leveraging the neurosymbolic program synthesis approach to construct adaptable SLAM pipelines that integrate the domain knowledge from traditional SLAM approaches while leveraging data to learn complex relationships. While the approach can synthesize end-to-end SLAM pipelines, we focus on synthesizing the feature extraction module. We first devise a domain-specific language (DSL) that can encapsulate domain knowledge on the important attributes for feature extraction and the real-world performance of various feature extractors. Our neurosymbolic architecture then undertakes adaptive feature extraction, optimizing parameters via learning while employing symbolic reasoning to select the most suitable feature extractor. Our evaluations demonstrate that our approach, neurosymbolic Feature EXtraction (nFEX), yields higher-quality features. It also reduces the pose error observed for the state-of-the-art baseline feature extractors ORB and SIFT by up to 90% and up to 66%, respectively, thereby enhancing the system's efficiency and adaptability to novel environments.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# Few-Shot Learning を用いたESGファンド公開のサステナビリティインテンション測定

Measuring Sustainability Intention of ESG Fund Disclosure using Few-Shot Learning ( http://arxiv.org/abs/2407.06893v1 )

ライセンス: Link先を確認
Mayank Singh, Nazia Nafis, Abhijeet Kumar, Mridul Mishra, (参考訳) グローバル・サステナブル・ファンドの世界は、環境・社会・ガバナンス(ESG)に焦点をあてる見通しやその他の規制書類によって、オープン・エンド・ファンドやETF(ETF)を包含している。 この主張は、意図やESGが投資戦略にフォーカスしているかどうかを確認するために、文章による開示を調べることでのみ確認することができる。 現在、ESG製品のサステナビリティを強制する規制はない。 本稿では,言語の特異性と透明性に関する持続可能な宇宙におけるファンド予測を分類し,評価するためのユニークな手法とシステムを提案する。 我々は、特定の、曖昧で、持続可能な投資関連言語を特定するために、数発の学習者を採用することを目指している。 さらに,商品のランク付けのための言語スコアと評価を判定し,持続可能宇宙のサステナビリティ要求を定量化する比率尺度を構築した。 副産物として、1K以上のESG文のHugging Face(cc-by-nc-sa-4.0)に手動で注釈付き品質訓練データセットを発行する。 グラマ13B, GPT3.5ターボ等のゼロショットモデルと比較した。 その結果,大規模言語モデルの導入は,ミスアライメントの問題により,ドメイン固有のタスクに対して正確ではないことがわかった。 数ショットの微調整技術は、全く見えないESG言語(テストセット)の精度、リコール、F1メトリクスにおいて、絶対値から30%を超える大きなマージンでゼロショットモデルより優れています。 本論文は全体として,持続可能性を定量的に測定・評価するための体系的かつスケーラブルなアプローチを確立することを目的としている。 規制機関、投資家、アドバイザーは、ESGの意図を正確に反映したESGファンドの調査・スクリーニングにおける認知負荷を軽減するために、この研究の成果を利用することができる。

Global sustainable fund universe encompasses open-end funds and exchange-traded funds (ETF) that, by prospectus or other regulatory filings, claim to focus on Environment, Social and Governance (ESG). Challengingly, the claims can only be confirmed by examining the textual disclosures to check if there is presence of intentionality and ESG focus on its investment strategy. Currently, there is no regulation to enforce sustainability in ESG products space. This paper proposes a unique method and system to classify and score the fund prospectuses in the sustainable universe regarding specificity and transparency of language. We aim to employ few-shot learners to identify specific, ambiguous, and generic sustainable investment-related language. Additionally, we construct a ratio metric to determine language score and rating to rank products and quantify sustainability claims for US sustainable universe. As a by-product, we publish manually annotated quality training dataset on Hugging Face (ESG-Prospectus-Clarity-Category under cc-by-nc-sa-4.0) of more than 1K ESG textual statements. The performance of the few-shot finetuning approach is compared with zero-shot models e.g., Llama-13B, GPT 3.5 Turbo etc. We found that prompting large language models are not accurate for domain specific tasks due to misalignment issues. The few-shot finetuning techniques outperform zero-shot models by large margins of more than absolute ~30% in precision, recall and F1 metrics on completely unseen ESG languages (test set). Overall, the paper attempts to establish a systematic and scalable approach to measure and rate sustainability intention quantitatively for sustainable funds using texts in prospectus. Regulatory bodies, investors, and advisors may utilize the findings of this research to reduce cognitive load in investigating or screening of ESG funds which accurately reflects the ESG intention.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# クラウドソーシングされたノイズラベルから学ぶ:信号処理の視点

Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective ( http://arxiv.org/abs/2407.06902v1 )

ライセンス: Link先を確認
Shahana Ibrahim, Panagiotis A. Traganitis, Xiao Fu, Georgios B. Giannakis, (参考訳) 人工知能(AI)と機械学習(ML)の進歩を後押しする主要な触媒の1つは、大規模でキュレートされたデータセットの可用性である。 このような巨大なデータセットをキュレートする一般的なテクニックはクラウドソーシングであり、複数のアノテータにデータが送信される。 アノテーションが生成したラベルは融合して下流の学習と推論タスクを提供する。 このアノテーションプロセスは、限られた専門知識やアノテータの信頼性の欠如など、様々な理由から、しばしばノイズの多いラベルを生成する。 したがって,クラウドソーシングにおける中核となる目的は,そのようなラベルノイズが学習課題に与える影響を効果的に緩和する手法を開発することである。 本記事では,ノイズの多いクラウドソースラベルから学ぶことの進歩を紹介する。 その焦点は、古典的な統計モデルから最近のディープラーニングベースのアプローチまで、主要なクラウドソーシングモデルとその方法論的治療であり、分析的洞察とアルゴリズム的発展を強調している。 特に、この記事では、テンソルの識別可能性や非負行列分解などの信号処理(SP)理論と手法の関連性、およびクラウドソーシングにおける長年の課題に対する新しい原理的解決策についてレビューし、SPパースペクティブがこの分野の進歩をいかに進めるかを示す。 さらに、本稿では、人間フィードバックによる強化学習におけるクラウドソーシング(RLHF)や、大規模言語モデル(LLM)を微調整するための重要な技術であるダイレクトプライオリティ最適化(DPO)など、最先端のAI/MLシステムの開発において重要なトピックについて触れる。

One of the primary catalysts fueling advances in artificial intelligence (AI) and machine learning (ML) is the availability of massive, curated datasets. A commonly used technique to curate such massive datasets is crowdsourcing, where data are dispatched to multiple annotators. The annotator-produced labels are then fused to serve downstream learning and inference tasks. This annotation process often creates noisy labels due to various reasons, such as the limited expertise, or unreliability of annotators, among others. Therefore, a core objective in crowdsourcing is to develop methods that effectively mitigate the negative impact of such label noise on learning tasks. This feature article introduces advances in learning from noisy crowdsourced labels. The focus is on key crowdsourcing models and their methodological treatments, from classical statistical models to recent deep learning-based approaches, emphasizing analytical insights and algorithmic developments. In particular, this article reviews the connections between signal processing (SP) theory and methods, such as identifiability of tensor and nonnegative matrix factorization, and novel, principled solutions of longstanding challenges in crowdsourcing -- showing how SP perspectives drive the advancements of this field. Furthermore, this article touches upon emerging topics that are critical for developing cutting-edge AI/ML systems, such as crowdsourcing in reinforcement learning with human feedback (RLHF) and direct preference optimization (DPO) that are key techniques for fine-tuning large language models (LLMs).
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 文書意味的エンティティ認識のためのハイパーグラフに基づく理解

Hypergraph based Understanding for Document Semantic Entity Recognition ( http://arxiv.org/abs/2407.06904v1 )

ライセンス: Link先を確認
Qiwei Li, Zuchao Li, Ping Wang, Haojun Ai, Hai Zhao, (参考訳) 意味的エンティティ認識は、視覚的にリッチな文書理解の分野で重要なタスクである。 テキストノード間の位置関係とテキストコンテンツ間の関係を分析することによって、テキストの意味型を識別する。 既存の文書理解モデルは、エンティティ境界の抽出を無視しながら、エンティティカテゴリに重点を置いている。 我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 上流モデルにより解析された文書のテキスト表現をより詳細に分析し、意味情報のより良いパフォーマンスを達成することができる。 本手法はGraphLayoutLMに基づいて,新しいセマンティックエンティティ認識モデルHGALayoutLMを構築する。 FUNSD, CORD, XFUND, SROIE に対する実験結果から,本手法は本手法のモデルに基づく意味的実体認識タスクの性能を効果的に向上できることを示す。 FUNSDとXFUNDに関するHGALayoutLMの結果は、新しい最先端の結果に到達した。

Semantic entity recognition is an important task in the field of visually-rich document understanding. It distinguishes the semantic types of text by analyzing the position relationship between text nodes and the relation between text content. The existing document understanding models mainly focus on entity categories while ignoring the extraction of entity boundaries. We build a novel hypergraph attention document semantic entity recognition framework, HGA, which uses hypergraph attention to focus on entity boundaries and entity categories at the same time. It can conduct a more detailed analysis of the document text representation analyzed by the upstream model and achieves a better performance of semantic information. We apply this method on the basis of GraphLayoutLM to construct a new semantic entity recognition model HGALayoutLM. Our experiment results on FUNSD, CORD, XFUND and SROIE show that our method can effectively improve the performance of semantic entity recognition tasks based on the original model. The results of HGALayoutLM on FUNSD and XFUND reach the new state-of-the-art results.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 多様なLLaMA: バイアス、ステレオタイプ、スティグマタイズ、および大規模言語モデルにおける宗教の感情表現

Divine LLaMAs: Bias, Stereotypes, Stigmatization, and Emotion Representation of Religion in Large Language Models ( http://arxiv.org/abs/2407.06908v1 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Amanda Cercas Curry, Susanna Paoli, Alba Curry, Dirk Hovy, (参考訳) 感情は私たちの生活において重要な認識論的および認知的役割を担い、私たちの価値観を明らかにし、行動の指針となる。 これまでの研究では、LLMは性線に沿って感情の帰属に偏っていることが示されている。 しかしながら、我々の価値観についてほとんど言及しないジェンダーとは異なり、宗教は社会文化的体系として、その信奉者に一連の信念と価値観を規定している。 したがって宗教は特定の感情を育む。 さらに、これらの規則は明確に規定され、宗教指導者によって解釈される。 感情属性を用いて、異なる宗教がLLMでどのように表現されるかを探る。 米国やヨーロッパ諸国の主要な宗教は、よりニュアンスで表現され、彼らの信念のより暗いモデルが示されています。 ヒンドゥー教や仏教のような東方宗教は強くステレオタイプ化されている。 ユダヤ教とイスラム教は厳格化している。 LLMにおける文化的偏見と、宗教におけるNLP文学の欠如について説明する。 宗教が議論されるまれな例では、しばしば有毒な言語の文脈で、これらの宗教の知覚を本質的に有毒であると見なす。 この発見は、これらのバイアスに対処し、修正する緊急の必要性を浮き彫りにする。 私たちの研究は、感情が私たちの生活で果たす重要な役割と、私たちの価値観がそれらにどのように影響するかを強調します。

Emotions play important epistemological and cognitive roles in our lives, revealing our values and guiding our actions. Previous work has shown that LLMs display biases in emotion attribution along gender lines. However, unlike gender, which says little about our values, religion, as a socio-cultural system, prescribes a set of beliefs and values for its followers. Religions, therefore, cultivate certain emotions. Moreover, these rules are explicitly laid out and interpreted by religious leaders. Using emotion attribution, we explore how different religions are represented in LLMs. We find that: Major religions in the US and European countries are represented with more nuance, displaying a more shaded model of their beliefs. Eastern religions like Hinduism and Buddhism are strongly stereotyped. Judaism and Islam are stigmatized -- the models' refusal skyrocket. We ascribe these to cultural bias in LLMs and the scarcity of NLP literature on religion. In the rare instances where religion is discussed, it is often in the context of toxic language, perpetuating the perception of these religions as inherently toxic. This finding underscores the urgent need to address and rectify these biases. Our research underscores the crucial role emotions play in our lives and how our values influence them.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 強化学習を用いた制御空域における無許可空中ロボットの介在

Intercepting Unauthorized Aerial Robots in Controlled Airspace Using Reinforcement Learning ( http://arxiv.org/abs/2407.06909v1 )

ライセンス: Link先を確認
Francisco Giral, Ignacio Gómez, Soledad Le Clainche, (参考訳) 制御空域における無人航空機(UAV)の増殖は、潜在的な衝突、航空交通の破壊、セキュリティ上の脅威などの重大なリスクをもたらす。 空域の安全かつ効率的な運用を確保するには、特に都市環境や重要なインフラに近い場所で、無許可または非協力のUAVを迎撃する効果的な方法が必要である。 この研究は、強化学習(Reinforcement Learning, RL)を用いることで、このような脅威を管理することのできる堅牢で適応的なシステムに対する重要なニーズに対処する。 固定翼UAV追跡エージェントの訓練にRLを用いる新しい手法を提案する。 本稿では,モデルベースとモデルフリーのRLアルゴリズム,特にDreamerV3,Trncated Quantile Critics (TQC),Soft Actor-Critic (SAC)について検討する。 これらのアルゴリズムの訓練と評価は、目に見えない回避戦略や環境摂動など様々なシナリオで行われた。 提案手法は,高忠実度飛行力学シミュレーションを利用して現実的な訓練環境を構築する。 この研究は、UAVインターセプションのためのインテリジェントで適応的な制御システムの開発の重要性を強調し、安全で効率的な空域管理の進歩に大きく貢献する。 これは、これらの重要なタスクを自律的に達成できるシステムを訓練するRLの可能性を示す。

The proliferation of unmanned aerial vehicles (UAVs) in controlled airspace presents significant risks, including potential collisions, disruptions to air traffic, and security threats. Ensuring the safe and efficient operation of airspace, particularly in urban environments and near critical infrastructure, necessitates effective methods to intercept unauthorized or non-cooperative UAVs. This work addresses the critical need for robust, adaptive systems capable of managing such threats through the use of Reinforcement Learning (RL). We present a novel approach utilizing RL to train fixed-wing UAV pursuer agents for intercepting dynamic evader targets. Our methodology explores both model-based and model-free RL algorithms, specifically DreamerV3, Truncated Quantile Critics (TQC), and Soft Actor-Critic (SAC). The training and evaluation of these algorithms were conducted under diverse scenarios, including unseen evasion strategies and environmental perturbations. Our approach leverages high-fidelity flight dynamics simulations to create realistic training environments. This research underscores the importance of developing intelligent, adaptive control systems for UAV interception, significantly contributing to the advancement of secure and efficient airspace management. It demonstrates the potential of RL to train systems capable of autonomously achieving these critical tasks.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# MSX販売者のための微細な大規模コンテンツレコメンデーション

Fine-grained large-scale content recommendations for MSX sellers ( http://arxiv.org/abs/2407.06910v1 )

ライセンス: Link先を確認
Manpreet Singh, Ravdeep Pasricha, Ravi Prasad Kondapalli, Kiran R, Nitish Singh, Akshita Agarwalla, Manoj R, Manish Prabhakar, Laurent Boué, (参考訳) Microsoftの売り手にとって最も重要なタスクの1つは、積極的なエンゲージメントと調整されたソリューションを通じて、潜在的なビジネス機会を注意深く追跡し、育てることである。 リコメンダシステムは、売り手が目標を達成するのを助けるために中心的な役割を果たす。 本稿では,販売者が顧客と共有したり,自己学習に利用する,さまざまなタイプのコンテンツ(技術資料,競合製品との比較,顧客成功物語など)を提示するコンテンツレコメンデーションモデルを提案する。 このモデルは、可能な限りの粒度が最も低く、売り手にとって最も関連性の高い機会レベルで機能する。 コンテンツからのメタデータと機会の慎重に選択された属性のセマンティックマッチングに基づいている。 Microsoftのような組織における販売者管理の機会の量を考えると、非常に多くの機会-コンテンツの組み合わせに対して効率的なセマンティックマッチングを行う方法を示す。 主な課題は、各機会の上位5つの関連コンテンツが、合計で$\approx 40,000$のコンテンツから推奨されることである。 我々は、異なるモデルアーキテクチャと機能選択を広範囲に比較することで、この目標を達成する。 最後に、最近提案された「LLM as a judge」フレームワークを用いて、人間ドメインの専門家の組み合わせを用いて、定量的にレコメンデーションの品質を検証した。

One of the most critical tasks of Microsoft sellers is to meticulously track and nurture potential business opportunities through proactive engagement and tailored solutions. Recommender systems play a central role to help sellers achieve their goals. In this paper, we present a content recommendation model which surfaces various types of content (technical documentation, comparison with competitor products, customer success stories etc.) that sellers can share with their customers or use for their own self-learning. The model operates at the opportunity level which is the lowest possible granularity and the most relevant one for sellers. It is based on semantic matching between metadata from the contents and carefully selected attributes of the opportunities. Considering the volume of seller-managed opportunities in organizations such as Microsoft, we show how to perform efficient semantic matching over a very large number of opportunity-content combinations. The main challenge is to ensure that the top-5 relevant contents for each opportunity are recommended out of a total of $\approx 40,000$ published contents. We achieve this target through an extensive comparison of different model architectures and feature selection. Finally, we further examine the quality of the recommendations in a quantitative manner using a combination of human domain experts as well as by using the recently proposed "LLM as a judge" framework.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# Differentially Private Multiway と $k$-Cut

Differentially Private Multiway and $k$-Cut ( http://arxiv.org/abs/2407.06911v1 )

ライセンス: Link先を確認
Rishi Chandra, Michael Dinitz, Chenglin Fan, Zongrui Zou, (参考訳) 本稿では,グラフカットの文脈における差分プライバシの課題,特に$k$カットとマルチウェイカットの問題に焦点をあてる。 これらの問題に対して、ほぼ最適な性能を実現するために、エッジ微分プライベートアルゴリズムを導入する。 マルチウェイカット問題に対して、我々はまず、最先端の非プライベートアルゴリズムと一致する乗法近似比のプライベートアルゴリズムを提供する。 次に、重み付きグラフ上のアルゴリズムが定数$k$に対してほぼ最適であることを証明し、加法誤差の厳密な情報理論の下界を示す。 最小$k$-cut問題に対して、我々のアルゴリズムは、近似$k$-cutの個数に対する既知のバウンダリを活用し、固定プライバシーパラメータに対して最適な加算誤差$O(k\log n)$のプライベートアルゴリズムを実現する。 また、この加算誤差と一致する情報理論の下限も確立する。 さらに、非コンスタントな$k$に対しても、$k$カットの効率的なプライベートアルゴリズムを、$\widetilde{O}(k^{1.5})$の加算誤差を持つ多項式時間2-近似を含む形で提供する。

In this paper, we address the challenge of differential privacy in the context of graph cuts, specifically focusing on the minimum $k$-cut and multiway cut problems. We introduce edge-differentially private algorithms that achieve nearly optimal performance for these problems. For the multiway cut problem, we first provide a private algorithm with a multiplicative approximation ratio that matches the state-of-the-art non-private algorithm. We then present a tight information-theoretic lower bound on the additive error, demonstrating that our algorithm on weighted graphs is near-optimal for constant $k$. For the minimum $k$-cut problem, our algorithms leverage a known bound on the number of approximate $k$-cuts, resulting in a private algorithm with optimal additive error $O(k\log n)$ for fixed privacy parameter. We also establish a information-theoretic lower bound that matches this additive error. Additionally, we give an efficient private algorithm for $k$-cut even for non-constant $k$, including a polynomial-time 2-approximation with an additive error of $\widetilde{O}(k^{1.5})$.
翻訳日:2024-07-10 17:47:35 公開日:2024-07-09
# 数学、Jenny、Jingzhenのどちらが得意か?

Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models ( http://arxiv.org/abs/2407.06917v1 )

ライセンス: Link先を確認
Zara Siddique, Liam D. Turner, Luis Espinosa-Anke, (参考訳) 大型言語モデル (LLM) は有害なステレオタイプを伝播し、増幅することが示されている。 これらのステレオタイプの効果をより包括的に理解するために、GlobalBiasを紹介した。これは、偏見文学で典型的に使用される記述子とともに、40の異なるジェンダー・バイ・エスニシティー・グループを含む876kの文からなるデータセットで、世界中の幅広いステレオタイプの研究を可能にする。 我々はGlobalBiasを使用して、パープレキシティ(perplexity)を介してLMのスイートを直接探索し、プロキシとして、モデルの内部表現で特定のステレオタイプがどのように表現されているかを決定する。 その後、与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。 様々なステレオタイプに関連付けられた階層群は、モデル確率とモデル出力の間で一貫性が保たれていることが判明した。 さらに、より大型のモデルは、明示的に指示されていなくても、より高レベルのステレオタイプ出力を表示する。

Large language models (LLMs) have been shown to propagate and amplify harmful stereotypes, particularly those that disproportionately affect marginalised communities. To understand the effect of these stereotypes more comprehensively, we introduce GlobalBias, a dataset of 876k sentences incorporating 40 distinct gender-by-ethnicity groups alongside descriptors typically used in bias literature, which enables us to study a broad set of stereotypes from around the world. We use GlobalBias to directly probe a suite of LMs via perplexity, which we use as a proxy to determine how certain stereotypes are represented in the model's internal representations. Following this, we generate character profiles based on given names and evaluate the prevalence of stereotypes in model outputs. We find that the demographic groups associated with various stereotypes remain consistent across model likelihoods and model outputs. Furthermore, larger models consistently display higher levels of stereotypical outputs, even when explicitly instructed not to.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# サイバー物理システム保守におけるオントロジー設計とCRISP-DMの統合

Integrating Ontology Design with the CRISP-DM in the context of Cyber-Physical Systems Maintenance ( http://arxiv.org/abs/2407.06930v1 )

ライセンス: Link先を確認
Milapji Singh Gill, Tom Westermann, Gernot Steindl, Felix Gehlhoff, Alexander Fay, (参考訳) 以下のコントリビューションでは、ドメインエキスパート中心のオントロジー設計とデータマイニングのためのクロス産業標準プロセス(CRISP-DM)を統合する手法が紹介されている。 このアプローチは、CPS(Cyber-Physical Systems)の修正メンテナンスに適したアプリケーション固有のオントロジーを効率的に構築することを目的としている。 提案手法は3つの段階に分けられる。 フェーズ1では、オントロジーの要件を体系的に指定し、関連する知識範囲を定義する。 したがって、CPSライフサイクルデータは、ドメイン固有のオントロジアーティファクトを使用してフェーズ2でコンテキスト化される。 この形式化されたドメイン知識はCRISP-DMで利用され、データから新たな洞察を効率的に抽出する。 最後に、新たに開発されたデータ駆動モデルを用いて、オントロジーを大衆化し拡張する。 したがって、このモデルから抽出された情報は、第3相の既存のオントロジーに意味論的に注釈付けされ整合する。 本手法の適用性は,モジュールプロセスプラントの異常検出ケーススタディにおいて評価されている。

In the following contribution, a method is introduced that integrates domain expert-centric ontology design with the Cross-Industry Standard Process for Data Mining (CRISP-DM). This approach aims to efficiently build an application-specific ontology tailored to the corrective maintenance of Cyber-Physical Systems (CPS). The proposed method is divided into three phases. In phase one, ontology requirements are systematically specified, defining the relevant knowledge scope. Accordingly, CPS life cycle data is contextualized in phase two using domain-specific ontological artifacts. This formalized domain knowledge is then utilized in the CRISP-DM to efficiently extract new insights from the data. Finally, the newly developed data-driven model is employed to populate and expand the ontology. Thus, information extracted from this model is semantically annotated and aligned with the existing ontology in phase three. The applicability of this method has been evaluated in an anomaly detection case study for a modular process plant.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# Hamiltonian Monte Carloによるベイズ連邦学習:アルゴリズムと理論

Bayesian Federated Learning with Hamiltonian Monte Carlo: Algorithm and Theory ( http://arxiv.org/abs/2407.06935v1 )

ライセンス: Link先を確認
Jiajun Liang, Qian Zhang, Wei Deng, Qifan Song, Guang Lin, (参考訳) この研究は、パラメータ推定と不確実性定量化のための、新しく効率的なベイズ連邦学習アルゴリズム(Federated Averaging stochastic Hamiltonian Monte Carlo (FA-HMC)を導入している。 FA-HMCの厳密な収束保証を、強い凸性とヘッセンな滑らかさの仮定の下で、非イド分散データセット上で確立する。 本研究では,パラメータ空間次元,雑音が勾配と運動量に及ぼす影響,およびFA-HMCの収束と通信コストに及ぼす通信周波数(中央ノードと局所ノード)について検討した。 さらに, 連続FA-HMCプロセスにおいても収束率が改善できないことを示すことにより, 解析の厳密性を確立した。 さらに、FA-HMCが既存のフェデレーション平均ランジュバンモンテカルロ(FA-LD)アルゴリズムより優れていることを示す実験的な研究も行われた。

This work introduces a novel and efficient Bayesian federated learning algorithm, namely, the Federated Averaging stochastic Hamiltonian Monte Carlo (FA-HMC), for parameter estimation and uncertainty quantification. We establish rigorous convergence guarantees of FA-HMC on non-iid distributed data sets, under the strong convexity and Hessian smoothness assumptions. Our analysis investigates the effects of parameter space dimension, noise on gradients and momentum, and the frequency of communication (between the central node and local nodes) on the convergence and communication costs of FA-HMC. Beyond that, we establish the tightness of our analysis by showing that the convergence rate cannot be improved even for continuous FA-HMC process. Moreover, extensive empirical studies demonstrate that FA-HMC outperforms the existing Federated Averaging-Langevin Monte Carlo (FA-LD) algorithm.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# Human Refiner: 粗大から粗大まで可逆的な誘導による異常な人体生成と精製のベンチマーク

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance ( http://arxiv.org/abs/2407.06937v1 )

ライセンス: Link先を確認
Guian Fang, Wenbiao Yan, Yuanfan Guo, Jianhua Han, Zutao Jiang, Hang Xu, Shengcai Liao, Xiaodan Liang, (参考訳) テキストと画像の拡散モデルは条件付き画像生成において著しく進歩している。 しかしながら、これらのモデルは通常、人間を特徴とする画像の正確なレンダリングに苦しむため、変形した手足やその他の異常が生じる。 この問題は、拡散モデルにおける手足の質の認識と評価が不十分であることに起因している。 この問題に対処するため,解剖学的異常に着目した最初の大規模ヒトベンチマークであるAbHumanを紹介した。 このベンチマークは56Kの合成された人間の画像で構成されており、それぞれ18のカテゴリで147Kの人間の異常を識別する詳細な境界ボックスレベルラベルがアノテートされている。 これにより、人間の異常の認識が確立され、負のプロンプトやガイダンスといった従来の手法による画像生成が促進される。 この改良をさらに進めるために,テキスト・ツー・イメージ生成における人体異常の粗粒化のための新しいプラグ・アンド・プレイアプローチであるHumanRefinerを提案する。 具体的には、HumanRefinerは自己診断の手順を使用して、粗い人間のポーズと微粒な異常レベルの両方に関連する問題を検知し、修正し、ポーズを可逆的に生成する。 AbHumanベンチマークによる実験結果から、HumanRefinerは、最先端のオープンソースジェネレータSDXLよりも2.9倍、人体評価ではDALL-E 3よりも1.4倍、手足品質が大幅に向上することが示された。 私たちのデータとコードはhttps://github.com/Enderfga/HumanRefiner.comで公開されています。

Text-to-image diffusion models have significantly advanced in conditional image generation. However, these models usually struggle with accurately rendering images featuring humans, resulting in distorted limbs and other anomalies. This issue primarily stems from the insufficient recognition and evaluation of limb qualities in diffusion models. To address this issue, we introduce AbHuman, the first large-scale synthesized human benchmark focusing on anatomical anomalies. This benchmark consists of 56K synthesized human images, each annotated with detailed, bounding-box level labels identifying 147K human anomalies in 18 different categories. Based on this, the recognition of human anomalies can be established, which in turn enhances image generation through traditional techniques such as negative prompting and guidance. To further boost the improvement, we propose HumanRefiner, a novel plug-and-play approach for the coarse-to-fine refinement of human anomalies in text-to-image generation. Specifically, HumanRefiner utilizes a self-diagnostic procedure to detect and correct issues related to both coarse-grained abnormal human poses and fine-grained anomaly levels, facilitating pose-reversible diffusion generation. Experimental results on the AbHuman benchmark demonstrate that HumanRefiner significantly reduces generative discrepancies, achieving a 2.9x improvement in limb quality compared to the state-of-the-art open-source generator SDXL and a 1.4x improvement over DALL-E 3 in human evaluations. Our data and code are available at https://github.com/Enderfga/HumanRefiner.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# RodinHD:拡散モデルによる高忠実度3Dアバター生成

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models ( http://arxiv.org/abs/2407.06938v1 )

ライセンス: Link先を確認
Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo, (参考訳) ポートレート画像から高忠実度3Dアバターを生成できるRodinHDを提案する。 既存の手法では,本論文で取り組んだヘアスタイルのような複雑な細部を捉えることができない。 我々はまず,MLPデコーダ共有方式により,複数のアバターに連続的に三葉飛行機を取り付けたときに発生する破滅的忘れの問題を明らかにする。 この問題を解決するために、よりシャープな詳細を描画するデコーダの能力を向上する新しいデータスケジューリング戦略と重み付け正規化項を提起する。 さらに,より微細な階層表現を計算し,リッチな2次元テクスチャキューをキャプチャし,複数の層での3次元拡散モデルに注入することにより,ポートレート画像の導出効果を最適化する。 三葉機用に最適化されたノイズスケジュールを持つ46Kアバターでトレーニングを行うと、得られたモデルは従来の方法よりも顕著に詳細な3Dアバターを生成することができ、幅内ポートレート入力に一般化することができる。

We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder's capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 家庭におけるオープンワールドモバイルマニピュレーションに向けて--2023年ニューリプス・ホームロボットのオープンボキャブラリモバイルマニピュレーションチャレンジからの教訓

Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge ( http://arxiv.org/abs/2407.06939v1 )

ライセンス: Link先を確認
Sriram Yenamandra, Arun Ramachandran, Mukul Khanna, Karmesh Yadav, Jay Vakil, Andrew Melnik, Michael Büttner, Leon Harz, Lyon Brown, Gora Chand Nandi, Arjun PS, Gaurav Kumar Yadav, Rahul Kala, Robert Haschke, Yang Luo, Jinxin Zhu, Yansen Han, Bingyi Lu, Xuan Gu, Qinyuan Liu, Yaping Zhao, Qiting Ye, Chenxiao Dou, Yansong Chua, Volodymyr Kuzma, Vladyslav Humennyy, Ruslan Partsey, Jonathan Francis, Devendra Singh Chaplot, Gunjan Chhablani, Alexander Clegg, Theophile Gervet, Vidhi Jain, Ram Ramrakhya, Andrew Szot, Austin Wang, Tsung-Yen Yang, Aaron Edsinger, Charlie Kemp, Binit Shah, Zsolt Kira, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton, (参考訳) 汎用的で有能なホームアシスタントとして効果的に機能するロボットを開発するためには,多様な環境にまたがる多様な物体を確実に知覚し,操作することが重要である。 そこで我々は,ロボット工学の重要なベンチマークタスクとしてOpen Vocabulary Mobile Manipulationを提案した。 我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。 このタスクの最も困難なバージョンに対するベースラインは、シミュレーションにおける実際の認識を使用して、わずか0.8%の成功率しか達成せず、競争の終わりまでに、最高の参加者は10.8\%の成功率、13倍の改善を達成しました。 もっとも成功したチームは、さまざまな方法を採用しましたが、2つの一般的なスレッドは、エラー検出とリカバリを強化し、意思決定プロセスとの認識の統合を改善しました。 本稿では,シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。 今後の研究における教訓とその意義について論じる。 さらに、実環境とシミュレーション環境のパフォーマンスを比較し、新しい環境への堅牢な一般化の必要性を強調した。

In order to develop robots that can effectively serve as versatile and capable home assistants, it is crucial for them to reliably perceive and interact with a wide variety of objects across diverse environments. To this end, we proposed Open Vocabulary Mobile Manipulation as a key benchmark task for robotics: finding any object in a novel environment and placing it on any receptacle surface within that environment. We organized a NeurIPS 2023 competition featuring both simulation and real-world components to evaluate solutions to this task. Our baselines on the most challenging version of this task, using real perception in simulation, achieved only an 0.8% success rate; by the end of the competition, the best participants achieved an 10.8\% success rate, a 13x improvement. We observed that the most successful teams employed a variety of methods, yet two common threads emerged among the best solutions: enhancing error detection and recovery, and improving the integration of perception with decision-making processes. In this paper, we detail the results and methodologies used, both in simulation and real-world settings. We discuss the lessons learned and their implications for future research. Additionally, we compare performance in real and simulated environments, emphasizing the necessity for robust generalization to novel settings.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# Raply: 派手さを軽減したラップジェネレータ

Raply: A profanity-mitigated rap generator ( http://arxiv.org/abs/2407.06941v1 )

ライセンス: Link先を確認
Omar Manil Bendali, Samir Ferroum, Ekaterina Kozachenko, Youssef Parviz, Hanna Shcharbakova, Anna Tokareva, Shemair Williams, (参考訳) ラップを書くという作業は困難であり、複雑な韻律を創出するが、意味のある歌詞を作らなければならない。 本稿では,ラップのスタイルで意味のある韻律を生成可能なGPT-2モデルであるRaplyを提案する。 韻律の能力に加えて、このモデルは不快なコンテンツを生成することができる。 新しいデータセットであるMitislursでモデルを微調整することで実現した。 モデルの出力を2つの基準で評価する。 1) 韻密度メートル法に基づく韻律 2) 英語に対する敬称の一覧を用いて、敬称の内容。 我々の知る限りでは、ラプ歌詞生成のための敬称緩和の試みとしてはこれが初めてである。

The task of writing rap is challenging and involves producing complex rhyming schemes, yet meaningful lyrics. In this work, we propose Raply, a fine-tuned GPT-2 model capable of producing meaningful rhyming text in the style of rap. In addition to its rhyming capabilities, the model is able to generate less offensive content. It was achieved through the fine-tuning the model on a new dataset Mitislurs, a profanity-mitigated corpus. We evaluate the output of the model on two criteria: 1) rhyming based on the rhyme density metric; 2) profanity content, using the list of profanities for the English language. To our knowledge, this is the first attempt at profanity mitigation for rap lyrics generation.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# CRYSTALS-Kyberにおける2ステップアタックの改善

An Improved Two-Step Attack on CRYSTALS-Kyber ( http://arxiv.org/abs/2407.06942v1 )

ライセンス: Link先を確認
Kai Wang, Dejun Xu, Jing Tian, (参考訳) 国立標準技術研究所(NIST)による3回にわたる厳格な評価の後、2022年中ごろからCRYSTALS-Kyberの選定と標準化が成功している。 今後のデプロイメントフェーズにおいて、Kyberの物理的なセキュリティをさらに評価することが緊急になる。 本稿では,Kyber に対する2段階攻撃を改良し,より少ないエネルギートレースと少ない時間で全秘密鍵 s を迅速に回収する。 最初のステップでは、相関パワー分析(CPA)攻撃を用いて、少数のエネルギートレースを持つsの推算値の一部を取得する。 CPA攻撃は、ピアソンとケンドールのランク相関係数を利用し、リークモデルを変更して精度を向上させることで強化される。 第2のステップでは、CPAの結果に基づいてsを回復するために格子攻撃を採用する。 成功率は主に、パス・アンド・エラーの手法を構築することによって構築される。 我々は,ARM Cortex-M4 上で Kyber512 (4 128-value group of s) の参照実装に対する攻撃を実装し,約9分で128-value group of s を回収することに成功した。 さらに、この場合のコストは、グループで60CPAの推測値と推測で15のパワートレースに限られます。

After three rounds of post-quantum cryptography (PQC) strict evaluations conducted by the national institute of standards and technology (NIST), CRYSTALS-Kyber has successfully been selected and drafted for standardization from the mid of 2022. It becomes urgent to further evaluate Kyber's physical security for the upcoming deployment phase. In this paper, we present an improved two-step attack on Kyber to quickly recover the full secret key, s, by using much fewer energy traces and less time. In the first step, we use the correlation power analysis (CPA) attack to obtain a portion of guess values of s with a small number of energy traces. The CPA attack is enhanced by utilizing both the Pearson and Kendall's rank correlation coefficients and modifying the leakage model to improve the accuracy. In the second step, we adopt the lattice attack to recover s based on the results of CPA. The success rate is largely built up by constructing a trail-and-error method. We implement the proposed attack for the reference implementation of Kyber512 (4 128-value groups of s) on ARM Cortex-M4 and successfully recover a 128-value group of s in about 9 minutes using a 16-core machine. Additionally, in that case, we only cost at most 60 CPA guess values for a group and 15 power traces for a guess.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 適応ロバストとスパースK平均クラスタリング

Adaptively Robust and Sparse K-means Clustering ( http://arxiv.org/abs/2407.06945v1 )

ライセンス: Link先を確認
Hao Li, Shonosuke Sugasawa, Shota Katayama, (参考訳) K-平均は標準的なクラスタリングアルゴリズムとして知られているが、外れ値と高次元ノイズ変数の存在により妥協される可能性がある。 本稿では,標準的なK-meansアルゴリズムのこれらの実用的限界に対処するため,適応的に頑健でスパースなK-meansクラスタリング(ARSK)を提案する。 本稿では,ロバスト性に対する各観測値に対して冗長な誤差成分を導入し,グループスパースペナルティを用いて追加パラメータをペナルティ化する。 高次元ノイズ変数の影響に対応するために、重みを取り入れ、重みベクトルの空間性を制御するペナルティを実装することにより、目的関数を変更する。 Gap統計により、ロバスト性や空間性を制御するためのチューニングパラメータが選択される。 シミュレーション実験と実データ解析により,外部変数と情報変数を同時に含まないクラスタの同定において,提案手法の既存アルゴリズムに対する優位性を実証した。

While K-means is known to be a standard clustering algorithm, it may be compromised due to the presence of outliers and high-dimensional noisy variables. This paper proposes adaptively robust and sparse K-means clustering (ARSK) to address these practical limitations of the standard K-means algorithm. We introduce a redundant error component for each observation for robustness, and this additional parameter is penalized using a group sparse penalty. To accommodate the impact of high-dimensional noisy variables, the objective function is modified by incorporating weights and implementing a penalty to control the sparsity of the weight vector. The tuning parameters to control the robustness and sparsity are selected by Gap statistics. Through simulation experiments and real data analysis, we demonstrate the superiority of the proposed method to existing algorithms in identifying clusters without outliers and informative variables simultaneously.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 言語モデルにおける自己認識

Self-Recognition in Language Models ( http://arxiv.org/abs/2407.06946v1 )

ライセンス: Link先を確認
Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre, (参考訳) 急速に増加するアプリケーションの数は、少数のクローズドソース言語モデル(LM)に依存している。 この依存は、LMが自己認識能力を発達させる場合、新たなセキュリティリスクをもたらす可能性がある。 人間の身元認証手法に着想を得て,モデル生成した「セキュリティ問題」を用いてLMの自己認識を評価する新しい手法を提案する。 我々のテストは、内部モデルパラメータや出力確率へのアクセスを必要としないため、フロンティアモデルの追跡のために外部的に管理することができる。 現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。 広範囲な実験で、検査されたLMでは、一般的な自己認識や一貫した自己認識の実証的証拠は見つからなかった。 代わりに、我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。 さらに,どのモデルが最適な解答を生成するかという選好が,LM間で一致していることを示す。 また,複数選択条件下でのLMの位置偏差に関する新たな知見も明らかにした。

A rapidly growing number of applications rely on a small set of closed-source language models (LMs). This dependency might introduce novel security risks if LMs develop self-recognition capabilities. Inspired by human identity verification methods, we propose a novel approach for assessing self-recognition in LMs using model-generated "security questions". Our test can be externally administered to keep track of frontier models as it does not require access to internal model parameters or output probabilities. We use our test to examine self-recognition in ten of the most capable open- and closed-source LMs currently publicly available. Our extensive experiments found no empirical evidence of general or consistent self-recognition in any examined LM. Instead, our results suggest that given a set of alternatives, LMs seek to pick the "best" answer, regardless of its origin. Moreover, we find indications that preferences about which models produce the best answers are consistent across LMs. We additionally uncover novel insights on position bias considerations for LMs in multiple-choice settings.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# スペイン語 TrOCR: 言語適応のためのトランスファー学習の活用

Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation ( http://arxiv.org/abs/2407.06950v1 )

ライセンス: Link先を確認
Filipe Lauar, Valentin Laurent, (参考訳) 本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。 TrOCRはトランスフォーマーベースの光学文字認識(OCR)モデルである。 日本語のTrOCRエンコーダを言語固有のデコーダと統合し、その言語上でモデルを訓練し、新しい言語データに基づいて英語ベースのTrOCRモデルを微調整する。 公開されているデータセットが不足しているため、あらゆる言語でOCRデータセットを作成するためのリソース効率のよいパイプラインと、Visual Rich Documents(VRD)に焦点を当てたさまざまな画像生成方法の包括的なベンチマークを提示します。 さらに、スペイン語に対する2つのアプローチの比較分析を行い、英語のTrOCRをスペイン語で微調整することで、固定データセットサイズの言語固有デコーダよりも優れた認識が得られることを示した。 我々は、利用可能な印刷データセット上で文字と単語の誤り率の指標を用いたモデルを評価し、他のオープンソースおよびクラウドOCRスパンディッシュモデルと比較した。 私たちが知る限り、これらのリソースはスペイン語でOCRのための最高のオープンソースモデルを表しています。 スペインのTrOCRモデルはHuggingFace [20]で公開されており、データセットを生成するコードはGithub [25]で公開されている。

This study explores the transfer learning capabilities of the TrOCR architecture to Spanish. TrOCR is a transformer-based Optical Character Recognition (OCR) model renowned for its state-of-the-art performance in English benchmarks. Inspired by Li et al. assertion regarding its adaptability to multilingual text recognition, we investigate two distinct approaches to adapt the model to a new language: integrating an English TrOCR encoder with a language specific decoder and train the model on this specific language, and fine-tuning the English base TrOCR model on a new language data. Due to the scarcity of publicly available datasets, we present a resource-efficient pipeline for creating OCR datasets in any language, along with a comprehensive benchmark of the different image generation methods employed with a focus on Visual Rich Documents (VRDs). Additionally, we offer a comparative analysis of the two approaches for the Spanish language, demonstrating that fine-tuning the English TrOCR on Spanish yields superior recognition than the language specific decoder for a fixed dataset size. We evaluate our model employing character and word error rate metrics on a public available printed dataset, comparing the performance against other open-source and cloud OCR spanish models. As far as we know, these resources represent the best open-source model for OCR in Spanish. The Spanish TrOCR models are publicly available on HuggingFace [20] and the code to generate the dataset is available on Github [25].
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# ICLGuard: 適用性認証のための文脈内学習動作の制御

ICLGuard: Controlling In-Context Learning Behavior for Applicability Authorization ( http://arxiv.org/abs/2407.06955v1 )

ライセンス: Link先を確認
Wai Man Si, Michael Backes, Yang Zhang, (参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の能力の最近の進歩である。 この機能により、ユーザーはモデルを更新することなく新しいタスクを実行できる。 具体的には、いくつかのインプットラベルペアデモとテスト入力を条件にすることで、推論時間中のタスクに対処することができる。 従来の微調整パラダイムと異なり、柔軟性が向上している。 しかし、この能力は潜在的な問題も引き起こす。 例えば、ユーザーは、モデルポリシーに違反したり、モデル所有者の利益と矛盾する可能性のある不適切なまたは機密性の高いコンテンツでタスクを実行するなど、制限のない任意のデータでモデルを使用することができる。 モデルオーナとして、さまざまなコンテンツに対するモデルオーナの要求に応じて、ICLの下でモデルの振る舞いを制御するメカニズムを確立することが不可欠である。 そこで本研究では,LSM,特にICL動作に適した"応用可能性認可"の概念を導入し,シンプルなアプローチであるICLGuardを提案する。 これは、モデル所有者が異なるデータ上でのICLの振る舞いを規制できるように設計された微調整フレームワークである。 ICLGuard はオリジナルの LLM とファインチューンを保存しており、LLM を"ガードする"ために、最小限のトレーニング可能なパラメータセットのみを付加している。 実験の結果,保護されたLSMは,他のデータに対するICL能力や全データに対する一般機能に影響を与えることなく,目標データ上でのICL能力を失活させることができることがわかった。

In-context learning (ICL) is a recent advancement in the capabilities of large language models (LLMs). This feature allows users to perform a new task without updating the model. Concretely, users can address tasks during the inference time by conditioning on a few input-label pair demonstrations along with the test input. It is different than the conventional fine-tuning paradigm and offers more flexibility. However, this capability also introduces potential issues. For example, users may use the model on any data without restriction, such as performing tasks with improper or sensitive content, which might violate the model policy or conflict with the model owner's interests. As a model owner, it is crucial to establish a mechanism to control the model's behavior under ICL, depending on the model owner's requirements for various content. To this end, we introduce the concept of "applicability authorization" tailored for LLMs, particularly for ICL behavior, and propose a simple approach, ICLGuard. It is a fine-tuning framework designed to allow the model owner to regulate ICL behavior on different data. ICLGuard preserves the original LLM and fine-tunes only a minimal set of additional trainable parameters to "guard" the LLM. Empirical results show that the guarded LLM can deactivate its ICL ability on target data without affecting its ICL ability on other data and its general functionality across all data.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 音声統合大言語モデルにおける意味的ジェンダーバイアスの検討

Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models ( http://arxiv.org/abs/2407.06957v1 )

ライセンス: Link先を確認
Yi-Cheng Lin, Tzu-Quan Lin, Chih-Kai Yang, Ke-Han Lu, Wei-Chih Chen, Chun-Yi Kuan, Hung-yi Lee, (参考訳) 音声統合大言語モデル(SILLM)は、大きな言語モデルと音声認識を組み合わせることで、感情認識や話者検証、普遍的な音声理解能力の実証など、様々なタスクを実行する。 しかし、これらのモデルはトレーニングデータに存在するバイアスを増幅し、疎外されたグループの情報へのアクセスにバイアスを与える可能性がある。 本研究は、キュレートされた音声バイアス評価ツールキットと対応するデータセットを導入する。 SILLMのジェンダーバイアスを,STT,SCR,SSC,SQAの4つの意味的タスクで評価した。 分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。 本研究は,SILLMの偏見を包括的に評価するために複数のアプローチを採用することの必要性を強調し,より公平なSILLMシステムの開発に向けた洞察を提供する。

Speech Integrated Large Language Models (SILLMs) combine large language models with speech perception to perform diverse tasks, such as emotion recognition to speaker verification, demonstrating universal audio understanding capability. However, these models may amplify biases present in training data, potentially leading to biased access to information for marginalized groups. This work introduces a curated spoken bias evaluation toolkit and corresponding dataset. We evaluate gender bias in SILLMs across four semantic-related tasks: speech-to-text translation (STT), spoken coreference resolution (SCR), spoken sentence continuation (SSC), and spoken question answering (SQA). Our analysis reveals that bias levels are language-dependent and vary with different evaluation methods. Our findings emphasize the necessity of employing multiple approaches to comprehensively assess biases in SILLMs, providing insights for developing fairer SILLM systems.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 3次元インスタンスセグメンテーションのための共同プロトタイプと係数予測

Joint prototype and coefficient prediction for 3D instance segmentation ( http://arxiv.org/abs/2407.06958v1 )

ライセンス: Link先を確認
Remco Royen, Leon Denis, Adrian Munteanu, (参考訳) 3Dインスタンスのセグメンテーションは、包括的な3Dシーン理解を必要とするアプリケーションにとって不可欠である。 本稿では,係数とプロトタイプを同時に学習する新しい手法を提案する。 オーバーコンプリートサンプリング戦略を用いることで,提案手法はインスタンス予測のオーバーコンプリートセットを生成し,その最適化手法は推論中にNon-Maximum Suppression (NMS) アルゴリズムによって選択される。 得られたプロトタイプは、可視化可能で解釈可能である。 提案手法はS3DISブロック上での優れた性能を示し,mRecおよびmPrecの既存手法よりも一貫して優れていた。 さらに、最先端技術よりも32.9%高速で動作する。 特に,提案手法は推定時間の0.8%に過ぎず,既存の手法に比べて20倍以上の時間差の減少を示す。 これらの属性は、高速な推論と高信頼性の両方を必要とする実用的な応用に適している。

3D instance segmentation is crucial for applications demanding comprehensive 3D scene understanding. In this paper, we introduce a novel method that simultaneously learns coefficients and prototypes. Employing an overcomplete sampling strategy, our method produces an overcomplete set of instance predictions, from which the optimal ones are selected through a Non-Maximum Suppression (NMS) algorithm during inference. The obtained prototypes are visualizable and interpretable. Our method demonstrates superior performance on S3DIS-blocks, consistently outperforming existing methods in mRec and mPrec. Moreover, it operates 32.9% faster than the state-of-the-art. Notably, with only 0.8% of the total inference time, our method exhibits an over 20-fold reduction in the variance of inference time compared to existing methods. These attributes render our method well-suited for practical applications requiring both rapid inference and high reliability.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 視覚変換器のパラメータ効率とメモリ効率の調整:アンタングルアプローチ

Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach ( http://arxiv.org/abs/2407.06964v1 )

ライセンス: Link先を確認
Taolin Zhang, Jiawang Bai, Zhihe Lu, Dongze Lian, Genping Wang, Xinchao Wang, Shu-Tao Xia, (参考訳) パラメータ効率変換学習(PETL)に関する最近の研究は、学習可能なパラメータがわずかしかない下流認識タスクに事前学習されたビジョントランスフォーマーを適用する可能性を示している。 しかし、それらは通常、事前訓練されたモデルに新しい構造を挿入するため、そのモデルの中間機能全体が変更され、バックプロパゲーションに関わるために保存される必要があり、結果としてメモリの重いトレーニングが発生する。 我々は,PETLをタスク特化学習と事前学習した知識利用の2つの側面に分割する,新しいアンタングル的視点からこの問題を解決する。 具体的には、学習可能で軽量なモジュールでタスク固有のクエリを合成する。 タスク固有の知識を備えた合成クエリは、事前学習されたモデルの中間表現から、クエリのみの方法で下流タスクの有用な特徴を抽出するのに役立つ。 これらの特徴に基づいて、入力サンプルの予測を行うために、カスタマイズされた分類ヘッドを提案する。 軽量なアーキテクチャと、勾配降下を実行するための重い中間機能の使用を避けることで、トレーニングにおけるメモリ使用量の制限が示される。 大規模な実験により,本手法はメモリ制約下での最先端性能を実現し,実環境における適用可能性を示す。

Recent works on parameter-efficient transfer learning (PETL) show the potential to adapt a pre-trained Vision Transformer to downstream recognition tasks with only a few learnable parameters. However, since they usually insert new structures into the pre-trained model, entire intermediate features of that model are changed and thus need to be stored to be involved in back-propagation, resulting in memory-heavy training. We solve this problem from a novel disentangled perspective, i.e., dividing PETL into two aspects: task-specific learning and pre-trained knowledge utilization. Specifically, we synthesize the task-specific query with a learnable and lightweight module, which is independent of the pre-trained model. The synthesized query equipped with task-specific knowledge serves to extract the useful features for downstream tasks from the intermediate representations of the pre-trained model in a query-only manner. Built upon these features, a customized classification head is proposed to make the prediction for the input sample. lightweight architecture and avoids the use of heavy intermediate features for running gradient descent, it demonstrates limited memory usage in training. Extensive experiments manifest that our method achieves state-of-the-art performance under memory constraints, showcasing its applicability in real-world situations.
翻訳日:2024-07-10 17:37:36 公開日:2024-07-09
# 文化遺産オブジェクトのためのリッチメタデータ獲得によるMicrosoft Cloudベースのディジタイゼーションワークフロー

Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects ( http://arxiv.org/abs/2407.06972v1 )

ライセンス: Link先を確認
Krzysztof Kutt, Jakub Gomułka, Luiz do Valle Miranda, Grzegorz J. Nalepa, (参考訳) ジャギロニア大学におけるいくつかの文化遺産イニシアチブへの対応として,ジャギロニア図書館(JL)と連携して新たなデジタル化ワークフローを開発した。 このソリューションは、メタデータ取得インターフェースとしてMS Excelファイルを備えたMicrosoft 365クラウド、バリデーションのためのOffice Script、ストレージのためのMS Sharepointといった、アクセスしやすい技術ソリューションに基づいており、情報システムの経験に関わらず、ドメインの専門家(文献学者、歴史家、哲学者、図書館員、考古学者、キュレーターなど)によるメタデータの取得を可能にする。 最終的なゴールは、分析された保持状況や一般的な知識基盤、その他の文化遺産コレクションを記述した知識グラフを作成することであり、メタデータの高精度化や外部ソースへの適切なリンクに注意を払っている。 このワークフローは、いわゆる"Berlin Collection"のデジタル化に焦点を当てたDiHeLibプロジェクトの2つのパイロットと、JLの精度とユーザビリティの洗練と確認を可能にする国際的なゲストとのワークショップですでに評価されている。 提案したワークフローは、ある機関におけるデジタル化や基本メタデータの収集に関する既存のシステムやドメインガイドライン(ファイルタイプ、画像品質、ダブリン・コア/MARC-21の使用など)には干渉しないが、より豊かなメタデータの収集を可能にするために拡張されているため、すべてのGLAM(図書室、図書館、アーカイブ、博物館)にとって関心があると信じている。

In response to several cultural heritage initiatives at the Jagiellonian University, we have developed a new digitization workflow in collaboration with the Jagiellonian Library (JL). The solution is based on easy-to-access technological solutions -- Microsoft 365 cloud with MS Excel files as metadata acquisition interfaces, Office Script for validation, and MS Sharepoint for storage -- that allows metadata acquisition by domain experts (philologists, historians, philosophers, librarians, archivists, curators, etc.) regardless of their experience with information systems. The ultimate goal is to create a knowledge graph that describes the analyzed holdings, linked to general knowledge bases, as well as to other cultural heritage collections, so careful attention is paid to the high accuracy of metadata and proper links to external sources. The workflow has already been evaluated in two pilots in the DiHeLib project focused on digitizing the so-called "Berlin Collection" and in two workshops with international guests, which allowed for its refinement and confirmation of its correctness and usability for JL. As the proposed workflow does not interfere with existing systems or domain guidelines regarding digitization and basic metadata collection in a given institution (e.g., file type, image quality, use of Dublin Core/MARC-21), but extends them in order to enable rich metadata collection, not previously possible, we believe that it could be of interest to all GLAMs (galleries, libraries, archives, and museums).
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# マニュアルメタデータの高度化:ジャギロニア大学における研究の進展

Advancing Manuscript Metadata: Work in Progress at the Jagiellonian University ( http://arxiv.org/abs/2407.06976v1 )

ライセンス: Link先を確認
Luiz do Valle Miranda, Krzysztof Kutt, Grzegorz J. Nalepa, (参考訳) 進行中の研究プロジェクトの一環として、ジャギロニア大学博物館、ジャギロニア大学アーカイブ、ジャギロニア図書館の3つのユニットが、文化遺産をデジタル化し、詳細に記述し、これらの記述をリンクされたデータクラウドに統合するために協力している。 この目標を達成するためには、最初のステップとして、既存の標準に準拠したメタデータモデルの開発が必要であり、他方では、他のシステムとの相互運用性を可能にし、3番目のステップでは、コレクションのキュレーターが確立した記述のすべての要素をキャプチャする。 本稿では,本研究の現状について報告し,開発中のデータモデルに関する最も重要な要件を概説するとともに,コレクションの観点から最も関連性の高い2つの標準,すなわちヨーロッパにおけるデータモデルとカリオペで使用されるエンコードされたアーカイブ記述(Encoded Archival Description)を詳細に比較する。

As part of ongoing research projects, three Jagiellonian University units -- the Jagiellonian University Museum, the Jagiellonian University Archives, and the Jagiellonian Library -- are collaborating to digitize cultural heritage documents, describe them in detail, and then integrate these descriptions into a linked data cloud. Achieving this goal requires, as a first step, the development of a metadata model that, on the one hand, complies with existing standards, on the other hand, allows interoperability with other systems, and on the third, captures all the elements of description established by the curators of the collections. In this paper, we present a report on the current status of the work, in which we outline the most important requirements for the data model under development and then make a detailed comparison with the two standards that are the most relevant from the point of view of collections: Europeana Data Model used in Europeana and Encoded Archival Description used in Kalliope.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 専門家の経験を探求する: アジャイルソフトウェア開発における持続可能性 - フィンランドのソフトウェア産業からの洞察

Exploring the Experiences of Experts: Sustainability in Agile Software Development - Insights from the Finnish Software Industry ( http://arxiv.org/abs/2407.06978v1 )

ライセンス: Link先を確認
Hatef Shamshiri, Ashok Tripathi, Shola Oyedeji, Jari Porras, (参考訳) アジャイルソフトウェア開発は、その利点により、ソフトウェア開発者の間で人気を集めています。 アジャイルソフトウェア開発への関心が高まるにつれ、この分野における持続可能性の調査に焦点が当てられている。 この調査は、フィンランドのソフトウェア産業におけるアジャイルソフトウェア開発の持続可能性を探究することを目的としており、収集された経験を通じて、2030年のソフトウェアエンジニアリングロードマップに貢献する。 フィンランドのソフトウェア業界で,この目標を達成するための実証的研究を行った。 この調査結果は、アジャイルソフトウェア開発に持続可能性を統合することに対する専門家の間での関心が高まっていることを示している。 その結果、スクラムの方法論はフィンランドのソフトウェア業界でもっとも一般的なアプローチであり、さまざまなサステナビリティの次元に対処することで、互いに波及効果があることが示された。 この研究は、2030年のソフトウェアエンジニアリングロードマップで考慮すべき3つの重要な要素を提案する。ソフトウェアエンジニアリング教育に持続可能性を統合すること、持続可能性ツールとフレームワークを作成すること、ソフトウェア開発で使用されるライブラリのエネルギー効率を評価することである。

Agile software development is gaining popularity among software developers due to its benefits. As the interest in agile software development grows, there is an increasing focus on investigating sustainability within this field. This study aimed to explore sustainability within agile software development in the Finnish software industry and, through gathered experiences, contribute to the software engineering roadmap 2030. Using an interview approach, we conducted an empirical study within the Finnish software industry to achieve this goal. The findings indicate a growing interest among experts in integrating sustainability into agile software development. The results show that the Scrum methodology is the most popular approach in the Finnish software industry, and addressing different sustainability dimensions can have a ripple effect on each other. The study proposes three key elements to be considered in the software engineering roadmap 2030: integrating sustainability into software engineering education, creating sustainability tools and frameworks, and assessing the energy efficiency of libraries used in software development.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 高スループットスクリーニングのための仮想染色は一般化できるか?

Can virtual staining for high-throughput screening generalize? ( http://arxiv.org/abs/2407.06979v1 )

ライセンス: Link先を確認
Samuel Tonks, Cuong Nguyer, Steve Hood, Ryan Musso, Ceridwen Hopely, Steve Titus, Minh Doan, Iain Styles, Alexander Krull, (参考訳) 製薬業界における高スループットスクリーニング(HTS)からの大量の画像データは、仮想染色モデルのトレーニングに優れた資源を提供する。 しかし、ある実験条件の下で訓練されたモデルが他の条件に一般化する可能性については、まだ未解明のままである。 本研究は,HTSに共通する3種類の細胞型(肺,卵巣,乳房)と2種類の表現型(毒性,非毒性)から得られたデータを用いて,仮想染色モデルを効果的に訓練し,3つの典型的なHTS分布シフト – 見えない表現型,見えない細胞型,および両者の組み合わせを一般化するか否かを系統的に検討した。 772,416対の明るさ場、細胞質、核、DNA損傷染色画像のデータセットを用いて、ピクセルベース、インスタンスワイド、生物学的機能ベースのモデルの一般化能力を評価する。 本研究は,非毒性条件試料の仮想核および細胞質モデルのトレーニングが毒性条件試料に一般化するだけでなく,毒性条件試料のトレーニングと比較して,すべての評価レベルにおける性能の向上につながることを示唆している。 卵巣または肺の細胞サンプルで訓練されたモデルは、他の条件下ではよく機能するが、乳房の細胞サンプルで訓練されたモデルは、常に低い一般化を示す。 未確認の細胞型や表現型への一般化は、未確認の細胞型のみに対処するよりも、あらゆるレベルの評価において良好な一般化を示す。 本研究は、多様なHTSデータセットに基づいてトレーニングされた仮想染色モデルの一般化能力に関する、初めて大規模なデータ中心分析を行い、実験的なデータ生成のための貴重な戦略を提供する。

The large volume and variety of imaging data from high-throughput screening (HTS) in the pharmaceutical industry present an excellent resource for training virtual staining models. However, the potential of models trained under one set of experimental conditions to generalize to other conditions remains underexplored. This study systematically investigates whether data from three cell types (lung, ovarian, and breast) and two phenotypes (toxic and non-toxic conditions) commonly found in HTS can effectively train virtual staining models to generalize across three typical HTS distribution shifts: unseen phenotypes, unseen cell types, and the combination of both. Utilizing a dataset of 772,416 paired bright-field, cytoplasm, nuclei, and DNA-damage stain images, we evaluate the generalization capabilities of models across pixel-based, instance-wise, and biological-feature-based levels. Our findings indicate that training virtual nuclei and cytoplasm models on non-toxic condition samples not only generalizes to toxic condition samples but leads to improved performance across all evaluation levels compared to training on toxic condition samples. Generalization to unseen cell types shows variability depending on the cell type; models trained on ovarian or lung cell samples often perform well under other conditions, while those trained on breast cell samples consistently show poor generalization. Generalization to unseen cell types and phenotypes shows good generalization across all levels of evaluation compared to addressing unseen cell types alone. This study represents the first large-scale, data-centric analysis of the generalization capability of virtual staining models trained on diverse HTS datasets, providing valuable strategies for experimental training data generation.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 光ビームアレイの再構成可能なユニタリ変換

Reconfigurable unitary transformations of optical beam arrays ( http://arxiv.org/abs/2407.06981v1 )

ライセンス: Link先を確認
Aldo C. Martinez-Becerril, Siwei Luo, Liu Li, Jordan Pagé, Lambert Giner, Raphael A. Abrahao, Jeff S. Lundeen, (参考訳) 光の空間変換は光学においてユビキタスであり、レンズによる単純なイメージングから導波路メッシュにおける量子および古典的な情報処理まで様々である。 マルチプレーン光変換器 (MPLC) は、完全に一般的な空間変換、すなわち普遍的なユニタリを約束するプラットフォームとして登場した。 しかし、これまでMPLCシステムはガウスモードからラゲール・ガウスモードへ変換する一般の、例えばガウスモードから遠く離れた変換を実証してきた。 ここでは、MLPCの約束、動的に再構成可能な任意のユニタリ変換を課す能力を示す。 具体的には、並列自由空間ビームの重ね合わせの変換について考察し、これはフォトニクスで符号化される共通情報である。 2つの平行ビームの系に対するユニタリ変換の全域を実験的に検証し、その忠実度を写像する。 平均変換忠実度は0.85 \pm 0.03$である。 この高忠実さは、MPLCが量子情報処理と古典情報処理を組み合わせたユニタリ変換を実装するのに役立つことを示唆している。

Spatial transformations of light are ubiquitous in optics, with examples ranging from simple imaging with a lens to quantum and classical information processing in waveguide meshes. Multi-plane light converter (MPLC) systems have emerged as a platform that promises completely general spatial transformations, i.e., a universal unitary. However until now, MPLC systems have demonstrated transformations that are far from general, e.g., converting from a Gaussian to Laguerre-Gauss mode. Here, we demonstrate the promise of an MLPC, the ability to impose an arbitrary unitary transformation that can be reconfigured dynamically. Specifically, we consider transformations on superpositions of parallel free-space beams arranged in an array, which is a common information encoding in photonics. We experimentally test the full gamut of unitary transformations for a system of two parallel beams and make a map of their fidelity. We obtain an average transformation fidelity of $0.85 \pm 0.03$. This high-fidelity suggests MPLCs are a useful tool implementing the unitary transformations that comprise quantum and classical information processing.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# ステレオ画像からのカテゴリーレベルの物体検出・ポーズ推定・再構成

Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images ( http://arxiv.org/abs/2407.06984v1 )

ライセンス: Link先を確認
Chuanrui Zhang, Yonggen Ling, Minglei Lu, Minghan Qin, Haoqian Wang, (参考訳) 本研究では,物質特性の異なる日常的な物体(拡散,特異,透明,混合)を操作するための3次元物体理解タスクについて検討する。 既存の単分子法とRGB-D法は、欠落または不正確な深さ測定によるスケールの曖昧さに悩まされている。 ステレオ画像からのカテゴリーレベルの物体検出とポーズ推定と再構成のための一段階的アプローチであるCODERSを提案する。 パイプラインの基部はステレオ画像特徴と3D位置情報を組み合わせた暗黙のステレオマッチングモジュールである。 このモジュールと以下の変換デコーダアーキテクチャを組み合わせることで、ロボット操作に必要な複数のタスクをエンドツーエンドで学習することが可能になる。 我々のアプローチは、公開TODデータセットにおける競合するすべてのメソッドを著しく上回ります。 さらに、シミュレーションデータに基づいて訓練されたCODERSは、実世界のロボット操作実験において、目に見えないカテゴリレベルのオブジェクトインスタンスによく一般化する。 私たちのデータセット、コード、デモはプロジェクトのページで公開されます。

We study the 3D object understanding task for manipulating everyday objects with different material properties (diffuse, specular, transparent and mixed). Existing monocular and RGB-D methods suffer from scale ambiguity due to missing or imprecise depth measurements. We present CODERS, a one-stage approach for Category-level Object Detection, pose Estimation and Reconstruction from Stereo images. The base of our pipeline is an implicit stereo matching module that combines stereo image features with 3D position information. Concatenating this presented module and the following transform-decoder architecture leads to end-to-end learning of multiple tasks required by robot manipulation. Our approach significantly outperforms all competing methods in the public TOD dataset. Furthermore, trained on simulated data, CODERS generalize well to unseen category-level object instances in real-world robot manipulation experiments. Our dataset, code, and demos will be available on our project page.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# PEER:マルチエージェントフレームワークとチューニングメソッドによるドメイン特化タスクのエキスパート化

PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods ( http://arxiv.org/abs/2407.06985v1 )

ライセンス: Link先を確認
Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu, (参考訳) ドメイン固有のアプリケーションでは、正確なプロンプトを付加したGPT-4(Retrieval-Augmented Generation (RAG))が顕著な可能性を示しているが、パフォーマンス、コスト、データプライバシの重大な三重項に直面している。 ハイパフォーマンスには高度な処理技術が必要だが、複雑なワークフロー内で複数のエージェントを管理することは、しばしばコストと困難さを証明している。 これを解決するために、PEER(Plan, Execute, Express, Review)マルチエージェントフレームワークを紹介します。 これは、正確な質問分解、高度な情報検索、包括的な要約、厳密な自己評価を統合することで、ドメイン固有のタスクを体系化する。 コストとデータのプライバシに関する懸念から、企業は、GPT-4のようなプロプライエタリなモデルからカスタムモデルに移行し、コスト、セキュリティ、パフォーマンスのバランスを保っている。 我々は、効率的なモデルチューニングのためのオンラインデータとユーザフィードバックを活用する産業プラクティスを開発した。 本研究は、ドメイン固有の問題解決にマルチエージェントシステムを適用し、効果的なエージェントチューニング戦略を実装するためのベストプラクティスガイドラインを提供する。 GPT-4の性能は95.0%で、コストを効果的に管理し、データのプライバシーを確保する。

In domain-specific applications, GPT-4, augmented with precise prompts or Retrieval-Augmented Generation (RAG), shows notable potential but faces the critical tri-lemma of performance, cost, and data privacy. High performance requires sophisticated processing techniques, yet managing multiple agents within a complex workflow often proves costly and challenging. To address this, we introduce the PEER (Plan, Execute, Express, Review) multi-agent framework. This systematizes domain-specific tasks by integrating precise question decomposition, advanced information retrieval, comprehensive summarization, and rigorous self-assessment. Given the concerns of cost and data privacy, enterprises are shifting from proprietary models like GPT-4 to custom models, striking a balance between cost, security, and performance. We developed industrial practices leveraging online data and user feedback for efficient model tuning. This study provides best practice guidelines for applying multi-agent systems in domain-specific problem-solving and implementing effective agent tuning strategies. Our empirical studies, particularly in the financial question-answering domain, demonstrate that our approach achieves 95.0% of GPT-4's performance, while effectively managing costs and ensuring data privacy.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# ネスト型マッハ・ゼンダー干渉計における経路の高次弱値

Higher order weak values for paths in nested Mach-Zender interferometers ( http://arxiv.org/abs/2407.06989v1 )

ライセンス: Link先を確認
Shushmi Chowdhury, Jörg B. Götte, (参考訳) ファインマン・プロパゲータ・フレームワークの弱い値は、パス積分の観点で解釈のより広い理解を得るために考慮する。 特に、ネストしたマッハ・ゼンダー干渉計実験において粒子が取る不連続な経路の現象について検討する。 我々は、弱測定の列をモデル化するために式を導出することにより、弱値に対する既存の経路積分アプローチを拡張し、弱値干渉計の異なる枝にわたるプローブシフトを研究する。 本研究では,光子を空間射影演算子を介して測定装置として扱う2つのシナリオと,鏡をプローブとして扱う2つのシナリオについて検討する。

We consider weak values in the Feynman propagator framework, to gain a broader understanding of their interpretation in terms of path integrals. In particular, we examine the phenomenon of seemingly discontinuous paths that particles take in nested Mach-Zender interferometer experiments. We extend on existing path integral approaches for weak values by deriving expressions to model a sequence of weak measurements, and study the probe shifts across the different branches of a weak value interferometer. We apply this to scrutinise two scenarios of interest, one which treats photons as measurement apparatus via their spatial projection operators, and the second treating mirrors as probes.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 事前学習モデルのためのセグメントベース対話型機械翻訳

Segment-Based Interactive Machine Translation for Pre-trained Models ( http://arxiv.org/abs/2407.06990v1 )

ライセンス: Link先を確認
Angel Navarro, Francisco Casacuberta, (参考訳) 事前訓練された大規模言語モデル(LLM)は、多くのアプリケーションで広く使われ始めている。 本研究では,対話型機械翻訳(IMT)環境におけるこれらのモデルの利用について検討する。 特に, LLM として mBART (multilingual Bidirectional and Auto-Regressive Transformer) と mT5 (multilingual Text-to-Text Transfer Transformer) を選択した。 システムは、ユーザが各イテレーションで提供するフィードバックを使って、インタラクティブに完璧な翻訳を生成する。 ニューラル機械翻訳(NMT)モデルは、フィードバックとともに予備仮説を生成し、ユーザーが新しい正しいセグメントを検証し、その文が正しく翻訳されるまでその過程を訂正する。 我々は,mBART,mT5,SoTA(State-of-the-art)機械翻訳モデルの性能を,ユーザ作業に関するベンチマークデータセット,Word Stroke Ratio(WSR),Key Stroke Ratio(KSR),Mosk Action Ratio(MAR)と比較した。 実験の結果,mBARTはSoTAモデルと相容れない性能を示した。 この発見の意義は、対話環境向けの新しい機械翻訳モデルの開発にまで及んでいる。これは、いくつかの新しい事前学習モデルがこの領域でSoTAのパフォーマンスを示し、これらのモデルを特定のニーズに適応する潜在的な利点を強調していることを示している。

Pre-trained large language models (LLM) are starting to be widely used in many applications. In this work, we explore the use of these models in interactive machine translation (IMT) environments. In particular, we have chosen mBART (multilingual Bidirectional and Auto-Regressive Transformer) and mT5 (multilingual Text-to-Text Transfer Transformer) as the LLMs to perform our experiments. The system generates perfect translations interactively using the feedback provided by the user at each iteration. The Neural Machine Translation (NMT) model generates a preliminary hypothesis with the feedback, and the user validates new correct segments and performs a word correction--repeating the process until the sentence is correctly translated. We compared the performance of mBART, mT5, and a state-of-the-art (SoTA) machine translation model on a benchmark dataset regarding user effort, Word Stroke Ratio (WSR), Key Stroke Ratio (KSR), and Mouse Action Ratio (MAR). The experimental results indicate that mBART performed comparably with SoTA models, suggesting that it is a viable option for this field of IMT. The implications of this finding extend to the development of new machine translation models for interactive environments, as it indicates that some novel pre-trained models exhibit SoTA performance in this domain, highlighting the potential benefits of adapting these models to specific needs.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 3Dポイントクラウドインスタンスセグメンテーションのためのブロックマージの改善

Improved Block Merging for 3D Point Cloud Instance Segmentation ( http://arxiv.org/abs/2407.06991v1 )

ライセンス: Link先を確認
Leon Denis, Remco Royen, Adrian Munteanu, (参考訳) 本稿では,ブロックベース3Dインスタンスセグメンテーション技術に適したブロックマージアルゴリズムを提案する。 提案手法は,すでに処理されているブロックの不正なラベル付き点をラベル伝搬によって修正することにより,最先端技術よりも改善する。 これにより、現在の技術の主な限界である望ましい結果を生成するために、ブロック間のインスタンスオーバーラップはもはや不要になる。 本実験により,提案手法は,基礎となるネットワークアーキテクチャに関係なく,文学におけるすべての評価指標の精度を大幅に向上することを示した。

This paper proposes a novel block merging algorithm suitable for any block-based 3D instance segmentation technique. The proposed work improves over the state-of-the-art by allowing wrongly labelled points of already processed blocks to be corrected through label propagation. By doing so, instance overlap between blocks is not anymore necessary to produce the desirable results, which is the main limitation of the current art. Our experiments show that the proposed block merging algorithm significantly and consistently improves the obtained accuracy for all evaluation metrics employed in literature, regardless of the underlying network architecture.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# ロバスト・ニューラル・インフォメーション・検索 : 敵対的・アウト・オブ・ディストリビューション的視点

Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective ( http://arxiv.org/abs/2407.06992v1 )

ライセンス: Link先を確認
Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) ニューラル情報検索(IR)モデルの最近の進歩は、様々なIRタスクに対する有効性を著しく向上させてきた。 これらのモデルの堅牢性は、実際に信頼性を確保するのに不可欠であり、大きな注目を集めている。 ロバストIRに関する幅広い研究が提案されている中で、我々は、現状を整理し、既存の方法論から洞察を得て、今後の発展に向けた基礎を築き上げることが、機会であると信じている。 我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。 本研究は,高密度検索モデル (DRM) とニューラルランキングモデル (NRM) の強靭性解をそれぞれ識別し,これらをニューラルIRパイプラインの重要成分として認識する。 我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。 SIGIR 2024 \url{https://sigir2024-robust-information-retrieval.github.io}での最初のチュートリアルも行います。 既存の作業の組織化とともに、ロバストな情報検索のための異種評価ベンチマークであるロバストなIR(BestIR)のためのベンチマーク(Benchmark for robust IR)を導入し、その公開は \url{https://github.com/Davion-Liu/BestIR} で行われている。 本稿では,IRモデルの堅牢性に関する今後の研究に有用な手がかりを提供し,信頼性の高い検索エンジンである \url{https://github.com/Davion-Liu/Awesome-Robustness-in-Information-Retrieval} の開発を支援することを期待する。

Recent advances in neural information retrieval (IR) models have significantly enhanced their effectiveness over various IR tasks. The robustness of these models, essential for ensuring their reliability in practice, has also garnered significant attention. With a wide array of research on robust IR being proposed, we believe it is the opportune moment to consolidate the current status, glean insights from existing methodologies, and lay the groundwork for future development. We view the robustness of IR to be a multifaceted concept, emphasizing its necessity against adversarial attacks, out-of-distribution (OOD) scenarios and performance variance. With a focus on adversarial and OOD robustness, we dissect robustness solutions for dense retrieval models (DRMs) and neural ranking models (NRMs), respectively, recognizing them as pivotal components of the neural IR pipeline. We provide an in-depth discussion of existing methods, datasets, and evaluation metrics, shedding light on challenges and future directions in the era of large language models. To the best of our knowledge, this is the first comprehensive survey on the robustness of neural IR models, and we will also be giving our first tutorial presentation at SIGIR 2024 \url{https://sigir2024-robust-information-retrieval.github.io}. Along with the organization of existing work, we introduce a Benchmark for robust IR (BestIR), a heterogeneous evaluation benchmark for robust neural information retrieval, which is publicly available at \url{https://github.com/Davion-Liu/BestIR}. We hope that this study provides useful clues for future research on the robustness of IR models and helps to develop trustworthy search engines \url{https://github.com/Davion-Liu/Awesome-Robustness-in-Information-Retrieval}.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 高分散動的グラフにおける変化点検出

Changepoint Detection in Highly-Attributed Dynamic Graphs ( http://arxiv.org/abs/2407.06998v1 )

ライセンス: Link先を確認
Emiliano Penaloza, Nathaniel Stevens, (参考訳) 動的ネットワークにおける異常な動作を検出することは、常に困難である。 この問題は、これらのネットワークの基盤となるトポロジが個々の高次元ノード属性の影響を受ければさらに悪化する。 ネットワークのモジュラリティをコミュニティ構造のプロキシとして追跡することでこの問題に対処する。 グラフニューラルネットワーク(GNN)を利用して、各スナップショットのモジュラリティを推定します。 GNNはネットワーク構造と高次元ノード属性の両方を考慮し、ネットワーク統計を推定するための包括的なアプローチを提供する。 本手法は,モジュール性の変化を解析することにより,高度に分散されたネットワークの変化を検出する能力を示すシミュレーションによって検証される。 さらに,本手法では,各ノードが高次元のテキスト属性を持つ,#Iran Twitter応答ネットワーク内の実世界のイベントを検出することができる。

Detecting anomalous behavior in dynamic networks remains a constant challenge. This problem is further exacerbated when the underlying topology of these networks is affected by individual highly-dimensional node attributes. We address this issue by tracking a network's modularity as a proxy of its community structure. We leverage Graph Neural Networks (GNNs) to estimate each snapshot's modularity. GNNs can account for both network structure and high-dimensional node attributes, providing a comprehensive approach for estimating network statistics. Our method is validated through simulations that demonstrate its ability to detect changes in highly-attributed networks by analyzing shifts in modularity. Moreover, we find our method is able to detect a real-world event within the \#Iran Twitter reply network, where each node has high-dimensional textual attributes.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# Metron: LLM推論システムのためのホロスティックパフォーマンス評価フレームワーク

Metron: Holistic Performance Evaluation Framework for LLM Inference Systems ( http://arxiv.org/abs/2407.07000v1 )

ライセンス: Link先を確認
Amey Agrawal, Anmol Agarwal, Nitin Kedia, Jayashree Mohan, Souvik Kundu, Nipun Kwatra, Ramachandran Ramjee, Alexey Tumanov, (参考訳) 大規模言語モデル(LLM)を本番環境で実行することでかなりのコストがかかり、推論システムの最適化が近年進歩している。 現在、これらのシステムは従来のレイテンシとスループットのメトリクス(TTFT、TBT、正規化レイテンシ、TPOTなど)に対して評価されている。 しかし、これらのメトリクスはLLM推論のニュアンスを完全に捉えることができず、チャットや翻訳といったリアルタイムアプリケーションにとって重要なユーザ向けパフォーマンスを不完全に評価する結果となった。 本稿では,LLM推論システムの評価において,現在の性能指標の落とし穴を最初に同定する。 次に、LLM推論プロセスの複雑さと、そのリアルタイムユーザエクスペリエンスへの影響を反映した新しいメトリックである、流動性インデクスを含む総合的なパフォーマンス評価フレームワークであるMetronを提案する。 最後に、Metronを使って様々なオープンソースプラットフォームとモデル・アズ・ア・サービスを評価し、その強みと弱点について議論する。 Metron は https://github.com/project-metron/metron で入手できる。

Serving large language models (LLMs) in production can incur substantial costs, which has prompted recent advances in inference system optimizations. Today, these systems are evaluated against conventional latency and throughput metrics (eg. TTFT, TBT, Normalised Latency and TPOT). However, these metrics fail to fully capture the nuances of LLM inference, leading to an incomplete assessment of user-facing performance crucial for real-time applications such as chat and translation. In this paper, we first identify the pitfalls of current performance metrics in evaluating LLM inference systems. We then propose Metron, a comprehensive performance evaluation framework that includes fluidity-index -- a novel metric designed to reflect the intricacies of the LLM inference process and its impact on real-time user experience. Finally, we evaluate various existing open-source platforms and model-as-a-service offerings using Metron, discussing their strengths and weaknesses. Metron is available at https://github.com/project-metron/metron.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 補うことを学び、複数のユーザーを守る

Learning to Complement and to Defer to Multiple Users ( http://arxiv.org/abs/2407.07003v1 )

ライセンス: Link先を確認
Zheng Zhang, Wenjie Ai, Kevin Wells, David Rosewarne, Thanh-Toan Do, Gustavo Carneiro, (参考訳) HAI-CC(Human-AI Collaboration in Classification)の開発により、複雑な意思決定プロセスのため、ユーザとAIの予測の統合が困難になる。 このプロセスには3つのオプションがある。 1)AIは自律的に分類する。 2)AIがユーザと協力し,補完することを学ぶ。 3)AIがユーザにデフェクトする遅延学習。 相互接続の性質にもかかわらず、これらの選択肢は統一システムの構成要素としてではなく、独立に研究されている。 本稿では,この弱点を,Learning to Complement and to Defer to Multiple Users (LECODU) と呼ばれる新しいHAI-CC方法論を用いて解決する。 LECODUは、学習を補完と学習に組み合わせて戦略を遅延させるだけでなく、意思決定プロセスに携わる最適なユーザ数を推定する。 LECODUのトレーニングは、分類精度を最大化し、ユーザの関与に伴うコラボレーションコストを最小限にする。 実世界のデータセットと合成データセットの総合的な評価は、最先端のHAI-CC手法と比較してLECODUの優れた性能を示している。 注目すべきは、ラベルノイズの頻度の高い信頼性の低いユーザを頼りにしている場合でも、LECODUは人間の意思決定者単独とAI単独よりも大幅に改善されていることだ。

With the development of Human-AI Collaboration in Classification (HAI-CC), integrating users and AI predictions becomes challenging due to the complex decision-making process. This process has three options: 1) AI autonomously classifies, 2) learning to complement, where AI collaborates with users, and 3) learning to defer, where AI defers to users. Despite their interconnected nature, these options have been studied in isolation rather than as components of a unified system. In this paper, we address this weakness with the novel HAI-CC methodology, called Learning to Complement and to Defer to Multiple Users (LECODU). LECODU not only combines learning to complement and learning to defer strategies, but it also incorporates an estimation of the optimal number of users to engage in the decision process. The training of LECODU maximises classification accuracy and minimises collaboration costs associated with user involvement. Comprehensive evaluations across real-world and synthesized datasets demonstrate LECODU's superior performance compared to state-of-the-art HAI-CC methods. Remarkably, even when relying on unreliable users with high rates of label noise, LECODU exhibits significant improvement over both human decision-makers alone and AI alone.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# 類似事例検索によるブラジル最高裁判所における先延ばし効率の実証分析

Empirical analysis of Biding Precedent efficiency in the Brazilian Supreme Court via Similar Case Retrieval ( http://arxiv.org/abs/2407.07004v1 )

ライセンス: Link先を確認
Raphaël Tinarrage, Henrique Ennes, Lucas E. Resck, Lucas T. Gomes, Jean R. Ponciano, Jorge Poco, (参考訳) 拘束前例(S\'umulas Vinculantes)はブラジルの法体系に固有の法的な手段であり、連邦最高裁判所の反復的要求に対する保護を含む。 しかし、同様の事件に対する裁判所の露出を減らすためのこれらの手段の有効性の研究は、それらがそのような方向で失敗する傾向にあることを示している。 われわれは,5件の拘束前例,11,14,17,26,37の裁判所レベルでの法的影響を,それらが対処する法的対象に与える影響を実証的に評価した。 この分析は、裁判所が前例に関する判決を作成前に比較することでのみ可能であり、これらの決定は類似事例検索の手法によって検出されるべきである。 数学的側面では、同様のケース検索にTF-IDF, LSTM, BERT, regexの異なる手法を使用するのに対し、法的側面では、これらのバインディング前例の非効率性と、繰り返し使用を正当化する仮説の集合を対比する。 特定のケース検索タスクにおいて深層学習モデルは著しく悪化し、繰り返し要求に応答して前例のバインディングが失敗する理由は不均一であり、ケース依存であるため、特定の原因を抽出することは不可能である。

Binding precedents (S\'umulas Vinculantes) constitute a juridical instrument unique to the Brazilian legal system and whose objectives include the protection of the Federal Supreme Court against repetitive demands. Studies of the effectiveness of these instruments in decreasing the Court's exposure to similar cases, however, indicate that they tend to fail in such a direction, with some of the binding precedents seemingly creating new demands. We empirically assess the legal impact of five binding precedents, 11, 14, 17, 26 and 37, at the highest court level through their effects on the legal subjects they address. This analysis is only possible through the comparison of the Court's ruling about the precedents' themes before they are created, which means that these decisions should be detected through techniques of Similar Case Retrieval. The contributions of this article are therefore twofold: on the mathematical side, we compare the uses of different methods of Natural Language Processing -- TF-IDF, LSTM, BERT, and regex -- for Similar Case Retrieval, whereas on the legal side, we contrast the inefficiency of these binding precedents with a set of hypotheses that may justify their repeated usage. We observe that the deep learning models performed significantly worse in the specific Similar Case Retrieval task and that the reasons for binding precedents to fail in responding to repetitive demand are heterogeneous and case-dependent, making it impossible to single out a specific cause.
翻訳日:2024-07-10 17:27:33 公開日:2024-07-09
# DLに基づくチャネル推定の効率向上のための説明可能なAI

Explainable AI for Enhancing Efficiency of DL-based Channel Estimation ( http://arxiv.org/abs/2407.07009v1 )

ライセンス: Link先を確認
Abdul Karim Gizzini, Yahia Medjahdi, Ali J. Ghandour, Laurent Clavier, (参考訳) 人工知能(AI)ベースの意思決定のサポートは、将来の6Gネットワークにおいて重要な要素であり、そこではネイティブAIの概念が導入される。 さらに、AIは自律運転や医療診断など、さまざまな重要な応用に広く採用されている。 このようなアプリケーションでは、ブラックボックスモデルとしてAIを使用するのは危険で難しい。 したがって、これらのモデルによってなされる決定を理解し、信頼することが不可欠である。 この問題に取り組むには、ブラックボックスモデルの振る舞いの背後にあるロジックを説明するための説明可能なAI(XAI)スキームを開発して、その効率的かつ安全なデプロイメントを保証する必要がある。 近年,無線通信におけるチャネル推定を指向した新しい摂動型XAI-CHESTフレームワークを提案する。 XAI-CHESTフレームワークの中核となる考え方は、関係のないものに対して高いノイズを発生させることで、関連するモデルの入力を特定することである。 この写本はXAI-CHESTフレームワークの詳細な理論的基礎を提供する。 特に、XAI-CHEST損失関数の解析式とノイズ閾値微調整最適化問題を導出する。 したがって、設計されたXAI-CHESTは、採用モデルのアーキテクチャを最適化しながら、全体的なパフォーマンスをさらに向上させる、スマートな入力特徴選択手法を提供する。 シミュレーションの結果,XAI-CHEST フレームワークは,従来の DL を用いたチャネル推定と比較した場合の計算複雑性を低減しつつ,ビット誤り率性能の向上を図っている。

The support of artificial intelligence (AI) based decision-making is a key element in future 6G networks, where the concept of native AI will be introduced. Moreover, AI is widely employed in different critical applications such as autonomous driving and medical diagnosis. In such applications, using AI as black-box models is risky and challenging. Hence, it is crucial to understand and trust the decisions taken by these models. Tackling this issue can be achieved by developing explainable AI (XAI) schemes that aim to explain the logic behind the black-box model behavior, and thus, ensure its efficient and safe deployment. Recently, we proposed a novel perturbation-based XAI-CHEST framework that is oriented toward channel estimation in wireless communications. The core idea of the XAI-CHEST framework is to identify the relevant model inputs by inducing high noise on the irrelevant ones. This manuscript provides the detailed theoretical foundations of the XAI-CHEST framework. In particular, we derive the analytical expressions of the XAI-CHEST loss functions and the noise threshold fine-tuning optimization problem. Hence the designed XAI-CHEST delivers a smart input feature selection methodology that can further improve the overall performance while optimizing the architecture of the employed model. Simulation results show that the XAI-CHEST framework provides valid interpretations, where it offers an improved bit error rate performance while reducing the required computational complexity in comparison to the classical DL-based channel estimation.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# インコンテキスト学習におけるパターンマッチングの基本メカニズムとしての誘導頭部

Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning ( http://arxiv.org/abs/2407.07011v1 )

ライセンス: Link先を確認
J. Crosbie, E. Shutova, (参考訳) 大規模言語モデル (LLM) は、文脈内学習 (ICL) を通じて複雑なタスクを学習し、実行することが可能である。 しかし、その内部機構に関する包括的な理解はいまだに欠如している。 本稿では,数発のICL設定における誘導頭部の役割について検討する。 Llama-3-8B と InternLM2-20B の2つの最先端モデルを抽象パターン認識と NLP タスクで解析する。 以上の結果から,インダクションヘッドのアブレーションが最小限であっても,抽象パターン認識タスクのICL性能は最大32%低下し,乱数に近い結果が得られた。 NLPタスクの場合、このアブレーションはモデルがサンプルから恩恵を受ける能力を大幅に低下させ、ゼロショットプロンプトに近い数ショットのICLパフォーマンスをもたらす。 さらに注意ノックアウトを用いて、特定の誘導パターンを無効にし、ICLにおいて誘導機構が果たす役割の詳細な証拠を提示する。

Large language models (LLMs) have shown a remarkable ability to learn and perform complex tasks through in-context learning (ICL). However, a comprehensive understanding of its internal mechanisms is still lacking. This paper explores the role of induction heads in a few-shot ICL setting. We analyse two state-of-the-art models, Llama-3-8B and InternLM2-20B on abstract pattern recognition and NLP tasks. Our results show that even a minimal ablation of induction heads leads to ICL performance decreases of up to ~32% for abstract pattern recognition tasks, bringing the performance close to random. For NLP tasks, this ablation substantially decreases the model's ability to benefit from examples, bringing few-shot ICL performance close to that of zero-shot prompts. We further use attention knockout to disable specific induction patterns, and present fine-grained evidence for the role that the induction mechanism plays in ICL.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# SNN配置最適化のためのPairwise Ising型最大エントロピーモデル統合コスト関数の考案の試み

An Attempt to Devise a Pairwise Ising-Type Maximum Entropy Model Integrated Cost Function for Optimizing SNN Deployment ( http://arxiv.org/abs/2407.07014v1 )

ライセンス: Link先を確認
Wanhong Huang, (参考訳) スパイキングニューラルネットワーク(SNN)のデプロイメントプロセスには、ニューラルネットワークのパーティション化と、ニューロモルフィックハードウェア内の処理ユニットへのパーティションのマッピングが含まれる。 最適配置スキームの探索はNPハード問題を示す。 配置計画の最適化は、通信時間消費やエネルギー効率といった最適化目的のために計算効率の良いコスト関数を考案する際の課題に直面する。 これらの目的は、神経活動パターンによって形成されるネットワーク力学を考慮し、複雑な数学的解析やシミュレーションを必要とし、それらをSNNの展開のためのコストモデルに統合することである。 ネットワークのダイナミクスはハードウェアに依存しておらず、特定のハードウェア構成とは独立してモデル化することができる。 本手法では,ペアワイズ型最大エントロピーモデルを用いて,システム内のコンポーネント間のペアワイズ相関を正確に再現する方法の有効性を示した。 我々は、ハードウェア固有のパラメータを組み込んだコスト関数を構築するネットワークダイナミクスを捉えるために、このモデルを利用した。 SpiNNaker マシンを用いた極めて予備的な調査を行った。 既存のモデルトレーニングは計算的に複雑であることを示す。 現在,提案手法の有効性を裏付ける十分な証拠は残っていない。 ネットワークダイナミクスをSNNデプロイメントに統合するためには、さらなる努力が必要である。

The deployment process of a spiking neural network (SNN) can involve partitioning a neural network and mapping partitions onto processing units within the neuromorphic hardware. Searching for optimal deployment schemes presents an NP-hard problem. Optimization of deployment schemes encounters challenges in devising computationally effective cost functions for optimization objectives such as communication time consumption and energy efficiency. These kinds of objectives necessitate consideration of network dynamics shaped by neuron activity patterns, demanding intricate mathematical analyses or simulations for integrating them into a cost model for the deployment of an SNN. The network dynamics are hardware-independent and can be modeled separately from specific hardware configurations. Our approach employs a pairwise Ising-type maximum entropy model, which has shown its effectiveness in accurately reproducing pairwise correlations among components in a system. We utilized this model to capture network dynamics, upon which a cost function is built incorporating hardware-specific parameters. We conducted an extremely preliminary investigation using the SpiNNaker machine. We show that the existing model training can also be computationally complex. Currently, we still lack sufficient evidence to substantiate the effectiveness of our proposed methods. Further efforts is needed to explore integrating network dynamics into SNN deployment.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# 非構造化自然言語データによる終端因果効果の推定

End-To-End Causal Effect Estimation from Unstructured Natural Language Data ( http://arxiv.org/abs/2407.07018v1 )

ライセンス: Link先を確認
Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul G. Krishnan, Chris J. Maddison, (参考訳) 介入の効果を知ることは、人間の意思決定にとって重要であるが、因果的効果推定の現在のアプローチは、因果的仮定にかかわらず、手動のデータ収集と構造化に依存している。 これにより、研究のコストと完成までの時間の両方が増大する。 本研究では,大規模言語モデル(LLM)を用いて,適切な因果推定条件下での安価な因果効果推定を行うために,多種多様な観測テキストデータをいかに大規模にマイニングできるかを示す。 NATURALは,LLMを用いて構築され,非構造化テキストのデータセット上で動作する因果効果推定器である。 我々の推定器は、古典的因果効果推定器の計算を支援するために、LLM条件分布(テキストデータから導かれる変数)を用いる。 データキュレーションの自動化やLLMの活用など,このアイデアを実現するための技術的課題を数多く克服しています。 我々は6つの(合成と4つの実の)観測データセットを作成し、それに対応する真実をランダム化トライアルの形で組み合わせ、パイプラインの各ステップを体系的に評価した。 ナトゥラル推定器は顕著な性能を示し、実世界の第3/4相臨床試験を含め、根本的真理の3ポイント以内の因果効果を推定する。 この結果から、非構造化テキストデータは因果効果情報の豊富な情報源であり、NATURALはこのリソースを利用するための自動パイプラインへの第一歩であることを示唆した。

Knowing the effect of an intervention is critical for human decision-making, but current approaches for causal effect estimation rely on manual data collection and structuring, regardless of the causal assumptions. This increases both the cost and time-to-completion for studies. We show how large, diverse observational text data can be mined with large language models (LLMs) to produce inexpensive causal effect estimates under appropriate causal assumptions. We introduce NATURAL, a novel family of causal effect estimators built with LLMs that operate over datasets of unstructured text. Our estimators use LLM conditional distributions (over variables of interest, given the text data) to assist in the computation of classical estimators of causal effect. We overcome a number of technical challenges to realize this idea, such as automating data curation and using LLMs to impute missing information. We prepare six (two synthetic and four real) observational datasets, paired with corresponding ground truth in the form of randomized trials, which we used to systematically evaluate each step of our pipeline. NATURAL estimators demonstrate remarkable performance, yielding causal effect estimates that fall within 3 percentage points of their ground truth counterparts, including on real-world Phase 3/4 clinical trials. Our results suggest that unstructured text data is a rich source of causal effect information, and NATURAL is a first step towards an automated pipeline to tap this resource.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# 大規模言語モデルを用いたテキスト政策による健康保険のスマートコントラクト生成

Using Large Language Models for Generating Smart Contracts for Health Insurance from Textual Policies ( http://arxiv.org/abs/2407.07019v1 )

ライセンス: Link先を確認
Inwon Kang, William Van Woensel, Oshani Seneviratne, (参考訳) テキストベースのポリシーから健康保険プロセスを自動化するアプリケーションコードを生成するために,LLM(Large Language Models)について検討する。 ブロックチェーンベースのスマートコントラクトをターゲットにして、不変性、検証可能性、スケーラビリティ、信頼性のない設定を提供しています。 本手法は,(1)テキスト要約,(2)宣言的決定論理,(3)単体テストによるスマートコントラクトコードなど,技術的詳細度の高い出力を生成する。 LLM はタスク(1) に優れており、構造化された出力はタスク (2) と (3) の検証に有用である。 宣言言語(タスク) 2.2は医療ポリシーの形式化によく使用されるが、ブロックチェーン上での実行は簡単ではない。 したがって、タスク(3)はスマートコントラクトを使ってプロセスを直接自動化しようとする。 LLMの出力を評価するために、完全性、健全性、明瞭性、構文、機能的コードなどをメトリクスとして提案する。 本評価では,メディケアの公式ブックレットの難しさを増す3つの健康保険政策(scenarios)を取り入れた。 GPT-3.5 Turbo, GPT-3.5 Turbo 16K, GPT-4, GPT-4 Turbo, CodeLLaMAを用いた。 以上の結果から,LLMはテキスト要約生成に極めて有効であることが確認された。 タスク (2)-(3) からの出力は有用な出発点であるが、人間の監視を必要とする。複数のケースにおいて、"実行可能" なコードでさえ健全な結果をもたらすことはない。 それでも本実験では,テキストプロセス記述をスマートコントラクトに翻訳するLLMの可能性を実証している。

We explore using Large Language Models (LLMs) to generate application code that automates health insurance processes from text-based policies. We target blockchain-based smart contracts as they offer immutability, verifiability, scalability, and a trustless setting: any number of parties can use the smart contracts, and they need not have previously established trust relationships with each other. Our methodology generates outputs at increasing levels of technical detail: (1) textual summaries, (2) declarative decision logic, and (3) smart contract code with unit tests. We ascertain LLMs are good at the task (1), and the structured output is useful to validate tasks (2) and (3). Declarative languages (task 2) are often used to formalize healthcare policies, but their execution on blockchain is non-trivial. Hence, task (3) attempts to directly automate the process using smart contracts. To assess the LLM output, we propose completeness, soundness, clarity, syntax, and functioning code as metrics. Our evaluation employs three health insurance policies (scenarios) with increasing difficulty from Medicare's official booklet. Our evaluation uses GPT-3.5 Turbo, GPT-3.5 Turbo 16K, GPT-4, GPT-4 Turbo and CodeLLaMA. Our findings confirm that LLMs perform quite well in generating textual summaries. Although outputs from tasks (2)-(3) are useful starting points, they require human oversight: in multiple cases, even "runnable" code will not yield sound results; the popularity of the target language affects the output quality; and more complex scenarios still seem a bridge too far. Nevertheless, our experiments demonstrate the promise of LLMs for translating textual process descriptions into smart contracts.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# より少ない:自律走行軌道予測のための効率的な脳誘発学習

Less is More: Efficient Brain-Inspired Learning for Autonomous Driving Trajectory Prediction ( http://arxiv.org/abs/2407.07020v1 )

ライセンス: Link先を確認
Haicheng Liao, Yongkang Li, Zhenning Li, Chengyue Wang, Chunlin Tian, Yuming Huang, Zilin Bian, Kaiqun Zhu, Guofa Li, Ziyuan Pu, Jia Hu, Zhiyong Cui, Chengzhong Xu, (参考訳) 周囲の車両の軌道を正確にかつ安全に予測することは、自動運転(AD)の完全実現に不可欠である。 本稿では,ADにおける軌道予測を改善するために,人間の認知過程をエミュレートするHuman-Like Trajectory Prediction Model (HLTP++)を提案する。 HLTP++は教師による新しい知識蒸留フレームワークを取り入れている。 適応的な視覚セクターを備えた「教師」モデルは、空間的指向性、近接性、運転速度といった要因に基づいて、人間のドライバーが示す注意の動的割り当てを模倣する。 一方、「学生」モデルは、リアルタイムのインタラクションと人間の意思決定に焦点を合わせ、人間の記憶記憶機構と平行に描画する。 さらに,新しいFourier Adaptive Spike Neural Network (FA-SNN)を導入し,パラメータの少ない高速かつ高精度な予測を可能にすることにより,モデルの効率を向上させる。 NGSIM、HighD、MoCADベンチマークを用いて評価すると、HLTP++は既存のモデルよりも優れた性能を示し、NGSIMデータセットでは11%以上、HighDデータセットでは25%以上の予測軌道誤差が減少する。 さらに、HLTP++は、不完全な入力データを持つ挑戦環境において、強い適応性を示す。 これは完全なADシステムへの旅において、大きな一歩を踏み出した。

Accurately and safely predicting the trajectories of surrounding vehicles is essential for fully realizing autonomous driving (AD). This paper presents the Human-Like Trajectory Prediction model (HLTP++), which emulates human cognitive processes to improve trajectory prediction in AD. HLTP++ incorporates a novel teacher-student knowledge distillation framework. The "teacher" model equipped with an adaptive visual sector, mimics the dynamic allocation of attention human drivers exhibit based on factors like spatial orientation, proximity, and driving speed. On the other hand, the "student" model focuses on real-time interaction and human decision-making, drawing parallels to the human memory storage mechanism. Furthermore, we improve the model's efficiency by introducing a new Fourier Adaptive Spike Neural Network (FA-SNN), allowing for faster and more precise predictions with fewer parameters. Evaluated using the NGSIM, HighD, and MoCAD benchmarks, HLTP++ demonstrates superior performance compared to existing models, which reduces the predicted trajectory error with over 11% on the NGSIM dataset and 25% on the HighD datasets. Moreover, HLTP++ demonstrates strong adaptability in challenging environments with incomplete input data. This marks a significant stride in the journey towards fully AD systems.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# オープンボキャブラリ時間行動定位のための自己学習のスケーラビリティを探る

Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization ( http://arxiv.org/abs/2407.07024v1 )

ライセンス: Link先を確認
Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon-Young Lee, Seon Joo Kim, (参考訳) 時間的行動ローカライゼーション(TAL)における語彙サイズは、大規模な注釈付きデータセットの不足によって制限される。 これを解決するために、最近の研究は、CLIPのような強力な事前学習された視覚言語モデル(VLM)を組み込んで、オープン語彙TAL(OV-TAL)を実行する。 しかしながら、大規模な画像/ビデオテキストペアでトレーニングされたVLMとは異なり、既存のOV-TALメソッドはアクションローカライザをトレーニングするために小さなラベル付きTALデータセットに依存している。 本稿では,OV-TAL用未ラベルYouTubeビデオによる自己学習のスケーラビリティについて検討する。 我々の自己学習アプローチは2つの段階から成り立っている。 まず、クラスに依存しないアクションローカライザを人間のラベル付きTALデータセットでトレーニングし、ラベルなしビデオの擬似ラベルを生成する。 次に、大規模な擬似ラベル付きデータセットと人ラベル付きデータセットを組み合わせてローカライザをトレーニングする。 大規模な実験により、自己学習におけるWebスケールビデオの利用は、アクションローカライザの一般化可能性を大幅に向上させることが示された。 さらに,既存のOV-TAL評価手法の問題点を強調し,新しい評価プロトコルを提案する。 コードはhttps://github.com/HYUNJS/STOV-TALで公開されている。

The vocabulary size in temporal action localization (TAL) is constrained by the scarcity of large-scale annotated datasets. To address this, recent works incorporate powerful pre-trained vision-language models (VLMs), such as CLIP, to perform open-vocabulary TAL (OV-TAL). However, unlike VLMs trained on extensive image/video-text pairs, existing OV-TAL methods still rely on small, fully labeled TAL datasets for training an action localizer. In this paper, we explore the scalability of self-training with unlabeled YouTube videos for OV-TAL. Our self-training approach consists of two stages. First, a class-agnostic action localizer is trained on a human-labeled TAL dataset and used to generate pseudo-labels for unlabeled videos. Second, the large-scale pseudo-labeled dataset is combined with the human-labeled dataset to train the localizer. Extensive experiments demonstrate that leveraging web-scale videos in self-training significantly enhances the generalizability of an action localizer. Additionally, we highlighted issues with existing OV-TAL evaluation schemes and proposed a new evaluation protocol. Code is released at https://github.com/HYUNJS/STOV-TAL
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# NVダイヤモンド顕微鏡を用いた量子周波数混合

Quantum Frequency Mixing using an NV Diamond Microscope ( http://arxiv.org/abs/2407.07025v1 )

ライセンス: Link先を確認
Samuel J. Karlson, Pauli Kehayias, Jennifer M. Schloss, Andrew C. Maccabe, David F. Phillips, Guoqing Wang, Paola Cappellaro, Danielle A. Braje, (参考訳) ダイヤモンド中の窒素空孔(NV)中心を用いた広磁場磁気顕微鏡は、DCおよび交流磁場の高品質な磁気像を得ることができる。 室内温度におけるスカラーやベクトル場のマイクロスケール空間分解能と平行カメラの読み出しのユニークな組み合わせは、生物学、地質学、凝縮物質物理学、電子工学の応用に魅力的な技術である。 しかし、NV磁気顕微鏡はこれらの領域で大きな成功を収めてきたが、歴史的にアクセス可能な周波数範囲は限られている。 本稿では、近年開発された量子周波数混合技術により、この制限を克服する。 このアプローチにより、直流およびラビ磁力計法の範囲外において、70MHzまでの交流により駆動される試験構造の広視野磁気画像を生成する。 さらなる改良により、電子パワースペクトル分析、電子診断とトラブルシューティング、量子コンピューティングハードウェア検証のためのハイパースペクトルイメージングに有用性を見出すことができる。

Wide-field magnetic microscopy using nitrogen-vacancy (NV) centers in diamond can yield high-quality magnetic images of DC and AC magnetic fields. The unique combination of micron-scale spatial resolution of scalar or vector fields at room temperature and parallel camera readout make this an appealing technique for applications in biology, geology, condensed-matter physics, and electronics. However, while NV magnetic microscopy has achieved great success in these areas, historically the accessible frequency range has been limited. In this paper, we overcome this limitation by implementing the recently developed technique of quantum frequency mixing. With this approach, we generate wide-field magnetic images of test structures driven by alternating currents up to 70 MHz, well outside the reach of DC and Rabi magnetometry methods. With further improvements, this approach could find utility in hyperspectral imaging for electronics power spectrum analysis, electronics diagnostics and troubleshooting, and quantum computing hardware validation.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# セマンティック・コンプリートと分解によるマルチモーダル・センティメント検出の解法

Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition ( http://arxiv.org/abs/2407.07026v1 )

ライセンス: Link先を確認
Daiqing Wu, Dongbao Yang, Huawen Shen, Can Ma, Yu Zhou, (参考訳) 近年のソーシャルメディア投稿の普及に伴い、マルチモーダル(画像テキスト)コンテンツにおける感情を検出する必要性が急速に高まっている。 投稿はユーザー生成であるため、同じ投稿の画像とテキストは異なる、あるいは矛盾する感情を表現でき、潜在的な \textbf{sentiment discrepancy} につながる。 しかし、既存の作品は、主に画像とテキストの一貫性のある感情をキャプチャする単一ブランチの融合構造を採用している。 不明瞭な感情の無知や暗黙のモデリングは、妥協された単調なエンコーディングと限られたパフォーマンスをもたらす。 本稿では,上記の問題を解決するために,セマンティックス・コンプリート・コンプリート・分解(CoDe)ネットワークを提案する。 セマンティックス補完モジュールでは、イメージに埋め込まれたOCRテキストのセマンティックスで画像とテキストの表現を補完し、感情ギャップを埋める手助けをする。 セマンティクス分解モジュールでは、画像とテキストの表現を排他的投影とコントラスト学習で分解し、モダリティ間の不一致感を明示的に捉える。 最後に、画像とテキストの表現を相互注意で融合させ、最終分類のための学習された不明瞭感と組み合わせる。 4つのマルチモーダル感情データセットで実施された大規模な実験は、SOTA法に対するCoDeの優位性を実証している。

With the proliferation of social media posts in recent years, the need to detect sentiments in multimodal (image-text) content has grown rapidly. Since posts are user-generated, the image and text from the same post can express different or even contradictory sentiments, leading to potential \textbf{sentiment discrepancy}. However, existing works mainly adopt a single-branch fusion structure that primarily captures the consistent sentiment between image and text. The ignorance or implicit modeling of discrepant sentiment results in compromised unimodal encoding and limited performances. In this paper, we propose a semantics Completion and Decomposition (CoDe) network to resolve the above issue. In the semantics completion module, we complement image and text representations with the semantics of the OCR text embedded in the image, helping bridge the sentiment gap. In the semantics decomposition module, we decompose image and text representations with exclusive projection and contrastive learning, thereby explicitly capturing the discrepant sentiment between modalities. Finally, we fuse image and text representations by cross-attention and combine them with the learned discrepant sentiment for final classification. Extensive experiments conducted on four multimodal sentiment datasets demonstrate the superiority of CoDe against SOTA methods.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# 特定道路における軌道データマイニングとトリップ走行時間予測

Trajectory Data Mining and Trip Travel Time Prediction on Specific Roads ( http://arxiv.org/abs/2407.07030v1 )

ライセンス: Link先を確認
Muhammad Awais Amin, Jawad-Ur-Rehman Chughtai, Waqar Ahmad, Waqas Haider Bangyal, Irfan Ul Haq, (参考訳) 旅行時間を予測することは、ルート計画やナビゲーションの用途に不可欠である。 研究の大部分は、パキスタンの道路状況に当てはまらない国際的なデータに基づいている。 センサデータから軌道を抽出するための完全なパイプラインを設計した。 このデータでは,浅層人工ニューラルネットワーク,深層パーセプトロン,長期記憶などの最先端のアプローチを用いて,頻繁な経路における走行時間予測の問題を調査した。 実験の結果、パキスタンのイスラマバードの6つの最も頻繁なルートで10分から60分に及ぶ旅行で、平均予測誤差は30秒から1.2分であった。

Predicting a trip's travel time is essential for route planning and navigation applications. The majority of research is based on international data that does not apply to Pakistan's road conditions. We designed a complete pipeline for mining trajectories from sensors data. On this data, we employed state-of-the-art approaches, including a shallow artificial neural network, a deep multi-layered perceptron, and a long-short-term memory, to explore the issue of travel time prediction on frequent routes. The experimental results demonstrate an average prediction error ranging from 30 seconds to 1.2 minutes on trips lasting 10 minutes to 60 minutes on six most frequent routes in regions of Islamabad, Pakistan.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# 今日と明日のビジョン・アンド・ランゲージナビゲーション:基礎モデル時代における調査

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models ( http://arxiv.org/abs/2407.07035v1 )

ライセンス: Link先を確認
Yue Zhang, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang, Joyce Chai, Qi Wu, Mohit Bansal, Parisa Kordjamshidi, (参考訳) VLN(Vision-and-Language Navigation)は近年注目され、開発を進めるための多くのアプローチが出現している。 基礎モデルの顕著な成果は、VLN研究の課題と手法を形作っている。 本調査では,計画と推論を具体化するための原則的枠組みを取り入れたトップダウンレビューを実施し,VLNの課題に対処するための基礎モデルを活用した現在の手法と今後の機会を強調した。 深く議論することで、貴重なリソースと洞察が得られることを願っています。一方は、進歩をマイルストンし、この分野の基礎モデルの機会と潜在的な役割を探究し、もう一方は、VLNにおけるさまざまな課題とソリューションを、基礎モデル研究者にまとめることです。

Vision-and-Language Navigation (VLN) has gained increasing attention over recent years and many approaches have emerged to advance their development. The remarkable achievements of foundation models have shaped the challenges and proposed methods for VLN research. In this survey, we provide a top-down review that adopts a principled framework for embodied planning and reasoning, and emphasizes the current methods and future opportunities leveraging foundation models to address VLN challenges. We hope our in-depth discussions could provide valuable resources and insights: on one hand, to milestone the progress and explore opportunities and potential roles for foundation models in this field, and on the other, to organize different challenges and solutions in VLN to foundation model researchers.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# 分子ナノマグネット$\text{Cu}^\text{II}\text{Ni}^\text{II}\text{Cu}^\text{II}$ as Resource for Quantum Entanglement, Coherence, and Spin Squeezing

Molecular Nanomagnet $\text{Cu}^\text{II}\text{Ni}^\text{II}\text{Cu}^\text{II}$ as Resource for Quantum Entanglement, Coherence, and Spin Squeezing ( http://arxiv.org/abs/2407.07037v1 )

ライセンス: Link先を確認
Azadeh Ghannadan, Hamid Arian Zad, Saeed Haddadi, Jozef Strečka, Zhirayr Adamyan, Vadim Ohanyan, (参考訳) 混合スピン(1/2,1,1/2)ハイゼンベルクトリマーの外部磁場の影響下での量子特性について検討した。 具体的には,各ネガティビティ,$l_1$-normのコヒーレンス,厳密な解析的および数値的手法の助けを借りてスピンスクイーズを定量的に解析する。 ヘテロ三核分子ナノマグネット$[\{\text{Cu}^\text{II}\text{L}\}_2\text{Ni}^\text{II}(\text{H}_2\text{O})_2](\text{ClO}_4)_23\text{H}_2\text{O}$は、混合スピン-(1/2,1,1/2)ハイゼンベルク三量体を実験的に実現したことを示す。 有意な二分極と三分極の絡み合いは、比較的高温でも37\,\text{K}$まで持続し、磁場は50\,\text{T}$まで持続し、コヒーレンスを高温でも維持する。 さらに,スピン(1/2,1,1/2)ハイゼンベルクトリマーの熱状態におけるスピンスクイーズパラメータについて検討した。 正確な結果から、スピンスクイージングの最高度を達成するための最適条件が明らかとなり、これは、$T \approx 30\,\text{K}$の周りでゼロ磁場で達成される。

We investigate key quantum characteristics of the mixed spin-(1/2,1,1/2) Heisenberg trimer under the influence of an external magnetic field. Specifically, we analyze the distributions of bipartite and tripartite entanglement quantified through the respective negativities, the $l_1$-norm of coherence, and spin squeezing with the help of rigorous analytical and numerical methods. Our findings suggest that the heterotrinuclear molecular nanomagnet $[\{\text{Cu}^\text{II}\text{L}\}_2\text{Ni}^\text{II}(\text{H}_2\text{O})_2](\text{ClO}_4)_23\text{H}_2\text{O}$, which represents an experimental realization of the mixed spin-(1/2,1,1/2) Heisenberg trimer, exhibits a significant bipartite entanglement between $\text{Cu}^\text{II}$ and $\text{Ni}^\text{II}$ magnetic ions along with robust tripartite entanglement among all three constituent magnetic ions. The significant bipartite and tripartite entanglement persists even at relatively high temperatures up to $37\,\text{K}$ and magnetic fields up to $50\,\text{T}$, whereby the coherence is maintained even at elevated temperatures. In addition, we investigate the spin squeezing parameter within thermal states of the spin-(1/2,1,1/2) Heisenberg trimer. Our exact results reveal optimal conditions for achieving the highest degree of the spin squeezing, which are achieved at zero magnetic field around $T \approx 30\,\text{K}$.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# Decoding Climate Disagreement: ソーシャルメディアのダイナミクスを理解するためのグラフニューラルネットワークに基づくアプローチ

Decoding Climate Disagreement: A Graph Neural Network-Based Approach to Understanding Social Media Dynamics ( http://arxiv.org/abs/2407.07038v1 )

ライセンス: Link先を確認
Ruiran Su, Janet B. Pierrehumbert, (参考訳) この研究は、グラフ注意ネットワーク(GAT)と自然言語処理のテクニックを統合し、Redditのコメント-返信ペア内の不一致を正確に識別し予測する革新的な手法であるClimateSent-GATモデルを紹介した。 我々のモデルは、不一致を3つのカテゴリ(同意、同意、反対、中立)に分類する。 Redditのコメント-返信ペアの固有のグラフ構造を活用することで、複雑なインタラクションパターンと感情ダイナミクスをキャプチャすることで、既存のベンチマークを著しく上回ります。 本研究は、グラフに基づくNLP手法を進歩させ、気候科学コミュニケーションにおける政策立案者や教育者に実用的な洞察を提供する。

This work introduces the ClimateSent-GAT Model, an innovative method that integrates Graph Attention Networks (GATs) with techniques from natural language processing to accurately identify and predict disagreements within Reddit comment-reply pairs. Our model classifies disagreements into three categories: agree, disagree, and neutral. Leveraging the inherent graph structure of Reddit comment-reply pairs, the model significantly outperforms existing benchmarks by capturing complex interaction patterns and sentiment dynamics. This research advances graph-based NLP methodologies and provides actionable insights for policymakers and educators in climate science communication.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# SAR画像に局所的な操作を委ねる:反法医学的攻撃

Hiding Local Manipulations on SAR Images: a Counter-Forensic Attack ( http://arxiv.org/abs/2407.07041v1 )

ライセンス: Link先を確認
Sara Mandelli, Edoardo Daniele Cannas, Paolo Bestagini, Stefano Tebaldini, Stefano Tubaro, (参考訳) オンラインポータルを通じてSAR(Synthetic Aperture Radar)画像の膨大なアクセシビリティが、様々な分野の研究を推進している。 この広範囲の使用と入手が容易なため、残念ながらSARデータは、機密性の高いターゲットの存在を挿入またはカバーするために画像に適用される局所的な編集など、悪意のある変更に影響を受けやすくなっている。 脆弱性は、元の複雑な性質にもかかわらず、ほとんどのSAR製品が振幅のみの情報としてリリースされ、経験の浅い攻撃者でも容易にピクセルの内容を編集・変更できるという事実によって強調されている。 悪質な操作とは対照的に、ここ数年、SARの操作問題を調査し始め、振幅画像の改ざんを効果的に局所化する検出器を提案している。 しかし,本稿では,SARデータの複雑な性質を利用して,局所的に変化する振幅画像内の操作の兆候を隠蔽できることを示す。 我々はこのアプローチを反法学攻撃と呼ぶ。 操作トレースの隠蔽を実現するために、攻撃者は、初期画像を生成するSARシステムにより、操作されたシーンの再取得をシミュレートすることができる。 そうすることで、攻撃者は操作の証拠を隠蔽し、その画像がシステムによって正当に生成されたかのように見せることができる。 本研究は,様々なシナリオにまたがる反法医学的アプローチの有効性を検証し,様々な操作操作について検討する。 その結果、我々の考案した攻撃は操作の痕跡をなくし、最も先進的な法医学的検知器さえも消し去ることが示唆された。

The vast accessibility of Synthetic Aperture Radar (SAR) images through online portals has propelled the research across various fields. This widespread use and easy availability have unfortunately made SAR data susceptible to malicious alterations, such as local editing applied to the images for inserting or covering the presence of sensitive targets. Vulnerability is further emphasized by the fact that most SAR products, despite their original complex nature, are often released as amplitude-only information, allowing even inexperienced attackers to edit and easily alter the pixel content. To contrast malicious manipulations, in the last years the forensic community has begun to dig into the SAR manipulation issue, proposing detectors that effectively localize the tampering traces in amplitude images. Nonetheless, in this paper we demonstrate that an expert practitioner can exploit the complex nature of SAR data to obscure any signs of manipulation within a locally altered amplitude image. We refer to this approach as a counter-forensic attack. To achieve the concealment of manipulation traces, the attacker can simulate a re-acquisition of the manipulated scene by the SAR system that initially generated the pristine image. In doing so, the attacker can obscure any evidence of manipulation, making it appear as if the image was legitimately produced by the system. We assess the effectiveness of the proposed counter-forensic approach across diverse scenarios, examining various manipulation operations. The obtained results indicate that our devised attack successfully eliminates traces of manipulation, deceiving even the most advanced forensic detectors.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# ProtoSAM - 基礎モデルによる医用画像分割

ProtoSAM - One Shot Medical Image Segmentation With Foundational Models ( http://arxiv.org/abs/2407.07042v1 )

ライセンス: Link先を確認
Lev Ayzenberg, Raja Giryes, Hayit Greenspan, (参考訳) この研究は、ワンショットの医療画像セグメンテーションのための新しいフレームワーク、ProtoSAMを紹介した。 これは、数ショットセグメンテーションで知られているプロトタイプネットワークと、自然画像基盤モデルSAMの併用である。 提案手法は,DINOv2エンコーダを付加したALPnetのプロトタイプネットワークを用いて,初期粗いセグメンテーションマスクを生成する。 初期マスクの抽出後、ポイントやバウンディングボックスなどのプロンプトが抽出され、Segment Anything Model(SAM)に入力される。 最先端の結果は、いくつかの医療画像データセットに示され、基礎モデルの微調整を必要とせずに、単一の画像例(ワンショット)を使用して、自動セグメンテーション機能を示す。

This work introduces a new framework, ProtoSAM, for one-shot medical image segmentation. It combines the use of prototypical networks, known for few-shot segmentation, with SAM - a natural image foundation model. The method proposed creates an initial coarse segmentation mask using the ALPnet prototypical network, augmented with a DINOv2 encoder. Following the extraction of an initial mask, prompts are extracted, such as points and bounding boxes, which are then input into the Segment Anything Model (SAM). State-of-the-art results are shown on several medical image datasets and demonstrate automated segmentation capabilities using a single image example (one shot) with no need for fine-tuning of the foundation model.
翻訳日:2024-07-10 17:17:48 公開日:2024-07-09
# 知識グラフのための単純かつ解釈可能な確率的分類法

Simple and Interpretable Probabilistic Classifiers for Knowledge Graphs ( http://arxiv.org/abs/2407.07045v1 )

ライセンス: Link先を確認
Christian Riefolo, Nicola Fanizzi, Claudia d'Amato, (参考訳) Description Logicsで表現された知識グラフの文脈における不完全データから確率的分類器を学習する問題に対処するため、簡単な信念ネットワークの学習に基づく帰納的アプローチについて述べる。 具体的には,多変量ベルヌーイに基づく基本確率モデルであるネイブベイズ分類器と,この分類モデルをベルヌーイの混合物からなる下層に接続する2層ネットワークへの拡張について考察する。 このようなモデルを(確率的な)公理(あるいは規則)に変換することによって、より解釈可能性を確保する方法を示す。 また、専門家の知識を活用して初期化することもできる。 本稿では,様々なオントロジーを持つランダムな分類問題において,モデルの有効性を検証するための経験的評価の結果について論じる。

Tackling the problem of learning probabilistic classifiers from incomplete data in the context of Knowledge Graphs expressed in Description Logics, we describe an inductive approach based on learning simple belief networks. Specifically, we consider a basic probabilistic model, a Naive Bayes classifier, based on multivariate Bernoullis and its extension to a two-tier network in which this classification model is connected to a lower layer consisting of a mixture of Bernoullis. We show how such models can be converted into (probabilistic) axioms (or rules) thus ensuring more interpretability. Moreover they may be also initialized exploiting expert knowledge. We present and discuss the outcomes of an empirical evaluation which aimed at testing the effectiveness of the models on a number of random classification problems with different ontologies.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# CorMulT:感覚分析のための半教師付きモード相関対応マルチモーダルトランス

CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis ( http://arxiv.org/abs/2407.07046v1 )

ライセンス: Link先を確認
Yangmin Li, Ruiqi Zhu, Wengen Li, (参考訳) マルチモーダル感情分析(Multimodal sentiment analysis)は、テキスト、画像、音声などの複数のデータモダリティを組み合わせて、人間の感情を分析し、様々なアプリケーションに恩恵をもたらす、活発な研究分野である。 既存のマルチモーダル感情分析手法は、モーダリティ相互作用に基づく方法、モーダリティ変換に基づく方法、モーダリティ類似性に基づく方法に分類される。 しかし,これらの手法の多くはモダリティ間の強い相関関係に強く依存しており,感情分析を強化するためにモダリティ間の相関関係を完全に解明・活用することができない。 したがって、これらの手法は、弱い相関関係を持つマルチモーダルデータの感情を特定するために、通常、悪い性能を達成する。 そこで本研究では,事前学習段階と予測段階からなる相関対応マルチモーダルトランス(CorMulT)と呼ばれる2段階の半教師付きモデルを提案する。 事前学習段階では、モーダリティ相関比較学習モジュールは、異なるモーダリティ間のモーダリティ相関係数を効率的に学習するように設計されている。 予測段階では、学習された相関係数にモダリティ表現を融合させて感情予測を行う。 人気のマルチモーダルデータセットであるCMU-MOSEIの実験によると、CorMulTは明らかに最先端のマルチモーダル感情分析手法を上回っている。

Multimodal sentiment analysis is an active research area that combines multiple data modalities, e.g., text, image and audio, to analyze human emotions and benefits a variety of applications. Existing multimodal sentiment analysis methods can be classified as modality interaction-based methods, modality transformation-based methods and modality similarity-based methods. However, most of these methods highly rely on the strong correlations between modalities, and cannot fully uncover and utilize the correlations between modalities to enhance sentiment analysis. Therefore, these methods usually achieve bad performance for identifying the sentiment of multimodal data with weak correlations. To address this issue, we proposed a two-stage semi-supervised model termed Correlation-aware Multimodal Transformer (CorMulT) which consists pre-training stage and prediction stage. At the pre-training stage, a modality correlation contrastive learning module is designed to efficiently learn modality correlation coefficients between different modalities. At the prediction stage, the learned correlation coefficients are fused with modality representations to make the sentiment prediction. According to the experiments on the popular multimodal dataset CMU-MOSEI, CorMulT obviously surpasses state-of-the-art multimodal sentiment analysis methods.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# 準周期性はギャップのない無秩序系における量子化輸送を保護する

Quasiperiodicity protects quantized transport in disordered systems without gaps ( http://arxiv.org/abs/2407.07049v1 )

ライセンス: Link先を確認
Emmanuel Gottlob, Dan S. Borgnia, Robert-Jan Slager, Ulrich Schneider, (参考訳) 断熱量子化電流のようなトポロジカルな性質のロバスト性は、一般に関連するエネルギー準位や対称性を禁ずる遷移を取り巻くギャップの存在に依存する。 準周期系の原型モデルである駆動オーブリー・アンドルー・ハーパー連鎖において、関連する瞬時エネルギーギャップを閉じるほど大きな境界局所障害の付加を生き残る量子化された電流の観測を通して、位相的保護のための新しいメカニズムを明らかにする。 ランドー・ツェナー転移に基づく構成空間の局所像を用いて、この場合、位相的保護はスペクトルギャップに依存するのではなく、占有バンドの状態数と構成空間におけるバンドの位置に依存することを示す。 さらに、この安定性を活用して、高チャーン数で位相多体状態を作成し、整数と分数量子ホール効果の両方を研究するための新しい実験経路を開くためのプロトコルを提案する。

The robustness of topological properties, such as adiabatic quantized currents, generally depends on the existence of gaps surrounding the relevant energy levels or symmetry-forbidden transitions. We uncover a new mechanism for topological protection via the observation of quantized currents which survive the addition of bounded local disorder large enough to close the relevant instantaneous energy gaps in a driven Aubry-Andr\'e-Harper chain, a prototypical model of quasiperiodic systems. Using a local picture in configuration-space based on Landau-Zener transitions, we show that in this case the topological protection does not depend on the spectral gaps, but rather on the number of states in an occupied band and the position of the band in configuration space. Moreover, we propose a protocol, realizable in cold atoms or photonic experiments, which leverages this stability to prepare topological many-body states with high Chern number and open new experimental avenues for the study of both the integer and fractional quantum Hall effects.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# 潜時空間イメージング

Latent Space Imaging ( http://arxiv.org/abs/2407.07052v1 )

ライセンス: Link先を確認
Matheus Souza, Yidan Zheng, Kaizhang Kang, Yogeshwar Nath Mishra, Qiang Fu, Wolfgang Heidrich, (参考訳) デジタルイメージングシステムは伝統的に、通常の格子上に配置された画素のブルートフォース測定と処理に基づいている。 一方、人間の視覚システムは、視神経への光受容体の数から、人間の脳による処理に適した低帯域潜在空間表現に画像情報をエンコードする大規模なデータ削減を行う。 本研究では,人工視覚システムの開発において,同様のアプローチを採用することを提案する。 遅延空間イメージング(Latent Space Imaging)は、光学とソフトウェアの組み合わせにより、画像情報を生成モデルの意味的にリッチな潜在空間に直接エンコードする新しいパラダイムである。 我々は,この新原理を,1画素カメラをベースとした初期ハードウェアプロトタイプを通じて実証する。 生成モデルの潜時空間にエンコードする振幅変調方式を設計することにより、撮像プロセス中に1:100から1:1,000の圧縮比を達成し、高効率な撮像ハードウェアにおける潜時空間イメージングの可能性を説明し、高速撮像や、ハードウェアの複雑さを大幅に低減したタスク特異的カメラの将来的な応用を可能にする。

Digital imaging systems have classically been based on brute-force measuring and processing of pixels organized on regular grids. The human visual system, on the other hand, performs a massive data reduction from the number of photo-receptors to the optic nerve, essentially encoding the image information into a low bandwidth latent space representation suitable for processing by the human brain. In this work, we propose to follow a similar approach for the development of artificial vision systems. Latent Space Imaging is a new paradigm that, through a combination of optics and software, directly encodes the image information into the semantically rich latent space of a generative model, thus substantially reducing bandwidth and memory requirements during the capture process. We demonstrate this new principle through an initial hardware prototype based on the single pixel camera. By designing an amplitude modulation scheme that encodes into the latent space of a generative model, we achieve compression ratios from 1:100 to 1:1,000 during the imaging process, illustrating the potential of latent space imaging for highly efficient imaging hardware, to enable future applications in high speed imaging, or task-specific cameras with substantially reduced hardware complexity.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# マルチモーダル・セルフインストラクション:言語モデルを用いた合成抽象画像と視覚的推論インストラクション

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model ( http://arxiv.org/abs/2407.07053v1 )

ライセンス: Link先を確認
Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang, (参考訳) 現在の大きなマルチモーダルモデル(LMM)の多くは、自然のシーンや肖像画の写真を既に理解することができるが、抽象的なイメージ、例えばチャート、地図、レイアウト、視覚的推論などの理解は、まだごく初歩的なままである。 彼らはしばしば、時計から時間を読み、フローチャートを理解し、道路地図を使ってルートを計画するといった単純な日々のタスクに苦労する。 そこで我々は,大規模な抽象画像と視覚的推論命令を日常のシナリオで合成するために,大規模言語モデルとそのコード機能を利用するマルチモーダル・セルフインストラクトを設計する。 私たちの戦略は、チャート、テーブル、シミュレートされたマップ、ダッシュボード、フローチャート、関係グラフ、フロアプラン、ビジュアルパズルという8つのビジュアルシナリオのための11,193のインストラクションを備えたマルチモーダルベンチマークを作成しています。 このベンチマークは単純な線と幾何学的要素で構築され、抽象的イメージ理解、空間関係推論、視覚的要素誘導において、Claude-3.5-Sonnet や GPT-4o のような最も先進的な LMM の欠点を明らかにする。 さらに, 合成データの質を検証するため, 62,476の合成チャート, 表, 道路地図の指示を用いてLMMを微調整する。 その結果、チャート理解と地図ナビゲーションの性能が向上し、他の視覚的推論タスクに潜在的な利点が示された。 我々のコードは以下の通りである。

Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. \textbf{This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs} like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: \url{https://github.com/zwq2018/Multi-modal-Self-instruct}.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# 鉛直的フェデレーション学習のための差分的ブロックチェーンに基づくアプローチ

A Differentially Private Blockchain-Based Approach for Vertical Federated Learning ( http://arxiv.org/abs/2407.07054v1 )

ライセンス: Link先を確認
Linh Tran, Sanjay Chari, Md. Saikat Islam Khan, Aaron Zachariah, Stacy Patterson, Oshani Seneviratne, (参考訳) 本稿では,分散アプリケーションに対する検証性とプライバシ保証を提供するDP-BBVFLアルゴリズムを提案する。 DP-BBVFLはスマートコントラクトを使用して特徴表現、すなわち埋め込みを透過的にクライアントから集約する。 ローカルな差分プライバシーを適用して、ブロックチェーンに格納された埋め込みのプライバシを提供します。 垂直的フェデレーション学習のためのブロックチェーンによる差分プライバシーの最初のプロトタイプを提供する。 医用データを用いた実験の結果,DP-BBVFLはオンチェーン凝集によるトレーニング時間のトレードオフによって高い精度を達成できることがわかった。 DP-BBVFLにおけるこの革新的なプライバシとブロックチェーン技術の融合は、複数の分散アプリケーションドメインにまたがる、コラボレーションと信頼できる機械学習アプリケーションの新時代を先導する可能性がある。

We present the Differentially Private Blockchain-Based Vertical Federal Learning (DP-BBVFL) algorithm that provides verifiability and privacy guarantees for decentralized applications. DP-BBVFL uses a smart contract to aggregate the feature representations, i.e., the embeddings, from clients transparently. We apply local differential privacy to provide privacy for embeddings stored on a blockchain, hence protecting the original data. We provide the first prototype application of differential privacy with blockchain for vertical federated learning. Our experiments with medical data show that DP-BBVFL achieves high accuracy with a tradeoff in training time due to on-chain aggregation. This innovative fusion of differential privacy and blockchain technology in DP-BBVFL could herald a new era of collaborative and trustworthy machine learning applications across several decentralized application domains.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# マルチセルフォールド:折りたたみ多細胞生物における幾何学的学習

Multicell-Fold: geometric learning in folding multicellular life ( http://arxiv.org/abs/2407.07055v1 )

ライセンス: Link先を確認
Haiqian Yang, Anh Q. Nguyen, Dapeng Bi, Markus J. Buehler, Ming Guo, (参考訳) 胚発生のような発生過程において、細胞群が特定の構造にどのように折り畳むかは、生物がどのように形成されるかを定義する生物学の中心的な問題である。 組織レベルの形態の確立は、各細胞が隣の細胞に対してどのように位置を決定するかに批判的に依存する。 その重要性にもかかわらず、このような複雑なプロセスの間、生体組織内の全ての細胞の振る舞いを理解し、予測することは依然として大きな課題である。 そこで本研究では,多細胞間の空間的相互作用を正確に把握し,多細胞の折り畳みや胚発生を予測できる幾何学的深層学習モデルを提案する。 本研究では, セル間相互作用とセル接合ネットワークの両面を考慮し, グラフデータ構造を統一することで, 粒状および発泡状の物理画像でマルチセルデータを表現できることを実証した。 我々は,このモデルを用いて4次元形態素配列アライメントを解釈し,単一セル分解能で発生する前に局所的な再配列を予測するという,2つの重要なタスクを達成した。 さらに,活性化マップとアブレーション研究を用いて,細胞の形態形成に重要な局所的な細胞再配列を制御できることを実証した。 このアプローチは、形態形成を研究するための新しいパラダイムを提供し、統一されたデータ構造を強調し、幾何学的深層学習の力を利用して、発達中の細胞のメカニズムや振る舞いを正確にモデル化する。 これは、胚発生のような様々な発達過程のための統一された動的形態素アトラスを作るための経路を提供する。

During developmental processes such as embryogenesis, how a group of cells fold into specific structures, is a central question in biology that defines how living organisms form. Establishing tissue-level morphology critically relies on how every single cell decides to position itself relative to its neighboring cells. Despite its importance, it remains a major challenge to understand and predict the behavior of every cell within the living tissue over time during such intricate processes. To tackle this question, we propose a geometric deep learning model that can predict multicellular folding and embryogenesis, accurately capturing the highly convoluted spatial interactions among cells. We demonstrate that multicellular data can be represented with both granular and foam-like physical pictures through a unified graph data structure, considering both cellular interactions and cell junction networks. We successfully use our model to achieve two important tasks, interpretable 4-D morphological sequence alignment, and predicting local cell rearrangements before they occur at single-cell resolution. Furthermore, using an activation map and ablation studies, we demonstrate that cell geometries and cell junction networks together regulate local cell rearrangement which is critical for embryo morphogenesis. This approach provides a novel paradigm to study morphogenesis, highlighting a unified data structure and harnessing the power of geometric deep learning to accurately model the mechanisms and behaviors of cells during development. It offers a pathway toward creating a unified dynamic morphological atlas for a variety of developmental processes such as embryogenesis.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# CAPformer: 低照度画像強調のための圧縮対応事前学習トランス

CAPformer: Compression-Aware Pre-trained Transformer for Low-Light Image Enhancement ( http://arxiv.org/abs/2407.07056v1 )

ライセンス: Link先を確認
Wang Wei, Jin Zhi, (参考訳) 低照度画像強調(LLIE)は携帯電話の撮影需要の急増とともに進歩しているが、既存の多くの方法では圧縮を無視している。 ほとんどのLLIEメソッドはこれを見落とし、その有効性を妨げている。 本研究では,JPEG圧縮が低照度画像に与える影響について検討し,暗黒領域の低画素値の広さによるJPEGによる重大な情報損失を明らかにした。 そこで本研究では,非圧縮低照度画像からロスレス情報を学習するために,新しい事前学習戦略を取り入れたCompression-Aware Pre-trained Transformer (CAPformer)を提案する。 さらに、BGSA(Brightness-Guided Self-Attention)機構は、合理的な情報収集を促進する。 LLIEの圧縮効果を軽減し,資源制約のあるシナリオにおいてLLIEを改善する可能性を示す実験を行った。

Low-Light Image Enhancement (LLIE) has advanced with the surge in phone photography demand, yet many existing methods neglect compression, a crucial concern for resource-constrained phone photography. Most LLIE methods overlook this, hindering their effectiveness. In this study, we investigate the effects of JPEG compression on low-light images and reveal substantial information loss caused by JPEG due to widespread low pixel values in dark areas. Hence, we propose the Compression-Aware Pre-trained Transformer (CAPformer), employing a novel pre-training strategy to learn lossless information from uncompressed low-light images. Additionally, the proposed Brightness-Guided Self-Attention (BGSA) mechanism enhances rational information gathering. Experiments demonstrate the superiority of our approach in mitigating compression effects on LLIE, showcasing its potential for improving LLIE in resource-constrained scenarios.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# 高等教育の高度化:学生評価・研究の総合的なダッシュボード

Elevating Academic Administration: A Comprehensive Faculty Dashboard for Tracking Student Evaluations and Research ( http://arxiv.org/abs/2407.07057v1 )

ライセンス: Link先を確認
Musa Azeem, Muhammad Tukhtasunov, Savannah Noblitt, Mitchel Jonker, Kevin Protzman, (参考訳) USC Faculty Dashboardは、部門長、教授、インストラクターが進捗を監視し、意思決定を行う方法に革命をもたらすように設計されたWebアプリケーションで、効率的なデータストレージと分析のための集中型のハブを提供する。 現在、部門長が彼らの部門のパフォーマンスを簡潔に管理するのに適したツールのギャップがあります。 USCインスティテュートダッシュボードは、学生評価と研究情報のアップロードと閲覧を容易にし、学部長に教職員のパフォーマンスを評価し、研究助成金、出版物、支出をシームレスに追跡する権限を与えている。 さらに、教授やインストラクターはパーソナライズされたパフォーマンス分析ツールを入手し、自身のデータへの完全なアクセスと、相対的なパフォーマンスを評価するためのピアデータへのキュレートされたアクセスが提供される。 ソースコードとデプロイされたアプリケーションへのリンクはhttps://github.com/SCCapstone/K3MSにある。

The USC Faculty Dashboard is a web application designed to revolutionize how department heads, professors, and instructors monitor progress and make decisions, providing a centralized hub for efficient data storage and analysis. Currently, there's a gap in tools tailored for department heads to concisely manage the performance of their department, which our platform aims to fill. The USC Faculty Dashboard offers easy access to upload and view student evaluation and research information, empowering department heads to evaluate the performance of faculty members and seamlessly track their research grants, publications, and expenditures. Furthermore, professors and instructors gain personalized performance analysis tools, with full access to their own data as well as curated access to peer data to assess their relative performance. The source code as well as the link to the deployed application can be found at https://github.com/SCCapstone/K3MS.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# モデルと脳の類似度スコアの微分可能最適化

Differentiable Optimization of Similarity Scores Between Models and Brains ( http://arxiv.org/abs/2407.07059v1 )

ライセンス: Link先を確認
Nathan Cloos, Moufan Li, Markus Siegel, Scott L. Brincat, Earl K. Miller, Guangyu Robert Yang, Christopher J. Cueva, (参考訳) 脳のより現実的なモデルの開発を導くための指標は何か? 1つの提案は、線形回帰、CKA(Centered Kernel Alignment)、角状プロクリスト距離などの手法を用いて、モデルと脳の類似性を定量化することである。 これらの類似度測定の限界をよりよく理解するために、我々は、非ヒト霊長類の5つの実験で記録された神経活動を分析し、合成データセットをこれらのニューラル記録とよりよく似たものに最適化する。 これらの合成データセットは、タスクに関連する変数をエンコードしていない間、神経活動にどの程度似ているか? 線形回帰やCKAのような測度は, 角状プロクリストと異なり, タスク関連変数が合成データセットから線形に復号できない場合でも高い類似性スコアが得られる。 類似度スコアを最大化するために最適化された合成データセットは、最初はターゲットデータセットの最初の主成分を学習するが、角状プロクリストは線形回帰やCKAのような手法よりもはるかに早く、高い分散次元をキャプチャする。 理論とシミュレーションの両方において、これらのスコアが、異なる主成分が摂動するときにどのように変化するかを示す。 そして最後に、複数の類似度スコアを共同で最適化して許容範囲を見つけ、例えば高角プロクリスト類似度は高いCKAスコアを示すが、逆ではないことを示す。

What metrics should guide the development of more realistic models of the brain? One proposal is to quantify the similarity between models and brains using methods such as linear regression, Centered Kernel Alignment (CKA), and angular Procrustes distance. To better understand the limitations of these similarity measures we analyze neural activity recorded in five experiments on nonhuman primates, and optimize synthetic datasets to become more similar to these neural recordings. How similar can these synthetic datasets be to neural activity while failing to encode task relevant variables? We find that some measures like linear regression and CKA, differ from angular Procrustes, and yield high similarity scores even when task relevant variables cannot be linearly decoded from the synthetic datasets. Synthetic datasets optimized to maximize similarity scores initially learn the first principal component of the target dataset, but angular Procrustes captures higher variance dimensions much earlier than methods like linear regression and CKA. We show in both theory and simulations how these scores change when different principal components are perturbed. And finally, we jointly optimize multiple similarity scores to find their allowed ranges, and show that a high angular Procrustes similarity, for example, implies a high CKA score, but not the converse.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# イメージングに基づく量子光学

Imaging-based Quantum Optomechanics ( http://arxiv.org/abs/2407.07060v1 )

ライセンス: Link先を確認
Christian M. Pluchar, Wenhua He, Jack Manley, Nicolas Deshler, Saikat Guha, Dalziel J. Wilson, (参考訳) アクティブイメージングプロトコルでは、ランドスケープに関する情報が散乱光子の空間モードに符号化される。 一般的な仮定は、風景は硬いというものであるが、原理的には、量子光学の分野で実りある応用を見出した概念である放射圧によって変化することができる。 ここでは、空間多重光に対する放射圧バックアクションの概念を一般化するための、眼による機械共振器のアクティブイメージングについて検討する。 本研究では, 膜面から反射するレーザの空間モードをソートすることで, 膜の曲げモードを画像化することを検討する。 この環境でのバックアクションは、単一モード光力学では観測できない空間光子ショットノイズによって生じる。 また、純粋に空間的バックアクションの極限におけるコヒーレント照明に対するインプレクション・バックアクション積を導出し、純粋に分散された単一モードの光学的カップリングに対する標準量子限界と同値であることを示した。 最後に,空間的バックアクションによる光学的相関が2モードの絡み合った光を生じさせることを示す。 高価格のナノメカニクスとともに、我々の研究結果は、空間モードの絡み合いによって強化されたセンサやネットワークを含む量子イメージングと光力学のインターフェースにおける新たな機会を示唆している。

In active imaging protocols, information about a landscape is encoded into the spatial mode of a scattered photon. A common assumption is that the landscape is rigid; however, in principle it can be altered by radiation pressure, a concept that has found fruitful application in the field of quantum optomechanics. Here we explore active imaging of a mechanical resonator with an eye to generalizing the concept of radiation pressure backaction to spatially multimode light. As a thought experiment, we consider imaging the flexural modes of a membrane by sorting the spatial modes of a laser reflected from its surface. We show that backaction in this setting arises from spatial photon shot noise, an effect that cannot be observed in single-mode optomechanics. We also derive the imprecision-backaction product for coherent illumination in the limit of purely spatial backaction, revealing it to be equivalent to the standard quantum limit for purely dispersive, single-mode optomechanical coupling. Finally, we show that optomechanical correlations due to spatial backaction can give rise to two-mode entangled light. In conjunction with high-$Q$ nanomechanics, our findings point to new opportunities at the interface of quantum imaging and optomechanics, including sensors and networks enhanced by spatial mode entanglement.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# エージェントのインターネット: コラボレーションインテリジェンスのための異種エージェントのWebを織る

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence ( http://arxiv.org/abs/2407.07061v1 )

ライセンス: Link先を確認
Weize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、高い能力を持つ自律エージェントの開発への道を開いた。 しかし、既存のマルチエージェントフレームワークは、自身のエコシステム内で定義されたエージェントに依存するため、多様な有能なサードパーティエージェントの統合に苦慮することが多い。 また、ほとんどのフレームワークはシングルデバイス設定に限定されているため、分散環境をシミュレートする上でも課題に直面している。 さらに、これらのフレームワークはハードコードされた通信パイプラインに依存しており、動的タスク要求への適応性を制限する。 インターネットの概念に触発されて,LLMベースのマルチエージェントコラボレーションのためのフレキシブルでスケーラブルなプラットフォームを提供することにより,これらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。 汎用アシスタントタスク、具体化されたAIタスク、検索強化された生成ベンチマークに関する広範な実験を通じて、IoAは最先端のベースラインを一貫して上回り、異種エージェント間の効果的なコラボレーションを促進する能力を示す。 IoAは、エージェントがシームレスに協力してより大きなインテリジェンスと能力を達成する、インターネットのような環境で多様なエージェントをリンクするステップである。 コードベースは \url{https://github.com/OpenBMB/IoA} でリリースされています。

The rapid advancement of large language models (LLMs) has paved the way for the development of highly capable autonomous agents. However, existing multi-agent frameworks often struggle with integrating diverse capable third-party agents due to reliance on agents defined within their own ecosystems. They also face challenges in simulating distributed environments, as most frameworks are limited to single-device setups. Furthermore, these frameworks often rely on hard-coded communication pipelines, limiting their adaptability to dynamic task requirements. Inspired by the concept of the Internet, we propose the Internet of Agents (IoA), a novel framework that addresses these limitations by providing a flexible and scalable platform for LLM-based multi-agent collaboration. IoA introduces an agent integration protocol, an instant-messaging-like architecture design, and dynamic mechanisms for agent teaming and conversation flow control. Through extensive experiments on general assistant tasks, embodied AI tasks, and retrieval-augmented generation benchmarks, we demonstrate that IoA consistently outperforms state-of-the-art baselines, showcasing its ability to facilitate effective collaboration among heterogeneous agents. IoA represents a step towards linking diverse agents in an Internet-like environment, where agents can seamlessly collaborate to achieve greater intelligence and capabilities. Our codebase has been released at \url{https://github.com/OpenBMB/IoA}.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# セキュアなコード生成のためのプロンプト技術:システム的調査

Prompting Techniques for Secure Code Generation: A Systematic Investigation ( http://arxiv.org/abs/2407.07064v1 )

ライセンス: Link先を確認
Catherine Tony, Nicolás E. Díaz Ferreyra, Markus Mutas, Salem Dhiff, Riccardo Scandariato, (参考訳) 大きな言語モデル(LLM)は、開発者が自然言語(NL)命令からコードを作成することができるプロンプト駆動プログラミングによって、ソフトウェア開発において勢いを増している。 しかし、研究は、セキュアなコードを生成する能力に疑問を投げかけ、即時生成ソフトウェアの品質を疑問視している。 同時に、LLMから最適な応答を引き出すために、適切なプロンプトを慎重に調整する様々なプロンプト技術が出現している。 それでも、このようなプロンプト戦略とセキュアなコード生成との相互作用は未調査のままであり、さらなる調査を求めている。 OBJECTIVE:本研究では,LLMによるNL命令から生成されたコードのセキュリティに対する異なるプロンプト技術の影響について検討する。 Method: まず、コード生成タスクに使用できる既存のプロンプト技術を特定するために、体系的な文献レビューを行います。 GPT-3, GPT-3.5, GPT-4モデルを用いて, セキュアコード生成のためのサブセットの評価を行った。 このために,150個のNLセキュリティ関連コード生成プロンプトからなる既存のデータセットを使用した。 RESULTS: 私たちの仕事 (i)コード生成のための潜在的プロンプト手法を分類する 二 セキュアなコード生成タスクのために特定した技法のサブセットを適応し、評価すること。 第三に、特に、再帰的批判と改善(RCI:Recursive Criticism and Improvement)と呼ばれる既存の手法を使用して、LLM生成コードセキュリティに関する継続的な議論に価値ある洞察をもたらした後、テストされたLLM全体のセキュリティ弱点の低減を観察する。

Large Language Models (LLMs) are gaining momentum in software development with prompt-driven programming enabling developers to create code from natural language (NL) instructions. However, studies have questioned their ability to produce secure code and, thereby, the quality of prompt-generated software. Alongside, various prompting techniques that carefully tailor prompts have emerged to elicit optimal responses from LLMs. Still, the interplay between such prompting strategies and secure code generation remains under-explored and calls for further investigations. OBJECTIVE: In this study, we investigate the impact of different prompting techniques on the security of code generated from NL instructions by LLMs. METHOD: First we perform a systematic literature review to identify the existing prompting techniques that can be used for code generation tasks. A subset of these techniques are evaluated on GPT-3, GPT-3.5, and GPT-4 models for secure code generation. For this, we used an existing dataset consisting of 150 NL security-relevant code-generation prompts. RESULTS: Our work (i) classifies potential prompting techniques for code generation (ii) adapts and evaluates a subset of the identified techniques for secure code generation tasks and (iii) observes a reduction in security weaknesses across the tested LLMs, especially after using an existing technique called Recursive Criticism and Improvement (RCI), contributing valuable insights to the ongoing discourse on LLM-generated code security.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# 付加的製造モニタリングにおけるプライバシーと透明性のバランスをとるための説明可能な超次元計算

Explainable Hyperdimensional Computing for Balancing Privacy and Transparency in Additive Manufacturing Monitoring ( http://arxiv.org/abs/2407.07066v1 )

ライセンス: Link先を確認
Fardin Jalil Piran, Prathyush P. Poduval, Hamza Errahmouni Barkam, Mohsen Imani, Farhad Imani, (参考訳) In-situ Sensingは、学習モデルとともに、付加的製造(AM)プロセスにおいて永続的な欠陥問題に対処するユニークな機会を提供する。 しかし、この統合は、データ漏洩、センサーデータ妥協、モデル反転攻撃などの重要なデータプライバシー上の懸念を導入し、部品設計、材料構成、マシンパラメータに関する重要な詳細を明らかにしている。 数学的保証の下でデータにノイズを注入する差分プライバシー(DP)モデルは、センシングデータのトレースを隠蔽することで、データユーティリティとプライバシの微妙なバランスを提供する。 しかし、ブラックボックスとして機能する学習モデルへのノイズの導入は、特定のノイズレベルがモデルの精度に与える影響を予測するのを複雑にしている。 本研究は,ベクトル記号パラダイムの説明可能性を活用して,内部監視の精度に対するノイズの影響を予測し,操作効率を維持しながら機密データの保護を行う,差分プライバシー・高次元コンピューティング(DP-HD)フレームワークを提案する。 オーバーハング異常を検出するためのAMの現実の高速融解プールデータに対する実験結果から,DP-HDは操作効率,予測精度,堅牢なプライバシ保護を実現し,最先端の機械学習(ML)モデルより優れていることが示された。 例えば、同じレベルのプライバシ保護を実装する場合(プライバシー予算が1に設定されている場合)、我々のモデルは94.43\%の精度を達成し、ResNet50 (52.30\%)、GoogLeNet (23.85\%)、AlexNet (55.78\%)、DenseNet201 (69.13\%)、EfficientNet B2 (40.81\%)といった従来のモデルのパフォーマンスを上回りました。 特にDP-HDは、プライバシーの制約が高い場合、精度が著しく低下する現在のモデルとは異なり、プライバシーを高めるために設計された大きなノイズ付加の下で高性能を維持している。

In-situ sensing, in conjunction with learning models, presents a unique opportunity to address persistent defect issues in Additive Manufacturing (AM) processes. However, this integration introduces significant data privacy concerns, such as data leakage, sensor data compromise, and model inversion attacks, revealing critical details about part design, material composition, and machine parameters. Differential Privacy (DP) models, which inject noise into data under mathematical guarantees, offer a nuanced balance between data utility and privacy by obscuring traces of sensing data. However, the introduction of noise into learning models, often functioning as black boxes, complicates the prediction of how specific noise levels impact model accuracy. This study introduces the Differential Privacy-HyperDimensional computing (DP-HD) framework, leveraging the explainability of the vector symbolic paradigm to predict the noise impact on the accuracy of in-situ monitoring, safeguarding sensitive data while maintaining operational efficiency. Experimental results on real-world high-speed melt pool data of AM for detecting overhang anomalies demonstrate that DP-HD achieves superior operational efficiency, prediction accuracy, and robust privacy protection, outperforming state-of-the-art Machine Learning (ML) models. For example, when implementing the same level of privacy protection (with a privacy budget set at 1), our model achieved an accuracy of 94.43\%, surpassing the performance of traditional models such as ResNet50 (52.30\%), GoogLeNet (23.85\%), AlexNet (55.78\%), DenseNet201 (69.13\%), and EfficientNet B2 (40.81\%). Notably, DP-HD maintains high performance under substantial noise additions designed to enhance privacy, unlike current models that suffer significant accuracy declines under high privacy constraints.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# Lookback Lens:注意図のみを用いた大規模言語モデルにおける文脈幻覚の検出と緩和

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps ( http://arxiv.org/abs/2407.07071v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass, (参考訳) 記事の要約や質問に対する回答を尋ねると、大きな言語モデル(LLM)は詳細を幻覚させ、入力コンテキストに関して不正確な未確定な回答に応答する。 本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。 我々は、文脈幻覚は、LLMが提供された文脈における情報に、その世代に対して、その情報に出席する程度に関係していると仮定する。 この直感に基づいて,新たに生成したトークン(各アテンションヘッド)に対する注意重みの比率によって入力特徴が与えられる簡単な幻覚検出モデルを提案する。 これらのルックバック比の特徴に基づく線形分類器は、LLMの隠れ状態全体やテキストベースエンタテインメントモデルを利用するよりリッチな検出器として有効であることがわかった。 ルックバック比に基づく検出器であるルックバックレンズは、7Bモデルで訓練された検出器をより大きな13Bモデルに(再訓練なしで)適用することができる。 さらに、この検出器を用いて文脈的幻覚を緩和し、例えばXSum要約タスクにおいて、単純な分類器誘導復号法により幻覚の量を9.6%削減できることを見出した。

When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector -- Lookback Lens -- is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.
翻訳日:2024-07-10 17:07:48 公開日:2024-07-09
# Hyperion - 継続的SLAMのための高速で多目的な象徴的なGaussian Belief Propagationフレームワーク

Hyperion - A fast, versatile symbolic Gaussian Belief Propagation framework for Continuous-Time SLAM ( http://arxiv.org/abs/2407.07074v1 )

ライセンス: Link先を確認
David Hug, Ignacio Alzugaray, Margarita Chli, (参考訳) 連続時間同時ローカライゼーションとマッピング(CTSLAM)は、非同期およびマルチモーダルセンサースイートを融合するための有望なアプローチとなっている。 個別に推定される離散時間SLAMとは異なり、CTSLAMは連続的な運動パラメトリゼーションを使用しており、ローリングシャッターカメラ、イベントカメラ、慣性測定ユニット(IMU)などの様々なセンサーの統合を容易にする。 しかし、CTSLAMのアプローチは計算的に要求され続け、従来はNLLS(Non-Linear Least Squares)の最適化として提案されていた。 これらの制限を目標として、SymForceベースの最速の(Martiros et al , RSS 2022]BとZ-Splineの実装がSommer et al (CVPR 2020)上で2.43xから110.31xのスピードアップを達成するだけでなく、エージェント間の分散確率推論をターゲットとしたHyperionという新しいガウス的信念伝播(GBP)フレームワークを実装した。 動作追跡および位置決め設定における本手法の有効性を実証的アブレーション研究により実証した。

Continuous-Time Simultaneous Localization And Mapping (CTSLAM) has become a promising approach for fusing asynchronous and multi-modal sensor suites. Unlike discrete-time SLAM, which estimates poses discretely, CTSLAM uses continuous-time motion parametrizations, facilitating the integration of a variety of sensors such as rolling-shutter cameras, event cameras and Inertial Measurement Units (IMUs). However, CTSLAM approaches remain computationally demanding and are conventionally posed as centralized Non-Linear Least Squares (NLLS) optimizations. Targeting these limitations, we not only present the fastest SymForce-based [Martiros et al., RSS 2022] B- and Z-Spline implementations achieving speedups between 2.43x and 110.31x over Sommer et al. [CVPR 2020] but also implement a novel continuous-time Gaussian Belief Propagation (GBP) framework, coined Hyperion, which targets decentralized probabilistic inference across agents. We demonstrate the efficacy of our method in motion tracking and localization settings, complemented by empirical ablation studies.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# MADE-for-ASD:自閉症スペクトラム障害診断のためのマルチアトラスディープアンサンブルネットワーク

MADE-for-ASD: A Multi-Atlas Deep Ensemble Network for Diagnosing Autism Spectrum Disorder ( http://arxiv.org/abs/2407.07076v1 )

ライセンス: Link先を確認
Md Rakibul Hasan, Xuehan Liu, Tom Gedeon, Md Zakir Hossain, (参考訳) 自閉症スペクトラム障害(ASD)の早期診断のグローバルなニーズに応じて,従来の時間的診断手法と潜在的な自動化ソリューションのギャップを埋める。 我々は、重み付きディープアンサンブルネットワークを介して脳の機能的磁気共鳴画像(fMRI)データの複数のアトラスを統合するマルチアトラスディープアンサンブルネットワーク、MADE-for-ASDを提案する。 提案手法は,ASD診断性能を高め,患者のプロファイリングについてより総合的な視点を提供する予測ワークフローに,人口統計情報を統合する。 ABIDE (Autism Brain Imaging Data Exchange, 自閉症脳画像データ交換) Iデータセットを実験した。 提案システムでは,データセット全体の75.20%の精度,特定のサブセットに対して96.40%の精度を実現している。 具体的には,同量のデータに対する先行処理よりも4.4ポイント向上した。 このモデルはデータセット全体の82.90%の感度と69.70%の特異性を示し、それぞれ91.00%と99.50%の感度を示す。 我々は、Fスコアを用いて、ASD診断における上位10ROI、例えば \emph{precuneus} や Antor \emph{cingulate/ventromedial} をピンポイントする。 提案システムは、ASD診断において、よりコスト効率が高く、効率的でスケーラブルな戦略の道を開く可能性がある。 コードと評価はTBAで公開されている。

In response to the global need for efficient early diagnosis of Autism Spectrum Disorder (ASD), this paper bridges the gap between traditional, time-consuming diagnostic methods and potential automated solutions. We propose a multi-atlas deep ensemble network, MADE-for-ASD, that integrates multiple atlases of the brain's functional magnetic resonance imaging (fMRI) data through a weighted deep ensemble network. Our approach integrates demographic information into the prediction workflow, which enhances ASD diagnosis performance and offers a more holistic perspective on patient profiling. We experiment with the well-known publicly available ABIDE (Autism Brain Imaging Data Exchange) I dataset, consisting of resting state fMRI data from 17 different laboratories around the globe. Our proposed system achieves 75.20% accuracy on the entire dataset and 96.40% on a specific subset $-$ both surpassing reported ASD diagnosis accuracy in ABIDE I fMRI studies. Specifically, our model improves by 4.4 percentage points over prior works on the same amount of data. The model exhibits a sensitivity of 82.90% and a specificity of 69.70% on the entire dataset, and 91.00% and 99.50%, respectively, on the specific subset. We leverage the F-score to pinpoint the top 10 ROI in ASD diagnosis, such as \emph{precuneus} and anterior \emph{cingulate/ventromedial}. The proposed system can potentially pave the way for more cost-effective, efficient and scalable strategies in ASD diagnosis. Codes and evaluations are publicly available at TBA.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# ConceptExpress: 単一イメージの教師なし概念抽出のためのハーネス化拡散モデル

ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction ( http://arxiv.org/abs/2407.07077v1 )

ライセンス: Link先を確認
Shaozhe Hao, Kai Han, Zhengyao Lv, Shihao Zhao, Kwan-Yee K. Wong, (参考訳) パーソナライズされたテキスト・ツー・イメージ生成は、複数のイメージから単一の概念を学習することを可能にする一方で、より実践的で難しいシナリオは、1つのイメージ内で複数の概念を学ぶことである。 しかし、このシナリオに対処する既存の作業は、広範囲にわたる人間のアノテーションに大きく依存している。 本稿では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。 複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。 そこで本研究では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。 具体的には,空間的対応を拡散自己注意から活用することで,概念ローカライゼーションのアプローチが有意な概念を自動で特定・解離し,概念と概念トークンのルックアップ関係に基づき,概念ワイド最適化プロセスは個々の概念を表す識別トークンを学習する。 最後に,UCEタスクに適した評価プロトコルを確立する。 大規模な実験では、ConceptExpressがUCEタスクの有望なソリューションであることを実証している。 私たちのコードとデータは、https://github.com/haoosz/ConceptExpress.comで利用可能です。

While personalized text-to-image generation has enabled the learning of a single concept from multiple images, a more practical yet challenging scenario involves learning multiple concepts within a single image. However, existing works tackling this scenario heavily rely on extensive human annotations. In this paper, we introduce a novel task named Unsupervised Concept Extraction (UCE) that considers an unsupervised setting without any human knowledge of the concepts. Given an image that contains multiple concepts, the task aims to extract and recreate individual concepts solely relying on the existing knowledge from pretrained diffusion models. To achieve this, we present ConceptExpress that tackles UCE by unleashing the inherent capabilities of pretrained diffusion models in two aspects. Specifically, a concept localization approach automatically locates and disentangles salient concepts by leveraging spatial correspondence from diffusion self-attention; and based on the lookup association between a concept and a conceptual token, a concept-wise optimization process learns discriminative tokens that represent each individual concept. Finally, we establish an evaluation protocol tailored for the UCE task. Extensive experiments demonstrate that ConceptExpress is a promising solution to the UCE task. Our code and data are available at: https://github.com/haoosz/ConceptExpress
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# MoSt-DSA:DSA画像における直接多フレーム補間のための運動と構造相互作用のモデル化

MoSt-DSA: Modeling Motion and Structural Interactions for Direct Multi-Frame Interpolation in DSA Images ( http://arxiv.org/abs/2407.07078v1 )

ライセンス: Link先を確認
Ziyang Xu, Huangxuan Zhao, Ziwei Cui, Wenyu Liu, Chuansheng Zheng, Xinggang Wang, (参考訳) 人工知能は医療画像分析にとって重要なツールとなっている。 高度な脳血管造影技術として、DSA(Digital Subtraction Angiography)は、ヒトへの放射線照射量が画像数に比例する課題を提起する。 画像の削減と代わりにAI補間を使用することで、放射線を著しく切断することができる。 しかし、DSA画像は自然のシーンよりも複雑な動きと構造的特徴を示しており、補間をより困難にしている。 DSAフレーム補間のためのディープラーニングを用いた最初の研究であるMoSt-DSAを提案する。 未知あるいは粗粒な特徴を抽出する自然シーンビデオフレーム補間(VFI)法とは異なり、最適なコンテキスト範囲を調整し、コンテキストを線形関数に変換することにより、フレーム間の動きと構造的コンテキストの相互作用を効率的な完全畳み込み方式でモデル化する汎用モジュールを考案する。 この利点を生かして、MoSt-DSAは、トレーニングとテストの両方において、たった1つのフォワードパスで、任意のステップで任意の数の補間を直接達成する最初の方法である。 1フレームから3フレームを補間する7つの代表的なVFIモデルとの比較を行い、MoSt-DSAは470のDSA画像シーケンス(通常152画像)で堅牢な結果を示し、平均SSIMは0.93以上、平均PSNRは38以上(標準偏差は0.030以上、3.6以下)、精度、速度、視覚効果、メモリ使用率を総合的に達成している。 私たちのコードはhttps://github.com/ZyoungXu/MoSt-DSAで利用可能です。

Artificial intelligence has become a crucial tool for medical image analysis. As an advanced cerebral angiography technique, Digital Subtraction Angiography (DSA) poses a challenge where the radiation dose to humans is proportional to the image count. By reducing images and using AI interpolation instead, the radiation can be cut significantly. However, DSA images present more complex motion and structural features than natural scenes, making interpolation more challenging. We propose MoSt-DSA, the first work that uses deep learning for DSA frame interpolation. Unlike natural scene Video Frame Interpolation (VFI) methods that extract unclear or coarse-grained features, we devise a general module that models motion and structural context interactions between frames in an efficient full convolution manner by adjusting optimal context range and transforming contexts into linear functions. Benefiting from this, MoSt-DSA is also the first method that directly achieves any number of interpolations at any time steps with just one forward pass during both training and testing. We conduct extensive comparisons with 7 representative VFI models for interpolating 1 to 3 frames, MoSt-DSA demonstrates robust results across 470 DSA image sequences (each typically 152 images), with average SSIM over 0.93, average PSNR over 38 (standard deviations of less than 0.030 and 3.6, respectively), comprehensively achieving state-of-the-art performance in accuracy, speed, visual effect, and memory usage. Our code is available at https://github.com/ZyoungXu/MoSt-DSA.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# LLMをヘブライ語に適用する - 語彙と命令能力の強化によるDictaLM 2.0の展開

Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities ( http://arxiv.org/abs/2407.07080v1 )

ライセンス: Link先を確認
Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel, (参考訳) Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。 本稿では,DictaLM2.0とDictaLM2.0-Instructについて紹介する。 事前学習されたモデルを新しい言語に適応させるには、スクラッチからモデルをトレーニングすることや、英語のような豊富なリソースを持つ言語で既存のモデルをトレーニングすることとは大きく異なる特殊なテクニックが必要となる。 本稿では,ヘブライ語の言語特性を効果的に学習し,適応させる新しい学習手法について概説する。 さらに,DictaLM2.0-Instructed on a comprehensive instruct dataset to its performance on task-specific instructions。 本稿では,本モデルを評価するために,質問応答,感性分析,ウィノグラードスキーマチャレンジ,翻訳,要約など,多種多様なタスクを網羅したヘブライ語LLM評価用ベンチマークスイートを提案する。 我々の研究は、低リソース言語におけるLLMの訓練の複雑さに対処するだけでなく、他のLLMを様々な非英語言語に適用するために活用できるフレームワークを提案し、多言語NLPの幅広い分野に寄与する。

Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# 学習最適化は強化学習を困難にさせるか?

Can Learned Optimization Make Reinforcement Learning Less Difficult? ( http://arxiv.org/abs/2407.07082v1 )

ライセンス: Link先を確認
Alexander David Goldie, Chris Lu, Matthew Thomas Jackson, Shimon Whiteson, Jakob Nicolaus Foerster, (参考訳) 強化学習(RL)は実世界において意思決定の大きな可能性を持っているが、特定の考慮を必要とする多くの固有の困難に悩まされている。 特に、非定常性が高く、可塑性損失の度合いが高いため、局所最適の早期収束を防ぎ、帰還を最大化するためには探索が必要である。 本稿では,これらの課題を克服する上で,学習した最適化が有効かどうかを検討する。 提案手法は, これまでに提案した手法により, 入力特性と出力構造が通知される更新ルールをメタラーニングする。 パラメータ化は多様な学習文脈におけるメタラーニングを可能にするのに十分柔軟であり、探索に確率性を利用する能力を含むことを示す。 実験の結果,単一環境と小環境のメタトレーニングを行う場合,OPENは従来の最適化器よりも優れているか,あるいは同等であることがわかった。 さらに、OPENは環境の分布とエージェントアーキテクチャの範囲をまたいだ強力な一般化を示す。

While reinforcement learning (RL) holds great potential for decision making in the real world, it suffers from a number of unique difficulties which often need specific consideration. In particular: it is highly non-stationary; suffers from high degrees of plasticity loss; and requires exploration to prevent premature convergence to local optima and maximize return. In this paper, we consider whether learned optimization can help overcome these problems. Our method, Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN), meta-learns an update rule whose input features and output structure are informed by previously proposed solutions to these difficulties. We show that our parameterization is flexible enough to enable meta-learning in diverse learning contexts, including the ability to use stochasticity for exploration. Our experiments demonstrate that when meta-trained on single and small sets of environments, OPEN outperforms or equals traditionally used optimizers. Furthermore, OPEN shows strong generalization across a distribution of environments and a range of agent architectures.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# フェデレーション最適化のための安定化近点法

Stabilized Proximal-Point Methods for Federated Optimization ( http://arxiv.org/abs/2407.07084v1 )

ライセンス: Link先を確認
Xiaowen Jiang, Anton Rodomanov, Sebastian U. Stich, (参考訳) 効率的な最適化アルゴリズムを開発する際には、コミュニケーションの制約を考慮することが重要です。 非加速アルゴリズムで最もよく知られている通信複雑性は、各イテレーションで局所的なサブプロブレムを解く分散近点アルゴリズムであるDANEによって達成され、個々の関数間の二階類似性を利用することができる。 しかし、そのような通信効率を達成するために、局所的なサブプロブレムを解くための精度要件はわずかに準最適である。 ハイブリッド射影-近位点法に着想を得たこの研究で我々は i)新しい分散アルゴリズムS-DANEを提案する。 本手法は, DANEと比較して近位段階においてより安定化されたプロキシ中心を採用し, 決定論的通信複雑性に適合する。 さらに、サブプロブレムの精度は軽度であり、局所的な計算効率が向上する。 さらに、部分的なクライアント参加と任意の確率的局所解法をサポートしており、実際はより魅力的である。 さらに ii) S-DANE を高速化し,S-DANE と同等の局所計算効率を向上した分散凸最適化法において,提案アルゴリズムが既知の通信複雑性を実現することを示す。

In developing efficient optimization algorithms, it is crucial to account for communication constraints -- a significant challenge in modern federated learning settings. The best-known communication complexity among non-accelerated algorithms is achieved by DANE, a distributed proximal-point algorithm that solves local subproblems in each iteration and that can exploit second-order similarity among individual functions. However, to achieve such communication efficiency, the accuracy requirement for solving the local subproblems is slightly sub-optimal. Inspired by the hybrid projection-proximal point method, in this work, we i) propose a novel distributed algorithm S-DANE. This method adopts a more stabilized prox-center in the proximal step compared with DANE, and matches its deterministic communication complexity. Moreover, the accuracy condition of the subproblem is milder, leading to enhanced local computation efficiency. Furthermore, it supports partial client participation and arbitrary stochastic local solvers, making it more attractive in practice. We further ii) accelerate S-DANE, and show that the resulting algorithm achieves the best-known communication complexity among all existing methods for distributed convex optimization, with the same improved local computation efficiency as S-DANE.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# 仮説的マインド:大規模言語モデルを用いた多エージェントタスクにおけるマインドの共有理論

Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models ( http://arxiv.org/abs/2407.07086v1 )

ライセンス: Link先を確認
Logan Cross, Violet Xiang, Agam Bhatia, Daniel LK Yamins, Nick Haber, (参考訳) マルチエージェント強化学習(MARL)法は, マルチエージェントシステムの非定常性に苦慮し, 新規エージェントを用いたテストでは適応学習に失敗する。 ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。 私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。 本稿では、自然言語における他のエージェントの戦略に関する仮説を生成することによって、ハイレベルな計画プロセスの足場となるマインドモジュールについて紹介する。 その後、他のエージェントの行動を正確に予測する仮説を補強することにより、これらの仮説を評価し、反復的に洗練する。 仮説マインドスは、ダイジングと人口ベースの環境を含むメルティングポットのベンチマークにおいて、競争力、混合モチベーション、協調的な領域において、以前のLLMエージェントとRLベースラインよりも性能を著しく向上させる。 さらに, LLM-agent ベースラインと Ablations との比較により, 複雑なシナリオにおける仮説評価と改良の重要性が示された。

Multi-agent reinforcement learning (MARL) methods struggle with the non-stationarity of multi-agent systems and fail to adaptively learn online when tested with novel agents. Here, we leverage large language models (LLMs) to create an autonomous agent that can handle these challenges. Our agent, Hypothetical Minds, consists of a cognitively-inspired architecture, featuring modular components for perception, memory, and hierarchical planning over two levels of abstraction. We introduce the Theory of Mind module that scaffolds the high-level planning process by generating hypotheses about other agents' strategies in natural language. It then evaluates and iteratively refines these hypotheses by reinforcing hypotheses that make correct predictions about the other agents' behavior. Hypothetical Minds significantly improves performance over previous LLM-agent and RL baselines on a range of competitive, mixed motive, and collaborative domains in the Melting Pot benchmark, including both dyadic and population-based environments. Additionally, comparisons against LLM-agent baselines and ablations reveal the importance of hypothesis evaluation and refinement for succeeding on complex scenarios.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# CopyBench: 言語モデル生成における著作権保護テキストのリテラルと非リテラル再現の測定

CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation ( http://arxiv.org/abs/2407.07087v1 )

ライセンス: Link先を確認
Tong Chen, Akari Asai, Niloofar Mireshghallah, Sewon Min, James Grimmelmann, Yejin Choi, Hannaneh Hajishirzi, Luke Zettlemoyer, Pang Wei Koh, (参考訳) 言語モデル(LM)による著作権保護されたコンテンツの再生の度合いを評価することは、AIと法的なコミュニティにとって重要な関心事である。 再現度を評価する際には、リテラルと非リテラルの類似性の両方が裁判所によって検討されているが、先行研究はリテラルの類似性のみに焦点を当てている。 このギャップを埋めるために、私たちは、LM世代におけるリテラルと非リテラルの両方のコピーを測定するために設計されたベンチマークであるCopyBenchを紹介します。 著作権書をテキストソースとして使用することにより,著作権書から事実を想起し,流動的な完成物を生成する能力の観点から,リテラルおよびノンリテラルコピーを評価するための自動評価プロトコルを提供する。 リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。 Llama3-8Bと70Bの比較では、リテラルコピー率は0.2%から10.5%に増加し、非リテラルコピーは2.3%から6.9%に増加した。 さらに,(1) トレーニング時アライメントはリテラル複写を削減できるが,非リテラル複写を増大させる可能性があり,(2) 現行の推論時緩和手法はリテラルを減少させるが,非リテラル複写を減少させるものではないことを示す。

Evaluating the degree of reproduction of copyright-protected content by language models (LMs) is of significant interest to the AI and legal communities. Although both literal and non-literal similarities are considered by courts when assessing the degree of reproduction, prior research has focused only on literal similarities. To bridge this gap, we introduce CopyBench, a benchmark designed to measure both literal and non-literal copying in LM generations. Using copyrighted fiction books as text sources, we provide automatic evaluation protocols to assess literal and non-literal copying, balanced against the model utility in terms of the ability to recall facts from the copyrighted works and generate fluent completions. We find that, although literal copying is relatively rare, two types of non-literal copying -- event copying and character copying -- occur even in models as small as 7B parameters. Larger models demonstrate significantly more copying, with literal copying rates increasing from 0.2% to 10.5% and non-literal copying from 2.3% to 6.9% when comparing Llama3-8B and 70B models, respectively. We further evaluate the effectiveness of current strategies for mitigating copying and show that (1) training-time alignment can reduce literal copying but may increase non-literal copying, and (2) current inference-time mitigation methods primarily reduce literal but not non-literal copying.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# 学習型航空宇宙制御装置の安全性と信頼性

Safe and Reliable Training of Learning-Based Aerospace Controllers ( http://arxiv.org/abs/2407.07088v1 )

ライセンス: Link先を確認
Udayan Mandal, Guy Amir, Haoze Wu, Ieva Daukantas, Fletcher Lee Newell, Umberto Ravaioli, Baoluo Meng, Michael Durling, Kerianne Hobbs, Milan Ganai, Tobey Shim, Guy Katz, Clark Barrett, (参考訳) 近年、深層強化学習(DRL)アプローチは、多くの複雑なドメインに対して高い成功率のコントローラを生み出している。 しかしながら、これらのモデルの不透明な性質は、一つの誤りが恐ろしい結果をもたらすような、航空宇宙システムや安全クリティカルドメインにおける適用性を制限している。 本稿では,DRLコントローラのトレーニングと検証の両面での新たな進歩について述べる。 k-induction を用いた実生性検証手法を実証し,その実生性検証への応用を実証する。 さらに,神経リプノフバリア認証について概説し,その能力について事例スタディで概説する。 最後に,他のDRLシステムの検証に有効であり,コミュニティにさらなる関心を抱く可能性のある,新たな到達可能性に基づくアプローチについて述べる。

In recent years, deep reinforcement learning (DRL) approaches have generated highly successful controllers for a myriad of complex domains. However, the opaque nature of these models limits their applicability in aerospace systems and safety-critical domains, in which a single mistake can have dire consequences. In this paper, we present novel advancements in both the training and verification of DRL controllers, which can help ensure their safe behavior. We showcase a design-for-verification approach utilizing k-induction and demonstrate its use in verifying liveness properties. In addition, we also give a brief overview of neural Lyapunov Barrier certificates and summarize their capabilities on a case study. Finally, we describe several other novel reachability-based approaches which, despite failing to provide guarantees of interest, could be effective for verification of other DRL systems, and could be of further interest to the community.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# 微調整された線形層はタスク算術の単純かつ効果的な方法である

Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic ( http://arxiv.org/abs/2407.07089v1 )

ライセンス: Link先を確認
Ruochen Jin, Bojian Hou, Jiancong Xiao, Weijie Su, Li Shen, (参考訳) タスク算術は、最近、様々なタスクの微調整された重みを加えることで、事前訓練されたモデルを重み空間で直接編集するコスト効率が高くスケーラブルなアプローチとして現れた。 重みの絡み合いによる線形特性によりさらに性能が向上した。 しかし,従来の線形化手法(NTK線形化など)は,時間とトレーニングコストを2倍にするだけでなく,シングルタスク性能にも不利である。 重みの絡み合いと効率を同時に改善する,微細な線状層のみを実現する,シンプルで効率的かつ効率的な手法を提案する。 具体的には,注目モジュール内の線形層のみを微調整することで,全モデルが線形状態に陥り,重みの絡み合いが著しく向上することを明らかにした。 提案手法は,タスク算術の絡み合いを改善するために,表現モデルとタスク固有モデルの役割を区別することにより,タスク算術の包括的研究を行う。 特に,表象モデルが重みの絡み合いを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モデルでは重みの絡み合い性能を劣化させることができる。 全体として、我々の研究は、タスク算術の基本的なメカニズムに関する新しい洞察を明らかにし、事前学習されたモデルを編集するためのより信頼性と効果的なアプローチを提供する。

Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space, by adding the fine-tuned weights of different tasks. The performance has been further improved by a linear property which is illustrated by weight disentanglement. Yet, conventional linearization methods (e.g., NTK linearization) not only double the time and training cost but also have a disadvantage on single-task performance. We propose a simple yet effective and efficient method that only fine-tunes linear layers, which improves weight disentanglement and efficiency simultaneously. Specifically, our study reveals that only fine-tuning the linear layers in the attention modules makes the whole model occur in a linear regime, significantly improving weight disentanglement. To further understand how our method improves the disentanglement of task arithmetic, we present a comprehensive study of task arithmetic by differentiating the role of representation model and task-specific model. In particular, we find that the representation model plays an important role in improving weight disentanglement whereas the task-specific models such as the classification heads can degenerate the weight disentanglement performance. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to editing pre-trained models.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# 3次元ガウス線トレーシング:粒子シーンの高速トレーシング

3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes ( http://arxiv.org/abs/2407.07090v1 )

ライセンス: Link先を確認
Nicolas Moenne-Loccoz, Ashkan Mirzaei, Or Perel, Riccardo de Lutio, Janick Martinez Esturo, Gavriel State, Sanja Fidler, Nicholas Sharp, Zan Gojcic, (参考訳) 3次元ガウススプラッティングのような粒子に基づく放射場表現は、複雑なシーンの再構成と再レンダリングにおいて大きな成功を収めている。 既存のほとんどの方法は、ラスタ化によって粒子を描画し、それらを選別順序で処理する空間タイルに投影する。 この研究は代わりに粒子をトレースし、境界体積階層を構築し、高性能なGPUレイトレーシングハードウェアを使用して各ピクセルにレイをキャストする。 半透明な粒子を多量に効率的に処理するために,高速な光線三角形の交点を利用するために境界メッシュで粒子をカプセル化し,深度順に交点のバッチをシェードする特殊なレンダリングアルゴリズムについて述べる。 レイトレーシングの利点はコンピュータグラフィックスでよく知られており、影や反射のような二次的な照明効果のための非コヒーレントな光線を処理すること、ロボット工学に共通する高度に歪んだカメラのレンダリング、統計的に光線をサンプリングすることなどである。 我々のレンダラでは、この柔軟性はラスタ化に比べてほとんどコストがかからない。 実験は、我々のアプローチの速度と精度、およびコンピュータグラフィックスとビジョンにおけるいくつかの応用を実証する。 さらに、粒子ヒット数を大幅に削減する一般化されたカーネル関数の簡単な使用を含む、基本ガウス表現に関する関連する改善を提案する。

Particle-based representations of radiance fields such as 3D Gaussian Splatting have found great success for reconstructing and re-rendering of complex scenes. Most existing methods render particles via rasterization, projecting them to screen space tiles for processing in a sorted order. This work instead considers ray tracing the particles, building a bounding volume hierarchy and casting a ray for each pixel using high-performance GPU ray tracing hardware. To efficiently handle large numbers of semi-transparent particles, we describe a specialized rendering algorithm which encapsulates particles with bounding meshes to leverage fast ray-triangle intersections, and shades batches of intersections in depth-order. The benefits of ray tracing are well-known in computer graphics: processing incoherent rays for secondary lighting effects such as shadows and reflections, rendering from highly-distorted cameras common in robotics, stochastically sampling rays, and more. With our renderer, this flexibility comes at little cost compared to rasterization. Experiments demonstrate the speed and accuracy of our approach, as well as several applications in computer graphics and vision. We further propose related improvements to the basic Gaussian representation, including a simple use of generalized kernel functions which significantly reduces particle hit counts.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# V-VIPE: 変分ビュー不変ポス埋め込み

V-VIPE: Variational View Invariant Pose Embedding ( http://arxiv.org/abs/2407.07092v1 )

ライセンス: Link先を確認
Mara Levy, Abhinav Shrivastava, (参考訳) 人の2次元(2次元)画像を与えられた3次元(3次元)人間のポーズを表現することを学ぶことは、難しい問題である。 問題をより曖昧にするためには、カメラ座標空間における3次元ポーズを推定することが一般的になっている。 しかし、これは2つの3Dポーズを比較することが困難である。 本稿では,2次元画像から3次元ポーズを推定する問題を2段階に分けることで,この問題に対処する。 変分オートエンコーダ(VAE)を用いて、標準座標空間における3次元ポーズを表す埋め込みを求める。 この埋め込みを、可変ビュー不変ポーズ埋め込みV-VIPEと呼ぶ。 V-VIPEを使えば、2Dと3Dのポーズをエンコードして、検索や分類といった下流タスクに埋め込みを使用できます。 これらの埋め込みからデコーダを用いて3Dのポーズを推定できるだけでなく、目に見えない3Dのポーズを生成することもできる。 符号化の可変性により、2次元空間からのマッピングでは見えないカメラビューによく対応できる。 私たちの知る限りでは、V-VIPEは、この多様なアプリケーションを提供する唯一の表現です。 コードと詳細はhttps://v-vipe.github.io/.com/で確認できる。

Learning to represent three dimensional (3D) human pose given a two dimensional (2D) image of a person, is a challenging problem. In order to make the problem less ambiguous it has become common practice to estimate 3D pose in the camera coordinate space. However, this makes the task of comparing two 3D poses difficult. In this paper, we address this challenge by separating the problem of estimating 3D pose from 2D images into two steps. We use a variational autoencoder (VAE) to find an embedding that represents 3D poses in canonical coordinate space. We refer to this embedding as variational view-invariant pose embedding V-VIPE. Using V-VIPE we can encode 2D and 3D poses and use the embedding for downstream tasks, like retrieval and classification. We can estimate 3D poses from these embeddings using the decoder as well as generate unseen 3D poses. The variability of our encoding allows it to generalize well to unseen camera views when mapping from 2D space. To the best of our knowledge, V-VIPE is the only representation to offer this diversity of applications. Code and more information can be found at https://v-vipe.github.io/.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# FBI-LLM: 自己回帰蒸留によるスクラッチからの完全二元化LDMのスケールアップ

FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation ( http://arxiv.org/abs/2407.07093v1 )

ライセンス: Link先を確認
Liqun Ma, Mingjie Sun, Zhiqiang Shen, (参考訳) この研究は、大規模なバイナリ言語モデルをスクラッチ(BitNet b1.58のような部分バイナリや3次LLMではなく)からトレーニングして、トランスフォーマーベースのLLMで、その完全な精度(例えば、FP16やBF16)のパフォーマンスを満足する方法を初めて示す、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。 自己回帰蒸留(AD)損失を利用して、等価なモデル次元(130M, 1.3B, 7B)を維持し、トレーニングデータ量を通常のLLMプレトレーニングとして利用し、複雑度とタスク固有の有効性の観点から競争結果を提供する。 興味深いことに、トレーニング軌跡を解析することにより、二項化LDMをスクラッチからトレーニングするために、事前訓練した重量は必要ないことが判明した。 この研究は、新しい計算フレームワークを奨励し、完全な1ビットLLMに適した特別なハードウェアの設計を後押しする可能性がある。 すべてのモデル、コード、トレーニングデータセットを完全にアクセス可能で透明にし、さらなる研究をサポートする(コード: https://github.com/LiqunMa/FBI-LLM. Model: https://huggingface.co/LiqunMa/)。

This work presents a Fully BInarized Large Language Model (FBI-LLM), demonstrating for the first time how to train a large-scale binary language model from scratch (not the partial binary or ternary LLM like BitNet b1.58) to match the performance of its full-precision counterparts (e.g., FP16 or BF16) in transformer-based LLMs. It achieves this by employing an autoregressive distillation (AD) loss with maintaining equivalent model dimensions (130M, 1.3B, 7B) and training data volume as regular LLM pretraining, while delivering competitive results in terms of perplexity and task-specific effectiveness. Intriguingly, by analyzing the training trajectory, we find that the pretrained weight is not necessary for training binarized LLMs from scratch. This research encourages a new computational framework and may facilitate the future design of specialized hardware tailored for fully 1-bit LLMs. We make all models, code, and training dataset fully accessible and transparent to support further research (Code: https://github.com/LiqunMa/FBI-LLM. Model: https://huggingface.co/LiqunMa/).
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# AnyTaskTune: Task-Fine-Tuningによる高度なドメイン特化ソリューション

AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning ( http://arxiv.org/abs/2407.07094v1 )

ライセンス: Link先を確認
Jiaxi Cui, Wentao Zhang, Jing Tang, Xudong Tong, Zhenwei Zhang, Amie, Jing Wen, Rongsheng Wang, Pengfei Wu, (参考訳) 様々な分野におけるLarge Language Models-LLMの広汎な展開は、個人や小規模組織の曖昧な要求を無視していることが多い。 この研究は、さまざまなドメイン固有のタスクのモデルパフォーマンスを高めるために特別に開発された、新しい微調整手法である \textbf{AnyTaskTune} を紹介する。 この方法は、ドメイン内のターゲットサブタスクを特定し、定義するための巧妙なプロセスを含み、その後、微調整のための特別な拡張データセットを作成し、タスク固有のモデルパフォーマンスを最適化する。 本研究は,キーワード抽出や文予測などのタスクの法的領域だけでなく,金融,医療,法,心理学,消費者サービス,人的資源といった分野から派生した20以上のサブタスクを対象に,総合的な微調整実験を行った。 このアプローチを実証し、コミュニティの関与を促進するため、これらのバイリンガルタスクデータセットをオープンソース化します。 提案手法は,これらのタスクにおいて優れた性能を発揮するだけでなく,各領域で高い汎用性を持つモデルよりも優れていた。 私たちの仕事は、 \url{https://github.com/PandaVT/DataTager}で公開されています。

The pervasive deployment of Large Language Models-LLMs in various sectors often neglects the nuanced requirements of individuals and small organizations, who benefit more from models precisely tailored to their specific business contexts rather than those with broadly superior general capabilities. This work introduces \textbf{AnyTaskTune}, a novel fine-tuning methodology coined as \textbf{Task-Fine-Tune}, specifically developed to elevate model performance on a diverse array of domain-specific tasks. This method involves a meticulous process to identify and define targeted sub-tasks within a domain, followed by the creation of specialized enhancement datasets for fine-tuning, thereby optimizing task-specific model performance. We conducted comprehensive fine-tuning experiments not only in the legal domain for tasks such as keyword extraction and sentence prediction but across over twenty different sub-tasks derived from the domains of finance, healthcare, law, psychology, consumer services, and human resources. To substantiate our approach and facilitate community engagement, we will open-source these bilingual task datasets. Our findings demonstrate that models fine-tuned using the \textbf{Task-Fine-Tune} methodology not only achieve superior performance on these specific tasks but also significantly outperform models with higher general capabilities in their respective domains. Our work is publicly available at \url{https://github.com/PandaVT/DataTager}.
翻訳日:2024-07-10 16:57:59 公開日:2024-07-09
# 言語理解タスクにおけるAIのテストは、基礎となる意味に過敏なことを明らかにする

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning ( http://arxiv.org/abs/2302.12313v4 )

ライセンス: Link先を確認
Vittoria Dentella, Fritz Guenther, Elliot Murphy, Gary Marcus, Evelina Leivada, (参考訳) LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。 特殊課題における彼らの成功は、それらが構成的理解と推論に関連する人間のような言語能力を持っているという主張につながった。 しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。 新たなベンチマークで7つの最先端モデルを体系的に評価する。 モデルは一連の理解的な質問に答え、それぞれが2つの設定で複数回トリガーし、ワンワードまたはオープン長の応答を許可した。 各質問は、高周波言語構造を特徴とする短いテキストをターゲットにしている。 人間的なパフォーマンスを達成するためのベースラインを確立するために、同じプロンプトで400人の人間をテストした。 n=26,680個のデータポイントのデータセットに基づいて、LLMが偶然の精度で動作し、ウェーブラーが解答に大きく貢献することを発見した。 定量的には、試験されたモデルは人間よりも優れており、その答えは言語理解において明らかに非人間的な誤りを示す。 我々は、この証拠を、様々なタスクにおいて有用であるにもかかわらず、現在のAIモデルは、人間と一致する方法で言語を理解できないことを示唆していると解釈する。

Large Language Models (LLMs) are recruited in applications that span from clinical assistance and legal support to question answering and education. Their success in specialized tasks has led to the claim that they possess human-like linguistic capabilities related to compositional understanding and reasoning. Yet, reverse-engineering is bound by Moravec's Paradox, according to which easy skills are hard. We systematically assess 7 state-of-the-art models on a novel benchmark. Models answered a series of comprehension questions, each prompted multiple times in two settings, permitting one-word or open-length replies. Each question targets a short text featuring high-frequency linguistic constructions. To establish a baseline for achieving human-like performance, we tested 400 humans on the same prompts. Based on a dataset of n=26,680 datapoints, we discovered that LLMs perform at chance accuracy and waver considerably in their answers. Quantitatively, the tested models are outperformed by humans, and qualitatively their answers showcase distinctly non-human errors in language understanding. We interpret this evidence as suggesting that, despite their usefulness in various tasks, current AI models fall short of understanding language in a way that matches humans, and we argue that this may be due to their lack of a compositional operator for regulating grammatical and semantic information.
翻訳日:2024-07-10 11:32:40 公開日:2024-07-09
# 最大独立集合に対する量子ハミルトンアルゴリズム

Quantum Hamiltonian Algorithms for Maximum Independent Sets ( http://arxiv.org/abs/2310.14546v4 )

ライセンス: Link先を確認
Xianjue Zhao, Peiyun Ge, Hongye Yu, Li You, Frank Wilczek, Biao Wu, (参考訳) 我々は、最大独立集合問題に対処する2つの量子ハミルトンアルゴリズムを比較する: 1つは、エネルギー的に孤立した状態多様体の断熱的進化における創発的非アーベルゲージ行列に基づく。 それらが数学的に等価であることを示すが、一見すると全く異なるように見える。 数学的等価性にもかかわらず、それらの最も単純な物理的実装は異なる。 我々の数値シミュレーションは性能に有意な違いを示し、実験プロトコルの改善を示唆するが、興味深いことに、この等価性はより深い接続を明らかにする。 また、最近量子力学研究で顕著なPXPモデルは、すべての独立集合の中央値グラフ上の量子拡散を管理する非アーベルゲージ行列として現れることを示した。

We compare two quantum Hamiltonian algorithms that address the maximum independent set problem: one based on emergent non-abelian gauge matrix in adiabatic evolution of an energetically isolated manifold of states; and one based on designed application of single-qubit operations. We demonstrate that they are mathematically equivalent, though at first sight they appear quite different. Despite their mathematical equivalence, their most straightforward physical implementations are different. Our numerical simulations show significant differences in performance, and suggest improved experimental protocols.Intriguingly, this equivalence unveils a deeper connection. We also demonstrate that the PXP model, recently prominent in quantum dynamics research, arises as the non-abelian gauge matrix governing quantum diffusion over the median graph of all independent sets.
翻訳日:2024-07-10 11:32:40 公開日:2024-07-09
# ビームフォーミング最適化を用いた半有限QCQPの信頼性予測に基づく教師なし学習

Reliable Projection Based Unsupervised Learning for Semi-Definite QCQP with Application of Beamforming Optimization ( http://arxiv.org/abs/2407.03668v2 )

ライセンス: Link先を確認
Xiucheng Wang, Qi Qiu, Nan Cheng, (参考訳) 本稿では,半定値制約を持つ2次制約付き二次計画法(QCQP)の特殊クラスについて検討する。 伝統的に、そのような問題は非凸かつNハードであるため、ニューラルネットワーク(NN)はハイパフォーマンスな解を得るための有望な方法とみなされる。 しかし、固有の予測誤差のため、NNが出力する全てのソリューションが確実に実現可能であることを保証することは困難である。 既存の手法ではいくつかの単純な方法を提案するが、全ての解が確実に保証されるわけではないような制約違反の確率の低減にのみ焦点を絞っている。 この課題に対処するため,本論文では,NNが出力する全ての解が確実に実現可能な,効率的で信頼性の高いプロジェクションを提案する。 さらに、教師なし学習が用いられており、NNをラベルなしで効果的かつ効率的に訓練することができる。 理論的には、プロジェクション後のNNの解は実現可能であることが証明され、プロジェクション手法がNNの収束性能と速度を向上させることも証明できる。 提案手法を評価するために,QoS(Quality of Service)を含むビームフォーミングシナリオについて検討し,提案手法のシミュレーション結果から,低域と競合する高性能を実現することができることを示した。

In this paper, we investigate a special class of quadratic-constrained quadratic programming (QCQP) with semi-definite constraints. Traditionally, since such a problem is non-convex and N-hard, the neural network (NN) is regarded as a promising method to obtain a high-performing solution. However, due to the inherent prediction error, it is challenging to ensure all solution output by the NN is feasible. Although some existing methods propose some naive methods, they only focus on reducing the constraint violation probability, where not all solutions are feasibly guaranteed. To deal with the above challenge, in this paper a computing efficient and reliable projection is proposed, where all solution output by the NN are ensured to be feasible. Moreover, unsupervised learning is used, so the NN can be trained effectively and efficiently without labels. Theoretically, the solution of the NN after projection is proven to be feasible, and we also prove the projection method can enhance the convergence performance and speed of the NN. To evaluate our proposed method, the quality of service (QoS)-contained beamforming scenario is studied, where the simulation results show the proposed method can achieve high-performance which is competitive with the lower bound.
翻訳日:2024-07-10 11:32:40 公開日:2024-07-09
# POLAFFINI: 効率的な特徴ベースポリアフィン初期化による非線形画像登録の改善

POLAFFINI: Efficient feature-based polyaffine initialization for improved non-linear image registration ( http://arxiv.org/abs/2407.03922v2 )

ライセンス: Link先を確認
Antoine Legouhy, Ross Callaghan, Hojjat Azadbakht, Hui Zhang, (参考訳) 本稿では,非線形画像登録を初期化するための効率的な特徴ベース手法を提案する。 現在、非線形画像登録は強度に基づく類似度尺度に依存する手法によって支配されている。 従来の反復アルゴリズムと最近の一発ディープラーニング(DL)ベースの選択肢の両方において、初期変換の優れた見積が不可欠である。 この出発点を推定するための確立されたアプローチは、アフィン登録を実行することであるが、その類似性、グローバル性、および非曲げ性のため、これは不十分である可能性がある。 そこで本研究では,最近のDLベースセグメンテーション技術の進歩を生かした改良された初期化手法を提案する。 これらのセグメンテーションは、イテレーションフリーのクローズドフォーム式を使用して、局所的で解剖学的に基礎付けられた特徴ベースのアフィンマッチングを生成するために使用される。 推定された局所アフィン変換は、対数ユークリッドのポリアフィンフレームワークと融合され、全体密な微分同相変換となる。 提案手法は,アフィンに比較して,従来型およびDLベースの非線形登録アルゴリズムのアライメントが著しく向上していることを示す。 提案手法は、FSL FLIRTのような一般的なアフィン登録アルゴリズムよりも頑健で、はるかに高速である。

This paper presents an efficient feature-based approach to initialize non-linear image registration. Today, nonlinear image registration is dominated by methods relying on intensity-based similarity measures. A good estimate of the initial transformation is essential, both for traditional iterative algorithms and for recent one-shot deep learning (DL)-based alternatives. The established approach to estimate this starting point is to perform affine registration, but this may be insufficient due to its parsimonious, global, and non-bending nature. We propose an improved initialization method that takes advantage of recent advances in DL-based segmentation techniques able to instantly estimate fine-grained regional delineations with state-of-the-art accuracies. Those segmentations are used to produce local, anatomically grounded, feature-based affine matchings using iteration-free closed-form expressions. Estimated local affine transformations are then fused, with the log-Euclidean polyaffine framework, into an overall dense diffeomorphic transformation. We show that, compared to its affine counterpart, the proposed initialization leads to significantly better alignment for both traditional and DL-based non-linear registration algorithms. The proposed approach is also more robust and significantly faster than commonly used affine registration algorithms such as FSL FLIRT.
翻訳日:2024-07-10 11:32:40 公開日:2024-07-09
# FunAudioLLM:人間とLLMの自然な相互作用のための音声理解と生成基盤モデル

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs ( http://arxiv.org/abs/2407.04051v2 )

ライセンス: Link先を確認
Keyu An, Qian Chen, Chong Deng, Zhihao Du, Changfeng Gao, Zhifu Gao, Yue Gu, Ting He, Hangrui Hu, Kai Hu, Shengpeng Ji, Yabin Li, Zerui Li, Heng Lu, Xiang Lv, Bin Ma, Ziyang Ma, Chongjia Ni, Changhe Song, Jiaqi Shi, Xian Shi, Hao Wang, Wen Wang, Yuxuan Wang, Zhangyu Xiao, Zhijie Yan, Yexin Yang, Bin Zhang, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Siqi Zheng, (参考訳) 本報告では,人間と大規模言語モデル(LLM)との自然な音声対話を強化するモデルファミリーであるFunAudioLLMを紹介する。 中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoice-Smallは5つの言語で例外的に低レイテンシASRを提供し、SenseVoice-Largeは50以上の言語で高精度ASRをサポートし、CosyVoiceは多言語音声生成、ゼロショットインコンテキスト学習、クロスリンガル音声クローニング、命令フォロー機能に優れている。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。 これらのモデルをLLMと統合することにより、FunAudioLLMは音声音声翻訳、感情音声チャット、対話型ポッドキャスト、表現型オーディオブックナレーションといった応用を可能にし、音声インタラクション技術の境界を押し進める。 デモはhttps://fun-audio-llm.github.ioで、コードはhttps://github.com/FunAudioLLMでアクセスできる。

This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.
翻訳日:2024-07-10 11:32:40 公開日:2024-07-09
# Smoothing Input Marginal density による非破壊特性のモデル信頼度制御

Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density ( http://arxiv.org/abs/2407.04370v2 )

ライセンス: Link先を確認
Peiyu Yang, Naveed Akhtar, Mubarak Shah, Ajmal Mian, (参考訳) 信頼できる機械学習は、非ロバストな特徴に依存するモデルの厳密な規制を必要とする。 本稿では,モデル予測を入力に関連付けることによって,そのような特徴を記述・規制するフレームワークを提案する。 我々のアプローチでは、頑健な特徴属性は一定の一貫性を示すが、非ロバストな特徴属性は変動の影響を受けやすい。 この挙動により、モデル依存が非破壊的特徴と入力サンプルの辺縁密度の滑らかさとを関連付けることができる。 したがって、入力特徴である強靭性の辺密度 w.r.t の勾配を一意に正規化する。 また、最適化プロセスの潜在的な数値不安定性に対処するために、正規化の効率的な実装を考案する。 さらに, 境界密度の平滑化とは対照的に, 入力勾配正規化が条件あるいは結合密度を円滑化させ, 剛性に制限を与える可能性があることを解析的に明らかにした。 提案手法の有効性を検証し,特徴漏洩問題に対処し,突発的相関を緩和できることを示す。 さらに, この手法により, 画素値, 入力勾配, 密度の摂動に対して頑健性を示すことができることを示す。

Trustworthy machine learning necessitates meticulous regulation of model reliance on non-robust features. We propose a framework to delineate and regulate such features by attributing model predictions to the input. Within our approach, robust feature attributions exhibit a certain consistency, while non-robust feature attributions are susceptible to fluctuations. This behavior allows identification of correlation between model reliance on non-robust features and smoothness of marginal density of the input samples. Hence, we uniquely regularize the gradients of the marginal density w.r.t. the input features for robustness. We also devise an efficient implementation of our regularization to address the potential numerical instability of the underlying optimization process. Moreover, we analytically reveal that, as opposed to our marginal density smoothing, the prevalent input gradient regularization smoothens conditional or joint density of the input, which can cause limited robustness. Our experiments validate the effectiveness of the proposed method, providing clear evidence of its capability to address the feature leakage problem and mitigate spurious correlations. Extensive results further establish that our technique enables the model to exhibit robustness against perturbations in pixel values, input gradients, and density.
翻訳日:2024-07-10 11:32:40 公開日:2024-07-09
# einselection (複数形 einselections)

Decoherence without einselection ( http://arxiv.org/abs/2407.05074v2 )

ライセンス: Link先を確認
Xiao Zhang, (参考訳) 量子測定におけるデコヒーレンス(decoherence)は、一般に、環境によって引き起こされるスーパーセレクション(einselection)として知られる、システムの固有状態間のコヒーレンスを破壊する環境との相互作用として説明される。 本研究は, 装置の非平衡力学を無視して, 電子選択とそれに伴う分散が実際に人工物であることを実証する。 我々は、量子重力代数の最近の発展に触発された確率行列積分(SMI)と呼ばれる、演算子ドレッシングの新しい定式化を提案する。 このアプローチは自然にPW(Page-Wootters)式から生じ、相互作用する非平衡過程としてデコヒーレンスを記述する。 これはヒルベルト空間の減少と、ボルンの法則と同様に本質的な非単位過程の出現につながる。 これらの結果は、固有選択とポインタ基底の仮定に頼らずに達成される。

Decoherence in a quantum measurement is typically explained as an interaction with the environment that destroys coherence between the system's eigenstates, a phenomenon known as environment-induced superselection (einselection). In this work, we demonstrate that einselection and the associated envariance are actually artifacts resulting from neglecting the non-equilibrium dynamics of the apparatus. We propose a new formalism of operator dressing, which we call the stochastic matrix integral (SMI), inspired by recent developments in quantum gravity algebras. This approach naturally arises from a modified Page-Wootters (PW) formula and describes decoherence as an interacting non-equilibrium process. It leads to the reduction of the Hilbert space and the emergence of an intrinsic non-unitary process as well as Born's rule. These outcomes are achieved without relying on the assumptions of einselection and pointer basis.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# CBM:マスキングによるカリキュラム

CBM: Curriculum by Masking ( http://arxiv.org/abs/2407.05193v2 )

ライセンス: Link先を確認
Andrei Jarca, Florinel-Alin Croitoru, Radu Tudor Ionescu, (参考訳) 本稿では,従来の学習体系と従来のカリキュラム学習(CL)手法に比較して,大幅な精度向上を実現し,パッチ(Token)マスキングによる訓練スケジュールを効果的に作成する,最先端のカリキュラム学習戦略であるCBMを提案する。 CBMは勾配のマグニチュードを利用して、新しいマスキングアルゴリズムと新しいマスキングブロックによって、正常な画像領域のマスキングを優先順位付けする。 提案手法は, パッチマスキング比によってサンプルの難易度を制御し, 学習が進むにつれて, より厳密なサンプルを徐々に導入し, 有効なカリキュラムを生成する。 CBMは、パッチの数とカリキュラムスケジュールの2つの簡単に設定可能なパラメータで動作し、オブジェクト認識と検出のための汎用的なカリキュラム学習アプローチとなっている。 畳み込みネットワークからビジョントランスフォーマーまで,5つのベンチマークデータセット(CIFAR-10, CIFAR-100, ImageNet, Food-101, PASCAL VOC)を用いて,CBMと従来のカリキュラムベースのトレーニングシステムとの比較実験を行った。 その結果,最先端のカリキュラム学習体制と比較して,戦略の優位性を明らかにした。 また,CBMが先行研究を精度面でかなり上回り,伝達学習の文脈の改善も観察した。 当社のコードは、https://github.com/CroitoruAlin/CBMで無償の非商用利用のためにリリースしています。

We propose Curriculum by Masking (CBM), a novel state-of-the-art curriculum learning strategy that effectively creates an easy-to-hard training schedule via patch (token) masking, offering significant accuracy improvements over the conventional training regime and previous curriculum learning (CL) methods. CBM leverages gradient magnitudes to prioritize the masking of salient image regions via a novel masking algorithm and a novel masking block. Our approach enables controlling sample difficulty via the patch masking ratio, generating an effective easy-to-hard curriculum by gradually introducing harder samples as training progresses. CBM operates with two easily configurable parameters, i.e. the number of patches and the curriculum schedule, making it a versatile curriculum learning approach for object recognition and detection. We conduct experiments with various neural architectures, ranging from convolutional networks to vision transformers, on five benchmark data sets (CIFAR-10, CIFAR-100, ImageNet, Food-101 and PASCAL VOC), to compare CBM with conventional as well as curriculum-based training regimes. Our results reveal the superiority of our strategy compared with the state-of-the-art curriculum learning regimes. We also observe improvements in transfer learning contexts, where CBM surpasses previous work by considerable margins in terms of accuracy. We release our code for free non-commercial use at https://github.com/CroitoruAlin/CBM.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# P2P: パート・ツー・パートのモーションキューがLiDARポイントクラウドの強力な追跡フレームワークをガイド

P2P: Part-to-Part Motion Cues Guide a Strong Tracking Framework for LiDAR Point Clouds ( http://arxiv.org/abs/2407.05238v2 )

ライセンス: Link先を確認
Jiahao Nie, Fei Xie, Sifan Zhou, Xueyi Zhou, Dong-Kyu Chae, Zhiwei He, (参考訳) 外観マッチングに基づく3Dシングルオブジェクト追跡(SOT)手法は,不完全でテクスチャレスで意味的に不足したLiDAR点雲によって生じる外観情報の不足に長年悩まされてきた。 モーションパラダイムは、トラッキングのための外観マッチングの代わりにモーションキューを利用するが、複雑なマルチステージ処理とセグメンテーションモジュールを発生させる。 本稿では,まず,運動パラダイムの詳細な探索を行い,(\textbf{i}) 連続するフレーム間の点雲から目標の相対運動を直接推定することが可能であること,(\textbf{ii}) 連続する点雲間の詳細な情報比較が目標運動モデリングを容易にすることを証明した。 そこで我々は,連続点雲に対するパート・ツー・パート・モーション・モデリングを行い,新しい追跡フレームワーク「textbf{P2P}」を提案する。 このフレームワークは、各部位情報を連続点雲間で融合し、詳細な情報変化を効果的に探索し、精度の高い目標関連動作キューをモデル化する。 本稿では,P2P-pointとP2P-voxelモデルについて述べる。 ベルとホイッスルなしでは、P2P-voxelは、KITTI、NuScenes、Waymo Open Datasetでそれぞれ新しい最先端のパフォーマンス(\sim$\textbf{89\%}、 \textbf{72\%}、 \textbf{63\%})を設定する。 さらに、P2Pポイントは、KITTIとNuScenesで、前のモーショントラッカーM$^2$Trackと \textbf{3.3\%} と \textbf{6.7\%} で、RTX3090 GPU上で、かなり高速で実行される。 ソースコードと事前訓練されたモデルは、 \url{https://github.com/haooozi/P2P}で入手できる。

3D single object tracking (SOT) methods based on appearance matching has long suffered from insufficient appearance information incurred by incomplete, textureless and semantically deficient LiDAR point clouds. While motion paradigm exploits motion cues instead of appearance matching for tracking, it incurs complex multi-stage processing and segmentation module. In this paper, we first provide in-depth explorations on motion paradigm, which proves that (\textbf{i}) it is feasible to directly infer target relative motion from point clouds across consecutive frames; (\textbf{ii}) fine-grained information comparison between consecutive point clouds facilitates target motion modeling. We thereby propose to perform part-to-part motion modeling for consecutive point clouds and introduce a novel tracking framework, termed \textbf{P2P}. The novel framework fuses each corresponding part information between consecutive point clouds, effectively exploring detailed information changes and thus modeling accurate target-related motion cues. Following this framework, we present P2P-point and P2P-voxel models, incorporating implicit and explicit part-to-part motion modeling by point- and voxel-based representation, respectively. Without bells and whistles, P2P-voxel sets a new state-of-the-art performance ($\sim$\textbf{89\%}, \textbf{72\%} and \textbf{63\%} precision on KITTI, NuScenes and Waymo Open Dataset, respectively). Moreover, under the same point-based representation, P2P-point outperforms the previous motion tracker M$^2$Track by \textbf{3.3\%} and \textbf{6.7\%} on the KITTI and NuScenes, while running at a considerably high speed of \textbf{107 Fps} on a single RTX3090 GPU. The source code and pre-trained models are available at \url{https://github.com/haooozi/P2P}.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# CosyVoice: 教師付きセマンティックトークンに基づくスケーラブルな多言語ゼロショットテキスト音声合成器

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens ( http://arxiv.org/abs/2407.05407v2 )

ライセンス: Link先を確認
Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhifu Gao, Zhijie Yan, (参考訳) 近年,大規模言語モデル (LLM) に基づくテキスト音声合成 (TTS) が主流となる傾向が見られた。 このパラダイムでは、音声信号はトークンシーケンスに識別され、LLMによってテキストをプロンプトとしてモデル化され、トークンベースのボコーダによって波形に再構成される。 明らかに、LLMベースのTSモデルでは、音声トークンが重要な役割を果たす。 現在の音声トークンは教師なしの方法で学習され、明示的な意味情報やテキストへのアライメントが欠如している。 本稿では,ベクトル量子化をエンコーダに挿入することにより,多言語音声認識モデルから導出される,教師付き意味トークンを用いた音声表現を提案する。 トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。 実験結果から,教師付き意味トークンは,ゼロショット音声クローニングにおいて,コンテンツ一貫性と話者類似性の観点から,既存の教師なしトークンよりも有意に優れていた。 さらに,大規模データの利用により合成性能が向上し,CosyVoiceのスケーラビリティが向上することが判明した。 我々の知る限りでは、これはTSモデルに教師付き音声トークンを組み込む最初の試みである。

Recent years have witnessed a trend that large language model (LLM) based text-to-speech (TTS) emerges into the mainstream due to their high naturalness and zero-shot capacity. In this paradigm, speech signals are discretized into token sequences, which are modeled by an LLM with text as prompts and reconstructed by a token-based vocoder to waveforms. Obviously, speech tokens play a critical role in LLM-based TTS models. Current speech tokens are learned in an unsupervised manner, which lacks explicit semantic information and alignment to the text. In this paper, we propose to represent speech with supervised semantic tokens, which are derived from a multilingual speech recognition model by inserting vector quantization into the encoder. Based on the tokens, we further propose a scalable zero-shot TTS synthesizer, CosyVoice, which consists of an LLM for text-to-token generation and a conditional flow matching model for token-to-speech synthesis. Experimental results show that supervised semantic tokens significantly outperform existing unsupervised tokens in terms of content consistency and speaker similarity for zero-shot voice cloning. Moreover, we find that utilizing large-scale data further improves the synthesis performance, indicating the scalable capacity of CosyVoice. To the best of our knowledge, this is the first attempt to involve supervised speech tokens into TTS models.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# 予測メッセージング: 通信遅延のあるネットワークでの学習

Prospective Messaging: Learning in Networks with Communication Delays ( http://arxiv.org/abs/2407.05494v2 )

ライセンス: Link先を確認
Ryan Fayyazi, Christian Weilbach, Frank Wood, (参考訳) ニューロン間通信遅延は、生物学的神経回路やニューロモルフィックハードウェアのような物理的に実現されたニューラルネットワークにおいてユビキタスである。 これらの遅延は、トレーニングや推論中にネットワークダイナミクスに顕著で、しばしば破壊的な結果をもたらす。 したがって、生物学的ニューラルネットワークの計算モデルと大規模ニューロモルフィックシステムの両方において、通信遅延を考慮することが不可欠である。 それでも、いずれのドメインにおいても、通信遅延は包括的に対処されていない。 本稿では,遅延により,過パラメータ化が著しいにもかかわらず,Latent Equilibrium(LE)ネットワークと呼ばれる最先端の連続時間ニューラルネットワークが単純なタスクを学習することを防ぐことを最初に示した。 そこで我々は,現在利用可能な信号に基づいて通信遅延を予測し,通信遅延を補償することを提案する。 この概念的に直感的なアプローチは、予測メッセージング(PM)と呼ばれ、ニューロンローカル情報のみを使用し、メモリと計算要求の観点から柔軟である。 遅延LEネットワークにPMを組み込むことは反応遅延を防止し、フーリエ合成および自己回帰ビデオ予測タスクの学習を成功させることを示す。

Inter-neuron communication delays are ubiquitous in physically realized neural networks such as biological neural circuits and neuromorphic hardware. These delays have significant and often disruptive consequences on network dynamics during training and inference. It is therefore essential that communication delays be accounted for, both in computational models of biological neural networks and in large-scale neuromorphic systems. Nonetheless, communication delays have yet to be comprehensively addressed in either domain. In this paper, we first show that delays prevent state-of-the-art continuous-time neural networks called Latent Equilibrium (LE) networks from learning even simple tasks despite significant overparameterization. We then propose to compensate for communication delays by predicting future signals based on currently available ones. This conceptually straightforward approach, which we call prospective messaging (PM), uses only neuron-local information, and is flexible in terms of memory and computation requirements. We demonstrate that incorporating PM into delayed LE networks prevents reaction lags, and facilitates successful learning on Fourier synthesis and autoregressive video prediction tasks.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# HPFF: パッチ機能融合による階層的局所教師付き学習

HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion ( http://arxiv.org/abs/2407.05638v2 )

ライセンス: Link先を確認
Junhao Su, Chenghao He, Feiyu Zhu, Xiaojie Xu, Dongzhi Guan, Chenyang Si, (参考訳) 従来のディープラーニングは、トレーニングのエンドツーエンドのバックプロパゲーションに依存しているが、高いメモリ消費や生物学的ニューラルネットワークとの整合性といった欠点に悩まされている。 最近の進歩は、ネットワークを独立した勾配を持つモジュールに分割し、それらをローカルに訓練するローカル教師あり学習を導入している。 しかし、このアプローチは、これらのモジュール間の相互作用が限られているため、パフォーマンスの遅れにつながる可能性があり、補助ネットワークの設計は、一定の量のGPUメモリを占有する。 これらの制約を克服するため,我々はHPFFと呼ばれる新しいモデルを提案し,補助ネットワーク上で階層的な局所教師付き学習とパッチレベルの特徴計算を行う。 HiLo(Hierarchical Locally Supervised Learning)は、ネットワークがそれぞれのローカルパスに沿って異なる粒度レベルで特徴を学習できるようにする。 具体的には、ネットワークは2段階のローカルモジュール(独立ローカルモジュールとカスケードローカルモジュール)に分けられる。 カスケード局所加群は、隣接する2つの独立な局所加群を結合し、モジュール自体に更新と、隣接する加群間の情報交換の両方を組み込む。 PFF(Patch Feature Fusion)は、補助ネットワークの入力機能を計算用のパッチに分割することで、GPUメモリの使用を減らす。 これらのパッチレベルの機能を平均化することにより、複数のパッチにまたがるパターンにより集中するネットワークの能力を高めることができる。 さらに,本手法は強力な一般化能力を示し,既存の手法とシームレスに統合することができる。 我々は, CIFAR-10, STL-10, SVHN, ImageNetのデータセットに対して実験を行い, 提案したHPFFが従来より大幅に優れており, 常に異なるデータセットにおける最先端性能を実現していることを示す。 私たちのコードは、https://github.com/Zeudfish/HPFF.comで利用可能です。

Traditional deep learning relies on end-to-end backpropagation for training, but it suffers from drawbacks such as high memory consumption and not aligning with biological neural networks. Recent advancements have introduced locally supervised learning, which divides networks into modules with isolated gradients and trains them locally. However, this approach can lead to performance lag due to limited interaction between these modules, and the design of auxiliary networks occupies a certain amount of GPU memory. To overcome these limitations, we propose a novel model called HPFF that performs hierarchical locally supervised learning and patch-level feature computation on the auxiliary networks. Hierarchical Locally Supervised Learning (HiLo) enables the network to learn features at different granularity levels along their respective local paths. Specifically, the network is divided into two-level local modules: independent local modules and cascade local modules. The cascade local modules combine two adjacent independent local modules, incorporating both updates within the modules themselves and information exchange between adjacent modules. Patch Feature Fusion (PFF) reduces GPU memory usage by splitting the input features of the auxiliary networks into patches for computation. By averaging these patch-level features, it enhances the network's ability to focus more on those patterns that are prevalent across multiple patches. Furthermore, our method exhibits strong generalization capabilities and can be seamlessly integrated with existing techniques. We conduct experiments on CIFAR-10, STL-10, SVHN, and ImageNet datasets, and the results demonstrate that our proposed HPFF significantly outperforms previous approaches, consistently achieving state-of-the-art performance across different datasets. Our code is available at: https://github.com/Zeudfish/HPFF.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# 逆レンダリングを用いたファイングラインド多視点ハンドコンストラクション

Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering ( http://arxiv.org/abs/2407.05680v2 )

ライセンス: Link先を確認
Qijun Gan, Wentong Li, Jinwei Ren, Jianke Zhu, (参考訳) 複雑なテクスチャで高忠実度ハンドモデルを再構築することは、人間と物体の相互作用を高め、現実世界の応用を前進させる上で重要な役割を担っている。 テクスチャ生成や画像レンダリングに優れた最先端の手法にもかかわらず、幾何学的詳細を正確に捉えることの難しさに直面することが多い。 学習ベースのアプローチは、通常、より堅牢で高速な推論を提供する。 これらの問題に対処するために,逆レンダリングを利用して手ポーズを復元し,詳細を複雑化する,細粒度なマルチビューハンドメッシュ再構築手法を提案する。 まず,マルチビュー画像からグラフ畳み込みネットワーク(GCN)に基づくパラメトリックハンドメッシュモデルを予測する。 さらに、メッシュトポロジの保存が可能なハンドメッシュとテクスチャの両方を洗練するための、新しいハンドアルベドとメッシュ(HAM)最適化モジュールを導入する。 さらに,提案手法は,事前学習したレンダリングネットワークを頂点特徴と融合させることで,写真リアルな画像とメッシュ形状を同時に生成し,メッシュ形状を最適化する。 我々は、InterHand2.6M、DeepHandMesh、および私たち自身が収集したデータセットに関する総合的な実験を行い、その有望な結果は、提案手法が再構築精度とレンダリング品質の両方において最先端の手法より優れていることを示している。 コードとデータセットはhttps://github.com/agnJason/FMHR.comで公開されている。

Reconstructing high-fidelity hand models with intricate textures plays a crucial role in enhancing human-object interaction and advancing real-world applications. Despite the state-of-the-art methods excelling in texture generation and image rendering, they often face challenges in accurately capturing geometric details. Learning-based approaches usually offer better robustness and faster inference, which tend to produce smoother results and require substantial amounts of training data. To address these issues, we present a novel fine-grained multi-view hand mesh reconstruction method that leverages inverse rendering to restore hand poses and intricate details. Firstly, our approach predicts a parametric hand mesh model through Graph Convolutional Networks (GCN) based method from multi-view images. We further introduce a novel Hand Albedo and Mesh (HAM) optimization module to refine both the hand mesh and textures, which is capable of preserving the mesh topology. In addition, we suggest an effective mesh-based neural rendering scheme to simultaneously generate photo-realistic image and optimize mesh geometry by fusing the pre-trained rendering network with vertex features. We conduct the comprehensive experiments on InterHand2.6M, DeepHandMesh and dataset collected by ourself, whose promising results show that our proposed approach outperforms the state-of-the-art methods on both reconstruction accuracy and rendering quality. Code and dataset are publicly available at https://github.com/agnJason/FMHR.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# バイオマーカーとしての歩行パターン:スコリオーシスの分類のためのビデオベースアプローチ

Gait Patterns as Biomarkers: A Video-Based Approach for Classifying Scoliosis ( http://arxiv.org/abs/2407.05726v2 )

ライセンス: Link先を確認
Zirui Zhou, Junhao Liang, Zizhao Peng, Chao Fan, Fengwei An, Shiqi Yu, (参考訳) スコリオーシスは、特に青年期において、早期発見が効果的な治療に不可欠である重要な診断上の課題となる。 身体検査や放射線検査に依存する従来の診断・追跡法は、臨床専門知識の必要性と放射線被曝のリスクにより限界に直面し、早期検診に広く使用されることを制限する。 そこで本稿では,歩行分析を用いた新しいビデオベース非侵襲的スコリオーシス分類法を提案する。 この研究は、ビデオベースのスコリオーシス分類に適した最初の大規模データセットであるScooliosis1Kを提示する。 このデータセットを活用して、実世界のデータの複雑さを扱う上での課題に直面する初期モデルであるScoNetを開発した。 この結果、マルチタスク学習を取り入れた拡張モデルであるScoNet-MTが開発された。 以上の結果から,歩行は強皮症に対する非侵襲的バイオマーカーであり,深層学習によるスクリーニングの実践に革命をもたらし,非侵襲的診断手法の先例となる可能性が示唆された。 データセットとコードはhttps://zhouzi180.github.io/Scoliosis1K/で公開されている。

Scoliosis poses significant diagnostic challenges, particularly in adolescents, where early detection is crucial for effective treatment. Traditional diagnostic and follow-up methods, which rely on physical examinations and radiography, face limitations due to the need for clinical expertise and the risk of radiation exposure, thus restricting their use for widespread early screening. In response, we introduce a novel, video-based, non-invasive method for scoliosis classification using gait analysis, which circumvents these limitations. This study presents Scoliosis1K, the first large-scale dataset tailored for video-based scoliosis classification, encompassing over one thousand adolescents. Leveraging this dataset, we developed ScoNet, an initial model that encountered challenges in dealing with the complexities of real-world data. This led to the creation of ScoNet-MT, an enhanced model incorporating multi-task learning, which exhibits promising diagnostic accuracy for application purposes. Our findings demonstrate that gait can be a non-invasive biomarker for scoliosis, revolutionizing screening practices with deep learning and setting a precedent for non-invasive diagnostic methodologies. The dataset and code are publicly available at https://zhouzi180.github.io/Scoliosis1K/.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# 多言語大言語モデルはステレオタイプバイアスを軽減するか?

Do Multilingual Large Language Models Mitigate Stereotype Bias? ( http://arxiv.org/abs/2407.05740v2 )

ライセンス: Link先を確認
Shangrui Nie, Michael Fromm, Charles Welch, Rebekka Görge, Akbar Karimi, Joan Plepi, Nazia Afsan Mowmita, Nicolas Flores-Herr, Mehdi Ali, Lucie Flek, (参考訳) 予備的な知見から,多言語LLMは単言語よりもバイアスが小さいことが示唆されるが,多言語トレーニングがバイアス軽減に与える影響の包括的理解は欠如している。 本研究は,5つの単言語モデル(英語,ドイツ語,フランス語,イタリア語,スペイン語)と1つの多言語モデルという,同一サイズの6つのLLM(2.6Bパラメータ)とアーキテクチャを体系的にトレーニングすることにより,このギャップを解消する。 頑健な評価を確保するため、標準バイアスベンチマークは自動的に5つの対象言語に翻訳され、人間のアノテータによる翻訳品質とバイアス保存の両面で検証された。 我々の結果は、多言語学習がバイアスを効果的に軽減することを一貫して示している。 さらに, 学習データ, モデルアーキテクチャ, サイズが同じ単言語モデルと比較して, 多言語モデルの方がバイアスの少ないだけでなく, 予測精度も優れていることが観察された。

While preliminary findings indicate that multilingual LLMs exhibit reduced bias compared to monolingual ones, a comprehensive understanding of the effect of multilingual training on bias mitigation, is lacking. This study addresses this gap by systematically training six LLMs of identical size (2.6B parameters) and architecture: five monolingual models (English, German, French, Italian, and Spanish) and one multilingual model trained on an equal distribution of data across these languages, all using publicly available data. To ensure robust evaluation, standard bias benchmarks were automatically translated into the five target languages and verified for both translation quality and bias preservation by human annotators. Our results consistently demonstrate that multilingual training effectively mitigates bias. Moreover, we observe that multilingual models achieve not only lower bias but also superior prediction accuracy when compared to monolingual models with the same amount of training data, model architecture, and size.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# HyCIR: 合成ラベルを用いたゼロショット合成画像検索

HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels ( http://arxiv.org/abs/2407.05795v2 )

ライセンス: Link先を確認
Yingying Jiang, Hanchao Jia, Xiaobing Wang, Peng Hao, (参考訳) Composed Image Retrieval (CIR)は、テキストによるクエリ画像に基づいて画像を取得することを目的としている。 現在のZero-Shot CIR(ZS-CIR)メソッドは、高価な三重項ラベルのトレーニングデータセットを使わずにCIRタスクを解決しようとする。 しかし、ZS-CIRとトリプルト制御CIRの差は依然として大きい。 本研究では,合成ラベルを用いてZS-CIRの性能を向上させるハイブリッドCIR(HyCIR)を提案する。 CIR(SynCir)のための新しいラベル合成パイプラインが提案されている。 まず、視覚的類似性に基づいて画像対を抽出する。 次に、視覚言語モデルとLLMに基づいて、画像ペア毎にクエリテキストを生成する。 第三に、データは意味的類似性に基づいて言語空間でさらにフィルタリングされる。 ZS-CIR性能を向上させるために,ZS-CIR監視と合成CIRトレーレットの併用によるハイブリッドトレーニング戦略を提案する。 2種類のコントラスト学習が採用されている。 ひとつは、大規模なラベルなし画像データセットを使用して、優れた一般化を伴う画像からテキストへのマッピングを学習することである。 もうひとつは、合成CIRトリプルを使用して、CIRタスクのより良いマッピングを学習することだ。 提案手法は,一般的なCIRベンチマークであるCIRRとCIRCOのSOTAゼロショット性能を実現する。

Composed Image Retrieval (CIR) aims to retrieve images based on a query image with text. Current Zero-Shot CIR (ZS-CIR) methods try to solve CIR tasks without using expensive triplet-labeled training datasets. However, the gap between ZS-CIR and triplet-supervised CIR is still large. In this work, we propose Hybrid CIR (HyCIR), which uses synthetic labels to boost the performance of ZS-CIR. A new label Synthesis pipeline for CIR (SynCir) is proposed, in which only unlabeled images are required. First, image pairs are extracted based on visual similarity. Second, query text is generated for each image pair based on vision-language model and LLM. Third, the data is further filtered in language space based on semantic similarity. To improve ZS-CIR performance, we propose a hybrid training strategy to work with both ZS-CIR supervision and synthetic CIR triplets. Two kinds of contrastive learning are adopted. One is to use large-scale unlabeled image dataset to learn an image-to-text mapping with good generalization. The other is to use synthetic CIR triplets to learn a better mapping for CIR tasks. Our approach achieves SOTA zero-shot performance on the common CIR benchmarks: CIRR and CIRCO.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# 6GSoft:エッジ・ツー・クラウド・コンティニュムのためのソフトウェア

6GSoft: Software for Edge-to-Cloud Continuum ( http://arxiv.org/abs/2407.05963v2 )

ライセンス: Link先を確認
Muhammad Azeem Akbar, Matteo Esposito, Sami Hyrynsalmi, Karthikeyan Dinesh Kumar, Valentina Lenarduzzi, Xiaozhou Li, Ali Mehraj, Tommi Mikkonen, Sergio Moreschini, Niko Mäkitalo, Markku Oivo, Anna-Sofia Paavonen, Risha Parveen, Kari Smolander, Ruoyu Su, Kari Systä, Davide Taibi, Nan Yang, Zheying Zhang, Muhammad Zohaib, (参考訳) 6Gの時代、ソフトウェアの開発と管理には最先端のソフトウェアエンジニアリング(SE)の理論とプラクティスが必要です。 我々のプロジェクトは、エッジ環境に特化した持続可能な手法とエネルギー効率の高いオーケストレーションモデルの開発を推進し、現代のエッジ-クラウド連続コンピューティングのためのAIによって駆動されるアーキテクチャサポートを強化することを目的としている。 このイニシアチブは、エッジネットワークのパフォーマンスとスケーラビリティを最適化するために、洗練されたエッジオーケストレーションと堅牢なソフトウェアアーキテクチャに焦点を当て、フィンランドを6Gランドスケープの最前線に位置づけようとしている。 フィンランドの主要な大学や企業と共同で、このプロジェクトは、エッジオーケストレーションとソフトウェアアーキテクチャにおける重要な課題に対処するために、深い産業と学術のコラボレーションと国際的な専門知識を強調し、ソフトウェア生産性と市場への影響を著しく向上させることを目指している。

In the era of 6G, developing and managing software requires cutting-edge software engineering (SE) theories and practices tailored for such complexity across a vast number of connected edge devices. Our project aims to lead the development of sustainable methods and energy-efficient orchestration models specifically for edge environments, enhancing architectural support driven by AI for contemporary edge-to-cloud continuum computing. This initiative seeks to position Finland at the forefront of the 6G landscape, focusing on sophisticated edge orchestration and robust software architectures to optimize the performance and scalability of edge networks. Collaborating with leading Finnish universities and companies, the project emphasizes deep industry-academia collaboration and international expertise to address critical challenges in edge orchestration and software architecture, aiming to drive significant advancements in software productivity and market impact.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# 信念に対する知覚:大規模言語モデルにおける心の理論の事前推論を探る

Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models ( http://arxiv.org/abs/2407.06004v2 )

ライセンス: Link先を確認
Chani Jung, Dongkwan Kim, Jiho Jin, Jiseon Kim, Yeon Seonwoo, Yejin Choi, Alice Oh, Hyunwoo Kim, (参考訳) 人間は心の理論(ToM)を自然に開発するが、他者の精神状態や信念を理解する能力は、単純なToMベンチマークでは性能が劣る。 我々は、LLMにおける人間のToM前駆体(知覚推論と知覚信頼推論)を評価することで、LLMのToM能力に対する理解を深めることができると仮定する。 本稿では2つのデータセット,Percept-ToMi と Percept-FANToM を導入し,ToMi と FANToM に対する文字の認識をアノテートすることで,LLM におけるこれらのToM の前駆的推論を評価する。 8種類のLLMを評価した結果, モデルが知覚的推論において良好に機能し, 知覚的信頼的推論(例えば, 抑制的制御の欠如)の能力に限界があることが判明した。 これらの結果に基づいて,LLMの強い知覚推論能力を活用しつつ,限られた知覚と信頼の推論を補完する新しいToM手法であるPercepToMを提案する。 実験結果から,PercepToM は LLM の性能を著しく向上させることが明らかとなった。

While humans naturally develop theory of mind (ToM), the capability to understand other people's mental states and beliefs, state-of-the-art large language models (LLMs) underperform on simple ToM benchmarks. We posit that we can extend our understanding of LLMs' ToM abilities by evaluating key human ToM precursors -- perception inference and perception-to-belief inference -- in LLMs. We introduce two datasets, Percept-ToMi and Percept-FANToM, to evaluate these precursory inferences for ToM in LLMs by annotating characters' perceptions on ToMi and FANToM, respectively. Our evaluation of eight state-of-the-art LLMs reveals that the models generally perform well in perception inference while exhibiting limited capability in perception-to-belief inference (e.g., lack of inhibitory control). Based on these results, we present PercepToM, a novel ToM method leveraging LLMs' strong perception inference capability while supplementing their limited perception-to-belief inference. Experimental results demonstrate that PercepToM significantly enhances LLM's performance, especially in false belief scenarios.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# OpenCIL: 授業増分学習におけるアウト・オブ・ディストリビューション検出のベンチマーク

OpenCIL: Benchmarking Out-of-Distribution Detection in Class-Incremental Learning ( http://arxiv.org/abs/2407.06045v2 )

ライセンス: Link先を確認
Wenjun Miao, Guansong Pang, Trong-Tung Nguyen, Ruohang Fang, Jin Zheng, Xiao Bai, (参考訳) クラスインクリメンタルラーニング(CIL)は、新しいクラスを段階的に適応できるだけでなく、古いクラスの学習知識も維持できるモデルを学ぶことを目的としている。 CILにおけるアウト・オブ・ディストリビューション(OOD)検出は、学習クラスの異なる分布から引き出された未知のサンプルを拒否しながら、この漸進的な学習能力を維持することである。 この機能は、オープンな世界でCILモデルをデプロイする上で、非常に重要です。 しかし、それぞれのCILおよびOOD検出の顕著な進歩にもかかわらず、OODサンプルの検出における高度なCILモデルの能力を評価するための体系的かつ大規模なベンチマークが欠如している。 このギャップを埋めるために、本稿では、このようなベンチマークを$\textbf{OpenCIL}$と名付けるために、包括的な実証的研究を設計する。 そこで本研究では,15種類のOOD検出方式で4種類のCILモデルを実現するための2つの基本フレームワークを提案し,その結果,CILにおけるOOD検出のベースラインモデルが60になることを示した。 実験的な評価は、一般的な6つのOODデータセットを持つ2つのCILデータセットで実施される。 包括的評価を通じて得られた重要な観察の1つは、CILモデルがオープン環境に曝露された際に、OODサンプルや新たに追加されたクラスに対して深刻なバイアスを受けることができることである。 そこで本研究では,CILにおけるOOD検出のための新たなベースライン,すなわち双方向エネルギー正規化(\textbf{BER}$)を提案する。 その優れたパフォーマンスは、我々の実験で正当化されている。 すべてのコードとデータセットはhttps://github.com/mala-lab/OpenCILでオープンソース化されている。

Class incremental learning (CIL) aims to learn a model that can not only incrementally accommodate new classes, but also maintain the learned knowledge of old classes. Out-of-distribution (OOD) detection in CIL is to retain this incremental learning ability, while being able to reject unknown samples that are drawn from different distributions of the learned classes. This capability is crucial to the safety of deploying CIL models in open worlds. However, despite remarkable advancements in the respective CIL and OOD detection, there lacks a systematic and large-scale benchmark to assess the capability of advanced CIL models in detecting OOD samples. To fill this gap, in this study we design a comprehensive empirical study to establish such a benchmark, named $\textbf{OpenCIL}$. To this end, we propose two principled frameworks for enabling four representative CIL models with 15 diverse OOD detection methods, resulting in 60 baseline models for OOD detection in CIL. The empirical evaluation is performed on two popular CIL datasets with six commonly-used OOD datasets. One key observation we find through our comprehensive evaluation is that the CIL models can be severely biased towards the OOD samples and newly added classes when they are exposed to open environments. Motivated by this, we further propose a new baseline for OOD detection in CIL, namely Bi-directional Energy Regularization ($\textbf{BER}$), which is specially designed to mitigate these two biases in different CIL models by having energy regularization on both old and new classes. Its superior performance is justified in our experiments. All codes and datasets are open-source at https://github.com/mala-lab/OpenCIL.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# LaFAM:ラベルなしアクティベーションマップによる教師なし特徴属性

LaFAM: Unsupervised Feature Attribution with Label-free Activation Maps ( http://arxiv.org/abs/2407.06059v2 )

ライセンス: Link先を確認
Aray Karjauv, Sahin Albayrak, (参考訳) 畳み込みニューラルネットワーク(CNN)は、階層構造を学習し、オブジェクトの検出器を自然に開発し、より深い層の中で意味的な概念を概念化する能力で知られている。 アクティベーションマップ(AM)は、多くの説明可能なAI(XAI)手法に欠かせないこれらのサリエンシ領域を明らかにする。 しかし、CNNにおける特徴属性に対する生のAMの直接的利用は、文献では未発見のままである。 本研究は,ラベルに依存しない特徴属性に生の AM を利用する合理化アプローチである Label-free Activation Map (LaFAM) を導入することで,クラスアクティベーションマップ (CAM) の手法を改訂する。 LaFAMは従来のCAM手法に代わる効果的な代替手段であり、教師あり学習シナリオにおける適用性を維持しつつ、自己教師あり学習のためのサリエンシマップ生成に特に有効であることを示す。

Convolutional Neural Networks (CNNs) are known for their ability to learn hierarchical structures, naturally developing detectors for objects, and semantic concepts within their deeper layers. Activation maps (AMs) reveal these saliency regions, which are crucial for many Explainable AI (XAI) methods. However, the direct exploitation of raw AMs in CNNs for feature attribution remains underexplored in literature. This work revises Class Activation Map (CAM) methods by introducing the Label-free Activation Map (LaFAM), a streamlined approach utilizing raw AMs for feature attribution without reliance on labels. LaFAM presents an efficient alternative to conventional CAM methods, demonstrating particular effectiveness in saliency map generation for self-supervised learning while maintaining applicability in supervised learning scenarios.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09
# LLMモデリングタスクにおける文法マスキングを用いた構文的妥当性保証

Using Grammar Masking to Ensure Syntactic Validity in LLM-based Modeling Tasks ( http://arxiv.org/abs/2407.06146v2 )

ライセンス: Link先を確認
Lukas Netz, Jan Reimer, Bernhard Rumpe, (参考訳) 本研究では,ある文脈自由文法に対して構文的に正しいモデルを生成するために,大規模言語モデル (LLM) を導出するための文法マスキング法を提案し,評価する。 少数ショット学習やプライミングのようなプロンプトエンジニアリング手法は、LLMが正しい構文を生成する可能性を改善するために用いられるが、文法がより複雑になればなるほど、これらの手法はより時間がかかり、期待できないものとなる。 これまでの仕事は、主に言語モデルトレーニングまたはプロンプトエンジニアリングの使用に焦点を当てていた。 本研究では,制約付き復号法を用いて与えられた文法に出力を限定する手法を提示し,その出力が有効な構文に適合することを保証する。 いくつかのDSLをMontiCoreで構築し、複数のLLMをタスクして、制約付きデコーディングなしでモデルを生成します。 対応するパーサを使用して、各モデルの構文的正しさを確認する。 文法マスキングは,複数のLLMのモデリング能力を劇的に改善し,適切なモデルを作成する可能性を高めつつ,適切なプロンプトの必要性を低減できることを示す。

We present and evaluate a method called grammar masking, which is used to guide large language models (LLMs) toward producing syntactically correct models for a given context-free grammar. Prompt engineering methods such as few-shot learning or priming can be used to improve the chances of an LLM producing correct syntax, but the more complex the grammar, the more time-consuming and less promising these methods become. Previous work is focused primarily on the usage of either language model training or prompt engineering. In this work, a method is presented that restricts the output to a given grammar using constrained decoding to ensure the output adheres to a valid syntax. We use several DSLs built with MontiCore and task multiple LLMs to produce models with and without constrained decoding. A corresponding parser is used to confirm the syntactic correctness of each model. We show that grammar masking can dramatically improve the modeling capabilities of several LLMs, reducing the need for well-refined prompting while increasing the chance of producing correct models.
翻訳日:2024-07-10 11:26:26 公開日:2024-07-09