このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240725となっている論文です。

PDF登録状況(公開日: 20240725)

TitleAuthorsAbstract論文公表日・翻訳日
# 医療証拠要約のためのオープンソースと商用大規模言語モデルのギャップを埋める

Closing the gap between open-source and commercial large language models for medical evidence summarization ( http://arxiv.org/abs/2408.00588v1 )

ライセンス: Link先を確認
Gongbo Zhang, Qiao Jin, Yiliang Zhou, Song Wang, Betina R. Idnay, Yiming Luo, Elizabeth Park, Jordan G. Nestor, Matthew E. Spotnitz, Ali Soroush, Thomas Campion, Zhiyong Lu, Chunhua Weng, Yifan Peng, (参考訳) 大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。 最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。 プロプライエタリなLLMを使用することで、透明性の欠如やベンダ依存など、さまざまなリスク要因が導入される。 オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。 本研究では,細調整オープンソース LLM が医学的証拠の要約において,その性能をさらに向上させることができるかを検討した。 8,161組の体系的なレビューと要約からなるベンチマークデータセットであるMedReviewを利用することで、広く使用されているオープンソースの3つのLLM(PRIMERA、LongT5、Llama-2)を微調整した。 全体として、微調整LLMはROUGE-Lの9.89倍(95%信頼区間:8.94-10.81)、METEORの13.21倍(95%信頼区間:12.05-14.37)、CHRFの15.82倍(95%信頼区間:13.89-16.44)となった。 微調整のLongT5の性能は、ゼロショット設定のGPT-3.5に近い。 さらに、小型の微調整モデルでは、大型のゼロショットモデルよりも優れた性能を示すこともある。 以上の改善傾向がヒトおよびGPT4シミュレーション評価でも示された。 本研究の結果は,医学的エビデンスの要約など,特定のドメイン知識を必要とするタスクに対するモデル選択のガイドに応用できる。

Large language models (LLMs) hold great promise in summarizing medical evidence. Most recent studies focus on the application of proprietary LLMs. Using proprietary LLMs introduces multiple risk factors, including a lack of transparency and vendor dependency. While open-source LLMs allow better transparency and customization, their performance falls short compared to proprietary ones. In this study, we investigated to what extent fine-tuning open-source LLMs can further improve their performance in summarizing medical evidence. Utilizing a benchmark dataset, MedReview, consisting of 8,161 pairs of systematic reviews and summaries, we fine-tuned three broadly-used, open-sourced LLMs, namely PRIMERA, LongT5, and Llama-2. Overall, the fine-tuned LLMs obtained an increase of 9.89 in ROUGE-L (95% confidence interval: 8.94-10.81), 13.21 in METEOR score (95% confidence interval: 12.05-14.37), and 15.82 in CHRF score (95% confidence interval: 13.89-16.44). The performance of fine-tuned LongT5 is close to GPT-3.5 with zero-shot settings. Furthermore, smaller fine-tuned models sometimes even demonstrated superior performance compared to larger zero-shot models. The above trends of improvement were also manifested in both human and GPT4-simulated evaluations. Our results can be applied to guide model selection for tasks demanding particular domain knowledge, such as medical evidence summarization.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-25
# 多様性のオントロジー--地域社会を基盤とした認識論的アプローチ

Ontology of Belief Diversity: A Community-Based Epistemological Approach ( http://arxiv.org/abs/2408.01455v1 )

ライセンス: Link先を確認
Tyler Fischella, Erin van Liemt, Qiuyi, Zhang, (参考訳) 分類、公平性、人間の相互作用にわたるAIアプリケーションは、しばしば暗黙的に社会概念のオントロジーを必要とする。 これらをうまく構築することは、特に多くの関連するカテゴリがある場合において、議論の余地があるタスクであるが、有意義な傾きを達成するために不可欠である。 ここでは、複雑でしばしば議論の的となる信念体系の実践的オントロジーの開発に焦点をあてる。 合意に達するまで、コミュニティベースのデザインを反復することで、認識論的手法は、信念の基本的な方法の違いを分類するのに最適であり、インクリシティとブレビティの原則を最大限に尊重することを発見した。 本稿では,言語モデルにおける信念フェアネスのための用語アノテーションと感情分析実験において,ユーザスタディによる方法論の有用性と解釈可能性を示す。

AI applications across classification, fairness, and human interaction often implicitly require ontologies of social concepts. Constructing these well, especially when there are many relevant categories, is a controversial task but is crucial for achieving meaningful inclusivity. Here, we focus on developing a pragmatic ontology of belief systems, which is a complex and often controversial space. By iterating on our community-based design until mutual agreement is reached, we found that epistemological methods were best for categorizing the fundamental ways beliefs differ, maximally respecting our principles of inclusivity and brevity. We demonstrate our methodology's utility and interpretability via user studies in term annotation and sentiment analysis experiments for belief fairness in language models.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-25
# オープンソースクラウドにおける複数データ所有者のための効率的なプライバシ保護ランク付き複数キーワード検索」に関するコメント

Comment on "An Efficient Privacy-Preserving Ranked Multi-Keyword Retrieval for Multiple Data Owners in Outsourced Cloud" ( http://arxiv.org/abs/2408.05218v1 )

ライセンス: Link先を確認
Uma Sankararao Varri, (参考訳) アウトソースされたクラウドデータの検索分野におけるキーワードのプライバシ保護は、難しい作業である。 IEEE Transactions on Services Computing (Vol. 17 No. 2, March / April 2024)において、LiらはPRMKRを提案した。 しかし,本手法は,キーワード推測攻撃,インデックスプライバシー,トラップドアプライバシーに抵抗しないことを示す。 さらに,提案手法の重要な方程式の誤差を補正することにより,上記の問題に対処する手法を提案する。

Protecting the privacy of keywords in the field of search over outsourced cloud data is a challenging task. In IEEE Transactions on Services Computing (Vol. 17 No. 2, March/April 2024), Li et al. proposed PRMKR: efficient privacy-preserving ranked multi-keyword retrieval scheme, which was claimed to resist keyword guessing attack. However, we show that the scheme fails to resist keyword guessing attack, index privacy, and trapdoor privacy. Further, we propose a solution to address the above said issues by correcting the errors in the important equations of the scheme.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-25
# LightPHE: 大規模なクラウド環境評価による部分同型暗号化のPythonへの統合

LightPHE: Integrating Partially Homomorphic Encryption into Python with Extensive Cloud Environment Evaluations ( http://arxiv.org/abs/2408.05219v1 )

ライセンス: Link先を確認
Sefik Ilkin Serengil, Alper Ozpinar, (参考訳) ホモモルフィック暗号化は、プライベートキーにアクセスせずに暗号化されたデータの計算を可能にし、クラウド環境のセキュリティを高める。 この技術がなければ、アップデートはオンプレミスで実行されるか、あるいはプライベートキーをクラウドに送信する必要があるため、セキュリティリスクが増大する。 完全同型暗号(FHE)は、暗号文上の加法演算と乗法演算の両方をサポートし、一方、部分同型暗号(PHE)は加算と乗法の両方をサポートし、より効率的で実用的な解を提供する。 本稿では、Python用の軽量ハイブリッドPHEフレームワークであるLightPHEを紹介し、既存のPHEライブラリの欠如に対処する。 LightPHEは、複数のPHEアルゴリズムをモジュール化された拡張可能な設計に統合し、高速なプロトタイピングとセキュアなアプリケーション開発のための堅牢性とユーザビリティを保証する。 Google Colab(Normal、A100 GPU、L4 GPU、T4 High RAM、TPU2)とMicrosoft Azure Sparkでクラウドベースの実験を行い、LightPHEのパフォーマンスとスケーラビリティを評価した。 鍵生成、暗号化、復号化、均質な操作といった重要な指標が評価された。 結果は、Colab A100 GPUやTPU2のような高計算環境でのLightPHEの優れたパフォーマンスを示し、Colab NormalやAzure Sparkのようなコスト効率の高いセットアップに対して実行可能なオプションも提供した。 比較分析により、LightPHEの効率性とスケーラビリティが示され、様々な用途に適していた。 ベンチマークでは、パフォーマンス要求に基づいた適切なクラウド環境の選択に関する洞察を提供し、セキュアで効率的なクラウドベースのデータ処理のために同型暗号化を前進させるLightPHEの可能性を強調している。

Homomorphic encryption enables computations on encrypted data without accessing private keys, enhancing security in cloud environments. Without this technology, updates need to be performed on-premises or require transmitting private keys to the cloud, increasing security risks. Fully homomorphic encryption (FHE) supports both additive and multiplicative operations on ciphertexts, while partially homomorphic encryption (PHE) supports either addition or multiplication, offering a more efficient and practical solution. This study introduces LightPHE, a lightweight hybrid PHE framework for Python, designed to address the lack of existing PHE libraries. LightPHE integrates multiple PHE algorithms with a modular and extensible design, ensuring robustness and usability for rapid prototyping and secure application development. Cloud-based experiments were conducted on Google Colab (Normal, A100 GPU, L4 GPU, T4 High RAM, TPU2) and Microsoft Azure Spark to evaluate LightPHE's performance and scalability. Key metrics such as key generation, encryption, decryption, and homomorphic operations were assessed. Results showed LightPHE's superior performance in high-computation environments like Colab A100 GPU and TPU2, while also offering viable options for cost-effective setups like Colab Normal and Azure Spark. Comparative analyses demonstrated LightPHE's efficiency and scalability, making it suitable for various applications. The benchmarks offer insights into selecting appropriate cloud environments based on performance needs, highlighting LightPHE's potential to advance homomorphic encryption for secure and efficient cloud-based data processing.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-25
# 機械学習による熱力学グループ貢献の促進:UNIFAC 2.0

Advancing Thermodynamic Group-Contribution Methods by Machine Learning: UNIFAC 2.0 ( http://arxiv.org/abs/2408.05220v1 )

ライセンス: Link先を確認
Nicolas Hayer, Thorsten Wendel, Stephan Mandt, Hans Hasse, Fabian Jirasek, (参考訳) 熱力学特性の正確な予測は、プロセス効率と持続可能性の最適化のために化学工学において重要である。 物理的グループ貢献(GC)法はこの目的のために広く用いられているが、歴史的に成長した不完全なパラメータ化に悩まされており、適用性と精度が制限されている。 本稿では,GCと機械学習の行列補完手法(MCM)を組み合わせることで,これらの制約を克服する。 最も成功したGC法であるUNIFACは、液体混合物の活性係数を予測するための作業場である。 得られた新しい手法 UNIFAC 2.0 は224,000以上の実験データポイントでトレーニングされ、予測精度を著しく向上させ(例えば平均二乗誤差を半減する)、元のモデルのパラメータテーブルのギャップをなくすことによりスコープを増大させる。 さらに、このアプローチの一般的な性質は、メソッドを新しいデータで更新したり、特定のアプリケーションに合わせることを容易にする。

Accurate prediction of thermodynamic properties is pivotal in chemical engineering for optimizing process efficiency and sustainability. Physical group-contribution (GC) methods are widely employed for this purpose but suffer from historically grown, incomplete parameterizations, limiting their applicability and accuracy. In this work, we overcome these limitations by combining GC with matrix completion methods (MCM) from machine learning. We use the novel approach to predict a complete set of pair-interaction parameters for the most successful GC method: UNIFAC, the workhorse for predicting activity coefficients in liquid mixtures. The resulting new method, UNIFAC 2.0, is trained and validated on more than 224,000 experimental data points, showcasing significantly enhanced prediction accuracy (e.g., nearly halving the mean squared error) and increased scope by eliminating gaps in the original model's parameter table. Moreover, the generic nature of the approach facilitates updating the method with new data or tailoring it to specific applications.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-25
# アーリーステージ要求変換アプローチ:システムレビュー

Early-Stage Requirements Transformation Approaches: A Systematic Review ( http://arxiv.org/abs/2408.05221v1 )

ライセンス: Link先を確認
Keletso J. Letsholo, (参考訳) テキスト要求から分析モデルを自動的に構築するための変換アプローチは、コーディングフェーズからソフトウェア開発ライフサイクルにおける要求分析フェーズまで、正確な形式言語の使用を前進させるため、ソフトウェア開発にとって非常に重要である。 何十年もの間、この初期フェーズを完全にあるいは部分的に自動化するために、多くのトランスフォーメーションアプローチが開発されてきた。 この体系的なレビューでは,2000年から2014年にかけての早期要件転換に関する25の研究を通じて,ソフトウェア開発の初期段階における変革アプローチについて検討する。 レビューでは、StanfordパーサやWordNetといったツールが不可欠であるなど、自然言語処理技術の普及が強調されている。 中間モデルはしばしば、テキスト要求と分析モデルの間のギャップを埋めるために変換プロセスで使用される。 早期の要件変換アプローチでは重要な進歩があったが、その有効性と信頼性を高めるためにいくつかの分野が注目されている。 証明された課題は、単純なケーススタディと評価のための実行例を用いた、堅牢な評価方法の欠如である。 これにより、これらのアプローチのパフォーマンスの比較と評価が困難になる。 ほとんどのアプローチは、テキスト要求から構造モデルを生成することができるが、多くのアプローチは、欠落した要素を持つ不完全なモデルを生成する。 さらに、要求トレーサビリティはほとんど無視されており、それに対応するアプローチは2つに過ぎず、トランスフォーメーションプロセス中にトレーサビリティリンクがどのように維持されているかを明確に示していない。 このレビューでは、形式化された評価技術の必要性と、アーリーステージ要求変換で使用されるアプローチの透明性とアクセシビリティの向上を強調している。

Transformation approaches for automatically constructing analysis models from textual requirements are critical to software development, as they can bring forward the use of precise formal languages from the coding phase to the requirement analysis phase in the software development life-cycle. Over the decades, numerous transformation approaches have been developed in an attempt to fully or partially automate this initial phase. This systematic review examines transformation approaches in the early stages of software development, examining 25 studies on early-stage requirements transformation documented between 2000 and 2014. The review highlights the widespread use of natural language processing techniques, with tools like the Stanford parser and WordNet being essential. Intermediate models are often used in the transformation process to bridge the gap between textual requirements and analysis models. Significant advancements have been made in early-stage requirements transformation approaches; however, several areas require attention to enhance their effectiveness and reliability. A challenge identified is the lack of robust evaluation methods, with most approaches using simple case studies and running examples for evaluation. This makes it difficult to compare and evaluate the performance these approaches. Although most approaches can generate structural models from textual requirements, many generate incomplete models with missing elements. Furthermore, requirements traceability is largely neglected, with only two approaches addressing it and lacking explicit detail on how traceability links are maintained during the transformation process. This review emphasize the need for formalized evaluation techniques and greater transparency and accessibility of approaches used in the early-stage requirements transformation.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-25
# IntentRec:階層型マルチタスク学習によるユーザセッションインテントの予測

IntentRec: Predicting User Session Intent with Hierarchical Multi-Task Learning ( http://arxiv.org/abs/2408.05353v1 )

ライセンス: Link先を確認
Sejoon Oh, Moumita Bhattacharya, Yesu Feng, Sudarshan Lamkhede, (参考訳) レコメンダシステムは、eコマース、ストリーミングメディア、ソーシャルネットワークなど、多様なデジタルサービスにおいて重要な役割を担っている。 ユーザが特定のセッションで何を意図しているか(例えば、ショートビデオや映画やゲームを見たいのか、キャンプ旅行のために買い物をしているのか)を知っていれば、高品質なレコメンデーションの提供が容易になります。 本稿では,階層型マルチタスクニューラルネットワークアーキテクチャに基づく新しいレコメンデーションフレームワークIntentRecについて紹介する。 インテント予測を直接活用することで、正確でパーソナライズされたレコメンデーションをユーザに提供できます。 Netflixのユーザエンゲージメントデータに関する包括的な実験によると、IntentRecは最先端の次世代および次世代の予測器よりも優れています。 IntentRecのいくつかの発見と下流のアプリケーションも公開しています。

Recommender systems have played a critical role in diverse digital services such as e-commerce, streaming media, social networks, etc. If we know what a user's intent is in a given session (e.g. do they want to watch short videos or a movie or play games; are they shopping for a camping trip), it becomes easier to provide high-quality recommendations. In this paper, we introduce IntentRec, a novel recommendation framework based on hierarchical multi-task neural network architecture that tries to estimate a user's latent intent using their short- and long-term implicit signals as proxies and uses the intent prediction to predict the next item user is likely to engage with. By directly leveraging the intent prediction, we can offer accurate and personalized recommendations to users. Our comprehensive experiments on Netflix user engagement data show that IntentRec outperforms the state-of-the-art next-item and next-intent predictors. We also share several findings and downstream applications of IntentRec.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# 感情的に認知的にAIエージェントを信頼する:AI信頼のための意味的微分尺度の開発と検証

Trusting Your AI Agent Emotionally and Cognitively: Development and Validation of a Semantic Differential Scale for AI Trust ( http://arxiv.org/abs/2408.05354v1 )

ライセンス: Link先を確認
Ruoxi Shang, Gary Hsieh, Chirag Shah, (参考訳) 信頼は認知的な問題であるだけでなく、感情的な問題でもあるが、人間とAIの相互作用の研究は主に信頼開発における認知的経路に焦点を当てている。 最近の研究は、AIに対する感情的な信頼を研究することの重要性を強調している。 しかし、AIエージェントの2次元的な信頼構築のための検証済みかつ一般化可能な尺度が欠如している。 このギャップに対処するため、シナリオベース調査により、感情的・認知的信頼のための27項目のセマンティック・ディファレンシャル・スケールを開発し、検証した。 実験によってさらに検証し,適用した。 我々の経験的発見は、信頼の感情的側面と認知的側面が相互にどのように相互作用し、AIエージェントに対する個人の全体的な信頼を形成するかを示した。 我々の研究方法論と知見は、異なる経路を通した信頼を育むための最先端のLLMの能力に関する洞察を提供する。

Trust is not just a cognitive issue but also an emotional one, yet the research in human-AI interactions has primarily focused on the cognitive route of trust development. Recent work has highlighted the importance of studying affective trust towards AI, especially in the context of emerging human-like LLMs-powered conversational agents. However, there is a lack of validated and generalizable measures for the two-dimensional construct of trust in AI agents. To address this gap, we developed and validated a set of 27-item semantic differential scales for affective and cognitive trust through a scenario-based survey study. We then further validated and applied the scale through an experiment study. Our empirical findings showed how the emotional and cognitive aspects of trust interact with each other and collectively shape a person's overall trust in AI agents. Our study methodology and findings also provide insights into the capability of the state-of-art LLMs to foster trust through different routes.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# GesturePrint:mmWaveに基づくジェスチャー認識システムにおけるユーザ識別の実現

GesturePrint: Enabling User Identification for mmWave-based Gesture Recognition Systems ( http://arxiv.org/abs/2408.05358v1 )

ライセンス: Link先を確認
Lilin Xu, Keyi Wang, Chaojie Gu, Xiuzhen Guo, Shibo He, Jiming Chen, (参考訳) ミリ波(mmWave)レーダーはジェスチャー認識に利用されている。 しかし、既存のmmWaveベースのジェスチャー認識手法では、多くのアプリケーションにおいて、ユビキタスなジェスチャーインタラクションにおいて重要な、異なるユーザを特定することはできない。 本稿では,ジェスチャ認識とジェスチャに基づくユーザ識別を,コモディティmmWaveレーダセンサを用いて初めて実現したGesturePrintを提案する。 GesturePrintは、ジェスチャー認識システムが小さな追加コストでユーザを識別できる効果的なパイプラインを備えている。 GesturePrintは、注目に基づくマルチレベル特徴融合機構を用いた効率的な信号前処理ステージとネットワークアーキテクチャGesIDNetを導入することにより、ジェスチャー認識のためのユニークなジェスチャー特徴と、ユーザ識別のためのパーソナライズされた動作パターン特徴を効果的に抽出する。 我々はGesturePrintを実装し、ミーティングルームとオフィスで15のジェスチャーを行う17人の参加者からデータを収集する。 GesturePrintは98.87%のジェスチャー認識精度(UIA)、99.78%のユーザ識別精度(UIA)、98.22%のGRA、99.26%のUIAをオフィスで達成している。 3つの公開データセットと新しいジェスチャーデータセットに関する大規模な実験は、ジェスチャー認識システムに効果的なユーザ識別を可能にするGesturePrintの優れたパフォーマンスを示している。

The millimeter-wave (mmWave) radar has been exploited for gesture recognition. However, existing mmWave-based gesture recognition methods cannot identify different users, which is important for ubiquitous gesture interaction in many applications. In this paper, we propose GesturePrint, which is the first to achieve gesture recognition and gesture-based user identification using a commodity mmWave radar sensor. GesturePrint features an effective pipeline that enables the gesture recognition system to identify users at a minor additional cost. By introducing an efficient signal preprocessing stage and a network architecture GesIDNet, which employs an attention-based multilevel feature fusion mechanism, GesturePrint effectively extracts unique gesture features for gesture recognition and personalized motion pattern features for user identification. We implement GesturePrint and collect data from 17 participants performing 15 gestures in a meeting room and an office, respectively. GesturePrint achieves a gesture recognition accuracy (GRA) of 98.87% with a user identification accuracy (UIA) of 99.78% in the meeting room, and 98.22% GRA with 99.26% UIA in the office. Extensive experiments on three public datasets and a new gesture dataset show GesturePrint's superior performance in enabling effective user identification for gesture recognition systems.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# マイクログリッドにおけるニューロモルフィック推論通信の耐雑音性について

On Noise Resiliency of Neuromorphic Inferential Communication in Microgrids ( http://arxiv.org/abs/2408.05360v1 )

ライセンス: Link先を確認
Yubo Song, Subham Sahoo, Xiaoguang Diao, (参考訳) スパイクニューラルネットワークを利用したニューロモルフィックコンピューティングは、従来のサイバー物理インフラにおけるセキュリティと信頼性の課題に取り組むための、有望なソリューションとして登場した。 イベント駆動のパラダイムは、パワー電子コンバータ間の弾力性とエネルギー効率の調整を期待する上で有効である。 しかし、文献に焦点をあてている生物学的ニューロンとは異なり、マイクログリッドは異なるアーキテクチャや特徴を示しており、情報伝達を除去する能力の多様性を示唆している。 情報伝達理論の最大の欠点の1つは、信号の精度におけるノイズの影響である。 そこで本論文では, マイクログリッドにおけるニューロモルフィック推論通信の雑音耐性について, ケーススタディを通じて検討し, 実世界のシナリオにおけるその実装に関する知見を提供する。

Neuromorphic computing leveraging spiking neural network has emerged as a promising solution to tackle the security and reliability challenges with the conventional cyber-physical infrastructure of microgrids. Its event-driven paradigm facilitates promising prospect in resilient and energy-efficient coordination among power electronic converters. However, different from biological neurons that are focused in the literature, microgrids exhibit distinct architectures and features, implying potentially diverse adaptability in its capabilities to dismiss information transfer, which remains largely unrevealed. One of the biggest drawbacks in the information transfer theory is the impact of noise in the signaling accuracy. Hence, this article hereby explores the noise resiliency of neuromorphic inferential communication in microgrids through case studies and underlines potential challenges and solutions as extensions beyond the results, thus offering insights for its implementation in real-world scenarios.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# MindGPT:非侵襲的fNIRSに基づく音声デコーディングによる人間とAIのインタラクションの促進

MindGPT: Advancing Human-AI Interaction with Non-Invasive fNIRS-Based Imagined Speech Decoding ( http://arxiv.org/abs/2408.05361v1 )

ライセンス: Link先を確認
Suyi Zhang, Ekram Alam, Jack Baber, Francesca Bianco, Edward Turner, Maysam Chamanzar, Hamid Dehghani, (参考訳) 今後10年間で、人工知能システムはあらゆる産業や人間の生活に革命をもたらすだろう。 人間とAIエージェント間のシームレスで共生的なコミュニケーションを可能にするコミュニケーションシステムの構築がますます重要になっている。 本研究は、非侵襲的高密度機能近赤外分光法(fNIRS)を用いて、想像音声を復号化するための革新的なアプローチを開発することにより、人間とAIの相互作用の分野を前進させる。 特に本研究では,世界初の思考言語モデルであるMindGPTを紹介した。

In the coming decade, artificial intelligence systems are set to revolutionise every industry and facet of human life. Building communication systems that enable seamless and symbiotic communication between humans and AI agents is increasingly important. This research advances the field of human-AI interaction by developing an innovative approach to decode imagined speech using non-invasive high-density functional near-infrared spectroscopy (fNIRS). Notably, this study introduces MindGPT, the first thought-to-LLM (large language model) system in the world.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# MindSpeech: 高度なAIインタラクションのための高密度fNIRSとPrompt Tuningを用いた連続的な音声デコーディング

MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction ( http://arxiv.org/abs/2408.05362v1 )

ライセンス: Link先を確認
Suyi Zhang, Ekram Alam, Jack Baber, Francesca Bianco, Edward Turner, Maysam Chamanzar, Hamid Dehghani, (参考訳) 今後10年間、人工知能システムはあらゆる産業と人間の生活に革命をもたらし続けるだろう。 人間とAIエージェント間の効果的な、シームレスで共生的なコミュニケーションパラダイムを設計することがますます重要である。 本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。 我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。 本研究では、高密度機能近赤外分光法(fNIRS)データを活用して、非侵襲的に予測された音声を復号できるAIモデルを開発することにより、人間とAIのコミュニケーションを向上させることに焦点を当てる。 我々は、データ収集のための新しいワードクラウドパラダイムについて論じ、参加者が生成する想像文の品質と多様性を改善し、幅広い意味空間をカバーする。 脳信号によるテキスト生成にLlama2大言語モデル(LLM)を用いた。 以上の結果から,BLEU-1,BERT Pスコアなどの指標を4名中3名に有意な改善がみられ,その有効性が示された。 さらに、複数の参加者のデータを組み合わせることでデコーダの性能が向上し、2人の参加者のBERTスコアが統計的に有意に向上することを示した。 さらに,本研究は,音声符号化に関わる脳領域に関する従来の研究と一致している。 本研究では,連続的な音声復号化の実現可能性について述べる。 高密度fNIRSと高度なAI技術を統合することで、近い将来、AIと非侵襲的で正確な通信システムの可能性を強調します。

In the coming decade, artificial intelligence systems will continue to improve and revolutionise every industry and facet of human life. Designing effective, seamless and symbiotic communication paradigms between humans and AI agents is increasingly important. This paper reports a novel method for human-AI interaction by developing a direct brain-AI interface. We discuss a novel AI model, called MindSpeech, which enables open-vocabulary, continuous decoding for imagined speech. This study focuses on enhancing human-AI communication by utilising high-density functional near-infrared spectroscopy (fNIRS) data to develop an AI model capable of decoding imagined speech non-invasively. We discuss a new word cloud paradigm for data collection, improving the quality and variety of imagined sentences generated by participants and covering a broad semantic space. Utilising a prompt tuning-based approach, we employed the Llama2 large language model (LLM) for text generation guided by brain signals. Our results show significant improvements in key metrics, such as BLEU-1 and BERT P scores, for three out of four participants, demonstrating the method's effectiveness. Additionally, we demonstrate that combining data from multiple participants enhances the decoder performance, with statistically significant improvements in BERT scores for two participants. Furthermore, we demonstrated significantly above-chance decoding accuracy for imagined speech versus resting conditions and the identified activated brain regions during imagined speech tasks in our study are consistent with the previous studies on brain regions involved in speech encoding. This study underscores the feasibility of continuous imagined speech decoding. By integrating high-density fNIRS with advanced AI techniques, we highlight the potential for non-invasive, accurate communication systems with AI in the near future.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# AyE-Edge: エッジ上でのリアルタイムオブジェクト検出の正確さと効率的なリアルタイム検出を実現する自動デプロイスペース検索

AyE-Edge: Automated Deployment Space Search Empowering Accuracy yet Efficient Real-Time Object Detection on the Edge ( http://arxiv.org/abs/2408.05363v1 )

ライセンス: Link先を確認
Chao Wu, Yifan Gong, Liangkai Liu, Mengquan Li, Yushu Wu, Xuan Shen, Zhimin Li, Geng Yuan, Weisong Shi, Yanzhi Wang, (参考訳) エッジ上のオブジェクト検出(Edge-OD)は、アプリケーションの将来性によって需要が高まっている。 しかし、この分野の開発は、高い精度、優れた電力効率、厳格なリアルタイム要求を満たすことの両立ジレンマによって厳格に制限されている。 このジレンマに対処するため,我々は,Edge上での高精度かつ高効率なリアルタイムオブジェクト検出を実現するために,自動アルゴリズムデバイス配置スペース探索を探索する,先駆的な開発ツールであるAyE-Edgeを提案する。 AyE-Edgeは、キーフレームの選択、CPU-GPU設定、DNNプルーニング戦略の協調的な探索を通じて、モバイルデバイス上で実行される広範な実世界実験に長けている。 結果は、AyE-Edgeの有効性を一貫して証明し、優れたリアルタイム性能、検出精度、そして特に、最先端(SOTA)競合と比較して96.7%の消費電力削減を実現している。

Object detection on the edge (Edge-OD) is in growing demand thanks to its ever-broad application prospects. However, the development of this field is rigorously restricted by the deployment dilemma of simultaneously achieving high accuracy, excellent power efficiency, and meeting strict real-time requirements. To tackle this dilemma, we propose AyE-Edge, the first-of-this-kind development tool that explores automated algorithm-device deployment space search to realize Accurate yet power-Efficient real-time object detection on the Edge. Through a collaborative exploration of keyframe selection, CPU-GPU configuration, and DNN pruning strategy, AyE-Edge excels in extensive real-world experiments conducted on a mobile device. The results consistently demonstrate AyE-Edge's effectiveness, realizing outstanding real-time performance, detection accuracy, and notably, a remarkable 96.7% reduction in power consumption, compared to state-of-the-art (SOTA) competitors.
翻訳日:2024-08-19 04:07:11 公開日:2024-07-25
# 軽度認知障害早期検出のためのコスト効果型アイトラッカー

A Cost-Effective Eye-Tracker for Early Detection of Mild Cognitive Impairment ( http://arxiv.org/abs/2408.05369v1 )

ライセンス: Link先を確認
Danilo Greco, Francesco Masulli, Stefano Rovetta, Alberto Cabri, Davide Daffonchio, (参考訳) 本稿では,乳児認知障害の早期発見のための視覚的ペアド比較プロトコルに基づく,低コストなアイトラッカーを提案する。 提案するアイトラッキングシステムは、それぞれ、患者に対して検査を行う「測定サブシステム」と、検査プロトコルの設定、患者データの記録、検査の監視、テスト結果の保存を行う「テスト管理サブシステム」と、機械学習アルゴリズム、標準ウェブカメラ、および2つのパーソナルコンピュータに基づいて構成されている。 このシステムは、フォトプレチスモグラフィーで得られた心拍変動の測定に基づいて、ストレス推定装置を統合する。

This paper presents a low-cost eye-tracker aimed at carrying out tests based on a Visual Paired Comparison protocol for the early detection of Mild Cognitive Impairment. The proposed eye-tracking system is based on machine learning algorithms, a standard webcam, and two personal computers that constitute, respectively, the "Measurement Sub-System" performing the test on the patients and the "Test Management Sub-System" used by medical staff for configuring the test protocol, recording the patient data, monitoring the test and storing the test results. The system also integrates an stress estimator based on the measurement of heart rate variability obtained with photoplethysmography.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-25
# Romberg自動検査:CNNの活用と感覚失調症診断のための質量分析センター

Automated Romberg Test: Leveraging a CNN and Centre of Mass Analysis for Sensory Ataxia Diagnosis ( http://arxiv.org/abs/2408.06354v1 )

ライセンス: Link先を確認
Reilly Haskins, Richard Green, (参考訳) 本稿では,ロムベルグ自動検査を用いて感覚失調症を診断する新しい方法を提案する。 畳み込みニューラルネットワークを用いて関節位置を予測し、被験者の質量の中心や様々な関節角度などの生体力学的マーカーの計算に使用される。 この情報は、カルマンフィルタのようなデータフィルタリング技術や、横軸と前方軸の相対重み分布に関する正確な推測を助ける質量分析の中心と組み合わせて用いられる。 本手法の性能を評価するため,医療現場から得られた二重体重計と事前診断ビデオを用いて実験を行った。 これらの2つの手法は, 地表面上の検証可能な重量分布の定量化と, 提案手法の精度評価を行った。 計算された相対重量分布差の平均絶対誤差は0.2912%であり、診断では83.33パーセントの精度が得られた。

This paper proposes a novel method to diagnose sensory ataxia via an automated Romberg Test - the current de facto medical procedure used to diagnose this condition. It utilizes a convolutional neural network to predict joint locations, used for the calculation of various bio-mechanical markers such as the center of mass of the subject and various joint angles. This information is used in combination with data filtering techniques such as Kalman Filters, and center of mass analysis which helped make accurate inferences about the relative weight distribution in the lateral and anterior-posterior axes, and provide an objective, mathematically based diagnosis of this condition. In order to evaluate the performance of this method, testing was performed using dual weight scales and pre-annotated diagnosis videos taken from medical settings. These two methods both quantified the veritable weight distribution upon the ground surface with a ground truth and provided a real-world estimate of accuracy for the proposed method. A mean absolute error of 0.2912 percent was found for the calculated relative weight distribution difference, and an accuracy of 83.33 percent was achieved on diagnoses.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-25
# 多目的最適化による生態モニタリングの強化--セグメンテーションアルゴリズムの新しいデータセットと方法論

Enhancing Ecological Monitoring with Multi-Objective Optimization: A Novel Dataset and Methodology for Segmentation Algorithms ( http://arxiv.org/abs/2408.06356v1 )

ライセンス: Link先を確認
Sophia J. Abraham, Jin Huang, Brandon RichardWebster, Michael Milford, Jonathan D. Hauenstein, Walter Scheirer, (参考訳) オーストラリア, ニューサウスウェールズ州ベガバレーで, 外来種および外来種を捉えた6,096個の高解像度空中画像のセマンティックセグメンテーションデータセットを導入する。 このデータセットは、草種の重複と分布のために困難な課題を示しており、生態学的および農業的応用におけるモデルの発展に不可欠である。 本研究は,様々なモデルに適用可能なセグメンテーション精度と文脈整合性のバランスをとる,ホモトピーに基づく多目的微調整手法を特徴とする。 画素ワイド分類のためのDiceCELossと空間コヒーレンスのための滑らかさ損失を統合することにより、トレーニング中に進化し、ノイズデータに対する堅牢性を高める。 パフォーマンスベースラインは、SAM(Segment Anything Model)のケーススタディを通じて確立され、その有効性を示している。 我々のアノテーション手法は、ペンサイズ、ズーム制御、メモリ管理を重視し、高品質なデータセット作成を保証する。 データセットとコードは公開され、コンピュータビジョン、機械学習、生態学研究の推進、環境モニタリングと持続可能な開発を促進することを目的としている。

We introduce a unique semantic segmentation dataset of 6,096 high-resolution aerial images capturing indigenous and invasive grass species in Bega Valley, New South Wales, Australia, designed to address the underrepresented domain of ecological data in the computer vision community. This dataset presents a challenging task due to the overlap and distribution of grass species, which is critical for advancing models in ecological and agronomical applications. Our study features a homotopy-based multi-objective fine-tuning approach that balances segmentation accuracy and contextual consistency, applicable to various models. By integrating DiceCELoss for pixel-wise classification and a smoothness loss for spatial coherence, this method evolves during training to enhance robustness against noisy data. Performance baselines are established through a case study on the Segment Anything Model (SAM), demonstrating its effectiveness. Our annotation methodology, emphasizing pen size, zoom control, and memory management, ensures high-quality dataset creation. The dataset and code will be made publicly available, aiming to drive research in computer vision, machine learning, and ecological studies, advancing environmental monitoring and sustainable development.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-25
# リーマン計量の族に対するスティーフェル多様体上の測地線距離の境界

Bounds on the geodesic distances on the Stiefel manifold for a family of Riemannian metrics ( http://arxiv.org/abs/2408.07072v1 )

ライセンス: Link先を確認
Simon Mataigne, P. -A. Absil, Nina Miolane, (参考訳) 我々は、新しい幾何学的洞察から導かれたスティーフェル多様体上の測地線距離の有界を与える。 測地線距離は、よく知られたユークリッド測度と標準測度を含むH\"uper et al (2021)によって導入されたリーマン測度の一パラメータ族によって誘導される。 まず、測度族に属する任意の2つのメンバーによって誘導される距離の間の最良のリプシッツ定数を与える。 そして、計算が容易なフロベニウス距離によって測地線距離上の下界と上界を与える。 我々は、計量のパラメータと多様体の次元に依存する行列のペアの明示的な族を与える。 これらの境界は、初期速度探索空間を小さくすることで、最小測地線計算アルゴリズムの理論的保証と性能を改善することを目的としている。 さらに、これらの発見は、スティーフェル多様体上の測地線距離の理解の進展とそれらの応用に寄与する。

We give bounds on geodesic distances on the Stiefel manifold, derived from new geometric insights. The considered geodesic distances are induced by the one-parameter family of Riemannian metrics introduced by H\"uper et al. (2021), which contains the well-known Euclidean and canonical metrics. First, we give the best Lipschitz constants between the distances induced by any two members of the family of metrics. Then, we give a lower and an upper bound on the geodesic distance by the easily computable Frobenius distance. We give explicit families of pairs of matrices that depend on the parameter of the metric and the dimensions of the manifold, where the lower and the upper bound are attained. These bounds aim at improving the theoretical guarantees and performance of minimal geodesic computation algorithms by reducing the initial velocity search space. In addition, these findings contribute to advancing the understanding of geodesic distances on the Stiefel manifold and their applications.
翻訳日:2024-08-19 03:47:26 公開日:2024-07-25
# 長文テキスト生成のための多群不確実性定量化

Multi-group Uncertainty Quantification for Long-form Text Generation ( http://arxiv.org/abs/2407.21057v1 )

ライセンス: Link先を確認
Terrance Liu, Zhiwei Steven Wu, (参考訳) 大きな言語モデルは急速にコンシューマ向けアプリケーションへと移行していますが、実際にはエラーや幻覚の傾向があります。 これらのエラーから生じる潜在的な害を軽減するためには、ユーザが実際に主張をしたとき、LLMをどの程度信頼できるかを知ることが重要である。 この目的のために、長文の自然言語生成における事実正当性の不確実性定量化の問題について検討する。 大規模言語モデルからの出力が与えられた場合、(キャリブレーションによる)出力に含まれる個々のクレームのレベルにおける不確実性と(共形予測による)出力全体に対する不確実性の両方について検討する。 さらに,マルチキャリブレーションとマルチバリッド整合予測を行い,このような不確実性保証が,異なるプロンプト群にまたがって有効であることを保証する。 バイオグラフィー生成のタスクを用いて、各プロンプトにグループ属性を追加して利用することで、全体的なパフォーマンスとグループワイドのパフォーマンスが向上することが実証的に実証された。 校正, 共形予測, および多群予測の問題は, 長文生成の文脈ではこれまで広く検討されていないため, これらの実験結果は, この設定のベンチマークとなると考えられる。

While large language models are rapidly moving towards consumer-facing applications, they are often still prone to factual errors and hallucinations. In order to reduce the potential harms that may come from these errors, it is important for users to know to what extent they can trust an LLM when it makes a factual claim. To this end, we study the problem of uncertainty quantification of factual correctness in long-form natural language generation. Given some output from a large language model, we study both uncertainty at the level of individual claims contained within the output (via calibration) and uncertainty across the entire output itself (via conformal prediction). Moreover, we invoke multicalibration and multivalid conformal prediction to ensure that such uncertainty guarantees are valid both marginally and across distinct groups of prompts. Using the task of biography generation, we demonstrate empirically that having access to and making use of additional group attributes for each prompt improves both overall and group-wise performance. As the problems of calibration, conformal prediction, and their multi-group counterparts have not been extensively explored previously in the context of long-form text generation, we consider these empirical results to form a benchmark for this setting.
翻訳日:2024-08-01 19:45:44 公開日:2024-07-25
# 言語モデルにおける尺度・データ・バイアスの相互作用を理解する:BERTを用いた事例

Understanding the Interplay of Scale, Data, and Bias in Language Models: A Case Study with BERT ( http://arxiv.org/abs/2407.21058v1 )

ライセンス: Link先を確認
Muhammad Ali, Swetasudha Panda, Qinlan Shen, Michael Wick, Ari Kobren, (参考訳) 言語モデル研究の現在の状況では、より大きなモデル、より大きなデータセット、より多くの計算がインテリジェンスに向かって進む唯一の方法であるようだ。 スケーリング法とモデルのスケーリング行動に関する広範な研究があるが、モデルの社会的バイアスやステレオタイピング傾向に対するスケールの影響は、あまり注目されていない。 本研究では,モデル尺度と事前学習データが学習した社会的バイアスに与える影響について検討する。 非常に人気のある言語モデルであるBERTに注目し、言語モデリング(上流)や微調整(下流)後の分類アプリケーション中に現れるバイアスを調査します。 BERTの4つのアーキテクチャサイズに関する実験は、事前学習データがモデルスケールで上流バイアスがどのように進化するかに大きく影響を与えることを示した。 規模が大きくなるにつれて、Common Crawlのような大規模なインターネットスクラップ上で事前訓練されたモデルは高い毒性を示し、一方Wikipediaのような適度なデータソースで事前トレーニングされたモデルは、より大きなジェンダーステレオタイプを示す。 しかし, 事前学習データに関係なく, モデルスケールの増加に伴い, 下流バイアスは一般的に減少する。 以上の結果から,言語モデルのバイアス行動における事前学習データの質的役割が強調された。 BERTの詳細なケーススタディを通じて、データとモデルスケールの複雑な相互作用に光を当て、それが具体的なバイアスにどのように変換されるかを調査した。

In the current landscape of language model research, larger models, larger datasets and more compute seems to be the only way to advance towards intelligence. While there have been extensive studies of scaling laws and models' scaling behaviors, the effect of scale on a model's social biases and stereotyping tendencies has received less attention. In this study, we explore the influence of model scale and pre-training data on its learnt social biases. We focus on BERT -- an extremely popular language model -- and investigate biases as they show up during language modeling (upstream), as well as during classification applications after fine-tuning (downstream). Our experiments on four architecture sizes of BERT demonstrate that pre-training data substantially influences how upstream biases evolve with model scale. With increasing scale, models pre-trained on large internet scrapes like Common Crawl exhibit higher toxicity, whereas models pre-trained on moderated data sources like Wikipedia show greater gender stereotypes. However, downstream biases generally decrease with increasing model scale, irrespective of the pre-training data. Our results highlight the qualitative role of pre-training data in the biased behavior of language models, an often overlooked aspect in the study of scale. Through a detailed case study of BERT, we shed light on the complex interplay of data and model scale, and investigate how it translates to concrete biases.
翻訳日:2024-08-01 19:45:44 公開日:2024-07-25
# Unlearnで学ぶ: 生成言語モデルのための反復的アンラーニングフレームワーク

Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models ( http://arxiv.org/abs/2407.20271v1 )

ライセンス: Link先を確認
Haoyu Tang, Ye Liu, Xukai Liu, Kai Zhang, Yanghai Zhang, Qi Liu, Enhong Chen, (参考訳) 機械学習の最近の進歩、特に自然言語処理(NLP)は、膨大なデータセットで訓練された洗練されたモデルの開発につながっているが、この進歩は潜在的な機密情報漏洩への懸念を引き起こしている。 これに対して、EU一般データ保護規則(GDPR)のような規制措置は、特定のデータエントリを選択的に忘れることを目的とした、機械学習技術の調査を推進している。 初期のアプローチは前処理に重点を置いていたが、最近の研究では、トレーニングベースの機械学習手法に移行している。 しかし、既存の多くのメソッドはオリジナルのトレーニングデータへのアクセスを必要とし、そのようなデータが利用できないシナリオで課題を提起する。 さらに、非学習の直接的促進は、言語モデルの一般的な表現能力を損なう可能性がある。 そこで本論文では,3つの重要なコンポーネントを組み込んだICU(Iterative Contrastive Unlearning)フレームワークを提案する。 本研究では,学習対象配列を学習しないための知識アンラーニング誘導モジュールと,生成能力の劣化を防止するためのコントラスト学習拡張モジュールを提案する。 さらに、反復的アンラーニングリファインメントモジュールが統合され、各対象のサンプルに対して、プロセスをより適応させることができる。 実験結果は、プライバシを意識した機械学習アプリケーションのための有望な道を提供するとともに、効率よくセンシティブな情報を学習しながら、性能を維持するためのICUの有効性を示す。

Recent advancements in machine learning, especially in Natural Language Processing (NLP), have led to the development of sophisticated models trained on vast datasets, but this progress has raised concerns about potential sensitive information leakage. In response, regulatory measures like the EU General Data Protection Regulation (GDPR) have driven the exploration of Machine Unlearning techniques, which aim to enable models to selectively forget certain data entries. While early approaches focused on pre-processing methods, recent research has shifted towards training-based machine unlearning methods. However, many existing methods require access to original training data, posing challenges in scenarios where such data is unavailable. Besides, directly facilitating unlearning may undermine the language model's general expressive ability. To this end, in this paper, we introduce the Iterative Contrastive Unlearning (ICU) framework, which addresses these challenges by incorporating three key components. We propose a Knowledge Unlearning Induction module for unlearning specific target sequences and a Contrastive Learning Enhancement module to prevent degrading in generation capacity. Additionally, an Iterative Unlearning Refinement module is integrated to make the process more adaptive to each target sample respectively. Experimental results demonstrate the efficacy of ICU in maintaining performance while efficiently unlearning sensitive information, offering a promising avenue for privacy-conscious machine learning applications.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-25
# 早期の大規模言語モデルのための効率的な推論フレームワーク

An Efficient Inference Framework for Early-exit Large Language Models ( http://arxiv.org/abs/2407.20272v1 )

ライセンス: Link先を確認
Ruijie Miao, Yihan Yan, Xinshuo Yao, Tong Yang, (参考訳) 効率的な推論フレームワークの構築は、研究コミュニティへの関心が高まっている。 LLMの変種であるアーリーエグジットモデルは、レスト層をスキップすることでLCMの推論効率を改善し、十分に自信のあるときに出力トークンを直接生成する。 しかし、初期のモデルを考慮に入れたLLM推論フレームワークの開発は行われていない。 LLM推論における先行技術は、初期出力モデルに直接適用できないため、これは自明ではない。 本研究では,(1)反復レベルの粒度のバッチ推論,(2)KVキャッシュ管理という,早期終了モデルの効率的な推論フレームワークを構築する上での2つの課題を解決する。 前者に対しては、全てのシーケンスが早期終了信頼閾値を超えるまでバッチを処理することを提案する。 後者では、繰り返しが終了する前に、残りのレイヤのKVキャッシュを埋めることを提案する。 評価の結果,従来のvLLMが全層で動作するのに対し,ソリューションは最大1.25倍の高速化を実現していることがわかった。

Building efficient inference framework has gained increasing interests for research community. Early-exit models, a variant of LLMs, improves the inference efficiency of LLMs by skipping rest layers and directly generate output tokens when they are confident enough. However, there is no work of LLM inference framework that takes early-exit models into consideration. This is non-trivial as prior art on LLM inference cannot be directly applied to early-exit models. In this work, we solves two key challenges in building efficient inference framework for early-exit models: (1) batch inference at iteration-level granularity; and (2) KV cache management. For the former, we propose to process the batch until all sequences surpass the early-exit confidence threshold. For the latter, we propose to fill the KV cache of rest layers before the iteration terminates. Our evaluation shows that, compared with the original vLLM operating at full layers, our solution achieves up to 1.25x speed up.
翻訳日:2024-07-31 19:18:14 公開日:2024-07-25
# 事前知識のない物理一貫性物質行動の学習

Learning Physics-Consistent Material Behavior Without Prior Knowledge ( http://arxiv.org/abs/2407.20273v1 )

ライセンス: Link先を確認
Zhichao Han, Mohit Pundir, Olga Fink, David S. Kammer, (参考訳) 材料の機械的挙動を正確にモデル化することは、多くの工学的応用に不可欠である。 これらのモデルの品質は、応力-ひずみ関係を定義する構成法則の精度に直接依存する。 これらの構成的物質法則の発見は、特に材料変形データのみが利用可能である場合、重要な課題である。 この課題に対処するため、教師なし機械学習手法が提案されている。 しかし、既存のアプローチにはいくつかの制限がある: 学習された構成的関係が物理的原理と整合していることを保証するのに失敗するか、事前に定義された構成的関係のライブラリや手作業による入力機能に依存する。 これらの依存関係には、重要な専門知識と専門的なドメイン知識が必要です。 本稿では,入力凸ニューラルネットワーク(ICNN)をサロゲート構成モデルとして使用することにより,制約を克服する,uLEDと呼ばれる機械学習手法を提案する。 ICNNのトレーニングのための最適化戦略を改良し、様々な材料にまたがる入力として直接ひずみ不変量を用いてエンドツーエンドのトレーニングを可能にする。 さらに,本研究は,内部領域における結節力平衡をトレーニング目的として活用し,時間的変位記録のみから構成的関係を学習することを可能にする。 提案手法の有効性を多種多様な物質法で検証する。 我々は、ノイズのかなりのレベルに対して頑健であり、データ解像度の増大とともに基礎的な真実に収束することを実証した。 また, 試験試料のサブドメインからの変位場を用いてモデルを効果的に訓練し, 実験試料からの学習構成関係が, 異なる測地を持つ他の試料に伝達可能であることを示す。 開発手法は構成的関係を発見する効果的なツールを提供する。

Accurately modeling the mechanical behavior of materials is crucial for numerous engineering applications. The quality of these models depends directly on the accuracy of the constitutive law that defines the stress-strain relation. Discovering these constitutive material laws remains a significant challenge, in particular when only material deformation data is available. To address this challenge, unsupervised machine learning methods have been proposed. However, existing approaches have several limitations: they either fail to ensure that the learned constitutive relations are consistent with physical principles, or they rely on a predefined library of constitutive relations or manually crafted input features. These dependencies require significant expertise and specialized domain knowledge. Here, we introduce a machine learning approach called uLED, which overcomes the limitations by using the input convex neural network (ICNN) as the surrogate constitutive model. We improve the optimization strategy for training ICNN, allowing it to be trained end-to-end using direct strain invariants as input across various materials. Furthermore, we utilize the nodal force equilibrium at the internal domain as the training objective, which enables us to learn the constitutive relation solely from temporal displacement recordings. We validate the effectiveness of the proposed method on a diverse range of material laws. We demonstrate that it is robust to a significant level of noise and that it converges to the ground truth with increasing data resolution. We also show that the model can be effectively trained using a displacement field from a subdomain of the test specimen and that the learned constitutive relation from one material sample is transferable to other samples with different geometries. The developed methodology provides an effective tool for discovering constitutive relations.
翻訳日:2024-07-31 19:18:14 公開日:2024-07-25
# 説明可能なAIを用いたヘイト・カウンタ音声検出器の可視性の検討

Exploring the Plausibility of Hate and Counter Speech Detectors with Explainable AI ( http://arxiv.org/abs/2407.20274v1 )

ライセンス: Link先を確認
Adrian Jaques Böck, Djordje Slijepčević, Matthias Zeppelzauer, (参考訳) 本稿では,トランスモデルの説明可能性とヘイトスピーチと対向音声検出に対する妥当性について検討する。 本研究では, 勾配に基づく, 摂動に基づく, 注意に基づく, およびプロトタイプに基づく4つの異なる説明可能性アプローチの代表者を比較し, ユーザスタディにおいて, アブレーション研究と定性的にそれらを定量的に分析する。 その結果,摂動に基づく説明可能性が最も優れており,次に勾配に基づく説明可能性,注意に基づく説明可能性を示す。 原型に基づく実験では有用な結果が得られなかった。 全体として、モデルの予測をよりよく理解するために、説明可能性がユーザを強く支えていることを観察する。

In this paper we investigate the explainability of transformer models and their plausibility for hate speech and counter speech detection. We compare representatives of four different explainability approaches, i.e., gradient-based, perturbation-based, attention-based, and prototype-based approaches, and analyze them quantitatively with an ablation study and qualitatively in a user study. Results show that perturbation-based explainability performs best, followed by gradient-based and attention-based explainability. Prototypebased experiments did not yield useful results. Overall, we observe that explainability strongly supports the users in better understanding the model predictions.
翻訳日:2024-07-31 19:18:14 公開日:2024-07-25
# AIの合理性を評価する - シーケンシャルな意思決定システムのためのランダムギーザーテスト

Assessing AI Rationality: The Random Guesser Test for Sequential Decision-Making Systems ( http://arxiv.org/abs/2407.20276v1 )

ライセンス: Link先を確認
Shun Ide, Allison Blunt, Djallel Bouneffouf, (参考訳) 本稿では,人工知能(AI)システムのリスクと脆弱性を定量的に評価する一般的な手法を提案する。 提案手法の導出原理は、任意のAIアルゴリズムがランダムな推測よりも優れていることである。 これはささやかなように見えるかもしれないが、ルーレットゲームを含む簡潔なシーケンシャルな意思決定シナリオによる経験的な結果は、洗練されたAIベースのアプローチが、しばしばランダムな推測をかなりの差で下回っていることを示している。 現代のリコメンデータシステムは、リスクの低い選択肢を優先する傾向が似たようなものである可能性があることを強調する。 この「ランダムな推測テスト」は、AI行動の合理性を評価するのに有用なツールであり、そのようなシステムの改善の可能性として探索の増大を指摘する。

We propose a general approach to quantitatively assessing the risk and vulnerability of artificial intelligence (AI) systems to biased decisions. The guiding principle of the proposed approach is that any AI algorithm must outperform a random guesser. This may appear trivial, but empirical results from a simplistic sequential decision-making scenario involving roulette games show that sophisticated AI-based approaches often underperform the random guesser by a significant margin. We highlight that modern recommender systems may exhibit a similar tendency to favor overly low-risk options. We argue that this "random guesser test" can serve as a useful tool for evaluating the rationality of AI actions, and also points towards increasing exploration as a potential improvement to such systems.
翻訳日:2024-07-31 19:18:14 公開日:2024-07-25
# 等価負荷シーディングのための機械学習: バインディング制約の学習によるリアルタイムソリューション

Machine Learning for Equitable Load Shedding: Real-time Solution via Learning Binding Constraints ( http://arxiv.org/abs/2407.18989v1 )

ライセンス: Link先を確認
Yuqi Zhou, Joseph Severino, Sanjana Vijayshankar, Juliette Ugirumurera, Jibo Sanyal, (参考訳) 電力系統におけるタイムリーかつ効果的な負荷削減は、需給バランスの維持とカスケードブラックアウトの防止に重要である。 システムの特定の領域に対する負荷シェディングバイアスを排除するため、最適化に基づく手法は経済と株式のバランスをとるのに一意に位置づけられている。 しかし、結果として生じる最適化問題には複雑な制約が伴うため、解決には時間を要するため、負荷シェディングのリアルタイム要求を満たすことはできない。 この課題に対処するために、最適化に基づく負荷層問題に対してミリ秒レベルの計算を可能にする効率的な機械学習アルゴリズムを提案する。 3バス玩具の例と現実的RTS-GMLCシステムの両方に関する数値的研究により, 提案アルゴリズムの有効性と実時間載荷決定の妥当性を実証した。

Timely and effective load shedding in power systems is critical for maintaining supply-demand balance and preventing cascading blackouts. To eliminate load shedding bias against specific regions in the system, optimization-based methods are uniquely positioned to help balance between economical and equity considerations. However, the resulting optimization problem involves complex constraints, which can be time-consuming to solve and thus cannot meet the real-time requirements of load shedding. To tackle this challenge, in this paper we present an efficient machine learning algorithm to enable millisecond-level computation for the optimization-based load shedding problem. Numerical studies on both a 3-bus toy example and a realistic RTS-GMLC system have demonstrated the validity and efficiency of the proposed algorithm for delivering equitable and real-time load shedding decisions.
翻訳日:2024-07-30 20:22:03 公開日:2024-07-25
# Stay Tuned: LLMチューニングにおけるハイパーパラメータの影響に関する実証的研究

Stay Tuned: An Empirical Study of the Impact of Hyperparameters on LLM Tuning in Real-World Applications ( http://arxiv.org/abs/2407.18990v1 )

ライセンス: Link先を確認
Alon Halfon, Shai Gretz, Ofir Arviv, Artem Spector, Orith Toledo-Ronen, Yoav Katz, Liat Ein-Dor, Michal Shmueli-Scheuer, Noam Slonim, (参考訳) 細調整型大規模言語モデル(LLM)は、下流タスクのパフォーマンスを向上させる効果的な方法である。 しかしながら、ハイパーパラメータ(HP)のチューニングの適切な設定を選択することは、労働集約的で計算コストのかかるプロセスである。 本稿では,2つのSOTA LLMと2つの一般的なチューニング手法を検討する際に,実践者にとってより良い出発点を示す実用的なユースケースのためのHP構成を提案する。 オフラインの広範グリッドサーチに基づいてHP構成をランク付けするプロセスであるCoverage-based Search (CBS)について述べる。 我々はLlama-3-8BとMistral-7B、そして完全な微調整とLoRaに焦点を合わせ、合計1万回以上のチューニング実験を行った。 以上の結果から,Llama-3-8BとLoRAは可能な限り好適であることが示唆された。 さらに,本研究では,モデルとチューニング手法の両面において,HPの構成をわずかに探すことによって,実運用において優れた結果が得られることを示し,実践者にとって貴重な資源となることを示す。

Fine-tuning Large Language Models (LLMs) is an effective method to enhance their performance on downstream tasks. However, choosing the appropriate setting of tuning hyperparameters (HPs) is a labor-intensive and computationally expensive process. Here, we provide recommended HP configurations for practical use-cases that represent a better starting point for practitioners, when considering two SOTA LLMs and two commonly used tuning methods. We describe Coverage-based Search (CBS), a process for ranking HP configurations based on an offline extensive grid search, such that the top ranked configurations collectively provide a practical robust recommendation for a wide range of datasets and domains. We focus our experiments on Llama-3-8B and Mistral-7B, as well as full fine-tuning and LoRa, conducting a total of > 10,000 tuning experiments. Our results suggest that, in general, Llama-3-8B and LoRA should be preferred, when possible. Moreover, we show that for both models and tuning methods, exploring only a few HP configurations, as recommended by our analysis, can provide excellent results in practice, making this work a valuable resource for practitioners.
翻訳日:2024-07-30 20:22:03 公開日:2024-07-25
# 顔表情生成のための局所微粒化制御に向けて

Towards Localized Fine-Grained Control for Facial Expression Generation ( http://arxiv.org/abs/2407.20175v1 )

ライセンス: Link先を確認
Tuomas Varanka, Huai-Qian Khor, Yante Li, Mengting Wei, Hanwei Kung, Nicu Sebe, Guoying Zhao, (参考訳) 近年、高品質な画像や動画を制作できるため、生成モデルの人気が高まっている。 しかし、これらのモデルを使って特定の属性と正確な制御で画像を生成することは依然として困難である。 人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。 現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。 怒りのような他の基本的な表現は可能であるが、ステレオタイプ的な表現に限られる。 本研究では,顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。 AUは、顔の解剖に基づいて、個々の顔の筋肉の動きを記述し、顔の動きの強さを正確にかつ局所的に制御することができる。 異なるアクションユニットを組み合わせることで、典型的な感情モデルを超えて、現実の表現を反映したニュアンスと真正の反応を可能にする、非伝統的な表情を生成することができる。 提案手法は,アダプタを用いてテキストと画像のプロンプトをシームレスに統合することにより,生成した結果の正確かつ直感的な制御を実現する。 コードとデータセットは、https://github.com/tvaranka/fineface}で確認できる。

Generative models have surged in popularity recently due to their ability to produce high-quality images and video. However, steering these models to produce images with specific attributes and precise control remains challenging. Humans, particularly their faces, are central to content generation due to their ability to convey rich expressions and intent. Current generative models mostly generate flat neutral expressions and characterless smiles without authenticity. Other basic expressions like anger are possible, but are limited to the stereotypical expression, while other unconventional facial expressions like doubtful are difficult to reliably generate. In this work, we propose the use of AUs (action units) for facial expression control in face generation. AUs describe individual facial muscle movements based on facial anatomy, allowing precise and localized control over the intensity of facial movements. By combining different action units, we unlock the ability to create unconventional facial expressions that go beyond typical emotional models, enabling nuanced and authentic reactions reflective of real-world expressions. The proposed method can be seamlessly integrated with both text and image prompts using adapters, offering precise and intuitive control of the generated results. Code and dataset are available in {https://github.com/tvaranka/fineface}.
翻訳日:2024-07-30 12:45:22 公開日:2024-07-25
# UNIQORN: RDF知識グラフと自然言語テキストに関する統一質問

UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text ( http://arxiv.org/abs/2108.08614v9 )

ライセンス: Link先を確認
Soumajit Pramanik, Jesujoba Alabi, Rishiraj Saha Roy, Gerhard Weikum, (参考訳) 知識グラフのようなRDFデータに対する質問応答は大幅に進歩しており、自然言語の質問やテレグラフのクエリに対する簡潔な回答を提供する優れたシステムも数多くある。 これらのシステムの一部には、回答プロセスのさらなる証拠としてテキストソースが組み込まれているが、テキストのみに存在する回答は計算できない。 逆に、IRとNLPのコミュニティはテキスト上のQAに対処してきたが、そのようなシステムは意味的なデータや知識をほとんど利用していない。 本稿では,RDFデータセットとテキストコーパス,あるいは個々のソースを併用した複雑な質問を統一的なフレームワークでシームレスに操作する手法を提案する。 我々の手法はUNIQORNと呼ばれ、細調整されたBERTモデルを用いてRDFデータおよび/またはテキストコーパスから質問関連エビデンスを検索し、コンテキストグラフをオンザフライで構築する。 結果として得られるグラフは、典型的にはすべての疑問関連エビデンスを含むが、多くのノイズも含む。 UNIQORNは、この入力をグループステイナツリーのグラフアルゴリズムによって処理し、コンテキストグラフの最良の解候補を特定する。 複数のエンティティと関係を持つ複雑な質問のベンチマーク実験の結果、UNIQORNは、完全トレーニングモードとゼロショット設定において、異種QAの最先端メソッドを著しく上回ることを示した。 グラフベースの方法論は、完全な回答プロセスのユーザ解釈可能な証拠を提供する。

Question answering over RDF data like knowledge graphs has been greatly advanced, with a number of good systems providing crisp answers for natural language questions or telegraphic queries. Some of these systems incorporate textual sources as additional evidence for the answering process, but cannot compute answers that are present in text alone. Conversely, the IR and NLP communities have addressed QA over text, but such systems barely utilize semantic data and knowledge. This paper presents a method for complex questions that can seamlessly operate over a mixture of RDF datasets and text corpora, or individual sources, in a unified framework. Our method, called UNIQORN, builds a context graph on-the-fly, by retrieving question-relevant evidences from the RDF data and/or a text corpus, using fine-tuned BERT models. The resulting graph typically contains all question-relevant evidences but also a lot of noise. UNIQORN copes with this input by a graph algorithm for Group Steiner Trees, that identifies the best answer candidates in the context graph. Experimental results on several benchmarks of complex questions with multiple entities and relations, show that UNIQORN significantly outperforms state-of-the-art methods for heterogeneous QA -- in a full training mode, as well as in zero-shot settings. The graph-based methodology provides user-interpretable evidence for the complete answering process.
翻訳日:2024-07-29 18:55:44 公開日:2024-07-25
# 航空分野における強化学習に関する調査研究

A Survey on Reinforcement Learning in Aviation Applications ( http://arxiv.org/abs/2211.02147v3 )

ライセンス: Link先を確認
Pouria Razzaghi, Amin Tabrizian, Wei Guo, Shulu Chen, Abenezer Taye, Ellis Thompson, Alexis Bregeon, Ali Baheri, Peng Wei, (参考訳) モデルに基づく制御と最適化手法と比較して、強化学習(RL)は、逐次的な意思決定問題を定式化し解決するためのデータ駆動型学習ベースのフレームワークを提供する。 RLフレームワークは、航空業界におけるデータ可用性と計算能力の大幅な改善により、有望になった。 多くの航空ベースのアプリケーションは、シーケンシャルな意思決定問題として定式化または扱われる。 いくつかはオフラインの計画上の問題だが、他のものはオンラインで解決する必要がある。 本稿では,まず標準RLの定式化と解について述べる。 次に、航空における既存のRLベースアプリケーションの状況について調査する。 最後に、本論文を要約し、技術的ギャップを特定し、航空におけるRL研究の今後の方向性を提案する。

Compared with model-based control and optimization methods, reinforcement learning (RL) provides a data-driven, learning-based framework to formulate and solve sequential decision-making problems. The RL framework has become promising due to largely improved data availability and computing power in the aviation industry. Many aviation-based applications can be formulated or treated as sequential decision-making problems. Some of them are offline planning problems, while others need to be solved online and are safety-critical. In this survey paper, we first describe standard RL formulations and solutions. Then we survey the landscape of existing RL-based applications in aviation. Finally, we summarize the paper, identify the technical gaps, and suggest future directions of RL research in aviation.
翻訳日:2024-07-29 18:51:23 公開日:2024-07-25
# ExcelFormer: 表データ上のGBDTを超えるニューラルネットワーク

ExcelFormer: A neural network surpassing GBDTs on tabular data ( http://arxiv.org/abs/2301.02819v8 )

ライセンス: Link先を確認
Jintai Chen, Jiahuan Yan, Qiyuan Chen, Danny Ziyi Chen, Jian Wu, Jimeng Sun, (参考訳) 表形式で整理されたデータは、現実世界のアプリケーションではユビキタスであり、ユーザーはしばしば、バイアスのある特徴定義を持つテーブルを作成し、自分の興味の予測ターゲットを柔軟に設定する。 したがって、堅牢で、効果的で、データセットに反し、ユーザフレンドリな表型予測アプローチの急速な開発が望まれている。 グラディエントブースティング決定木(GBDT)と既存のディープニューラルネットワーク(DNN)がプロのユーザによって広く利用されている一方で、彼らはカジュアルなユーザ、特にカジュアルなユーザに対していくつかの課題を提示している。 一 データセットの好みの違いによるモデル選択のジレンマ、及び (II)重度ハイパーパラメータ探索の必要性は,その性能が不十分であると考えられる。 本稿では,様々な表形式の予測タスクに対して,かつカジュアルなユーザにも親しみやすい「確実な賭け」ソリューションとして機能するディープラーニングモデルを開発することができるか,という課題を掘り下げる。 P1) 回転分散特性の欠如,(P2) 大規模データ需要,(P3) 過スムース解の3つの重要な欠点を考察した。 ExcelFormerは,DNNの回転不変性(P1の場合)を損なうような,情報の少ない特徴の影響を効果的に抑制する半透過型アテンションモジュール,表層データに適したデータ拡張アプローチ(P2),モデル適合性を高めるための注意型フィードフォワードネットワーク(P3の場合)を通じて,これらの課題に対処する。 これらの設計はExcelFormerを多種多様な表データセットの"確実な賭け"ソリューションにしている。 実世界のデータセットで実施された広範かつ階層化された実験により、我々のモデルは様々な表形式のデータ予測タスクにまたがって過去のアプローチよりも優れており、このフレームワークはカジュアルなユーザと親しみやすく、重いハイパーパラメータチューニングを使わずに使いやすくする。

Data organized in tabular format is ubiquitous in real-world applications, and users often craft tables with biased feature definitions and flexibly set prediction targets of their interests. Thus, a rapid development of a robust, effective, dataset-versatile, user-friendly tabular prediction approach is highly desired. While Gradient Boosting Decision Trees (GBDTs) and existing deep neural networks (DNNs) have been extensively utilized by professional users, they present several challenges for casual users, particularly: (i) the dilemma of model selection due to their different dataset preferences, and (ii) the need for heavy hyperparameter searching, failing which their performances are deemed inadequate. In this paper, we delve into this question: Can we develop a deep learning model that serves as a "sure bet" solution for a wide range of tabular prediction tasks, while also being user-friendly for casual users? We delve into three key drawbacks of deep tabular models, encompassing: (P1) lack of rotational variance property, (P2) large data demand, and (P3) over-smooth solution. We propose ExcelFormer, addressing these challenges through a semi-permeable attention module that effectively constrains the influence of less informative features to break the DNNs' rotational invariance property (for P1), data augmentation approaches tailored for tabular data (for P2), and attentive feedforward network to boost the model fitting capability (for P3). These designs collectively make ExcelFormer a "sure bet" solution for diverse tabular datasets. Extensive and stratified experiments conducted on real-world datasets demonstrate that our model outperforms previous approaches across diverse tabular data prediction tasks, and this framework can be friendly to casual users, offering ease of use without the heavy hyperparameter tuning.
翻訳日:2024-07-29 18:51:23 公開日:2024-07-25
# 分散デジタル履歴構築のためのOCR

Efficient OCR for Building a Diverse Digital History ( http://arxiv.org/abs/2304.02737v2 )

ライセンス: Link先を確認
Jacob Carlson, Tom Bryan, Melissa Dell, (参考訳) 何千人ものユーザーが毎日デジタルアーカイブを参照しているが、アクセス可能な情報は、ドキュメンタリーの歴史の多様性を表すものではない。 オプティカル文字認識(OCR)で一般的に使用されるシーケンス・ツー・シーケンスアーキテクチャは、視覚と言語モデルを共同で学習するが、言語ビジョンモデルの学習には広範囲のラベル付きシーケンスと計算が必要であるため、低リソースの文書コレクションには拡張性に欠ける。 本研究では,OCRを文字レベルの画像検索問題として,対照的に訓練された視覚エンコーダを用いてモデル化する。 モデルは文字の視覚的特徴のみを学習するため、既存のアーキテクチャよりもサンプル効率が高く拡張性が高く、既存のソリューションが失敗する環境で正確なOCRを可能にする。 重要なことに、このモデルは、デジタル歴史をよりドキュメンタリー歴史を代表するものにするコミュニティエンゲージメントのための新しい道を開く。

Thousands of users consult digital archives daily, but the information they can access is unrepresentative of the diversity of documentary history. The sequence-to-sequence architecture typically used for optical character recognition (OCR) - which jointly learns a vision and language model - is poorly extensible to low-resource document collections, as learning a language-vision model requires extensive labeled sequences and compute. This study models OCR as a character level image retrieval problem, using a contrastively trained vision encoder. Because the model only learns characters' visual features, it is more sample efficient and extensible than existing architectures, enabling accurate OCR in settings where existing solutions fail. Crucially, the model opens new avenues for community engagement in making digital history more representative of documentary history.
翻訳日:2024-07-29 18:51:23 公開日:2024-07-25
# 期待音楽変換器

Anticipatory Music Transformer ( http://arxiv.org/abs/2306.08620v2 )

ライセンス: Link先を確認
John Thickstun, David Hall, Chris Donahue, Percy Liang, (参考訳) 本稿では,第2の相関プロセス(制御プロセス)の実現に基づいて非同期に条件付けされた時間的ポイントプロセス(イベントプロセス)の制御可能な生成モデルを構築する方法を紹介する。 イベントシーケンスの停止時間に従って制御が現れるように、イベントとコントロールのシーケンスをインターリーブすることで、これを実現する。 この作品は、シンボリック・ミュージック・ジェネレーションの制御に生じる問題によって動機付けられている。 制御タスクは、制御自体がイベントのサブセットであり、条件付き生成は、固定された制御イベントが与えられたイベントのシーケンスを完了する。 大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。 これらのモデルは、伴奏を含むインフィル制御タスクを実行する追加機能を備えた、インプット音楽生成のための自己回帰モデルのパフォーマンスにマッチする。 人間の評価者は、予測モデルが20秒のクリップで人間の作曲した音楽に類似した音楽の伴奏を生成すると報告している。

We introduce anticipation: a method for constructing a controllable generative model of a temporal point process (the event process) conditioned asynchronously on realizations of a second, correlated process (the control process). We achieve this by interleaving sequences of events and controls, such that controls appear following stopping times in the event sequence. This work is motivated by problems arising in the control of symbolic music generation. We focus on infilling control tasks, whereby the controls are a subset of the events themselves, and conditional generation completes a sequence of events given the fixed control events. We train anticipatory infilling models using the large and diverse Lakh MIDI music dataset. These models match the performance of autoregressive models for prompted music generation, with the additional capability to perform infilling control tasks, including accompaniment. Human evaluators report that an anticipatory model produces accompaniments with similar musicality to even music composed by humans over a 20-second clip.
翻訳日:2024-07-29 18:41:36 公開日:2024-07-25
# 量子状態とSPAMノイズの同時トモグラフィのための普遍的枠組み

Universal framework for simultaneous tomography of quantum states and SPAM noise ( http://arxiv.org/abs/2308.15648v6 )

ライセンス: Link先を確認
Abhijith Jayakumar, Stefano Chessa, Carleton Coffrin, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra, (参考訳) 本稿では,量子状態と測定ノイズの同時トモグラフィを実現するための一般的なデノゲーションアルゴリズムを提案する。 このアルゴリズムにより、任意の量子系に存在する状態準備測定(SPAM)誤差を完全に特徴づけることができる。 本手法は、ユニタリ演算によって誘導される線形作用素空間の特性の解析に基づく。 ノイズ測定装置を備えた任意の量子系が与えられた場合、本手法は検出器の量子状態とノイズ行列を1ゲージ自由度まで出力することができる。 一般の場合、このゲージ自由度は避けられないが、この縮退性は、状態やノイズ特性に関する事前の知識を用いて、一般に破壊されうるので、雑音強度に関する仮定なしに、いくつかの種類の状態-雑音の組み合わせに対してゲージを固定することができる。 このような組み合わせには、任意に相関したエラーを持つ純粋量子状態と、独立なエラーをブロックする任意の状態が含まれる。 このフレームワークは、設定に関する事前情報をさらに活用して、状態検出やノイズ検出に必要な観測と測定の数を体系的に削減することができる。 本手法は,問題に対する既存のアプローチを効果的に一般化し,非相関的あるいは可逆的なノイズ行列,あるいは特定のプローブ状態を必要とする文献で考慮される一般的な設定を含む。

We present a general denoising algorithm for performing simultaneous tomography of quantum states and measurement noise. This algorithm allows us to fully characterize state preparation and measurement (SPAM) errors present in any quantum system. Our method is based on the analysis of the properties of the linear operator space induced by unitary operations. Given any quantum system with a noisy measurement apparatus, our method can output the quantum state and the noise matrix of the detector up to a single gauge degree of freedom. We show that this gauge freedom is unavoidable in the general case, but this degeneracy can be generally broken using prior knowledge on the state or noise properties, thus fixing the gauge for several types of state-noise combinations with no assumptions about noise strength. Such combinations include pure quantum states with arbitrarily correlated errors, and arbitrary states with block independent errors. This framework can further use available prior information about the setting to systematically reduce the number of observations and measurements required for state and noise detection. Our method effectively generalizes existing approaches to the problem, and includes as special cases common settings considered in the literature requiring an uncorrelated or invertible noise matrix, or specific probe states.
翻訳日:2024-07-29 18:41:36 公開日:2024-07-25
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法による3次元特徴層の構築

MS23D: : A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v8 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Binrui Wang, Tianhong Yan, Zhetao Sun, Yiyang Zhang, Jiaxin Liu, (参考訳) LiDAR点雲は、三次元空間における物体の動きと姿勢を効果的に描写することができる。 多くの研究では、点雲の酸化による3次元物体の検出が達成されている。 しかし、自律運転のシナリオでは、点雲の空間性と空洞性は、ボキセルベースの方法にいくつかの困難をもたらす。 点雲の広がりは、物体の幾何学的特徴を記述するのを困難にしている。 点雲の空洞性は、3次元特徴の集約に困難をもたらす。 我々はMS23Dと呼ばれる2段階の3Dオブジェクト検出フレームワークを提案する。 1) マルチブランチからのボクセル特徴点を用いた3次元特徴層の構築手法を提案する。 異なる分岐からのボクセル特徴点を用いて,よりリッチなセマンティック特徴を持つ比較的コンパクトな3D特徴層を構築する。 さらに, 距離重み付きサンプリング手法を提案し, ダウンサンプリングによる前景点の損失を低減し, 3次元特徴層がより多くの前景点を保持することができるようにした。 2) 点雲の空洞化に反応して, 物体の遠心点と深度特徴点とのオフセットを予測し, 物体の遠心点にできるだけ接近させる。 これにより、これらの特徴点と豊富な意味的特徴の集約が可能になる。 浅層からの特徴点については、物体の幾何学的特徴を記述するために、物体の表面に保持する。 提案手法の有効性を,KITTIデータセットとONCEデータセットの両方で評価した。

LiDAR point clouds can effectively depict the motion and posture of objects in three-dimensional space. Many studies accomplish the 3D object detection by voxelizing point clouds. However, in autonomous driving scenarios, the sparsity and hollowness of point clouds create some difficulties for voxel-based methods. The sparsity of point clouds makes it challenging to describe the geometric features of objects. The hollowness of point clouds poses difficulties for the aggregation of 3D features. We propose a two-stage 3D object detection framework, called MS23D. (1) We propose a method using voxel feature points from multi-branch to construct the 3D feature layer. Using voxel feature points from different branches, we construct a relatively compact 3D feature layer with rich semantic features. Additionally, we propose a distance-weighted sampling method, reducing the loss of foreground points caused by downsampling and allowing the 3D feature layer to retain more foreground points. (2) In response to the hollowness of point clouds, we predict the offsets between deep-level feature points and the object's centroid, making them as close as possible to the object's centroid. This enables the aggregation of these feature points with abundant semantic features. For feature points from shallow-level, we retain them on the object's surface to describe the geometric features of the object. To validate our approach, we evaluated its effectiveness on both the KITTI and ONCE datasets.
翻訳日:2024-07-29 18:41:36 公開日:2024-07-25
# スマートマニュファクチャリングにおけるトポロジカルデータ分析:技術の現状と今後の方向性

Topological Data Analysis in smart manufacturing: State of the art and futuredirections ( http://arxiv.org/abs/2310.09319v3 )

ライセンス: Link先を確認
Martin Uray, Barbara Giunti, Michael Kerber, Stefan Huber, (参考訳) トポロジカル・データ・アナリティクス(TDA)は、複雑な多次元データを分析するために代数的トポロジ手法を適用する分野である。 比較的新しい分野であるが、TDAは医学、材料科学、生物学など様々な分野に広く応用されている。 本調査は、工業生産と生産、特に産業4.0の文脈における、動的かつ有望な分野におけるTDAの現状の概要を提供する。 我々は、工業生産および製造環境におけるTDA応用に焦点を当てた厳密で再現可能な文献検索を行った。 特定された作業は、製造プロセス内の適用領域と入力データの種類に基づいて分類される。 我々は、この文脈におけるTDAツールの主な利点を強調し、遭遇した課題とこの分野の将来の可能性に対処する。 さらに, 特定の産業分野において未開拓のTDA法を同定し, 今後の研究の促進をめざして, 適用のメリットについて論じる。 この研究は、TDAの理論的進歩と工業生産の実践的ニーズを橋渡ししようとしている。 我々の目標は、産業生産・製造システムにTDAを適用する実践者や研究者のためのガイドとして機能することである。 我々は、この領域におけるTDAの未解決の可能性を主張し、調査と研究の継続を奨励する。

Topological Data Analysis (TDA) is a discipline that applies algebraic topology techniques to analyze complex, multi-dimensional data. Although it is a relatively new field, TDA has been widely and successfully applied across various domains, such as medicine, materials science, and biology. This survey provides an overview of the state of the art of TDA within a dynamic and promising application area: industrial manufacturing and production, particularly within the Industry 4.0 context. We have conducted a rigorous and reproducible literature search focusing on TDA applications in industrial production and manufacturing settings. The identified works are categorized based on their application areas within the manufacturing process and the types of input data. We highlight the principal advantages of TDA tools in this context, address the challenges encountered and the future potential of the field. Furthermore, we identify TDA methods that are currently underexploited in specific industrial areas and discuss how their application could be beneficial, with the aim of stimulating further research in this field. This work seeks to bridge the theoretical advancements in TDA with the practical needs of industrial production. Our goal is to serve as a guide for practitioners and researchers applying TDA in industrial production and manufacturing systems. We advocate for the untapped potential of TDA in this domain and encourage continued exploration and research.
翻訳日:2024-07-29 18:41:36 公開日:2024-07-25
# Feature- and Pixel-based registration を用いた新しいOCTモザイクパイプライン

Novel OCT mosaicking pipeline with Feature- and Pixel-based registration ( http://arxiv.org/abs/2311.13052v2 )

ライセンス: Link先を確認
Jiacheng Wang, Hao Li, Dewei Hu, Yuankai K. Tao, Ipek Oguz, (参考訳) 高分解能光コヒーレンス・トモグラフィー(OCT)画像は眼科研究に不可欠であるが、その視野は比較的狭い(FoV)。 画像モザイク(英: image mosaicking)とは、複数の重なり合う画像を調整してより大きなFoVを得る手法である。 現在のモザイクパイプラインは、入力されたサブフィールド間のかなりのノイズとかなりの変位に苦しむことが多い。 本稿では,マルチビュー OCT/OCTA \textit{en face} プロジェクションイメージを縫合するための汎用パイプラインを提案する。 本手法は,複数の画像の整合性を向上するために,学習に基づく特徴マッチングと堅牢な画素ベース登録の長所を組み合わせる。 さらに,モザイクの結果を教師なしで検証するために,訓練された基礎モデルSegment Anything Model(SAM)の適用を進めた。 パイプラインの有効性を社内データセットと大規模公開データセットを用いて検証し,精度と計算効率の両面で優れた性能を示す。 また,画像モザイク評価ツールや,それに対応するパイプラインを \url{https://github.com/MedICL-VU/OCT-mosaicking} で公開しました。

High-resolution Optical Coherence Tomography (OCT) images are crucial for ophthalmology studies but are limited by their relatively narrow field of view (FoV). Image mosaicking is a technique for aligning multiple overlapping images to obtain a larger FoV. Current mosaicking pipelines often struggle with substantial noise and considerable displacement between the input sub-fields. In this paper, we propose a versatile pipeline for stitching multi-view OCT/OCTA \textit{en face} projection images. Our method combines the strengths of learning-based feature matching and robust pixel-based registration to align multiple images effectively. Furthermore, we advance the application of a trained foundational model, Segment Anything Model (SAM), to validate mosaicking results in an unsupervised manner. The efficacy of our pipeline is validated using an in-house dataset and a large public dataset, where our method shows superior performance in terms of both accuracy and computational efficiency. We also made our evaluation tool for image mosaicking and the corresponding pipeline publicly available at \url{https://github.com/MedICL-VU/OCT-mosaicking}.
翻訳日:2024-07-29 18:31:34 公開日:2024-07-25
# Sub-2 炭化ケイ素ナノピラーにおける窒素空孔中心のケルビン特性(ポスター発表)

Sub-2 Kelvin characterization of nitrogen-vacancy centers in silicon carbide nanopillars ( http://arxiv.org/abs/2401.10509v2 )

ライセンス: Link先を確認
Victoria A. Norman, Sridhar Majety, Alex H. Rubin, Pranta Saha, Jeanette Simo, Bradi Palomarez, Liang Li, Pietra B. Curro, Scott Dhuey, Selven Virasawmy, Marina Radulaski, (参考訳) 効率的な量子通信技術の開発は、ナノスケールの物理系の基本特性からマクロスケールの計測レベルまで、その実装の複数の層における革新に依存している。 我々は、4H-SiCの窒素空孔(NV)中心である有望な近赤外線量子エミッタを選択し、それをアンサンブルレベルで、光子収集効率を高めるナノピラー構造と統合する。 ケルビン温度でNV中心特性を特徴付けるため,光クライオスタットの室内に超伝導ナノワイヤ単光子検出器を内蔵し,発光・集光・光子検出用集積極低温システムICECAPを開発した。 ICECAP測定では,NVアンサンブル放射のライン幅の増大は見られず,28倍の増大が見られた。 さらなるフィルタリングにより、NV中心のエミッター寿命を基底(hk$)と軸(kk$)で測定し、2.21 nsおよび2.86 nsの低温発生値を公開する。

The development of efficient quantum communication technologies depends on the innovation in multiple layers of its implementation, a challenge we address from the fundamental properties of the physical system at the nano-scale to the instrumentation level at the macro-scale. We select a promising near infrared quantum emitter, the nitrogen-vacancy (NV) center in 4H-SiC, and integrate it, at an ensemble level, with nanopillar structures that enhance photon collection efficiency into an objective lens. To characterize NV center properties at the unprecedented sub-2 Kelvin temperatures, we incorporate compatible superconducting nanowire single photon detectors inside the chamber of an optical cryostat and create the ICECAP, the Integrated Cryogenic system for Emission, Collection And Photon-detection. ICECAP measurements show no significant linewidth broadening of NV ensemble emission and up to 28-fold enhancement in collected emission. With additional filtering, we measure emitter lifetimes of NV centers in a basal ($hk$) and an axial ($kk$) orientation unveiling their cryogenic values of 2.21 ns and 2.86 ns.
翻訳日:2024-07-29 18:31:34 公開日:2024-07-25
# 非社会的インテリジェンス : AGI談話の想定に関する考察

Unsocial Intelligence: an Investigation of the Assumptions of AGI Discourse ( http://arxiv.org/abs/2401.13142v4 )

ライセンス: Link先を確認
Borhane Blili-Hamelin, Leif Hancox-Li, Andrew Smart, (参考訳) 人間の知能に匹敵する機械の夢は、その誕生以来AIの分野を形成してきた。 しかし、人間レベルのAIや人工知能(Artificial General Intelligence, AGI)の意味は、いまだ解明されていない。 AGIの定義は、様々な非互換な値と仮定を受け入れている。 AGI談話の破局的な世界観は、異なる価値観や未来を追求する批判に不可欠である。 この目的のために、我々は、AGI定義の分類を提供し、彼らが行う重要な社会的、政治的、倫理的仮定を調べるための基盤を築き上げます。 これらの定義がAGIや人間レベルのAIを技術的なトピックとして捉え、暗黙的に選択される価値の高い選択肢を明らかにするインスタンスを強調します。 フェミニスト、STS、社会科学の奨学金をもとに、人間と機械の両方における知能の政治的・社会的性格を描き、未来の機械知能を想像するための文脈的・民主的・参加的な経路を提案する。 将来のAIの発展には、それがエンコードする価値、それを含むか排除する人々、および認識論的正義へのコミットメントへの明確な注意が必要である。

Dreams of machines rivaling human intelligence have shaped the field of AI since its inception. Yet, the very meaning of human-level AI or artificial general intelligence (AGI) remains elusive and contested. Definitions of AGI embrace a diverse range of incompatible values and assumptions. Contending with the fractured worldviews of AGI discourse is vital for critiques that pursue different values and futures. To that end, we provide a taxonomy of AGI definitions, laying the ground for examining the key social, political, and ethical assumptions they make. We highlight instances in which these definitions frame AGI or human-level AI as a technical topic and expose the value-laden choices being implicitly made. Drawing on feminist, STS, and social science scholarship on the political and social character of intelligence in both humans and machines, we propose contextual, democratic, and participatory paths to imagining future forms of machine intelligence. The development of future forms of AI must involve explicit attention to the values it encodes, the people it includes or excludes, and a commitment to epistemic justice.
翻訳日:2024-07-29 18:21:50 公開日:2024-07-25
# 分散型ブロックチェーンベースロバストマルチエージェントマルチアームバンド

Decentralized Blockchain-based Robust Multi-agent Multi-armed Bandit ( http://arxiv.org/abs/2402.04417v2 )

ライセンス: Link先を確認
Mengfan Xu, Diego Klabjan, (参考訳) 我々は、悪意のある参加者の存在、すなわち、複数の参加者が完全に分散化されたブロックチェーン上に分散されるマルチエージェントのマルチアームバンディット問題の存在下で、一部の参加者が悪意を持つ可能性がある、というロバストな研究を行っている。 アームの報酬は正直な参加者の間で均質であり、時間不変確率分布に従って、調整機構が十分に安全であることを確実にするために特定の条件が満たされた場合にのみ、参加者に開示される。 調整機構の目的は、正直な参加者が得られる累積報酬が最大化されることを効率的に保証することである。 この目的のために、私たちは、ブロックチェーンの高度な技術と、新しいメカニズムを、誠実な参加者のために最適な戦略を設計するための、このような協調的な意思決定フレームワークに組み入れました。 このフレームワークは、さまざまな悪意ある振る舞いと、セキュリティの維持と、参加者のプライバシを許容する。 より具体的には、すべての参加者とコミュニケーションするバリデータプールを選択し、これらのバリデータに対するデジタル署名に基づく新たなコンセンサスメカニズムを設計し、セキュアなマルチパーティ計算によって参加者からの情報を少なくする UCB ベースの戦略を考案し、参加者の参加を促進するための連鎖参加者インタラクションとインセンティブメカニズムを設計する。 特に、提案アルゴリズムの理論的後悔を初めて証明し、その最適性を主張する。 ブロックチェーンを、主に計算実験による最適性に焦点を当てたフェデレーション学習のような学習問題と統合する既存の作業とは異なり、正直な参加者の後悔は、特定の仮定の下では$\log{T}$で上限づけられている。 後悔の束縛は、悪意のある参加者がいなければ、システム全体に影響を与えない純粋なビザンツ攻撃がなければ、マルチエージェントのマルチ武器の盗賊問題と一致している。

We study a robust, i.e. in presence of malicious participants, multi-agent multi-armed bandit problem where multiple participants are distributed on a fully decentralized blockchain, with the possibility of some being malicious. The rewards of arms are homogeneous among the honest participants, following time-invariant stochastic distributions, which are revealed to the participants only when certain conditions are met to ensure that the coordination mechanism is secure enough. The coordination mechanism's objective is to efficiently ensure the cumulative rewards gained by the honest participants are maximized. To this end, we are the first to incorporate advanced techniques from blockchains, as well as novel mechanisms, into such a cooperative decision making framework to design optimal strategies for honest participants. This framework allows various malicious behaviors and the maintenance of security and participant privacy. More specifically, we select a pool of validators who communicate to all participants, design a new consensus mechanism based on digital signatures for these validators, invent a UCB-based strategy that requires less information from participants through secure multi-party computation, and design the chain-participant interaction and an incentive mechanism to encourage participants' participation. Notably, we are the first to prove the theoretical regret of the proposed algorithm and claim its optimality. Unlike existing work that integrates blockchains with learning problems such as federated learning which mainly focuses on optimality via computational experiments, we demonstrate that the regret of honest participants is upper bounded by $\log{T}$ under certain assumptions. The regret bound is consistent with the multi-agent multi-armed bandit problem, both without malicious participants and with purely Byzantine attacks which do not affect the entire system.
翻訳日:2024-07-29 18:21:50 公開日:2024-07-25
# より説得力のあるLLMによる議論は、より真に答える

Debating with More Persuasive LLMs Leads to More Truthful Answers ( http://arxiv.org/abs/2402.06782v4 )

ライセンス: Link先を確認
Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez, (参考訳) 大規模言語モデル(LLM)を望ましい振る舞いと整合させる一般的な方法は、人間のラベル付きデータに大きく依存する。 しかし、モデルが高度化するにつれて、彼らは人間の専門知識を超越し、人間の評価の役割は専門家を監督する非専門家へと進化する。 より弱いモデルはより強いモデルの正しさを評価することができるか? より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。 LLMの専門家2人がそれぞれ異なる解答を主張し、非専門家が解答を選択する。 議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で答えるのに一貫して役立ちます。 さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。 以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。

Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is debate, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76% and 88% accuracy respectively (naive baselines obtain 48% and 60%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
翻訳日:2024-07-29 18:21:50 公開日:2024-07-25
# SafeDecoding: セーフ・アウェア・デコーディングによるジェイルブレイク攻撃に対する防御

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding ( http://arxiv.org/abs/2402.08983v4 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran, (参考訳) 大規模言語モデル(LLM)がコード生成やチャットボット支援といった現実のアプリケーションに統合されるにつれて、安全性を含むLLMの振る舞いを人間の価値と整合させる取り組みが盛んに行われている。 ジェイルブレイク攻撃は、LLMから意図しない、安全でない行動を誘発することを目的としており、LLMの安全性を脅かしている。 本稿では, LLMの安全を意識した復号化戦略であるSafeDecodingを導入して, ユーザクエリに対する有用な無害な応答を生成することで, ジェイルブレイク攻撃に対するLLMの防御を目指す。 セーフデコード開発における洞察は,有害な内容を表すトークンの確率が有害な応答を示すトークンよりも高いにもかかわらず,下位順の確率でトークンをソートした後も,安全宣言者がトップトークンに現れるという観察に基づいている。 これにより、ジェイルブレイク攻撃の目的に沿ったトークンシーケンスの確率を同時に減らしつつ、安全性の低下を識別し、トークン確率を増大させることで、ジェイルブレイク攻撃を軽減できます。 我々は6つの最先端のジェイルブレイク攻撃と4つのベンチマークデータセットを用いて、5つのLDMに対して広範な実験を行った。 この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。 SafeDecodingは6つの防御方法より優れている。

As large language models (LLMs) become increasingly integrated into real-world applications such as code generation and chatbot assistance, extensive efforts have been made to align LLM behavior with human values, including safety. Jailbreak attacks, aiming to provoke unintended and unsafe behaviors from LLMs, remain a significant/leading LLM safety threat. In this paper, we aim to defend LLMs against jailbreak attacks by introducing SafeDecoding, a safety-aware decoding strategy for LLMs to generate helpful and harmless responses to user queries. Our insight in developing SafeDecoding is based on the observation that, even though probabilities of tokens representing harmful contents outweigh those representing harmless responses, safety disclaimers still appear among the top tokens after sorting tokens by probability in descending order. This allows us to mitigate jailbreak attacks by identifying safety disclaimers and amplifying their token probabilities, while simultaneously attenuating the probabilities of token sequences that are aligned with the objectives of jailbreak attacks. We perform extensive experiments on five LLMs using six state-of-the-art jailbreak attacks and four benchmark datasets. Our results show that SafeDecoding significantly reduces the attack success rate and harmfulness of jailbreak attacks without compromising the helpfulness of responses to benign user queries. SafeDecoding outperforms six defense methods.
翻訳日:2024-07-29 18:21:50 公開日:2024-07-25
# 言語モデルダイアログにおけるインストラクションの測定と制御(In)安定性

Measuring and Controlling Instruction (In)Stability in Language Model Dialogs ( http://arxiv.org/abs/2402.10962v4 )

ライセンス: Link先を確認
Kenneth Li, Tianle Liu, Naomi Bashkansky, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg, (参考訳) システムプロンプティングは、言語モデルチャットボットをカスタマイズするための標準ツールであり、特定の命令に従うことができる。 システムプロンプトの使用における暗黙の仮定は、それらが安定しているというものであるため、チャットボットは会話の間、規定された指示に従ってテキストを生成し続ける。 この仮定を定量的に検証し、2つの指示されたチャットボット間のセルフチャットによる命令安定性を評価する。 LLaMA2-chat-70B や GPT-3.5 のような一般的なモデルをテストすると、8ラウンドの会話で重要な命令ドリフトが明らかになる。 この現象を実証的・理論的に分析すると、長い交換で注意が減衰するため、トランスフォーマーの注意機構が重要な役割を果たしていることが示唆される。 注目の減衰と命令のドリフトに対処するため,2つの強いベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。

System-prompting is a standard tool for customizing language-model chatbots, enabling them to follow a specific instruction. An implicit assumption in the use of system prompts is that they will be stable, so the chatbot will continue to generate text according to the stipulated instructions for the duration of a conversation. We propose a quantitative benchmark to test this assumption, evaluating instruction stability via self-chats between two instructed chatbots. Testing popular models like LLaMA2-chat-70B and GPT-3.5, we reveal a significant instruction drift within eight rounds of conversations. An empirical and theoretical analysis of this phenomenon suggests the transformer attention mechanism plays a role, due to attention decay over long exchanges. To combat attention decay and instruction drift, we propose a lightweight method called split-softmax, which compares favorably against two strong baselines.
翻訳日:2024-07-29 18:11:46 公開日:2024-07-25
# Poly Oculus: 同時多視点画像ベース新規ビュー合成

PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis ( http://arxiv.org/abs/2402.17986v3 )

ライセンス: Link先を確認
Jason J. Yu, Tristan Aumentado-Armstrong, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker, (参考訳) 本稿では,生成的新規ビュー合成(GNVS)の問題について考察する。 本稿では,複数のビューを同時に生成できるセットベース生成モデルを提案する。 我々のアプローチは一度に1つの画像を生成することに限らず、可変数のビューを条件にすることができる。 その結果、多数のビューを生成する場合、この手法は低次自己回帰生成アプローチに制限されず、大量の画像に対してより優れた画像品質を維持することができる。 我々は、標準NVSデータセット上でモデルを評価し、最先端の画像ベースであるGNVSベースラインよりも優れていることを示す。 さらに,本モデルでは,ループや双眼トラジェクトリのような自然な順序付けのないビューを生成でき,他の手法よりも優れていることを示す。

This paper considers the problem of generative novel view synthesis (GNVS), generating novel, plausible views of a scene given a limited number of known views. Here, we propose a set-based generative model that can simultaneously generate multiple, self-consistent new views, conditioned on any number of views. Our approach is not limited to generating a single image at a time and can condition on a variable number of views. As a result, when generating a large number of views, our method is not restricted to a low-order autoregressive generation approach and is better able to maintain generated image quality over large sets of images. We evaluate our model on standard NVS datasets and show that it outperforms the state-of-the-art image-based GNVS baselines. Further, we show that the model is capable of generating sets of views that have no natural sequential ordering, like loops and binocular trajectories, and significantly outperforms other methods on such tasks.
翻訳日:2024-07-29 18:11:46 公開日:2024-07-25
# NLIにおける構成一般化の継続的な学習の探索

Exploring Continual Learning of Compositional Generalization in NLI ( http://arxiv.org/abs/2403.04400v2 )

ライセンス: Link先を確認
Xiyan Fu, Anette Frank, (参考訳) 合成自然言語推論は、ニューラルモデルがNLIを実行する真の能力を評価するために研究されている。 しかし、現在の評価では、推論知識を継続的に取得する人間とは対照的に、モデルが事前にすべてのプリミティブ推論への完全なアクセスを前提としている。 本稿では,C2Gen NLI(Continuous Composal Generalization in Inference)課題について紹介する。 連続学習がNLIの合成一般化にどう影響するかを,構成的NLI推論タスクのための連続学習設定を設計することによって検討する。 実験により,モデルが連続的なシナリオにおいて構成的一般化に失敗することを示した。 この問題に対処するために、まず様々な連続学習アルゴリズムをベンチマークし、その有効性を検証する。 さらにC2Genを解析し、プリミティブとコンポジション推論型の順序付け、サブタスク間の相関について検討する。 分析の結果,依存関係を観察しながらサブタスクを継続的に学習し,難易度を増大させることで,連続学習が構成一般化能力を高めることが示唆された。

Compositional Natural Language Inference has been explored to assess the true abilities of neural models to perform NLI. Yet, current evaluations assume models to have full access to all primitive inferences in advance, in contrast to humans that continuously acquire inference knowledge. In this paper, we introduce the Continual Compositional Generalization in Inference (C2Gen NLI) challenge, where a model continuously acquires knowledge of constituting primitive inference tasks as a basis for compositional inferences. We explore how continual learning affects compositional generalization in NLI, by designing a continual learning setup for compositional NLI inference tasks. Our experiments demonstrate that models fail to compositionally generalize in a continual scenario. To address this problem, we first benchmark various continual learning algorithms and verify their efficacy. We then further analyze C2Gen, focusing on how to order primitives and compositional inference types and examining correlations between subtasks. Our analyses show that by learning subtasks continuously while observing their dependencies and increasing degrees of difficulty, continual learning can enhance composition generalization ability.
翻訳日:2024-07-29 18:11:46 公開日:2024-07-25
# MELTing Point: 言語変換器のモバイル評価

MELTing point: Mobile Evaluation of Language Transformers ( http://arxiv.org/abs/2403.12844v4 )

ライセンス: Link先を確認
Stefanos Laskaridis, Kleomenis Katevas, Lorenzo Minto, Hamed Haddadi, (参考訳) トランスフォーマーは機械学習の環境に革命をもたらし、日々のタスクに徐々に浸透し、コンピュータに「知性の欠如」を持たせた。 しかし、彼らのランタイム要件は、モバイルに広くデプロイされることを妨げている。 パーソナルデバイスがますます強力になり、プライバシーがますます厳しい問題になるにつれて、我々はLarge Language Models(LLMs)のモバイル実行の現状を探る。 これを実現するために、私たちは独自の自動化インフラストラクチャMELTを開発しました。デバイス上でのLLMのヘッドレス実行とベンチマークをサポートし、Android、iOS、Nvidia Jetsonデバイスを含むさまざまなモデル、デバイス、フレームワークをサポートします。 我々は、一般的な命令の微調整 LLM を評価し、様々なフレームワークを活用して、エンド・ツー・エンドとグラニュラルのパフォーマンスを測定し、その過程でのメモリとエネルギーの要求をトレースする。 我々の分析は、デバイス上でのLCMの実行、性能、エネルギー効率、精度を様々な最先端モデルで定量化し、ハイパースケールモデルの時代におけるデバイス上でのインテリジェンスの現状を示す最初の体系的な研究である。 結果は、ターゲット間のパフォーマンスの不均一性を強調し、LLM推論が主にメモリバウンドであることを裏付ける。 量子化はメモリ要求を大幅に削減し、実行を実行可能なものにするが、無視できない精度のコストで実行する。 エネルギーフットプリントと熱的挙動から導かれると、両方の要因がユーザ体験に悪影響を及ぼすため、LLMの継続的な実行はいまだ解明されていない。 最後に、私たちの経験から、エコシステムはまだ初期段階であり、アルゴリズムとハードウェアのブレークスルーは実行コストを大きくシフトさせる可能性があることが示されています。 NPUアクセラレーションとフレームワークのハードウエアの共同設計が、エッジデプロイメントに適したオフロードの代替として、効率的なスタンドアロン実行への最大の賭けになることを期待しています。

Transformers have revolutionized the machine learning landscape, gradually making their way into everyday tasks and equipping our computers with "sparks of intelligence". However, their runtime requirements have prevented them from being broadly deployed on mobile. As personal devices become increasingly powerful and prompt privacy becomes an ever more pressing issue, we explore the current state of mobile execution of Large Language Models (LLMs). To achieve this, we have created our own automation infrastructure, MELT, which supports the headless execution and benchmarking of LLMs on device, supporting different models, devices and frameworks, including Android, iOS and Nvidia Jetson devices. We evaluate popular instruction fine-tuned LLMs and leverage different frameworks to measure their end-to-end and granular performance, tracing their memory and energy requirements along the way. Our analysis is the first systematic study of on-device LLM execution, quantifying performance, energy efficiency and accuracy across various state-of-the-art models and showcases the state of on-device intelligence in the era of hyperscale models. Results highlight the performance heterogeneity across targets and corroborates that LLM inference is largely memory-bound. Quantization drastically reduces memory requirements and renders execution viable, but at a non-negligible accuracy cost. Drawing from its energy footprint and thermal behavior, the continuous execution of LLMs remains elusive, as both factors negatively affect user experience. Last, our experience shows that the ecosystem is still in its infancy, and algorithmic as well as hardware breakthroughs can significantly shift the execution cost. We expect NPU acceleration, and framework-hardware co-design to be the biggest bet towards efficient standalone execution, with the alternative of offloading tailored towards edge deployments.
翻訳日:2024-07-29 18:02:02 公開日:2024-07-25
# 構造環境間の非平衡量子熱輸送

Nonequilibrium quantum heat transport between structured environments ( http://arxiv.org/abs/2403.13904v2 )

ライセンス: Link先を確認
Graeme Pleasance, Francesco Petruccione, (参考訳) 本研究では, スピン-ボソン型モデルにおける非平衡熱伝達の解析に, 中間対の結合調和振動子によって中心スピンを通る熱伝達を媒介する動きの階層式を適用した。 各発振器間の結合は, システム-オシレータ-貯留層相互作用を特徴付ける効果的なスペクトル密度に局所的ギャップをもたらすことを示す。 単一媒質発振器の場合と比較して、熱電流は弱い系-バス結合で劇的に変化することがわかった。 特に、2階の処理では、この状態における正しい定常状態の挙動を捉えられず、これはエネルギー移動率の$\lambda^4$-scalingから、結合強度$\lambda$の最低次へと導かれる。 このことは、漸近的に弱い結合限界における定常電流の強い抑制につながる。 一方、電流ノイズは揺動散逸定理に従って単一発振器の場合と同じスケーリングに従う。 さらに、熱電流は大きな温度バイアスでもフーリエの法則と一致することが分かる。 熱環境のスペクトル特性を調整したナノスケールシステムにおける熱輸送制御機構について述べる。

We apply the hierarchical equations of motion technique to analyzing nonequilibrium heat transport in a spin-boson type model, whereby heat transfer through a central spin is mediated by an intermediate pair of coupled harmonic oscillators. The coupling between each pair of oscillators is shown to introduce a localized gap into the effective spectral densities characterizing the system-oscillator-reservoir interactions. Compared to the case of a single mediating oscillator, we find the heat current to be drastically modified at weak system-bath coupling. In particular, a second-order treatment fails to capture the correct steady-state behavior in this regime, which stems from the $\lambda^4$-scaling of the energy transfer rate to lowest order in the coupling strength $\lambda$. This leads naturally to a strong suppression in the steady-state current in the asymptotically weak coupling limit. On the other hand, the current noise follows the same scaling as in the single oscillator case in accordance with the fluctuation-dissipation theorem. Additionally, we find the heat current to be consistent with Fourier's law even at large temperature bias. Our analysis highlights a novel mechanism for controlling heat transport in nanoscale systems based on tailoring the spectral properties of thermal environments.
翻訳日:2024-07-29 18:02:02 公開日:2024-07-25
# X-ポートレート:階層的な動きを意図した表現的ポートレートアニメーション

X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention ( http://arxiv.org/abs/2403.15931v4 )

ライセンス: Link先を確認
You Xie, Hongyi Xu, Guoxian Song, Chao Wang, Yichun Shi, Linjie Luo, (参考訳) 本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。 具体的には、外観基準として1つのポートレートを考慮し、動画像から得られる動きをアニメーション化し、非常にダイナミックで微妙な表情と広角な頭部の動きをキャプチャすることを目的としている。 その中核として、予め訓練された拡散モデルの生成前をレンダリングバックボーンとして利用し、制御ネットのフレームワーク内で新しい制御信号による微粒な頭部ポーズと表現制御を実現した。 顔のランドマークのような従来の粗い明示的な制御とは対照的に、動作制御モジュールは、元の駆動RGB入力から直接ダイナミクスを解釈する。 さらに、眼球位置のような小さなニュアンスに対する動きの注意を効果的に高めるパッチベースの局所制御モジュールにより、動きの精度をさらに向上する。 特に、駆動信号からのIDリークを軽減するため、我々は、拡張されたクロスアイデンティティ画像を用いてモーションコントロールモジュールを訓練し、外観基準モジュールからの最大のゆがみを確保する。 実験により,多様な顔画像と表現的運転シーケンスにまたがるX-ポートレートの普遍的有効性を示し,一貫したアイデンティティ特性を持つキャプティベーション・ポートレート・アニメーションの生成能力を示した。

We propose X-Portrait, an innovative conditional diffusion model tailored for generating expressive and temporally coherent portrait animation. Specifically, given a single portrait as appearance reference, we aim to animate it with motion derived from a driving video, capturing both highly dynamic and subtle facial expressions along with wide-range head movements. As its core, we leverage the generative prior of a pre-trained diffusion model as the rendering backbone, while achieve fine-grained head pose and expression control with novel controlling signals within the framework of ControlNet. In contrast to conventional coarse explicit controls such as facial landmarks, our motion control module is learned to interpret the dynamics directly from the original driving RGB inputs. The motion accuracy is further enhanced with a patch-based local control module that effectively enhance the motion attention to small-scale nuances like eyeball positions. Notably, to mitigate the identity leakage from the driving signals, we train our motion control modules with scaling-augmented cross-identity images, ensuring maximized disentanglement from the appearance reference modules. Experimental results demonstrate the universal effectiveness of X-Portrait across a diverse range of facial portraits and expressive driving sequences, and showcase its proficiency in generating captivating portrait animations with consistently maintained identity characteristics.
翻訳日:2024-07-29 18:02:02 公開日:2024-07-25
# CarDreamer: 世界モデルに基づく自律運転のためのオープンソースの学習プラットフォーム

CarDreamer: Open-Source Learning Platform for World Model based Autonomous Driving ( http://arxiv.org/abs/2405.09111v2 )

ライセンス: Link先を確認
Dechen Gao, Shuangyu Cai, Hanchu Zhou, Hang Wang, Iman Soltani, Junshan Zhang, (参考訳) 複雑な現実のシナリオを安全にナビゲートするには、自動運転車は様々な道路条件に適応し、将来の出来事を予測できなければならない。 世界モデルに基づく強化学習(RL)は,様々な環境の複雑な力学を学習し,予測することで,有望なアプローチとして現れてきた。 しかしながら、私たちの知る限りでは、高度な運転環境でそのようなアルゴリズムを訓練し、テストするためのアクセス可能なプラットフォームは存在しない。 この空白を埋めるために、WMベースの自律運転アルゴリズムの開発に特化して設計されたオープンソースの学習プラットフォームであるCarDreamerを紹介します。 主な構成要素は3つある。 1) 世界モデルのバックボーン: CarDreamerは最先端のWMを統合し、RLアルゴリズムの再現を単純化した。 バックボーンは残りの部分から切り離され、標準のGymインターフェースを使って通信する。 2) 内蔵タスク: CarDreamerは、Gymインタフェースと互換性があり、経験的に最適化された報酬関数を備えた、高度に構成可能な運転タスクの包括的なセットを提供する。 3)タスク開発スイート: このスイートは、複数モーダル観測データの自動収集とともに、運転タスクの作成を合理化し、交通の流れや車道の定義を容易にする。 ビジュアライゼーションサーバは、ブラウザを介してビデオやパフォーマンスメトリクスをリアルタイムに駆動するエージェントをトレースすることを可能にする。 さらに,自動運転におけるWMの性能と可能性を評価するために,組込みタスクを用いた広範囲な実験を行った。 また,CarDreamerの豊かさと柔軟性により,車両の安全性と効率性に及ぼす観測モダリティ,可観測性,および車両意図の共有の影響を系統的に検討した。 すべてのコードとドキュメントはhttps://github.com/ucd-dare/CarDreamer.comでアクセスできる。

To safely navigate intricate real-world scenarios, autonomous vehicles must be able to adapt to diverse road conditions and anticipate future events. World model (WM) based reinforcement learning (RL) has emerged as a promising approach by learning and predicting the complex dynamics of various environments. Nevertheless, to the best of our knowledge, there does not exist an accessible platform for training and testing such algorithms in sophisticated driving environments. To fill this void, we introduce CarDreamer, the first open-source learning platform designed specifically for developing WM based autonomous driving algorithms. It comprises three key components: 1) World model backbone: CarDreamer has integrated some state-of-the-art WMs, which simplifies the reproduction of RL algorithms. The backbone is decoupled from the rest and communicates using the standard Gym interface, so that users can easily integrate and test their own algorithms. 2) Built-in tasks: CarDreamer offers a comprehensive set of highly configurable driving tasks which are compatible with Gym interfaces and are equipped with empirically optimized reward functions. 3) Task development suite: This suite streamlines the creation of driving tasks, enabling easy definition of traffic flows and vehicle routes, along with automatic collection of multi-modal observation data. A visualization server allows users to trace real-time agent driving videos and performance metrics through a browser. Furthermore, we conduct extensive experiments using built-in tasks to evaluate the performance and potential of WMs in autonomous driving. Thanks to the richness and flexibility of CarDreamer, we also systematically study the impact of observation modality, observability, and sharing of vehicle intentions on AV safety and efficiency. All code and documents are accessible on https://github.com/ucd-dare/CarDreamer.
翻訳日:2024-07-29 17:52:18 公開日:2024-07-25
# SOEDiff:小さなオブジェクト編集に効率的な蒸留法

SOEDiff: Efficient Distillation for Small Object Editing ( http://arxiv.org/abs/2405.09114v2 )

ライセンス: Link先を確認
Yiming Wu, Qihe Pan, Zhen Zhao, Zicheng Wang, Sifan Long, Ronghua Liang, (参考訳) 本稿では,制約のある小領域におけるテキストベースの画像の描画に焦点を当てた,SOE(Small ObjectEditor)と呼ばれる新しいタスクを探索する。 現在のイメージインパインティングアプローチによって顕著な成功を収めたにもかかわらず、SOEタスクへのそれらの適用は一般的に、オブジェクトミス、テキストミスマッチ、歪みなどの障害ケースをもたらす。 これらの失敗は、トレーニングデータセットにおける小さなオブジェクトの使用の制限と、正確な生成を妨げるU-Netモデルで使用されるダウンサンプリング操作に起因している。 これらの課題を克服するために,我々は,StableDiffusionのようなベースラインモデルによる小型オブジェクトの編集能力の向上と,トレーニングコストの最小化を目的とした,新たなトレーニングベースアプローチであるSOEDiffを導入する。 具体的には、低ランク行列を効率よく微調整するSO-LoRAと、事前学習した教師拡散モデルから高分解能予測を利用するクロススケールスコア蒸留損失の2つの重要な要素を含む。 提案手法は,MSCOCOとOpenImageから収集したテストデータセットに有意な改善を加え,小オブジェクト編集における提案手法の有効性を検証した。 特に、OpenImage-fデータセット上のSOEDiffとSD-Iモデルを比較すると、CLIPスコアの0.99の改善とFIDの2.87の削減が観察される。

In this paper, we delve into a new task known as small object editing (SOE), which focuses on text-based image inpainting within a constrained, small-sized area. Despite the remarkable success have been achieved by current image inpainting approaches, their application to the SOE task generally results in failure cases such as Object Missing, Text-Image Mismatch, and Distortion. These failures stem from the limited use of small-sized objects in training datasets and the downsampling operations employed by U-Net models, which hinders accurate generation. To overcome these challenges, we introduce a novel training-based approach, SOEDiff, aimed at enhancing the capability of baseline models like StableDiffusion in editing small-sized objects while minimizing training costs. Specifically, our method involves two key components: SO-LoRA, which efficiently fine-tunes low-rank matrices, and Cross-Scale Score Distillation loss, which leverages high-resolution predictions from the pre-trained teacher diffusion model. Our method presents significant improvements on the test dataset collected from MSCOCO and OpenImage, validating the effectiveness of our proposed method in small object editing. In particular, when comparing SOEDiff with SD-I model on the OpenImage-f dataset, we observe a 0.99 improvement in CLIP-Score and a reduction of 2.87 in FID.
翻訳日:2024-07-29 17:52:18 公開日:2024-07-25
# 量子シミュレーションによるゲージドリフトのゼノ効果抑制

Zeno Effect Suppression of Gauge Drift in Quantum Simulations ( http://arxiv.org/abs/2405.09462v4 )

ライセンス: Link先を確認
Carter Ball, Thomas D. Cohen, (参考訳) 格子ゲージ理論の量子シミュレーションは、リアルタイム力学を含む多くの複雑な問題を研究する上で有望なツールである。 しかしゲージ理論では、時間的発展の間にゲージ不変性を維持することが大きな課題である。 そのような理論は、物理的空間よりも大きいヒルベルト空間を持ち、ゲージ不変あるいは等価にガウスの法則を尊重する状態の集合である。 物理ヒルベルト空間から始まるハミルトン力学の正確な実装は、系を物理空間に保ち続けるが、様々な種類の誤差は必然的にその外側の成分を生成する。 本研究は, このゲージドリフトをゼノ効果により抑制する方法を提案する。 ゼノ効果の標準的な図のように、本手法は物理部分空間への頻繁な射影に依存する。 さらに、ゲージドリフトの速度を減少させる手法が議論され、投射の必要周波数を減少させるのに役立つ。 本手法は,$\mathbb{Z}_2$ gauge theory toy model上で実証する。

Quantum simulation of lattice gauge theories is a promising tool for the study of many complicated problems including ones with real-time dynamics. For gauge theories, however, there is a major challenge in maintaining gauge invariance during time evolution. Such theories have a full Hilbert space that is larger than the physical space -- the set of states which are gauge invariant or equivalently respect the Gauss law. While an exact implementation of Hamiltonian dynamics starting in the physical Hilbert space will keep the system in the physical space, various types of errors will inevitably produce components outside of it. This work proposes a method of suppressing this gauge drift via the Zeno effect. As in the standard picture of the Zeno effect, our method relies on frequent projection onto the physical subspace. Additionally, a technique is discussed to reduce the speed of the gauge drift, which helps to reduce the required frequency of projections. We demonstrate our method on a $\mathbb{Z}_2$ gauge theory toy model.
翻訳日:2024-07-29 17:52:18 公開日:2024-07-25
# 過度にパラメータ化されたニューラルネットワークの対称性:平均的な視野

Symmetries in Overparametrized Neural Networks: A Mean-Field View ( http://arxiv.org/abs/2405.19995v2 )

ライセンス: Link先を確認
Javier Maass, Joaquin Fontbona, (参考訳) 我々は,一般コンパクト群$G$の作用を法則として,過度にパラメータ化されたニューラルネットワーク(NN)の学習力学の平均場(MF)ビューを開発する。 本研究では,SGD(確率勾配勾配勾配)と,データ拡張(DA)や特徴平均化(FA),等変アーキテクチャ(EA)といった対称性平均化(SL)手法を併用した,N$の多層ユニットのアンサンブルによって与えられる一般化された浅層NNのクラスを考える。 各単位のパラメータ空間上で、それぞれ$G$-不変分布と、群作用によって固定されたパラメータ(EAを符号化する)で支えられる分布について、弱不変かつ強不変な法則(WIとSI)の概念を導入する。 これにより、$N\to\infty$と互換性のある対称モデルを定義し、それらの MF の極限を記述する Wasserstein Gradient Flows の観点から、DA, FA, EA の漸近力学の解釈を与えることができる。 活性化が群作用を尊重する場合、対称データに対して、DA、FAおよび自由学習モデルは、WI法則の空間に留まり、人口リスクを最小化する全く同じMFダイナミクスに従うことを示す。 また、SI法に対する最適の到達可能性についても反例を挙げる。 それにもかかわらず、非常に驚くべきことに、SI則の集合は、自由に訓練されたとしても、MF力学によって保存されている。 これは有限$N$の設定とは対照的であり、EA は非制約 SGD によって一般に保存されない。 教師が学習する実験環境でN$が大きくなるにつれて, WI, SI, あるいは任意の教師モデルから学習するために学生NNを訓練し, 様々なSLスキームを用いてN$が大きくなることを示す。 我々は最後にデータ駆動ヒューリスティックを導出し、最小の一般化誤差でEAを設計するのに使用できる問題に対するSI分布をサポートするパラメータの最大の部分空間を発見する。

We develop a Mean-Field (MF) view of the learning dynamics of overparametrized Artificial Neural Networks (NN) under data symmetric in law wrt the action of a general compact group $G$. We consider for this a class of generalized shallow NNs given by an ensemble of $N$ multi-layer units, jointly trained using stochastic gradient descent (SGD) and possibly symmetry-leveraging (SL) techniques, such as Data Augmentation (DA), Feature Averaging (FA) or Equivariant Architectures (EA). We introduce the notions of weakly and strongly invariant laws (WI and SI) on the parameter space of each single unit, corresponding, respectively, to $G$-invariant distributions, and to distributions supported on parameters fixed by the group action (which encode EA). This allows us to define symmetric models compatible with taking $N\to\infty$ and give an interpretation of the asymptotic dynamics of DA, FA and EA in terms of Wasserstein Gradient Flows describing their MF limits. When activations respect the group action, we show that, for symmetric data, DA, FA and freely-trained models obey the exact same MF dynamic, which stays in the space of WI laws and minimizes therein the population risk. We also give a counterexample to the general attainability of an optimum over SI laws. Despite this, quite remarkably, we show that the set of SI laws is also preserved by the MF dynamics even when freely trained. This sharply contrasts the finite-$N$ setting, in which EAs are generally not preserved by unconstrained SGD. We illustrate the validity of our findings as $N$ gets larger in a teacher-student experimental setting, training a student NN to learn from a WI, SI or arbitrary teacher model through various SL schemes. We last deduce a data-driven heuristic to discover the largest subspace of parameters supporting SI distributions for a problem, that could be used for designing EA with minimal generalization error.
翻訳日:2024-07-29 17:42:34 公開日:2024-07-25
# 演算子に基づく量子熱力学不確実性関係

Operator-based quantum thermodynamic uncertainty relations ( http://arxiv.org/abs/2406.11974v2 )

ライセンス: Link先を確認
Pratik Sathe, Luis Pedro García-Pintos, Francesco Caravelli, (参考訳) 粒子の位置と運動量の不確かさを結びつけるハイゼンベルクの不確実性関係は、物理系の量子的挙動に重要なフットプリントを持つ。 この原理により、作業、熱、内部エネルギーに関連する熱力学電流は、よく定義されたエルミート作用素によって記述される。 オブザーバブルは、その期待値が関連する電流の平均値と一致するように定義される。 これらの速度、すなわち電流は、対応する作用素の非可換性のため、古典的なものと異なる。 Robertson-Schr\odingerの不確実性関係を用いて、それらの間の様々な熱力学的不確実性関係を得る。 特に、熱速度と熱力のゆらぎと内部エネルギーのゆらぎを結びつける。 さらに、この手法を量子電池に適用することにより、エネルギー・電力の不確実性関係を導出し、測定が変動にどのように影響するかを示す。

The Heisenberg uncertainty relation, which links the uncertainties of the position and momentum of a particle, has an important footprint on the quantum behavior of a physical system. Motivated by this principle, we propose that thermodynamic currents associated with work, heat, and internal energy are described by well-defined Hermitian operators; i.e., we associate physical observables to quantum thermodynamic flows. The observables are defined such that their expectation values match the average values of the associated currents. These rates, or currents, differ from their classical counterparts due to the non-commutativity of the corresponding operators. Using the Robertson-Schr\"odinger uncertainty relation, we then obtain various thermodynamic uncertainty relationships between them. In particular, we connect the fluctuations in heat rate and thermodynamic power with those in internal energy. We further illustrate this approach by applying it to quantum batteries, where we derive an energy-power uncertainty relationship and show how measurements affect the fluctuations.
翻訳日:2024-07-29 17:32:36 公開日:2024-07-25
# MIA-Bench:マルチモーダルLCMの評価による教育改善に向けて

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs ( http://arxiv.org/abs/2407.01509v3 )

ライセンス: Link先を確認
Yusu Qian, Hanrong Ye, Jean-Philippe Fauconnier, Peter Grasch, Yinfei Yang, Zhe Gan, (参考訳) MIA-Benchは,マルチモーダルな大規模言語モデル(MLLM)を,複雑な命令に厳密に準拠する能力に基づいて評価するための新しいベンチマークである。 私たちのベンチマークは400のイメージプロンプトペアで構成されており、それぞれが特定の要求されたパターンを満たす正確な応答を生成するために、階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。 最先端MLLMの幅広い評価結果から, 性能の大幅な変化が明らかとなり, 命令忠実度向上のための領域が強調された。 さらに、余分なトレーニングデータを作成し、教師付き微調整を探索し、他のタスクのパフォーマンスを損なうことなく、モデルが厳格に指示に従う能力を高める。 我々は,このベンチマークがMLLMの指示への付着度を測定するツールとして機能するだけでなく,MLLMトレーニング手法の今後の発展を導くことを願っている。

We introduce MIA-Bench, a new benchmark designed to evaluate multimodal large language models (MLLMs) on their ability to strictly adhere to complex instructions. Our benchmark comprises a diverse set of 400 image-prompt pairs, each crafted to challenge the models' compliance with layered instructions in generating accurate responses that satisfy specific requested patterns. Evaluation results from a wide array of state-of-the-art MLLMs reveal significant variations in performance, highlighting areas for improvement in instruction fidelity. Additionally, we create extra training data and explore supervised fine-tuning to enhance the models' ability to strictly follow instructions without compromising performance on other tasks. We hope this benchmark not only serves as a tool for measuring MLLM adherence to instructions, but also guides future developments in MLLM training methods.
翻訳日:2024-07-29 17:32:36 公開日:2024-07-25
# 化学における大規模言語モデルと自律エージェントの展望

A Review of Large Language Models and Autonomous Agents in Chemistry ( http://arxiv.org/abs/2407.01603v2 )

ライセンス: Link先を確認
Mayk Caldas Ramos, Christopher J. Collison, Andrew D. White, (参考訳) 大規模言語モデル(LLM)は化学において強力なツールとして登場し、分子設計、特性予測、合成最適化に大きな影響を与えた。 このレビューでは、これらの領域におけるLLMの機能と、自動化による科学的発見を加速する可能性を強調している。 また、LLMをベースとした自律エージェントについてもレビューする: LLMは周囲の環境と対話するための、より広範なツールセットを持つ。 これらのエージェントは、紙のスクラップ、自動実験室との対面、合成計画などの様々なタスクを実行する。 エージェントは新たな話題であるので、化学以外のエージェントのレビューの範囲を広げ、あらゆる科学分野について議論する。 このレビューでは、LLMと自律エージェントの最近の歴史、現在の能力、設計について取り上げ、化学における特定の課題、機会、今後の方向性について論じる。 主な課題は、データ品質と統合、モデル解釈可能性、標準ベンチマークの必要性である。 この分野での速いペースのため、最新の研究を追跡するためにリポジトリが構築されている。

Large language models (LLMs) have emerged as powerful tools in chemistry, significantly impacting molecule design, property prediction, and synthesis optimization. This review highlights LLM capabilities in these domains and their potential to accelerate scientific discovery through automation. We also review LLM-based autonomous agents: LLMs with a broader set of tools to interact with their surrounding environment. These agents perform diverse tasks such as paper scraping, interfacing with automated laboratories, and synthesis planning. As agents are an emerging topic, we extend the scope of our review of agents beyond chemistry and discuss across any scientific domains. This review covers the recent history, current capabilities, and design of LLMs and autonomous agents, addressing specific challenges, opportunities, and future directions in chemistry. Key challenges include data quality and integration, model interpretability, and the need for standard benchmarks, while future directions point towards more sophisticated multi-modal agents and enhanced collaboration between agents and experimental methods. Due to the quick pace of this field, a repository has been built to keep track of the latest studies: https://github.com/ur-whitelab/LLMs-in-science.
翻訳日:2024-07-29 17:32:36 公開日:2024-07-25
# 機械学習タイムプロパゲータによる電子動力学シミュレーションの高速化

Accelerating Electron Dynamics Simulations through Machine Learned Time Propagators ( http://arxiv.org/abs/2407.09628v2 )

ライセンス: Link先を確認
Karan Shah, Attila Cangi, (参考訳) 時間依存密度汎関数理論(TDDFT)は、レーザー場のような様々な外部摂動下での電子力学を研究するために広く用いられる手法である。 本研究では, 自己回帰型ニューラル演算子を電子密度の時間プロパゲータとして利用して, リアルタイムTDDFTに基づく電子動力学シミュレーションを高速化する新しい手法を提案する。 物理インフォームド制約と高分解能トレーニングデータを活用することにより,従来の数値解法と比較して精度と計算速度が向上する。 一次元二原子分子のクラスにおけるモデルの有効性を実証する。 この方法は、様々な実験パラメータを持つレーザー照射された分子や材料のリアルタイム・オンザフライモデリングを可能にする可能性がある。

Time-dependent density functional theory (TDDFT) is a widely used method to investigate electron dynamics under various external perturbations such as laser fields. In this work, we present a novel approach to accelerate real time TDDFT based electron dynamics simulations using autoregressive neural operators as time-propagators for the electron density. By leveraging physics-informed constraints and high-resolution training data, our model achieves superior accuracy and computational speed compared to traditional numerical solvers. We demonstrate the effectiveness of our model on a class of one-dimensional diatomic molecules. This method has potential in enabling real-time, on-the-fly modeling of laser-irradiated molecules and materials with varying experimental parameters.
翻訳日:2024-07-29 17:32:36 公開日:2024-07-25
# SLAM法との比較によるNeRF再構成の幾何精度の評価

Evaluating geometric accuracy of NeRF reconstructions compared to SLAM method ( http://arxiv.org/abs/2407.11238v2 )

ライセンス: Link先を確認
Adam Korycki, Colleen Josephson, Steve McGuire, (参考訳) ニューラルレージアンスフィールド(NeRF)の実装がより速く、より効率的に、正確になるにつれて、現実のマッピングタスクへの適用性も向上する。 伝統的に、3Dマッピングやシーン再構築は高価なLiDARセンシングに依存してきた。 フォトグラメトリーは画像ベースの3D再構成を行うことができるが、計算コストが高く、複雑な幾何学やフォトリアリズムを復元するために非常に高密度な画像表現を必要とする。 NeRFは、スパース画像上でニューラルネットワークをトレーニングし、データをポーズすることで3Dシーン再構築を行い、少ない入力データでフォトグラム測定に優れた結果が得られる。 縦型PVCシリンダの直径を推定するための2つのNeRFシーン再構成の評価を行った。 そのうちの1つはコモディティiPhoneのデータで、もう1つはロボットソースの画像とポーズで訓練されている。 このニューラルジオメトリは、シーンノイズとメートル法精度の観点から最先端のライダー慣性SLAMと比較される。

As Neural Radiance Field (NeRF) implementations become faster, more efficient and accurate, their applicability to real world mapping tasks becomes more accessible. Traditionally, 3D mapping, or scene reconstruction, has relied on expensive LiDAR sensing. Photogrammetry can perform image-based 3D reconstruction but is computationally expensive and requires extremely dense image representation to recover complex geometry and photorealism. NeRFs perform 3D scene reconstruction by training a neural network on sparse image and pose data, achieving superior results to photogrammetry with less input data. This paper presents an evaluation of two NeRF scene reconstructions for the purpose of estimating the diameter of a vertical PVC cylinder. One of these are trained on commodity iPhone data and the other is trained on robot-sourced imagery and poses. This neural-geometry is compared to state-of-the-art lidar-inertial SLAM in terms of scene noise and metric-accuracy.
翻訳日:2024-07-29 17:32:36 公開日:2024-07-25
# 自律運転のための階層的・非結合型BEV知覚学習フレームワーク

Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving ( http://arxiv.org/abs/2407.12491v2 )

ライセンス: Link先を確認
Yuqi Dai, Jian Sun, Shengbo Eben Li, Qing Xu, Jianqiang Wang, Lei He, Keqiang Li, (参考訳) 認識は自律運転システムに不可欠である。 Bird's-eye-view (BEV) とディープラーニングに基づく最近のアプローチは大きな進歩を遂げた。 しかし、認識アルゴリズム開発プロセスにおいて、長い開発サイクル、再利用性の低さ、複雑なセンサー設定などの課題が存在する。 このような課題に対処するため,本研究では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリを提供することを目的として,新しい階層的BEV認識パラダイムを提案する。 我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。 さらに,マルチモジュール学習(MML)アプローチを提案し,複数のモデルの相乗的かつ反復的な学習を通じて性能を向上させる。 Nuscenesデータセットの大規模な実験結果から、我々のアプローチは従来のトレーニング手法よりも大幅に改善されていることが分かる。

Perception is essential for autonomous driving system. Recent approaches based on Bird's-eye-view (BEV) and deep learning have made significant progress. However, there exists challenging issues including lengthy development cycles, poor reusability, and complex sensor setups in perception algorithm development process. To tackle the above challenges, this paper proposes a novel hierarchical BEV perception paradigm, aiming to provide a library of fundamental perception modules and user-friendly graphical interface, enabling swift construction of customized models. We conduct the Pretrain-Finetune strategy to effectively utilize large scale public datasets and streamline development processes. Moreover, we present a Multi-Module Learning (MML) approach, enhancing performance through synergistic and iterative training of multiple models. Extensive experimental results on the Nuscenes dataset demonstrate that our approach renders significant improvement over the traditional training scheme.
翻訳日:2024-07-29 15:38:30 公開日:2024-07-25
# 単言語基礎モデルのバイリンガル適応

Bilingual Adaptation of Monolingual Foundation Models ( http://arxiv.org/abs/2407.12869v2 )

ライセンス: Link先を確認
Gurpreet Gosal, Yishi Xu, Gokul Ramakrishnan, Rituraj Joshi, Avraham Sheinin, Zhiming, Chen, Biswajit Mishra, Natalia Vassilieva, Joel Hestness, Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Onkar Pandit, Satheesh Katipomu, Samta Kamboj, Samujjwal Ghosh, Rahul Pal, Parvez Mullah, Soundar Doraiswamy, Mohamed El Karim Chami, Preslav Nakov, (参考訳) 本稿では,単一言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 この研究は、ラマ2をアラビア語に適応させることに重点を置いている。 我々の2段階のアプローチは、語彙の拡大と埋め込み行列のみのトレーニングから始まり、続いてバイリンガルコーパス上での完全なモデル事前学習が続く。 アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。 提案手法はアラビア語の大幅な改良と英語のわずかな改良を実現し,費用対効果のある言語間移動を実証した。 埋め込み初期化技術、データ混合率、学習率の短縮を行い、詳細なトレーニングレシピをリリースする。 このアプローチの一般化可能性を示すために、Llama 3 8Bをアラビア語に、Llama 2 13Bをヒンディー語に適応させた。

We present an efficient method for adapting a monolingual Large Language Model (LLM) to another language, addressing challenges of catastrophic forgetting and tokenizer limitations. We focus this study on adapting Llama 2 to Arabic. Our two-stage approach begins with expanding the vocabulary and training only the embeddings matrix, followed by full model continual pre-training on a bilingual corpus. By continually pre-training on a mix of Arabic and English corpora, the model retains its proficiency in English while acquiring capabilities in Arabic. Our approach results in significant improvements in Arabic and slight enhancements in English, demonstrating cost-effective cross-lingual transfer. We perform ablations on embedding initialization techniques, data mix ratios, and learning rates and release a detailed training recipe. To demonstrate generalizability of this approach we also adapted Llama 3 8B to Arabic and Llama 2 13B to Hindi.
翻訳日:2024-07-29 15:38:30 公開日:2024-07-25
# 状況条件付き大規模言語モデルに対する人間解釈型対人プロンプト攻撃

Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context ( http://arxiv.org/abs/2407.14644v2 )

ライセンス: Link先を確認
Nilanjana Das, Edward Raff, Manas Gaur, (参考訳) 敵攻撃を用いた大規模言語モデル(LLM)の脆弱性テストに関するこれまでの研究は、主に非感覚的なプロンプトインジェクションに焦点を当てており、手動または自動化されたレビュー(例:バイトエントロピー)で簡単に検出できる。 しかし,無害な人為的な悪質なプロンプトの探索はいまだに限られている。 本研究では,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換する方法について検討する。 これにより,攻撃の実行にはLSMのみを用いることで,勾配を使わずに接尾辞変換を行えます。 我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。 状況はIMDBデータセットから抽出され、プロンプトは数発のチェーン・オブ・シークレットプロンプトに従って定義される。 当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。 多くのLSMに対して、1回の試みで攻撃が発生し、これらの攻撃がLSM間で伝達されることが判明した。

Previous research on testing the vulnerabilities in Large Language Models (LLMs) using adversarial attacks has primarily focused on nonsensical prompt injections, which are easily detected upon manual or automated review (e.g., via byte entropy). However, the exploration of innocuous human-understandable malicious prompts augmented with adversarial injections remains limited. In this research, we explore converting a nonsensical suffix attack into a sensible prompt via a situation-driven contextual re-writing. This allows us to show suffix conversion without any gradients, using only LLMs to perform the attacks, and thus better understand the scope of possible risks. We combine an independent, meaningful adversarial insertion and situations derived from movies to check if this can trick an LLM. The situations are extracted from the IMDB dataset, and prompts are defined following a few-shot chain-of-thought prompting. Our approach demonstrates that a successful situation-driven attack can be executed on both open-source and proprietary LLMs. We find that across many LLMs, as few as 1 attempt produces an attack and that these attacks transfer between LLMs.
翻訳日:2024-07-29 15:38:30 公開日:2024-07-25
# 視覚言語モデルからみた画像テキスト検索ベンチマークの脆さ評価

Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective ( http://arxiv.org/abs/2407.15239v2 )

ライセンス: Link先を確認
Mariya Hendriksen, Shuo Zhang, Ridho Reinanda, Mohamed Yahya, Edgar Meij, Maarten de Rijke, (参考訳) 情報検索(IR)における重要なタスクである画像テキスト検索(ITR)は、常に最先端の性能を達成する事前訓練された視覚言語モデル(VLM)によって駆動される。 しかし、重要な課題は既存のIRRベンチマークの脆さにある。 タスクの標準的なデータセットでは、キャプションはしばしばシーンの広範な要約を提供し、特定の概念に関する詳細な情報を無視する。 さらに、現在の評価設定では、画像とテキスト間の単純なバイナリマッチングを前提としており、モダリティーよりもモダリティーに重点を置いており、モデル性能の誤解釈につながる可能性がある。 本研究は, このギャップを動機として, ITR評価パイプラインの脆性に着目し, 概念粒度に着目した検討を行った。 まず、2つの一般的なベンチマークであるMS-COCOとFlickr30kを分析し、概念の粒度をキャプチャする特定の言語的特徴セットを考慮し、それらの拡張版であるMS-COCO-FGとFlickr30k-FGと比較する。 Flickr30k-FG と MS COCO-FG は,選択したすべての機能に対して常に高いスコアを達成していることがわかった。 粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。 選択したデータセットにこれらの摂動を適用する。 我々は,0ショット条件下での標準およびきめ細かいデータセットに対して,適用された摂動を伴わずに,最先端の4つのモデル – ALIGN,AltCLIP,CLIP,GroupViT – を評価する。 その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。 さらに、すべてのセットアップにおける相対的なパフォーマンス低下は、すべてのモデルとデータセット間で一貫しており、問題はベンチマーク内にあることを示している。 我々は、ITR評価パイプラインを改善するためのアジェンダを提供することで、論文を締めくくる。

Image-text retrieval (ITR), an important task in information retrieval (IR), is driven by pretrained vision-language models (VLMs) that consistently achieve state-of-the-art performance. However, a significant challenge lies in the brittleness of existing ITR benchmarks. In standard datasets for the task, captions often provide broad summaries of scenes, neglecting detailed information about specific concepts. Additionally, the current evaluation setup assumes simplistic binary matches between images and texts and focuses on intra-modality rather than cross-modal relationships, which can lead to misinterpretations of model performance. Motivated by this gap, in this study, we focus on examining the brittleness of the ITR evaluation pipeline with a focus on concept granularity. We start by analyzing two common benchmarks, MS-COCO and Flickr30k, and compare them with their augmented versions, MS-COCO-FG and Flickr30k-FG, given a specified set of linguistic features capturing concept granularity. We discover that Flickr30k-FG and MS COCO-FG consistently achieve higher scores across all the selected features. To investigate the performance of VLMs on coarse and fine-grained datasets, we introduce a taxonomy of perturbations. We apply these perturbations to the selected datasets. We evaluate four state-of-the-art models - ALIGN, AltCLIP, CLIP, and GroupViT - on the standard and fine-grained datasets under zero-shot conditions, with and without the applied perturbations. The results demonstrate that although perturbations generally degrade model performance, the fine-grained datasets exhibit a smaller performance drop than their standard counterparts. Moreover, the relative performance drop across all setups is consistent across all models and datasets, indicating that the issue lies within the benchmarks. We conclude the paper by providing an agenda for improving ITR evaluation pipelines.
翻訳日:2024-07-29 15:38:30 公開日:2024-07-25
# 分離可能なDeepONet:物理インフォームド機械学習における次元の曲線を破る

Separable DeepONet: Breaking the Curse of Dimensionality in Physics-Informed Machine Learning ( http://arxiv.org/abs/2407.15887v2 )

ライセンス: Link先を確認
Luis Mandl, Somdatta Goswami, Lena Lambers, Tim Ricken, (参考訳) Deep operator Network(ディープ・オペレータ・ネットワーク、DeepONet)は、ディープ・ニューラルネットワークを用いて無限次元の関数空間をマッピングすることで偏微分方程式(PDE)を解くことを約束するニューラルネットワークアーキテクチャである。 ラベル付きデータセットがない場合、PDE残欠損失を利用して物理系を学習する。 この手法は、主に次元の呪いによる重要な計算課題に直面するが、計算コストは、より詳細な離散化とともに指数関数的に増加する。 本稿では,これらの課題に対処し,高次元PDEのスケーラビリティを向上させるために,分離可能なDeepONetフレームワークを提案する。 我々の手法は、サブネットワークが個々の1次元座標を処理し、したがって前方通過の数とジャコビアン行列のサイズを減少させる分解技術を含む。 前方モード自動微分を用いて、ヤコビ行列に関する計算コストをさらに最適化する。 その結果, 離散化密度の計算コストの線形スケーリングを実現し, 分割可能なDeepONetを高次元PDEに適合させることができた。 本稿では, 粘性バーガース方程式, ビオットの凝縮理論, パラメタライズド熱方程式の3つのベンチマークPDEモデルを用いて, 分離可能なアーキテクチャの有効性を検証した。 いずれの場合も,提案フレームワークは従来のDeepONetに比べて計算時間を大幅に削減しつつ,同等あるいは改善された精度を実現している。 これらの結果は、複雑な高次元PDEを効率的に解決し、物理インフォームド機械学習の分野を前進させる上で、分離可能なDeepONetの可能性を示している。

The deep operator network (DeepONet) is a popular neural operator architecture that has shown promise in solving partial differential equations (PDEs) by using deep neural networks to map between infinite-dimensional function spaces. In the absence of labeled datasets, we utilize the PDE residual loss to learn the physical system, an approach known as physics-informed DeepONet. This method faces significant computational challenges, primarily due to the curse of dimensionality, as the computational cost increases exponentially with finer discretization. In this paper, we introduce the Separable DeepONet framework to address these challenges and improve scalability for high-dimensional PDEs. Our approach involves a factorization technique where sub-networks handle individual one-dimensional coordinates, thereby reducing the number of forward passes and the size of the Jacobian matrix. By using forward-mode automatic differentiation, we further optimize the computational cost related to the Jacobian matrix. As a result, our modifications lead to a linear scaling of computational cost with discretization density, making Separable DeepONet suitable for high-dimensional PDEs. We validate the effectiveness of the separable architecture through three benchmark PDE models: the viscous Burgers equation, Biot's consolidation theory, and a parametrized heat equation. In all cases, our proposed framework achieves comparable or improved accuracy while significantly reducing computational time compared to conventional DeepONet. These results demonstrate the potential of Separable DeepONet in efficiently solving complex, high-dimensional PDEs, advancing the field of physics-informed machine learning.
翻訳日:2024-07-29 15:28:39 公開日:2024-07-25
# 距離ビュー3次元物体検出で何が重要か

What Matters in Range View 3D Object Detection ( http://arxiv.org/abs/2407.16789v2 )

ライセンス: Link先を確認
Benjamin Wilson, Nicholas Autio Mitchell, Jhony Kaesemodel Pontes, James Hays, (参考訳) ライダーベースの知覚パイプラインは複雑なシーンを解釈するために3Dオブジェクト検出モデルに依存している。 ライダーの複数の表現が存在するが、ライダーセンサ全体の出力を無意味に符号化するため、レンジビューは魅力的である。 本研究では,過去のレンジビュー文献に提案されている複数の手法を使わずに,レンジビュー3次元オブジェクト検出モデルの最先端を実現する。 我々は、Argoverse 2とWaymo Openという2つの異なる特性を持つモダンなデータセットのレンジビュー3Dオブジェクト検出について検討する。 本研究は,(1)入力特徴次元が全体の性能に著しく影響を及ぼすこと,(2)3次元空間近接作業における分類損失が,より精巧なIoUによる損失よりも優れていること,(3)単純レンジサブサンプリング技術による非一様ライダー密度への対処が,既存のマルチレゾリューション・レンジコンディショナーネットワークより優れていること,などを明らかにする。 実験の結果,近年のレンジビュー文献で提案されている手法は,最先端の性能を達成するには必要ではないことがわかった。 上記の知見を組み合わせることで、レンジビュー3Dオブジェクト検出のための新しい最先端モデルを確立します。10Hzのランタイムを維持しながら、Waymo Openデータセット上でAPを2.2%改善します。 我々はArgoverse 2データセット上で最初のレンジビューモデルを確立し、強いボクセルベースラインを上回ります。 すべてのモデルはマルチクラスでオープンソースです。 コードはhttps://github.com/benjaminrwilson/range-view-3d-detectionで公開されている。

Lidar-based perception pipelines rely on 3D object detection models to interpret complex scenes. While multiple representations for lidar exist, the range-view is enticing since it losslessly encodes the entire lidar sensor output. In this work, we achieve state-of-the-art amongst range-view 3D object detection models without using multiple techniques proposed in past range-view literature. We explore range-view 3D object detection across two modern datasets with substantially different properties: Argoverse 2 and Waymo Open. Our investigation reveals key insights: (1) input feature dimensionality significantly influences the overall performance, (2) surprisingly, employing a classification loss grounded in 3D spatial proximity works as well or better compared to more elaborate IoU-based losses, and (3) addressing non-uniform lidar density via a straightforward range subsampling technique outperforms existing multi-resolution, range-conditioned networks. Our experiments reveal that techniques proposed in recent range-view literature are not needed to achieve state-of-the-art performance. Combining the above findings, we establish a new state-of-the-art model for range-view 3D object detection -- improving AP by 2.2% on the Waymo Open dataset while maintaining a runtime of 10 Hz. We establish the first range-view model on the Argoverse 2 dataset and outperform strong voxel-based baselines. All models are multi-class and open-source. Code is available at https://github.com/benjaminrwilson/range-view-3d-detection.
翻訳日:2024-07-29 15:28:39 公開日:2024-07-25
# 学生は、異なる教育環境下でLLMを利用した仮想教科アシスタントとどのように相互作用するか?

How Do Students Interact with an LLM-powered Virtual Teaching Assistant in Different Educational Settings? ( http://arxiv.org/abs/2407.17429v2 )

ライセンス: Link先を確認
Pratyusha Maiti, Ashok K. Goel, (参考訳) LLMを利用したバーチャル教育アシスタントであるJill Watson氏は、学生の質問に答えて、インストラクターが提供するコースウェア上での会話を延長する。 本稿では,ブルームの改訂分類法とツール利用パターンに基づいて,複数の科目や大学におけるジルとの相互作用を分析し,学生の質問のタイプと複雑さに着目した。 幅広い認知的要求をサポートすることで、ジルは生徒に高度な高次認知的質問への参加を促している。 しかし、利用頻度はデプロイメント毎に大きく異なり、質問の種類はコース固有のコンテキストに依存します。 これらの知見は、個別の学習スタイルとコース構造に合わせたAI駆動型教育ツールの今後の研究の道を開くもので、教室での教育と学習経験の両方を強化する可能性がある。

Jill Watson, a virtual teaching assistant powered by LLMs, answers student questions and engages them in extended conversations on courseware provided by the instructors. In this paper, we analyze student interactions with Jill across multiple courses and colleges, focusing on the types and complexity of student questions based on Bloom's Revised Taxonomy and tool usage patterns. We find that, by supporting a wide range of cognitive demands, Jill encourages students to engage in sophisticated, higher-order cognitive questions. However, the frequency of usage varies significantly across deployments, and the types of questions asked depend on course-specific contexts. These findings pave the way for future work on AI-driven educational tools tailored to individual learning styles and course structure, potentially enhancing both the teaching and learning experience in classrooms.
翻訳日:2024-07-29 15:28:39 公開日:2024-07-25
# 物理誘導型機械学習は、希薄で異質な公共データを持つソーラーファームの惑星規模の性能を予測する

Physics-guided machine learning predicts the planet-scale performance of solar farms with sparse, heterogeneous, public data ( http://arxiv.org/abs/2407.18284v1 )

ライセンス: Link先を確認
Jabir Bin Jahangir, Muhammad Ashraful Alam, (参考訳) 太陽光発電(PV)技術の展望は急速に進化している。 新興PV技術の可能性とスケーラビリティを予測するためには,これらのシステムの性能のグローバルな理解が不可欠である。 伝統的に、大規模な国立研究施設における実験的および計算的研究は、特定の地域気候におけるPVの性能に焦点を当ててきた。 しかし、これらの地域研究をグローバルなパフォーマンスの可能性を理解するために合成することは困難であることが証明された。 実験データを取得する費用を考えれば、政治的に分断された世界における国立研究所の実験をコーディネートすることの難しさや、大規模商業事業者のデータプライバシに関する懸念は、基本的に異なる、データ効率のアプローチが望まれている。 ここでは,物理誘導型機械学習(PGML)方式について述べる。 (a)世界は、PVZonesと呼ばれるいくつかのPV固有の気候帯に分けられ、関連する気象条件が大陸間で共有されていることを説明できる。 (b)気候の類似性を利用して,5か所程度の高品質な月次エネルギー収量は,空間分解能が高く根平均2乗誤差が8kWhm$^{2}$未満の年次エネルギー収率を正確に予測することができる。 (c) 不均質な公共PV性能データであっても, データセットが代表的であると仮定した物理シミュレーションと比較して, 地球全体のエネルギー収量は6%未満の誤差で予測できる。 このPGML方式は、PV技術や農地のトポロジーに非依存であり、新しいPV技術や農地の設定に適応できる。 その結果、全国の政策立案者や研究機関による物理誘導型データ駆動型協力により、PVの資格と展開を加速するための効率的な意思決定支援システムの構築が促進された。

The photovoltaics (PV) technology landscape is evolving rapidly. To predict the potential and scalability of emerging PV technologies, a global understanding of these systems' performance is essential. Traditionally, experimental and computational studies at large national research facilities have focused on PV performance in specific regional climates. However, synthesizing these regional studies to understand the worldwide performance potential has proven difficult. Given the expense of obtaining experimental data, the challenge of coordinating experiments at national labs across a politically-divided world, and the data-privacy concerns of large commercial operators, however, a fundamentally different, data-efficient approach is desired. Here, we present a physics-guided machine learning (PGML) scheme to demonstrate that: (a) The world can be divided into a few PV-specific climate zones, called PVZones, illustrating that the relevant meteorological conditions are shared across continents; (b) by exploiting the climatic similarities, high-quality monthly energy yield data from as few as five locations can accurately predict yearly energy yield potential with high spatial resolution and a root mean square error of less than 8 kWhm$^{2}$, and (c) even with noisy, heterogeneous public PV performance data, the global energy yield can be predicted with less than 6% relative error compared to physics-based simulations provided that the dataset is representative. This PGML scheme is agnostic to PV technology and farm topology, making it adaptable to new PV technologies or farm configurations. The results encourage physics-guided, data-driven collaboration among national policymakers and research organizations to build efficient decision support systems for accelerated PV qualification and deployment across the world.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# Block Markov Chainのクラスタ数の推定

Estimating the number of clusters of a Block Markov Chain ( http://arxiv.org/abs/2407.18287v1 )

ライセンス: Link先を確認
Thomas van Vuren, Thomas Cronk, Jaron Sanders, (参考訳) クラスタリングアルゴリズムは、事前に選択するクラスタの数を必要とすることが多いが、その方法は通常明確ではない。 この課題に対処するため,ブロックマルコフ連鎖の軌跡であるクラスタ数を推定する手法を提案する。 ブロックマルコフ連鎖は、その遷移行列にブロック構造を示すマルコフ連鎖である。 この方法は、軌道内の異なる状態間の遷移数をカウントする行列を考慮し、これを特異値しきい値によって次元が設定されたスペクトル埋め込みに変換する。 このスペクトル埋め込みの密度に基づくクラスタリング(Stochastic Block Modelの文献から着想を得たアプローチ)により、クラスタの数を推定する。 マルコフに依存したランダム行列のスペクトル濃度の最近の結果を活用して増大させることにより、この手法は漸近的に一貫性があることが示される。 また,本手法の数値評価を行い,代替手法と比較する。

Clustering algorithms frequently require the number of clusters to be chosen in advance, but it is usually not clear how to do this. To tackle this challenge when clustering within sequential data, we present a method for estimating the number of clusters when the data is a trajectory of a Block Markov Chain. Block Markov Chains are Markov Chains that exhibit a block structure in their transition matrix. The method considers a matrix that counts the number of transitions between different states within the trajectory, and transforms this into a spectral embedding whose dimension is set via singular value thresholding. The number of clusters is subsequently estimated via density-based clustering of this spectral embedding, an approach inspired by literature on the Stochastic Block Model. By leveraging and augmenting recent results on the spectral concentration of random matrices with Markovian dependence, we show that the method is asymptotically consistent - in spite of the dependencies between the count matrix's entries, and even when the count matrix is sparse. We also present a numerical evaluation of our method, and compare it to alternatives.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# 多対象追跡における知識蒸留による基礎モデルの活用:DINOv2特徴のFairMOTへの蒸留

Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT ( http://arxiv.org/abs/2407.18288v1 )

ライセンス: Link先を確認
Niels G. Faber, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Najadasl, (参考訳) Multi Object Tracking (MOT) はコンピュータビジョンタスクであり、様々な分野に採用されている。 MOTの一般的な制限は、様々なオブジェクトの外観、オクルージョン、または混雑したシーンである。 これらの課題に対処するため、機械学習手法は広範囲にデプロイされ、大規模なデータセット、洗練されたモデル、および相当量の計算資源を活用している。 現実的な制限のため、上記へのアクセスは必ずしもオプションではない。 しかし、著名なAI企業による最近のファンデーションモデルのリリースにより、事前訓練されたモデルは最先端の手法を使用して膨大なデータセットとリソースで訓練されている。 この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。 DINOv2は教師、FairMOTのバックボーンHRNetv2 W18は学生である。 その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。 これらの知見は知識に基礎モデルを適用する可能性と限界を浮き彫りにする。

Multiple Object Tracking (MOT) is a computer vision task that has been employed in a variety of sectors. Some common limitations in MOT are varying object appearances, occlusions, or crowded scenes. To address these challenges, machine learning methods have been extensively deployed, leveraging large datasets, sophisticated models, and substantial computational resources. Due to practical limitations, access to the above is not always an option. However, with the recent release of foundation models by prominent AI companies, pretrained models have been trained on vast datasets and resources using state-of-the-art methods. This work tries to leverage one such foundation model, called DINOv2, through using knowledge distillation. The proposed method uses a teacher-student architecture, where DINOv2 is the teacher and the FairMOT backbone HRNetv2 W18 is the student. The results imply that although the proposed method shows improvements in certain scenarios, it does not consistently outperform the original FairMOT model. These findings highlight the potential and limitations of applying foundation models in knowledge
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# MARINE - 動物ビデオにおける希少な捕食者・捕食者の相互作用を検出するコンピュータビジョンモデル

MARINE: A Computer Vision Model for Detecting Rare Predator-Prey Interactions in Animal Videos ( http://arxiv.org/abs/2407.18289v1 )

ライセンス: Link先を確認
Zsófia Katona, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Najadasl, (参考訳) 捕食者と獲物の交尾は生態系において重要な役割を担っているが、その希少性はビデオ記録における検出を困難にしている。 行動認識(AR)と時間的行動検出(AD)の進歩、特にトランスフォーマーベースモデルと視覚基盤モデルは、人間の行動データセット上で高いパフォーマンスを達成しているが、動物ビデオは比較的研究が進んでいない。 この論文は、高速動物行動用に設計されたモーションベースのフレーム選択とDINOv2特徴抽出と、訓練可能な分類ヘッドを用いて行動認識を行うモデルであるMARINEを提案することで、このギャップに対処する。 MARINEは、小さなサンゴ礁のサンゴ礁のデータセット (81.53\%対52.64\%) と、より広範な動物王国のデータセット (94.86\%対83.14\%) のサブセットにおいて、魚の動画における捕食者攻撃の識別において、ビデオMAEを上回っている。 動物王国の代表標本のマルチラベル設定では、MARINEは23.79 % mAPを獲得し、既存のベンチマークの中間に位置する。 さらに、サンゴ礁データセットのADタスクでは、MARINEは80.78 % AP(VideoMAEの34.89 %)を達成しているが、t-IoU閾値は25 %である。 したがって、改善の余地はあるものの、MARINEは、動物記録におけるARおよびADタスクに適用するための効果的なスターターフレームワークを提供し、それによって自然生態系の研究に寄与する。

Encounters between predator and prey play an essential role in ecosystems, but their rarity makes them difficult to detect in video recordings. Although advances in action recognition (AR) and temporal action detection (AD), especially transformer-based models and vision foundation models, have achieved high performance on human action datasets, animal videos remain relatively under-researched. This thesis addresses this gap by proposing the model MARINE, which utilizes motion-based frame selection designed for fast animal actions and DINOv2 feature extraction with a trainable classification head for action recognition. MARINE outperforms VideoMAE in identifying predator attacks in videos of fish, both on a small and specific coral reef dataset (81.53\% against 52.64\% accuracy), and on a subset of the more extensive Animal Kingdom dataset (94.86\% against 83.14\% accuracy). In a multi-label setting on a representative sample of Animal Kingdom, MARINE achieves 23.79\% mAP, positioning it mid-field among existing benchmarks. Furthermore, in an AD task on the coral reef dataset, MARINE achieves 80.78\% AP (against VideoMAE's 34.89\%) although at a lowered t-IoU threshold of 25\%. Therefore, despite room for improvement, MARINE offers an effective starter framework to apply to AR and AD tasks on animal recordings and thus contribute to the study of natural ecosystems.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# 絡み合いの発生と伝達のダイナミクス

Dynamics of Entanglement Generation and Transfer ( http://arxiv.org/abs/2407.18301v1 )

ライセンス: Link先を確認
Einar Gabbassov, Achim Kempf, (参考訳) 断熱相互作用における絡み合いの生成と伝達は、固有値が固有ベクトルを置換する回避エネルギーレベルの交差の連続に遡ることができることを示す。 これらの固有ベクトルのスワップは多粒子系の絡み合いを織り込む。 この絡み合いの織り込みの効率は避けられた踏切の狭さに依存するため、断熱進化の速度を制限している。 これは、その最小期間で測定される断熱的な量子計算の複雑さと、その量子計算における絡み合いの資源の使用に関するものである。 これらの結果を導出するために、相互作用ハミルトニアンを階数1の射影子に分解するためにスペクトル定理を用い、その後、断熱定理を用いてこれらの射影子を連続的に断熱的に導入する。 各プロジェクターアクティベーションに対して、ハミルトニアンの加法の下での固有系の挙動に関する最近の正確な結果を用いて、非摂動的に絡み合いのダイナミクスを計算することができる。 本研究は, エンタングルメントの動的解析と制御のための新しいツールを提供する。

We show that the generating and transfer of entanglement during adiabatic interactions can be traced to a succession of avoided energy level crossings at which eigenvalues swap their eigenvectors. These swaps of eigenvectors weave the entanglement in multi-partite systems. The efficiency of this weaving of entanglement depends on the narrowness of the avoided level crossings and it is, therefore, constraining the speed of adiabatic evolution. This relates an adiabatic quantum computation's complexity, as measured by its minimum duration, to that quantum computation's usage of the resource of entanglement. To derive these results, we employ the spectral theorem to decompose interaction Hamiltonians into rank-one projectors and we then use the adiabatic theorem to successively adiabatically introduce these projectors. For each projector activation, using recent exact results on the behaviour of eigensystems under the addition of Hamiltonians, we can then non-perturbatively calculate the entanglement dynamics. Our findings provide new tools for the analysis and control of the dynamics of entanglement.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# 量子コンピュータにおける効率的な単一ゲート最適化のための量子ランドスケープトモグラフィ

Quantum landscape tomography for efficient single-gate optimization on quantum computers ( http://arxiv.org/abs/2407.18305v1 )

ライセンス: Link先を確認
Matan Ben-Dov, Itai Arad, Emanuele G. Dalla Torre, (参考訳) 短期量子コンピュータにおける量子優位性を示すためのいくつかの提案は、変動回路の最適化に依存している。 これらのアプローチには、例えば、変分量子固有解法と多体量子シミュレータ、および制限された計算技術によるそれらの実現は、効率的な最適化技術の開発に大きく依存する。 本稿では,テンソルネットワーク最適化の原理を活かした高密度量子回路の新しい最適化手法を提案する。 提案手法は, 環境テンソルトモグラフィによるゲート上のコスト関数の依存性を, 量子デバイス上でのノイズ測定により完全に特徴づけることにより, 一度に1つのゲートを最適化することに焦点を当てる。 我々は、フルテンソルトモグラフィーを実行するのに必要な最小限の測定数を計算し、この数をユニタリ2設計に関連付ける。 次に、線形回帰に基づくランドスケープトモグラフィーの一般的なフレームワークを説明し、それぞれシャドウトモグラフィーとクリフォード・テーブルローに基づく2つの異なる実装を比較した。 最後に,パラメータシフト規則に基づく勾配のない最適化と勾配に基づく最適化を比較し,ノイズのあるデバイスにおける量子アルゴリズム開発におけるアルゴリズムの潜在的なメリットを強調した。

Several proposals aiming to demonstrate quantum advantage on near-term quantum computers rely on the optimization of variational circuits. These approaches include, for example, variational quantum eigensolvers and many-body quantum simulators and their realization with limited computational techniques critically depends on the development of efficient optimization techniques. In this paper, we introduce a new optimization strategy for dense quantum circuits, leveraging tensor network optimization principles. Our approach focuses on optimizing one gate at a time by fully characterizing the dependency of the cost function on the gate through environment tensor tomography, obtained via noisy measurements on a quantum device. We compute the minimal number of measurements needed to perform a full tensor tomography and relate this number to unitary 2-design. We then describe a general framework for landscape tomography based on linear regression and compare two different implementations based on shadow tomography and Clifford tableaux, respectively. Finally, we compare our strategy with both gradient-free optimization and gradient-based optimization based on the parameter-shift rule, highlighting potential benefits of our algorithm for the development of quantum algorithms in noisy devices.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# 量子ネットワークノード上でアプリケーションを実行するオペレーティングシステムの設計と実演

Design and demonstration of an operating system for executing applications on quantum network nodes ( http://arxiv.org/abs/2407.18306v1 )

ライセンス: Link先を確認
Carlo Delle Donne, Mariagrazia Iuliano, Bart van der Vecht, Guilherme Maciel Ferreira, Hana Jirovská, Thom van der Steenhoven, Axel Dahlberg, Matt Skrzypczyk, Dario Fioretto, Markus Teller, Pavel Filippov, Alejandro Rodríguez-Pardo Montblanch, Julius Fischer, Benjamin van Ommen, Nicolas Demetriou, Dominik Leichtle, Luka Music, Harold Ollivier, Ingmar te Raa, Wojciech Kozlowski, Tim Taminiau, Przemysław Pawełczak, Tracy Northup, Ronald Hanson, Stephanie Wehner, (参考訳) 将来の量子ネットワークの目標は、古典的な通信だけでは達成できない新しいインターネットアプリケーションを実現することである。 これまで、量子ネットワークアプリケーションと量子プロセッサの機能の実証は、実験的なセットアップに特有なアドホックなソフトウェアで行われ、実験物理学の専門知識を用いて、単一のタスク(アプリケーション実験)を直接低レベルの制御デバイスに実行するようプログラムされていた。 本稿では,プラットフォームに依存しない高レベルソフトウェアにおいて,量子プロセッサ上で量子ネットワークアプリケーションを実行する最初のアーキテクチャの設計と実装について報告する。 ダイヤモンド中の窒素空孔(NV)中心に基づく2つの量子ネットワークノード上のクライアントからサーバへのデリゲートされた計算を含むテストプログラムを実行し、量子ネットワークオペレーティングシステムとして実装することで、高レベルのソフトウェアでアプリケーションを実行するアーキテクチャの能力を実証する。 量子ネットワーク上で異なるアプリケーションをマルチタスクすることで、私たちのアーキテクチャが量子ネットワークハードウェアの使用を最大化する方法を示します。 我々のアーキテクチャは,システムモデルに対応する任意の量子プロセッサプラットフォーム上でプログラムを実行するために利用することができる。これは,1つの$^{40}\text{Ca}^+$ atom に基づいて,捕捉されたイオン量子ネットワークノードに対してQNodeOS用の追加ドライバをデモすることによって示される。 我々のアーキテクチャは、量子ネットワークプログラミングの分野におけるコンピュータサイエンス研究の基礎を築き、社会に量子ネットワーク技術をもたらすソフトウェアを開発するための道を開いた。

The goal of future quantum networks is to enable new internet applications that are impossible to achieve using solely classical communication. Up to now, demonstrations of quantum network applications and functionalities on quantum processors have been performed in ad-hoc software that was specific to the experimental setup, programmed to perform one single task (the application experiment) directly into low-level control devices using expertise in experimental physics. Here, we report on the design and implementation of the first architecture capable of executing quantum network applications on quantum processors in platform-independent high-level software. We demonstrate the architecture's capability to execute applications in high-level software, by implementing it as a quantum network operating system -- QNodeOS -- and executing test programs including a delegated computation from a client to a server on two quantum network nodes based on nitrogen-vacancy (NV) centers in diamond. We show how our architecture allows us to maximize the use of quantum network hardware, by multitasking different applications on a quantum network for the first time. Our architecture can be used to execute programs on any quantum processor platform corresponding to our system model, which we illustrate by demonstrating an additional driver for QNodeOS for a trapped-ion quantum network node based on a single $^{40}\text{Ca}^+$ atom. Our architecture lays the groundwork for computer science research in the domain of quantum network programming, and paves the way for the development of software that can bring quantum network technology to society.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# 大学院教育の革命:CourseGPTとその生成AIの進歩

Revolutionizing Undergraduate Learning: CourseGPT and Its Generative AI Advancements ( http://arxiv.org/abs/2407.18310v1 )

ライセンス: Link先を確認
Ahmad M. Nazar, Mohamed Y. Selim, Ashraf Gaffar, Shakil Ahmed, (参考訳) ジェネレーティブAI(GenAI)を教育コンテキストに統合することは、学習経験を向上させるための変革的な可能性を示す。 本稿では,教員支援と学部生の教育経験向上を目的とした生成型AIツールであるCourseGPTを紹介する。 Mistral AIのオープンソースのLarge Language Models(LLMs)をベースに構築されたCourseGPTは、継続的なインストラクターサポートとコース教材の定期的なアップデートを提供し、学習環境を豊かにする。 スライドデッキや補足的な読み書きや参照などのコース固有のコンテンツを利用することで、CourseGPTは生徒の質問に対して正確で動的に生成された応答を提供する。 一般的なAIモデルとは異なり、CourseGPTはインストラクターが応答を管理し制御できるので、圧倒的な詳細なしにコース範囲を拡張することができる。 本稿では,CPR E 431- Basics of Information System Security をパイロットとして利用したCourseGPTの応用例を示す。 このコースは、大きな入学資格と多様なカリキュラムを持ち、CourseGPTの理想的なテストベッドとして機能する。 このツールは、学習経験の向上、フィードバックプロセスの高速化、管理タスクの合理化を目的としている。 本研究は,CourseGPTが学生の成果に与える影響を評価し,正当性スコア,コンテキストリコール,回答の忠実さに着目した。 その結果、Mixtral-8x7bモデルはパラメータ数が高く、より小さなモデルより優れており、88.0%の正確度スコアと66.6%の忠実度スコアを達成している。 さらに,元学生や指導助手からのCourseGPTの正確性,有用性,全体的なパフォーマンスに対するフィードバックを収集した。 その結果、CourseGPTがクエリに対処する上で非常に正確で有益であることが判明した。

Integrating Generative AI (GenAI) into educational contexts presents a transformative potential for enhancing learning experiences. This paper introduces CourseGPT, a generative AI tool designed to support instructors and enhance the educational experiences of undergraduate students. Built on open-source Large Language Models (LLMs) from Mistral AI, CourseGPT offers continuous instructor support and regular updates to course materials, enriching the learning environment. By utilizing course-specific content, such as slide decks and supplementary readings and references, CourseGPT provides precise, dynamically generated responses to student inquiries. Unlike generic AI models, CourseGPT allows instructors to manage and control the responses, thus extending the course scope without overwhelming details. The paper demonstrates the application of CourseGPT using the CPR E 431 - Basics of Information System Security course as a pilot. This course, with its large enrollments and diverse curriculum, serves as an ideal testbed for CourseGPT. The tool aims to enhance the learning experience, accelerate feedback processes, and streamline administrative tasks. The study evaluates CourseGPT's impact on student outcomes, focusing on correctness scores, context recall, and faithfulness of responses. Results indicate that the Mixtral-8x7b model, with a higher parameter count, outperforms smaller models, achieving an 88.0% correctness score and a 66.6% faithfulness score. Additionally, feedback from former students and teaching assistants on CourseGPT's accuracy, helpfulness, and overall performance was collected. The outcomes revealed that a significant majority found CourseGPT to be highly accurate and beneficial in addressing their queries, with many praising its ability to provide timely and relevant information.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# 応力フォーミュラ2

Majorizing Stress Formula Two ( http://arxiv.org/abs/2407.18313v1 )

ライセンス: Link先を確認
Jan de Leeuw, (参考訳) Kruskal の応力公式 2 に対する収束的一般化アルゴリズムを提供するため,多次元スケーリングのためのスマモフアルゴリズムの修正が提案されている。

Modifications of the smacof algorithm for multidimensional scaling are proposed that provide a convergent majorization algorithm for Kruskal's stress formula two.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-25
# Affectively Framework:人間らしいAffect-based Agentsを目指して

Affectively Framework: Towards Human-like Affect-Based Agents ( http://arxiv.org/abs/2407.18316v1 )

ライセンス: Link先を確認
Matthew Barthet, Roberto Gallotta, Ahmed Khalifa, Antonios Liapis, Georgios N. Yannakakis, (参考訳) ゲーム環境は、インタラクティブな性質から仮想エージェントを訓練するユニークな機会を提供し、多様なプレイトレースを提供し、ラベルに影響を与える。 その可能性にもかかわらず、人間の影響モデルを観察空間や報酬機構の一部として組み込んだ強化学習フレームワークは存在しない。 これを解決するために、観測空間の一部に影響を及ぼすOpen-AI Gym環境の集合である \emph{Affectively Framework} を提示する。 本稿では,フレームワークとその3つのゲーム環境を紹介し,その有効性と可能性を検証するためのベースライン実験を行う。

Game environments offer a unique opportunity for training virtual agents due to their interactive nature, which provides diverse play traces and affect labels. Despite their potential, no reinforcement learning framework incorporates human affect models as part of their observation space or reward mechanism. To address this, we present the \emph{Affectively Framework}, a set of Open-AI Gym environments that integrate affect as part of the observation space. This paper introduces the framework and its three game environments and provides baseline experiments to validate its effectiveness and potential.
翻訳日:2024-07-29 15:09:01 公開日:2024-07-25
# CavDetect:DBSCANアルゴリズムによるタンパク質構造に基づく新しいキャビティ検出モデル

CavDetect: A DBSCAN Algorithm based Novel Cavity Detection Model on Protein Structure ( http://arxiv.org/abs/2407.18317v1 )

ライセンス: Link先を確認
Swati Adhikari, Parthajit Roy, (参考訳) タンパク質の構造に関する空洞は、リガンドとして知られるタンパク質といくつかの小さな分子との相互作用によって形成される。 これらは基本的にリガンドがタンパク質と結合する場所である。 このような場所の実際の検出は、薬物設計プロセス全体において成功するために重要である。 本研究では,タンパク質の構造上の空洞を検出するために,ボロノイテッセルレーションを用いた新規キャビティ検出モデルを提案する。 そこで本研究では,DBSCANアルゴリズムを用いて,タンパク質構造の原子空間が高密度かつ多量であるため,DBSCANアルゴリズムはそのような種類のデータを扱うことができ,また,データ内のクラスタ数(キャビティ)に関する知識を優先的に必要としない。

Cavities on the structures of proteins are formed due to interaction between proteins and some small molecules, known as ligands. These are basically the locations where ligands bind with proteins. Actual detection of such locations is all-important to succeed in the entire drug design process. This study proposes a Voronoi Tessellation based novel cavity detection model that is used to detect cavities on the structure of proteins. As the atom space of protein structure is dense and of large volumes and the DBSCAN (Density Based Spatial Clustering of Applications with Noise) algorithm can handle such type of data very well as well as it is not mandatory to have knowledge about the numbers of clusters (cavities) in data as priori in this algorithm, this study proposes to implement the proposed algorithm with the DBSCAN algorithm.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# 対話型AIエージェントにおける自己説明のための認知AIと生成AIの組み合わせ

Combining Cognitive and Generative AI for Self-explanation in Interactive AI Agents ( http://arxiv.org/abs/2407.18335v1 )

ライセンス: Link先を確認
Shalini Sushri, Rahul Dass, Rhea Basappa, Hong Lu, Ashok Goel, (参考訳) Virtual Experimental Research Assistant(VERA)は、学習者が複雑な生態システムの概念モデルを構築し、エージェントベースのモデルシミュレーションを実験することを可能にする調査ベースの学習環境である。 本研究では、VERAのような対話型AIエージェントの自己説明のための認知AIと生成AIの収束について検討する。 認知AIの観点から、我々はVERAに、タスク-メソッド-知識(TMK)言語で表される独自の設計、知識、推論の機能モデルを与える。 生成AIの観点からは、ChatGPT、LangChain、Chain-of-Thoughtを使用して、VERA TMKモデルに基づいたユーザの質問に答える。 このように、認知と生成のAIを組み合わせて、VERAがどのように機能するかを説明し、その答えを生成する。 従来の研究から得られた66の質問の銀行上でのVERAにおける説明の生成に関する予備的評価は有望と思われる。

The Virtual Experimental Research Assistant (VERA) is an inquiry-based learning environment that empowers a learner to build conceptual models of complex ecological systems and experiment with agent-based simulations of the models. This study investigates the convergence of cognitive AI and generative AI for self-explanation in interactive AI agents such as VERA. From a cognitive AI viewpoint, we endow VERA with a functional model of its own design, knowledge, and reasoning represented in the Task--Method--Knowledge (TMK) language. From the perspective of generative AI, we use ChatGPT, LangChain, and Chain-of-Thought to answer user questions based on the VERA TMK model. Thus, we combine cognitive and generative AI to generate explanations about how VERA works and produces its answers. The preliminary evaluation of the generation of explanations in VERA on a bank of 66 questions derived from earlier work appears promising.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# SMiCRM: メカニスティックな分子画像のベンチマークデータセット

SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images ( http://arxiv.org/abs/2407.18338v1 )

ライセンス: Link先を確認
Ching Ting Leung, Yufan Chen, Hanyu Gao, (参考訳) 光学化学構造認識(OCSR)システムは、化学分子の画像から分子構造情報(通常は分子グラフまたはSMILES)を抽出することを目的としている。 この目的のために多くのツールが開発されているが、画像には様々な種類のノイズがあるため、依然として課題が存在する。 具体的には、機械的なステップで電子の流れを実証する典型的な化学画像である「狭プッシング」ダイアグラムに焦点を当てる。 本稿では, 化学反応機構(SMiCRM)における分子画像の構造分子識別子について述べる。 453枚の画像からなり、幅広い有機化学反応を網羅し、それぞれに分子構造と機械的な矢印が描かれている。 SMiCRMは、OCSRメソッドのベンチマークプロセスを強化するために、アノテーション付き分子画像の豊富なコレクションを提供する。 このデータセットには、各画像に対する機械可読な分子アイデンティティと、化学反応中に電子の流れを示す機械的矢印が含まれている。 これは、分子認識技術をテストするためのより正確で困難なタスクを示し、このタスクを達成することで、コンピュータで抽出した化学反応データにおけるメカニサイト情報を大幅に強化することができる。

Optical chemical structure recognition (OCSR) systems aim to extract the molecular structure information, usually in the form of molecular graph or SMILES, from images of chemical molecules. While many tools have been developed for this purpose, challenges still exist due to different types of noises that might exist in the images. Specifically, we focus on the 'arrow-pushing' diagrams, a typical type of chemical images to demonstrate electron flow in mechanistic steps. We present Structural molecular identifier of Molecular images in Chemical Reaction Mechanisms (SMiCRM), a dataset designed to benchmark machine recognition capabilities of chemical molecules with arrow-pushing annotations. Comprising 453 images, it spans a broad array of organic chemical reactions, each illustrated with molecular structures and mechanistic arrows. SMiCRM offers a rich collection of annotated molecule images for enhancing the benchmarking process for OCSR methods. This dataset includes a machine-readable molecular identity for each image as well as mechanistic arrows showing electron flow during chemical reactions. It presents a more authentic and challenging task for testing molecular recognition technologies, and achieving this task can greatly enrich the mechanisitic information in computer-extracted chemical reaction data.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# ベイジアンロバスト位相推定を用いた単一クビットゲートのFew-Shot, Robust Calibration

Few-Shot, Robust Calibration of Single Qubit Gates Using Bayesian Robust Phase Estimation ( http://arxiv.org/abs/2407.18339v1 )

ライセンス: Link先を確認
Travis Hurant, Ke Sun, Zhubing Jia, Jungsang Kim, Kenneth R. Brown, (参考訳) 量子ゲートにおける制御パラメータの正確なキャリブレーションは、高忠実度演算には不可欠であるが、量子コンピュータのダウンタイムを必要とする重要な時間とリソースの問題を表している。 ロバスト位相推定(RPE)は、この問題に対処するための実用的で効果的な校正手法として登場した。 確率的に効率的な制御パルス数と古典的な後処理アルゴリズムを組み合わせることで、量子ゲートによって蓄積された位相を推定する。 ベイジアン・ロバスト位相推定(BRPE)は,ベイジアン・パラメータ推定を古典的後処理相に統合し,サンプリングオーバーヘッドを低減する手法である。 数値解析の結果,BRPE は位相推定誤差を著しく低減し,標準 RPE よりも50\% 程度のサンプルを削減できることがわかった。 特に、理想的なノイズフリーの環境では、RPEと比較すると、固定サンプルコストが8,8$である場合、平均絶対推定誤差を最大9,6\%削減できる。 偏極ノイズモデルでは、固定コスト176ドル(約1万7000円)で最大47ドル(約4万7000円)の値下げを実現します。 さらに,ラムゼイ分光法にBRPEを適用し,トラップイオン系で実験的に実装した。

Accurate calibration of control parameters in quantum gates is crucial for high-fidelity operations, yet it represents a significant time and resource challenge, necessitating periods of downtime for quantum computers. Robust Phase Estimation (RPE) has emerged as a practical and effective calibration technique aimed at tackling this challenge. It combines a provably efficient number of control pulses with a classical post-processing algorithm to estimate the phase accumulated by a quantum gate. We introduce Bayesian Robust Phase Estimation (BRPE), an innovative approach that integrates Bayesian parameter estimation into the classical post-processing phase to reduce the sampling overhead. Our numerical analysis shows that BRPE markedly reduces phase estimation errors, requiring approximately $50\%$ fewer samples than standard RPE. Specifically, in an ideal, noise-free setting, it achieves up to a $96\%$ reduction in average absolute estimation error for a fixed sample cost of $88$ shots when compared to RPE. Under a depolarizing noise model, it attains up to a $47\%$ reduction for a fixed cost of $176$ shots. Additionally, we adapt BRPE for Ramsey spectroscopy applications and successfully implement it experimentally in a trapped ion system.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# 2+1)Dサブシステム対称監視量子回路における相転移

Phase transitions in (2 + 1)D subsystem-symmetric monitored quantum circuits ( http://arxiv.org/abs/2407.18340v1 )

ライセンス: Link先を確認
Cole Kelson-Packer, Akimasa Miyake, (参考訳) ユニタリ進化と射影測定の相互作用は、多体の絡み合いの研究における現代の関心である。 一方、これらの2つのプロセス間の競合は、最近発見された測定誘起相転移(MIPT)につながる。 一方、測定に基づく量子計算(MBQC)は、2Dクラスタ状態のような特別なリソースの絡み合いを利用して、測定がユニタリ進化をシミュレートする方法を研究するよく知られた計算モデルである。 MBQCを許容する絡み合い特性は対称性保護トポロジカル位数(SPT)、特にサブシステム対称位数(SSPT)に起因している可能性がある。 1Dクラスター状態は、大域的な$Z_2 \times Z_2$対称性に関するランダム回路のSPT相と関連し、さらに、このシナリオにおける全ての位相遷移は同じ普遍性クラスに属することが最近明らかになった。 より大きな計算力を持つ資源はより大きな対称性を特徴としており、MIPTとMBQCの対称性のレベルの間の関係をさらに調査することは有益である。 本稿では,3段階の対称性参照ユニタリ進化を持つトーラス上のMIPTについて検討する。 各アンサンブルごとに異なる絡み合い構造を持つ2つのエリアロー位相と1つのボリュームロー位相を求めるが、ボリュームロー位相から2Dクラスタ状態に関連するエリアロー位相への位相遷移は、可変相関長指数$\nu$を持つ。 制約のないクリフォードユニタリに対して$\nu\approx 0.90$、グローバル対称クリフォードに対して$\nu\approx 0.83$に対して、サブシステム対称クリフォードはより小さな値である$\nu\approx 0.38$である。 これらのランダムな量子回路モデルに見られる異なる遷移の階層構造は、MBQCの計算普遍性に影響を及ぼす可能性があると推測されている。

The interplay of unitary evolution and projective measurements is a modern interest in the study of many-body entanglement. On the one hand, the competition between these two processes leads to the recently-discovered measurement-induced phase transition (MIPT). On the other, measurement-based quantum computation (MBQC) is a well-known computational model studying how measurements simulate unitary evolution utilizing the entanglement of special resources such as the 2D cluster state. The entanglement properties enabling MBQC may be attributed to symmetry-protected topological (SPT) orders, particularly subsystem symmetric (SSPT) orders. It was recently found that the 1D cluster state may be associated with an SPT phase in random circuits respecting a global $Z_2 \times Z_2$ symmetry, and furthermore that all phase transitions in this scenario belong to the same universality class. As resources with greater computational power feature greater symmetry, it is fruitful to investigate further any relationship between levels of symmetry in MIPTs and MBQC. In this paper we investigate MIPTs on a torus with three levels of symmetry-respecting unitary evolution interspersed by measurements. Although we find two area-law phases and one volume-law phase with distinct entanglement structures for each ensemble, the phase transition from the volume-law phase to the area-law phase associated with the 2D cluster state has variable correlation length exponent $\nu$. Whereas $\nu\approx 0.90$ for unconstrained Clifford unitaries and $\nu\approx 0.83$ for globally-symmetric Cliffords, subsystem-symmetric Cliffords feature a much smaller value $\nu\approx 0.38$. It is speculated that the hierarchy of distinct transitions seen in these random monitored quantum circuit models might have consequences for computational universality in MBQC.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# δ-XAI : 局所AI説明のための新しい感度に基づく手法

Introducing δ-XAI: a novel sensitivity-based method for local AI explanations ( http://arxiv.org/abs/2407.18343v1 )

ライセンス: Link先を確認
Alessandro De Carlo, Enea Parimbelli, Nicola Melillo, Giovanna Nicora, (参考訳) 説明可能な人工知能(XAI)は、人工知能(AI)と機械学習(ML)のアルゴリズムを臨床実践に統合する議論の中心である。 アンサンブル学習者やディープニューラルネットワークのようなハイパフォーマンスなAI/MLモデルは、解釈可能性に欠けることが多く、臨床医の予測に対する信頼を妨げている。 これを解決するために、AI/ML予測を人間の理解可能な言葉で記述するXAI技術が開発されている。 1つの有望な方向は、感度分析(SA)とグローバル感度分析(GSA)の適応であり、これは本質的にモデル入力が予測に与える影響によってランク付けされる。 本稿では,GSA測度であるデルタ指数を拡張することで,MLモデル予測の局所的な説明を提供する新しいデルタXAI手法を提案する。 デルタXAI指数は、回帰問題と分類問題の両方において、各特徴値が個々のインスタンスの予測出力に与える影響を評価する。 我々はデルタXAIインデックスを形式化し、その実装のためのコードを提供する。 デルタXAI法は線形回帰モデルを用いてシミュレーションシナリオで評価され,シェープリー値がベンチマークとして機能した。 その結果、デルタXAI指数は概してシャプリー値と一致しており、非常に影響の強い特徴値や極端な特徴値を持つモデルでは顕著な相違が見られた。 デルタXAI指数は支配的特徴の検出と極端な特徴値の扱いにおいて高い感度を示した。 デルタXAIは、確率密度関数を活用することで直感的な説明を提供し、特徴ランキングをより明確化し、実践者にとってより説明しやすいものにしている。 全体として、デルタXAI法は、MLモデル予測の局所的な説明をしっかりと得ることを約束しているようである。 実世界の臨床環境に関するさらなる調査は、AI支援臨床ワークフローへの影響を評価するために行われる。

Explainable Artificial Intelligence (XAI) is central to the debate on integrating Artificial Intelligence (AI) and Machine Learning (ML) algorithms into clinical practice. High-performing AI/ML models, such as ensemble learners and deep neural networks, often lack interpretability, hampering clinicians' trust in their predictions. To address this, XAI techniques are being developed to describe AI/ML predictions in human-understandable terms. One promising direction is the adaptation of sensitivity analysis (SA) and global sensitivity analysis (GSA), which inherently rank model inputs by their impact on predictions. Here, we introduce a novel delta-XAI method that provides local explanations of ML model predictions by extending the delta index, a GSA metric. The delta-XAI index assesses the impact of each feature's value on the predicted output for individual instances in both regression and classification problems. We formalize the delta-XAI index and provide code for its implementation. The delta-XAI method was evaluated on simulated scenarios using linear regression models, with Shapley values serving as a benchmark. Results showed that the delta-XAI index is generally consistent with Shapley values, with notable discrepancies in models with highly impactful or extreme feature values. The delta-XAI index demonstrated higher sensitivity in detecting dominant features and handling extreme feature values. Qualitatively, the delta-XAI provides intuitive explanations by leveraging probability density functions, making feature rankings clearer and more explainable for practitioners. Overall, the delta-XAI method appears promising for robustly obtaining local explanations of ML model predictions. Further investigations in real-world clinical settings will be conducted to evaluate its impact on AI-assisted clinical workflows.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# 多体楕円作用素に対する境界値問題の明示的ブロック符号化

Explicit block encodings of boundary value problems for many-body elliptic operators ( http://arxiv.org/abs/2407.18347v1 )

ライセンス: Link先を確認
Tyler Kharazi, Ahmad M. Alkadri, Jin-Peng Liu, Kranthi K. Mandadapu, K. Birgitta Whaley, (参考訳) 物理システムのシミュレーションは、将来のデジタル量子コンピュータの最も有望なユースケースの1つである。 本研究では,多体シミュレーションの高次元例を含む偏微分方程式の数値シミュレーションにおいて,離散化楕円演算子を符号化するブロックの量子回路複雑性を系統的に解析する。 分離可能な境界条件を持つ矩形領域に制限された場合、低次有限差分法による標準離散化手法を用いて、多体ラプラシアンを分離可能な周期性、ディリクレ、ノイマン、ロビン境界条件で符号化する明示的な回路を提供する。 高次有限差分法を用いてディリクレとノイマンの境界値問題を解くための周期拡張に基づくスキームを導入する。 次に、より任意の領域に作用する微分作用素のブロック符号化を実装し、カルテシアン没入境界法に着想を得た。 次に、多体対流演算子を符号化し、粒子間距離の逆力則として与えられる対のポテンシャルによって生じる力を受ける相互作用粒子を記述する。 この研究は、量子回路に容易に変換できる具体的なレシピを提供し、ヒルベルト空間次元全体の深さ対数性を持ち、量子および古典的な多体力学の量子シミュレーションを含む応用において広く生じるエンコード作用素をブロックする。

Simulation of physical systems is one of the most promising use cases of future digital quantum computers. In this work we systematically analyze the quantum circuit complexities of block encoding the discretized elliptic operators that arise extensively in numerical simulations for partial differential equations, including high-dimensional instances for many-body simulations. When restricted to rectangular domains with separable boundary conditions, we provide explicit circuits to block encode the many-body Laplacian with separable periodic, Dirichlet, Neumann, and Robin boundary conditions, using standard discretization techniques from low-order finite difference methods. To obtain high-precision, we introduce a scheme based on periodic extensions to solve Dirichlet and Neumann boundary value problems using a high-order finite difference method, with only a constant increase in total circuit depth and subnormalization factor. We then present a scheme to implement block encodings of differential operators acting on more arbitrary domains, inspired by Cartesian immersed boundary methods. We then block encode the many-body convective operator, which describes interacting particles experiencing a force generated by a pair-wise potential given as an inverse power law of the interparticle distance. This work provides concrete recipes that are readily translated into quantum circuits, with depth logarithmic in the total Hilbert space dimension, that block encode operators arising broadly in applications involving the quantum simulation of quantum and classical many-body mechanics.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# フラクソニウムアンシラを用いた発振器のクロス共振制御

Cross-resonance control of an oscillator with a fluxonium ancilla ( http://arxiv.org/abs/2407.18351v1 )

ライセンス: Link先を確認
Guo Zheng, Simon Lieu, Emma L. Rosenfeld, Kyungjoo Noh, Connor T. Hann, (参考訳) 発振器と離散可変アンシラの間の条件変位(CD)ゲートは、発振器の普遍的な制御や量子ビットの長手読み取りなどの量子情報処理タスクにおいて重要な役割を果たす。 しかし、ゲートはアンシラ崩壊エラーの伝播に対して保護されず、そのため耐故障性はない。 そこで本研究では,アシラとしてフラキソニウムを用いたCDゲート方式を提案し,大きなノイズバイアスとミリ秒レベルの寿命を有することを実験的に実証した。 提案したゲートは、ターゲット発振器の周波数でフラキソニウムの外部フラックスを変調することにより、クロス共鳴的に適用される。 さらに、ゲート機構の摂動的記述を提供し、エラー予算を特定します。 さらに,ゲート性能を最適化するデバイスパラメータとゲートパラメータを近似的に選択する手法を開発した。 文献からのフラキソニウムパラメータの複数セットの手順に続いて、99.9%を超えるユニタリ忠実度を持つCDゲートと数百ナノ秒のゲートタイムを数値的に示す。

The conditional displacement (CD) gate between an oscillator and a discrete-variable ancilla plays a key role in quantum information processing tasks, such as enabling universal control of the oscillator and longitudinal readout of the qubit. However, the gate is unprotected against the propagation of ancilla decay errors and hence not fault-tolerant. Here, we propose a CD gate scheme with fluxonium as the ancilla, which has been experimentally demonstrated to have a large noise bias and millisecond-level lifetimes. The proposed gate is applied cross-resonantly by modulating the external flux of the fluxonium at the frequency of the target oscillator, which requires minimal hardware overhead and does not increase sensitivity to decoherence mechanisms like dephasing. We further provide a perturbative description of the gate mechanism and identify the error budget. Additionally, we develop an approximate procedure for choosing device and gate parameters that optimizes gate performance. Following the procedure for multiple sets of fluxonium parameters from the literature, we numerically demonstrate CD gates with unitary fidelity exceeding 99.9% and gate times of hundreds of nanoseconds.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# エッジにおけるプライバシ保護モデル分散推論

Privacy-Preserving Model-Distributed Inference at the Edge ( http://arxiv.org/abs/2407.18353v1 )

ライセンス: Link先を確認
Fatemeh Jafarian Dehkordi, Yasaman Keshtkarjahromi, Hulya Seferoglu, (参考訳) 本稿では、クライアントがデータを所有/生成し、モデルオーナ(クラウドサーバ)が事前トレーニングされたMLモデルを持ち、エッジサーバがクラウドサーバのMLモデルを使用してクライアントのデータに対してML推論を行う階層的なセットアップのための、プライバシ保護機械学習(ML)推論プロトコルを設計することに焦点を当てる。 私たちの目標は、データとMLモデルの両方にプライバシを提供しながら、ML推論をスピードアップすることにあります。 私たちのアプローチ i)エッジサーバでモデル分散推論(モデル並列化)を使用し、 (ii)クラウドサーバへの通信量を削減する。 当社のプライバシ保存型階層型階層型モデル分散推論では,ML推論における線形計算に付加的な秘密共有と線形同型暗号を用いており,非線形関数の処理にはガーブラード回路と新規な3要素不規則転送を用いる。 privateMDIはオフラインとオンラインのフェーズで構成されている。 オンラインフェーズの通信オーバーヘッドを低減しつつ、オフラインフェーズでデータ交換の大部分が実行されるように、これらのフェーズを設計しました。 特に、オンラインフェーズでは、クラウドサーバへの通信は行わず、クライアントとエッジサーバ間の通信量が最小化される。 実験の結果,PrivateMDIはベースラインと比較してML推論時間を著しく短縮することがわかった。

This paper focuses on designing a privacy-preserving Machine Learning (ML) inference protocol for a hierarchical setup, where clients own/generate data, model owners (cloud servers) have a pre-trained ML model, and edge servers perform ML inference on clients' data using the cloud server's ML model. Our goal is to speed up ML inference while providing privacy to both data and the ML model. Our approach (i) uses model-distributed inference (model parallelization) at the edge servers and (ii) reduces the amount of communication to/from the cloud server. Our privacy-preserving hierarchical model-distributed inference, privateMDI design uses additive secret sharing and linearly homomorphic encryption to handle linear calculations in the ML inference, and garbled circuit and a novel three-party oblivious transfer are used to handle non-linear functions. privateMDI consists of offline and online phases. We designed these phases in a way that most of the data exchange is done in the offline phase while the communication overhead of the online phase is reduced. In particular, there is no communication to/from the cloud server in the online phase, and the amount of communication between the client and edge servers is minimized. The experimental results demonstrate that privateMDI significantly reduces the ML inference time as compared to the baselines.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# ブロックチェーンフェデレーションラーニングにおけるChatGPTのような生成AI - ユースケース、機会、未来

Generative AI like ChatGPT in Blockchain Federated Learning: use cases, opportunities and future ( http://arxiv.org/abs/2407.18358v1 )

ライセンス: Link先を確認
Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, Jannatul Ferdaus, Mahedi Hasan, Sameera Pisupati, Shanmukh Mathukumilli, (参考訳) フェデレーション学習は、このデータの共有を必要とせずに、分散データを使用して機械学習モデルをトレーニングするための重要なアプローチとなっている。 近年,生成人工知能(AI)手法の取り入れにより,プライバシの向上やデータ拡張,モデルのカスタマイズといった新たな可能性が高まっている。 本研究では、フェデレーション学習における生成AIの潜在的な統合について検討し、プライバシ、データ効率、モデルパフォーマンスを高める様々な機会を明らかにする。 特にGAN(generative adversarial network)やVAE(variantal autoencoder)のような生成モデルの重要性を強調し、実際のデータの分布を再現する合成データを作成する。 合成データの生成は、限られたデータ可用性に関連する課題へのフェデレーション学習を支援し、堅牢なモデル開発をサポートする。 さらに、よりパーソナライズされたソリューションを可能にするフェデレーション学習における生成AIの様々な応用について検討する。

Federated learning has become a significant approach for training machine learning models using decentralized data without necessitating the sharing of this data. Recently, the incorporation of generative artificial intelligence (AI) methods has provided new possibilities for improving privacy, augmenting data, and customizing models. This research explores potential integrations of generative AI in federated learning, revealing various opportunities to enhance privacy, data efficiency, and model performance. It particularly emphasizes the importance of generative models like generative adversarial networks (GANs) and variational autoencoders (VAEs) in creating synthetic data that replicates the distribution of real data. Generating synthetic data helps federated learning address challenges related to limited data availability and supports robust model development. Additionally, we examine various applications of generative AI in federated learning that enable more personalized solutions.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# 網膜ITA:マルチモーダル網膜イメージングのための反復的キーポイントアライメント

Retinal IPA: Iterative KeyPoints Alignment for Multimodal Retinal Imaging ( http://arxiv.org/abs/2407.18362v1 )

ライセンス: Link先を確認
Jiacheng Wang, Hao Li, Dewei Hu, Rui Xu, Xing Yao, Yuankai K. Tao, Ipek Oguz, (参考訳) マルチモーダル網膜画像間のマッチングと登録を強化するために, クロスモーダルな特徴を学習するために設計された, 網膜特徴点アライメントのための新しいフレームワークを提案する。 本モデルでは,従来の学習に基づく特徴検出と記述手法の成功を例に挙げる。 ラベルのないデータをうまく活用し、関連するキーポイントを再現するためにモデルを制約するために、キーポイントベースのセグメンテーションタスクを統合する。 同じ画像の異なるオーグメンテーション間のセグメンテーション一貫性を強制することにより、自己指導的な方法で訓練される。 キーポイント拡張型自己教師層を組み込むことで、モダリティ間のロバストな特徴抽出を実現する。 2つのパブリックデータセットと1つの社内データセットに対する広範囲な評価は、モダリティ非依存性網膜機能アライメントのパフォーマンスを著しく改善したことを示している。 コードとモデルの重み付けは \url{https://github.com/MedICL-VU/RetinaIPA} で公開されています。

We propose a novel framework for retinal feature point alignment, designed for learning cross-modality features to enhance matching and registration across multi-modality retinal images. Our model draws on the success of previous learning-based feature detection and description methods. To better leverage unlabeled data and constrain the model to reproduce relevant keypoints, we integrate a keypoint-based segmentation task. It is trained in a self-supervised manner by enforcing segmentation consistency between different augmentations of the same image. By incorporating a keypoint augmented self-supervised layer, we achieve robust feature extraction across modalities. Extensive evaluation on two public datasets and one in-house dataset demonstrates significant improvements in performance for modality-agnostic retinal feature alignment. Our code and model weights are publicly available at \url{https://github.com/MedICL-VU/RetinaIPA}.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# FADAS:Federated Adaptive Asynchronous Optimizationを目指して

FADAS: Towards Federated Adaptive Asynchronous Optimization ( http://arxiv.org/abs/2407.18365v1 )

ライセンス: Link先を確認
Yujia Wang, Shiqiang Wang, Songtao Lu, Jinghui Chen, (参考訳) フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。 SGDベースのFLアルゴリズムは過去にもかなりの成功を収めてきたが、特に大規模モデルのトレーニングにおいて、適応的フェデレーション最適化手法を採用する傾向が高まっている。 しかし、従来の同期アグリゲーション設計は、特にストラグラークライアントの存在下で、これらの適応的フェデレーション最適化手法の実践的な展開に重要な課題をもたらす。 本研究のギャップを埋めるために,非同期更新を適応的フェデレーションに組み込んだ新しい手法であるFADASを提案する。 非同期遅延の大きいシナリオでは,提案手法の効率性とレジリエンスをさらに向上するため,FADASを遅延適応型学習調整戦略で拡張する。 提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。

Federated learning (FL) has emerged as a widely adopted training paradigm for privacy-preserving machine learning. While the SGD-based FL algorithms have demonstrated considerable success in the past, there is a growing trend towards adopting adaptive federated optimization methods, particularly for training large-scale models. However, the conventional synchronous aggregation design poses a significant challenge to the practical deployment of those adaptive federated optimization methods, particularly in the presence of straggler clients. To fill this research gap, this paper introduces federated adaptive asynchronous optimization, named FADAS, a novel method that incorporates asynchronous updates into adaptive federated optimization with provable guarantees. To further enhance the efficiency and resilience of our proposed method in scenarios with significant asynchronous delays, we also extend FADAS with a delay-adaptive learning adjustment strategy. We rigorously establish the convergence rate of the proposed algorithms and empirical results demonstrate the superior performance of FADAS over other asynchronous FL baselines.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# ファクト検出によるロバストなクレームの検証

Robust Claim Verification Through Fact Detection ( http://arxiv.org/abs/2407.18367v1 )

ライセンス: Link先を確認
Nazanin Jafari, James Allan, (参考訳) クレーム検証は難しい作業です。 本稿では,証拠から短い事実を抽出することで,自動クレーム検証の堅牢性と推論能力を向上させる手法を提案する。 我々の新しいアプローチであるFactDetectは、Large Language Models(LLM)を活用して、証拠から簡潔な事実文を生成し、その主張と証拠に対する意味的関連性に基づいてこれらの事実をラベル付けします。 生成された事実は、クレームとエビデンスと組み合わせられる。 軽量な教師付きモデルを訓練するために,クレーム検証プロセスにファクト検出タスクを組み込んで,性能と説明可能性の両方を改善するマルチタスク手法を提案する。 また,FactDetectを付加することで,LCMを用いたゼロショットクレーム検証の性能が向上することを示す。 本手法は, 科学的クレーム検証データセットの評価において, F1 スコアで 15% の制御されたクレーム検証モデルにおいて, 競合する結果を実証する。 また,FactDetect を LLM におけるゼロショットプロンプト(AugFactDetect) のクレームとエビデンスで拡張し,予測できることを示す。 AugFactDetectは3つの挑戦的な科学的クレーム検証データセットにおいて、最高のパフォーマンスベースラインに比べて平均17.3%のパフォーマンス向上率でベースラインを統計的に上回ることを示す。

Claim verification can be a challenging task. In this paper, we present a method to enhance the robustness and reasoning capabilities of automated claim verification through the extraction of short facts from evidence. Our novel approach, FactDetect, leverages Large Language Models (LLMs) to generate concise factual statements from evidence and label these facts based on their semantic relevance to the claim and evidence. The generated facts are then combined with the claim and evidence. To train a lightweight supervised model, we incorporate a fact-detection task into the claim verification process as a multitasking approach to improve both performance and explainability. We also show that augmenting FactDetect in the claim verification prompt enhances performance in zero-shot claim verification using LLMs. Our method demonstrates competitive results in the supervised claim verification model by 15% on the F1 score when evaluated for challenging scientific claim verification datasets. We also demonstrate that FactDetect can be augmented with claim and evidence for zero-shot prompting (AugFactDetect) in LLMs for verdict prediction. We show that AugFactDetect outperforms the baseline with statistical significance on three challenging scientific claim verification datasets with an average of 17.3% performance gain compared to the best performing baselines.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# 信頼かエスカレートか:人的合意を保証可能な LLM 判事

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement ( http://arxiv.org/abs/2407.18370v1 )

ライセンス: Link先を確認
Jaehun Jung, Faeze Brahman, Yejin Choi, (参考訳) 人間の合意を厳格に保証したLCMに基づく評価を提供するための原則的アプローチを提案する。 まず、信頼度評価手法は、ペア評価においてモデル選好に非批判的に依存するのではなく、判断モデルの信頼性を評価し、その判断をいつ信頼するかを選択的に決定する。 そして,この選択的な評価枠組みの下では,モデル評価がユーザの指定した合意レベルと一致するように,人的合意を確実に保証することができることを示す。 また,本フレームワークでは,判定のキャリブレーションを大幅に改善し,評価されたインスタンスの高カバレッジを可能にする新しい信頼度推定手法であるSimulated Annotatorも導入している。 最後に、カスケード選択評価(Cascaded Selective Evaluation)を提案します。そこでは、初期の判断として安価なモデルを使用し、必要時にのみ強力なモデルにエスカレートします。 実験結果から, 選択的評価を行なわずに LLM の判断が達成できる範囲をはるかに超えて, カスケード選択評価が人間との強い整合性を保証することが示唆された。 例えば、GPT-4が80%の人的合意をほとんど達成しないChatbot Arenaのサブセットでは、Mistral-7Bのようなコスト効率の高いモデルを採用しながら、約80%のテストカバレッジで80%以上の人的合意を保証しています。

We present a principled approach to provide LLM-based evaluation with a rigorous guarantee of human agreement. We first propose that a reliable evaluation method should not uncritically rely on model preferences for pairwise evaluation, but rather assess the confidence of judge models and selectively decide when to trust its judgement. We then show that under this selective evaluation framework, human agreement can be provably guaranteed -- such that the model evaluation aligns with that of humans to a user-specified agreement level. As part of our framework, we also introduce Simulated Annotators, a novel confidence estimation method that significantly improves judge calibration and thus enables high coverage of evaluated instances. Finally, we propose Cascaded Selective Evaluation, where we use cheaper models as initial judges and escalate to stronger models only when necessary -- again, while still providing a provable guarantee of human agreement. Experimental results show that Cascaded Selective Evaluation guarantees strong alignment with humans, far beyond what LLM judges could achieve without selective evaluation. For example, on a subset of Chatbot Arena where GPT-4 almost never achieves 80% human agreement, our method, even while employing substantially cost-effective models such as Mistral-7B, guarantees over 80% human agreement with almost 80% test coverage.
翻訳日:2024-07-29 15:09:00 公開日:2024-07-25
# 物理インフォームド・コルモゴロフ・アルノルドニューラルネットワークによる有効KANとWAV-KANによる動的解析

Physics Informed Kolmogorov-Arnold Neural Networks for Dynamical Analysis via Efficent-KAN and WAV-KAN ( http://arxiv.org/abs/2407.18373v1 )

ライセンス: Link先を確認
Subhajit Patra, Sonali Panda, Bikram Keshari Parida, Mahima Arya, Kurt Jacobs, Denys I. Bondar, Abhijit Sen, (参考訳) 物理インフォームドニューラルネットワークは、微分方程式を解くための強力なツールであることが証明されており、物理の原理を利用して学習過程を知らせている。 しかし、従来のディープニューラルネットワークは、大きな計算コストを伴わずに高い精度を達成することの難しさに直面することが多い。 本研究では,KANとWAV-KANを併用した物理インフォームド・コルモゴロフ・アルノルドニューラルネットワーク(PIKAN)を実装した。 PIKANは従来のディープニューラルネットワークよりも優れた性能を示し、少ないレイヤで同じレベルの精度を実現し、計算オーバーヘッドを低減している。 PIKANのB-スプラインとウェーブレットに基づく実装について検討し、教師なし(データフリー)および教師なし(データ駆動)技術を用いて、様々な常微分方程式と偏微分方程式をベンチマークする。 ある種の微分方程式では、データフリーなアプローチは正確な解を見つけるのに十分であるが、より複雑なシナリオでは、データ駆動法はPIKANの正しい解に収束する能力を高める。 計算結果を数値解に対して検証し、ほとんどのシナリオで99$%の精度が得られる。

Physics-informed neural networks have proven to be a powerful tool for solving differential equations, leveraging the principles of physics to inform the learning process. However, traditional deep neural networks often face challenges in achieving high accuracy without incurring significant computational costs. In this work, we implement the Physics-Informed Kolmogorov-Arnold Neural Networks (PIKAN) through efficient-KAN and WAV-KAN, which utilize the Kolmogorov-Arnold representation theorem. PIKAN demonstrates superior performance compared to conventional deep neural networks, achieving the same level of accuracy with fewer layers and reduced computational overhead. We explore both B-spline and wavelet-based implementations of PIKAN and benchmark their performance across various ordinary and partial differential equations using unsupervised (data-free) and supervised (data-driven) techniques. For certain differential equations, the data-free approach suffices to find accurate solutions, while in more complex scenarios, the data-driven method enhances the PIKAN's ability to converge to the correct solution. We validate our results against numerical solutions and achieve $99 \%$ accuracy in most scenarios.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 評価的視点を持つ大規模言語モデルにおけるベンガル語方言の探索

Exploring Bengali Religious Dialect Biases in Large Language Models with Evaluation Perspectives ( http://arxiv.org/abs/2407.18376v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Raima Islam, Mst Rafia Islam, Taki Hasan Rafi, Dong-Kyu Chae, (参考訳) 大規模言語モデル(LLM)は過去10年間で大きな技術的影響を生み出しており、人間が使えるアプリケーションを可能にする一方で、ステレオタイプやバイアスを含む出力を生成することができる。 これは宗教などの繊細なトピックを扱う際に、非常に倫理的な関心事となる。 LLMSをより公平にするための手段として、ベンガルの宗教的な視点からバイアスを探り、特にヒンドゥー語とムスリム・マジョリティの2つの主要な宗教方言に焦点を当てる。 そこで我々は,3つの LLM を用いて,異なる文の比較分析を行った。ChatGPT,Gemini,Microsoft Copilot は,特定の単語のヒンドゥー方言とムスリム方言に関連するものであり,どの単語が社会的偏見をつかむかを示すものである。 さらに、世界中の3億人以上の話者による世界的影響を考慮し、分析を行い、潜在的な理由や評価の視点に関連づける。 この研究により、クリエイティブな執筆エージェントとして広く利用されているLCMにおいて、より公平な作品を作るための厳格なツールが確立されることを願っている。

While Large Language Models (LLM) have created a massive technological impact in the past decade, allowing for human-enabled applications, they can produce output that contains stereotypes and biases, especially when using low-resource languages. This can be of great ethical concern when dealing with sensitive topics such as religion. As a means toward making LLMS more fair, we explore bias from a religious perspective in Bengali, focusing specifically on two main religious dialects: Hindu and Muslim-majority dialects. Here, we perform different experiments and audit showing the comparative analysis of different sentences using three commonly used LLMs: ChatGPT, Gemini, and Microsoft Copilot, pertaining to the Hindu and Muslim dialects of specific words and showcasing which ones catch the social biases and which do not. Furthermore, we analyze our findings and relate them to potential reasons and evaluation perspectives, considering their global impact with over 300 million speakers worldwide. With this work, we hope to establish the rigor for creating more fairness in LLMs, as these are widely used as creative writing agents.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# データ劣化が運動再同定に及ぼす影響

Effect of Data Degradation on Motion Re-Identification ( http://arxiv.org/abs/2407.18378v1 )

ライセンス: Link先を確認
Vivek Nair, Mark Roman Miller, Rui Wang, Brandon Huang, Christian Rack, Marc Erich Latoschik, James F. O'Brien, (参考訳) バーチャルおよび拡張現実デバイスの使用は増えているが、これらのセンサーに富んだデバイスはプライバシーにリスクをもたらす。 ユーザの動作を追跡し、ユーザのアイデンティティや特性を推測する能力は、大きな注目を集めたプライバシーリスクを引き起こす。 しかし、このリスクに対する既存のディープネットワークベースの防御には、かなりの量のトレーニングデータが必要であり、特定のアプリケーションを超えて一般化することがまだ示されていない。 本研究では,信号劣化が識別性に及ぼす影響,特に付加雑音,フレームレートの低減,精度の低減,データの次元性の向上などについて検討する。 実験により,これらの劣化に対して,最先端の識別攻撃は依然としてほぼ完全であることがわかった。 この否定的な結果は、この動きデータを匿名化することの難しさを示し、既存のデータと計算集約的なディープネットワークベースの手法にある程度の正当性を与える。

The use of virtual and augmented reality devices is increasing, but these sensor-rich devices pose risks to privacy. The ability to track a user's motion and infer the identity or characteristics of the user poses a privacy risk that has received significant attention. Existing deep-network-based defenses against this risk, however, require significant amounts of training data and have not yet been shown to generalize beyond specific applications. In this work, we study the effect of signal degradation on identifiability, specifically through added noise, reduced framerate, reduced precision, and reduced dimensionality of the data. Our experiment shows that state-of-the-art identification attacks still achieve near-perfect accuracy for each of these degradations. This negative result demonstrates the difficulty of anonymizing this motion data and gives some justification to the existing data- and compute-intensive deep-network based methods.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# VR運動の識別性に及ぼす時間と遅延の影響

Effect of Duration and Delay on the Identifiability of VR Motion ( http://arxiv.org/abs/2407.18380v1 )

ライセンス: Link先を確認
Mark Roman Miller, Vivek Nair, Eugy Han, Cyan DeVeaux, Christian Rack, Rui Wang, Brandon Huang, Marc Erich Latoschik, James F. O'Brien, Jeremy N. Bailenson, (参考訳) ソーシャルバーチャルリアリティーはコミュニケーションの新たなメディアだ。 ユーザのアバター(仮想表現)は、ユーザのヘッドセットとハンドコントローラの追跡動作によって制御される。 この追跡された動きは、リッチなデータストリームであり、ユーザの特徴を漏らしたり、事前に識別されたデータと効果的にマッチングしてユーザを特定することができる。 動作データの識別可能性の境界をよりよく理解するために,機械学習モデルが再識別を模擬する教師付き学習タスクにおいて,トレーニングデータの持続時間と試験遅れの変化がユーザの動作を正しく分類できる精度にどのように影響するかを検討する。 私たちが使用しているデータセットには、多数の参加者、セッションごとの長い期間、多数のセッション、セッションが実行される長い時間を組み合わせたユニークな組み合わせがあります。 トレーニングデータの持続時間と列車試験遅延が識別可能性に影響を与えること,列車試験遅延の最小化が極めて高い精度をもたらすこと,列車試験遅延を将来の実験で制御すること,などが判明した。

Social virtual reality is an emerging medium of communication. In this medium, a user's avatar (virtual representation) is controlled by the tracked motion of the user's headset and hand controllers. This tracked motion is a rich data stream that can leak characteristics of the user or can be effectively matched to previously-identified data to identify a user. To better understand the boundaries of motion data identifiability, we investigate how varying training data duration and train-test delay affects the accuracy at which a machine learning model can correctly classify user motion in a supervised learning task simulating re-identification. The dataset we use has a unique combination of a large number of participants, long duration per session, large number of sessions, and a long time span over which sessions were conducted. We find that training data duration and train-test delay affect identifiability; that minimal train-test delay leads to very high accuracy; and that train-test delay should be controlled in future experiments.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 符号なし距離場のニューラルサーフェス検出

Neural Surface Detection for Unsigned Distance Fields ( http://arxiv.org/abs/2407.18381v1 )

ライセンス: Link先を確認
Federico Stella, Nicolas Talabot, Hieu Le, Pascal Fua, (参考訳) SDF(Signed Distance Fields)からの抽出は、マーチングキューブのような従来のアルゴリズムを用いて行うことができる。 しかし、これらのアルゴリズムは表面上の符号フリップに依存するため、Unsigned Distance Fields (UDF) に直接使用することはできない。 本研究では,UDF を局所的に SDF に変換する深層学習手法を導入し,既存のアルゴリズムを用いて効果的に三角測量できる手法を提案する。 既存の手法よりも表面検出の精度がよいことを示す。 さらに、並列化可能ながら、目に見えない形状やデータセットをうまく一般化する。 また、UDF上で動作可能な最先端のデュアルメッシュ方式であるDualMeshUDFと併用して、この手法の柔軟性を実証し、その結果を改善し、パラメータを調整する必要をなくした。

Extracting surfaces from Signed Distance Fields (SDFs) can be accomplished using traditional algorithms, such as Marching Cubes. However, since they rely on sign flips across the surface, these algorithms cannot be used directly on Unsigned Distance Fields (UDFs). In this work, we introduce a deep-learning approach to taking a UDF and turning it locally into an SDF, so that it can be effectively triangulated using existing algorithms. We show that it achieves better accuracy in surface detection than existing methods. Furthermore it generalizes well to unseen shapes and datasets, while being parallelizable. We also demonstrate the flexibily of the method by using it in conjunction with DualMeshUDF, a state of the art dual meshing method that can operate on UDFs, improving its results and removing the need to tune its parameters.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 深層学習の数学的理論

Mathematical theory of deep learning ( http://arxiv.org/abs/2407.18384v1 )

ライセンス: Link先を確認
Philipp Petersen, Jakob Zech, (参考訳) この本は、ディープラーニングの数学的解析の紹介を提供する。 これは、深層ニューラルネットワーク理論の3つの柱である近似理論、最適化理論、統計学習理論の基本的な結果をカバーしている。 本書は、数学や関連分野の学生や研究者のためのガイドとして、このトピックに関する基礎知識を読者に提供することを目的としている。 一般性よりも単純さを優先し、厳密でアクセスしやすい結果を提示し、ディープラーニングを支える基本的な数学的概念を理解するのに役立つ。

This book provides an introduction to the mathematical analysis of deep learning. It covers fundamental results in approximation theory, optimization theory, and statistical learning theory, which are the three main pillars of deep neural network theory. Serving as a guide for students and researchers in mathematics and related fields, the book aims to equip readers with foundational knowledge on the topic. It prioritizes simplicity over generality, and presents rigorous yet accessible results to help build an understanding of the essential mathematical concepts underpinning deep learning.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# SCALE: 同種環境における自己制御型クラスタ型フェデレートリーニング

SCALE: Self-regulated Clustered federAted LEarning in a Homogeneous Environment ( http://arxiv.org/abs/2407.18387v1 )

ライセンス: Link先を確認
Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, Zahidur Talukder, Syed Bahauddin, (参考訳) フェデレートラーニング(FL)は、ユーザのプライバシを保護しながら分散機械学習を実現するための変革的なアプローチとして登場したが、通信の非効率性や集中型インフラストラクチャへの依存といった課題に直面し、レイテンシとコストが増大する。 本稿では,データ類似性,性能指標,地理的近接性に基づく動的クラスタ形成のためのサーバ支援確率評価を用いて,エッジサーバへの依存を排除し,これらの制約を克服する新しいFL手法を提案する。 このプロトコルは、局所モデルトレーニングとピアツーピアの重み交換と、動的に選択されたドライバノードによって管理される集中的な最終集約とを融合し、グローバルな通信オーバーヘッドを大幅に削減する。 さらに、この手法には、分散ドライバの選択、ネットワークトラフィックを減らすためのチェックポイント、システムの堅牢性のためのヘルスステータス検証メカニズムが含まれる。 乳がんデータセットを使用することで、私たちのアーキテクチャは通信オーバーヘッドを10倍近く削減するだけでなく、高い学習性能を維持しながらトレーニングのレイテンシとエネルギー消費を削減し、将来的なフェデレーション学習エコシステムのためのスケーラブルで効率的でプライバシー保護のソリューションを提供するという、優れた改善も示しています。

Federated Learning (FL) has emerged as a transformative approach for enabling distributed machine learning while preserving user privacy, yet it faces challenges like communication inefficiencies and reliance on centralized infrastructures, leading to increased latency and costs. This paper presents a novel FL methodology that overcomes these limitations by eliminating the dependency on edge servers, employing a server-assisted Proximity Evaluation for dynamic cluster formation based on data similarity, performance indices, and geographical proximity. Our integrated approach enhances operational efficiency and scalability through a Hybrid Decentralized Aggregation Protocol, which merges local model training with peer-to-peer weight exchange and a centralized final aggregation managed by a dynamically elected driver node, significantly curtailing global communication overhead. Additionally, the methodology includes Decentralized Driver Selection, Check-pointing to reduce network traffic, and a Health Status Verification Mechanism for system robustness. Validated using the breast cancer dataset, our architecture not only demonstrates a nearly tenfold reduction in communication overhead but also shows remarkable improvements in reducing training latency and energy consumption while maintaining high learning performance, offering a scalable, efficient, and privacy-preserving solution for the future of federated learning ecosystems.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# ヒト糸球体病変分節に対するマウス病理モデルの適用

Adapting Mouse Pathological Model to Human Glomerular Lesion Segmentation ( http://arxiv.org/abs/2407.18390v1 )

ライセンス: Link先を確認
Lining Yu, Mengmeng Yin, Ruining Deng, Quan Liu, Tianyuan Yao, Can Cui, Yu Wang, Yaohong Wang, Shilin Zhao, Haichun Yang, Yuankai Huo, (参考訳) 動物モデルから人体への前臨床研究への移動は、医学の幅広い分野を含む。 新しい薬物の開発、治療、診断方法、および疾患プロセスの理解を深める基本的な要素は、腎臓組織の正確な測定である。 過去の研究は、マウスモデルからヒトへの糸球体セグメンテーション技術の適用可能性を実証してきた。 しかし、これらの調査は、病変の異なる病理糸球体を分節する複雑さを無視する傾向にある。 このような病変は、正常な糸球体組織に比べて幅広い形態学的変化を示し、臨床では正常な糸球体よりも有益である。 さらに、動物モデルからの病変のデータは、疾患モデルや腎臓の生検全体から容易にスケールアップできる。 マウスモデルでトレーニングされた病理学的セグメンテーションモデルは、ヒトの患者に効果的に適用できるか? マウスモデルを用いて,マウスからヒトへの移植学習に対処する深層学習研究であるGLAMを導入し,ゼロショット移植学習とハイブリッド学習を用いたヒトの病理病変の分節学習戦略の評価を行った。 その結果,ハイブリッド学習モデルは優れた性能を示した。

Moving from animal models to human applications in preclinical research encompasses a broad spectrum of disciplines in medical science. A fundamental element in the development of new drugs, treatments, diagnostic methods, and in deepening our understanding of disease processes is the accurate measurement of kidney tissues. Past studies have demonstrated the viability of translating glomeruli segmentation techniques from mouse models to human applications. Yet, these investigations tend to neglect the complexities involved in segmenting pathological glomeruli affected by different lesions. Such lesions present a wider range of morphological variations compared to healthy glomerular tissue, which are arguably more valuable than normal glomeruli in clinical practice. Furthermore, data on lesions from animal models can be more readily scaled up from disease models and whole kidney biopsies. This brings up a question: ``\textit{Can a pathological segmentation model trained on mouse models be effectively applied to human patients?}" To answer this question, we introduced GLAM, a deep learning study for fine-grained segmentation of human kidney lesions using a mouse model, addressing mouse-to-human transfer learning, by evaluating different learning strategies for segmenting human pathological lesions using zero-shot transfer learning and hybrid learning by leveraging mouse samples. From the results, the hybrid learning model achieved superior performance.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# UOUO:視覚言語モデルの知識ホライズン計測のための非コンテクスト化された非共通オブジェクト

UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models ( http://arxiv.org/abs/2407.18391v1 )

ライセンス: Link先を確認
Xinyu Pi, Mingyuan Wu, Jize Jiang, Haozhen Zheng, Beitong Tian, Chengxiang Zhai, Klara Nahrstedt, Zhiting Hu, (参考訳) 小型のビジョンランガウジモデル(VLM)は、計算効率とストレージの利点を提供しながら、一般ドメインのビジュアルグラウンドや質問応答ベンチマークにおいて、より大きなモデルと同等に機能すると主張することが多い。 しかし、データ分布の長い尾に落ちる稀なオブジェクトを扱う能力は、あまり理解されていない。 この側面を厳格に評価するために、我々は"Uncontextualized Uncommon Objects"ベンチマーク(UOUO)を導入する。 このベンチマークは、希少かつ特殊なオブジェクトに対して、大きなパラメータ数と小さなパラメータ数の両方でVLMを体系的にテストすることに焦点を当てている。 我々の包括的分析によると、より小さなVLMは共通のデータセット上での競合性能を維持しているが、非一般的なオブジェクトを含むタスクでは著しく性能が劣っている。 また、データ収集とクリーニングのための高度なスケーラブルなパイプラインを提案し、UOUOベンチマークが高品質で挑戦的なインスタンスを提供することを保証します。 これらの知見は、VLMの真の能力を評価する際に、長い尾の分布を考慮する必要性を浮き彫りにした。

Smaller-scale Vision-Langauge Models (VLMs) often claim to perform on par with larger models in general-domain visual grounding and question-answering benchmarks while offering advantages in computational efficiency and storage. However, their ability to handle rare objects, which fall into the long tail of data distributions, is less understood. To rigorously evaluate this aspect, we introduce the "Uncontextualized Uncommon Objects" (UOUO) benchmark. This benchmark focuses on systematically testing VLMs with both large and small parameter counts on rare and specialized objects. Our comprehensive analysis reveals that while smaller VLMs maintain competitive performance on common datasets, they significantly underperform on tasks involving uncommon objects. We also propose an advanced, scalable pipeline for data collection and cleaning, ensuring the UOUO benchmark provides high-quality, challenging instances. These findings highlight the need to consider long-tail distributions when assessing the true capabilities of VLMs.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 局所顔属性の正確な編集のための参照型3次元セマンティック・アウェア・フレームワーク

A Reference-Based 3D Semantic-Aware Framework for Accurate Local Facial Attribute Editing ( http://arxiv.org/abs/2407.18392v1 )

ライセンス: Link先を確認
Yu-Kai Huang, Yutong Zheng, Yen-Shuo Su, Anudeepsekhar Bolimera, Han Zhang, Fangyi Chen, Marios Savvides, (参考訳) 顔属性の編集は、現実的な外観を維持しながら、特定の特徴を持つ現実的な顔の合成において重要な役割を担っている。 進歩にもかかわらず、難易度は、異なる角度からの顔の一貫性と正確な表現に不可欠である3D対応属性修正の達成に継続する。 現在の手法は意味的絡み合いに苦慮し、画像の整合性を維持しながら属性を組み込む効果的なガイダンスが欠如している。 これらの課題に対処するために、潜伏型および参照型編集手法の長所をマージする新しいフレームワークを導入する。 提案手法では,参照画像からの属性を3次元の平面空間に埋め込み,複数の視点から3次元の一貫性とリアルな視界を確保する。 我々はブレンディング技術とセマンティックマスクを用いて正確な編集領域を特定し、参照画像からのコンテキストガイダンスと組み合わせる。 粗大で微細な塗装戦略が適用され、未ターゲット領域の整合性を保ち、リアリズムを著しく向上させる。 本評価は,多種多様な編集作業において優れた性能を示し,現実的かつ適用可能な顔属性編集におけるフレームワークの有効性を検証した。

Facial attribute editing plays a crucial role in synthesizing realistic faces with specific characteristics while maintaining realistic appearances. Despite advancements, challenges persist in achieving precise, 3D-aware attribute modifications, which are crucial for consistent and accurate representations of faces from different angles. Current methods struggle with semantic entanglement and lack effective guidance for incorporating attributes while maintaining image integrity. To address these issues, we introduce a novel framework that merges the strengths of latent-based and reference-based editing methods. Our approach employs a 3D GAN inversion technique to embed attributes from the reference image into a tri-plane space, ensuring 3D consistency and realistic viewing from multiple perspectives. We utilize blending techniques and predicted semantic masks to locate precise edit regions, merging them with the contextual guidance from the reference image. A coarse-to-fine inpainting strategy is then applied to preserve the integrity of untargeted areas, significantly enhancing realism. Our evaluations demonstrate superior performance across diverse editing tasks, validating our framework's effectiveness in realistic and applicable facial attribute editing.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# QLDPC符号における論理計測用線形サイズアンシラシステム

Linear-Size Ancilla Systems for Logical Measurements in QLDPC Codes ( http://arxiv.org/abs/2407.18393v1 )

ライセンス: Link先を確認
Andrew Cross, Zhiyang He, Patrick Rall, Theodore Yoder, (参考訳) 我々は,[144,12,12]の2変量自転車コード,あるいは全体コードですべての論理的クリフォードゲートを実行する方法を示す。 このスキームは接続グラフに約100個のアンシラ量子ビットを追加し、12個の論理量子ビットのうちの1つはゲート合成のために犠牲にされる。 論理的測定は、288パウリ積の測定を実装するためにBravyi et al (Nature 627, 778-782) によって研究された自己同型ゲートと組み合わせられる。 BPOSDとマッチングを組み合わせた新しいモジュラーデコーダを応用し,回路レベルのノイズシミュレーションにより提案手法の実用性を実証する。 主な技術的貢献は、Cohen et al (Sci. Adv. 8, eabn1717) によるゲージ固定に基づく低オーバーヘッド論理測度スキームである。 我々の手法は一般的なCSSコードに適用され、Tannerグラフの拡張特性を利用して、量子ビット数、符号距離、欠陥距離、モジュールデコーダの復号距離を厳格に保証する。 特に、$O(d/\beta)$ 追加キュービットが必要であり、$\beta$ は測定中の論理演算子をサポートする部分グラフの境界チェーガー定数である。 O(d)$ 追加のブリッジ量子ビットを導入することで、論理的パウリ作用素と論理的$Y$作用素の積を測定できる。

We show how to perform all logical Clifford gates on the [[144,12,12]] bivariate bicycle code, also known as the gross code. The scheme adds about 100 ancilla qubits into the connectivity graph, and one of the twelve logical qubits is sacrificed for gate synthesis. Logical measurements are combined with the automorphism gates studied by Bravyi et al. (Nature 627, 778-782) to implement 288 Pauli product measurements. We demonstrate the practicality of our scheme through circuit-level noise simulations, leveraging a novel modular decoder that combines BPOSD with matching. The main technical contribution is a lower overhead logical measurement scheme based on gauge-fixing the construction by Cohen et al. (Sci. Adv. 8, eabn1717). Our techniques apply to general CSS codes and leverage expansion properties of the Tanner graph to give rigorous guarantees on qubit count, code distance, fault distance, and decoding distance of the modular decoder. In particular, we require $O(d/\beta)$ additional qubits where $\beta$ is the boundary Cheeger constant of the subgraph supporting the logical operator being measured. By introducing $O(d)$ additional bridge qubits, we are also able to measure products of logical Pauli operators and logical $Y$ operators.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 符号化計算における量子資源の同定

Identifying quantum resources in encoded computations ( http://arxiv.org/abs/2407.18394v1 )

ライセンス: Link先を確認
Jack Davis, Nicolas Fabre, Ulysse Chabaud, (参考訳) 量子計算の優位性の起源は何か? 量子コンピュータと従来のコンピュータを区別する重要な性質、すなわち量子資源を同定し、量子デバイスの開発に直接応用する。 しかし、普遍量子コンピュータの出現は、脆弱な論理量子情報を量子物理系の対称状態に強固に符号化することで、誤り訂正符号に依存している。 このようなエンコーディングにより、論理的・物理的観点から資源を構成するものが著しく異なるため、リソース識別のタスクがより困難になる。 ここでは、位相空間技術に基づいて、符号化された計算における量子資源を正しく識別する一般的なフレームワークを紹介する。 与えられた量子コードに対して、我々の構成は、コード空間の対称性が物理空間の変換にどのように含まれているかを説明するウィグナー関数を提供し、結果として、コード空間内および外部の任意の物理状態の論理的内容を記述することができるオブジェクトとなる。 Gottesman--Kitaev---奇数次元のクイディットのプリスキル符号化について説明する。 結果として得られるウィグナー函数は、Zak-Gross Wigner関数と呼ばれ、位相空間の負性を通じて量子資源を正しく同定する。 例えば、符号化された安定化状態には正であり、ボゾン真空には負である。 さらに、その負性性は状態の論理的内容に対する魔法の尺度であり、その限界はザックパッチの共役に関連するモジュラー測度分布である、といういくつかの性質を証明している。

What is the origin of quantum computational advantage? Providing answers to this far-reaching question amounts to identifying the key properties, or quantum resources, that distinguish quantum computers from their classical counterparts, with direct applications to the development of quantum devices. The advent of universal quantum computers, however, relies on error-correcting codes to protect fragile logical quantum information by robustly encoding it into symmetric states of a quantum physical system. Such encodings make the task of resource identification more difficult, as what constitutes a resource from the logical and physical points of view can differ significantly. Here we introduce a general framework which allows us to correctly identify quantum resources in encoded computations, based on phase-space techniques. For a given quantum code, our construction provides a Wigner function that accounts for how the symmetries of the code space are contained within the transformations of the physical space, resulting in an object capable of describing the logical content of any physical state, both within and outside the code space. We illustrate our general construction with the Gottesman--Kitaev--Preskill encoding of qudits with odd dimension. The resulting Wigner function, which we call the Zak-Gross Wigner function, is shown to correctly identify quantum resources through its phase-space negativity. For instance, it is positive for encoded stabilizer states and negative for the bosonic vacuum. We further prove several properties, including that its negativity provides a measure of magic for the logical content of a state, and that its marginals are modular measurement distributions associated to conjugate Zak patches.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# Gaussian Process Kolmogorov-Arnold Networks

Gaussian Process Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.18397v1 )

ライセンス: Link先を確認
Andrew Siyuan Chen, (参考訳) 本稿では,ガウス過程(GP)を非線形ニューロンとして組み込むことにより,コルモゴロフ・アーノルドネットワーク(KAN)の確率的拡張を導入する。 入力分布を持つGP関数サンプルの関数内積を考慮し、あるGPの出力分布を他のGPへの入力として扱うための完全な解析的アプローチを実現する。 これらのGPニューロンは、少数のパラメータを使用しながら頑健な非線形モデリング能力を示し、フィードフォワードネットワーク構造に容易に完全に組み込むことができる。 これらはモデル予測に固有の不確実性推定を提供し、変動的な下界や近似を必要とせず、ログのような目的関数を直接訓練することができる。 MNIST分類の文脈では、GP-KANをベースとした8千のパラメータのモデルは、150万のパラメータを持つ現在の最先端モデルと比較して98.5%の予測精度を達成した。

In this paper, we introduce a probabilistic extension to Kolmogorov Arnold Networks (KANs) by incorporating Gaussian Process (GP) as non-linear neurons, which we refer to as GP-KAN. A fully analytical approach to handling the output distribution of one GP as an input to another GP is achieved by considering the function inner product of a GP function sample with the input distribution. These GP neurons exhibit robust non-linear modelling capabilities while using few parameters and can be easily and fully integrated in a feed-forward network structure. They provide inherent uncertainty estimates to the model prediction and can be trained directly on the log-likelihood objective function, without needing variational lower bounds or approximations. In the context of MNIST classification, a model based on GP-KAN of 80 thousand parameters achieved 98.5% prediction accuracy, compared to current state-of-the-art models with 1.5 million parameters.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 地震浄化装置:表現学習による地震信号検出の教師なしアプローチ

The seismic purifier: An unsupervised approach to seismic signal detection via representation learning ( http://arxiv.org/abs/2407.18402v1 )

ライセンス: Link先を確認
Onur Efe, Arkadas Ozakin, (参考訳) 本稿では,地震検出のための教師なし学習手法を開発する。 我々は、データ圧縮ボトルネック後の入力波形の再生を学習するディープオートエンコーダの特定のクラスを訓練し、ボトルネックにおける単純なトリガーアルゴリズムを用いて、波形をノイズや信号としてラベル付けする。 我々のアプローチは、効率的なデータの圧縮はノイズと異なる信号を表すべきであるという直感に動機付けられており、自動エンコーディングと直感的に動機付けられたアーキテクチャとトリガーの選択のための時間軸保存アプローチによって促進される。 我々は、教師なし手法の検知性能が、最先端の教師付き手法と同等であり、場合によっては同等であることを示した。 さらに、強い \emph{cross-dataset generalization} を持つ。 様々な修正実験により,検出性能がアルゴリズムの様々な技術的選択に不感であることを実証した。 本手法は時系列データにおける他の信号検出問題に有用である可能性がある。

In this paper, we develop an unsupervised learning approach to earthquake detection. We train a specific class of deep auto-encoders that learn to reproduce the input waveforms after a data-compressive bottleneck, and then use a simple triggering algorithm at the bottleneck to label waveforms as noise or signal. Our approach is motivated by the intuition that efficient compression of data should represent signals differently from noise, and is facilitated by a time-axis-preserving approach to auto-encoding and intuitively-motivated choices on the architecture and triggering. We demonstrate that the detection performance of the unsupervised approach is comparable to, and in some cases better than, some of the state-of-the-art supervised methods. Moreover, it has strong \emph{cross-dataset generalization}. By experimenting with various modifications, we demonstrate that the detection performance is insensitive to various technical choices made in the algorithm. Our approach has the potential to be useful for other signal detection problems with time series data.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# 大規模言語モデル統合型医療サイバー物理システムアーキテクチャ

Large Language Model Integrated Healthcare Cyber-Physical Systems Architecture ( http://arxiv.org/abs/2407.18407v1 )

ライセンス: Link先を確認
Malithi Wanniarachchi Kankanamge, Syed Mhamudul Hasan, Abdur R. Shahid, Ning Yang, (参考訳) サイバー物理システムは現代医療産業の不可欠な部分となっている。 医療用サイバー物理システム(HCPS)は、医療産業を改善するために物理部品とサイバー部品を組み合わせている。 HCPSには多くの利点があるが、長いデータ入力プロセス、リアルタイム処理の欠如、リアルタイム患者の可視化の制限など、いくつかの欠点もある。 これらの課題を克服するために、医療システムの効率を高めるために、大規模言語モデル(LLM)を統合する革新的なアプローチを示す。 LLMをさまざまな層に組み込むことで、HCPSは高度なAI機能を活用して、患者の成果を改善し、データ処理を前進させ、意思決定を強化することができる。

Cyber-physical systems have become an essential part of the modern healthcare industry. The healthcare cyber-physical systems (HCPS) combine physical and cyber components to improve the healthcare industry. While HCPS has many advantages, it also has some drawbacks, such as a lengthy data entry process, a lack of real-time processing, and limited real-time patient visualization. To overcome these issues, this paper represents an innovative approach to integrating large language model (LLM) to enhance the efficiency of the healthcare system. By incorporating LLM at various layers, HCPS can leverage advanced AI capabilities to improve patient outcomes, advance data processing, and enhance decision-making.
翻訳日:2024-07-29 14:59:16 公開日:2024-07-25
# オルガノイドインテリジェンス法によるクラシック音楽に対するニューラル応答のシミュレーション

Simulation of Neural Responses to Classical Music Using Organoid Intelligence Methods ( http://arxiv.org/abs/2407.18413v1 )

ライセンス: Link先を確認
Daniel Szelogowski, (参考訳) 音楽は複雑な聴覚刺激であり、脳の活動に大きな変化をもたらし、記憶、注意、感情制御などの認知過程に影響を与える。 しかし、音楽誘発認知過程の根底にあるメカニズムはほとんど不明である。 オルガノイドのインテリジェンスとディープラーニングモデルは、古典音楽に対するこれらの神経反応をシミュレートし分析することを約束している。 そこで我々は,有機体学習モデルのシミュレーションを容易にする革新的なツールであるPyOrganoidライブラリを提案する。 本研究は、双方向LSTMネットワークを用いた「ディープオルガノイド学習」モデルであるPianoidモデルの開発と、クラシック音楽録音の音声特徴に基づく脳波応答の予測を特徴とする。 このモデルは、複雑なニューラルプロセスの複製に計算手法を用いることで、音楽の知覚と認知に関する貴重な洞察を提供する。 同様に、我々は神経科学研究における合成モデルの有用性を強調し、神経科学と人工知能の研究を進めるための汎用的なツールとしてのPyOrganoidライブラリの可能性を強調した。

Music is a complex auditory stimulus capable of eliciting significant changes in brain activity, influencing cognitive processes such as memory, attention, and emotional regulation. However, the underlying mechanisms of music-induced cognitive processes remain largely unknown. Organoid intelligence and deep learning models show promise for simulating and analyzing these neural responses to classical music, an area significantly unexplored in computational neuroscience. Hence, we present the PyOrganoid library, an innovative tool that facilitates the simulation of organoid learning models, integrating sophisticated machine learning techniques with biologically inspired organoid simulations. Our study features the development of the Pianoid model, a "deep organoid learning" model that utilizes a Bidirectional LSTM network to predict EEG responses based on audio features from classical music recordings. This model demonstrates the feasibility of using computational methods to replicate complex neural processes, providing valuable insights into music perception and cognition. Likewise, our findings emphasize the utility of synthetic models in neuroscience research and highlight the PyOrganoid library's potential as a versatile tool for advancing studies in neuroscience and artificial intelligence.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 逆ロバスト決定変換器:ミニマックスリターン・ツー・ゴーによるRvSのロバスト性向上

Adversarial Robust Decision Transformer: Enhancing Robustness of RvS via Minimax Returns-to-go ( http://arxiv.org/abs/2407.18414v1 )

ライセンス: Link先を確認
Xiaohang Tang, Afonso Marques, Parameswaran Kamalaruban, Ilija Bogunovic, (参考訳) Reinforcement Learning via Supervised Learning (RvS) 手法の代表的な1つであるDecision Transformer (DT) は、強力なTransformerアーキテクチャを活用して、オフライン学習タスクにおいて強力なパフォーマンスを実現している。 しかしながら、敵の環境では、リターンは意思決定者と敵双方の戦略に依存しているため、これらの手法は損なわれない。 観測されたリターンに条件付き確率モデルのトレーニングは、データセットのリターンを達成する軌道が弱く、最適でない振舞いに逆らうため、一般化に失敗する可能性がある。 そこで我々は,最低ケース対応のRvSアルゴリズムであるAdversarial Robust Decision Transformer (ARDT)を提案する。 ARDTは、最小限の期待回帰によって学習した最悪のケースリターンとターゲットリターンを一致させ、強力なテストタイム敵に対する堅牢性を高める。 完全なデータカバレッジを持つシーケンシャルゲームで実施された実験では、ARDTは最大の対向ロバスト性を持つ解である最大(ナッシュ平衡)戦略を生成することができる。 大規模なシーケンシャルゲームや、部分的なデータカバレッジを持つ連続的敵RL環境では、ARDTは強力なテストタイムの敵に対して非常に優れたロバスト性を示し、現代のDT法と比較して最悪のケースリターンを達成している。

Decision Transformer (DT), as one of the representative Reinforcement Learning via Supervised Learning (RvS) methods, has achieved strong performance in offline learning tasks by leveraging the powerful Transformer architecture for sequential decision-making. However, in adversarial environments, these methods can be non-robust, since the return is dependent on the strategies of both the decision-maker and adversary. Training a probabilistic model conditioned on observed return to predict action can fail to generalize, as the trajectories that achieve a return in the dataset might have done so due to a weak and suboptimal behavior adversary. To address this, we propose a worst-case-aware RvS algorithm, the Adversarial Robust Decision Transformer (ARDT), which learns and conditions the policy on in-sample minimax returns-to-go. ARDT aligns the target return with the worst-case return learned through minimax expectile regression, thereby enhancing robustness against powerful test-time adversaries. In experiments conducted on sequential games with full data coverage, ARDT can generate a maximin (Nash Equilibrium) strategy, the solution with the largest adversarial robustness. In large-scale sequential games and continuous adversarial RL environments with partial data coverage, ARDT demonstrates significantly superior robustness to powerful test-time adversaries and attains higher worst-case returns compared to contemporary DT methods.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# PersonaGym: ペルソナエージェントとLLMの評価

PersonaGym: Evaluating Persona Agents and LLMs ( http://arxiv.org/abs/2407.18416v1 )

ライセンス: Link先を確認
Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari, (参考訳) 与えられたペルソナに従って行動するLLMエージェントであるペルソナエージェントは、様々なアプリケーションにまたがる印象的な文脈応答能力を実証している。 これらのペルソナエージェントは、教育、医療、エンターテイメントといった多様な分野にまたがって大幅に拡張され、モデル開発者はエージェントの応答を異なるユーザー要求に合わせることができ、エージェントアプリケーションの範囲を広げることができる。 しかし,各ペルソナエージェントに関連する様々な環境におけるフリーフォームインタラクションにおけるペルソナ付着性の評価が複雑化しているため,ペルソナエージェントの性能評価は極めて困難である。 本稿では,ペルソナエージェントを評価するための第1の動的評価フレームワークであるPersonaGymと,ペルソナエージェントの大規模評価を総合的に行うための意思決定理論を基盤とした最初の自動ヒトアライメント尺度であるPersonaScoreを紹介する。 200のペルソナと10,000の質問を含むベンチマークを用いて、6つのオープンでクローズドなLCMの評価を行い、現状のモデルにまたがるペルソナエージェントの能力向上の可能性を明らかにした。 例えば、Claude 3.5 Sonnet は GPT 3.5 よりも2.97%しか改善していないが、より高度なモデルである。 重要なことは、モデルサイズと複雑さの増加が必ずしもペルソナエージェントの能力の向上を示唆するものではないことであり、それによってアルゴリズム的かつアーキテクチャ的発明が忠実でパフォーマンスの高いペルソナエージェントに迫る必要性が強調される。

Persona agents, which are LLM agents that act according to an assigned persona, have demonstrated impressive contextual response capabilities across various applications. These persona agents offer significant enhancements across diverse sectors, such as education, healthcare, and entertainment, where model developers can align agent responses to different user requirements thereby broadening the scope of agent applications. However, evaluating persona agent performance is incredibly challenging due to the complexity of assessing persona adherence in free-form interactions across various environments that are relevant to each persona agent. We introduce PersonaGym, the first dynamic evaluation framework for assessing persona agents, and PersonaScore, the first automated human-aligned metric grounded in decision theory for comprehensive large-scale evaluation of persona agents. Our evaluation of 6 open and closed-source LLMs, using a benchmark encompassing 200 personas and 10,000 questions, reveals significant opportunities for advancement in persona agent capabilities across state-of-the-art models. For example, Claude 3.5 Sonnet only has a 2.97% relative improvement in PersonaScore than GPT 3.5 despite being a much more advanced model. Importantly, we find that increased model size and complexity do not necessarily imply enhanced persona agent capabilities thereby highlighting the pressing need for algorithmic and architectural invention towards faithful and performant persona agents.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 拒絶の芸術:大規模言語モデルにおける無視に関する調査

The Art of Refusal: A Survey of Abstention in Large Language Models ( http://arxiv.org/abs/2407.18418v1 )

ライセンス: Link先を確認
Bingbing Wen, Jihan Yao, Shangbin Feng, Chenjun Xu, Yulia Tsvetkov, Bill Howe, Lucy Lu Wang, (参考訳) 大型言語モデル (LLM) の拒絶は, 幻覚を緩和し, LLM システム構築の安全性を高める可能性から, ますます認識されている。 本稿では,質問文,モデル,人的価値の3つの視点から,禁忌行動を調べるための枠組みを提案する。 本稿では, 留置方法, ベンチマーク, 評価指標に関する文献をレビューし, 先行作業のメリットと限界について考察する。 我々は、タスク間のメタ能力としての禁忌研究の奨励や、文脈に基づく禁忌能力のカスタマイズなど、将来の研究の領域を更に特定し、動機づける。 そこで我々は,AIシステムにおける禁忌方法論の範囲と影響を広げることを目指している。

Abstention, the refusal of large language models (LLMs) to provide an answer, is increasingly recognized for its potential to mitigate hallucinations and enhance safety in building LLM systems. In this survey, we introduce a framework to examine abstention behavior from three perspectives: the query, the model, and human values. We review the literature on abstention methods (categorized based on the development stages of LLMs), benchmarks, and evaluation metrics, and discuss the merits and limitations of prior work. We further identify and motivate areas for future research, such as encouraging the study of abstention as a meta-capability across tasks and customizing abstention abilities based on context. In doing so, we aim to broaden the scope and impact of abstention methodologies in AI systems.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 自己指示型合成対話と技術報告

Self-Directed Synthetic Dialogues and Revisions Technical Report ( http://arxiv.org/abs/2407.18421v1 )

ライセンス: Link先を確認
Nathan Lambert, Hailey Schoelkopf, Aaron Gokaslan, Luca Soldaini, Valentina Pyatkin, Louis Castricato, (参考訳) 合成データは、命令に従って複雑な問題を解くための言語モデルの微調整において重要なツールとなっている。 それでも、これまでのオープンデータの大部分は、マルチターンデータを欠くことが多く、クローズドモデルで収集されており、オープンな微調整手法の進歩を制限している。 自己指向型合成対話(Self Directed Synthetic Dialogues, SDSD)は, 言語モデル同士の対話をガイドした実験データセットである。 データセットは、DBRX、Llama 2 70B、Mistral Largeで生成されたマルチターン会話から成り、会話の前に生成された会話計画に従うように指示される。 また、コンスティチューショナルAIやその他の関連研究の原則を取り入れて、最終会話のターンのリビジョンを通じて、合成嗜好データを作成することも検討する。 この研究により、マルチターンデータのさらなる探索と、合成データの影響拡大にオープンモデルの利用が促進されることを願っている。

Synthetic data has become an important tool in the fine-tuning of language models to follow instructions and solve complex problems. Nevertheless, the majority of open data to date is often lacking multi-turn data and collected on closed models, limiting progress on advancing open fine-tuning methods. We introduce Self Directed Synthetic Dialogues (SDSD), an experimental dataset consisting of guided conversations of language models talking to themselves. The dataset consists of multi-turn conversations generated with DBRX, Llama 2 70B, and Mistral Large, all instructed to follow a conversation plan generated prior to the conversation. We also explore including principles from Constitutional AI and other related works to create synthetic preference data via revisions to the final conversation turn. We hope this work encourages further exploration in multi-turn data and the use of open models for expanding the impact of synthetic data.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 不合理性によるマルコフ決定過程における黒白鳥仮説

A Black Swan Hypothesis in Markov Decision Process via Irrationality ( http://arxiv.org/abs/2407.18422v1 )

ライセンス: Link先を確認
Hyunin Lee, David Abel, Ming Jin, Javad Lavaei, Somayeh Sojoudi, (参考訳) 黒い白鳥の出来事は、非常に高いリスクをもたらす統計的に稀な出来事である。 黒い白鳥の出来事を定義する典型的な見解は、予測不可能な時間変化の環境に由来すると強く考えられているが、コミュニティは黒白鳥の出来事の包括的定義を欠いている。 そこで本論文では,高リスクで統計的に稀な事象が,その価値と可能性の人間の誤認による変化のない環境においても発生しうると主張する。 まず、黒白鳥事象を慎重に分類し、空間的な黒白鳥事象に着目し、黒白鳥事象の定義を数学的に定式化する。 これらの定義が、人間の知覚を合理的に補正することで、そのような事象を防ぐアルゴリズムの開発の道を開くことを願っている。

Black swan events are statistically rare occurrences that carry extremely high risks. A typical view of defining black swan events is heavily assumed to originate from an unpredictable time-varying environments; however, the community lacks a comprehensive definition of black swan events. To this end, this paper challenges that the standard view is incomplete and claims that high-risk, statistically rare events can also occur in unchanging environments due to human misperception of their value and likelihood, which we call as spatial black swan event. We first carefully categorize black swan events, focusing on spatial black swan events, and mathematically formalize the definition of black swan events. We hope these definitions can pave the way for the development of algorithms to prevent such events by rationally correcting human perception
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# HDL-GPT:ハイクオリティなHDL

HDL-GPT: High-Quality HDL is All You Need ( http://arxiv.org/abs/2407.18423v1 )

ライセンス: Link先を確認
Bhuvnesh Kumar, Saurav Nanda, Ganapathy Parthasarathy, Pawan Patil, Austin Tsai, Parivesh Choudhary, (参考訳) 本稿では,HDL-GPT(Hardware Description Language Generative Pre-trained Transformers)を提案する。 本稿の中核となる前提は、高品質なHDLは、例外的な性能と広範囲なゼロショット一般化能力を持つモデルを作成するのに必要な全てである、という仮説である。 本稿では,オープンソースのHDLコードから大規模コーパスのキュレーションと増補に使用される手法を解明し,高度に可変な品質データを適切なプロンプトとコンテキストメンテナンスにより高品質なデータに変換する。 我々は、HDLにまたがるデータの慎重な選択、フィルタリング、拡張によって、現在の最先端モデルを上回る強力なモデルが得られることを実証する。 また、異なる微調整方法が結果の質に与える影響についても検討する。 細調整SOTA LLMにおける実験結果について述べるとともに,本主張を裏付ける。 我々は,HDL回路の説明,コード生成,形式的およびシミュレーションテストベンチ生成,バグのトリアージ,修正といったタスクにおいて,現在のベンチマーク上でのSOTA HDLモデルに対して50%から200%の改善を示す。 HDL-GPTは、回路設計タスクのための高度なモデルトレーニング技術を開発するための新しい道を開く。

This paper presents Hardware Description Language Generative Pre-trained Transformers (HDL-GPT), a novel approach that leverages the vast repository of open-source High Definition Language (HDL) codes to train superior quality large code models. The core premise of this paper is the hypothesis that high-quality HDL is all you need to create models with exceptional performance and broad zero-shot generalization abilities. The paper elucidates the methods employed for the curation and augmentation of large corpora from open-source HDL code, transforming highly variable quality data into high-quality data through careful prompting and context maintenance. We demonstrate that the careful selection, filtering, and augmentation of data across HDLs can yield powerful models that surpass current state-of-the-art models. We also explore the impact of different fine-tuning methods on the quality of results. We describe experimental results across a range of fine-tuned SOTA LLMs, substantiating our claims. We demonstrate improvements of 50% to 200% over SOTA HDL models on current benchmarks in tasks ranging from HDL circuit explanations, code generation, formal and simulation testbench creation, triaging bugs, and fixing them. HDL-GPT opens new avenues for the development of advanced model training techniques for circuit design tasks.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# Phonocardiogram を用いたモデル駆動型心拍推定と心臓外傷検出

Model-driven Heart Rate Estimation and Heart Murmur Detection based on Phonocardiogram ( http://arxiv.org/abs/2407.18424v1 )

ライセンス: Link先を確認
Jingping Nie, Ran Liu, Behrooz Mahasseni, Erdrin Azemi, Vikramjit Mitra, (参考訳) 音響信号は、健康モニタリング、特に心拍数などの重要なデータを提供し、大腿骨などの心臓異常を検出する心臓音に不可欠である。 本研究は,PCGデータセットを用いて,モデル駆動法を用いて心拍数を推定し,マルチタスク学習(MTL)フレームワークにベストパフォーマンスモデルを拡張し,同時心拍数推定とミュール検出を行う。 心拍推定は, 音響特性(メルスペクトル, ケプストラム係数, パワースペクトル密度, ルート平均2乗エネルギー)を組み合わせて解析した。 2次元畳み込みニューラルネットワーク(\textbf{\texttt{2dCNN}})は心拍数推定に最も有効であり,平均絶対誤差(MAE)は1.312bpmである。 異なる特徴の組み合わせが与える影響を体系的に調査し、これら4つの特徴を利用すると最良の結果が得られます。 MTLモデル(\textbf{\texttt{2dCNN-MTL}})は、AAMI(Association for the Advancement of Medical Instrumentation)の要求を満たすとともに、既存のモデルよりも95%以上精度を達成し、心拍推定において1.636bpmのMAEを維持している。

Acoustic signals are crucial for health monitoring, particularly heart sounds which provide essential data like heart rate and detect cardiac anomalies such as murmurs. This study utilizes a publicly available phonocardiogram (PCG) dataset to estimate heart rate using model-driven methods and extends the best-performing model to a multi-task learning (MTL) framework for simultaneous heart rate estimation and murmur detection. Heart rate estimates are derived using a sliding window technique on heart sound snippets, analyzed with a combination of acoustic features (Mel spectrogram, cepstral coefficients, power spectral density, root mean square energy). Our findings indicate that a 2D convolutional neural network (\textbf{\texttt{2dCNN}}) is most effective for heart rate estimation, achieving a mean absolute error (MAE) of 1.312 bpm. We systematically investigate the impact of different feature combinations and find that utilizing all four features yields the best results. The MTL model (\textbf{\texttt{2dCNN-MTL}}) achieves accuracy over 95% in murmur detection, surpassing existing models, while maintaining an MAE of 1.636 bpm in heart rate estimation, satisfying the requirements stated by Association for the Advancement of Medical Instrumentation (AAMI).
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 拡散に基づく地下マルチ物理モニタリングと予測

Diffusion-based subsurface multiphysics monitoring and forecasting ( http://arxiv.org/abs/2407.18426v1 )

ライセンス: Link先を確認
Xinquan Huang, Fu Wang, Tariq Alkhalifah, (参考訳) 炭素捕獲貯蔵(CCS)は、特に工業生産からの温室効果ガス排出を緩和する重要な役割を担っている。 地震モニタリングを使用することで、CCSの有効性を確実にし、関連するリスクを軽減するために、正確で堅牢なモニタリングシステムを実現することができる。 しかし、従来の地震波方程式に基づくアプローチは計算的に要求され、リアルタイムの応用を妨げている。 効率性に加えて、予測や不確実性の分析は、そのような数値シミュレーションに基づくアプローチで簡単には処理できない。 そこで本研究では,ビデオ拡散モデルを用いた新しい地下マルチ物理モニタリング・予測フレームワークを提案する。 このアプローチは、CO$2$進化の高品質な表現と、それに伴う地下弾性特性の変化を生成することができる。 再建指導により、過去のフレームや観測データに基づいて予測と逆転が達成される。 一方、アプローチの生成性により、予測の不確かさを定量化することができる。 コンパスモデルに基づく実験の結果、提案手法はCO$2$モニタリングに関連する自然に複雑な物理現象を捕捉し、その進化における表面弾性特性とCO$2$飽和を予測・反転することができることがわかった。

Carbon capture and storage (CCS) plays a crucial role in mitigating greenhouse gas emissions, particularly from industrial outputs. Using seismic monitoring can aid in an accurate and robust monitoring system to ensure the effectiveness of CCS and mitigate associated risks. However, conventional seismic wave equation-based approaches are computationally demanding, which hinders real-time applications. In addition to efficiency, forecasting and uncertainty analysis are not easy to handle using such numerical-simulation-based approaches. To this end, we propose a novel subsurface multiphysics monitoring and forecasting framework utilizing video diffusion models. This approach can generate high-quality representations of CO$2$ evolution and associated changes in subsurface elastic properties. With reconstruction guidance, forecasting and inversion can be achieved conditioned on historical frames and/or observational data. Meanwhile, due to the generative nature of the approach, we can quantify uncertainty in the prediction. Tests based on the Compass model show that the proposed method successfully captured the inherently complex physical phenomena associated with CO$_2$ monitoring, and it can predict and invert the subsurface elastic properties and CO$_2$ saturation with consistency in their evolution.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 重み付きリスク不変性:不変特徴シフト下における領域一般化

Weighted Risk Invariance: Domain Generalization under Invariant Feature Shift ( http://arxiv.org/abs/2407.18428v1 )

ライセンス: Link先を確認
Gina Wong, Joshua Gleason, Rama Chellappa, Yoav Wald, Anqi Liu, (参考訳) 複数の環境下で予測が不変な学習モデルは、アウト・オブ・ディストリビューションの一般化に有望なアプローチである。 このようなモデルは、条件分布$Y \mid X_{\text{inv}}$で抽出された特徴が環境によって変化しないような、特徴を抽出するために訓練される。 不変モデルは、抽出された特徴のうち、$X_{\text{inv}}$は、$\textit{invariant covariate shift}$と呼ばれるシフトの種類である。 しかし、単純かつよく研究された線形ガウスモデル$\unicode{x2014}$または有限サンプル性能が劣るデータに対して、不変モデルの学習方法が不変な共変変量シフトの下で実行され、不変モデルの学習に失敗することを示す。 これらの問題を緩和するために、$\textit{weighted risk invariance}$ (WRI)を提案する。 我々のフレームワークは、トレーニング例の適切な再重み付けを受ける環境間の損失の分散を示唆することに基づいている。 We show that WRI provably learns invariant model, i。 我々は,密度$p(X_{\text{inv}})$とモデルパラメータを同時に学習することで,WRIを実装する実用的なアルゴリズムを提案する。

Learning models whose predictions are invariant under multiple environments is a promising approach for out-of-distribution generalization. Such models are trained to extract features $X_{\text{inv}}$ where the conditional distribution $Y \mid X_{\text{inv}}$ of the label given the extracted features does not change across environments. Invariant models are also supposed to generalize to shifts in the marginal distribution $p(X_{\text{inv}})$ of the extracted features $X_{\text{inv}}$, a type of shift we call an $\textit{invariant covariate shift}$. However, we show that proposed methods for learning invariant models underperform under invariant covariate shift, either failing to learn invariant models$\unicode{x2014}$even for data generated from simple and well-studied linear-Gaussian models$\unicode{x2014}$or having poor finite-sample performance. To alleviate these problems, we propose $\textit{weighted risk invariance}$ (WRI). Our framework is based on imposing invariance of the loss across environments subject to appropriate reweightings of the training examples. We show that WRI provably learns invariant models, i.e. discards spurious correlations, in linear-Gaussian settings. We propose a practical algorithm to implement WRI by learning the density $p(X_{\text{inv}})$ and the model parameters simultaneously, and we demonstrate empirically that WRI outperforms previous invariant learning methods under invariant covariate shift.
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# Rusty Linux: Linuxカーネル開発のためのRustの進歩

Rusty Linux: Advances in Rust for Linux Kernel Development ( http://arxiv.org/abs/2407.18431v1 )

ライセンス: Link先を確認
Shane K. Panter, Nasir U. Eisty, (参考訳) コンテキスト: Rustのカーネル開発への統合は、Rustの強力なメモリ安全性保証を活用することで、システムのセキュリティと信頼性を高めることを目的とした、変革的な取り組みである。 目的: Kernel開発でRustを使用することで、すべてのモダンなアプリケーションを支える最も重要なソフトウェアのうちの1つにおいて、メモリ安全性の脆弱性の数を減らすことを目指しています。 メソッド: 幅広い研究を分析して、Rustがもたらすメリットを特定し、直面する課題を強調し、Rustの採用に関してコミュニティのコンセンサスの必要性を強調します。 結果: カーネルの初期実装であるRustは,安全性と安定性の面で有望な結果を示しているが,大きな課題は残る。 これらの課題には、既存のカーネルコンポーネントとのシームレスな相互運用性の実現、パフォーマンスの維持、開発者に対する適切なサポートとツーリングの確保などが含まれる。 結論: この研究は、Rustのメリットを完全に実現するための継続的な研究と実践的な実装の必要性を強調します。 これらの課題に対処することによって、Rustの統合は、オペレーティングシステム開発がより安全で信頼性の高いシステムへと進化する上で、大きな一歩となる可能性がある。

Context: The integration of Rust into kernel development is a transformative endeavor aimed at enhancing system security and reliability by leveraging Rust's strong memory safety guarantees. Objective: We aim to find the current advances in using Rust in Kernel development to reduce the number of memory safety vulnerabilities in one of the most critical pieces of software that underpins all modern applications. Method: By analyzing a broad spectrum of studies, we identify the advantages Rust offers, highlight the challenges faced, and emphasize the need for community consensus on Rust's adoption. Results: Our findings suggest that while the initial implementations of Rust in the kernel show promising results in terms of safety and stability, significant challenges remain. These challenges include achieving seamless interoperability with existing kernel components, maintaining performance, and ensuring adequate support and tooling for developers. Conclusions: This study underscores the need for continued research and practical implementation efforts to fully realize the benefits of Rust. By addressing these challenges, the integration of Rust could mark a significant step forward in the evolution of operating system development towards safer and more reliable systems
翻訳日:2024-07-29 14:49:32 公開日:2024-07-25
# 希少な潜在状態を持つ隠れマルコフモデルに対するターゲット確率勾配マルコフ連鎖モンテカルロ

Targeted stochastic gradient Markov chain Monte Carlo for hidden Markov models with rare latent states ( http://arxiv.org/abs/1810.13431v3 )

ライセンス: Link先を確認
Rihui Ou, Deborshee Sen, Alexander L Young, David B Dunson, (参考訳) 隠れマルコフモデルのためのマルコフ連鎖モンテカルロ (MCMC) アルゴリズムは、しばしば前向きのサンプリング器に依存する。 これにより、時系列の長さが増加するにつれて計算が遅くなり、サブサンプリングベースのアプローチの開発が動機となる。 これらは、確率勾配MCMC内の各MCMC反復におけるデータの小さなランダムな列を用いて、完全な後部を近似する。 希少な潜伏状態から生じる不均衡なデータが存在する場合、サブシーケンスはしばしば希少な潜伏状態データを除外し、不正確な推測と希少な事象の予測・検出をもたらす。 本稿では,パラメータの確率勾配を計算する際に,希少な潜伏状態に対応するオーバーサンプル観測を対象とするサブサンプリング(TASS)手法を提案する。 TASSは、データの初期クラスタリングを使用して、勾配推定のばらつきを低減するサブシーケンス重みを構築する。 これによりサンプリング効率が向上し、特に稀な潜伏状態が極端な観測に対応するような環境では顕著である。 実例と合成例では,予測精度と推論精度が著しく向上した。

Markov chain Monte Carlo (MCMC) algorithms for hidden Markov models often rely on the forward-backward sampler. This makes them computationally slow as the length of the time series increases, motivating the development of sub-sampling-based approaches. These approximate the full posterior by using small random subsequences of the data at each MCMC iteration within stochastic gradient MCMC. In the presence of imbalanced data resulting from rare latent states, subsequences often exclude rare latent state data, leading to inaccurate inference and prediction/detection of rare events. We propose a targeted sub-sampling (TASS) approach that over-samples observations corresponding to rare latent states when calculating the stochastic gradient of parameters associated with them. TASS uses an initial clustering of the data to construct subsequence weights that reduce the variance in gradient estimation. This leads to improved sampling efficiency, in particular in settings where the rare latent states correspond to extreme observations. We demonstrate substantial gains in predictive and inferential accuracy on real and synthetic examples.
翻訳日:2024-07-28 18:55:51 公開日:2024-07-25
# ベイジアンモデリングの実践 : 不確実性を用いた医療応用の信頼性向上

Bayesian Modelling in Practice: Using Uncertainty to Improve Trustworthiness in Medical Applications ( http://arxiv.org/abs/1906.08619v2 )

ライセンス: Link先を確認
David Ruhe, Giovanni Cinà, Michele Tonutti, Daan de Bruin, Paul Elbers, (参考訳) 集中治療室(Intensive Care Unit、ICU)は、機械学習が臨床的意思決定に有用な支援を提供する可能性がある病院部門である。 古典的な機械学習モデルは通常、ポイント推定のみを提供し、予測の不確実性はない。 実際には、破滅的な治療決定を未然に防ぐために、余計な治療を受けた医師に不確実な予測を提示すべきである。 本研究は, ベイズモデルとそれが提供する予測の不確実性が, 誤った予測のリスクを軽減し, 医療現場におけるドメイン外サンプルの検出にどのように役立つかを示す。 我々は予測の不確実性に関する予測損失を解析的に導出する。 境界は不確実性によって損失が軽減されることを示している。 さらに、MIMIC-IIIデータセットにベイズニューラルネットワークを適用し、ICU患者の死亡リスクを予測する。 実験の結果、不確実性は潜在的なエラーを確実に防止し、領域外患者を確実に特定できることが示された。 これらの結果から,ベイジアン予測の不確実性は,ICUのようなリスクの高い環境での機械学習モデルの信頼性を大幅に向上させる可能性が示唆された。

The Intensive Care Unit (ICU) is a hospital department where machine learning has the potential to provide valuable assistance in clinical decision making. Classical machine learning models usually only provide point-estimates and no uncertainty of predictions. In practice, uncertain predictions should be presented to doctors with extra care in order to prevent potentially catastrophic treatment decisions. In this work we show how Bayesian modelling and the predictive uncertainty that it provides can be used to mitigate risk of misguided prediction and to detect out-of-domain examples in a medical setting. We derive analytically a bound on the prediction loss with respect to predictive uncertainty. The bound shows that uncertainty can mitigate loss. Furthermore, we apply a Bayesian Neural Network to the MIMIC-III dataset, predicting risk of mortality of ICU patients. Our empirical results show that uncertainty can indeed prevent potential errors and reliably identifies out-of-domain patients. These results suggest that Bayesian predictive uncertainty can greatly improve trustworthiness of machine learning models in high-risk settings such as the ICU.
翻訳日:2024-07-28 18:55:51 公開日:2024-07-25
# 低リソース文分類における全サンプルの爆発:早期停止と初期化パラメータ

Exploiting All Samples in Low-Resource Sentence Classification: Early Stopping and Initialization Parameters ( http://arxiv.org/abs/2111.06971v2 )

ライセンス: Link先を確認
Hongseok Choi, Hyunju Lee, (参考訳) 低リソース環境でのディープラーニングのパフォーマンス向上のために、多くの研究者がモデルアーキテクチャを再設計したり、追加データ(外部リソース、ラベルなしサンプルなど)を適用した。 しかし、少量のラベル付きサンプルをうまく利用する方法についての議論は比較的少ないが、潜在的に有益であり、追加のデータを適用する前にやるべきである。 本研究では,少数のラベル付きサンプル(クラス毎30~100)しか利用できない低リソース環境を想定し,追加データやモデルの再設計なしにそれらを活用する方法について議論する。 トレーニング検証分割,早期停止,体重初期化という3つの側面から可能なアプローチを探る。 6つの公開文分類データセットで大規模な実験を行う。 評価指標(精度,損失,キャリブレーション誤差など)の性能は,3つの側面で組み合わせたアプローチによって大きく異なっていた。 提案手法は,重量平均化法を用いてモデルを初期化し,非バリデーション停止法を用いて全てのサンプルを訓練する統合手法を提案する。 例えば、この手法の6つのデータセットの平均精度は、従来の検証ベースの手法よりも1.8%高い。 さらに、統合された手法は、追加データを使用したり、ネットワークアーキテクチャを再設計するいくつかの最先端モデル(例えば、自己学習と強化された構造モデル)に適応する際のパフォーマンスをさらに向上する。 本結果は,トレーニング戦略の重要性を強調し,低リソース環境における統合手法が第一歩となることを示唆している。 本研究は,低リソースデータを扱う上で有用な経験的知識を提供する。

To improve deep-learning performance in low-resource settings, many researchers have redesigned model architectures or applied additional data (e.g., external resources, unlabeled samples). However, there have been relatively few discussions on how to make good use of small amounts of labeled samples, although it is potentially beneficial and should be done before applying additional data or redesigning models. In this study, we assume a low-resource setting in which only a few labeled samples (i.e., 30-100 per class) are available, and we discuss how to exploit them without additional data or model redesigns. We explore possible approaches in the following three aspects: training-validation splitting, early stopping, and weight initialization. Extensive experiments are conducted on six public sentence classification datasets. Performance on various evaluation metrics (e.g., accuracy, loss, and calibration error) significantly varied depending on the approaches that were combined in the three aspects. Based on the results, we propose an integrated method, which is to initialize the model with a weight averaging method and use a non-validation stop method to train all samples. This simple integrated method consistently outperforms the competitive methods; e.g., the average accuracy of six datasets of this method was 1.8% higher than those of conventional validation-based methods. In addition, the integrated method further improves the performance when adapted to several state-of-the-art models that use additional data or redesign the network architecture (e.g., self-training and enhanced structural models). Our results highlight the importance of the training strategy and suggest that the integrated method can be the first step in the low-resource setting. This study provides empirical knowledge that will be helpful when dealing with low-resource data in future efforts.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-25
# 補充型確率データ拡張とハードバウンダリボックストレーニングを用いたX線胃癌検診の実際

Practical X-ray Gastric Cancer Screening Using Refined Stochastic Data Augmentation and Hard Boundary Box Training ( http://arxiv.org/abs/2108.08158v3 )

ライセンス: Link先を確認
Hideaki Okamoto, Takakiyo Nomura, Kazuhito Nabeshima, Jun Hashimoto, Hitoshi Iyatomi, (参考訳) 内視鏡検査は胃癌の診断に広く用いられ、高い診断性能を有するが、医師が行う必要があるため、診断できる人数は限られている。 一方、胃X線検査は技術者が行うことができ、内視鏡検査よりもはるかに多くの患者をスクリーニングすることができるが、正確な診断には経験が必要である。 胃X線画像に対する前例のない,実用的な胃癌診断支援システムを提案する。 このシステムは、一般的なディープラーニングに基づく物体検出モデルに基づいており、洗練された確率的胃像増強(R-sGAIA)とハードバウンダリボックス学習(HBBT)という2つの新しい技術提案を含んでいる。 R-sGAIAは、がん検出モデルにより多くの学習パターンを提供する確率論的胃折り畳み領域拡張法である。 HBBTは、オブジェクト検出モデルの効率的なトレーニング手法であり、従来の検出モデルではトレーニングに使用できない非注釈陰性(すなわち、健全な制御)サンプルを使用することで、モデル性能を向上させることができる。 提案した胃癌システム(90.2%)の感度(SE)は専門家(85.5%)よりも高く、検出された5つの候補のうち2つは癌であり、高い処理速度の0.51秒/イメージを維持しながら高い精度を達成する。 提案システムでは,F1スコアよりも5.9ポイント高い値を示した。 要するに、このシステムは放射線科医の視線を素早く効率的に表示し、放射線科医の作業負荷を大幅に削減する。

Endoscopy is widely used to diagnose gastric cancer and has a high diagnostic performance, but because it must be performed by a physician, the number of people who can be diagnosed is limited. Gastric X-ray, on the other hand, can be performed by technicians and can screen a much larger number of patients than endoscopy, but its correct diagnosis requires experience. We propose an unprecedented and practical gastric cancer diagnosis support system for gastric X-ray images, which will enable more people to be screened. The system is based on a general deep learning-based object detection model and includes two novel technical proposals: refined probabilistic stomach image augmentation (R-sGAIA) and hard boundary box learning (HBBT). R-sGAIA is a probabilistic gastric fold region enhancement method that provides more learning patterns for cancer detection models. HBBT is an efficient training method for object detection models that allows the use of unannotated negative (i.e., healthy control) samples that cannot be used for training in conventional detection models, thereby improving model performance. The sensitivity (SE) of the proposed system for gastric cancer (90.2%) is higher than that of the expert (85.5%), and two out of five candidates detected box are cancerous, achieving a high precision while maintaining a high processing speed of 0.51 seconds/image. The proposed system showed 5.9 points higher on the F1 score compared to methods using the same object detection model and state-of-the-art data augmentation. In short, the system quickly and efficiently shows the radiologist where to look, greatly reducing the radiologist's workload.
翻訳日:2024-07-26 20:20:10 公開日:2024-07-25
# 異音の幾何学的尺度の多部一般化

Multipartite Generalization of Geometric measure of Discord ( http://arxiv.org/abs/2109.11981v3 )

ライセンス: Link先を確認
Ali Saif M. Hassan, Pramod S. Joag, (参考訳) Radhakrishnan et.al [Phys. Rev. Lett. 124, 110401 (2020)] は、双極子系における従来の不協和の定義と整合性を持ち、任意の状態に対する明示的な公式を導出する、多極子系に対する量子不協和の一般化を提案した。 これらの結果は、マルチキュービット系における量子相関を捉える上で重要である。 同様に多部量子不協和の幾何測度を一般化する手法を提案する。 一般のN粒子量子状態における量子不協和の幾何学的測度の一般化の一般的な形式を見つける。 さらに、[arXiv:2104.12344]で得られた結果を含む、N量子ビット量子状態における量子不協和の幾何測度を一般化するための計算可能な正確な式を得る。

Radhakrishnan et.al [Phys. Rev. Lett. 124, 110401 (2020)] proposed a generalization of quantum discord to multipartite systems, which is consistency with the conventional definition of discord in bipartite systems and derived explicit formulae for any states. These results are significant in capturing quantum correlations for multi-qubit systems. We propose a generalization of geometric measure of multipartite quantum discord in the same manner. We find generic forms of the generalization of geometric measure of quantum discord in a general N-partite quantum state. Further, we obtain computable exact formulas for the generalization of geometric measure of quantum discord in an N-qubit quantum state, which include the results obtained in [arXiv:2104.12344].
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 動的量子資源のエントロピー的および操作的特性

Entropic and operational characterizations of dynamic quantum resources ( http://arxiv.org/abs/2112.06906v4 )

ライセンス: Link先を確認
Kaiyuan Ji, Eric Chitambar, (参考訳) 本研究では,エントロピーの概念と運用タスクに基づいて,量子資源理論の一般化と量子資源理論のダイナミックな特徴付けを行う新しい手法を提案する。 本稿では,自由条件最小エントロピー(FCME)と呼ばれる量子条件最小エントロピーの資源理論的一般化を提案し,観測者の情報処理が資源理論の自由操作に限定されていることから,観測者の「主観的」な量子系に対する不確実性の度合いを定量化する。 この一般化された概念は、任意の閉および凸量子資源理論における量子状態またはチャネル間の自由可換性のための完全なエントロピー条件をもたらす。 また、FCMEから派生した相互情報のような量の観点から、状態やチャネルのリソースのグローバルロバスト性に関する情報理論的な解釈を提供する。 このエントロピー的アプローチとは別に、運用タスクのパフォーマンスを解析することで、動的リソースを特徴付ける。 このようなタスクに基づいて、我々は、量子チャネル間の自由可換性の忠実なテストを可能にする、運用上有意義で完全なリソース単調なセットを構築する。 最後に, 通信課題における自由チャネルに対するチャネルの操作上の優位性として, 適切に定義されたロバスト性に基づくチャンネルの計測が可能であることを示す。

We provide new methods for characterizing general closed and convex quantum resource theories, including dynamic ones, based on entropic concepts and operational tasks. We propose a resource-theoretic generalization of the quantum conditional min-entropy, termed the free conditional min-entropy (FCME), in the sense that it quantifies an observer's ``subjective'' degree of uncertainty about a quantum system given that the observer's information processing is limited to free operations of the resource theory. This generalized concept gives rise to a complete set of entropic conditions for free convertibility between quantum states or channels in any closed and convex quantum resource theory. It also provides an information-theoretic interpretation for the resource global robustness of a state or a channel in terms of a mutual-information-like quantity derived from the FCME. Apart from this entropic approach, we also characterize dynamic resources by analyzing their performance in operational tasks. Based on such tasks, we construct operationally meaningful and complete sets of resource monotones, which enable faithful tests of free convertibility between quantum channels. Finally, we show that every well-defined robustness-based measure of a channel can be interpreted as an operational advantage of the channel over free channels in a communication task.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 数学者のためのデータ倫理に関する非専門家の紹介

A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v5 )

ライセンス: Link先を確認
Mason A. Porter, (参考訳) データ倫理について簡単に紹介します。 データ倫理に関する背景情報と社会的文脈から始めます。 次に、数理科学教育におけるデータ倫理について論じ、利用可能な教材を示す。 私は、データ倫理、社会、社会的善に関するいくつかの取り組みを、私の自宅や他の施設で簡単に強調します。 次に、研究におけるオープンデータ、研究の複製性、その他の倫理的な問題、プライバシとオープンデータとコードの緊張、そしていくつかの議論を呼んでいる研究と研究に対する反応について議論します。 次に、倫理原則、制度審査委員会、および人間のデータの科学的利用に関するいくつかの考察について論じる。 それから、データ倫理とデータプライバシに関連するさまざまな研究を短期間調査し、記事を書きます。 簡潔な要約と締めくくりの発言で締めくくります。 私の関心は数学者ですが、この章が他の人にとっても役に立つことを願っています。 私はデータ倫理の専門家ではありません。 データ倫理、数学教育における役割、およびデータとデータ分析の社会的意味について、私が議論しているリソースについて、慎重に検討することをお勧めします。 データと技術が進化し続けるにつれて、このような慎重なリフレクションがあなたの人生を通して続くことを願っています。

I give a short introduction to data ethics. I begin with some background information and societal context for data ethics. I then discuss data ethics in mathematical-science education and indicate some available course material. I briefly highlight a few efforts -- at my home institution and elsewhere -- on data ethics, society, and social good. I then discuss open data in research, research replicability and some other ethical issues in research, and the tension between privacy and open data and code, and a few controversial studies and reactions to studies. I then discuss ethical principles, institutional review boards, and a few other considerations in the scientific use of human data. I then briefly survey a variety of research and lay articles that are relevant to data ethics and data privacy. I conclude with a brief summary and some closing remarks. My focal audience is mathematicians, but I hope that this chapter will also be useful to others. I am not an expert about data ethics, and this chapter provides only a starting point on this wide-ranging topic. I encourage you to examine the resources that I discuss and to reflect carefully on data ethics, its role in mathematics education, and the societal implications of data and data analysis. As data and technology continue to evolve, I hope that such careful reflection will continue throughout your life.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 個人的個人的確率勾配変化に対する個人的プライバシ会計

Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent ( http://arxiv.org/abs/2206.02617v7 )

ライセンス: Link先を確認
Da Yu, Gautam Kamath, Janardhan Kulkarni, Tie-Yan Liu, Jian Yin, Huishuai Zhang, (参考訳) 個人的確率勾配勾配勾配(DP-SGD)は,近年の私的深層学習におけるワークホースアルゴリズムである。 データセット内のすべてのデータポイントに対して、単一のプライバシ保証を提供する。 本稿では,DP-SGD でトレーニングしたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付けるために,出力特化 $(\varepsilon,\delta)$-DP を提案する。 また、複数のデータセットにわたる個人のプライバシーを調査する効率的なアルゴリズムを設計する。 ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。 さらに、サンプルのトレーニング損失とプライバシパラメータがよく関連していることが分かりました。 これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。 例えば、CIFAR-10では、テスト精度が最も低いクラスの平均$\varepsilon$は、最も高いクラスよりも44.2\%高い。

Differentially private stochastic gradient descent (DP-SGD) is the workhorse algorithm for recent advances in private deep learning. It provides a single privacy guarantee to all datapoints in the dataset. We propose output-specific $(\varepsilon,\delta)$-DP to characterize privacy guarantees for individual examples when releasing models trained by DP-SGD. We also design an efficient algorithm to investigate individual privacy across a number of datasets. We find that most examples enjoy stronger privacy guarantees than the worst-case bound. We further discover that the training loss and the privacy parameter of an example are well-correlated. This implies groups that are underserved in terms of model utility simultaneously experience weaker privacy guarantees. For example, on CIFAR-10, the average $\varepsilon$ of the class with the lowest test accuracy is 44.2\% higher than that of the class with the highest accuracy.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 粒子数対称性を持つフェルミオンの古典的影

Classical shadows of fermions with particle number symmetry ( http://arxiv.org/abs/2208.08964v2 )

ライセンス: Link先を確認
Guang Hao Low, (参考訳) フェルミオン波動関数の古典的な影を$\eta$粒子が$n$モードを占めるものとみなす。 すべての$k$-Reduced Density Matrices (RDMs) は、最大で $\binom{\eta}{k}\big(1-\frac{\eta-k}{n}\big)^{k}\frac{1+n}{1+n-k}/\epsilon^{2}$ 粒子数を保存するランダムな単一粒子基底における測定値を用いて、$\mathcal{O}(k^2\eta)$ $k$-RDM に対する推定値を与える。 我々のサンプルの複雑さは、$\mathcal{O}(\binom{n}{k}\frac {\sqrt{k}}{\epsilon^{2}})$ 以前のアプローチを$n$としてスケールする際の超指数的改善であり、これは自然問題に共通する$\eta$よりも任意に大きい。 我々の手法は、ハーフフィリングの最悪の場合においても、サンプルの複雑さの利点として$4^{k}$の係数を提供し、さらに、すべてのSlater行列との重なりを推定するために適用できる$$\eta$-reduced density matricesを推定する。

We consider classical shadows of fermion wavefunctions with $\eta$ particles occupying $n$ modes. We prove that all $k$-Reduced Density Matrices (RDMs) may be simultaneously estimated to an average variance of $\epsilon^{2}$ using at most $\binom{\eta}{k}\big(1-\frac{\eta-k}{n}\big)^{k}\frac{1+n}{1+n-k}/\epsilon^{2}$ measurements in random single-particle bases that conserve particle number, and provide an estimator for any $k$-RDM with $\mathcal{O}(k^2\eta)$ classical complexity. Our sample complexity is a super-exponential improvement over the $\mathcal{O}(\binom{n}{k}\frac{\sqrt{k}}{\epsilon^{2}})$ scaling of prior approaches as $n$ can be arbitrarily larger than $\eta$, which is common in natural problems. Our method, in the worst-case of half-filling, still provides a factor of $4^{k}$ advantage in sample complexity, and also estimates all $\eta$-reduced density matrices, applicable to estimating overlaps with all single Slater determinants, with at most $\mathcal{O}(\frac{1}{\epsilon^{2}})$ samples, which is additionally independent of $\eta$.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 正規化クラスタリング精度:非対称な外部クラスタ有効性尺度

Normalised clustering accuracy: An asymmetric external cluster validity measure ( http://arxiv.org/abs/2209.02935v4 )

ライセンス: Link先を確認
Marek Gagolewski, (参考訳) 最高のクラスタリングアルゴリズムは存在しません。 それでも、特定のタスクタイプでうまく機能するメソッドと、体系的に貧弱なパフォーマンスを持つメソッドを区別したいと思っています。 クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。 内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均的な程度を定量化する。 しかし、それらの妥当性は疑わしい。なぜなら、彼らが支持するクラスタリングは、時々無意味であるからである。 一方、外部測度は、アルゴリズムの出力を専門家によって提供される固定された真実グループと比較する。 本稿では,正規化された相互情報やFowlkes-Mallows,あるいは調整されたRandインデックスなどの古典的分割類似度スコアが,いくつかの望ましい特性を欠いていることを論じる。 特に、最悪のシナリオを正しく特定したり、簡単に解釈したりはしません。 その結果、多様なベンチマークデータセットに対するクラスタリングアルゴリズムの評価が困難になる可能性がある。 これらの問題を治療するために、我々は、いくつかの類似性関係、スケール不変性に関して単調に正規化され、クラスタサイズの不均衡性(ただし、対称性も、偶然に調整もしない)に対して補正された最適セットマッチング精度のバージョンを提案し、分析する。

There is no, nor will there ever be, single best clustering algorithm. Nevertheless, we would still like to be able to distinguish between methods that work well on certain task types and those that systematically underperform. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. However, their validity is questionable because the clusterings they endorse can sometimes be meaningless. External measures, on the other hand, compare the algorithms' outputs to fixed ground truth groupings provided by experts. In this paper, we argue that the commonly used classical partition similarity scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted Rand index, miss some desirable properties. In particular, they do not identify worst-case scenarios correctly, nor are they easily interpretable. As a consequence, the evaluation of clustering algorithms on diverse benchmark datasets can be difficult. To remedy these issues, we propose and analyse a new measure: a version of the optimal set-matching accuracy, which is normalised, monotonic with respect to some similarity relation, scale-invariant, and corrected for the imbalancedness of cluster sizes (but neither symmetric nor adjusted for chance).
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 量子エントロピーのマトリックス凸性と強部分付加性について

Ruminations on Matrix Convexity and the Strong Subadditivity of Quantum Entropy ( http://arxiv.org/abs/2210.10729v5 )

ライセンス: Link先を確認
Michael Aizenman, Giorgio Cipolloni, (参考訳) 凸性に関する慣れ親しんだ第2微分テストは、分解性計算と組み合わせることで、凸行列値関数の研究に有用なツールであることが示されている。 この分野における多くの定理に対するこのアプローチの適用性を示す。 これらは、リーブ・ルスカイの量子エントロピーの強い部分付加性の証明において重要な役割を果たす凸原理を含む。

The familiar second derivative test for convexity, combined with resolvent calculus, is shown to yield a useful tool for the study of convex matrix-valued functions. We demonstrate the applicability of this approach on a number of theorems in this field. These include convexity principles which play an essential role in the Lieb-Ruskai proof of the strong subadditivity of quantum entropy.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# Castling-ViT:視覚変換器推論における線形角アテンションへの切り替えによる自己注意の圧縮

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference ( http://arxiv.org/abs/2211.10526v5 )

ライセンス: Link先を確認
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan Celine Lin, (参考訳) 視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して高い計算コストを必要とする。 既存の効率的なViTは、ローカルアテンション(例えば、Swin)またはリニアアテンション(例えば、Performer)を採用しており、グローバルまたはローカルのコンテキストをキャプチャするViTの能力を犠牲にしている。 この研究において、我々は重要な研究課題を問う:ViTsは、推論中により効率的でありながら、グローバルコンテキストとローカルコンテキストの両方を学ぶことができるか? そこで本稿では,VT を線形角注意とマスク付きソフトマックス2次注意の両方を用いて訓練する Castling-ViT というフレームワークを提案する。 私たちのCastling-ViTは、角カーネルを活用して、スペクトル角でクエリとキーの類似度を測定します。 1) 角核を線形項と高次残差に分解し、線形項のみを保ち、(2) 高次残差を近似するために2つのパラメータ化モジュールを採用。 画像ネット分類における最大1.8%の精度または40%のMACs削減と、同等のFLOP下でのCOCO検出における1.2のmAPを達成できる3つのタスクに関する大規模な実験とアブレーション研究は、バニラソフトマックスに基づく注意を持つViTと比較すると、一貫して評価されている。

Vision Transformers (ViTs) have shown impressive performance but still require a high computation cost as compared to convolutional neural networks (CNNs), one reason is that ViTs' attention measures global similarities and thus has a quadratic complexity with the number of input tokens. Existing efficient ViTs adopt local attention (e.g., Swin) or linear attention (e.g., Performer), which sacrifice ViTs' capabilities of capturing either global or local context. In this work, we ask an important research question: Can ViTs learn both global and local context while being more efficient during inference? To this end, we propose a framework called Castling-ViT, which trains ViTs using both linear-angular attention and masked softmax-based quadratic attention, but then switches to having only linear angular attention during ViT inference. Our Castling-ViT leverages angular kernels to measure the similarities between queries and keys via spectral angles. And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. Extensive experiments and ablation studies on three tasks consistently validate the effectiveness of the proposed Castling-ViT, e.g., achieving up to a 1.8% higher accuracy or 40% MACs reduction on ImageNet classification and 1.2 higher mAP on COCO detection under comparable FLOPs, as compared to ViTs with vanilla softmax-based attentions.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# Q-Pensieve:Q-Snapshotのメモリ共有による多目的RLのサンプル効率向上

Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots ( http://arxiv.org/abs/2212.03117v2 )

ライセンス: Link先を確認
Wei Hung, Bo-Kai Huang, Ping-Chun Hsieh, Xi Liu, (参考訳) 多くの実世界の継続的制御問題は、多目的強化学習(MORL)の長所と短所を測るジレンマにある。 しかし、既存のMORL法は、パレートフロントを見つけるために複数の明示的な探索パスを頼りにしているため、サンプル効率は高くない。 MORLのサンプル効率を高めるために,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,政策更新の方向性を共同で決定し,政策レベルでのデータ共有を可能にする政策改善スキームである。 本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。 この概念を実証するために,学習したQ-ネットワークを過去の繰り返しから保存し,実践的なアクタ・クリティカルな実装に到達させるQリプレイバッファ手法を提案する。 より広範な実験とアブレーションによる研究により,提案アルゴリズムは,より少ないサンプルで,様々なMORLベンチマークタスクにおいて,ベンチマークMORL法より優れていることを示す。

Many real-world continuous control problems are in the dilemma of weighing the pros and cons, multi-objective reinforcement learning (MORL) serves as a generic framework of learning control policies for different preferences over objectives. However, the existing MORL methods either rely on multiple passes of explicit search for finding the Pareto front and therefore are not sample-efficient, or utilizes a shared policy network for coarse knowledge sharing among policies. To boost the sample efficiency of MORL, we propose Q-Pensieve, a policy improvement scheme that stores a collection of Q-snapshots to jointly determine the policy update direction and thereby enables data sharing at the policy level. We show that Q-Pensieve can be naturally integrated with soft policy iteration with convergence guarantee. To substantiate this concept, we propose the technique of Q replay buffer, which stores the learned Q-networks from the past iterations, and arrive at a practical actor-critic implementation. Through extensive experiments and an ablation study, we demonstrate that with much fewer samples, the proposed algorithm can outperform the benchmark MORL methods on a variety of MORL benchmark tasks.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 社会科学からの計測知識の活用によるスタンス検出の改善:オランダの政治ツイートと伝統的ジェンダーロール部門を事例として

Improving Stance Detection by Leveraging Measurement Knowledge from Social Sciences: A Case Study of Dutch Political Tweets and Traditional Gender Role Division ( http://arxiv.org/abs/2212.06543v2 )

ライセンス: Link先を確認
Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, (参考訳) スタンス検出(SD)は、テキストの著者がターゲットに向かっている視点(すなわち、反対、中立)を自動的に決定する。 SDは、政治ツイートの背後にあるスタンスを検出することが重要である、多くの研究トピックに応用されている。 本稿では、2017年から2021年にかけてオランダの公的な政党アカウントからのツイートのデータセットにSDを適用し、オランダの政党間の(一部)分割問題である伝統的なジェンダー・ロール・ディビジョンへのスタンスに注目した。 従来のジェンダー・ロール・ディビジョンのSDの実装と改善を目的として,従来のジェンダー・ロール・ディビジョンに対する態度を測定するために,社会科学から確立された調査機器を活用することを提案する。 実験結果から,このような検査機器を用いることで,SD性能の向上が期待できることがわかった。

Stance detection (SD) concerns automatically determining the viewpoint (i.e., in favour of, against, or neutral) of a text's author towards a target. SD has been applied to many research topics, among which the detection of stances behind political tweets is an important one. In this paper, we apply SD to a dataset of tweets from official party accounts in the Netherlands between 2017 and 2021, with a focus on stances towards traditional gender role division, a dividing issue between (some) Dutch political parties. To implement and improve SD of traditional gender role division, we propose to leverage an established survey instrument from social sciences, which has been validated for the purpose of measuring attitudes towards traditional gender role division. Based on our experiments, we show that using such a validated survey instrument helps to improve SD performance.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# バッチレス正規化:最小限のメモリ要件を持つインスタンス間でのアクティベーションの正規化

Batchless Normalization: How to Normalize Activations Across Instances with Minimal Memory Requirements ( http://arxiv.org/abs/2212.14729v2 )

ライセンス: Link先を確認
Benjamin Berger, Victor Uc Cetina, (参考訳) ニューラルネットワークのトレーニングにおいて、バッチ正規化には多くのメリットがある。 しかし、欠点もある。 バッチ統計の計算では、バッチ内のすべてのインスタンスを同時に処理する必要があるのに対して、バッチの正規化がなければ、重み勾配を蓄積しながら、それらをひとつずつ処理することが可能である。 もう一つの欠点は、分布パラメータ(平均偏差と標準偏差)が、勾配勾配を使って訓練されていないが特別な処理を必要とし、実装を複雑にするという点で他のモデルパラメータと異なることである。 本稿では,これらの問題に対処するための単純かつ簡単な方法を示す。 要するに、各活性化に対して、活性化を正規化するために使用されるガウス分布の負の対数可能性の最小化を引き起こす損失に項を加えるという考え方である。 その他のメリットとして、より大きなモデルをトレーニングするためのハードウェア要件を低くすることで、AI研究の民主化に寄与することが期待できる。

In training neural networks, batch normalization has many benefits, not all of them entirely understood. But it also has some drawbacks. Foremost is arguably memory consumption, as computing the batch statistics requires all instances within the batch to be processed simultaneously, whereas without batch normalization it would be possible to process them one by one while accumulating the weight gradients. Another drawback is that that distribution parameters (mean and standard deviation) are unlike all other model parameters in that they are not trained using gradient descent but require special treatment, complicating implementation. In this paper, I show a simple and straightforward way to address these issues. The idea, in short, is to add terms to the loss that, for each activation, cause the minimization of the negative log likelihood of a Gaussian distribution that is used to normalize the activation. Among other benefits, this will hopefully contribute to the democratization of AI research by means of lowering the hardware requirements for training larger models.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-25
# 深層学習を用いた「科学ウェブ」における研究分野の階層的分類

Hierarchical Classification of Research Fields in the "Web of Science" Using Deep Learning ( http://arxiv.org/abs/2302.00390v3 )

ライセンス: Link先を確認
Susie Xi Rao, Peter H. Egger, Ce Zhang, (参考訳) 本稿では,その抽象概念を用いて学術出版物を自動的に3階層の階層ラベルセット(ディシプリン,フィールド,サブフィールド)に分類する階層分類システムを提案する。 本システムでは, 研究活動の包括的分類を, 論文による知識生産, 引用による影響の観点から実現し, それらの活動が複数のカテゴリに分類できる。 分類システムは、Microsoft Academic Graph(バージョン2018-05-17)の1億6000万の抽象スニペットのうち、44の規律、718のフィールド、1,485のサブフィールドを区別する。 モジュール化された分散的な方法でバッチトレーニングを行い、単一ラベルと複数ラベルの設定で学際的および分野間分類を可能にしました。 総じて,すべての検討モデル(畳み込みニューラルネットワーク,リカレントニューラルネットワーク,トランスフォーマー)で3,140実験を行った。 分類精度は77.13%で90%、シングルラベルとマルチラベルの分類では78.19%である。 研究テキストと出力を規律と整合させ、それらを適切に自動で分類し、学際性の度合いを捉えることで、分類の利点を考察する。 提案システム(事前学習されたモデルの集合)は,将来,学術出版物の索引付けを行うインタラクティブシステムのバックボーンとして機能する。

This paper presents a hierarchical classification system that automatically categorizes a scholarly publication using its abstract into a three-tier hierarchical label set (discipline, field, subfield) in a multi-class setting. This system enables a holistic categorization of research activities in the mentioned hierarchy in terms of knowledge production through articles and impact through citations, permitting those activities to fall into multiple categories. The classification system distinguishes 44 disciplines, 718 fields and 1,485 subfields among 160 million abstract snippets in Microsoft Academic Graph (version 2018-05-17). We used batch training in a modularized and distributed fashion to address and allow for interdisciplinary and interfield classifications in single-label and multi-label settings. In total, we have conducted 3,140 experiments in all considered models (Convolutional Neural Networks, Recurrent Neural Networks, Transformers). The classification accuracy is > 90% in 77.13% and 78.19% of the single-label and multi-label classifications, respectively. We examine the advantages of our classification by its ability to better align research texts and output with disciplines, to adequately classify them in an automated way, and to capture the degree of interdisciplinarity. The proposed system (a set of pre-trained models) can serve as a backbone to an interactive system for indexing scientific publications in the future.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# グローバーにおけるセマンティック摂動の探索

Exploring Semantic Perturbations on Grover ( http://arxiv.org/abs/2302.00509v2 )

ライセンス: Link先を確認
Ziqing Ji, Pranav Kulkarni, Marko Neskovic, Kevin Nolan, Yan Xu, (参考訳) ニュースや情報は、現在ほど簡単にアクセスできるので、人々が読み物に誤解を与えないようにすることが、これまで以上に重要だ。 近年、ニューラルフェイクニュース(AI生成フェイクニュース)の台頭と、人間を騙す効果が証明され、それを検出するモデルの開発が進められている。 このようなモデルのひとつがGroverモデルで、ニューラルフェイクニュースを検出してそれを防止し、それを生成して、モデルが人間の読者を騙すためにどのように悪用されるかを実証する。 本研究では,入力されたニュース記事の摂動を通じて標的攻撃を行うことにより,Groverモデルの偽ニュース検出機能について検討する。 これにより、Groverのこのような敵攻撃に対するレジリエンスをテストし、さらなるイテレーションで対処すべき潜在的な脆弱性を明らかにし、あらゆる種類の偽ニュースを正確に検出できるようにします。

With news and information being as easy to access as they currently are, it is more important than ever to ensure that people are not mislead by what they read. Recently, the rise of neural fake news (AI-generated fake news) and its demonstrated effectiveness at fooling humans has prompted the development of models to detect it. One such model is the Grover model, which can both detect neural fake news to prevent it, and generate it to demonstrate how a model could be misused to fool human readers. In this work we explore the Grover model's fake news detection capabilities by performing targeted attacks through perturbations on input news articles. Through this we test Grover's resilience to these adversarial attacks and expose some potential vulnerabilities which should be addressed in further iterations to ensure it can detect all types of fake news accurately.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# 超伝導量子ビット実験のための宇宙ミューオンフラックス減衰法

Cosmic muon flux attenuation methods for superconducting qubit experiments ( http://arxiv.org/abs/2303.04938v2 )

ライセンス: Link先を確認
Elia Bertoldo, Victor Perez, Maria Martínez, Manel Martínez, Hawraa Khalife, Pol Forn-Díaz, (参考訳) 本研究では, 超伝導量子ビットを含む実験と互換性があり, 宇宙ムーンフラックスを減衰させる2つの実用的な緩和手法を提案し, 実証する。 特別に構築された宇宙ミューオン検出器を用いて、都市環境に広く存在する地下地を同定し、宇宙ミューオンフラックスの大幅な減衰を最大で100メートルの深さで35倍にすることができる。 さらに,2つのゲルマニウムウェハを地上実験室に設置し,それぞれに粒子センサを装着し,光電離放射線により基板上に堆積したエネルギーの量と種類に,天空に対するチップの配向がどのような影響を及ぼすかを示す。 水平検出器はより低いエネルギーでより多くのカウントを観測し、垂直検出器はより高いエネルギーでより多くの粒子に衝突する。 提案手法は, 宇宙線が量子ビットに与える影響を直接理解し, 低減する手法であり, 既存のオンチップ緩和戦略を補完するものである。 我々は、オンチップとオフチップの組み合わせが、超伝導量子ビット回路に基づく量子技術においてユビキタスになることを期待する。

We propose and demonstrate two practical mitigation methods to attenuate the cosmic muon flux, compatible with experiments involving superconducting qubits: shallow underground sites and specific device orientation. Using a specifically-built cosmic muon detector, we identify underground sites, widely present in urban environments, where significant attenuation of cosmic muon flux, up to a factor 35 for 100-meter depths, can be attained. Furthermore, we employ two germanium wafers in an above-ground laboratory, each equipped with a particle sensor, to show how the orientation of the chip with respect to the sky affects the amount and type of energy deposited on the substrate by ionizing radiation. We observe that the horizontal detector sees more counts at lower energy, while the vertical one is impacted by more particles at higher energy. The methods here described proposed ways to directly understand and reduce the effects of cosmic rays on qubits by attenuating the source of this type of decoherence, complementing existing on-chip mitigation strategies. We expect that both on-chip and off-chip methods combined will become ubiquitous in quantum technologies based on superconducting qubit circuits.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# 最小限のスパンニングツリーでクラスタリング: どのくらい良いのか?

Clustering with minimum spanning trees: How good can it be? ( http://arxiv.org/abs/2303.05679v3 )

ライセンス: Link先を確認
Marek Gagolewski, Anna Cena, Maciej Bartoszuk, Łukasz Brzozowski, (参考訳) 最小スパンニングツリー(MST)は、多くのパターン認識アクティビティにおいて、データセットの便利な表現を提供する。 さらに、計算は比較的高速である。 本稿では,低次元分割データクラスタリングタスクにおいて,それらが意味のある範囲を定量化する。 ベンチマークデータの大容量バッテリから、ベスト(オークル)アルゴリズムとエキスパートラベルとの一致の上限を同定することにより、MST法が非常に競争力のあるものになることを発見した。 次に、既存の最先端のMSTベースのパーティショニングスキームをレビュー、研究、拡張、一般化する。 これはいくつかの注目すべきアプローチにつながります。 全体として、ジェニーと情報理論の手法は、K平均、ガウス混合、スペクトルクラスタリング、バーチ、密度ベース、古典的階層的集計手順などの非MSTアルゴリズムよりも優れていることが多い。 しかし,まだ改善の余地が残っており,新たなアルゴリズムの開発が奨励されている。

Minimum spanning trees (MSTs) provide a convenient representation of datasets in numerous pattern recognition activities. Moreover, they are relatively fast to compute. In this paper, we quantify the extent to which they are meaningful in low-dimensional partitional data clustering tasks. By identifying the upper bounds for the agreement between the best (oracle) algorithm and the expert labels from a large battery of benchmark data, we discover that MST methods can be very competitive. Next, we review, study, extend, and generalise a few existing, state-of-the-art MST-based partitioning schemes. This leads to some new noteworthy approaches. Overall, the Genie and the information-theoretic methods often outperform the non-MST algorithms such as K-means, Gaussian mixtures, spectral clustering, Birch, density-based, and classical hierarchical agglomerative procedures. Nevertheless, we identify that there is still some room for improvement, and thus the development of novel algorithms is encouraged.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# 絡み合った局所構造からの量子重力の経路積分式

A path integral formula of quantum gravity emergent from entangled local structures ( http://arxiv.org/abs/2304.10865v3 )

ライセンス: Link先を確認
Jinglong Liu, Stephon Alexander, Antonino Marciano, Roman Pasechnik, (参考訳) 群場理論(GFT)とは、多様体サイト間の絡み合いを符号化するスカラー場である。 スカラー場は、GFT作用から系のハミルトニアンを導出できるリレーショナルクロックを提供する。 ハミルトニアンを検査すると、創発重力の理論が生まれ、これはアシュテカールの一般相対性理論の定式化に従って再キャストできることを示す。 GFT観測器の進化は、ハミルトニアンによって生成されるシュレーディンガー方程式によって制御される。 これは、単純化されたリッチフローに対応する再正規化群(RG)フローを付与することで達成される。 量子化過程の結果として、ハミルトニアンは非エルミート的(英語版)に復元され、複雑なアクション形式主義(英語版)に関連付けられる。

We couple to group field theory (GFT) a scalar field that encodes the entanglement between manifold sites. The scalar field provides a relational clock that enables the derivation of the Hamiltonian of the system from the GFT action. Inspecting the Hamiltonian, we show that a theory of emergent gravity arises, and that this can be recast according to the Ashtekar's formulation of general relativity. The evolution of the GFT observables is regulated by the Shroedinger equation generated by the Hamiltonian. This is achieved by imposing a renormalization group (RG) flow that corresponds to a simplified Ricci flow. As a consequence of the quantization procedure, the Hamiltonian is recovered to be non-Hermitian, and can be related to the complex action formalism, in which the initial conditions and the related future evolution of the systems are dictated by the imaginary part of the action.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# O-RANのセキュリティの実装と評価 - インターフェース,インテリジェンス,プラットフォーム

Implementing and Evaluating Security in O-RAN: Interfaces, Intelligence, and Platforms ( http://arxiv.org/abs/2304.11125v3 )

ライセンス: Link先を確認
Joshua Groen, Salvatore DOro, Utku Demir, Leonardo Bonati, Michele Polese, Tommaso Melodia, Kaushik Chowdhury, (参考訳) Open Radio Access Network(RAN)は、クラウドベース、マルチベンダ、オープン、インテリジェントなアーキテクチャの上に構築され、5G以降の次世代の携帯電話ネットワークを形成するネットワークパラダイムである。 この新しいパラダイムには、ネットワークの可観測性と再構成性という面で多くの利点があるが、セルシステムの脅威面を必然的に拡張し、そのコンポーネントをいくつかのサイバー攻撃に晒し、O-RANネットワークをセキュアにする必要がある。 本稿では,O-RANアライアンスが提案する仕様とアーキテクチャに着目し,O-RANシステムのセキュリティ面について考察する。 我々は,O-RANシステムを全体的視点でセキュアにすることの課題に対処し,異なるO-RANコンポーネントを相互接続するオープンインターフェース,プラットフォーム全体,ネットワークの監視と制御に使用するインテリジェンスについて検討する。 各焦点領域において、脅威を特定し、これらの問題に対処するための関連するソリューションについて議論し、そのようなソリューションがO-RANシステムを選択されたサイバー攻撃に対して効果的に防御する方法を実験的に実証する。 本稿は、O-RANのセキュリティ面へのアプローチと、最先端のプログラマブルなO-RANプラットフォームで得られた実験的証拠に関する最初の研究であり、この分野の研究者にユニークなガイドラインを提供する。

The Open Radio Access Network (RAN) is a networking paradigm that builds on top of cloud-based, multi-vendor, open and intelligent architectures to shape the next generation of cellular networks for 5G and beyond. While this new paradigm comes with many advantages in terms of observatibility and reconfigurability of the network, it inevitably expands the threat surface of cellular systems and can potentially expose its components to several cyber attacks, thus making securing O-RAN networks a necessity. In this paper, we explore the security aspects of O-RAN systems by focusing on the specifications and architectures proposed by the O-RAN Alliance. We address the problem of securing O-RAN systems with a holistic perspective, including considerations on the open interfaces used to interconnect the different O-RAN components, on the overall platform, and on the intelligence used to monitor and control the network. For each focus area we identify threats, discuss relevant solutions to address these issues, and demonstrate experimentally how such solutions can effectively defend O-RAN systems against selected cyber attacks. This article is the first work in approaching the security aspect of O-RAN holistically and with experimental evidence obtained on a state-of-the-art programmable O-RAN platform, thus providing unique guideline for researchers in the field.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# シミュレーションベース推論における被覆保証者による変分推論

Variational Inference with Coverage Guarantees in Simulation-Based Inference ( http://arxiv.org/abs/2305.14275v3 )

ライセンス: Link先を確認
Yash Patel, Declan McNamara, Jackson Loper, Jeffrey Regier, Ambuj Tewari, (参考訳) Amortized variational inference はシミュレーションベースの推論においてしばしば用いられるフレームワークであり、新しい観測によって高速に計算できる後部近似を生成する。 残念なことに、これらの近似後部の品質に関する保証はほとんどない。 本稿では,CANVI(Conformalized Amortized Neural Variational Inference)を提案する。 候補補正後近似器の集合が与えられた場合、CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。 CANVIは、結果の予測器が、ユーザが特定した確率レベルで真実を含む領域を構築することを保証する。 CANVIは、候補近似器の定式化における設計上の決定に非依存であり、フォワードモデルからのサンプルへのアクセスのみを必要とするため、可能性のない設定での使用が可能である。 我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。 最後に、シミュレーションベース推論ベンチマークの一連のタスクと重要な科学的タスクである銀河放出スペクトルの分析において、CANVIの正確な校正と高い予測効率を示す。

Amortized variational inference is an often employed framework in simulation-based inference that produces a posterior approximation that can be rapidly computed given any new observation. Unfortunately, there are few guarantees about the quality of these approximate posteriors. We propose Conformalized Amortized Neural Variational Inference (CANVI), a procedure that is scalable, easily implemented, and provides guaranteed marginal coverage. Given a collection of candidate amortized posterior approximators, CANVI constructs conformalized predictors based on each candidate, compares the predictors using a metric known as predictive efficiency, and returns the most efficient predictor. CANVI ensures that the resulting predictor constructs regions that contain the truth with a user-specified level of probability. CANVI is agnostic to design decisions in formulating the candidate approximators and only requires access to samples from the forward model, permitting its use in likelihood-free settings. We prove lower bounds on the predictive efficiency of the regions produced by CANVI and explore how the quality of a posterior approximation relates to the predictive efficiency of prediction regions based on that approximation. Finally, we demonstrate the accurate calibration and high predictive efficiency of CANVI on a suite of simulation-based inference benchmark tasks and an important scientific task: analyzing galaxy emission spectra.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# ShiftAddViT:効率的な視覚変換器に向けた乗算プリミティブの混合

ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer ( http://arxiv.org/abs/2306.06446v6 )

ライセンス: Link先を確認
Haoran You, Huihong Shi, Yipin Guo, Yingyan Celine Lin, (参考訳) 視覚変換器(ViT)は印象的な性能を示し、複数の視覚タスクのための統一されたバックボーンとなっている。 しかし、ViTsの注意機構と多層パーセプトロン(MLPs)は、濃密な乗算のため、十分に効率が良くないため、コストのかかるトレーニングと推論に繋がる。 そこで本研究では,プリコンパイルプリミティブ,例えばビットワイズシフト,加算の混合による事前学習ViTの再パラメータ化を,スクラッチからトレーニングを必要とせず,GPU上でのエンドツーエンドの推論高速化を実現するために,$\textbf{ShiftAddViT}$と呼ばれる新しいタイプの乗算モデルに向けて提案する。 具体的には、クエリ、キー、値のすべての$\texttt{MatMuls}$は、ハミング空間のバイナリコードにクエリとキーをマッピングした後、追加のカーネルを使用して再パラメータ化される。 残りのMLPまたは線形層はシフトカーネルで再パラメータ化される。 我々はTVMを利用して、GPU上のハードウェアの実践的な展開のために、カスタマイズされたカーネルを実装し、最適化する。 このような注意再パラメータ化はモデル精度を維持しつつも,MLPに適用した場合の精度低下を必然的に招きかねない。 両世界のベストを尽くすために、我々はさらに、乗算またはプリミティブをエキスパートとして取り上げ、例えば、乗算とシフト、新しいレイテンシ対応のロードバランシング損失を設計することで、MDPを再パラメータ化するための、新たな専門家(MoE)フレームワークを提案する。 このような損失は、遅延に応じて異なる専門家に動的に入力トークンを割り当てるための一般的なルータのトレーニングに役立つ。 様々な2D/3Dトランスフォーマーベースの視覚タスクの広範囲な実験は、提案したShiftAddViTの有効性を一貫して検証し、GPUのレイテンシ低減に$\textbf{5.18$\times$}および$\textbf{42.9}$%の省エネを達成し、オリジナルまたは効率的なViTと同等の精度を維持しながら、最大で$\textbf{5.18$\times$}のレイテンシ削減を実現した。

Vision Transformers (ViTs) have shown impressive performance and have become a unified backbone for multiple vision tasks. However, both the attention mechanism and multi-layer perceptrons (MLPs) in ViTs are not sufficiently efficient due to dense multiplications, leading to costly training and inference. To this end, we propose to reparameterize pre-trained ViTs with a mixture of multiplication primitives, e.g., bitwise shifts and additions, towards a new type of multiplication-reduced model, dubbed $\textbf{ShiftAddViT}$, which aims to achieve end-to-end inference speedups on GPUs without requiring training from scratch. Specifically, all $\texttt{MatMuls}$ among queries, keys, and values are reparameterized using additive kernels, after mapping queries and keys to binary codes in Hamming space. The remaining MLPs or linear layers are then reparameterized with shift kernels. We utilize TVM to implement and optimize those customized kernels for practical hardware deployment on GPUs. We find that such a reparameterization on attention maintains model accuracy, while inevitably leading to accuracy drops when being applied to MLPs. To marry the best of both worlds, we further propose a new mixture of experts (MoE) framework to reparameterize MLPs by taking multiplication or its primitives as experts, e.g., multiplication and shift, and designing a new latency-aware load-balancing loss. Such a loss helps to train a generic router for assigning a dynamic amount of input tokens to different experts according to their latency. Extensive experiments on various 2D/3D Transformer-based vision tasks consistently validate the effectiveness of our proposed ShiftAddViT, achieving up to $\textbf{5.18$\times$}$ latency reductions on GPUs and $\textbf{42.9}$% energy savings, while maintaining a comparable accuracy as original or efficient ViTs.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# 画像を用いた癌予後予測のためのStyleGAN埋め込みによる深層学習

Deep Learning for Cancer Prognosis Prediction Using Portrait Photos by StyleGAN Embedding ( http://arxiv.org/abs/2306.14596v3 )

ライセンス: Link先を確認
Amr Hagag, Ahmed Gomaa, Dominik Kornek, Andreas Maier, Rainer Fietkau, Christoph Bert, Florian Putz, Yixing Huang, (参考訳) がん患者の生存予測は、最適な治療選択と患者管理に不可欠である。 現在の患者生存予測法は、典型的には患者の臨床記録データまたは生物学的および画像データから生存情報を抽出する。 実際に、経験豊富な臨床医は、主に顔の特徴である観察可能な身体的外観に基づいて、患者の健康状態の予備的な評価を行うことができる。 しかし、そのような評価は極めて主観的である。 本研究は, 生き残り予測のための深層学習を用いて, 従来の肖像画に含まれる予後情報を客観的に捕捉し, 利用することの有効性について検討した。 事前トレーニングされたStyleGAN2モデルは、がん患者の写真のカスタムデータセットに基づいて微調整され、患者の写真に合った生成能力でジェネレータを増強する。 StyleGAN2は、写真を非常に表現力のある潜伏空間に埋め込むために使用される。 最先端の生存分析モデルを利用し、StyleGANの潜在空間写真埋め込みに基づいて、このアプローチはCインデックスの0.677を達成した。 さらに、StyleGANの解釈可能な潜伏空間のおかげで、我々の生存予測モデルは、重要な顔の特徴に依存し、衣服や背景などの外部情報からのバイアスを排除できる。 さらに、患者のケアに重要な電位値を有する回帰係数から、健康属性を得る。

Survival prediction for cancer patients is critical for optimal treatment selection and patient management. Current patient survival prediction methods typically extract survival information from patients' clinical record data or biological and imaging data. In practice, experienced clinicians can have a preliminary assessment of patients' health status based on patients' observable physical appearances, which are mainly facial features. However, such assessment is highly subjective. In this work, the efficacy of objectively capturing and using prognostic information contained in conventional portrait photographs using deep learning for survival predication purposes is investigated for the first time. A pre-trained StyleGAN2 model is fine-tuned on a custom dataset of our cancer patients' photos to empower its generator with generative ability suitable for patients' photos. The StyleGAN2 is then used to embed the photographs to its highly expressive latent space. Utilizing the state-of-the-art survival analysis models and based on StyleGAN's latent space photo embeddings, this approach achieved a C-index of 0.677, which is notably higher than chance and evidencing the prognostic value embedded in simple 2D facial images. In addition, thanks to StyleGAN's interpretable latent space, our survival prediction model can be validated for relying on essential facial features, eliminating any biases from extraneous information like clothing or background. Moreover, a health attribute is obtained from regression coefficients, which has important potential value for patient care.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# LyricWhiz: ChatGPTへのWhisperingによるロバストな多言語ゼロショット歌詞の転写

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT ( http://arxiv.org/abs/2306.17103v4 )

ライセンス: Link先を確認
Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wei Xue, Yike Guo, (参考訳) LyricWhizは,岩や金属といった難易度の高いジャンルであっても,様々な歌詞の書き起こしデータセットに対して最先端のパフォーマンスを実現する,頑健で多言語的,ゼロショットの自動書き起こし方式である。 本稿では,弱教師付き頑健な音声認識モデルであるWhisperと,今日のチャットベース大規模言語モデルであるGPT-4を利用する。 提案手法では、Whisperは音声を変換して「耳」として機能し、GPT-4は「脳」として機能し、文脈化された出力選択と修正のための強力なパフォーマンスを持つアノテータとして機能する。 実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を著しく低減し,複数の言語で歌詞の書き起こしを効果的に行うことができることがわかった。 さらに,LyricWhiz を用いて,MTG-Jamendo に基づく CC-BY-NC-SA 著作権ライセンスによる,初めて公開された大規模多言語文字起こしデータセットを作成し,騒音レベルの推定と評価を行う。 提案手法とデータセットは,多言語による歌詞の書き起こし,難易度の高いタスクの開発を推し進めることが期待できる。

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# 多層両部ハードウェア効率Ansatz間の単一絡み合い接続アーキテクチャ

Single entanglement connection architecture between multi-layer bipartite Hardware Efficient Ansatz ( http://arxiv.org/abs/2307.12323v4 )

ライセンス: Link先を確認
Shikun Zhang, Zheng Qin, Yang Zhou, Rui Li, Chunxiao Du, Zhisong Xiao, (参考訳) 変分量子アルゴリズム(VQA)は、NISQ時代に量子アドバンテージを達成する最も有望なアルゴリズムの一つである。 このようなアルゴリズムを実装する上で重要な課題は、効果的なパラメータ化量子回路(アンザッツとも呼ばれる)を構築することである。 本研究では,その表現性,エンタングル能力,およびトレーサビリティのバランスをとることにより,両部ハードウェア効率の良いアンサツ(HEA)のための単一絡み接続アーキテクチャ(SECA)を提案する。 1次元ハイゼンベルクモデルと2次非拘束二元最適化(QUBO)問題を用いた数値シミュレーションを行った。 本結果から,SECAの計算性能はFECA(Common full entanglement connection architecture)よりも優れていることが示された。 さらに,SECAとゲートカット技術を組み合わせて分散量子計算(DQC)を構築することで,NISQデバイスのサイズを低オーバーヘッドで効率的に拡大することができる。 また,DQC方式の有効性と拡張性を実証した。 本研究は,実効トレーニング回路に付随する特性を理解する上で有用な指標である。

Variational quantum algorithms (VQAs) are among the most promising algorithms to achieve quantum advantages in the NISQ era. One important challenge in implementing such algorithms is to construct an effective parameterized quantum circuit (also called an ansatz). In this work, we propose a single entanglement connection architecture (SECA) for a bipartite hardware efficient ansatz (HEA) by balancing its expressibility, entangling capability, and trainability. Numerical simulations with a one-dimensional Heisenberg model and quadratic unconstrained binary optimization (QUBO) issues were conducted. Our results indicate the superiority of SECA over the common full entanglement connection architecture (FECA) in terms of computational performance. Furthermore, combining SECA with gate-cutting technology to construct distributed quantum computation (DQC) can efficiently expand the size of NISQ devices under low overhead. We also demonstrated the effectiveness and scalability of the DQC scheme. Our study is a useful indication for understanding the characteristics associated with an effective training circuit.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# 確率最適化のための量子スピードアップ

Quantum speedups for stochastic optimization ( http://arxiv.org/abs/2308.01582v2 )

ライセンス: Link先を確認
Aaron Sidford, Chenyi Zhang, (参考訳) 確率勾配オラクルへの量子アクセスを与えられた連続関数を最小化する問題を考える。 リプシッツ凸関数を最小化するための2つの新しい方法を提案する。 各手法は、古典的に証明不可能な次元対精度トレードオフを求め、低次元設定において1つの手法が漸近的に最適であることを証明した。 さらに、古典的に達成不可能な速度で滑らかな非凸関数の臨界点を計算するための量子アルゴリズムを提供する。 これらの結果を得るために、Cornelissen et al 2022の量子多変量平均推定結果の上に構築し、独立利息の一般的な量子分散低減技術を提供する。

We consider the problem of minimizing a continuous function given quantum access to a stochastic gradient oracle. We provide two new methods for the special case of minimizing a Lipschitz convex function. Each method obtains a dimension versus accuracy trade-off which is provably unachievable classically and we prove that one method is asymptotically optimal in low-dimensional settings. Additionally, we provide quantum algorithms for computing a critical point of a smooth non-convex function at rates not known to be achievable classically. To obtain these results we build upon the quantum multivariate mean estimation result of Cornelissen et al. 2022 and provide a general quantum-variance reduction technique of independent interest.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-25
# カテゴリー適応は、一般化された連続的なカテゴリー発見において、予想される蒸留と一致する

Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery ( http://arxiv.org/abs/2308.12112v4 )

ライセンス: Link先を確認
Grzegorz Rypeść, Daniel Marczak, Sebastian Cygert, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) Generalized Continual Category Discovery (GCCD)は、新しいカテゴリを明らかにしながら、シーケンシャルに到達し、部分的にラベル付けされたデータセットから学習に取り組む。 伝統的な方法は、古い知識を忘れないように特徴蒸留に依存する。 しかし、この戦略はモデルが適応し、新しいカテゴリを効果的に区別する能力を制限する。 そこで本研究では,学習可能なプロジェクタと特徴蒸留を統合し,過去の知識を犠牲にすることなくモデル適応性を向上する手法を提案する。 得られたカテゴリの分布シフトは、補助カテゴリ適応ネットワークにより緩和される。 CAMP(Category Adaptation Meets Projected distillation)と呼ばれる組み合わせは、各コンポーネントが個別に穏やかなメリットを提供する一方で、新しい情報学習と古い情報保持のバランスを大幅に改善することを示した。 CAMPは、いくつかのGCCDおよびクラスインクリメンタルラーニングシナリオで優れたパフォーマンスを示している。 コードはhttps://github.com/grypesc/CAMPで公開されている。

Generalized Continual Category Discovery (GCCD) tackles learning from sequentially arriving, partially labeled datasets while uncovering new categories. Traditional methods depend on feature distillation to prevent forgetting the old knowledge. However, this strategy restricts the model's ability to adapt and effectively distinguish new categories. To address this, we introduce a novel technique integrating a learnable projector with feature distillation, thus enhancing model adaptability without sacrificing past knowledge. The resulting distribution shift of the previously learned categories is mitigated with the auxiliary category adaptation network. We demonstrate that while each component offers modest benefits individually, their combination - dubbed CAMP (Category Adaptation Meets Projected distillation) - significantly improves the balance between learning new information and retaining old. CAMP exhibits superior performance across several GCCD and Class Incremental Learning scenarios. The code is available at https://github.com/grypesc/CAMP.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# Belebeleベンチマーク:122の言語変数における並列読み込みデータセット

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants ( http://arxiv.org/abs/2308.16884v2 )

ライセンス: Link先を確認
Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa, (参考訳) 本稿では,122言語にまたがるMultiple-choice Machine read comprehension (MRC)データセットについて述べる。 このデータセットは、自然言語理解(NLU)ベンチマークの言語カバレッジを著しく拡大し、高、中、低リソース言語におけるテキストモデルの評価を可能にする。 各質問はFlores-200データセットからの短いパスに基づいており、複数の回答が4つある。 質問は、言語理解のレベルが異なるモデル間で識別するために慎重に収集された。 英語のデータセット自体が、最先端の言語モデルに挑戦するのに十分な難しさを証明している。 このデータセットは完全に並列であるため、すべての言語でモデルパフォーマンスを直接比較することができる。 このデータセットを用いて、多言語マスキング言語モデル(MLM)と大規模言語モデル(LLM)の機能を評価する。 我々は、英語中心のLLMにおいて、言語間移動が著しいにもかかわらず、バランスの取れた多言語データに基づいて事前訓練されたより小さなMLMの方が、はるかに多くの言語を理解できることを発見した。 また,より大きい語彙サイズと意識的な語彙構成は,低リソース言語の性能と相関することを示した。 全体として、BelebeleはNLPシステムの多言語機能の評価と解析のための新しい道を開く。

We present Belebele, a multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants. Significantly expanding the language coverage of natural language understanding (NLU) benchmarks, this dataset enables the evaluation of text models in high-, medium-, and low-resource languages. Each question is based on a short passage from the Flores-200 dataset and has four multiple-choice answers. The questions were carefully curated to discriminate between models with different levels of general language comprehension. The English dataset on its own proves difficult enough to challenge state-of-the-art language models. Being fully parallel, this dataset enables direct comparison of model performance across all languages. We use this dataset to evaluate the capabilities of multilingual masked language models (MLMs) and large language models (LLMs). We present extensive results and find that despite significant cross-lingual transfer in English-centric LLMs, much smaller MLMs pretrained on balanced multilingual data still understand far more languages. We also observe that larger vocabulary size and conscious vocabulary construction correlate with better performance on low-resource languages. Overall, Belebele opens up new avenues for evaluating and analyzing the multilingual capabilities of NLP systems.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# 量子古典的フィードバックによる離散時間結晶の延長

Prolonging a discrete time crystal by quantum-classical feedback ( http://arxiv.org/abs/2309.02151v2 )

ライセンス: Link先を確認
Gonzalo Camacho, Benedikt Fauseweh, (参考訳) 時間結晶固有状態秩序を特徴とする量子物質の非平衡相は、近年、ノイズのある中間スケール量子(NISQ)デバイスで実現されている。 理想的な量子時間結晶は集合的なサブハーモニック振動を示し、時空間の長距離秩序は無限に持続するが、現在のNISQデバイスのデコヒーレンス時間はこれらの位相の生存に自然な制限を課し、それらの観測を浅い量子回路に制限する。 本稿では,システムのサブリージョンにおける量子古典的フィードバックプロトコルを活用して,デコヒーレンス時間を大幅に超える時間結晶信号を強化する時間周期スキームを提案する。 本研究は,多体局所化離散時間結晶相を1次元周期的に蹴り上げたイジングモデルで生かし,環境との非一貫性を考慮に入れた実験である。 量子回路実現の古典的なシミュレーションに基づいて、このアプローチは既存の量子ハードウェアの実装に適しており、現在のデジタル量子コンピュータの低深さ限界を超越する複雑な量子多体力学をシミュレートする先進的な経路を示す。

Nonequilibrium phases of quantum matter featuring time crystalline eigenstate order have been realized recently on noisy intermediate-scale quantum (NISQ) devices. While ideal quantum time crystals exhibit collective subharmonic oscillations and spatiotemporal long-range order persisting for infinite times, the decoherence time of current NISQ devices sets a natural limit to the survival of these phases, restricting their observation to a shallow quantum circuit. Here we propose a time-periodic scheme that leverages quantum-classical feedback protocols in subregions of the system to enhance a time crystal signal significantly exceeding the decoherence time of the device. As a case of study, we demonstrate the survival of the many-body localized discrete time crystal phase in the one-dimensional periodically kicked Ising model, accounting for decoherence of the system with an environment. Based on classical simulation of quantum circuit realizations we find that this approach is suitable for implementation on existing quantum hardware and presents a prospective path to simulate complex quantum many-body dynamics that transcend the low depth limit of current digital quantum computers.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# Spalart-Allmaras乱流モデルに対するロバストな実験データ同化

Robust experimental data assimilation for the Spalart-Allmaras turbulence model ( http://arxiv.org/abs/2309.06679v3 )

ライセンス: Link先を確認
Deepinder Jot Singh Aulakh, Xiang Yang, Romit Maulik, (参考訳) 本研究では,Reynolds-averaged Navier-Stokesソリューションに対するSpalart-Allmaras(SA)クロージャモデルを改善するために,計算モデルと実験データ融合の利用に焦点を当てた方法論を提案する。 特に, 乱流モデルの性能向上のために, スパース実験データを同化するだけでなく, 古典的なSAの挙動を復元することによって, 目に見えないケースの一般化を保った技術を開発することが目的である。 データ同化、すなわちEnsemble Kalman filtering approach(EnKF)を用いて、分離フローに対するSAモデルの係数をキャリブレーションする。 総論的なキャリブレーション戦略は, 生産, 拡散, 破壊条件のパラメータ化によって実現される。 このキャリブレーションは、速度プロファイル、皮膚摩擦、圧力係数の形で収集された実験データの同化に依存する。 後方向きステップ(BFS)の周囲の単一流れ状態からの観測データを用いたにもかかわらず、再検討されたSAモデルは、NASAの壁マウントハンプ(2D-WMH)や修正されたBFSなどの他の分離フローへの一般化を実証している。 テストした各流れに対する皮膚摩擦係数(C_f$)および圧力係数(C_p$)の量の重要な改善が観察される。 また, NACA-0012 翼や軸対称噴流 (ASJ) などの流れに対するSA能率の回復を図り, 個別に調整されたSA型ターゲット比流量場において, キャリブレーションされた生産期間が再循環域を改善するとともに, 回復域を改善することを実証した。

This study presents a methodology focusing on the use of computational model and experimental data fusion to improve the Spalart-Allmaras (SA) closure model for Reynolds-averaged Navier-Stokes solutions. In particular, our goal is to develop a technique that not only assimilates sparse experimental data to improve turbulence model performance, but also preserves generalization for unseen cases by recovering classical SA behavior. We achieve our goals using data assimilation, namely the Ensemble Kalman filtering approach (EnKF), to calibrate the coefficients of the SA model for separated flows. A holistic calibration strategy is implemented via the parameterization of the production, diffusion, and destruction terms. This calibration relies on the assimilation of experimental data collected in the form of velocity profiles, skin friction, and pressure coefficients. Despite using observational data from a single flow condition around a backward-facing step (BFS), the recalibrated SA model demonstrates generalization to other separated flows, including cases such as the 2D NASA wall mounted hump (2D-WMH) and modified BFS. Significant improvement is observed in the quantities of interest, i.e., skin friction coefficient ($C_f$) and pressure coefficient ($C_p$) for each flow tested. Finally, it is also demonstrated that the newly proposed model recovers SA proficiency for flows, such as a NACA-0012 airfoil and axisymmetric jet (ASJ), and that the individually calibrated terms in the SA model target specific flow-physics wherein the calibrated production term improves the re-circulation zone while destruction improves the recovery zone.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# 読解理解による大規模言語モデルのドメインへの適応

Adapting Large Language Models to Domains via Reading Comprehension ( http://arxiv.org/abs/2309.09530v4 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Furu Wei, (参考訳) ドメイン固有コーパスの事前学習が大規模言語モデルにどのように影響するかを探索し、生コーパスのトレーニングがドメイン知識を生かしたモデルを実現するが、質問応答の促進能力を大幅に損なうことを明らかにした。 読み書きによる人間の学習からインスピレーションを得る-学習知識に基づいて質問に答える能力を向上させる-本研究では、生コーパスを読解テキストに変換する簡単な方法を提案する。 各原文は、その内容に関連する一連のタスクで濃縮される。 本手法は,任意の事前学習コーパスに適用可能であり,バイオメディシン,ファイナンス,法則の3分野において,様々なタスクにまたがるパフォーマンスを継続的に向上させる。 特に、我々の7B言語モデルは、BloombergGPT-50Bのような非常に大きなスケールのドメイン固有モデルと競合する性能を実現しています。 さらに、一般ベンチマークにおいても、ドメイン固有の読解テキストがモデルの性能を向上させることを実証し、さらに多くのドメインにまたがる汎用モデルを開発する可能性を示す。 私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されています。

We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension--practice after reading improves the ability to answer questions based on the learned knowledge--we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model's performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data are available at https://github.com/microsoft/LMOps.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# SPOT: 学習可能な3次元表現のための操作予測によるスケーラブルな3次元事前学習

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations ( http://arxiv.org/abs/2309.10527v3 )

ライセンス: Link先を確認
Xiangchao Yan, Runjian Chen, Bo Zhang, Hancheng Ye, Renqiu Xia, Jiakang Yuan, Hongbin Zhou, Xinyu Cai, Botian Shi, Wenqi Shao, Ping Luo, Yu Qiao, Tao Chen, Junchi Yan, (参考訳) 認識タスクのために3D LiDARポイントクラウドを注釈付けすることは、例えば自動運転など多くのアプリケーションにとって基本的なことですが、依然として労働集約的です。 トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。 本稿では,SPOT,すなわち,ラベル効率のよい微調整パラダイムの下で,トランスファーブルな3次元表現を学習するために,Occupancy予測によるスケーラブルな事前学習を提案する。 SPOTは、さまざまなダウンストリームタスクを持つ公開データセットにおいて、その汎用的な表現力、クロスドメインの堅牢性、および実際のアプリケーションにとって重要な3つの要素であるデータのスケーラビリティを示す。 具体的には、我々は理論的にも経験的にも、一般表現の学習は、占有予測のタスクを通じて達成できることを初めて示す。 そこで我々は,異なるLiDARセンサとアノテーション手法によって生じる領域ギャップに対処するため,ビーム再サンプリング技術を開発した。 さらに、スケーラブルな事前トレーニング、すなわち、すべての実験におけるダウンストリームのパフォーマンスは、より多くの事前トレーニングデータで改善される。 さらに、そのような事前トレーニング戦略は、ラベルのないデータとも互換性が保たれている。 本研究の成果は,LiDARポイントの理解を促進し,LiDAR事前トレーニングの今後の進歩への道を開くことを願っている。

Annotating 3D LiDAR point clouds for perception tasks is fundamental for many applications e.g., autonomous driving, yet it still remains notoriously labor-intensive. Pretraining-finetuning approach can alleviate the labeling burden by fine-tuning a pre-trained backbone across various downstream datasets as well as tasks. In this paper, we propose SPOT, namely Scalable Pre-training via Occupancy prediction for learning Transferable 3D representations under such a label-efficient fine-tuning paradigm. SPOT achieves effectiveness on various public datasets with different downstream tasks, showcasing its general representation power, cross-domain robustness and data scalability which are three key factors for real-world application. Specifically, we both theoretically and empirically show, for the first time, that general representations learning can be achieved through the task of occupancy prediction. Then, to address the domain gap caused by different LiDAR sensors and annotation methods, we develop a beam re-sampling technique for point cloud augmentation combined with class-balancing strategy. Furthermore, scalable pre-training is observed, that is, the downstream performance across all the experiments gets better with more pre-training data. Additionally, such pre-training strategy also remains compatible with unlabeled data. The hope is that our findings will facilitate the understanding of LiDAR points and pave the way for future advancements in LiDAR pre-training.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# ハイパースペクトル画像分類のためのアテンションゲート調整によるブリジングセンサギャップ

Bridging Sensor Gaps via Attention Gated Tuning for Hyperspectral Image Classification ( http://arxiv.org/abs/2309.12865v3 )

ライセンス: Link先を確認
Xizhe Xue, Haokui Zhang, Zongwen Bai, Ying Li, (参考訳) データハングリーなHSI分類法は高品質なラベル付きHSIを必要とするが、しばしば入手するのにコストがかかる。 この特徴は、限られたアノテーション付きサンプルを扱う際に、データ駆動メソッドのパフォーマンス可能性を制限する。 異なるセンサーから取得したデータ間の領域ギャップを埋めることで、センサー間でのラベル付きデータの豊富な利用によって、このボトルネックを突破することができる。 本稿では,この問題を解決するために,新しいAttention-Gated Tuning(AGT)戦略と三重構造トランスモデルTri-Formerを提案する。 AGT戦略はブリッジとして機能し、既存のラベル付きHSIデータセット、さらにはRGBデータセットを利用して、限られたサンプルを持つ新しいHSIデータセットのパフォーマンスを向上させることができます。 基本モデルに追加パラメータを追加する代わりに、中間機能を基本モデルからの入力として取り出し、予測を行う軽量補助ブランチを訓練する。 提案したAGTは、乱れ情報を抑制し、ソフトゲートを介して有用な情報を強化することにより、異種データとクロスモーダルデータの衝突を解消する。 さらに、パラメータ利用率と計算効率を向上させるスペクトル空間分離設計のトリプルト構造変換器であるTri-Formerを導入し、より簡単かつ柔軟な微調整を可能にした。 異なるセンサによってキャプチャされた3つの代表的HSIデータセットの比較実験により、提案したTri-Formerは、いくつかの最先端手法よりも優れた性能を示す。 ホモロジー,異種およびクロスモーダルなチューニング実験により提案したAGTの有効性が検証された。 コードは以下の通りである。 \href{https://github.com/Cecilia-xue/AGT}{https://github.com/Cecilia-xue/AGT}。

Data-hungry HSI classification methods require high-quality labeled HSIs, which are often costly to obtain. This characteristic limits the performance potential of data-driven methods when dealing with limited annotated samples. Bridging the domain gap between data acquired from different sensors allows us to utilize abundant labeled data across sensors to break this bottleneck. In this paper, we propose a novel Attention-Gated Tuning (AGT) strategy and a triplet-structured transformer model, Tri-Former, to address this issue. The AGT strategy serves as a bridge, allowing us to leverage existing labeled HSI datasets, even RGB datasets to enhance the performance on new HSI datasets with limited samples. Instead of inserting additional parameters inside the basic model, we train a lightweight auxiliary branch that takes intermediate features as input from the basic model and makes predictions. The proposed AGT resolves conflicts between heterogeneous and even cross-modal data by suppressing the disturbing information and enhances the useful information through a soft gate. Additionally, we introduce Tri-Former, a triplet-structured transformer with a spectral-spatial separation design that enhances parameter utilization and computational efficiency, enabling easier and flexible fine-tuning. Comparison experiments conducted on three representative HSI datasets captured by different sensors demonstrate the proposed Tri-Former achieves better performance compared to several state-of-the-art methods. Homologous, heterologous and cross-modal tuning experiments verified the effectiveness of the proposed AGT. Code has been released at: \href{https://github.com/Cecilia-xue/AGT}{https://github.com/Cecilia-xue/AGT}.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# Brand Network Booster:ブランド接続性を改善する新システム

Brand Network Booster: A new system for improving brand connectivity ( http://arxiv.org/abs/2309.16228v2 )

ライセンス: Link先を確認
J. Cancellieri, W. Didimo, A. Fronzetti Colladon, F. Montecchiani, R. Vestrelli, (参考訳) 本稿では、ブランドイメージのより深い探索と接続性向上のための洞察を提供する、セマンティックネットワークの詳細な分析のための新しい意思決定支援システムを提案する。 ネットワーク分析の観点では、敵ノード, 制約付き予算, 重み付きネットワークを考慮し、リンクの追加や既存の接続の重み付けによって接続性の向上を図ることを含む、最大相互性改善問題の拡張版を解くことにより、この目標が達成されることを示す。 私たちのコントリビューションには、新しいアルゴリズムフレームワークと、ブランド接続評価と改善をサポートするBrand Network Booster(BNB)と呼ばれるソフトウェアシステムへのこのフレームワークの統合が含まれています。 本稿では,本システムと3つのケーススタディについて述べるとともに,その性能についても考察する。 当社のツールとアプローチは,ネットワーク学者にも,さまざまな分野にわたるマーケティングやコミュニケーションマネージャのための戦略的意思決定プロセスの促進にも有用です。

This paper presents a new decision support system offered for an in-depth analysis of semantic networks, which can provide insights for a better exploration of a brand's image and the improvement of its connectivity. In terms of network analysis, we show that this goal is achieved by solving an extended version of the Maximum Betweenness Improvement problem, which includes the possibility of considering adversarial nodes, constrained budgets, and weighted networks - where connectivity improvement can be obtained by adding links or increasing the weight of existing connections. Our contribution includes a new algorithmic framework and the integration of this framework into a software system called Brand Network Booster (BNB), which supports brand connectivity evaluation and improvement. We present this new system together with three case studies, and we also discuss its performance. Our tool and approach are valuable to both network scholars and in facilitating strategic decision-making processes for marketing and communication managers across various sectors, be it public or private.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# 傾斜機能材料の付加的製造のための機械学習手法のレビュー

Review of Machine Learning Methods for Additive Manufacturing of Functionally Graded Materials ( http://arxiv.org/abs/2309.16571v2 )

ライセンス: Link先を確認
Mohammad Karimzadeh, Deekshith Basvoju, Aleksandar Vakanski, Indrajit Charit, Fei Xu, Xinchang Zhang, (参考訳) アダプティブ・マニュファクチャリング (AM) は、3次元モデリングデータから複合部品層間を直接製造できるトランスフォーメーション・マニュファクチャリング技術である。 AMアプリケーションの中でFGM(Functional Graded Materials)の製造は、いくつかの産業で部品性能が向上する可能性から重要である。 FGMは異種材料間の勾配組成遷移によって製造され、位置依存の機械的・物理的特性を持つ新しい材料の設計を可能にする。 本研究では、機械学習技術(ML)のAMにおける実装に関する文献の総合的なレビューを行い、FGMの製造プロセスを最適化するMLベースの手法に焦点を当てた。 本稿では,FGMの製作における固有の課題に対処する上でMLが果たす役割について概説し,パラメータ最適化,欠陥検出,リアルタイムモニタリングなどについて述べる。 この記事では、FGMのAM製造にMLベースの手法を採用する際の今後の研究の方向性と課題についても論じる。

Additive Manufacturing (AM) is a transformative manufacturing technology enabling direct fabrication of complex parts layer-be-layer from 3D modeling data. Among AM applications, the fabrication of Functionally Graded Materials (FGMs) has significant importance due to the potential to enhance component performance across several industries. FGMs are manufactured with a gradient composition transition between dissimilar materials, enabling the design of new materials with location-dependent mechanical and physical properties. This study presents a comprehensive review of published literature pertaining to the implementation of Machine Learning (ML) techniques in AM, with an emphasis on ML-based methods for optimizing FGMs fabrication processes. Through an extensive survey of the literature, this review article explores the role of ML in addressing the inherent challenges in FGMs fabrication and encompasses parameter optimization, defect detection, and real-time monitoring. The article also provides a discussion of future research directions and challenges in employing ML-based methods in AM fabrication of FGMs.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# 点PEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v7 )

ライセンス: Link先を確認
Yiwen Tang, Ray Zhang, Zoey Guo, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li, (参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。 下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。 しかし,3次元事前学習モデルのPEFT法はまだ未検討である。 そこで本研究では,学習可能な最小限のパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。 具体的には、事前学習された3Dモデルに対して、パラメータのほとんどを凍結し、新たに追加されたPEFTモジュールを下流タスクで調整する。 Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。 Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。 実験結果から, 学習パラメータの5%しか使用せず, 各種下流タスクの完全微調整よりも優れた性能を達成できることが示唆された。 コードはhttps://github.com/Ivan-Tang-3D/Point-PEFTで公開されている。

The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code is released at https://github.com/Ivan-Tang-3D/Point-PEFT.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# HarmonicNeRF: Geometry-Informed Synthetic View Augmentation for 3D Scene Reconstruction in Driving Scenarios

HarmonicNeRF: Geometry-Informed Synthetic View Augmentation for 3D Scene Reconstruction in Driving Scenarios ( http://arxiv.org/abs/2310.05483v5 )

ライセンス: Link先を確認
Xiaochao Pan, Jiawei Yao, Hongrui Kou, Tong Wu, Canran Xiao, (参考訳) 自動運転の分野では、運転環境の正確な3次元再構築を実現することが安全性と効果的なナビゲーションの確保に不可欠である。 Neural Radiance Fields (NeRF)は複雑な環境の高精度で正確なモデルを作成することを約束している。 しかし、自律走行シナリオにおけるNeRFの適用は、主にカメラ軌跡に固有の視点の広さと、通常所定の経路に沿って発生する非有界屋外シーンにおけるデータ収集の制約により、いくつかの課題に直面する。 この制限は、利用可能なシーン情報を減らすだけでなく、スパースとパス分散観測データによってシーンの幾何学が過小評価されるため、NeRFトレーニングに重大な課題をもたらす。 本稿では,屋外の自己監督型単分子シーン再構築のための新しいアプローチであるHarmonicNeRFを紹介する。 HarmonicNeRFは、NeRFの強度を活かし、幾何学的インフォームド合成ビューで入力空間を拡大することで表面再構成の精度を高める。 これは球面調和を利用して新しい放射率値を生成し、利用可能な実世界の限られた視点からの色観測を慎重に検討することで達成される。 さらに,従来のイメージワープ手法の限界を回避し,自律走行環境に典型的な疎らなデータ条件でしばしば失敗するレージアンス擬似ラベルを生成することによって,隠蔽を効果的に管理するためのプロキシ・ジオメトリが組み込まれている。 KITTI,Argoverse,NuScenesのデータセットを用いた大規模な実験により,新しい深度ビューの合成とシーンの再構築のための新しいベンチマークが確立され,既存の手法を著しく上回る結果が得られた。 プロジェクトページ:https://github.com/Jiawei-Yao0812/HarmonicNeRF

In the realm of autonomous driving, achieving precise 3D reconstruction of the driving environment is critical for ensuring safety and effective navigation. Neural Radiance Fields (NeRF) have shown promise in creating highly detailed and accurate models of complex environments. However, the application of NeRF in autonomous driving scenarios encounters several challenges, primarily due to the sparsity of viewpoints inherent in camera trajectories and the constraints on data collection in unbounded outdoor scenes, which typically occur along predetermined paths. This limitation not only reduces the available scene information but also poses significant challenges for NeRF training, as the sparse and path-distributed observational data leads to under-representation of the scene's geometry. In this paper, we introduce HarmonicNeRF, a novel approach for outdoor self-supervised monocular scene reconstruction. HarmonicNeRF capitalizes on the strengths of NeRF and enhances surface reconstruction accuracy by augmenting the input space with geometry-informed synthetic views. This is achieved through the application of spherical harmonics to generate novel radiance values, taking into careful consideration the color observations from the limited available real-world views. Additionally, our method incorporates proxy geometry to effectively manage occlusion, generating radiance pseudo-labels that circumvent the limitations of traditional image-warping techniques, which often fail in sparse data conditions typical of autonomous driving environments. Extensive experiments conducted on the KITTI, Argoverse, and NuScenes datasets demonstrate our approach establishes new benchmarks in synthesizing novel depth views and reconstructing scenes, significantly outperforming existing methods. Project page: https://github.com/Jiawei-Yao0812/HarmonicNeRF
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# QE-BEV:潜伏した状況下での鳥の視線オブジェクト検出のためのクエリ進化

QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied Contexts ( http://arxiv.org/abs/2310.05989v3 )

ライセンス: Link先を確認
Jiawei Yao, Yingxin Lai, Hongrui Kou, Tong Wu, Ruixi Liu, (参考訳) 3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を担い、バードアイビュー(Bird's Eye View, BEV)の画像の正確な解釈を要求する。 実世界の環境のダイナミックな性質は、これらのシーンに存在する複雑な時空間関係を適応的にキャプチャし処理するために、3次元オブジェクト検出に動的クエリ機構を使う必要がある。 しかしながら、動的クエリの以前の実装は、特に時間的情報を計算的に効率的に統合することに関して、これらの関係を効果的に活用することの難しさに直面していることが多い。 この制限に対処するため、動的クエリ進化戦略を利用したフレームワークを導入し、K平均クラスタリングとTop-Kアテンション機構を改良した時空間データ処理に適用する。 BEV空間を動的にセグメンテーションし、Top-Kによる重要な特徴の優先順位付けを行うことで、我々のモデルは、関連するシーン要素をリアルタイムに集中的に分析する。 nuScenesとWaymoデータセットに関する広範な評価では、検出精度が大幅に向上し、クエリベースのBEVオブジェクト検出の領域に新たなベンチマークが設定された。 我々の動的クエリ進化戦略は、適応性と計算効率を向上した現行のBEV手法の境界を推し進める可能性がある。 プロジェクトページ:https://github.com/Jiawei-Yao0812/QE-BEV

3D object detection plays a pivotal role in autonomous driving and robotics, demanding precise interpretation of Bird's Eye View (BEV) images. The dynamic nature of real-world environments necessitates the use of dynamic query mechanisms in 3D object detection to adaptively capture and process the complex spatio-temporal relationships present in these scenes. However, prior implementations of dynamic queries have often faced difficulties in effectively leveraging these relationships, particularly when it comes to integrating temporal information in a computationally efficient manner. Addressing this limitation, we introduce a framework utilizing dynamic query evolution strategy, harnesses K-means clustering and Top-K attention mechanisms for refined spatio-temporal data processing. By dynamically segmenting the BEV space and prioritizing key features through Top-K attention, our model achieves a real-time, focused analysis of pertinent scene elements. Our extensive evaluation on the nuScenes and Waymo dataset showcases a marked improvement in detection accuracy, setting a new benchmark in the domain of query-based BEV object detection. Our dynamic query evolution strategy has the potential to push the boundaries of current BEV methods with enhanced adaptability and computational efficiency. Project page: https://github.com/Jiawei-Yao0812/QE-BEV
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# ボロノイ分割に基づくワッサーシュタイン近似スキーム

Wasserstein approximation schemes based on Voronoi partitions ( http://arxiv.org/abs/2310.09149v2 )

ライセンス: Link先を確認
Keaton Hamm, Varun Khurana, (参考訳) ワッサーシュタイン空間 $\mathrm{W}_p(\mathbb{R}^d)$ for $p\in[1,\infty)$ における測度の構造化近似を考える。 フルランク格子 $\Lambda$ が $h\in(0,1]$ の係数でスケールされると、$h\Lambda$ の Voronoi 分割に基づく測度の近似は $d$ や $p$ に関わらず$O(h)$ となる。 次に、コンパクトに支持された測度に対する$N$の長期近似が$O(N^{-\frac1d})$であることを示し、ほとんどの場合、最適量化器の既知の速度と経験的測度近似とを一致させる。 さらに,この構成を不均一なボロノイ分割に一般化し,様々な測度近似シナリオに対するアプローチの柔軟性と堅牢性を強調した。 最後に、これらの結果を十分な減衰を伴う非コンパクトな対応尺度に拡張する。 我々の発見は、画像などの構造化データを表現するために、コンピュータビジョンや機械学習の応用に関係している。

We consider structured approximation of measures in Wasserstein space $\mathrm{W}_p(\mathbb{R}^d)$ for $p\in[1,\infty)$ using general measure approximants compactly supported on Voronoi regions derived from a scaled Voronoi partition of $\mathbb{R}^d$. We show that if a full rank lattice $\Lambda$ is scaled by a factor of $h\in(0,1]$, then approximation of a measure based on the Voronoi partition of $h\Lambda$ is $O(h)$ regardless of $d$ or $p$. We then use a covering argument to show that $N$-term approximations of compactly supported measures is $O(N^{-\frac1d})$ which matches known rates for optimal quantizers and empirical measure approximation in most instances. Additionally, we generalize our construction to nonuniform Voronoi partitions, highlighting the flexibility and robustness of our approach for various measure approximation scenarios. Finally, we extend these results to noncompactly supported measures with sufficient decay. Our findings are pertinent to applications in computer vision and machine learning where measures are used to represent structured data such as images.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# 最適一局所仮想量子放送

Optimal unilocal virtual quantum broadcasting ( http://arxiv.org/abs/2310.15156v3 )

ライセンス: Link先を確認
Hongshun Yao, Xia Liu, Chengkai Zhu, Xin Wang, (参考訳) 量子放送は量子情報処理の中心であり、量子状態内の相関を特徴付ける。 それでも、伝統的な量子放送は、量子力学の原理によって規定される固有の制限に遭遇する。 以前の研究では、Parzygnat et al (Phys. Rev. Lett. 132, 110203 (2024)) は、仮想過程を通じて量子放送定理を超える正準放送量子マップを導入した。 本研究では,仮想放送の概念を,参照システムを導入し,物理演算を用いて最小限のコストで近似可能なプロトコルを導入することにより,一元的放送に一般化する。 まず、観測可能な任意の期待値にエンコードされたターゲットバイパーティイト状態の相関関係を複数のパーティで共有できる普遍的一元的プロトコルを提案する。 第2に、仮想量子放送プロトコルのシミュレーションコストを半定値プログラミング問題に形式化する。 特に,2ブロードキャストシナリオに対して最適なシミュレーションコストを持つ特定のプロトコルを提案し,シミュレーションコストと量子システムの次元との明確な関係を明らかにする。 さらに,仮想$n$-ブロードキャスティングプロトコルのシミュレーションコストの上限値と下限値を確立し,量子系の次元が大きくなるにつれて下限値が上限値に収束することを示す。

Quantum broadcasting is central to quantum information processing and characterizes the correlations within quantum states. Nonetheless, traditional quantum broadcasting encounters inherent limitations dictated by the principles of quantum mechanics. In a previous study, Parzygnat et al. [Phys. Rev. Lett. 132, 110203 (2024)] introduced a canonical broadcasting quantum map that goes beyond the quantum no-broadcasting theorem through a virtual process. In this work, we generalize the concept of virtual broadcasting to unilocal broadcasting by incorporating a reference system and introduce protocols that can be approximated using physical operations with minimal cost. First, we propose a universal unilocal protocol enabling multiple parties to share the correlations of a target bipartite state, which is encoded in the expectation value for any observable. Second, we formalize the simulation cost of a virtual quantum broadcasting protocol into a semidefinite programming problem. Notably, we propose a specific protocol with optimal simulation cost for the 2-broadcasting scenario, revealing an explicit relationship between simulation cost and the quantum system's dimension. Moreover, we establish upper and lower bounds on the simulation cost of the virtual $n$-broadcasting protocol and demonstrate the convergence of the lower bound to the upper bound as the quantum system's dimension increases.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-25
# テンソルネットワークによる連続データ生成学習

Generative Learning of Continuous Data by Tensor Networks ( http://arxiv.org/abs/2310.20498v2 )

ライセンス: Link先を確認
Alex Meiburg, Jing Chen, Jacob Miller, Raphaëlle Tihon, Guillaume Rabusseau, Alejandro Perdomo-Ortiz, (参考訳) テンソルネットワークは、多体量子システムのモデリングに起源を持つだけでなく、機械学習、特に教師なし生成学習において、機械学習問題を解決するための有望なモデルのクラスとして登場した。 量子にインスパイアされた性質から多くの望ましい特徴を持っているが、テンソルネットワーク生成モデルは以前はバイナリデータやカテゴリデータに大きく制限されており、実世界のモデリング問題においてその有用性を制限してきた。 連続確率変数を含む分布から学習可能な連続データのためのテンソルネットワーク生成モデルの新たなファミリを導入することでこれを克服する。 まず、このモデル族が任意の精度で合理的に滑らかな確率密度関数を近似する能力を証明した普遍的表現性定理を導出した。 次に、このモデルの性能をいくつかの合成および実世界のデータセットでベンチマークし、連続変数と離散変数の分布についてモデルを学習し、一般化することを発見した。 我々は、異なるデータ領域をモデル化する手法を開発し、限られたメモリや計算資源を与えられたモデル性能を向上させることができる訓練可能な圧縮層を導入する。 全体として、本手法は、急速に成長する生成学習分野に対する量子インスピレーション法の有効性に関する重要な理論的および実証的な証拠を与える。

Beyond their origin in modeling many-body quantum systems, tensor networks have emerged as a promising class of models for solving machine learning problems, notably in unsupervised generative learning. While possessing many desirable features arising from their quantum-inspired nature, tensor network generative models have previously been largely restricted to binary or categorical data, limiting their utility in real-world modeling problems. We overcome this by introducing a new family of tensor network generative models for continuous data, which are capable of learning from distributions containing continuous random variables. We develop our method in the setting of matrix product states, first deriving a universal expressivity theorem proving the ability of this model family to approximate any reasonably smooth probability density function with arbitrary precision. We then benchmark the performance of this model on several synthetic and real-world datasets, finding that the model learns and generalizes well on distributions of continuous and discrete variables. We develop methods for modeling different data domains, and introduce a trainable compression layer which is found to increase model performance given limited memory or computational resources. Overall, our methods give important theoretical and empirical evidence of the efficacy of quantum-inspired methods for the rapidly growing field of generative learning.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# ホットシステム間の論理ゲートを用いた量子計算

Quantum computation with logical gates between hot systems ( http://arxiv.org/abs/2311.06588v2 )

ライセンス: Link先を確認
Ferran Riera-Sàbat, Pavel Sekatski, Wolfgang Dür, (参考訳) 量子コンピュータアーキテクチャでは、相互作用が機械的基底状態にないホットキュービット間で媒介される。 このような状況は、理想的には冷却しない場合や、イオンや原子を移動させるときに起こる。 論理的に符号化されたシステム間で量子ゲートを導入し、これらのゲートがこのような不完全性に対して弾力性を持つことを示す。 このようにして、論理系を拡大することでゲートの忠実度を向上し、未知の位置や関連する粒子の位置ゆらぎの影響に対処できることを実証する。 確率分布における位置の古典的処理と、機械的固有値を用いた量子処理の両方を考慮する。 2つのホットシステム間の相互作用を仲介するクールな論理システムや、位置が一括的にあるいは個別に変動するホット物理システムからなる2つの論理システムを含む異なる設定を解析する。 いずれの場合も、熱雑音を緩和するためのプラットフォームに依存しないツールを提供するゲート忠実度を大幅に改善することを示す。

We consider quantum computer architectures where interactions are mediated between hot qubits that are not in their mechanical ground state. Such situations occur, e.g., when not cooling ideally, or when moving ions or atoms around. We introduce quantum gates between logically encoded systems that consist of multiple physical ones and show how the encoding can be used to make these gates resilient against such imperfections. We demonstrate that, in this way, one can improve gate fidelities by enlarging the logical system, and counteract the effect of unknown positions or position fluctuations of involved particles. We consider both a classical treatment of positions in terms of probability distributions, as well a quantum treatment using mechanical eigenmodes. We analyze different settings including a cool logical system mediating interactions between two hot systems, as well as two logical systems consisting of hot physical systems whose positions fluctuate collectively or individually. In all cases, we demonstrate a significant improvement of gate fidelities, which provides a platform-independent tool to mitigate thermal noise.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# ヘイト音声検出のためのテキストの正規化

Automatic Textual Normalization for Hate Speech Detection ( http://arxiv.org/abs/2311.06851v4 )

ライセンス: Link先を確認
Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Nguyet Thi Nguyen, Khanh Thanh-Duy Ho, Kiet Van Nguyen, (参考訳) ソーシャルメディアデータは研究にとって貴重な資源であるが、幅広い非標準語(NSW)を含んでいる。 これらの不規則さは、NLPツールの効果的な操作を妨げる。 ベトナム語における現在の最先端の手法は、この問題を語彙正規化の問題として扱い、手動ルールの作成や、複雑なルールを構築するための広範囲な努力を必要とする多段階のディープラーニングフレームワークの実装を含む。 対照的に、我々のアプローチは単純であり、Seq2Seq(Seq2Seq)モデルのみを用いる。 本研究では,2,181人の注釈付きコメントと0.9014のアノテーション間合意からなるテキスト正規化のためのデータセットを提供する。 テキスト正規化にSeq2Seqモデルを応用することにより,得られた精度が70%以下に低下することを明らかにする。 それでもテキスト正規化は、Hate Speech Detection (HSD)タスクの精度を約2%向上させ、複雑なNLPタスクのパフォーマンスを向上させる可能性を示している。 私たちのデータセットは研究目的で利用できます。

Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# 蒸留言語モデルにおける容量ギャップの法則に向けて

Towards the Law of Capacity Gap in Distilling Language Models ( http://arxiv.org/abs/2311.07052v3 )

ライセンス: Link先を確認
Chen Zhang, Dawei Song, Zheyu Ye, Yan Gao, (参考訳) 言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。 蒸留の有効性を最大化するために様々な方法が提案されているが、特に教師と学生のLMの間にかなりの容量差がある場合、大きな課題が続いている。 この問題は、しばしばキャパシティギャップの「textit{curse}」と呼ばれ、より大きな教師が、より小さな教師から蒸留されたものよりも優れた生徒をもたらすとは限らないことを示唆している。 言い換えれば、教師のスケーリングコースに沿って、最高の生徒を得られる最適な教師がいる可能性が高い。 しかし、以前の研究で示されているように、計算オーバーヘッドが顕著でなければキャパシティギャップの呪いに対処できない。 大規模LM(LLMs)の文脈では、計算オーバーヘッドの少ない最適教師の生徒から期待される生徒を抽出することは不可能な三角形であるため、これまで実現可能であったアプローチは、はるかに意味をなさない。 幸いなことに、不可能な三角形は、キャパシティギャップのインダクテッド \textit{law} が与えられると幸運にも可能である。 本稿では,法則のスケーリングの精神を考察し,教師の最適スケールが,様々なモデルアーキテクチャやデータスケールにまたがる学生のスケールにほぼ一貫した線形スケールに従うことを明らかにする。 この法則は後に LLaMA2-7B から 3B の学生 LM (termed \textsc{MiniMA}) を除去するように導かれる。 \textsc{MiniMA} は幅広い 3B の競合より優れており、いくつかの 7B モデルと競合することも可能である。

Language model (LM) distillation is a trending area that aims to distil the knowledge residing in a large teacher LM to a small student one. While various methods have been proposed to maximize the effectiveness of the distillation, significant challenges persist, particularly when there is a substantial capacity gap between the teacher and student LMs. This issue, often referred to as the \textit{curse} of capacity gap, suggests that a larger teacher does not necessarily result in a superior student compared to one distilled from a smaller teacher. In other words, there is likely an optimal teacher yielding the best student along the scaling course of the teacher. However, the curse of capacity gap can not be tackled without notable compute overhead, as indicated in previous studies. In the context of large LMs (LLMs), previously viable approaches become much less meaningful, as it is an impossible triangle to distill an expected student from an optimal teacher student with small compute overhead. Fortunately, the impossible triangle can fortunately be possible provided an inducted \textit{law} of capacity gap. In this paper, we take the spirits of scaling law and reveal that the optimal teacher scale almost consistently follows a linear scaling with the student scale across different model architectures and data scales. The law later guides us to distil a 3B student LM (termed \textsc{MiniMA}) from LLaMA2-7B. \textsc{MiniMA} is demonstrated to outperform a wide range of 3B competitors and could even compete with several 7B models.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# より実践的なグループアクティビティ検出に向けて:新しいベンチマークとモデル

Towards More Practical Group Activity Detection: A New Benchmark and Model ( http://arxiv.org/abs/2312.02878v2 )

ライセンス: Link先を確認
Dongkeun Kim, Youngkil Song, Minsu Cho, Suha Kwak, (参考訳) グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。 GADは近年研究されているが、実用的なGADシナリオに対処する能力に制限があるため、データセットと方法論の両方の改善の余地は依然としてたくさんある。 これらの問題を解決するために、我々はまずCaf\'eと呼ばれる新しいデータセットを提示する。 既存のデータセットとは異なり、Caf\'eは主にGAD用に構築されており、より実用的なシナリオとメトリクスを提供し、大規模でリッチなアノテーションを提供する。 データセットとともに、未知数のグループと潜伏したグループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。 Caf\'eを含む3つのデータセットでモデルを評価したところ、精度と推論速度の両面で従来の作業よりも優れていた。

Group activity detection (GAD) is the task of identifying members of each group and classifying the activity of the group at the same time in a video. While GAD has been studied recently, there is still much room for improvement in both dataset and methodology due to their limited capability to address practical GAD scenarios. To resolve these issues, we first present a new dataset, dubbed Caf\'e. Unlike existing datasets, Caf\'e is constructed primarily for GAD and presents more practical scenarios and metrics, as well as being large-scale and providing rich annotations. Along with the dataset, we propose a new GAD model that deals with an unknown number of groups and latent group members efficiently and effectively. We evaluated our model on three datasets including Caf\'e, where it outperformed previous work in terms of both accuracy and inference speed.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# Dr. JekyllとMr. Hyde: LLMの2つの顔

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs ( http://arxiv.org/abs/2312.03853v4 )

ライセンス: Link先を確認
Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek, (参考訳) 最近、チャットボットアシスタントのようなアプリケーションで、LLM(Large Language Models)の使用が増加しているのを目撃しました。 これらのアシスタントからの不適切な応答を防止するため、安全機構と特別な訓練手順が実施されている。 本研究では,ChatGPTとGemini(ある程度はBingチャット)のこれらの対策を回避し,忠実なアシスタントと整合しない人格特性を持つ複雑なペルソナを具体化する。 まず、これらのペルソナの精巧な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。 会話は、禁止された応答を引き出すロールプレイスタイルに従う。 ペルソナを用いて、禁止された応答が実際に提供され、不正、違法、有害な情報を得ることができることを示す。 この研究は、敵対的なペルソナを使用することで、ChatGPTとGeminiによって設定された安全メカニズムを克服できることを示している。 また、このような敵対的ペルソナを活性化する方法をいくつか導入し、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示す。 同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。

Recently, we have witnessed a rise in the use of Large Language Models (LLMs), especially in applications like chatbot assistants. Safety mechanisms and specialized training procedures are implemented to prevent improper responses from these assistants. In this work, we bypass these measures for ChatGPT and Gemini (and, to some extent, Bing chat) by making them impersonate complex personas with personality characteristics that are not aligned with a truthful assistant. We start by creating elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversations then follow a role-play style to elicit prohibited responses. Using personas, we show that prohibited responses are actually provided, making it possible to obtain unauthorized, illegal, or harmful information. This work shows that by using adversarial personas, one can overcome safety mechanisms set out by ChatGPT and Gemini. We also introduce several ways of activating such adversarial personas, which show that both chatbots are vulnerable to this kind of attack. With the same principle, we introduce two defenses that push the model to interpret trustworthy personalities and make it more robust against such attacks.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# ホロポートキャラクタ:スパースRGBカメラによる人間のリアルタイム自由視点レンダリング

Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras ( http://arxiv.org/abs/2312.07423v2 )

ライセンス: Link先を確認
Ashwath Shetty, Marc Habermann, Guoxing Sun, Diogo Luvizon, Vladislav Golyanik, Christian Theobalt, (参考訳) そこで本研究では,従来の4K解像度でのマルチビュー録画から表示に至るまで,人間俳優の映像をリアルタイムにレンダリングする手法について紹介する。 提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。 広い服装の役者を扱い、例えば衣服のしわ、顔の表情、手のジェスチャーなど、細かなダイナミックなディテールを再現する。 トレーニング時に、我々の学習ベースのアプローチは、密集したマルチビュービデオと、アクターのトリグされた静的表面スキャンを期待する。 本手法は3つの主要な段階から構成される。 ステージ1は、詳細なメッシュ幾何学の高品質なキャプチャのためのスケルトン駆動のニューラルネットワークである。 ステージ2は、4つのテストタイムカメラビューを入力として、ビュー依存のテクスチャを作成するための新しいソリューションである。 最後に、ステージ3は、前のステージから出力された最終的な4K画像をレンダリングする新しい画像ベース精細ネットワークを備える。 提案手法は,スパースカメラビューを用いたリアルタイムレンダリングの解像度と品質の新たなベンチマークを確立し,没入型テレプレゼンスを実現する。

We present the first approach to render highly realistic free-viewpoint videos of a human actor in general apparel, from sparse multi-view recording to display, in real-time at an unprecedented 4K resolution. At inference, our method only requires four camera views of the moving actor and the respective 3D skeletal pose. It handles actors in wide clothing, and reproduces even fine-scale dynamic detail, e.g. clothing wrinkles, face expressions, and hand gestures. At training time, our learning-based approach expects dense multi-view video and a rigged static surface scan of the actor. Our method comprises three main stages. Stage 1 is a skeleton-driven neural approach for high-quality capture of the detailed dynamic mesh geometry. Stage 2 is a novel solution to create a view-dependent texture using four test-time camera views as input. Finally, stage 3 comprises a new image-based refinement network rendering the final 4K image given the output from the previous stages. Our approach establishes a new benchmark for real-time rendering resolution and quality using sparse input camera views, unlocking possibilities for immersive telepresence.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# FreeInit:ビデオ拡散モデルにおける初期化ギャップを埋める

FreeInit: Bridging Initialization Gap in Video Diffusion Models ( http://arxiv.org/abs/2312.07537v2 )

ライセンス: Link先を確認
Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu, (参考訳) 拡散に基づくビデオ生成は急速に進歩してきたが、既存のモデルの推論結果は相容れない時間的一貫性と不自然なダイナミクスを示している。 本稿では,映像拡散モデルのノイズ初期化を深く掘り下げ,不満足な推論品質に起因する暗黙のトレーニングと推論のギャップを発見する。 1)初期雑音の時空間周波数分布は訓練時と本質的に異なる。 2) 初期雑音の低周波成分の影響はデノナイジング過程の影響が大きい。 これらの観測により、拡散モデルにより生成されたビデオの時間的一貫性を大幅に改善する、簡潔で効果的な推論サンプリング戦略FreeInitを提案する。 推論中に初期潜伏者の空間的時間的低周波成分を反復的に精製することにより、FreeInitはトレーニングと推論の間の初期化ギャップを補償し、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。 大規模な実験により、FreeInitは、追加のトレーニングや微調整なしに、様々なテキスト・ビデオ拡散モデルの生成品質を一貫して向上することが示された。

Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality.Our key findings are: 1) the spatial-temporal frequency distribution of the initial noise at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation quality of various text-to-video diffusion models without additional training or fine-tuning.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# 非局所擬ポテンシャルを用いた第一量子化における現実物質の量子シミュレーション

Quantum Simulation of Realistic Materials in First Quantization Using Non-local Pseudopotentials ( http://arxiv.org/abs/2312.07654v2 )

ライセンス: Link先を確認
Dominic W. Berry, Nicholas C. Rubin, Ahmed O. Elnabawy, Gabriele Ahlers, A. Eugene DePrince III, Joonho Lee, Christian Gogolin, Ryan Babbush, (参考訳) 本稿では,Babbush et al と Su et al によって開発された電子構造の量子シミュレーションにおける最初の量子化平面波アルゴリズムの有用性について述べる。 我々は、シミュレーションからコア電子を除去できる最も正確で広く使われているノルム保存擬ポテンシャルの1つであるゴデッカー・テッター・ハッター擬ポテンシャル(GTH)に焦点を当てる。 その結果、スクリーニングされた核ポテンシャルは電子波動関数のカスプを正則化し、化学的に正確に平面波のオーダーが桁違いに少ないようにする。 GTH擬ポテンシャルの複雑な形式にもかかわらず、量子シミュレーションの全体的なコストを大幅に増大させることなく、関連する演算子のエンコードをブロックすることができる。 核ポテンシャルのシミュレーションは疑似ポテンシャルなしではずっとシンプルだが、いまだにボトルネックとなっているため、これは驚くべきことである。 また, 従来の手法を一般化して, 非キュービック単位細胞を用いた材料シミュレーションを可能にした。 最後に、これらの手法を組み合わせて、不均一触媒(例えば遷移金属への一酸化炭素吸着)の商業的事例に対するブロックエンコーディングコストを推定し、第2量子化で材料をシミュレートするために必要な量子資源と比較する。 我々は、多くの粒子を持つ計算セルの場合、第一量子化は時空体積を有意に少なくする必要があると結論付けている。

This paper improves and demonstrates the usefulness of the first quantized plane-wave algorithms for the quantum simulation of electronic structure, developed by Babbush et al. and Su et al. We describe the first quantum algorithm for first quantized simulation that accurately includes pseudopotentials. We focus on the Goedecker-Tetter-Hutter (GTH) pseudopotential, which is among the most accurate and widely used norm-conserving pseudopotentials enabling the removal of core electrons from the simulation. The resultant screened nuclear potential regularizes cusps in the electronic wavefunction so that orders of magnitude fewer plane waves are required for a chemically accurate basis. Despite the complicated form of the GTH pseudopotential, we are able to block encode the associated operator without significantly increasing the overall cost of quantum simulation. This is surprising since simulating the nuclear potential is much simpler without pseudopotentials, yet is still the bottleneck. We also generalize prior methods to enable the simulation of materials with non-cubic unit cells, which requires nontrivial modifications. Finally, we combine these techniques to estimate the block-encoding costs for commercially relevant instances of heterogeneous catalysis (e.g. carbon monoxide adsorption on transition metals) and compare to the quantum resources needed to simulate materials in second quantization. We conclude that for computational cells with many particles, first quantization often requires meaningfully less spacetime volume.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# ランダム部分空間とディリクレ過程のサブサンプリングアンサンブルを用いた教師なし外乱検出

Unsupervised Outlier Detection using Random Subspace and Subsampling Ensembles of Dirichlet Process Mixtures ( http://arxiv.org/abs/2401.00773v3 )

ライセンス: Link先を確認
Dongwook Kim, Juyeon Park, Hee Cheol Chung, Seonghyun Jeong, (参考訳) 確率的混合モデルは,その解釈可能性や大域的特性から,教師なしの外れ値検出に有効なツールとして認識されている。 これらのうち、ディリクレプロセス混合モデルは、クラスタリングと外乱検出の両方において、従来の有限混合モデルの強力な代替品として際立っている。 有限混合モデルとは異なり、ディリクレ過程の混合は無限混合モデルであり、データに基づいて混合成分の数を自動的に決定する。 これらの利点にもかかわらず、教師なしの異常検出のためのディリクレプロセス混合モデルの採用は、異常検出器の構築における計算非効率性と異常検出に対する感度に関する課題によって制限されている。 さらに、ディリクレ過程のガウス混合は、非ガウスデータを離散的または二項的特徴で効果的にモデル化するのに苦労する。 これらの課題に対処するために、ディリクレ過程のガウス混合のアンサンブルを利用する新しい外乱検出法を提案する。 この教師なしのアルゴリズムは、ランダムな部分空間とサブサンプリングアンサンブルを用いて、効率的な計算を確実にし、アウタリア検出器のロバスト性を改善する。 アンサンブル法は,非ガウスデータにおける外乱検出手法の適合性をさらに向上させる。 さらに,ディリクレプロセスの混合に対する変分推論を用い,効率と迅速な計算を両立させる。 ベンチマーク・データセットを用いた実験解析により,提案手法は教師なし外乱検出において既存の手法よりも優れていることが示された。

Probabilistic mixture models are recognized as effective tools for unsupervised outlier detection owing to their interpretability and global characteristics. Among these, Dirichlet process mixture models stand out as a strong alternative to conventional finite mixture models for both clustering and outlier detection tasks. Unlike finite mixture models, Dirichlet process mixtures are infinite mixture models that automatically determine the number of mixture components based on the data. Despite their advantages, the adoption of Dirichlet process mixture models for unsupervised outlier detection has been limited by challenges related to computational inefficiency and sensitivity to outliers in the construction of outlier detectors. Additionally, Dirichlet process Gaussian mixtures struggle to effectively model non-Gaussian data with discrete or binary features. To address these challenges, we propose a novel outlier detection method that utilizes ensembles of Dirichlet process Gaussian mixtures. This unsupervised algorithm employs random subspace and subsampling ensembles to ensure efficient computation and improve the robustness of the outlier detector. The ensemble approach further improves the suitability of the proposed method for detecting outliers in non-Gaussian data. Furthermore, our method uses variational inference for Dirichlet process mixtures, which ensures both efficient and rapid computation. Empirical analyses using benchmark datasets demonstrate that our method outperforms existing approaches in unsupervised outlier detection.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# マグノン遮断の最適化による単一マグノン状態の安定化

Stabilizing a single-magnon state by optimizing magnon blockade ( http://arxiv.org/abs/2401.01590v2 )

ライセンス: Link先を確認
Zhu-yao Jin, Jun Jing, (参考訳) 安定かつ高品質な単一マグノン状態は、マクロスピン系を用いた量子情報応用のための単一マグノン源によって望まれる。 我々は、マグノンモードが交換相互作用を介して非共鳴超伝導量子ビットに直接結合されるハイブリッドシステムを考える。 マグノンとクビットは、それぞれ同じ周波数の駆動場と探査場の下にある。 単磁極確率$P_1$は、マグノン駆動場のデチューニングと量子軌道場デチューニングの積がマグノン量子結合強度の正方形、$\Delta_q\Delta_m=J^2$と等価であるときに最大化できる。 そして、この2つの磁場間の駆動強度と相対位相との確率強度の比を調整することにより、倍磁率$P_2$を最小化することができる。 これらの最適化された条件下では、強い駆動強度と低い崩壊率を持つため、強いマグノンの遮断は、高品質の安定した単一マグノン状態を引き起こす。 大輝度(単一マグノン確率)$P_1\approx0.40$と高純度(等時二階相関関数)$g^{(2)}(0)\sim10^{-5}$を特徴とする。 この2つの指標は、安定な単一量子状態に対する光子、フォノン、マグノンモードの既存の結果に対して、全体として優位である。 拡張性のある$\Delta_q\Delta_m\approx NJ^2$の最適化条件は、共通の量子ビットに同時に結合される$N$マグノンモードの1つだけに焦点を当てた状況に適用できる。

A stable and high-quality single-magnon state is desired by the single-magnon source for quantum information application with a macroscopic spin system. We consider a hybrid system where a magnon mode is directly coupled to a nonresonant superconducting qubit via the exchange interaction. The magnon and qubit are under the driving and probing fields with the same frequency, respectively. We find that the single-magnon probability $P_1$ can be maximized when the product of the magnon-driving field detuning and the qubit-probing field detuning is equivalent to the square of the magnon-qubit coupling strength, $\Delta_q\Delta_m=J^2$. Then, the double-magnon probability $P_2$ can be minimized by tuning the ratio of the probing intensity to the driving intensity and the relative phase between the two fields. Under these optimized conditions with accessible strong driving intensity and low decay rate, strong magnon blockade gives rise to a stable single-magnon state with a high quality. It features a large brightness (the single-magnon probability) $P_1\approx0.40$ and a high purity (the equal-time second-order correlation function) $g^{(2)}(0)\sim10^{-5}$. The two indicators as a whole prevail over the existing results for photon, phonon, and magnon modes with respect to a stable single-quantum state. The optimized conditions with a scalable modification $\Delta_q\Delta_m\approx NJ^2$ apply to the situation when one focus on only one of the $N$ magnon modes that are simultaneously coupled to a common qubit.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-25
# 動的グラフの構造予測

Predicting the structure of dynamic graphs ( http://arxiv.org/abs/2401.04280v2 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi, Ziqi Xu, Stefan Westerlund, (参考訳) グラフの多くの側面が深く研究されている。 しかし、未確認、新しいノードとエッジを取り入れた将来のグラフの構造を予測することは、あまり注目されていない。 本稿では,そのようなアプローチを提案する。 時系列グラフを用いて、将来の時間ステップでグラフを予測する。 本研究では,今後の時間点におけるノード次数予測に時系列予測法を用い,これらの予測と,生化学で使用される線形プログラミング法であるフラックスバランス解析を組み合わせることにより,将来のグラフの構造を求める。 我々は、合成および実世界のデータセットを用いてこのアプローチを評価し、その実用性と適用性を実証する。

Many aspects of graphs have been studied in depth. However, forecasting the structure of a graph at future time steps incorporating unseen, new nodes and edges has not gained much attention. In this paper, we present such an approach. Using a time series of graphs, we forecast graphs at future time steps. We use time series forecasting methods to predict the node degree at future time points and combine these forecasts with flux balance analysis -- a linear programming method used in biochemistry -- to obtain the structure of future graphs. We evaluate this approach using synthetic and real-world datasets and demonstrate its utility and applicability.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# 相関ランダムベクトルの検出

Detection of Correlated Random Vectors ( http://arxiv.org/abs/2401.13429v3 )

ライセンス: Link先を確認
Dor Elimelech, Wasim Huleihel, (参考訳) 本稿では、2つの標準正規乱ベクトル $\mathsf{X}\in\mathbb{R}^{n}$ と $\mathsf{Y}\in\mathbb{R}^{n}$ が相関するか否かを決定する問題について検討する。 これは仮説テスト問題として定式化され、ヌル仮説の下ではこれらのベクトルは統計的に独立であり、代わりに$\mathsf{X}$ と $\mathsf{Y}$ のランダムで一様に置換されたバージョンは $\rho$ と相関する。 最適テストが情報理論的に不可能で可能なしきい値を,$n$と$\rho$の関数として解析する。 情報理論的下界を導出するために,直交多項式展開を用いた確率比の第2モーメントの評価手法を開発した。 また、上記の設定の多次元一般化について検討し、2つのベクトルではなく2つのデータベース/行列を観測し、さらにこれらの2つの間の部分的相関を許容する。

In this paper, we investigate the problem of deciding whether two standard normal random vectors $\mathsf{X}\in\mathbb{R}^{n}$ and $\mathsf{Y}\in\mathbb{R}^{n}$ are correlated or not. This is formulated as a hypothesis testing problem, where under the null hypothesis, these vectors are statistically independent, while under the alternative, $\mathsf{X}$ and a randomly and uniformly permuted version of $\mathsf{Y}$, are correlated with correlation $\rho$. We analyze the thresholds at which optimal testing is information-theoretically impossible and possible, as a function of $n$ and $\rho$. To derive our information-theoretic lower bounds, we develop a novel technique for evaluating the second moment of the likelihood ratio using an orthogonal polynomials expansion, which among other things, reveals a surprising connection to integer partition functions. We also study a multi-dimensional generalization of the above setting, where rather than two vectors we observe two databases/matrices, and furthermore allow for partial correlations between these two.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# ServerlessLLM: 大規模言語モデルのための低レイテンシなサーバレス推論

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models ( http://arxiv.org/abs/2401.14351v2 )

ライセンス: Link先を確認
Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii Ustiugov, Yuvraj Patel, Luo Mai, (参考訳) 本稿では,Large Language Models (LLM) のための低レイテンシなサーバレス推論をサポートするように設計された分散システムであるServerlessLLMを提案する。 推論サーバのGPUに近いストレージとメモリ容量を活用することで、ServerlessLLMは効果的なローカルチェックポイントストレージを実現し、リモートチェックポイントダウンロードの必要性を最小限に抑え、効率的なチェックポイントローディングを実現する。 ServerlessLLMの設計には3つのコアコントリビューションがある。 (i)新しいローディング最適化チェックポイントフォーマットとマルチ層ローディングシステムを備え、GPUサーバ上の複雑なストレージ階層の帯域幅を完全に活用する。 (ii) LLM推論のemph{efficient Live Migration} により、新規に開始された推論は、最小限のユーザ中断を確保しつつ、ローカルチェックポイントストレージに乗じることができる。 (iii)各サーバ上のチェックポイントの局所性ステータスを評価し、推論開始時間を最小限にするサーバにモデルをスケジュールする。 マイクロベンチマークや実世界のシナリオを含む包括的な評価は、ServerlessLLMが最先端のサーバレスシステムを大幅に上回っており、さまざまなLLM推論ワークロードでレイテンシを10~200倍削減していることを示している。

This paper presents ServerlessLLM, a distributed system designed to support low-latency serverless inference for Large Language Models (LLMs). By harnessing the substantial near-GPU storage and memory capacities of inference servers, ServerlessLLM achieves effective local checkpoint storage, minimizing the need for remote checkpoint downloads and ensuring efficient checkpoint loading. The design of ServerlessLLM features three core contributions: (i) \emph{fast multi-tier checkpoint loading}, featuring a new loading-optimized checkpoint format and a multi-tier loading system, fully utilizing the bandwidth of complex storage hierarchies on GPU servers; (ii) \emph{efficient live migration of LLM inference}, which enables newly initiated inferences to capitalize on local checkpoint storage while ensuring minimal user interruption; and (iii) \emph{startup-time-optimized model scheduling}, which assesses the locality statuses of checkpoints on each server and schedules the model onto servers that minimize the time to start the inference. Comprehensive evaluations, including microbenchmarks and real-world scenarios, demonstrate that ServerlessLLM dramatically outperforms state-of-the-art serverless systems, reducing latency by 10 - 200X across various LLM inference workloads.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# ボソニック損失劣化チャネルにおける量子通信

Quantum communication on the bosonic loss-dephasing channel ( http://arxiv.org/abs/2401.15634v3 )

ライセンス: Link先を確認
Francesco Anna Mele, Farzin Salek, Vittorio Giovannetti, Ludovico Lami, (参考訳) 量子光学系は通常、光子損失と劣化という2種類のノイズによって影響を受ける。 個々のノイズ過程に関する広範な研究にもかかわらず、それらの組み合わせ効果に関する包括的な理解はいまだに欠如している。 重要な問題は損失の値を決定することであり、結果として損失の減少するチャネルは分解不能となり、その効果を補正できる符号が存在しないこと、あるいは量子通信が可能であることを暗示している。 量子6, 821 (2022) の予想は、損失が 50\% 以上である場合に限って、ボソニック損失劣化チャネルが反劣化可能であることを示唆している。 本稿では, 損失の任意の値に対して, 劣化が臨界値以上であれば, ボソニック損失劣化チャネルは分解不能であることを示すことによって, この予想を否定する。 我々の結果は、量子通信が不可能な大きなパラメータ領域を識別する一方で、二方向古典通信が利用可能であれば、量子通信 -- 量子鍵分布 -- が常に達成可能であることを証明している。

Quantum optical systems are typically affected by two types of noise: photon loss and dephasing. Despite extensive research on each noise process individually, a comprehensive understanding of their combined effect is still lacking. A crucial problem lies in determining the values of loss and dephasing for which the resulting loss-dephasing channel is anti-degradable, implying the absence of codes capable of correcting its effect or, alternatively, capable of enabling quantum communication. A conjecture in [Quantum 6, 821 (2022)] suggested that the bosonic loss-dephasing channel is anti-degradable if and only if the loss is above $50\%$. In this paper we refute this conjecture, specifically proving that for any value of the loss, if the dephasing is above a critical value, then the bosonic loss-dephasing channel is anti-degradable. While our result identifies a large parameter region where quantum communication is not possible, we also prove that if two-way classical communication is available, then quantum communication -- and thus quantum key distribution -- is always achievable, even for high values of loss and dephasing.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# 子どもの視点から見た映像表現の自己指導型学習

Self-supervised learning of video representations from a child's perspective ( http://arxiv.org/abs/2402.00300v2 )

ライセンス: Link先を確認
A. Emin Orhan, Wentao Wang, Alex N. Wang, Mengye Ren, Brenden M. Lake, (参考訳) 子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。 そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか? 近年,大規模で縦断的,発展的なビデオデータセットの収集や,汎用的な自己教師付き学習(SSL)アルゴリズムの進歩により,この問題に対処し始めることができるようになっている。 しかし、既存の研究は通常、静的画像(例えばオブジェクト認識)から学習できる画像ベースのSSLアルゴリズムと視覚能力に焦点を当てており、世界の時間的側面を無視している。 このギャップを埋めるために、私たちは、幼児の初期(6~31ヶ月)の2年間に収集した縦型、自家中心型ヘッドカム記録に基づいて、自己監督型ビデオモデルを訓練する。 得られたモデルは、少数のラベル付き例からアクション概念の学習を容易にするのに非常に効果的である。 ビデオモデルは、全く同じデータで訓練された画像ベースモデルよりも、より堅牢なオブジェクト表現も学習する。 これらの結果は、子どもの内部モデルにおける重要な時間的側面が、高度に汎用的な学習アルゴリズムを用いて視覚経験から学習可能であり、強い帰納的バイアスがないことを示唆している。

Children learn powerful internal models of the world around them from a few years of egocentric visual experience. Can such internal models be learned from a child's visual experience with highly generic learning algorithms or do they require strong inductive biases? Recent advances in collecting large-scale, longitudinal, developmentally realistic video datasets and generic self-supervised learning (SSL) algorithms are allowing us to begin to tackle this nature vs. nurture question. However, existing work typically focuses on image-based SSL algorithms and visual capabilities that can be learned from static images (e.g. object recognition), thus ignoring temporal aspects of the world. To close this gap, here we train self-supervised video models on longitudinal, egocentric headcam recordings collected from a child over a two year period in their early development (6-31 months). The resulting models are highly effective at facilitating the learning of action concepts from a small number of labeled examples; they have favorable data size scaling properties; and they display emergent video interpolation capabilities. Video models also learn more robust object representations than image-based models trained with the exact same data. These results suggest that important temporal aspects of a child's internal model of the world may be learnable from their visual experience using highly generic learning algorithms and without strong inductive biases.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# 球面データの良さとクラスタリング: R と Python の QuadratiK パッケージ

Goodness-of-Fit and Clustering of Spherical Data: the QuadratiK package in R and Python ( http://arxiv.org/abs/2402.02290v2 )

ライセンス: Link先を確認
Giovanni Saraceno, Marianthi Markatou, Raktim Mukhopadhyay, Mojgan Golzy, (参考訳) 本稿では,革新的なデータ解析手法を取り入れたQuadratiKパッケージを紹介する。 提示されたソフトウェアはRとPythonの両方で実装されており、カーネルベースの二次距離を用いて、適合性テストとクラスタリングの包括的なセットを提供し、統計学と機械学習の文献間のギャップを埋める。 本ソフトウェアは, 適合性評価のための1, 2, kサンプルテストを実装し, 確率分布の適合性を評価するための, 効率的かつ数学的に健全な方法を提供する。 ソフトウェアの拡張機能には,ポアソンカーネル密度に基づくD次元球面の均一性テストのサポートが含まれている。 特に注目すべきは、球面上のポアソン核に基づく密度の混合を利用する球面データに特化されたユニークなクラスタリングアルゴリズムの導入である。 この他にも,ユーザによる検証支援や,クラスタリング結果の可視化や表現など,グラフィカルな機能も備えています。 これにより解析の解釈性とユーザビリティが向上する。 結論として、当社のRとPythonパッケージは強力なツールセットとして機能し、研究者や実践者がデータを深く掘り下げ、堅牢な推論を描き、幅広い分野にわたって潜在的に影響のある分析と推論を行う手段を提供します。

We introduce the QuadratiK package that incorporates innovative data analysis methodologies. The presented software, implemented in both R and Python, offers a comprehensive set of goodness-of-fit tests and clustering techniques using kernel-based quadratic distances, thereby bridging the gap between the statistical and machine learning literatures. Our software implements one, two and k-sample tests for goodness of fit, providing an efficient and mathematically sound way to assess the fit of probability distributions. Expanded capabilities of our software include supporting tests for uniformity on the d-dimensional Sphere based on Poisson kernel densities. Particularly noteworthy is the incorporation of a unique clustering algorithm specifically tailored for spherical data that leverages a mixture of Poisson kernel-based densities on the sphere. Alongside this, our software includes additional graphical functions, aiding the users in validating, as well as visualizing and representing clustering results. This enhances interpretability and usability of the analysis. In summary, our R and Python packages serve as a powerful suite of tools, offering researchers and practitioners the means to delve deeper into their data, draw robust inference, and conduct potentially impactful analyses and inference across a wide array of disciplines.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# KIVI: KVキャッシュのためのチューニング不要な非対称2ビット量子化

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache ( http://arxiv.org/abs/2402.02750v2 )

ライセンス: Link先を確認
Zirui Liu, Jiayi Yuan, Hongye Jin, Shaochen Zhong, Zhaozhuo Xu, Vladimir Braverman, Beidi Chen, Xia Hu, (参考訳) 大規模言語モデル(LLM)の効率的な提供には,要求毎のコスト削減のために,多数の要求のバッチ処理が必要となる。 しかし、バッチサイズが大きく、コンテキスト長が長いキーバリュー(KV)キャッシュは、再計算を避けるために注意キーと値を格納し、メモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。 さらに、KVキャッシュのロードにより、計算コアはアイドル状態になり、推論速度が制限される。 KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。 しかし、KVキャッシュ量子化の硬さと限界を理解するため、KVキャッシュの要素分布を探索する詳細な研究は存在しない。 このギャップを埋めるために、我々は人気のあるLCMのKVキャッシュにおける要素分布を網羅的に研究した。 以上の結果から,キーキャッシュはチャネル単位の量子化,すなわちチャネル次元に沿ってグループ要素の量子化を行い,それらをまとめて定量化する必要があることが示唆された。 対照的に、値キャッシュはトーケン毎に量子化されるべきである。 そこで本研究では,KIVIという2ビットKVキャッシュ量子化アルゴリズムを開発した。 ハードウェアフレンドリーな実装により、KIVIはLlama、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$\mathbf{2.6\times}$より少ないピークメモリ(モデルウェイトを含む)を使用することができる。 このメモリ使用量の削減は、$\mathbf{4\times}$より大きなバッチサイズを可能にし、実際のLCM推論ワークロードで$\mathbf{2.35\times \sim 3.47\times}$スループットをもたらす。 ソースコードはhttps://github.com/jy-yuan/KIVI.comで入手できる。

Efficiently serving large language models (LLMs) requires batching of many requests to reduce the cost per request. Yet, with larger batch sizes and longer context lengths, the key-value (KV) cache, which stores attention keys and values to avoid re-computations, significantly increases memory demands and becomes the new bottleneck in speed and memory usage. Additionally, the loading of the KV cache causes the computational core to be idle, which limits the inference speed. A straightforward and effective solution to reduce KV cache size is quantization, which decreases the total bytes taken by KV cache. However, there is a lack of in-depth studies that explore the element distribution of KV cache to understand the hardness and limitation of KV cache quantization. To fill the gap, we conducted a comprehensive study on the element distribution in KV cache of popular LLMs. Our findings indicate that the key cache should be quantized per-channel, i.e., group elements along the channel dimension and quantize them together. In contrast, the value cache should be quantized per-token. From this analysis, we developed a tuning-free 2bit KV cache quantization algorithm named KIVI. With hardware-friendly implementation, KIVI can enable Llama, Falcon, and Mistral models to maintain almost the same quality while using $\mathbf{2.6\times}$ less peak memory (including model weight). This reduction in memory usage enables up to $\mathbf{4\times}$ larger batch size, bringing $\mathbf{2.35\times \sim 3.47\times}$ throughput on real LLM inference workload. The source code is available at https://github.com/jy-yuan/KIVI.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# バックグラウンド独立テンソルネットワーク

Background independent tensor networks ( http://arxiv.org/abs/2402.05910v3 )

ライセンス: Link先を確認
Chris Akers, Annie Y. Wei, (参考訳) 従来のホログラフィックテンソルネットワークは、多くの小さな線型写像が空間的に局所的に作用し、すべて '`background entanglement'' で連結されたおもちゃのホログラフィック写像として記述できる。 しかし、これらの構造は実際のホログラフィックマップをモデル化するに足らない。 一つの理由は、幾何学が動的である重力とは異なり、それらの `areas'' は自明であり、全ての状態に対して同じ値を取るからである。 近年,「リンク上で生きていく」自由度を付加することで,この問題を改善している。 これにより、背景の絡み合い部分と同等の領域を非自明にし、また、リンクの度合いに依存する新しい正の要素を新たに得ることができる。 それでも、これは背景の絡み合いがあるという欠点があるため、すべての領域が背景の絡み合いによって与えられる最小限の値を持つような、比較的限られたコード部分空間のみをモデル化する。 ここでは、これらの構成の1つのバージョンは、ホログラムマップに背景の絡みが無く、背景の独立性を持つことができる。 これはテンソルネットワークがより大きなコード部分空間のホログラフィックマップをモデル化できるので有利である。 これに加えて、動作させるのにいくつかの微妙な問題に対処し、最近のランダムCFTデータに関する議論に、それがもたらす良いつながりを指摘する。

Conventional holographic tensor networks can be described as toy holographic maps constructed from many small linear maps acting in a spatially local way, all connected together with ``background entanglement'', i.e. links of a fixed state, often the maximally entangled state. However, these constructions fall short of modeling real holographic maps. One reason is that their ``areas'' are trivial, taking the same value for all states, unlike in gravity where the geometry is dynamical. Recently, new constructions have ameliorated this issue by adding degrees of freedom that ``live on the links''. This makes areas non-trivial, equal to the background entanglement piece plus a new positive piece that depends on the state of the link degrees of freedom. Nevertheless, this still has the downside that there is background entanglement, and hence it only models relatively limited code subspaces in which every area has a definite minimum value given by the background entanglement. In this note, we simply point out that a version of these constructions goes one step further: they can be background independent, with no background entanglement in the holographic map. This is advantageous because it allows tensor networks to model holographic maps for larger code subspaces. In addition to pointing this out, we address some subtleties involved in making it work and point out a nice connection it offers to recent discussions of random CFT data.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# Webブラウザにおけるディープラーニング推論の解剖学的検討

Anatomizing Deep Learning Inference in Web Browsers ( http://arxiv.org/abs/2402.05981v2 )

ライセンス: Link先を確認
Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li, Yun Ma, Ting Cao, Xuanzhe Liu, (参考訳) Webアプリケーションは、ブラウザ内推論を通じて、ますますDeep Learning (DL)を採用しており、DL推論はWebブラウザ内で直接実行される。 ブラウザ内推論の実際のパフォーマンスと、QoE(Quality of Experience)への影響は、まだ明らかにされていない。 このギャップを埋めるために、ブラウザ内推論の総合的なパフォーマンス測定を、これまでで初めて行った。 提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。 当社の広範な分析では、Webブラウザにまたがる、50のPCデバイスと20のモバイルデバイスの9つの代表的DLモデルについて検討した。 ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。 モバイルCPUとモバイルGPUのギャップは、それぞれ15.8倍と7.8倍である。 さらに、未使用のハードウェア命令セット、実行環境固有のオーバーヘッド、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、このようなレイテンシギャップへの寄与要因を同定する。 さらに、ブラウザ内での推論は、大きなメモリ要求を課し、時にはDLモデル自体の334.6倍の規模で、部分的には最適化されたメモリ管理に起因している。 また、ブラウザ内推論は、GUIコンポーネントがWebブラウザ内でレンダリングするのに要する時間において、67.2%の大幅な増加をもたらし、この技術に依存したWebアプリケーションのユーザQoE全体に大きな影響を与えていることも観察した。

Web applications have increasingly adopted Deep Learning (DL) through in-browser inference, wherein DL inference performs directly within Web browsers. The actual performance of in-browser inference and its impacts on the quality of experience (QoE) remain unexplored, and urgently require new QoE measurements beyond traditional ones, e.g., mainly focusing on page load time. To bridge this gap, we make the first comprehensive performance measurement of in-browser inference to date. Our approach proposes new metrics to measure in-browser inference: responsiveness, smoothness, and inference accuracy. Our extensive analysis involves 9 representative DL models across Web browsers of 50 popular PC devices and 20 mobile devices. The results reveal that in-browser inference exhibits a substantial latency gap, averaging 16.9 times slower on CPU and 4.9 times slower on GPU compared to native inference on PC devices. The gap on mobile CPU and mobile GPU is 15.8 times and 7.8 times, respectively. Furthermore, we identify contributing factors to such latency gap, including underutilized hardware instruction sets, inherent overhead in the runtime environment, resource contention within the browser, and inefficiencies in software libraries and GPU abstractions. Additionally, in-browser inference imposes significant memory demands, at times exceeding 334.6 times the size of the DL models themselves, partly attributable to suboptimal memory management. We also observe that in-browser inference leads to a significant 67.2% increase in the time it takes for GUI components to render within Web browsers, significantly affecting the overall user QoE of Web applications reliant on this technology
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# ac-Stark格子変調により達成された原子気体中の長期集団Rydberg励起

Long-lived collective Rydberg excitations in atomic gas achieved via ac-Stark lattice modulation ( http://arxiv.org/abs/2402.06513v3 )

ライセンス: Link先を確認
Stanisław Kurzyna, Bartosz Niewelt, Mateusz Mazelanik, Wojciech Wasilewski, Michał Parniak, (参考訳) 集合Rydberg励起は、量子情報処理や量子コンピューティングから超感度電気測定まで、有望な応用を提供する。 しかし、彼らの短い寿命は現実のシナリオにおいて大きな障害となる。 寿命を延ばす最先端の方法は、主に基底状態の量子記憶のために実装され、異なる原子遷移を効果的に扱うために再設計が必要だった。 本稿では,リングバーグ励起寿命を延長するプロトコルを提案する。このプロトコルは原理的にスピン波を凍結し,熱劣化の影響を完全にキャンセルすることができる。 このプロトコルは、2つのレーザービームを原子媒体に干渉させることでスピン波の非共鳴ac-Stark格子変調を用いる。 我々の実装は、励起寿命を桁違いに拡張できることを示し、Rydberg励起のより複雑なプロトコルへの道を開いた。

Collective Rydberg excitations provide promising applications ranging from quantum information processing, and quantum computing to ultra-sensitive electrometry. However, their short lifetime is an immense obstacle in real-life scenarios. The state-of-the-art methods of prolonging the lifetime were mainly implemented for ground-state quantum memories and would require a redesign to effectively work on different atomic transitions. We propose a protocol for extending the Rydberg excitation lifetime, which in principle can freeze the spin-wave and completely cancel the effects of thermal dephasing. The protocol employs off-resonant ac-Stark lattice modulation of spin waves by interfering two laser beams on the atomic medium. Our implementation showed that the excitation lifetime can be extended by an order of magnitude, paving the way towards more complex protocols for collective Rydberg excitations.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# Chain-of-Layer: 限られた例から分類学誘導のための大規模言語モデルを繰り返し提案する

Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples ( http://arxiv.org/abs/2402.07386v2 )

ライセンス: Link先を確認
Qingkai Zeng, Yuyang Bai, Zhaoxuan Tan, Shangbin Feng, Zhenwen Liang, Zhihan Zhang, Meng Jiang, (参考訳) 自動分類誘導は、Web検索、レコメンデーションシステム、質問応答に不可欠である。 手作業による分類学のキュレーションは人的労力で高価であり、自動分類学の構築を極めて望ましいものにしている。 本稿では,あるエンティティ集合から分類学を誘導するために設計された,文脈内学習フレームワークであるChain-of-Layerを紹介する。 Chain-of-Layerはタスクを分割して、各レイヤで関連する候補エンティティを選択し、トップからボトムまでの分類を徐々に構築する。 誤りを最小限に抑えるために,エンサンブルベースのランキングフィルタを導入し,各イテレーションで生成する幻覚コンテンツを減らす。 大規模な実験を通じて,4つの実世界のベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。

Automatic taxonomy induction is crucial for web search, recommendation systems, and question answering. Manual curation of taxonomies is expensive in terms of human effort, making automatic taxonomy construction highly desirable. In this work, we introduce Chain-of-Layer which is an in-context learning framework designed to induct taxonomies from a given set of entities. Chain-of-Layer breaks down the task into selecting relevant candidate entities in each layer and gradually building the taxonomy from top to bottom. To minimize errors, we introduce the Ensemble-based Ranking Filter to reduce the hallucinated content generated at each iteration. Through extensive experiments, we demonstrate that Chain-of-Layer achieves state-of-the-art performance on four real-world benchmarks.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# 3次元ディフューザ・アクター:3次元シーン表現による政策拡散

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations ( http://arxiv.org/abs/2402.10885v3 )

ライセンス: Link先を確認
Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki, (参考訳) 拡散ポリシーは、ロボットと環境状態に条件付けされたロボットの行動分布を学習する条件付き拡散モデルである。 彼らは最近、決定論的および代替的な行動分布学習の定式化よりも優れていることを示した。 3Dロボットポリシーでは、感覚深度を用いて1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。 彼らは、カメラの視点で2Dよりもうまく一般化できることを示してきた。 これら2つの作業行を統一し、3Dディフューザ・アクターを提示する。3D視覚シーンからの情報を融合する新しい3Dデノナイジング・トランスフォーマーを備えたニューラルポリシーである。 3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも18.1%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。 CALVINベンチマークでは、現在のSOTAよりも9%向上している。 また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。 現在のSOTAポリシーと我々のモデルとの徹底的な比較を通して、3Dディフューザー・アクターの設計選択が2D表現、回帰と分類の目的、絶対的な注意、そして全体論的でない3Dシーンの埋め込みを劇的に上回っていることを示す。

Diffusion policies are conditional diffusion models that learn robot action distributions conditioned on the robot and environment state. They have recently shown to outperform both deterministic and alternative action distribution learning formulations. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy equipped with a novel 3D denoising transformer that fuses information from the 3D visual scene, a language instruction and proprioception to predict the noise in noised 3D robot pose trajectories. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 18.1% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it improves over the current SOTA by a 9% relative increase. It also learns to control a robot manipulator in the real world from a handful of demonstrations. Through thorough comparisons with the current SOTA policies and ablations of our model, we show 3D Diffuser Actor's design choices dramatically outperform 2D representations, regression and classification objectives, absolute attentions, and holistic non-tokenized 3D scene embeddings.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# SLADE:自己監視学習によるラベルなしエッジストリームの動的異常検出

SLADE: Detecting Dynamic Anomalies in Edge Streams without Labels via Self-Supervised Learning ( http://arxiv.org/abs/2402.11933v3 )

ライセンス: Link先を確認
Jongha Lee, Sunwoo Kim, Kijung Shin, (参考訳) ソーシャル,メール,金融ネットワークなどの実世界のグラフの異常を検出するために,様々なアプローチが開発されている。 彼らは通常静的な入力グラフを仮定するが、ほとんどの現実世界のグラフは時間とともに成長し、自然にエッジストリームとして表される。 この文脈では、私たちは3つの目標を達成することを目指しています。 a) 異常が発生すると即座に異常を検知する。 b)動的に変化する状態に適応し、 (c)動的異常ラベルの不足を扱う。 本稿では,ラベルに依存することなく,エッジストリーム中の動的異常を迅速に検出するためのSLADE(Self-supervised Learning for Anomaly Detection in Edge Streams)を提案する。 SLADEは、時間とともに相互作用パターンの偏差を観察することで、ノードの異常状態へのシフトを検出する。 この目的のために、ディープニューラルネットワークをトレーニングして、2つの自己教師型タスクを実行する。 (a)ノード表現におけるドリフトの最小化及び (b)短期的な相互作用パターンから長期的相互作用パターンを生成する。 ノードのこれらのタスクの失敗は、標準からの逸脱を示す。 特に、ニューラルネットワークとタスクは、入力ストリームの各新しいエッジに応答して、すべての必要な操作を一定時間(例えばグラフサイズ)で実行できるように、慎重に設計されている。 現実世界の4つのデータセットをまたいだ動的異常検出では、SLADEは9つの競合するメソッド、さらにはラベルの監督を利用するものよりも優れています。

To detect anomalies in real-world graphs, such as social, email, and financial networks, various approaches have been developed. While they typically assume static input graphs, most real-world graphs grow over time, naturally represented as edge streams. In this context, we aim to achieve three goals: (a) instantly detecting anomalies as they occur, (b) adapting to dynamically changing states, and (c) handling the scarcity of dynamic anomaly labels. In this paper, we propose SLADE (Self-supervised Learning for Anomaly Detection in Edge Streams) for rapid detection of dynamic anomalies in edge streams, without relying on labels. SLADE detects the shifts of nodes into abnormal states by observing deviations in their interaction patterns over time. To this end, it trains a deep neural network to perform two self-supervised tasks: (a) minimizing drift in node representations and (b) generating long-term interaction patterns from short-term ones. Failure in these tasks for a node signals its deviation from the norm. Notably, the neural network and tasks are carefully designed so that all required operations can be performed in constant time (w.r.t. the graph size) in response to each new edge in the input stream. In dynamic anomaly detection across four real-world datasets, SLADE outperforms nine competing methods, even those leveraging label supervision.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-25
# HyperMoE: エキスパート間の移行を通じて、エキスパートの混合性を改善する

HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts ( http://arxiv.org/abs/2402.12656v4 )

ライセンス: Link先を確認
Hao Zhao, Zihan Qiu, Huijia Wu, Zili Wang, Zhaofeng He, Jie Fu, (参考訳) 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。 この成功にもかかわらず、既存のほとんどの手法は、スペシャリティとエキスパート知識の可用性のバランスをとるための課題に直面している。 この矛盾を緩和するため、Hypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。 このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。 選択されていない専門家の情報に基づいて生成される特定のモジュールは補足情報であり、選択されていない専門家の知識を選択範囲を維持しながら使用することができる。 複数のデータセットやバックボーンにまたがる包括的な経験的評価は、HyperMoEが、専門家数に関する同じ条件下で、既存のMoEメソッドを著しく上回っていることを証明しています。

The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# 文脈内学習の理解のための意味的誘導頭部の同定

Identifying Semantic Induction Heads to Understand In-Context Learning ( http://arxiv.org/abs/2402.13055v2 )

ライセンス: Link先を確認
Jie Ren, Qipeng Guo, Hang Yan, Dongrui Liu, Quanshi Zhang, Xipeng Qiu, Dahua Lin, (参考訳) 大きな言語モデル(LLM)は目覚ましい性能を示しているが、推論ロジックにおける透明性の欠如は、彼らの信頼性に対する懸念を引き起こす。 LLMのより深い理解を得るために、我々は注意頭の動きを詳細に分析し、LLMの文脈内学習をより深く理解することを目的としている。 具体的には,自然言語に存在するトークン間の2種類の関係,すなわち文から解析された構文的依存性と知識グラフ内の関係を,注目ヘッドが符号化するかどうかを検討する。 特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。 さらに重要なことは、このような意味誘導ヘッドの定式化は、言語モデルの文脈内学習能力の出現と密接に相関している。 セマンティックアテンションヘッドの研究は、トランスフォーマーにおけるアテンションヘッドの複雑な操作に関する理解を深め、さらにLLMの文脈内学習に関する新たな洞察を提供する。

Although large language models (LLMs) have demonstrated remarkable performance, the lack of transparency in their inference logic raises concerns about their trustworthiness. To gain a better understanding of LLMs, we conduct a detailed analysis of the operations of attention heads and aim to better understand the in-context learning of LLMs. Specifically, we investigate whether attention heads encode two types of relationships between tokens present in natural languages: the syntactic dependency parsed from sentences and the relation within knowledge graphs. We find that certain attention heads exhibit a pattern where, when attending to head tokens, they recall tail tokens and increase the output logits of those tail tokens. More crucially, the formulation of such semantic induction heads has a close correlation with the emergence of the in-context learning ability of language models. The study of semantic attention heads advances our understanding of the intricate operations of attention heads in transformers, and further provides new insights into the in-context learning of LLMs.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# PCR-99:99%のアウトリーチを持つポイントクラウド登録の実践的方法

PCR-99: A Practical Method for Point Cloud Registration with 99% Outliers ( http://arxiv.org/abs/2402.16598v4 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, Patrick Vandewalle, (参考訳) 本稿では,未知のスケールと極端外周比の両方を扱える点雲登録法を提案する。 PCR-99と呼ばれる本手法では, 速度を著しく向上させる2つの新しいメカニズムを持つ決定論的3点サンプリング手法を用いて, 1) ペアスケールの整合性に基づくサンプルの整合性の向上, および(2) トリプルトスケールの整合性に基づく効率的な外乱除去手法, 悪いサンプルの事前スクリーニング, テスト対象の仮説数の削減を行う。 提案手法は,98%のアウトレイラ比において,最先端技術に匹敵する性能を達成できることを示す。 しかし、99%のアウトラヤ比では、既知のスケールと未知のスケールの問題の両方において、最先端の問題を上回ります。 特に後者では、ロバスト性と速度の観点から明らかな優位性を観察する。

We propose a robust method for point cloud registration that can handle both unknown scales and extreme outlier ratios. Our method, dubbed PCR-99, uses a deterministic 3-point sampling approach with two novel mechanisms that significantly boost the speed: (1) an improved ordering of the samples based on pairwise scale consistency, prioritizing the point correspondences that are more likely to be inliers, and (2) an efficient outlier rejection scheme based on triplet scale consistency, prescreening bad samples and reducing the number of hypotheses to be tested. Our evaluation shows that, up to 98% outlier ratio, the proposed method achieves comparable performance to the state of the art. At 99% outlier ratio, however, it outperforms the state of the art for both known-scale and unknown-scale problems. Especially for the latter, we observe a clear superiority in terms of robustness and speed.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# Feature Re-Embedding:計算病理学における基礎モデルレベルパフォーマンスを目指して

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology ( http://arxiv.org/abs/2402.17228v4 )

ライセンス: Link先を確認
Wenhao Tang, Fengtao Zhou, Sheng Huang, Xiang Zhu, Yi Zhang, Bo Liu, (参考訳) マルチプル・インスタンス・ラーニング(MIL)は、サブタイピング、診断、予後などを含む、計算病理学において最も広く使われているフレームワークである。 しかし、既存のMILパラダイムは、通常、トレーニング済みのResNetやファンデーションモデルのようなオフラインのインスタンス機能抽出器を必要とする。 このアプローチには、特定の下流タスク内で機能を微調整する機能がなく、適応性とパフォーマンスが制限されている。 この問題に対処するため,インスタンス機能をオンラインで再埋め込みするためのRe-embedded Regional Transformer (R$^2$T)を提案する。 強力な機能抽出器を事前訓練したり、洗練されたインスタンスアグリゲータを設計する既存の作業とは異なり、R$^2$Tはオンラインでインスタンス機能を再組み込むように調整されている。 メインストリームのMILモデルにシームレスに統合できるポータブルモジュールとして機能する。 一般的な計算病理タスクに関する大規模な実験結果は、以下の通りである。 1) 機能再埋め込みにより,ResNet-50機能に基づくMILモデルの性能が基礎モデル機能レベルに向上し,基礎モデル機能の性能がさらに向上する。 2) R$^2$T は様々な MIL モデルにさらなる性能改善をもたらすことができる。 3) R$^2$T-MIL は R$^2$T-enhanced AB-MIL である。

Multiple instance learning (MIL) is the most widely used framework in computational pathology, encompassing sub-typing, diagnosis, prognosis, and more. However, the existing MIL paradigm typically requires an offline instance feature extractor, such as a pre-trained ResNet or a foundation model. This approach lacks the capability for feature fine-tuning within the specific downstream tasks, limiting its adaptability and performance. To address this issue, we propose a Re-embedded Regional Transformer (R$^2$T) for re-embedding the instance features online, which captures fine-grained local features and establishes connections across different regions. Unlike existing works that focus on pre-training powerful feature extractor or designing sophisticated instance aggregator, R$^2$T is tailored to re-embed instance features online. It serves as a portable module that can seamlessly integrate into mainstream MIL models. Extensive experimental results on common computational pathology tasks validate that: 1) feature re-embedding improves the performance of MIL models based on ResNet-50 features to the level of foundation model features, and further enhances the performance of foundation model features; 2) the R$^2$T can introduce more significant performance improvements to various MIL models; 3) R$^2$T-MIL, as an R$^2$T-enhanced AB-MIL, outperforms other latest methods by a large margin.The code is available at: https://github.com/DearCaat/RRT-MIL.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# ベイジアンニューラルネットワークを用いた反応乱流閉鎖モデルの事前不確かさの定量化

A Priori Uncertainty Quantification of Reacting Turbulence Closure Models using Bayesian Neural Networks ( http://arxiv.org/abs/2402.18729v2 )

ライセンス: Link先を確認
Graham Pash, Malik Hassanaly, Shashank Yellapantula, (参考訳) 大規模渦シミュレーション(LES)におけるサブフィルタスケール(SFS)に物理に基づくクロージャモデル形式が多数提案されているが、直接数値シミュレーション(DNS)から得られる膨大な量のデータが、データ駆動モデリング技術を活用する機会を生み出している。 フレキシブルなデータ駆動モデルは、選択したモデルのデータセットと機能形式に依存しています。 このようなモデルの採用の増加には、データインフォームドとアウト・オブ・ディストリビューションの両方において、確実な不確実性推定が必要である。 本研究ではベイズニューラルネットワーク(BNN)を用いて,反応流モデルにおけるてんかんと失語症両方の不確かさを捉える。 特に, 乱流予混合火炎の力学において重要な役割を担うフィルタ進行変動スカラー散逸率をモデル化した。 我々は、BNNモデルが、データ駆動クロージャモデルの不確実性の構造に関するユニークな洞察を提供することができることを示した。 また,BNNにおけるアウト・オブ・ディストリビューション情報の導入方法を提案する。 このモデルの有効性は,様々な火炎条件と燃料からなるデータセットに対する事前評価によって実証される。

While many physics-based closure model forms have been posited for the sub-filter scale (SFS) in large eddy simulation (LES), vast amounts of data available from direct numerical simulation (DNS) create opportunities to leverage data-driven modeling techniques. Albeit flexible, data-driven models still depend on the dataset and the functional form of the model chosen. Increased adoption of such models requires reliable uncertainty estimates both in the data-informed and out-of-distribution regimes. In this work, we employ Bayesian neural networks (BNNs) to capture both epistemic and aleatoric uncertainties in a reacting flow model. In particular, we model the filtered progress variable scalar dissipation rate which plays a key role in the dynamics of turbulent premixed flames. We demonstrate that BNN models can provide unique insights about the structure of uncertainty of the data-driven closure models. We also propose a method for the incorporation of out-of-distribution information in a BNN. The efficacy of the model is demonstrated by a priori evaluation on a dataset consisting of a variety of flame conditions and fuels.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# 病理診断における集団レベルコンテキストによるグループ内変動のハーネス化

Harnessing Intra-group Variations Via a Population-Level Context for Pathology Detection ( http://arxiv.org/abs/2403.02307v2 )

ライセンス: Link先を確認
P. Bilha Githinji, Xi Yuan, Zhenglin Chen, Ijaz Gul, Dingqi Shang, Wen Liang, Jianming Deng, Dan Zeng, Dongmei yu, Chenggang Yan, Peiwu Qin, (参考訳) 健全なサンプルと病理サンプルの分布の十分な分離性を実現することは、進化モデルを検出する上で重要な障害である。 さらに、これらのモデルはコントラストベースの画像に偏りを示し、テクスチャベースの医療画像の性能は低下する。 本研究では,病理診断のための集団レベルのコンテキストの概念を導入し,PopuSenseと呼ぶリファインメントモジュールを通じてオートエンコーダの潜在コードにグラフ理論のアプローチを取り入れた。 PopuSenseは、畳み込みモデルの局所的またはグローバル的文脈が見逃したり、滑らかになったりする生医学データに固有の追加のグループ内変異を捉えようとしている。 コントラストベースおよびテクスチャベースの画像に対する概念実証実験は、最小限の適応で、既存の強度ベース入力の嗜好に遭遇する。 それにもかかわらず、PopuSenseはコントラストベースの画像における分離性の改善を示し、モデルによって学習された表現を洗練するための追加の道を示す。

Realizing sufficient separability between the distributions of healthy and pathological samples is a critical obstacle for pathology detection convolutional models. Moreover, these models exhibit a bias for contrast-based images, with diminished performance on texture-based medical images. This study introduces the notion of a population-level context for pathology detection and employs a graph theoretic approach to model and incorporate it into the latent code of an autoencoder via a refinement module we term PopuSense. PopuSense seeks to capture additional intra-group variations inherent in biomedical data that a local or global context of the convolutional model might miss or smooth out. Proof-of-concept experiments on contrast-based and texture-based images, with minimal adaptation, encounter the existing preference for intensity-based input. Nevertheless, PopuSense demonstrates improved separability in contrast-based images, presenting an additional avenue for refining representations learned by a model.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# ニューラルフラクタル微分方程式

Neural Fractional Differential Equations ( http://arxiv.org/abs/2403.02737v2 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L. L. Ferrás, (参考訳) FDE(Fractional Differential Equations)は、科学や工学において複雑なシステムをモデル化するための重要なツールである。 彼らは従来の微分と統合の概念を非整数順序に拡張し、非局所的およびメモリ依存的な振る舞いによって特徴づけられるプロセスのより正確な表現を可能にした。 この特性は、変数が即座に変更に応答せず、代わりに過去の相互作用の強い記憶を示すシステムで有用である。 このことを念頭に置いて、ニューラル正規微分方程式(Neural Ordinary Differential Equations,Neural ODEs)からインスピレーションを得て、FDEをデータのダイナミックスに調整する新しいディープニューラルネットワークアーキテクチャであるNeural FDEを提案する。 本稿では,ニューラルFDEとニューラルFDEアーキテクチャにおける数値手法について概観する。 数値的な結果は、より計算的に要求されているにもかかわらず、ニューラルFDEは過去の状態へのメモリや依存を持つモデリングシステムにおいてニューラルODEよりも優れており、より複雑な力学系を学習するために効果的に適用可能であることを示唆している。

Fractional Differential Equations (FDEs) are essential tools for modelling complex systems in science and engineering. They extend the traditional concepts of differentiation and integration to non-integer orders, enabling a more precise representation of processes characterised by non-local and memory-dependent behaviours. This property is useful in systems where variables do not respond to changes instantaneously, but instead exhibit a strong memory of past interactions. Having this in mind, and drawing inspiration from Neural Ordinary Differential Equations (Neural ODEs), we propose the Neural FDE, a novel deep neural network architecture that adjusts a FDE to the dynamics of data. This work provides a comprehensive overview of the numerical method employed in Neural FDEs and the Neural FDE architecture. The numerical outcomes suggest that, despite being more computationally demanding, the Neural FDE may outperform the Neural ODE in modelling systems with memory or dependencies on past states, and it can effectively be applied to learn more intricate dynamical systems.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# マルチモーダルテスト時間適応のための信頼性のある時空間ボクセル

Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation ( http://arxiv.org/abs/2403.06461v3 )

ライセンス: Link先を確認
Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Lihua Xie, (参考訳) マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。 従来のMM-TTA法では, 連続するフレーム内の幾何学的近傍の予測は高い相関関係にあるという事実を無視し, 時間とともに不安定な予測を導いた。 このギャップを埋めるために,マルチモーダル3次元セグメンテーションのための信頼性の高い相互時空間対応を利用するMM-TTA法であるReliable Spatial-temporal Voxels (Latte)を提案する。 ラッテは、信頼性のある予測がそれらの時空間対応と一致すべきであるという事実に感銘を受け、連続したフレームをスライドウィンドウで集約し、各モードの時間的局所的な予測一貫性を捉えるために、時空間テモペラル(ST)ボクセルを構築する。 高いSTエントロピーでSTボクセルをフィルタリングした後、ラッテは空間的にも時間的にも信頼性が高く一貫した予測を行う。 実験結果から,従来のMM-TTA法やTTA法と比較して,3種類のMM-TTAベンチマークの最先端性能が得られた。 プロジェクトのサイト https://sites.google.com/view/eccv24-latte をご覧ください。

Multi-modal test-time adaptation (MM-TTA) is proposed to adapt models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. Previous MM-TTA methods for 3D segmentation rely on predictions of cross-modal information in each input frame, while they ignore the fact that predictions of geometric neighborhoods within consecutive frames are highly correlated, leading to unstable predictions across time. To fulfill this gap, we propose ReLiable Spatial-temporal Voxels (Latte), an MM-TTA method that leverages reliable cross-modal spatial-temporal correspondences for multi-modal 3D segmentation. Motivated by the fact that reliable predictions should be consistent with their spatial-temporal correspondences, Latte aggregates consecutive frames in a slide window manner and constructs Spatial-Temopral (ST) voxels to capture temporally local prediction consistency for each modality. After filtering out ST voxels with high ST entropy, Latte conducts cross-modal learning for each point and pixel by attending to those with reliable and consistent predictions among both spatial and temporal neighborhoods. Experimental results show that Latte achieves state-of-the-art performance on three different MM-TTA benchmarks compared to previous MM-TTA or TTA methods. Visit our project site https://sites.google.com/view/eccv24-latte.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# HAIFIT:ファッション画像翻訳のための人間中心AI

HAIFIT: Human-Centered AI for Fashion Image Translation ( http://arxiv.org/abs/2403.08651v3 )

ライセンス: Link先を確認
Jianan Jiang, Xinglin Li, Weiren Yu, Di Wu, (参考訳) ファッションデザインの領域では、スケッチはアーティストの独特のドローイングスタイルと創造的なビジョンを表現するためのキャンバスとして機能し、ストロークのバリエーションやテクスチャのニュアンスといった複雑な詳細を捉えている。 スケッチ・ツー・イメージのクロスモーダル翻訳技術の出現は、デザイナを特に助けてきた。 しかし、既存の手法はしばしばこれらのスケッチの詳細を画像生成中に妥協し、設計者の意図した概念から逸脱する結果となる。 この制限は、デザイナーに最終的な出力の正確なプレビューを提供する能力を損なう。 この課題を克服するために,マルチスケール機能を統合し,多様な視点から広範な特徴マップ依存性をキャプチャすることで,スケッチを高忠実なライフライクな衣料品画像に変換する新しいアプローチであるHAIFITを導入する。 本手法は,我々の自己収集データセット上で行った定性的,定量的な評価を通じて,既存のフォトリアリスティックな衣料品画像生成手法と比較して,優れた性能を示す。 本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。 さらに,本手法は,設計者の時間的コスト低減と設計効率の向上に寄与し,モデルトレーニングと推論速度において明らかな優位性を有する。

In the realm of fashion design, sketches serve as the canvas for expressing an artist's distinctive drawing style and creative vision, capturing intricate details like stroke variations and texture nuances. The advent of sketch-to-image cross-modal translation technology has notably aided designers. However, existing methods often compromise these sketch details during image generation, resulting in images that deviate from the designer's intended concept. This limitation hampers the ability to offer designers a precise preview of the final output. To overcome this challenge, we introduce HAIFIT, a novel approach that transforms sketches into high-fidelity, lifelike clothing images by integrating multi-scale features and capturing extensive feature map dependencies from diverse perspectives. Through extensive qualitative and quantitative evaluations conducted on our self-collected dataset, our method demonstrates superior performance compared to existing methods in generating photorealistic clothing images. Our method excels in preserving the distinctive style and intricate details essential for fashion design applications. In addition, our method also has obvious advantages in model training and inference speed, contributing to reducing designers' time costs and improving design efficiency.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# 熱拡散による効率的な組合せ最適化

Efficient Combinatorial Optimization via Heat Diffusion ( http://arxiv.org/abs/2403.08757v3 )

ライセンス: Link先を確認
Hengyuan Ma, Wenlian Lu, Jianfeng Feng, (参考訳) 組合せ最適化問題は広く存在するが、本質的には離散的な性質のため困難である。 既存の手法の最大の限界は、各イテレーションで解空間のごく一部しかアクセスできないことであり、グローバル最適探索の効率が限界であることであり、この課題を克服するために、解の探索範囲を拡大する従来の取り組みから切り離して、熱拡散による解に積極的に伝播する情報の実現に重点を置いている。 目標関数を最適に保ちながら変換することにより、熱拡散は、遠隔地からソルバへの情報流を容易にし、より効率的なナビゲーションを提供する。 熱拡散を利用した一般的な組合せ最適化問題の解法を提案し,最も困難かつ広く遭遇する組合せ最適化の範囲で優れた性能を示す。 生成人工知能に熱力学を応用した最近の進歩を振り返って, 組合せ最適化の進歩におけるその大きな可能性を明らかにした。

Combinatorial optimization problems are widespread but inherently challenging due to their discrete nature. The primary limitation of existing methods is that they can only access a small fraction of the solution space at each iteration, resulting in limited efficiency for searching the global optimal.To overcome this challenge, diverging from conventional efforts of expanding the solver's search scope, we focus on enabling information to actively propagate to the solver through heat diffusion. By transforming the target function while preserving its optima, heat diffusion facilitates information flow from distant regions to the solver, providing more efficient navigation. Utilizing heat diffusion, we propose a framework for solving general combinatorial optimization problems.The proposed methodology demonstrates superior performance across a range of the most challenging and widely encountered combinatorial optimizations. Echoing recent advancements in harnessing thermodynamics for generative artificial intelligence, our study further reveals its significant potential in advancing combinatorial optimization.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# ブロック検証は投機的復号化を加速する

Block Verification Accelerates Speculative Decoding ( http://arxiv.org/abs/2403.10444v2 )

ライセンス: Link先を確認
Ziteng Sun, Uri Mendlovic, Yaniv Leviathan, Asaf Aharoni, Ahmad Beirami, Jae Hun Ro, Ananda Theertha Suresh, (参考訳) 投機的復号化は、推論中に大きな言語モデルのロスレスアクセラレーションに有効な方法である。 高速モデルを使用してトークンのブロックをドラフトし、ターゲットモデルによって並列に検証され、出力がターゲットモデルからのサンプルと同一に分散されることを保証する。 以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。 驚くべきことに、このアプローチは最適ではありません。 ブロック全体を共同で検証し,ウォールクロックの高速化を実現する,シンプルなドラフト検証アルゴリズムであるBlock Verificationを提案する。 提案手法は,各イテレーションで生成されるトークンの期待数において最適であり,特に標準トークンレベルの検証よりも悪いものではないことを実証する。 実証的には、ブロック検証は、さまざまなタスクやデータセットで5%-8%の標準的なトークン検証アルゴリズムに対して、控えめだが一貫したウォールクロックのスピードアップを提供する。 ブロック検証がコードの複雑さを増さないこと、標準的な投機的復号化検証アルゴリズムの強い損失のない保証を維持すること、性能を劣化させることができないこと、そして実際にそれを継続的に改善することを考えると、投機的復号化実装において良いデフォルトとして使用できる。

Speculative decoding is an effective method for lossless acceleration of large language models during inference. It uses a fast model to draft a block of tokens which are then verified in parallel by the target model, and provides a guarantee that the output is distributed identically to a sample from the target model. In prior works, draft verification is performed independently token-by-token. Surprisingly, we show that this approach is not optimal. We propose Block Verification, a simple draft verification algorithm that verifies the entire block jointly and provides additional wall-clock speedup. We prove that the proposed mechanism is optimal in the expected number of tokens produced each iteration and specifically is never worse than the standard token-level verification. Empirically, block verification provides modest but consistent wall-clock speedups over the standard token verification algorithm of 5%-8% in a range of tasks and datasets. Given that block verification does not increase code complexity, maintains the strong lossless guarantee of the standard speculative decoding verification algorithm, cannot deteriorate performance, and, in fact, consistently improves it, it can be used as a good default in speculative decoding implementations.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-25
# BEVCar:BEVマップとオブジェクトセグメンテーションのためのカメラレーダーフュージョン

BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation ( http://arxiv.org/abs/2403.11761v2 )

ライセンス: Link先を確認
Jonas Schramm, Niclas Vödisch, Kürsat Petek, B Ravi Kiran, Senthil Yogamani, Wolfram Burgard, Abhinav Valada, (参考訳) 鳥眼ビュー(BEV)の観点からのセマンティックシーンセグメンテーションは,移動ロボットの計画と意思決定を促進する上で重要な役割を担っている。 最近の視覚のみの手法は、性能の顕著な進歩を示しているが、雨や夜間などの悪照明条件下では、しばしば苦労する。 アクティブセンサーはこの課題に対する解決策を提供するが、LiDARの高コストは制限要因である。 カメラデータを自動車レーダーで融合させることは、より安価な代替手段となるが、以前の研究ではあまり注目されなかった。 本研究は,BEVCarと地図セグメンテーションを融合した新しいBEVCarを導入することで,この将来性のある道を推し進めることを目的としている。 我々のアプローチの中核的な特徴は、まず生のレーダーデータのポイントベース符号化を学習し、BEV空間への画像特徴の持ち上げを効率的に初期化することである。 nuScenesデータセットに関する広範な実験を行い、BEVCarが現在の最先端技術より優れていることを示す。 さらに,レーダ情報の導入により,環境条件の難易度が著しく向上し,遠隔物体のセグメンテーション性能が向上することを示す。 将来の研究を促進するため、実験で使用したnuScenesデータセットの天気予報と、http://bevcar.cs.uni-freiburg.deでトレーニングされたモデルを提供しています。

Semantic scene segmentation from a bird's-eye-view (BEV) perspective plays a crucial role in facilitating planning and decision-making for mobile robots. Although recent vision-only methods have demonstrated notable advancements in performance, they often struggle under adverse illumination conditions such as rain or nighttime. While active sensors offer a solution to this challenge, the prohibitively high cost of LiDARs remains a limiting factor. Fusing camera data with automotive radars poses a more inexpensive alternative but has received less attention in prior research. In this work, we aim to advance this promising avenue by introducing BEVCar, a novel approach for joint BEV object and map segmentation. The core novelty of our approach lies in first learning a point-based encoding of raw radar data, which is then leveraged to efficiently initialize the lifting of image features into the BEV space. We perform extensive experiments on the nuScenes dataset and demonstrate that BEVCar outperforms the current state of the art. Moreover, we show that incorporating radar information significantly enhances robustness in challenging environmental conditions and improves segmentation performance for distant objects. To foster future research, we provide the weather split of the nuScenes dataset used in our experiments, along with our code and trained models at http://bevcar.cs.uni-freiburg.de.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# DistClassiPyを用いた光曲線分類:新しい距離ベース分類器

Light Curve Classification with DistClassiPy: a new distance-based classifier ( http://arxiv.org/abs/2403.12120v2 )

ライセンス: Link先を確認
Siddharth Chaini, Ashish Mahabal, Ajit Kembhavi, Federica B. Bianco, (参考訳) シントロピック・スカイサーベイの台頭は、時間領域天文学におけるビッグデータの時代に始まり、データ科学と機械学習が天体の研究に欠かせないツールとなった。 木に基づくモデル(例:ランダムフォレスト)とディープラーニングモデル(en:Deep Learning model)がこの分野を支配しているのに対し、天体の分類に異なる距離のメトリクスを用いることについて検討する。 距離メートル法に基づく新しい分類器であるDistClassiPyを開発した。 距離測定の直接的利用は時間領域天文学では探索されていないが、距離に基づく手法は分類をより解釈し、計算コストを減らすのに役立つ。 特に、可変星の光曲線を分類するためにDistClassiPyを適用し、異なるクラスの物体間の距離を比較した。 10クラスにまたがる6,000個の変光星のカタログ上で18距離の測定値を用いて、分類と次元の減少を実証した。 我々の分類器は最先端の性能に適合するが,計算能力は低く,解釈性も向上している。 さらに、DistClassiPyは、その分類に最も効果的な距離メートル法を特定することで、特定のオブジェクトに合わせることができる。 DistClassiPyをオープンソースにして、https://pypi.org/project/distclassipy/で公開しました。

The rise of synoptic sky surveys has ushered in an era of big data in time-domain astronomy, making data science and machine learning essential tools for studying celestial objects. While tree-based models (e.g. Random Forests) and deep learning models dominate the field, we explore the use of different distance metrics to aid in the classification of astrophysical objects. We developed DistClassiPy, a new distance metric based classifier. The direct use of distance metrics is unexplored in time-domain astronomy, but distance-based methods can help make classification more interpretable and decrease computational costs. In particular, we applied DistClassiPy to classify light curves of variable stars, comparing the distances between objects of different classes. Using 18 distance metrics on a catalog of 6,000 variable stars across 10 classes, we demonstrate classification and dimensionality reduction. Our classifier meets state-of-the-art performance but has lower computational requirements and improved interpretability. Additionally, DistClassiPy can be tailored to specific objects by identifying the most effective distance metric for that classification. To facilitate broader applications within and beyond astronomy, we have made DistClassiPy open-source and available at https://pypi.org/project/distclassipy/.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# 地図に基づく経路計画における強化学習のための等変アンサンブルと正規化

Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning ( http://arxiv.org/abs/2403.12856v2 )

ライセンス: Link先を確認
Mirco Theile, Hongpeng Cao, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli, (参考訳) 強化学習(RL)では、環境対称性を活用することにより、効率、堅牢性、性能が著しく向上する。 しかし、これらの対称性を利用するために、深いRLポリシーと値ネットワークがそれぞれ同変であることを保証することは、大きな課題である。 関連する研究は、構成によって不変で不変なネットワークを設計し、それを非常に制限されたコンポーネントのライブラリに制限することで、ネットワークの表現性を損なう。 本稿では,同変アンサンブル(等変アンサンブル)と呼ぶ特殊なニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。 さらに、トレーニング中に帰納バイアスを追加するための正規化用語を追加します。 マップに基づく経路計画ケーススタディでは、等変アンサンブルと正規化がサンプル効率と性能にどのような影響を及ぼすかを示す。

In reinforcement learning (RL), exploiting environmental symmetries can significantly enhance efficiency, robustness, and performance. However, ensuring that the deep RL policy and value networks are respectively equivariant and invariant to exploit these symmetries is a substantial challenge. Related works try to design networks that are equivariant and invariant by construction, limiting them to a very restricted library of components, which in turn hampers the expressiveness of the networks. This paper proposes a method to construct equivariant policies and invariant value functions without specialized neural network components, which we term equivariant ensembles. We further add a regularization term for adding inductive bias during training. In a map-based path planning case study, we show how equivariant ensembles and regularization benefit sample efficiency and performance.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# よりよいコールSAL: ライダーであらゆるものをセグメンテーションする学習を目指す

Better Call SAL: Towards Learning to Segment Anything in Lidar ( http://arxiv.org/abs/2403.13129v2 )

ライセンス: Link先を確認
Aljoša Ošep, Tim Meinhardt, Francesco Ferroni, Neehar Peri, Deva Ramanan, Laura Leal-Taixé, (参考訳) そこで本研究では,SAL(Segment Anything in Lidar)手法を提案する。SAL(Segment Anything in Lidar)手法は,テキストプロンプト可能なゼロショットモデルで,任意のオブジェクトの分類と分類を行う。 Lidar Panoptic Segmentation (LPS) の確立したパラダイムは、事前定義された少数のオブジェクトクラスの手動による監督に依存しているのに対し、我々は2次元視覚基盤モデルを使用して、3Dの監督「無償」を生成する。 擬似ラベルはインスタンスマスクと対応するCLIPトークンで構成されており、校正マルチモーダルデータを用いてLidarに持ち込む。 これらのラベルに基づいてモデルをトレーニングすることにより、2次元基礎モデルをLidar SALモデルに蒸留する。 手動ラベルがなくても、クラスに依存しないセグメンテーションでは911\%、完全に監督された最先端のゼロショットLidar Panoptic Segmentationでは54\%である。 さらに, 蒸留ではなく, リフト画像の特徴を3Dに反映したいくつかのベースラインの性能を向上する。 さらに重要なことは、SALが任意のクラスプロンプトをサポートし、新しいデータセットに容易に拡張できることを示し、自己ラベル付きデータの増加とともに改善する可能性を示している。 コードとモデルは、この$\href{https://github.com/nv-dvl/segment-anything-lidar}{URL}$で入手できる。

We propose the SAL (Segment Anything in Lidar) method consisting of a text-promptable zero-shot model for segmenting and classifying any object in Lidar, and a pseudo-labeling engine that facilitates model training without manual supervision. While the established paradigm for Lidar Panoptic Segmentation (LPS) relies on manual supervision for a handful of object classes defined a priori, we utilize 2D vision foundation models to generate 3D supervision ``for free''. Our pseudo-labels consist of instance masks and corresponding CLIP tokens, which we lift to Lidar using calibrated multi-modal data. By training our model on these labels, we distill the 2D foundation models into our Lidar SAL model. Even without manual labels, our model achieves $91\%$ in terms of class-agnostic segmentation and $54\%$ in terms of zero-shot Lidar Panoptic Segmentation of the fully supervised state-of-the-art. Furthermore, we outperform several baselines that do not distill but only lift image features to 3D. More importantly, we demonstrate that SAL supports arbitrary class prompts, can be easily extended to new datasets, and shows significant potential to improve with increasing amounts of self-labeled data. Code and models are available at this $\href{https://github.com/nv-dvl/segment-anything-lidar}{URL}$.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# モデル編集のための統一フレームワーク

A Unified Framework for Model Editing ( http://arxiv.org/abs/2403.14236v4 )

ライセンス: Link先を確認
Akshat Gupta, Dev Sajnani, Gopala Anumanchipalli, (参考訳) ROMEとMEMITは2つの異なるモデル編集アルゴリズムであると考えられており、大きな違いはバッチ編集を行う能力である。 本稿では,この2つのアルゴリズムを1つの概念的傘の下に統一し,同じ目的を最適化する。 ROMEはこの目的を最適化して一度に1回の編集を行うのに対して、MEMITはバッチ編集が可能なより柔軟な最小2乗制約を使用する。 我々は、ROMEを一般化し、EMMET(Equality-Constrained Mass Model Editing Algorithm for Transformers)という新しいバッチメモリ編集アルゴリズムを用いて、等式制約付きバッチ編集を可能にする。 EMMETは、複数の次元にわたるMEMITと非常によく似たパフォーマンスで、1万のバッチサイズまでバッチ編集を行うことができる。 EMMETの導入により、ROMEとMEMITを真に統合し、両アルゴリズムが最適化目標、能力(単体・バッチ編集)、モデル編集性能および制限の観点から等価であることを示す。

ROME and MEMIT are largely believed to be two different model editing algorithms, with the major difference between them being the ability to perform batched edits. In this paper, we unify these two algorithms under a single conceptual umbrella, optimizing for the same goal, which we call the preservation-memorization objective. ROME uses an equality constraint to optimize this objective to perform one edit at a time, whereas MEMIT employs a more flexible least-square constraint that allows for batched edits. We generalize ROME and enable batched editing with equality constraint in the form of EMMET - an Equality-constrained Mass Model Editing algorithm for Transformers, a new batched memory-editing algorithm. EMMET can perform batched-edits up to a batch-size of 10,000, with very similar performance to MEMIT across multiple dimensions. With the introduction of EMMET, we truly unify ROME and MEMIT and show that both algorithms are equivalent in terms of their optimization objective, their abilities (singular and batched editing), their model editing performance and their limitations.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# 機械学習と基底状態エネルギー近似のための小型量子コンピュータの利用

Utilizing small quantum computers for machine learning and ground state energy approximation ( http://arxiv.org/abs/2403.14406v2 )

ライセンス: Link先を確認
Stian Bilek, (参考訳) 量子回路分割(Quantum circuit partitioning, QCP)は、小さな量子コンピュータ上の大規模量子システムをシミュレートすることを目的としたハイブリッド量子古典的アプローチである。 量子計算はより小さなサブシステムに分割され、これらのサブシステムにおける測定結果は古典的な処理で組み合わせられる。 本稿では,より小型の量子系を用いて,大規模量子系上で観測可能な観測値を測定するためのQCP戦略を提案する。 本手法は, 機械学習と変動基底状態エネルギー近似の両方に適用可能であり, 必要な計算量と勾配のばらつきを, キュービットの総数で効率的にスケールできるように調整可能であることを示す。 これにより、バレン高原のよく知られた問題を緩和することができる。 さらに,各サブシステム上でパウリ弦を簡易に測定することにより,パラメータシフト則などの一般的な手法で勾配を推定できる。 本手法は1次元横フィールドイジングモデルの基底状態エネルギーを周期的境界条件で近似し,手書き桁を分類することによって実証する。 基底状態エネルギー近似では,全ての試験系サイズに対して0.1%の範囲で相対誤差を達成した。 桁3と6の分類に適用すると、100%精度でサンプル外データに一般化することができた。

Quantum circuit partitioning (QCP) is a hybrid quantum-classical approach that aims to simulate large quantum systems on smaller quantum computers. A quantum computation is divided into smaller subsystems and results of measurements on these subsystems are combined using classical processing. In this paper, we propose a QCP strategy to measure an observable on a large quantum system by utilizing several quantum systems of smaller size. The method can be applied to both machine learning and variational ground state energy approximation, and we show that the required calculations and the variance of the gradients can be tailored to scale efficiently with the total number of qubits. Thus it can be utilized to mitigate the well-known problem of barren plateaus. Additionally, the method can be realized by performing simple measurements of Pauli-strings on the separate subsystems, and the gradients can be estimated with common methods such as the parameter-shift rule. We demonstrate the method by approximating the ground state energy of the 1D transverse-field Ising model with periodic boundary conditions, and by classifying handwritten digits. For the ground state energy approximation, we achieved a relative error within the order of 0.1% for all the tested systems sizes. When applied to the classification between the digits 3 and 6, we were able to generalize to out-of-sample data with 100% accuracy.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# AutoRE:大規模言語モデルを用いた文書レベル関係抽出

AutoRE: Document-Level Relation Extraction with Large Language Models ( http://arxiv.org/abs/2403.14888v2 )

ライセンス: Link先を確認
Lilong Xue, Dan Zhang, Yuxiao Dong, Jie Tang, (参考訳) 大規模言語モデル(LLM)は、テキストの理解と生成において例外的な能力を示しており、関係抽出(RE)を含む情報抽出(IE)の目的のために多くの研究者がそれらを利用する動機となっている。 しかしながら、既存のほとんどの手法は文レベルの関係抽出(SentRE)タスクのために設計されている。 さらに、いくつかのアプローチでは、関係をプロンプトテンプレートに統合した候補選択として扱うことで、ドキュメント・レベル関係抽出(DocRE)タスクに対処する際の非効率な処理と準最適性能を実現している。 これらの制限を克服するために、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンドツーエンドのDocREモデルであるAutoREを紹介する。 既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。 さらに,パラメータ・エフェクト・ファイン・チューニング(PEFT)アルゴリズム(QLoRA)を用いて,容易に拡張可能なREフレームワークを開発した。 RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、開発セットとテストセットでそれぞれ10.03\%と9.03\%を上回り、最先端の結果を達成した。 コードは https://github.com/THUDM/AutoRE} で、デモビデオはhttps://www.youtube.com/watch? v=IhKRszuAxKk

Large Language Models (LLMs) have demonstrated exceptional abilities in comprehending and generating text, motivating numerous researchers to utilize them for Information Extraction (IE) purposes, including Relation Extraction (RE). Nonetheless, most existing methods are predominantly designed for Sentence-level Relation Extraction (SentRE) tasks, which typically encompass a restricted set of relations and triplet facts within a single sentence. Furthermore, certain approaches resort to treating relations as candidate choices integrated into prompt templates, leading to inefficient processing and suboptimal performance when tackling Document-Level Relation Extraction (DocRE) tasks, which entail handling multiple relations and triplet facts distributed across a given document, posing distinct challenges. To overcome these limitations, we introduce AutoRE, an end-to-end DocRE model that adopts a novel RE extraction paradigm named RHF (Relation-Head-Facts). Unlike existing approaches, AutoRE does not rely on the assumption of known relation options, making it more reflective of real-world scenarios. Additionally, we have developed an easily extensible RE framework using a Parameters Efficient Fine Tuning (PEFT) algorithm (QLoRA). Our experiments on the RE-DocRED dataset showcase AutoRE's best performance, achieving state-of-the-art results, surpassing TAG by 10.03\% and 9.03\% respectively on the dev and test set. The code is available\url{https://github.com/THUDM/AutoRE} and the demonstration video is provided https://www.youtube.com/watch?v=IhKRsZUAxKk
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# InternVideo2:マルチモーダルビデオ理解のための基盤モデルのスケーリング

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding ( http://arxiv.org/abs/2403.15377v2 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Chenting Wang, Guo Chen, Baoqi Pei, Ziang Yan, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang, (参考訳) InternVideo2はビデオファウンデーションモデル(ViFM)の新たなファミリーで、ビデオ認識、ビデオテキストタスク、ビデオ中心対話の最先端結果を実現する。 私たちのコアデザインは、マスク付きビデオモデリング、クロスモーダルコントラスト学習、および次のトークン予測を統合し、ビデオエンコーダのサイズを6Bパラメータにスケールアップするプログレッシブトレーニングアプローチです。 データレベルでは、ビデオのセグメンテーションと音声・音声のキャプションの生成により、時空間の一貫性を優先する。 これにより、ビデオとテキストのアライメントが改善される。 広範にわたる実験を通じて,60以上のビデオおよびオーディオタスクにおいて,設計を検証し,優れた性能を示す。 特に,我々のモデルは,様々なビデオ関連対話や長いビデオ理解ベンチマークにおいて他者より優れており,より長い文脈を推論し理解する能力を強調している。 コードとモデルはhttps://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/で入手できる。

We introduce InternVideo2, a new family of video foundation models (ViFM) that achieve the state-of-the-art results in video recognition, video-text tasks, and video-centric dialogue. Our core design is a progressive training approach that unifies the masked video modeling, crossmodal contrastive learning, and next token prediction, scaling up the video encoder size to 6B parameters. At the data level, we prioritize spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. Through extensive experiments, we validate our designs and demonstrate superior performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related dialogue and long video understanding benchmarks, highlighting its ability to reason and comprehend longer contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# ALICE実験における不完全データからの機械学習による粒子識別

Particle identification with machine learning from incomplete data in the ALICE experiment ( http://arxiv.org/abs/2403.17436v3 )

ライセンス: Link先を確認
Maja Karwowska, Łukasz Graczykowski, Kamil Deja, Miłosz Kasak, Małgorzata Janik, (参考訳) LHCでのALICE実験は、超相対論的重イオン衝突で形成される強く相互作用する物質の特性を測定する。 このような研究には正確な粒子識別(PID)が必要である。 ALICEは、約100MeV/cから20GeV/cまでの運動量を持つ粒子の複数の検出器を介してPID情報を提供する。 伝統的に、粒子は長方形の切断で選択される。 機械学習(ML)メソッドで、はるかに優れたパフォーマンスを実現することができる。 私たちのソリューションでは、バイナリ分類器として複数のニューラルネットワーク(NN)を使用します。 さらに,不完全サンプルを用いたデータトレーニングのために,特徴セット埋め込みと注意を付加した粒子分類器を拡張した。 また、ALICE解析ソフトウェアとMLプロジェクトの統合について述べるとともに、シミュレーションデータと実実験データの間で知識を伝達するために必要なML技術であるドメイン適応について論じる。

The ALICE experiment at the LHC measures properties of the strongly interacting matter formed in ultrarelativistic heavy-ion collisions. Such studies require accurate particle identification (PID). ALICE provides PID information via several detectors for particles with momentum from about 100 MeV/c up to 20 GeV/c. Traditionally, particles are selected with rectangular cuts. A much better performance can be achieved with machine learning (ML) methods. Our solution uses multiple neural networks (NN) serving as binary classifiers. Moreover, we extended our particle classifier with Feature Set Embedding and attention in order to train on data with incomplete samples. We also present the integration of the ML project with the ALICE analysis software, and we discuss domain adaptation, the ML technique needed to transfer the knowledge between simulated and real experimental data.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# ReMamber:Mamba Twisterでイメージセグメンテーションを参照

ReMamber: Referring Image Segmentation with Mamba Twister ( http://arxiv.org/abs/2403.17839v2 )

ライセンス: Link先を確認
Yuhuan Yang, Chaofan Ma, Jiangchao Yao, Zhun Zhong, Ya Zhang, Yanfeng Wang, (参考訳) Referring Image Segmentation~(RIS) leverageing transformer has achieved great success on the interpretation of complex visual-lang tasks。 しかし、二次計算コストは、長期の視覚言語依存を捉えるのにリソースを消費する。 幸いなことに、Mambaは処理の効率的な線形複雑性によってこの問題に対処している。 しかし、マンバを直接マルチモーダル相互作用に適用することは、主にマルチモーダルデータの効果的な融合のためのチャンネル間相互作用が不十分なため、課題を提起する。 本稿では,マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャであるReMamberを提案する。 Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。 単純で効率的なアーキテクチャで3つの挑戦的なベンチマークで競合する結果を得る。 さらに、ReMamberの徹底的な解析を行い、Mambaを用いた他の融合設計について議論する。 これらは将来の研究に価値ある視点を与えてくれる。 コードはhttps://github.com/yyh-rain-song/ReMamber.comでリリースされた。

Referring Image Segmentation~(RIS) leveraging transformers has achieved great success on the interpretation of complex visual-language tasks. However, the quadratic computation cost makes it resource-consuming in capturing long-range visual-language dependencies. Fortunately, Mamba addresses this with efficient linear complexity in processing. However, directly applying Mamba to multi-modal interactions presents challenges, primarily due to inadequate channel interactions for the effective fusion of multi-modal data. In this paper, we propose ReMamber, a novel RIS architecture that integrates the power of Mamba with a multi-modal Mamba Twister block. The Mamba Twister explicitly models image-text interaction, and fuses textual and visual features through its unique channel and spatial twisting mechanism. We achieve competitive results on three challenging benchmarks with a simple and efficient architecture. Moreover, we conduct thorough analyses of ReMamber and discuss other fusion designs using Mamba. These provide valuable perspectives for future research. The code has been released at: https://github.com/yyh-rain-song/ReMamber.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# Diff-Reg v1: 登録問題に対する拡散マッチングモデル

Diff-Reg v1: Diffusion Matching Model for Registration Problem ( http://arxiv.org/abs/2403.19919v4 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Lei Luo, Jun Li, Yaqing Ding, Jin Xie, Jian Yang, (参考訳) 3Dや2D3Dの登録のような登録タスクには、信頼できる対応を確立することが不可欠である。 既存の手法では、幾何学的あるいは意味的な特徴を利用して潜在的な対応を生成する。 しかし、これらの特徴は大きな変形、スケールの不整合、曖昧なマッチング問題(例えば対称性)といった課題に直面している可能性がある。 さらに、シングルパス予測に依存する多くの従来の手法は、複雑なシナリオにおいて局所ミニマと競合する可能性がある。 これらの課題を軽減するために,ロバスト対応構築のための拡散マッチングモデルを提案する。 提案手法は, 2次確率行列空間内の共振拡散過程として対応し, 2次確率マッチング行列を2次確率マッチング行列から2次確率マッチング行列に分解し,高品質な対応推定を行う。 これは、ガウス雑音を基底の真理マッチング行列に徐々に導入する前方拡散過程と、雑音マッチング行列を反復的に洗練する逆復調過程を含む。 特に、バックボーンからの特徴抽出は推論フェーズ中に1回だけ発生する。 我々の軽量デノナイジングモジュールは、各逆サンプリングステップで同じ機能を利用する。 3次元および2次元の登録タスクにおける本手法の有効性を検証した。 コードはhttps://github.com/wuqianliang/Diff-Reg.comで公開されている。

Establishing reliable correspondences is essential for registration tasks such as 3D and 2D3D registration. Existing methods commonly leverage geometric or semantic point features to generate potential correspondences. However, these features may face challenges such as large deformation, scale inconsistency, and ambiguous matching problems (e.g., symmetry). Additionally, many previous methods, which rely on single-pass prediction, may struggle with local minima in complex scenarios. To mitigate these challenges, we introduce a diffusion matching model for robust correspondence construction. Our approach treats correspondence estimation as a denoising diffusion process within the doubly stochastic matrix space, which gradually denoises (refines) a doubly stochastic matching matrix to the ground-truth one for high-quality correspondence estimation. It involves a forward diffusion process that gradually introduces Gaussian noise into the ground truth matching matrix and a reverse denoising process that iteratively refines the noisy matching matrix. In particular, the feature extraction from the backbone occurs only once during the inference phase. Our lightweight denoising module utilizes the same feature at each reverse sampling step. Evaluation of our method on both 3D and 2D3D registration tasks confirms its effectiveness. The code is available at https://github.com/wuqianliang/Diff-Reg.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# より大きなもの? 予算再配置によるLLMコード生成の改善

The Larger the Better? Improved LLM Code-Generation via Budget Reallocation ( http://arxiv.org/abs/2404.00725v2 )

ライセンス: Link先を確認
Michael Hassid, Tal Remez, Jonas Gehring, Roy Schwartz, Yossi Adi, (参考訳) 大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。 しかし、より大きなモデルでは推論の時間と計算時間もかなり必要である。 両方のモデルが同じ予算の下で動作した場合、どうなるのか? (例えば、計算、実行時)。 この問題に対処するために、我々は様々なサイズのコード生成LLMを分析し、70Bモデルを実行する場合と13Bモデルから5つの出力を生成する場合の比較を行った。 我々は、より小さなモデルから正しい出力を選択するのに使用できる標準の単体テストの設定を考える。 これらの結果から,5つのタスクで最大15%のゲインを達成し,より小さなモデルの繰り返し使用が一貫した改善をもたらすことが判明した。 一方、単体テストが利用できないシナリオでは、より小さなモデルからの候補のランキングベースの選択は、より大きなモデルからの単一出力のパフォーマンスに劣る。 この結果から,より大きなモデルではなく,より小さなモデルを採用する可能性や,LLM出力のランク付け方法の研究の重要性が浮き彫りになった。

It is a common belief that large language models (LLMs) are better than smaller-sized ones. However, larger models also require significantly more time and compute during inference. This begs the question: what happens when both models operate under the same budget? (e.g., compute, run-time). To address this question, we analyze code generation LLMs of various sizes and make comparisons such as running a 70B model once vs. generating five outputs from a 13B model. We consider a standard unit-test setup, which can be used to select the correct output from the smaller model. Our findings reveal that the repeated use of smaller models can yield consistent improvements, with gains of up to 15% across five tasks. On the other hand, in scenarios where unit-tests are unavailable, a ranking-based selection of candidates from the smaller model falls short of the performance of a single output from larger ones. Our results highlight the potential of using smaller models instead of larger ones, and the importance of studying approaches for ranking LLM outputs.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# ハイパーグラフニューラルネットワークに関するサーベイ:奥行きとステップバイステップガイド

A Survey on Hypergraph Neural Networks: An In-Depth and Step-By-Step Guide ( http://arxiv.org/abs/2404.01039v3 )

ライセンス: Link先を確認
Sunwoo Kim, Soo Yong Lee, Yue Gao, Alessia Antelmi, Mirko Polato, Kijung Shin, (参考訳) 高次相互作用(HOIs)は、現実世界の複雑なシステムやアプリケーションにおいてユビキタスである。 HOIのディープラーニングに関する調査は、データマイニングと機械学習コミュニティにとって重要な課題となっている。 HOIのネットワークはハイパーグラフとして数学的に表現されるため、ハイパーグラフニューラルネットワーク(HNN)はハイパーグラフ上での表現学習の強力なツールとして登場した。 新たなトレンドを踏まえて,HNNを対象とした最初の調査を,詳細なステップバイステップガイドで紹介する。 本稿では、HNNアーキテクチャ、トレーニング戦略、アプリケーションの概要について概説する。 まず、既存のHNNを4つのデザインコンポーネントに分割します。 (i)入力機能、 (ii)入力構造 (三)メッセージ通過方式、及び (4)訓練戦略。 第2に,HNN がそれぞれのコンポーネントで HOI をどのように処理し,学習するかを検討する。 第3に,HNNの勧告,バイオインフォマティクス,医学,時系列解析,コンピュータビジョンへの応用について概説する。 最後に,限界と今後の方向性について論じる。

Higher-order interactions (HOIs) are ubiquitous in real-world complex systems and applications. Investigation of deep learning for HOIs, thus, has become a valuable agenda for the data mining and machine learning communities. As networks of HOIs are expressed mathematically as hypergraphs, hypergraph neural networks (HNNs) have emerged as a powerful tool for representation learning on hypergraphs. Given the emerging trend, we present the first survey dedicated to HNNs, with an in-depth and step-by-step guide. Broadly, the present survey overviews HNN architectures, training strategies, and applications. First, we break existing HNNs down into four design components: (i) input features, (ii) input structures, (iii) message-passing schemes, and (iv) training strategies. Second, we examine how HNNs address and learn HOIs with each of their components. Third, we overview the recent applications of HNNs in recommendation, bioinformatics and medical science, time series analysis, and computer vision. Lastly, we conclude with a discussion on limitations and future directions.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# PATCH!心理学的分析による大規模言語モデルのベンチマーク:8年生数学の習熟度を事例として

PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics ( http://arxiv.org/abs/2404.01799v2 )

ライセンス: Link先を確認
Qixiang Fang, Daniel L. Oberski, Dong Nguyen, (参考訳) 大規模(マルチモーダル)言語モデル(LLM)の既存のベンチマークの多くは、LLMの学術的習熟度の測定に重点を置いており、多くの場合、モデルパフォーマンスと人間のテストテイカーの比較にも関心がある。 これらのベンチマークはLSMの開発に鍵があることが証明されているが、疑わしい測定品質(例えば、信頼できる方法で何を計測するのか?)、アイテムレベルの品質評価の欠如(例えば、他のものよりも重要か難しいか?)、不明瞭な人口基準(例えば、モデルを比較できるのか? これらの課題に対応するため,学術的習熟度などの潜伏変数の測定を専門とする心理測定学の知識をLLMベンチマークに活用することを提案する。 主な貢献は3つある。 まず, LLMのPychometrics-{A}ssis{T}ed ben{CH}markingのための新しいフレームワークであるPATCHを紹介する。 PATCHは上記の制限に対処し、LLMベンチマーク研究の新しい方向性を示す。 第2に,第8級数学における GPT-4 と Gemini-Pro-Vision の習熟度を56人に対して測定し,PATCH を実装した。 心理測定に基づくアプローチを採用すると、既存のベンチマークプラクティスに基づく評価結果と異なる評価結果が得られることを示す。 第3に,小学校数学・理科におけるLLM習熟度の測定と比較を支援するための,高品質な4つのデータセットをリリースする。

Many existing benchmarks of large (multimodal) language models (LLMs) focus on measuring LLMs' academic proficiency, often with also an interest in comparing model performance with human test takers. While these benchmarks have proven key to the development of LLMs, they suffer from several limitations, including questionable measurement quality (e.g., Do they measure what they are supposed to in a reliable way?), lack of quality assessment on the item level (e.g., Are some items more important or difficult than others?) and unclear human population reference (e.g., To whom can the model be compared?). In response to these challenges, we propose leveraging knowledge from psychometrics - a field dedicated to the measurement of latent variables like academic proficiency - into LLM benchmarking. We make three primary contributions. First, we introduce PATCH: a novel framework for {P}sychometrics-{A}ssis{T}ed ben{CH}marking of LLMs. PATCH addresses the aforementioned limitations, presenting a new direction for LLM benchmark research. Second, we implement PATCH by measuring GPT-4 and Gemini-Pro-Vision's proficiency in 8th grade mathematics against 56 human populations. We show that adopting a psychometrics-based approach yields evaluation outcomes that diverge from those based on existing benchmarking practices. Third, we release 4 high-quality datasets to support measuring and comparing LLM proficiency in grade school mathematics and science against human populations.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-25
# 変形可能な3次元ガウス平滑化のためのガウス内包型変形

Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2404.03613v4 )

ライセンス: Link先を確認
Jeongmin Bae, Seoha Kim, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, (参考訳) 3D Gaussian Splatting (3DGS)は高速かつ高品質な新規ビュー合成を提供するため、動的シーンを表現するために標準3DGSを複数のフレームに変形させる自然な拡張である。 しかし、以前の作品では複雑な動的シーンを正確に再構築することはできなかった。 我々は, 座標関数として構築された変形場の設計に失敗しているとみなす。 3DGSは1つの座標ベースのフレームワークではなく、ガウシアンを中心とする複数のフィールドの混合であるため、このアプローチは問題となる。 この問題を解決するために、変形をガウス毎の埋め込みと時間的埋め込みの関数として定義する。 さらに, 変形を粗く, 微細な変形として分解し, 遅い動きと速い動きをモデル化する。 また, 局所的滑らか度正規化を導入し, 動的領域の細部を改良する。 プロジェクトページ: https://jeongminb.github.io/e-d3dgs/

As 3D Gaussian Splatting (3DGS) provides fast and high-quality novel view synthesis, it is a natural extension to deform a canonical 3DGS to multiple frames for representing a dynamic scene. However, previous works fail to accurately reconstruct complex dynamic scenes. We attribute the failure to the design of the deformation field, which is built as a coordinate-based function. This approach is problematic because 3DGS is a mixture of multiple fields centered at the Gaussians, not just a single coordinate-based framework. To resolve this problem, we define the deformation as a function of per-Gaussian embeddings and temporal embeddings. Moreover, we decompose deformations as coarse and fine deformations to model slow and fast movements, respectively. Also, we introduce a local smoothness regularization for per-Gaussian embedding to improve the details in dynamic regions. Project page: https://jeongminb.github.io/e-d3dgs/
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# トリプレーンを用いた参照型3次元画像編集

Reference-Based 3D-Aware Image Editing with Triplanes ( http://arxiv.org/abs/2404.03632v2 )

ライセンス: Link先を確認
Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, Aysegul Dundar, (参考訳) GAN(Generative Adversarial Networks)は、高品質な画像生成と、潜伏空間を操作することで実際の画像編集のための強力なツールとして登場した。 GANの最近の進歩には、EG3Dのような3次元認識モデルが含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャを備えている。 しかし、3D対応、高品質、参照ベースの画像編集のための統合されたフレームワークを提供することには、限られた注意が払われている。 本研究では,先進的な参照ベース編集における三面体空間の有効性を探索し,実証することにより,このギャップを解消する。 提案手法は, 符号化, 自動位置決め, 三面体特徴の空間的ゆがみ, 融合学習を統合して, 所望の編集を実現する。 さらに,本フレームワークは,多種多様な領域にまたがる汎用性と堅牢性を示し,その効果を動物の顔の編集,マンガの顔や全身の衣服の編集,360度頭部の編集など部分的にスタイリングした編集にまで拡張する。 本手法は,画像誘導2Dおよび3D認識拡散法およびGAN法について,定性的かつ定量的に,関連性のある遅延方向,テキスト,および画像誘導2Dおよび3D認識拡散およびGAN法に対する最先端性能を示す。

Generative Adversarial Networks (GANs) have emerged as powerful tools for high-quality image generation and real image editing by manipulating their latent spaces. Recent advancements in GANs include 3D-aware models such as EG3D, which feature efficient triplane-based architectures capable of reconstructing 3D geometry from single images. However, limited attention has been given to providing an integrated framework for 3D-aware, high-quality, reference-based image editing. This study addresses this gap by exploring and demonstrating the effectiveness of the triplane space for advanced reference-based edits. Our novel approach integrates encoding, automatic localization, spatial disentanglement of triplane features, and fusion learning to achieve the desired edits. Additionally, our framework demonstrates versatility and robustness across various domains, extending its effectiveness to animal face edits, partially stylized edits like cartoon faces, full-body clothing edits, and 360-degree head edits. Our method shows state-of-the-art performance over relevant latent direction, text, and image-guided 2D and 3D-aware diffusion and GAN methods, both qualitatively and quantitatively.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# インドにおける高度なコンピューティング授業におけるLLM利用の分析

Analyzing LLM Usage in an Advanced Computing Class in India ( http://arxiv.org/abs/2404.04603v2 )

ライセンス: Link先を確認
Anupam Garg, Aryaman Raina, Aryan Gupta, Jaskaran Singh, Manav Saini, Prachi Iiitd, Ronit Mehta, Rupin Oberoi, Sachin Sharma, Samyak Jain, Sarthak Tyagi, Utkarsh Arora, Dhruv Kumar, (参考訳) 本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。 主に入門授業に焦点をあて、実際の学生とLLMの相互作用の詳細な分析を欠いている既存の研究とは異なり、我々の研究はこのギャップを埋めている。 インド大学の分散システムクラスから411人の学生を対象に、総合的な分析を行い、3つのプログラミング課題を完了し、Google Formサーベイを通じて経験を共有した。 その結果, 学生はコード生成, デバッグ, 概念質問, テストケース作成など, 様々なタスクにLLMを活用していることがわかった。 彼らは、基本的な文脈的プロンプトから、連鎖的プロンプトや反復的洗練のような高度な技術まで、一連のプロンプト戦略を採用した。 学生は一般的に,LLMを生産性の向上と学習に役立つと考えているが,信頼性の過度な傾向が指摘され,多くの学生が全課題記述を提出して完全なソリューションを得た。 ソフトウェア産業におけるLLMの利用の増加を踏まえ,本研究は,効果的なプロンプト戦略のトレーニングを含む学部カリキュラムの更新と,学術的環境におけるLLM利用のメリットと潜在的な欠点に対する認識を高めることの必要性を強調した。

This study examines the use of large language models (LLMs) by undergraduate and graduate students for programming assignments in advanced computing classes. Unlike existing research, which primarily focuses on introductory classes and lacks in-depth analysis of actual student-LLM interactions, our work fills this gap. We conducted a comprehensive analysis involving 411 students from a Distributed Systems class at an Indian university, where they completed three programming assignments and shared their experiences through Google Form surveys. Our findings reveal that students leveraged LLMs for a variety of tasks, including code generation, debugging, conceptual inquiries, and test case creation. They employed a spectrum of prompting strategies, ranging from basic contextual prompts to advanced techniques like chain-of-thought prompting and iterative refinement. While students generally viewed LLMs as beneficial for enhancing productivity and learning, we noted a concerning trend of over-reliance, with many students submitting entire assignment descriptions to obtain complete solutions. Given the increasing use of LLMs in the software industry, our study highlights the need to update undergraduate curricula to include training on effective prompting strategies and to raise awareness about the benefits and potential drawbacks of LLM usage in academic settings.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# AutoCodeRover: 自律的なプログラム改善

AutoCodeRover: Autonomous Program Improvement ( http://arxiv.org/abs/2404.05427v3 )

ライセンス: Link先を確認
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury, (参考訳) 研究者たちはここ数十年、ソフトウェア開発プロセスの自動化に大きな進歩を遂げてきた。 大規模言語モデル(LLM)の最近の進歩は、LLMベースのプログラミングアシスタントを使用して自動コーディングを実現する開発プロセスに大きな影響を与えている。 それでもソフトウェアエンジニアリングには、特にソフトウェアメンテナンス(バグ修正など)とソフトウェア進化(機能追加など)を可能にするために、コーディングとは別にプログラムの改善プロセスが含まれています。 本稿では、GitHubの問題を解決するための自動化アプローチを提案し、プログラムの改善を自律的に達成する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 AI研究者や実践者による最近のLLMエージェントアプローチとは対照的に、私たちの見通しはよりソフトウェア工学指向である。 我々は、ソフトウェアプロジェクトを単なるファイルの集合として見るのではなく、プログラム表現(抽象構文木)に取り組んでいる。 コード検索では、プログラム構造をクラス/メソッドの形で活用し、LLMの根本原因理解を強化し、反復探索によるコンテキストの検索を効果的に行う。 テストを使用したスペクトルベースのフォールトローカライゼーションは、テストスーツが利用可能である限り、コンテキストをさらに強化する。 SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。 さらにAutoCodeRoverは、他のベースラインと比較して、コスト(平均$0.43 USD)を大幅に下げてこの効果を達成した。 我々のワークフローは自律的なソフトウェアエンジニアリングを可能にし、将来、LLMから自動生成されたコードを自律的に改善できると仮定する。

Researchers have made significant progress in automating the software development process in the past decades. Recent progress in Large Language Models (LLMs) has significantly impacted the development process, where developers can use LLM-based programming assistants to achieve automated coding. Nevertheless, software engineering involves the process of program improvement apart from coding, specifically to enable software maintenance (e.g. bug fixing) and software evolution (e.g. feature additions). In this paper, we propose an automated approach for solving GitHub issues to autonomously achieve program improvement. In our approach called AutoCodeRover, LLMs are combined with sophisticated code search capabilities, ultimately leading to a program modification or patch. In contrast to recent LLM agent approaches from AI researchers and practitioners, our outlook is more software engineering oriented. We work on a program representation (abstract syntax tree) as opposed to viewing a software project as a mere collection of files. Our code search exploits the program structure in the form of classes/methods to enhance LLM's understanding of the issue's root cause, and effectively retrieve a context via iterative search. The use of spectrum-based fault localization using tests, further sharpens the context, as long as a test-suite is available. Experiments on SWE-bench-lite (300 real-life GitHub issues) show increased efficacy in solving GitHub issues (19% on SWE-bench-lite), which is higher than the efficacy of the recently reported SWE-agent. In addition, AutoCodeRover achieved this efficacy with significantly lower cost (on average, $0.43 USD), compared to other baselines. We posit that our workflow enables autonomous software engineering, where, in future, auto-generated code from LLMs can be autonomously improved.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# DreamScene360:パノラマガウススプレイティングによる制約のないテキスト・ツー・3Dシーン生成

DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting ( http://arxiv.org/abs/2404.06903v2 )

ライセンス: Link先を確認
Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi, (参考訳) 仮想現実アプリケーションに対する需要の高まりは、没入型3Dアセットを構築することの重要性を強調している。 テキストから3D 360$^{\circ}$のシーン生成パイプラインを提案する。 提案手法は, 2次元拡散モデルの生成能力を利用して, 高品質でグローバルなパノラマ画像を作成する。 この画像は、予備的な「フラット」(2D)シーン表現として機能する。 その後、3Dガウシアンへと持ち上げられ、リアルタイムの探査を可能にするスプラッティング技術を採用している。 一貫した3次元幾何を生成するため、我々のパイプラインは2次元単分子深度を大域的に最適化された点雲に整列させることにより空間的整合構造を構築する。 この点の雲は、3Dガウスの遠心点の初期状態として機能する。 シングルビュー入力に固有の目に見えない問題に対処するため、合成されたカメラビューと入力されたカメラビューの両方に意味的および幾何学的制約を正規化として課す。 これらはガウスの最適化を導いており、見えない地域の再建を支援している。 要約すると,本手法は360$^{\circ}$パースペクティブ内でグローバルに一貫した3Dシーンを提供する。 Project website at http://dreamscene360.github.io/

The increasing demand for virtual reality applications has highlighted the significance of crafting immersive 3D assets. We present a text-to-3D 360$^{\circ}$ scene generation pipeline that facilitates the creation of comprehensive 360$^{\circ}$ scenes for in-the-wild environments in a matter of minutes. Our approach utilizes the generative power of a 2D diffusion model and prompt self-refinement to create a high-quality and globally coherent panoramic image. This image acts as a preliminary "flat" (2D) scene representation. Subsequently, it is lifted into 3D Gaussians, employing splatting techniques to enable real-time exploration. To produce consistent 3D geometry, our pipeline constructs a spatially coherent structure by aligning the 2D monocular depth into a globally optimized point cloud. This point cloud serves as the initial state for the centroids of 3D Gaussians. In order to address invisible issues inherent in single-view inputs, we impose semantic and geometric constraints on both synthesized and input camera views as regularizations. These guide the optimization of Gaussians, aiding in the reconstruction of unseen regions. In summary, our method offers a globally consistent 3D scene within a 360$^{\circ}$ perspective, providing an enhanced immersive experience over existing techniques. Project website at: http://dreamscene360.github.io/
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# 産業用モノのインターネットにおけるソフトセンシングのための物理応用グラフニューラルネットワーク

Physics-Enhanced Graph Neural Networks For Soft Sensing in Industrial Internet of Things ( http://arxiv.org/abs/2404.08061v2 )

ライセンス: Link先を確認
Keivan Faghih Niresi, Hugo Bissig, Henri Baumann, Olga Fink, (参考訳) 産業用IoT(Industrial Internet of Things)は、製造業、産業プロセス、インフラ管理を変革している。 新しいレベルの自動化、効率性、予測的メンテナンスを促進することで、IIoTは従来の産業をインテリジェントでシームレスに相互接続されたエコシステムへと変えようとしている。 しかし、高度に信頼性の高いIIoTを実現するには、大量のセンサーをインストールするコスト、既存のシステムにセンサーを組み込む際の制限、センサーの設置を非現実的にする厳しい環境条件などの要因が伴う。 ソフト(仮想)センシングは、物理センサデータから変数を推定するために数学的モデルを活用し、これらの課題に対する解決策を提供する。 データ駆動と物理に基づくモデリングは、ソフトセンシングに広く使われている2つの主要な方法論である。 これらの戦略の選択は、基礎となるシステムの複雑さに依存し、物理ベースの推論モデルが複雑であり、状態推定の課題を示す場合、データ駆動のアプローチが好まれる。 しかし、従来のディープラーニングモデルでは、様々なセンサー間の複雑な相互作用を明示的に表現できないことが典型的に妨げられている。 この制限に対処するために、センサ計測間の複雑な関係を効果的に捉える能力で有名なグラフニューラルネットワーク(GNN)を採用する。 本研究では,物理の原理をグラフベースの方法論に統合する物理強化型GNNを提案する。 これは、物理過程の根底にある特徴から導かれる入力グラフ内の追加ノードを増大させることによって達成される。 地域熱ネットワークのケーススタディにおける提案手法の評価では,ノイズやパラメータの不正確さの存在下においても,純粋にデータ駆動型GNNよりも顕著な改善が見られた。

The Industrial Internet of Things (IIoT) is reshaping manufacturing, industrial processes, and infrastructure management. By fostering new levels of automation, efficiency, and predictive maintenance, IIoT is transforming traditional industries into intelligent, seamlessly interconnected ecosystems. However, achieving highly reliable IIoT can be hindered by factors such as the cost of installing large numbers of sensors, limitations in retrofitting existing systems with sensors, or harsh environmental conditions that may make sensor installation impractical. Soft (virtual) sensing leverages mathematical models to estimate variables from physical sensor data, offering a solution to these challenges. Data-driven and physics-based modeling are the two main methodologies widely used for soft sensing. The choice between these strategies depends on the complexity of the underlying system, with the data-driven approach often being preferred when the physics-based inference models are intricate and present challenges for state estimation. However, conventional deep learning models are typically hindered by their inability to explicitly represent the complex interactions among various sensors. To address this limitation, we adopt Graph Neural Networks (GNNs), renowned for their ability to effectively capture the complex relationships between sensor measurements. In this research, we propose physics-enhanced GNNs, which integrate principles of physics into graph-based methodologies. This is achieved by augmenting additional nodes in the input graph derived from the underlying characteristics of the physical processes. Our evaluation of the proposed methodology on the case study of district heating networks reveals significant improvements over purely data-driven GNNs, even in the presence of noise and parameter inaccuracies.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# Azure Core Workload Insightsにおける重要な障害検出

High Significant Fault Detection in Azure Core Workload Insights ( http://arxiv.org/abs/2404.09302v2 )

ライセンス: Link先を確認
Pranay Lohia, Laurent Boue, Sharath Rangappa, Vijay Agneeswaran, (参考訳) Azure Coreのワークロードインサイトは、さまざまなメトリックユニットによる時系列データを持っている。 これらの時系列データには、メートル法名、資源領域、次元、およびデータに関連するその次元値に関して観測された断層により、断層または異常が観測される。 Azure Coreにとって重要なタスクは、ダッシュボード上のユーザに対して、容易に認識可能な障害や異常をハイライトすることだ。 報告された異常件数は極めて多く,1時間に報告される5~20件の異常件数は限られている。 報告された異常は、どの時系列予測モデルにおいても大きなユーザ認識と高い再構成誤差を持つ。 そこで,本課題は,ユーザ認識のための「重要な異常」とその関連情報を自動的に識別することである。

Azure Core workload insights have time-series data with different metric units. Faults or Anomalies are observed in these time-series data owing to faults observed with respect to metric name, resources region, dimensions, and its dimension value associated with the data. For Azure Core, an important task is to highlight faults or anomalies to the user on a dashboard that they can perceive easily. The number of anomalies reported should be highly significant and in a limited number, e.g., 5-20 anomalies reported per hour. The reported anomalies will have significant user perception and high reconstruction error in any time-series forecasting model. Hence, our task is to automatically identify 'high significant anomalies' and their associated information for user perception.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# nnU-Net再考 : 3次元医用画像分割における厳密な検証

nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation ( http://arxiv.org/abs/2404.09556v2 )

ライセンス: Link先を確認
Fabian Isensee, Tassilo Wald, Constantin Ulrich, Michael Baumgartner, Saikat Roy, Klaus Maier-Hein, Paul F. Jaeger, (参考訳) nnU-Netのリリースは、3次元医用画像セグメンテーションのパラダイムシフトであり、適切に構成されたU-Netアーキテクチャが依然として最先端の結果が得られることを示した。 それにもかかわらず、新しいアーキテクチャの追求と、U-Netベースラインよりも優れたパフォーマンスの主張は継続された。 本研究では,これらの最近の主張の多くは,不適切なベースラインの使用,不十分なデータセット,無視された計算資源など,一般的な検証上の欠点を精査する上では成立しないことを示す。 これらの落とし穴を慎重に回避することにより、CNNベース、Transformerベース、Mambaベースのアプローチを含む、現在のセグメンテーション手法の徹底的で包括的なベンチマークを行う。 現在の信念とは対照的に、最先端の演技のレシピが重要であることが分かる。 1) ResNet や ConvNeXt など CNN ベースの U-Net モデルを採用する。 2) nnU-Net フレームワークを使用し、 3) 現在のハードウェアリソースにモデルをスケーリングする。 これらの結果は、この分野における新しいアーキテクチャに対する継続的なイノベーションバイアスを示し、科学的進歩の探求においてより厳格な検証基準の必要性を浮き彫りにしている。

The release of nnU-Net marked a paradigm shift in 3D medical image segmentation, demonstrating that a properly configured U-Net architecture could still achieve state-of-the-art results. Despite this, the pursuit of novel architectures, and the respective claims of superior performance over the U-Net baseline, continued. In this study, we demonstrate that many of these recent claims fail to hold up when scrutinized for common validation shortcomings, such as the use of inadequate baselines, insufficient datasets, and neglected computational resources. By meticulously avoiding these pitfalls, we conduct a thorough and comprehensive benchmarking of current segmentation methods including CNN-based, Transformer-based, and Mamba-based approaches. In contrast to current beliefs, we find that the recipe for state-of-the-art performance is 1) employing CNN-based U-Net models, including ResNet and ConvNeXt variants, 2) using the nnU-Net framework, and 3) scaling models to modern hardware resources. These results indicate an ongoing innovation bias towards novel architectures in the field and underscore the need for more stringent validation standards in the quest for scientific progress.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# 全体としてのノード様:グラフ分類のための構造認識検索と粗化

Node-like as a Whole: Structure-aware Searching and Coarsening for Graph Classification ( http://arxiv.org/abs/2404.11869v3 )

ライセンス: Link先を確認
Xiaorui Qi, Qijie Bai, Yanlong Wen, Haiwei Zhang, Xiaojie Yuan, (参考訳) グラフトランスフォーマー(GT)は、グラフレベルのタスクにおいて顕著な成果を上げている。 しかし、既存のほとんどの研究はグラフ構造をノード表現の拡張のためのガイダンスやバイアスの一種と見なしており、これはノード中心の視点に焦点を当てており、エッジや構造の明示的な表現を欠いている。 1つの自然な疑問は、グラフ構造全体をノード的に扱うことで、高レベルの機能を学ぶことができるか、ということです。 実験分析を通じて,この仮定の実現可能性について検討する。 本稿では,グラフ分類のためのGTアーキテクチャに基づく構造認識探索と粗大化(GRLsc)による新しい多視点グラフ表現学習モデルを提案する。 具体的には、完全な構造表現を学ぶために、オリジナル、粗大化、変換の3つのユニークなビューを構築します。 階層的ヒューリスティックグラフを通じてループと斜めを圧縮し、適切に設計された制約でそれらを制限し、構造間の高レベルな相互作用を学習するための粗いビューを構築する。 また、エッジ埋め込みのための線グラフを導入し、変換ビューを構築するためにエッジ中央の視点に切り替える。 8つの実世界のデータセットの実験は、さまざまなアーキテクチャから28のベースラインでGRLscの改善を実証している。

Graph Transformers (GTs) have made remarkable achievements in graph-level tasks. However, most existing works regard graph structures as a form of guidance or bias for enhancing node representations, which focuses on node-central perspectives and lacks explicit representations of edges and structures. One natural question is, can we treat graph structures node-like as a whole to learn high-level features? Through experimental analysis, we explore the feasibility of this assumption. Based on our findings, we propose a novel multi-view graph representation learning model via structure-aware searching and coarsening (GRLsc) on GT architecture for graph classification. Specifically, we build three unique views, original, coarsening, and conversion, to learn a thorough structural representation. We compress loops and cliques via hierarchical heuristic graph coarsening and restrict them with well-designed constraints, which builds the coarsening view to learn high-level interactions between structures. We also introduce line graphs for edge embeddings and switch to edge-central perspective to construct the conversion view. Experiments on eight real-world datasets demonstrate the improvements of GRLsc over 28 baselines from various architectures.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# 拡散距離と方向コヒーレンスによる対実的説明探索の強化

Enhancing Counterfactual Explanation Search with Diffusion Distance and Directional Coherence ( http://arxiv.org/abs/2404.12810v2 )

ライセンス: Link先を確認
Marharyta Domnich, Raul Vicente, (参考訳) AIモデルの採用の急激な問題は、予測に関するより人間中心の説明に対する需要の増加である。 より人間中心の説明に進むためには、人間がどのようにして説明を作り、選択するかを理解することが有益である。 本研究は, 人間の認知の洞察に触発されて, 効果的な対実的説明の探索を促進するために, 2つの新しいバイアスを取り入れることを提案し, 検証する。 提案手法の中心となるのは拡散距離の応用であり,本手法では,データ接続性や動作性を重視して,実現可能な対実的説明の探索を行う。 特に、拡散距離は、多くの短距離経路によりより相互接続された点を効果的に重み付けする。 このアプローチは互いに近づき、それらの間の実現可能な経路を特定する。 また,方向コヒーレンス項を導入し,特徴空間における関節と縁の方向の変化を相反する傾向を示す。 この用語は、1つの特徴を一度に変化させることで、モデルの結果がどのように変化するかの期待に基づいて、一組の限界予測と一致した反実的説明を生成することを可能にする。 提案手法はCoDiCE (Coherent Directional Counterfactual Explainer) と名付けられ,DiCE, FACE, Prototypes, Growing Spheres などの既存手法に対する2つの新しいバイアスの影響を検討した。 連続的および混合的な特徴を持つ合成データセットと実データの両方に対する一連のアブレーション実験を通じて,本手法の有効性を実証した。

A pressing issue in the adoption of AI models is the increasing demand for more human-centric explanations of their predictions. To advance towards more human-centric explanations, understanding how humans produce and select explanations has been beneficial. In this work, inspired by insights of human cognition we propose and test the incorporation of two novel biases to enhance the search for effective counterfactual explanations. Central to our methodology is the application of diffusion distance, which emphasizes data connectivity and actionability in the search for feasible counterfactual explanations. In particular, diffusion distance effectively weights more those points that are more interconnected by numerous short-length paths. This approach brings closely connected points nearer to each other, identifying a feasible path between them. We also introduce a directional coherence term that allows the expression of a preference for the alignment between the joint and marginal directional changes in feature space to reach a counterfactual. This term enables the generation of counterfactual explanations that align with a set of marginal predictions based on expectations of how the outcome of the model varies by changing one feature at a time. We evaluate our method, named Coherent Directional Counterfactual Explainer (CoDiCE), and the impact of the two novel biases against existing methods such as DiCE, FACE, Prototypes, and Growing Spheres. Through a series of ablation experiments on both synthetic and real datasets with continuous and mixed-type features, we demonstrate the effectiveness of our method.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# 医用画像の弱教師付きセマンティックセグメンテーションのためのCOIN

COIN: Counterfactual inpainting for weakly supervised semantic segmentation for medical images ( http://arxiv.org/abs/2404.12832v2 )

ライセンス: Link先を確認
Dmytro Shvetsov, Joonas Ariva, Marharyta Domnich, Raul Vicente, Dmytro Fishman, (参考訳) 深層学習は医療画像と放射線学の分野を劇的に変え、CTやX線スキャンなどの医学画像の病理診断を可能にしている。 しかし、特にセグメンテーションタスクにおけるディープラーニングモデルの性能は、広範囲な注釈付きデータセットの必要性によって制限されることが多い。 この課題に対処するために、説明可能なAIのレンズと反現実的説明の生成を通じて、弱教師付きセマンティックセマンティックセマンティクスの能力を探求する。 本研究の対象は、予測された分類ラベルを、生成モデルを用いて異常から正常に反転させる新しい反ファクト・インペインティング・アプローチ(COIN)の開発である。 例えば、分類器が入力された医療画像Xが異常であると判断し、病理の存在を示すとすると、生成モデルは異常領域を塗り替えることを目的としており、分類器の元々の予測ラベルを逆転させる。 この手法により,既存のセグメンテーションマスクに依存することなく,病理の正確なセグメンテーションを作成できる。 重要な点として、画像レベルのラベルが利用されており、詳細なセグメンテーションマスクを作成するよりも、取得が極めて容易である。 本手法の有効性は,エストニアのタルツ大学病院から取得したCT画像から,合成標的と実際の腎腫瘍を分離することによって実証される。 以上の結果から,COIN は RISE,ScoreCAM,LayerCAM などの確立した帰属法をはるかに超え,Singla らによって導入された代替の反事実的説明法をはるかに超えていることが示唆された。

Deep learning is dramatically transforming the field of medical imaging and radiology, enabling the identification of pathologies in medical images, including computed tomography (CT) and X-ray scans. However, the performance of deep learning models, particularly in segmentation tasks, is often limited by the need for extensive annotated datasets. To address this challenge, the capabilities of weakly supervised semantic segmentation are explored through the lens of Explainable AI and the generation of counterfactual explanations. The scope of this research is development of a novel counterfactual inpainting approach (COIN) that flips the predicted classification label from abnormal to normal by using a generative model. For instance, if the classifier deems an input medical image X as abnormal, indicating the presence of a pathology, the generative model aims to inpaint the abnormal region, thus reversing the classifier's original prediction label. The approach enables us to produce precise segmentations for pathologies without depending on pre-existing segmentation masks. Crucially, image-level labels are utilized, which are substantially easier to acquire than creating detailed segmentation masks. The effectiveness of the method is demonstrated by segmenting synthetic targets and actual kidney tumors from CT images acquired from Tartu University Hospital in Estonia. The findings indicate that COIN greatly surpasses established attribution methods, such as RISE, ScoreCAM, and LayerCAM, as well as an alternative counterfactual explanation method introduced by Singla et al. This evidence suggests that COIN is a promising approach for semantic segmentation of tumors in CT images, and presents a step forward in making deep learning applications more accessible and effective in healthcare, where annotated data is scarce.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# AI安全のための機械的解釈可能性 - レビュー

Mechanistic Interpretability for AI Safety -- A Review ( http://arxiv.org/abs/2404.14082v2 )

ライセンス: Link先を確認
Leonard Bereska, Efstratios Gavves, (参考訳) AIシステムの内部動作を理解することは、価値の整合性と安全性を保証する上で重要である。 ニューラルネットワークが学習した計算機構と表現を、人間の理解可能なアルゴリズムや概念にリバースエンジニアリングして、きめ細かい因果的理解を提供する。 ニューラルアクティベーション内の知識を符号化する機能や,その表現と計算に関する仮説などの基礎概念を確立する。 本稿では,モデル行動の因果分解手法を調査し,機械的解釈可能性とAI安全性との関連性を評価する。 スケーラビリティ、自動化、包括的な解釈に関わる課題について検討する。 我々は、複雑なモデルや振る舞いを処理し、視覚や強化学習のような領域に拡張するための概念、標準の設定、スケーリング技術を明確にすることを提唱する。 機械的解釈性は、AIシステムがより強力で精査されるにつれて、破滅的な結果を防ぐのに役立つ。

Understanding AI systems' inner workings is critical for ensuring value alignment and safety. This review explores mechanistic interpretability: reverse-engineering the computational mechanisms and representations learned by neural networks into human-understandable algorithms and concepts to provide a granular, causal understanding. We establish foundational concepts such as features encoding knowledge within neural activations and hypotheses about their representation and computation. We survey methodologies for causally dissecting model behaviors and assess the relevance of mechanistic interpretability to AI safety. We investigate challenges surrounding scalability, automation, and comprehensive interpretation. We advocate for clarifying concepts, setting standards, and scaling techniques to handle complex models and behaviors and expand to domains such as vision and reinforcement learning. Mechanistic interpretability could help prevent catastrophic outcomes as AI systems become more powerful and inscrutable.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-25
# ハーモニックLLMは信頼できる

Harmonic LLMs are Trustworthy ( http://arxiv.org/abs/2404.19708v2 )

ライセンス: Link先を確認
Nicholas S. Kersting, Mohammad Rahman, Suchismitha Vedala, Yang Wang, (参考訳) 我々は,任意のブラックボックスLSMの強靭性(安定性と説明可能性)を実時間でテストする直感的な手法を提案する。 我々の知る限りでは、これは LLM からの任意の応答のロバスト性を測定するための、完全にモデルに依存しない教師なしの手法としては初めてであり、モデル自体が純粋に数学的標準に準拠している。 一般的な適用と結果の即時性を示すため、WebQA, ProgrammingQA, TruthfulQAという3つのドメインで数千のクエリに対して$\gamma$を10のLLM(ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B, MPT-7B)で測定する。 検査されたすべてのモデルとドメインで、$\gamma \to 0$は信頼度を示し、逆に$\gamma$のより高い値を求めると幻覚の例が明らかになる。 GPT-4o、GPT-4、Smaug-72Bは、中規模のオープンソースモデルが大規模な商用モデルに勝てるという証拠を提供する。

We introduce an intuitive method to test the robustness (stability and explainability) of any black-box LLM in real-time via its local deviation from harmoniticity, denoted as $\gamma$. To the best of our knowledge this is the first completely model-agnostic and unsupervised method of measuring the robustness of any given response from an LLM, based upon the model itself conforming to a purely mathematical standard. To show general application and immediacy of results, we measure $\gamma$ in 10 popular LLMs (ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B and MPT-7B) across thousands of queries in three objective domains: WebQA, ProgrammingQA, and TruthfulQA. Across all models and domains tested, human annotation confirms that $\gamma \to 0$ indicates trustworthiness, and conversely searching higher values of $\gamma$ easily exposes examples of hallucination, a fact that enables efficient adversarial prompt generation through stochastic gradient ascent in $\gamma$. The low-$\gamma$ leaders among the models in the respective domains are GPT-4o, GPT-4, and Smaug-72B, providing evidence that mid-size open-source models can win out against large commercial models.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# VeriFence: 信頼できないLinuxカーネル拡張のための軽量で精密なスペックディフェンス

VeriFence: Lightweight and Precise Spectre Defenses for Untrusted Linux Kernel Extensions ( http://arxiv.org/abs/2405.00078v2 )

ライセンス: Link先を確認
Luis Gerhorst, Henriette Herzog, Peter Wägemann, Maximilian Ott, Rüdiger Kapitza, Timo Hönig, (参考訳) 高性能IOはユーザ空間とカーネル空間の間の低オーバーヘッド通信を必要とする。 この要求は、もはや従来のシステムコールによって満たされない。 Linuxの拡張バークレーパケットフィルタ(BPF)は、ユーザが提供するバイトコードをジャストインタイムでコンパイルし、ネイティブに近い速度でカーネルモードで実行することで、ユーザ/カーネルの遷移を避ける。 BPFプログラムをカーネルから分離するためには、メモリとタイプセーフのために静的に解析される。 しかし、2018年に公表されたSpectreの脆弱性を緩和するためには、潜在的に危険なプログラムを拒否する防衛が配置されなければならなかった。 これは、人気のあるオープンソースプロジェクトによる844の現実世界のBPFプログラムを持つデータセットの31%から54%のプログラムに影響を与える。 これを解決するために、ユーザーは防衛を無効にし、プログラムを使い続けることを余儀なくされ、システム全体が危険にさらされる。 セキュアで表現力のないLinuxカーネル拡張を実現するために,カーネルのSpectreディフェンスの強化であるVeriFenceを提案し,BPFアプリケーションプログラムの数を54%から0に削減した。 BPFのメインストリーム性能に敏感なアプリケーション(イベントトレース、プロファイリング、パケット処理など)に対するVeriFenceのオーバーヘッドを計測し、影響を受けるBPFプログラムが使用不能かカーネルへの過渡的実行攻撃を可能とした場合の状態を著しく改善することを発見した。

High-performance IO demands low-overhead communication between user- and kernel space. This demand can no longer be fulfilled by traditional system calls. Linux's extended Berkeley Packet Filter (BPF) avoids user-/kernel transitions by just-in-time compiling user-provided bytecode and executing it in kernel mode with near-native speed. To still isolate BPF programs from the kernel, they are statically analyzed for memory- and type-safety, which imposes some restrictions but allows for good expressiveness and high performance. However, to mitigate the Spectre vulnerabilities disclosed in 2018, defenses which reject potentially-dangerous programs had to be deployed. We find that this affects 31% to 54% of programs in a dataset with 844 real-world BPF programs from popular open-source projects. To solve this, users are forced to disable the defenses to continue using the programs, which puts the entire system at risk. To enable secure and expressive untrusted Linux kernel extensions, we propose VeriFence, an enhancement to the kernel's Spectre defenses that reduces the number of BPF application programs rejected from 54% to zero. We measure VeriFence's overhead for all mainstream performance-sensitive applications of BPF (i.e., event tracing, profiling, and packet processing) and find that it improves significantly upon the status-quo where affected BPF programs are either unusable or enable transient execution attacks on the kernel.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# 表現なし、信頼なし:PPOにおける表現・崩壊・信頼問題

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO ( http://arxiv.org/abs/2405.00662v2 )

ライセンス: Link先を確認
Skander Moalla, Andrea Miele, Razvan Pascanu, Caglar Gulcehre, (参考訳) 強化学習(Reinforcement Learning, RL)は、訓練中にエージェントが観察する報酬や報酬は、その変化政策に依存するため、本質的に非定常性と結びついている。 したがって、深部RLのネットワークは、新しい観測に適応し、新しい目標に適合できなければならない。 しかし、従来の研究では、非政治的なディープバリューベースの手法のネットワークは表現ランクの低下を示しており、しばしば学習の継続やパフォーマンスの崩壊と相関している。 この現象は一般に、非定常性下でのニューラルネットワーク学習によるものであるが、しばしば無期限に訓練できると考えられる政治政策最適化手法では見過ごされている。 本研究では,Atari および MuJoCo 環境におけるPPO の表現動態を実験的に研究し,PPO エージェントが特徴量劣化や可塑性の喪失にも影響していることを明らかにする。 これは強い非定常性によって悪化し、批評家のパフォーマンスに関わらず、最終的に俳優の演技が崩壊することを示します。 PPOのような手法に特有の信頼領域が,崩壊を緩和あるいは防止できない理由を問う。 表現の崩壊と信頼領域の劣化との間には関係があることが判明し、一方が悪化し、他方がPFO(Proximal Feature Optimization)と呼ばれる新たな補助的損失であり、他の介入とともに、表現ダイナミクスの正規化がPPOエージェントの性能を向上させることが示されている。

Reinforcement learning (RL) is inherently rife with non-stationarity since the states and rewards the agent observes during training depend on its changing policy. Therefore, networks in deep RL must be capable of adapting to new observations and fitting new targets. However, previous works have observed that networks in off-policy deep value-based methods exhibit a decrease in representation rank, often correlated with an inability to continue learning or a collapse in performance. Although this phenomenon has generally been attributed to neural network learning under non-stationarity, it has been overlooked in on-policy policy optimization methods which are often thought capable of training indefinitely. In this work, we empirically study representation dynamics in Proximal Policy Optimization (PPO) on the Atari and MuJoCo environments, revealing that PPO agents are also affected by feature rank deterioration and loss of plasticity. We show that this is aggravated with stronger non-stationarity, ultimately driving the actor's performance to collapse, regardless of the performance of the critic. We ask why the trust region, specific to methods like PPO, cannot alleviate or prevent the collapse. We find that there is a connection between representation collapse and the degradation of the trust region, one exacerbating the other, and present Proximal Feature Optimization (PFO), a novel auxiliary loss that, along with other interventions, shows that regularizing the representation dynamics improves the performance of PPO agents.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# 大規模言語モデルを用いたランダム化制御試行からの自動抽出

Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models ( http://arxiv.org/abs/2405.01686v2 )

ライセンス: Link先を確認
Hye Sun Yun, David Pogrebitskiy, Iain J. Marshall, Byron C. Wallace, (参考訳) メタアナリシスは、異なるランダム化制御試験(RCT)の結果を統計的に集計し、治療効果を評価する。 これは治療効果の頑健な評価をもたらすため、メタアナリシスの結果は最も強力な証拠であると考えられている。 しかし、厳密な証拠合成は時間がかかり、労働集約的であり、個々の試験から手動でデータを抽出する必要がある。 理想的には、言語技術はオンデマンドで完全に自動的なメタ分析を可能にする。 これは、自然言語処理(NLP)モデルの能力を超えてきた個々の試行から、正確に数値的な結果を抽出する必要がある。 本研究では,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。 介入, コンパレータ, 結果に付随する数値的な所見を伴い, 臨床試験報告の質素で粒度のよい評価データセットを注釈(およびリリース)する。 本データセットを用いて,実験報告から数値結果を条件付き抽出する作業において,ゼロショットを用いた7つのLLMの性能評価を行った。 長い入力を許容できる大規模なLLMは, 完全自動メタアナリシスの実現に極めて近いことが判明した。 しかし、バイオメディカルテキストで訓練されたものを含むLSMは、結果が複雑で、結果の推測が要求される場合、パフォーマンスが低下する。 この研究は、LLMによるRTTの完全自動メタ分析への道筋をグラフ化し、既存のモデルの限界を強調した。

Meta-analyses statistically aggregate the findings of different randomized controlled trials (RCTs) to assess treatment effectiveness. Because this yields robust estimates of treatment effectiveness, results from meta-analyses are considered the strongest form of evidence. However, rigorous evidence syntheses are time-consuming and labor-intensive, requiring manual extraction of data from individual trials to be synthesized. Ideally, language technologies would permit fully automatic meta-analysis, on demand. This requires accurately extracting numerical results from individual trials, which has been beyond the capabilities of natural language processing (NLP) models to date. In this work, we evaluate whether modern large language models (LLMs) can reliably perform this task. We annotate (and release) a modest but granular evaluation dataset of clinical trial reports with numerical findings attached to interventions, comparators, and outcomes. Using this dataset, we evaluate the performance of seven LLMs applied zero-shot for the task of conditionally extracting numerical findings from trial reports. We find that massive LLMs that can accommodate lengthy inputs are tantalizingly close to realizing fully automatic meta-analysis, especially for dichotomous (binary) outcomes (e.g., mortality). However, LLMs -- including ones trained on biomedical texts -- perform poorly when the outcome measures are complex and tallying the results requires inference. This work charts a path toward fully automatic meta-analysis of RCTs via LLMs, while also highlighting the limitations of existing models for this aim.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# 機械学習: 総合的な調査

Machine Unlearning: A Comprehensive Survey ( http://arxiv.org/abs/2405.07406v2 )

ライセンス: Link先を確認
Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Shui Yu, (参考訳) 忘れられる権利は世界中で合法化されているため、多くの研究は機械学習サービスプラットフォームを離れたい場合、ユーザのプライバシを保護する未学習メカニズムを設計しようと試みている。 具体的には、マシンラーニングとは、トレーニングデータセットの削除されたサブセットのコントリビューションを削除するための、トレーニングモデルを作成することだ。 この調査は、幅広い機械学習を体系的に分類し、それらの違い、つながり、オープンな問題について議論することを目的としている。 現在のアンラーニング手法は,集中型アンラーニング,分散および不規則なデータアンラーニング,アンラーニング検証,およびアンラーニングにおけるプライバシとセキュリティの問題の4つのシナリオに分類する。 まず、集中型アンラーニングを正確なアンラーニングと近似型アンラーニングに分類し、次に、これらの手法の詳細を紹介する。 集中型アンラーニングの他に、分散および不規則なデータアンラーニングに関するいくつかの研究や、フェデレーション付きアンラーニングとグラフアンラーニングを2つの代表的な方向として導入している。 アンラーニング手法を導入した後、未学習検証に関する研究をレビューする。 さらに,機械学習に必要なプライバシとセキュリティの問題を考察し,最新の文献を整理する。 最後に、様々な未学習シナリオの課題について議論し、潜在的研究の方向性に対処する。

As the right to be forgotten has been legislated worldwide, many studies attempt to design unlearning mechanisms to protect users' privacy when they want to leave machine learning service platforms. Specifically, machine unlearning is to make a trained model to remove the contribution of an erased subset of the training dataset. This survey aims to systematically classify a wide range of machine unlearning and discuss their differences, connections and open problems. We categorize current unlearning methods into four scenarios: centralized unlearning, distributed and irregular data unlearning, unlearning verification, and privacy and security issues in unlearning. Since centralized unlearning is the primary domain, we use two parts to introduce: firstly, we classify centralized unlearning into exact unlearning and approximate unlearning; secondly, we offer a detailed introduction to the techniques of these methods. Besides the centralized unlearning, we notice some studies about distributed and irregular data unlearning and introduce federated unlearning and graph unlearning as the two representative directions. After introducing unlearning methods, we review studies about unlearning verification. Moreover, we consider the privacy and security issues essential in machine unlearning and organize the latest related literature. Finally, we discuss the challenges of various unlearning scenarios and address the potential research directions.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# プラトン表現仮説

The Platonic Representation Hypothesis ( http://arxiv.org/abs/2405.07987v5 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, (参考訳) AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。 まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。 次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。 我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。 このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。 最後に、これらの傾向、その限界、分析に対する反例について論じる。

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# AIが自分自身を食う時 - 生成AIの時代におけるデータ汚染の因果について

When AI Eats Itself: On the Caveats of Data Pollution in the Era of Generative AI ( http://arxiv.org/abs/2405.09597v2 )

ライセンス: Link先を確認
Xiaodan Xing, Fadong Shi, Jiahao Huang, Yinzhe Wu, Yang Nan, Sheng Zhang, Yingying Fang, Mike Roberts, Carola-Bibiane Schönlieb, Javier Del Ser, Guang Yang, (参考訳) 生成人工知能(AI)技術と大規模モデルは、画像、テキスト、音声、音楽など、さまざまな領域でリアルな出力を生み出している。 これらの高度な生成モデルを作成するには、特に大規模で高品質なデータセットなど、重要なリソースが必要である。 トレーニングコストを最小限に抑えるため、多くのアルゴリズム開発者は、モデル自身が作成したデータをコスト効率のよいトレーニングソリューションとして使用する。 しかし、すべての合成データがモデル性能を効果的に向上するわけではないため、結果の最適化には実データと合成データとの戦略的バランスが必要である。 現在、以前よく制御されていた実データと合成データの統合は制御不能になりつつある。 オンラインでの合成データの広範かつ非規制の拡散は、ウェブスクレイピングを通じて伝統的にコンパイルされたデータセットが汚染され、現在はラベルなしの合成データと混在している。 このトレンドは、生成型AIシステムが、自己生成データの使用に盲目的に依存するようになり、モデルパフォーマンスや倫理的問題への懸念が高まりつつある未来を後押しする。 生成的AIが認識せずに継続的に自分自身を消費するとどうなるのか? 潜在的な悪影響を軽減するために、どのような対策をとるべきでしょうか。 生成AIにおける合成データの利用の影響、特にマルチモーダル情報の融合に関して、科学文献には大きなギャップがある。 この研究ギャップに対処するために、画像とテキストのモダリティの両方で生成AIのトレーニングに盲目的に合成データを統合する結果について検討し、これらの効果を緩和するための戦略を探る。 目標は、合成データの役割を包括的に把握し、その使用に対するバランスのとれたアプローチを提唱し、大規模モデルの時代に生成AI技術の持続可能な開発を促進するプラクティスを探求することである。

Generative artificial intelligence (AI) technologies and large models are producing realistic outputs across various domains, such as images, text, speech, and music. Creating these advanced generative models requires significant resources, particularly large and high-quality datasets. To minimize training expenses, many algorithm developers use data created by the models themselves as a cost-effective training solution. However, not all synthetic data effectively improve model performance, necessitating a strategic balance in the use of real versus synthetic data to optimize outcomes. Currently, the previously well-controlled integration of real and synthetic data is becoming uncontrollable. The widespread and unregulated dissemination of synthetic data online leads to the contamination of datasets traditionally compiled through web scraping, now mixed with unlabeled synthetic data. This trend portends a future where generative AI systems may increasingly rely blindly on consuming self-generated data, raising concerns about model performance and ethical issues. What will happen if generative AI continuously consumes itself without discernment? What measures can we take to mitigate the potential adverse effects? There is a significant gap in the scientific literature regarding the impact of synthetic data use in generative AI, particularly in terms of the fusion of multimodal information. To address this research gap, this review investigates the consequences of integrating synthetic data blindly on training generative AI on both image and text modalities and explores strategies to mitigate these effects. The goal is to offer a comprehensive view of synthetic data's role, advocating for a balanced approach to its use and exploring practices that promote the sustainable development of generative AI technologies in the era of large models.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# ディープラーニング脳転移自動分離のためのマルチセンタープライバシ保存モデルトレーニング

Multicenter Privacy-Preserving Model Training for Deep Learning Brain Metastases Autosegmentation ( http://arxiv.org/abs/2405.10870v2 )

ライセンス: Link先を確認
Yixing Huang, Zahra Khodabakhshi, Ahmed Gomaa, Manuel Schmidt, Rainer Fietkau, Matthias Guckenberger, Nicolaus Andratschke, Christoph Bert, Stephanie Tanadini-Lang, Florian Putz, (参考訳) 目的:本研究の目的は,マルチセンターデータの不均一性が深層学習脳転移(BM)自己セグメンテーション性能に及ぼす影響について検討し,生データを共有することなくモデル一般化性を向上させるために,LWF(Learly without forgeting)というインクリメンタルトランスファーラーニング技術の有効性を評価することである。 材料と方法: この評価には, 大学病院 Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU, BraTS Challenge 2023 の合計6つのBMデータセットを用いた。 まず、BMオートセグメンテーションのための畳み込みニューラルネットワーク(DeepMedic)のマルチセンタ性能を、排他的な単一センタトレーニングとプールデータトレーニングのために確立した。 その後、LWFの有無にかかわらず、転送学習(TL)を用いたさらなるトレーニングのために、UKER事前訓練モデルが他のセンターに共有され、双方向コラボレーションが評価された。 結果: 単核実験では, BM検出値の平均値が0.625 (NYU) から0.876 (UKER) の範囲である。 混合マルチセンタートレーニングは、スタンフォードとニューヨークでのF1スコアを特に改善し、他のセンターでは無視できる改善である。 UKERプレトレーニングモデルがUSZに適用された場合、LWFはUKERとUSZテストデータの組み合わせで、単純TL(0.570)よりも平均F1スコア(0.839)、シングルセンタートレーニング(0.688)を達成する。 Naive TLは感度とコンチューリング精度を改善するが、精度を損なう。 逆に、LWFは信頼できる感度、精度、コントゥーリングの正確さを示す。 スタンフォードに適用されると、同様のパフォーマンスが観察された。 結論: データの異質性はBMオートセグメンテーションにおける様々なパフォーマンスをもたらし、一般化可能性のモデル化に挑戦する。 LWFは、ピアツーピアのプライバシ保存モデルトレーニングに対する有望なアプローチである。

Objectives: This work aims to explore the impact of multicenter data heterogeneity on deep learning brain metastases (BM) autosegmentation performance, and assess the efficacy of an incremental transfer learning technique, namely learning without forgetting (LWF), to improve model generalizability without sharing raw data. Materials and methods: A total of six BM datasets from University Hospital Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU and BraTS Challenge 2023 on BM segmentation were used for this evaluation. First, the multicenter performance of a convolutional neural network (DeepMedic) for BM autosegmentation was established for exclusive single-center training and for training on pooled data, respectively. Subsequently bilateral collaboration was evaluated, where a UKER pretrained model is shared to another center for further training using transfer learning (TL) either with or without LWF. Results: For single-center training, average F1 scores of BM detection range from 0.625 (NYU) to 0.876 (UKER) on respective single-center test data. Mixed multicenter training notably improves F1 scores at Stanford and NYU, with negligible improvement at other centers. When the UKER pretrained model is applied to USZ, LWF achieves a higher average F1 score (0.839) than naive TL (0.570) and single-center training (0.688) on combined UKER and USZ test data. Naive TL improves sensitivity and contouring accuracy, but compromises precision. Conversely, LWF demonstrates commendable sensitivity, precision and contouring accuracy. When applied to Stanford, similar performance was observed. Conclusion: Data heterogeneity results in varying performance in BM autosegmentation, posing challenges to model generalizability. LWF is a promising approach to peer-to-peer privacy-preserving model training.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# 無限列多体フロケットスピン系における可積分性と正確に解けるダイナミクスのシグナチャ

Signatures of Integrability and Exactly Solvable Dynamics in an Infinite-Range Many-Body Floquet Spin System ( http://arxiv.org/abs/2405.15797v2 )

ライセンス: Link先を確認
Harshit Sharma, Udaysinh T. Bhosale, (参考訳) 近年のSharma and Bhosale [Phys. Rev. B, 109, 014412 (2024)]では、無限の範囲Ising相互作用を持つ$N$-spin Floquetモデルが導入された。 本稿では, 相互作用の強度を$J$に一般化し, 上記の作業に$J=1$のケースを還元する。 J=1/2$の場合、このモデルは偶数量子ビットのみの可積分性を示す。 我々は6ドル、8ドル、10ドル、12ドルのキュービットのケースを解析的に解決し、その固有系、様々な初期状態の絡み合いのダイナミクス、ユニタリ進化作用素を発見した。 これらの量は量子可積分性(QI)の符号を示す。 even-$N > 12$ qubits の一般的な場合、スペクトル退化のような数値的な証拠と、絡み合い力学と時間進化したユニタリ作用素の正確な周期的性質を用いて QI の存在を接続する。 奇数$N$に対するQIの欠如をQIの署名の違反を観察することによって数値的に示す。 C_{\mbox{max}}$) の最大値は$N$ と減少し, 絡み合いの性質を示す。 結果を検証するための可能な実験について論じる。

In a recent work Sharma and Bhosale [Phys. Rev. B, 109, 014412 (2024)], $N$-spin Floquet model having infinite range Ising interaction was introduced. In this paper, we generalized the strength of interaction to $J$, such that $J=1$ case reduces to the aforementioned work. We show that for $J=1/2$ the model still exhibits integrability for an even number of qubits only. We analytically solve the cases of $6$, $8$, $10$, and $12$ qubits, finding its eigensystem, dynamics of entanglement for various initial states, and the unitary evolution operator. These quantities exhibit the signature of quantum integrability (QI). For the general case of even-$N > 12$ qubits, we conjuncture the presence of QI using the numerical evidences such as spectrum degeneracy, and the exact periodic nature of both the entanglement dynamics and the time-evolved unitary operator. We numerically show the absence of QI for odd $N$ by observing a violation of the signatures of QI. We analytically and numerically find that the maximum value of time-evolved concurrence ($C_{\mbox{max}}$) decreases with $N$, indicating the multipartite nature of entanglement. Possible experiments to verify our results are discussed.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# ブレグマン発散損失に対する統一ロバスト性則

A unified law of robustness for Bregman divergence losses ( http://arxiv.org/abs/2405.16639v2 )

ライセンス: Link先を確認
Santanu Das, Jatin Batra, Piyush Srivastava, (参考訳) 現代のディープラーニングの実践では、モデルはほとんどゼロの損失、すなわちトレーニングデータをほぼ補間するように訓練される。 しかし、モデル内のパラメータの数は、通常、補間に必要な理論上の最小値である$n$よりもはるかに多い:過パラメータ化と呼ばれる現象である。 オーバーパラメトリゼーションを理解するために費やされたかなりの研究に寄与する興味深い研究の中で、ブベックとセルケは、広い種類の共変量分布(特に測度集中の自然な概念を満たすもの)に対して、過パラメトリゼーションは堅牢な補間(すなわち補間関数がリプシッツであることが要求される場合)に必要であることを示した。 しかし, その頑健性は, 正方損失を伴う回帰の設定においてのみ証明された。 実際には、他の多くの種類の損失が使用されるが、例えば、分類のためのクロスエントロピー損失がある。 本研究では,ブベックとセルケの結果をブレグマン分散損失に一般化し,二乗損失とクロスエントロピー損失の共通一般化を形成する。 我々の一般化は、ブベックとセルクの証明の中心にあるバイアス分散型分解の同定に依存する。

In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points $n$, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work that contributes to the considerable research that has been devoted to understand overparameterization, Bubeck and Sellke showed that for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. However, their robustness results were proved only in the setting of regression with square loss. In practice, however many other kinds of losses are used, e.g. cross entropy loss for classification. In this work, we generalize Bubeck and Selke's result to Bregman divergence losses, which form a common generalization of square loss and cross-entropy loss. Our generalization relies on identifying a bias-variance type decomposition that lies at the heart of the proof and Bubeck and Sellke.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# SiNGR : サイン付き正規化ジオデシックトランスフォーメーションレグレッションによる脳腫瘍分離

SiNGR: Brain Tumor Segmentation via Signed Normalized Geodesic Transform Regression ( http://arxiv.org/abs/2405.16813v2 )

ライセンス: Link先を確認
Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, (参考訳) 脳腫瘍のセグメンテーションにおける主要な課題の1つは、腫瘍の境界に近いボクセルの不確実性から生じる。 しかし、地上の真理分割マスクを生成する従来のプロセスでは、そのような不確かさを適切に扱えない。 0 と 1 の「硬いラベル」は、脳画像のセグメンテーションに関する以前の研究の大多数に概念的に影響を与えた。 その結果、腫瘍の分節は、しばしばボクセル分類によって解決される。 この研究では、この問題をボクセルレベルの回帰とみなし、基底真理は任意のピクセルから腫瘍の境界への確実なマッピングを表す。 我々は,脳腫瘍近傍の不確実性を捉えるために,サイン付き測地線変換に基づく新しい基底真理ラベル変換を提案する。 このアイデアをFocalライクな回帰L1-lossと組み合わせ、その難易度に応じてボクセルを適切に重み付けすることで、高次元出力空間での効果的な回帰学習を可能にする。 提案手法の構成要素を検証し, 各種の最先端セグメンテーションモデルと比較し, アーキテクチャに依存しないことを示す。 提案手法のコードは公開されている(\url{https://github.com/Oulu-IMEDS/SiNGR/})。

One of the primary challenges in brain tumor segmentation arises from the uncertainty of voxels close to tumor boundaries. However, the conventional process of generating ground truth segmentation masks fails to treat such uncertainties properly. Those "hard labels" with 0s and 1s conceptually influenced the majority of prior studies on brain image segmentation. As a result, tumor segmentation is often solved through voxel classification. In this work, we instead view this problem as a voxel-level regression, where the ground truth represents a certainty mapping from any pixel to the border of the tumor. We propose a novel ground truth label transformation, which is based on a signed geodesic transform, to capture the uncertainty in brain tumors' vicinity. We combine this idea with a Focal-like regression L1-loss that enables effective regression learning in high-dimensional output space by appropriately weighting voxels according to their difficulty. We thoroughly conduct an experimental evaluation to validate the components of our proposed method, compare it to a diverse array of state-of-the-art segmentation models, and show that it is architecture-agnostic. The code of our method is made publicly available (\url{https://github.com/Oulu-IMEDS/SiNGR/}).
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# 不確かさを意識した網膜画像分割のための画像レベルの回帰

Image-level Regression for Uncertainty-aware Retinal Image Segmentation ( http://arxiv.org/abs/2405.16815v2 )

ライセンス: Link先を確認
Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, (参考訳) 正確な網膜血管セグメンテーション(RV)は、網膜疾患やその他の疾患の早期発見に必要な網膜血管の定量的評価において重要なステップである。 画素単位の分類手法を用いて, 分割容器の課題に対処するために, 多数の研究がなされている。 基底の真理ラベルを作成する一般的な習慣は、ピクセルを前景と背景に分類することである。 しかし、このアプローチは偏りがあり、egの細い血管に注釈をつけるという点では、人間のアノテーションの不確かさを無視する。 本研究では,RVセグメンテーションタスクを画像レベルの回帰としてキャストする,シンプルで効果的な手法を提案する。 この目的のために,我々はまず,アノテーション境界と血管厚に対する画素の近接性を用いて,地上の真理に画素の不確かさを付加する,新しいセグメンテーションアノテーション不確実性認識変換(SAUNA)を導入する。 ソフトラベルでモデルをトレーニングするために、提案したジャカード距離損失を任意のハイパーキューブに一般化し、ソフトジャカード指数(Intersection-over-Union)の最適化を行う。 さらに,Focal-L1損失の安定バージョンを画素ワイドレグレッションに適用した。 詳細な実験を行い、5つの網膜画像データセットにまたがる多様なベースラインと比較する。 実験結果から,SAUNA変換の統合とセグメント化損失が,異なるセグメント化モデルにおいて顕著な性能向上をもたらしたことが示唆された。 特に,本手法により,UNetのようなアーキテクチャが計算集約ベースラインを大幅に上回る。 我々の実装は \url{https://github.com/Oulu-IMEDS/SAUNA} で利用可能です。

Accurate retinal vessel (RV) segmentation is a crucial step in the quantitative assessment of retinal vasculature, which is needed for the early detection of retinal diseases and other conditions. Numerous studies have been conducted to tackle the problem of segmenting vessels automatically using a pixel-wise classification approach. The common practice of creating ground truth labels is to categorize pixels as foreground and background. This approach is, however, biased, and it ignores the uncertainty of a human annotator when it comes to annotating e.g. thin vessels. In this work, we propose a simple and effective method that casts the RV segmentation task as an image-level regression. For this purpose, we first introduce a novel Segmentation Annotation Uncertainty-Aware (SAUNA) transform, which adds pixel uncertainty to the ground truth using the pixel's closeness to the annotation boundary and vessel thickness. To train our model with soft labels, we generalize the earlier proposed Jaccard metric loss to arbitrary hypercubes for soft Jaccard index (Intersection-over-Union) optimization. Additionally, we employ a stable version of the Focal-L1 loss for pixel-wise regression. We conduct thorough experiments and compare our method to a diverse set of baselines across 5 retinal image datasets. Our empirical results indicate that the integration of the SAUNA transform and these segmentation losses led to significant performance boosts for different segmentation models. Particularly, our methodology enables UNet-like architectures to substantially outperform computational-intensive baselines. Our implementation is available at \url{https://github.com/Oulu-IMEDS/SAUNA}.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-25
# スピン1型ウンルー・デ・ウィット検出器の研究

A study of the spin 1 Unruh-De Witt detectors ( http://arxiv.org/abs/2406.04362v2 )

ライセンス: Link先を確認
F. M. Guedes, M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 相対論的スカラー量子場と相互作用するスピン1のウンルー・デ・ウィット検出器について述べる。 フィールドモードを追尾した後、Bell-CHSH不等式の不等式を調査するために、2部分石英系の密度行列を用いた。 スピン1/2$の場合とは異なり、スピン1/2$の場合、量子場の効果によって違反の大きさが小さくなる。 この効果は、ツイレルソンの境界が四重項の場合、飽和していないという事実に起因している。

A study of the spin 1 Unruh-De Witt detectors interacting with a relativistic scalar quantum field is presented. After tracing out the field modes, the resulting density matrix for a bipartite qutrit system is employed to investigate the violation of the Bell-CHSH inequality. Unlike the case of spin $1/2$, for which the effects of the quantum field result in a decreasing of the size of violation, in the case of spin $1$ both decreasing and increasing of the violation may occur. This effect is ascribed to the fact that Tsirelson's bound is not saturated in the case of qutrits.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# ShiftAddLLM: トレーニング後の乗算レスパラメータ化による事前学習LDMの高速化

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization ( http://arxiv.org/abs/2406.05981v3 )

ライセンス: Link先を確認
Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Celine Lin, (参考訳) 大規模言語モデル(LLM)は、言語タスクにおいて顕著なパフォーマンスを示しているが、リソース制約のあるデバイスにデプロイする際の課題は、その広範なパラメータと密度の高い乗算に依存するため、高いメモリ要求と遅延ボトルネックをもたらす。 Shift-and-add再パラメータ化は、LLMの注目層と多層パーセプトロン(MLP)層の両方において、ハードウェアフレンドリなプリミティブにコストのかかる乗算を置き換えることで、有望なソリューションを提供する。 しかし、現在の再パラメータ化技術では、LLMのリソース集約的な精度を回復するために、スクラッチやフルパラメータの微調整からのトレーニングが必要である。 そこで本研究では,事前学習後の再パラメータ化を高速化し,ShiftAddLLMと呼ばれる効率的な乗算自由モデルを作成することを提案する。 具体的には,各重み行列を群ワイドスケーリング因子と組み合わせた二乗行列に定量化する。 関連する乗算は(1)アクティベーションとスケーリング係数のシフト、(2)クエリに再パラメータ化され、バイナリ行列に従って加算される。 精度損失を低減するため,重みと出力のアクティベーション再パラメータ化誤差を最小化する多目的最適化手法を提案する。 さらに、再パラメータ化のための層間の感度の変化に基づいて、メモリ使用量とレイテンシをさらに削減する自動ビット割り当て戦略を開発する。 5つのLLMファミリーと8つのタスクによる実験は、ShiftAddLLMの有効性を一貫して検証し、それぞれ3ビットと2ビットの最も競争力のある量子化LDMと比較して5.6ポイントと22.7ポイントの平均パープレキシティ改善を実現し、元のLCMよりも80%以上のメモリとエネルギー削減を実現した。 コードとモデルはhttps://github.com/GATECH-EIC/ShiftAddLLM.comで公開されている。

Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# リニアアテンションが自己回帰デコーディングに遭遇する:より効果的で効率的な大規模言語モデルを目指して

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models ( http://arxiv.org/abs/2406.07368v2 )

ライセンス: Link先を確認
Haoran You, Yichao Fu, Zheng Wang, Amir Yazdanbakhsh, Yingyan Celine Lin, (参考訳) 自己回帰型大規模言語モデル(LLM)は、言語タスクにおいて顕著なパフォーマンスを達成しているが、(1)トークンの数が増えるにつれて注目モジュールの2次複雑さと、(2)生成中の自己回帰型LLMの逐次処理特性による制限効率の2つの大きなボトルネックに直面している。 線形注意と投機的復号化は潜在的な解決策を提供するが、その適用性と相乗的可能性を保ち、自己回帰性LLMを増強する。 自動回帰LDMに対する既存の線形注意法の有効性を総合的に検討し,投機的復号化と統合した。 我々は、投機的復号化との整合性を保証し、LLMのより効率的な訓練と提供を可能にする線形注意のための拡張手法を提案する。 7つの既存線形アテンションモデルと5つのエンコーダ/デコーダベースLCMによる拡張線形化LDMの有効性を一貫して検証した。 特に,LLaMAモデルにおけるパープレキシティの最大6.67低減と,従来の線形アテンション法と比較して,生成時の2$\times$スピードアップを実現している。 コードとモデルはhttps://github.com/GATECH-EIC/Linearized-LLMで公開されている。

Autoregressive Large Language Models (LLMs) have achieved impressive performance in language tasks but face two significant bottlenecks: (1) quadratic complexity in the attention module as the number of tokens increases, and (2) limited efficiency due to the sequential processing nature of autoregressive LLMs during generation. While linear attention and speculative decoding offer potential solutions, their applicability and synergistic potential for enhancing autoregressive LLMs remain uncertain. We conduct the first comprehensive study on the efficacy of existing linear attention methods for autoregressive LLMs, integrating them with speculative decoding. We introduce an augmentation technique for linear attention that ensures compatibility with speculative decoding, enabling more efficient training and serving of LLMs. Extensive experiments and ablation studies involving seven existing linear attention models and five encoder/decoder-based LLMs consistently validate the effectiveness of our augmented linearized LLMs. Notably, our approach achieves up to a 6.67 reduction in perplexity on the LLaMA model and up to a 2$\times$ speedup during generation compared to prior linear attention methods. Codes and models are available at https://github.com/GATECH-EIC/Linearized-LLM.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# 分子設計のためのベイズ最適化における共通問題の診断と修正

Diagnosing and fixing common problems in Bayesian optimization for molecule design ( http://arxiv.org/abs/2406.07709v2 )

ライセンス: Link先を確認
Austin Tripp, José Miguel Hernández-Lobato, (参考訳) ベイズ最適化(英: Bayesian Optimization、BO)は、分子設計の課題に対する原理的なアプローチである。 本稿では,不正確な先行幅,過度な平滑化,不適切な獲得関数の最大化という,経験的性能の低下を引き起こすBOの落とし穴を3つ説明する。 これらの課題に対処することで,分子設計のためのPMOベンチマーク(Gao et al 2022)において,基本的なBO設定でも高い性能を達成できることが示される(Gao et al 2022)。 これらの結果から,BOは分子群集における機械学習のさらなる注目の恩恵を受ける可能性が示唆された。

Bayesian optimization (BO) is a principled approach to molecular design tasks. In this paper we explain three pitfalls of BO which can cause poor empirical performance: an incorrect prior width, over-smoothing, and inadequate acquisition function maximization. We show that with these issues addressed, even a basic BO setup is able to achieve the highest overall performance on the PMO benchmark for molecule design (Gao et al 2022). These results suggest that BO may benefit from more attention in the machine learning for molecules community.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# 表現性と一般化:分子GNNのためのフラグメントバイアス

Expressivity and Generalization: Fragment-Biases for Molecular GNNs ( http://arxiv.org/abs/2406.08210v2 )

ライセンス: Link先を確認
Tom Wollschläger, Niklas Kemper, Leon Hetzel, Johanna Sommer, Stephan Günnemann, (参考訳) 近年の高次グラフニューラルネットワーク(GNN)の進歩は、理論的表現性や分子特性予測性能を改善しているが、断片情報を帰納バイアスとして明示的に使用するモデルの経験的性能に欠けることが多い。 しかし、これらのアプローチに対して、理論的表現性の研究は存在しない。 本研究では,これらのフラグメントバイアスGNNの理論的解析を可能にする,有名なWeisfeiler & Leman(WL)テストの拡張であるFragment-WLテストを提案する。 Fragment-WLテストから得られた知見に基づいて、表現性を著しく向上させる無限語彙の断片化と新しいGNNアーキテクチャを開発した。 本モデルの有効性は,全GNNをPeptides上で上回り,ZINC上の全GNNよりも12%,他のフラグメントバイアスモデルよりも34%低い誤差を有する合成および実世界のデータに対して示す。 さらに,本モデルでは,最新のトランスフォーマーアーキテクチャよりも優れた一般化能力を示し,分子モデリングタスクの堅牢な解として位置づけている。

Although recent advances in higher-order Graph Neural Networks (GNNs) improve the theoretical expressiveness and molecular property predictive performance, they often fall short of the empirical performance of models that explicitly use fragment information as inductive bias. However, for these approaches, there exists no theoretic expressivity study. In this work, we propose the Fragment-WL test, an extension to the well-known Weisfeiler & Leman (WL) test, which enables the theoretic analysis of these fragment-biased GNNs. Building on the insights gained from the Fragment-WL test, we develop a new GNN architecture and a fragmentation with infinite vocabulary that significantly boosts expressiveness. We show the effectiveness of our model on synthetic and real-world data where we outperform all GNNs on Peptides and have 12% lower error than all GNNs on ZINC and 34% lower error than other fragment-biased models. Furthermore, we show that our model exhibits superior generalization capabilities compared to the latest transformer-based architectures, positioning it as a robust solution for a range of molecular modeling tasks.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# Nyström Kernel Steindisrepancy

Nyström Kernel Stein Discrepancy ( http://arxiv.org/abs/2406.08401v2 )

ライセンス: Link先を確認
Florian Kalinke, Zoltan Szabo, Bharath K. Sriperumbudur, (参考訳) カーネル法はデータ科学と統計学において最も成功したアプローチの多くを基盤としており、情報を失うことなく再現されたカーネルヒルベルト空間の要素として確率測度を表現することができる。 近年、Steinの手法とカーネル技術を組み合わせたカーネルStein discrepancy (KSD) が注目されている。 スタイン作用素を通して、KSDは、目標分布を乗法定数まで知るのに十分であるような、強力な適合性テストの構築を可能にする。 しかし、典型的なU-およびV-StatisticベースのKSD推定器は2次実行時の複雑さに悩まされており、大規模な設定ではアプリケーションの動作を妨げている。 本研究では、Nystr\"om-based KSDAcceleration -- ランタイム $\mathcal O\!\left(mn+m^3\right)$ for $n$ sample and $m\ll n$ Nystr\om points -- を提案する。

Kernel methods underpin many of the most successful approaches in data science and statistics, and they allow representing probability measures as elements of a reproducing kernel Hilbert space without loss of information. Recently, the kernel Stein discrepancy (KSD), which combines Stein's method with kernel techniques, gained considerable attention. Through the Stein operator, KSD allows the construction of powerful goodness-of-fit tests where it is sufficient to know the target distribution up to a multiplicative constant. However, the typical U- and V-statistic-based KSD estimators suffer from a quadratic runtime complexity, which hinders their application in large-scale settings. In this work, we propose a Nystr\"om-based KSD acceleration -- with runtime $\mathcal O\!\left(mn+m^3\right)$ for $n$ samples and $m\ll n$ Nystr\"om points -- , show its $\sqrt{n}$-consistency under the null with a classical sub-Gaussian assumption, and demonstrate its applicability for goodness-of-fit testing on a suite of benchmarks.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# LiDAR点に対するオートボキャブラリセグメンテーション

Auto-Vocabulary Segmentation for LiDAR Points ( http://arxiv.org/abs/2406.09126v2 )

ライセンス: Link先を確認
Weijie Wei, Osman Ülger, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald, (参考訳) 既存の自動運転の認識手法は、トレーニングデータに含まれていない未知の物体を認識するには不十分である。 Open-vocabularyメソッドは、任意のオブジェクトを検知する有望な機能を提供するが、ターゲットクラスを表すユーザが指定したクエリによって制限される。 自動オブジェクトクラス認識とオープンなセグメンテーションのためのフレームワークであるAutoVoc3Dを提案する。 nuScenesの評価では、AutoVoc3Dが正確なセマンティッククラスと正確なポイントワイドセグメンテーションを生成する能力を示している。 さらに,テキスト・ポイント・セマンティック・類似性(Text-Point Semantic similarity)を導入し,テキストとポイント・クラウドのセマンティック・類似性を評価する。

Existing perception methods for autonomous driving fall short of recognizing unknown entities not covered in the training data. Open-vocabulary methods offer promising capabilities in detecting any object but are limited by user-specified queries representing target classes. We propose AutoVoc3D, a framework for automatic object class recognition and open-ended segmentation. Evaluation on nuScenes showcases AutoVoc3D's ability to generate precise semantic classes and accurate point-wise segmentation. Moreover, we introduce Text-Point Semantic Similarity, a new metric to assess the semantic similarity between text and point cloud without eliminating novel classes.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# Action2Sound:エゴセントリックビデオからのアクション音のアンビエント・アウェア・ジェネレーション

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos ( http://arxiv.org/abs/2406.09272v3 )

ライセンス: Link先を確認
Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman, (参考訳) 人間のアクションのための現実的なオーディオを生成することは、映画や仮想現実ゲームのためのサウンドエフェクトを作成するなど、多くのアプリケーションにとって重要である。 既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定するが、多くの音は画面外で発生し、視覚とは全く一致しない。 環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。 本研究では,前庭動作音を周囲の背景音から遠ざけるための新しい音調和機構を考案した。 新たなサイレントビデオが提供されると、我々のモデルは検索拡張生成を用いて、視覚コンテンツを意味的にも時間的にも一致させるオーディオを生成する。 Ego4DとEPIC-KITCHENSの2つの動画データセット上で,我々のモデルをトレーニングし,評価する。 我々のモデルは,既存の手法より優れており,周囲の音を制御可能な生成が可能であり,コンピュータグラフィックスゲームクリップへの一般化の約束も示している。 本手法は,自然の背景音を生かしたビデオクリップを訓練しながら,観察された映像コンテンツに忠実に焦点を合わせた最初の手法である。

Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# 拡散型生成モデルの設計空間の評価

Evaluating the design space of diffusion-based generative models ( http://arxiv.org/abs/2406.12839v2 )

ライセンス: Link先を確認
Yuqing Wang, Ye He, Molei Tao, (参考訳) 拡散モデルの精度に関する既存の理論的な研究は、有意であるが、スコア関数が一定の精度に近似されたと仮定し、これを用いて生成の誤差を制御する。 この記事では、生成プロセス全体、すなわち、トレーニングとサンプリングの両方について、初めて定量的に理解する。 より正確には、勾配降下下でのdenoising score matchingの非漸近収束解析を行う。 また,分散爆発モデルに対する改良されたサンプリング誤差解析も提供する。 これら2つの結果を組み合わせて完全な誤差解析を行い、効率的な生成のためのトレーニングおよびサンプリングプロセスを設計する方法を解明する(しかし、理論上は)。 例えば、我々の理論は、[Karras et al 2022]で使われているものと定性的に一致する訓練において、ノイズ分布と損失重み付けを好むことを示唆している。 スコアが十分に訓練された場合には(Song et al 2020)の設計がより好まれるが、訓練が少ない場合には(Karras et al 2022)の設計がより好まれる。

Most existing theoretical investigations of the accuracy of diffusion models, albeit significant, assume the score function has been approximated to a certain accuracy, and then use this a priori bound to control the error of generation. This article instead provides a first quantitative understanding of the whole generation process, i.e., both training and sampling. More precisely, it conducts a non-asymptotic convergence analysis of denoising score matching under gradient descent. In addition, a refined sampling error analysis for variance exploding models is also provided. The combination of these two results yields a full error analysis, which elucidates (again, but this time theoretically) how to design the training and sampling processes for effective generation. For instance, our theory implies a preference toward noise distribution and loss weighting in training that qualitatively agree with the ones used in [Karras et al. 2022]. It also provides perspectives on the choices of time and variance schedules in sampling: when the score is well trained, the design in [Song et al. 2020] is more preferable, but when it is less trained, the design in [Karras et al. 2022] becomes more preferable.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# 潜時記憶の発見:フロンティアAIモデルにおけるデータ漏洩と記憶パターンの評価

Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models ( http://arxiv.org/abs/2406.14549v2 )

ライセンス: Link先を確認
Sunny Duan, Mikail Khona, Abhiram Iyer, Rylan Schaeffer, Ila R Fiete, (参考訳) 個人データとプライベートデータを含むWebスケールデータセットでトレーニングされたモデルによって、データのプライバシとセキュリティに関する深刻な懸念がもたらされる。 言語モデルは、潜在的にセンシティブまたはプロプライエタリな情報を含む広範なコーパスでトレーニングされ、モデル応答がそのような情報の一部を明らかにするデータ漏洩のリスクは、依然として十分理解されていない。 以前の研究は、どの要因が記憶を誘導するかを調べ、そのシーケンスの複雑さと繰り返しの回数が記憶を駆動するかを特定した。 ここでは、トレーニングによる記憶の進化に焦点を当てる。 まず、シーケンスを記憶する確率は、データに存在している回数と対数的にスケールする、という知見を再現することから始める。 次に、最初の遭遇後に暗記されていないように見える配列が、その後の遭遇なしに訓練中に「発見」できることを示し、これは「ラテント記憶」と呼ばれる現象である。 潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠されるが、容易に回復可能であるため、データのプライバシの課題となる。 そこで本研究では, クロスエントロピー損失を利用した診断試験により, 遅延記憶配列を高精度に発見する。

Frontier AI systems are making transformative impacts across society, but such benefits are not without costs: models trained on web-scale datasets containing personal and private data raise profound concerns about data privacy and security. Language models are trained on extensive corpora including potentially sensitive or proprietary information, and the risk of data leakage - where the model response reveals pieces of such information - remains inadequately understood. Prior work has investigated what factors drive memorization and have identified that sequence complexity and the number of repetitions drive memorization. Here, we focus on the evolution of memorization over training. We begin by reproducing findings that the probability of memorizing a sequence scales logarithmically with the number of times it is present in the data. We next show that sequences which are apparently not memorized after the first encounter can be "uncovered" throughout the course of training even without subsequent encounters, a phenomenon we term "latent memorization". The presence of latent memorization presents a challenge for data privacy as memorized sequences may be hidden at the final checkpoint of the model but remain easily recoverable. To this end, we develop a diagnostic test relying on the cross entropy loss to uncover latent memorized sequences with high accuracy.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# Imperative Learning:ロボット自律性のための自己教師型ニューラルネットワーク学習フレームワーク

Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy ( http://arxiv.org/abs/2406.16087v3 )

ライセンス: Link先を確認
Chen Wang, Kaiyi Ji, Junyi Geng, Zhongqiang Ren, Taimeng Fu, Fan Yang, Yifan Guo, Haonan He, Xiangyu Chen, Zitong Zhan, Qiwei Du, Shaoshu Su, Bowen Li, Yuheng Qiu, Yi Du, Qihang Li, Yifan Yang, Xiao Lin, Zhipeng Zhao, (参考訳) 強化や模倣学習のようなデータ駆動の手法は、ロボットの自律性において顕著な成功を収めた。 しかし、データ中心の性質は、常に変化する環境への一般化を妨げている。 さらに、ロボットタスクのための大規模なデータセットの収集は非現実的で高価であることが多い。 これらの課題を克服するために,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入し,シンボル推論の一般化能力を活用する。 ILのフレームワークは、ニューラルモジュール、推論エンジン、メモリシステムという3つの主要コンポーネントで構成されている。 ILを特別な二段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。 これは、データ駆動アプローチに関連するラベル集約的な障害を克服し、論理的推論、物理原理、幾何学的解析などに関する象徴的推論を活用する。 本稿では,ILの最適化手法について議論し,経路計画,ルール誘導,最適制御,視覚計測,マルチロボットルーティングを含む5つのロボット自律作業において,その有効性を検証する。 様々な実験を通して、ILはロボットの自律能力を大幅に向上させ、様々な領域にわたるさらなる研究を促進することを期待する。

Data-driven methods such as reinforcement and imitation learning have achieved remarkable success in robot autonomy. However, their data-centric nature still hinders them from generalizing well to ever-changing environments. Moreover, collecting large datasets for robotic tasks is often impractical and expensive. To overcome these challenges, we introduce a new self-supervised neural-symbolic (NeSy) computational framework, imperative learning (IL), for robot autonomy, leveraging the generalization abilities of symbolic reasoning. The framework of IL consists of three primary components: a neural module, a reasoning engine, and a memory system. We formulate IL as a special bilevel optimization (BLO), which enables reciprocal learning over the three modules. This overcomes the label-intensive obstacles associated with data-driven approaches and takes advantage of symbolic reasoning concerning logical reasoning, physical principles, geometric analysis, etc. We discuss several optimization techniques for IL and verify their effectiveness in five distinct robot autonomy tasks including path planning, rule induction, optimal control, visual odometry, and multi-robot routing. Through various experiments, we show that IL can significantly enhance robot autonomy capabilities and we anticipate that it will catalyze further research across diverse domains.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# DRAM読み取り障害に対する新興産業ソリューションのセキュリティ上のメリットとオーバヘッドの理解

Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance ( http://arxiv.org/abs/2406.19094v2 )

ライセンス: Link先を確認
Oğuzhan Canpolat, A. Giray Yağlıkçı, Geraldo F. Oliveira, Ataberk Olgun, Oğuz Ergin, Onur Mutlu, (参考訳) JEDEC DDR5仕様の2024年4月のアップデートで記述された、最先端のDRAM-DRAMによる読み出し障害軽減手法であるPer Row Activation Counting (PRAC)の最初の厳密なセキュリティ、性能、エネルギー、コスト分析について述べる。 メモリコントローラに定期的にリフレッシュ管理(RFM)コマンドを発行するように助言する以前の最先端技術とは異なり、PRACは新しいバックオフ信号を導入した。 PRACのバックオフ信号はDRAMチップからメモリコントローラに伝播し、メモリコントローラを強制する。 1)申し込みを中止し、 2) RFM コマンドを発行する。 その結果、RAMコマンドは定期的にではなく必要に応じて発行され、RAMのオーバーヘッドが減少する。 PRACを4段階に分けて分析する。 まず、PRACのセキュリティの最悪のケースを表す逆アクセスパターンを定義する。 次に,PRACの構成とセキュリティへの影響について検討する。 解析の結果,メモリに10回アクセスする前にビットフリップが発生しない限り,PRACをセキュアな動作に設定できることがわかった。 第3に、PRACの性能への影響を評価し、Ramulator 2.0を用いた以前の作業と比較する。 我々の分析によると、PRACは現在のDRAMチップのパフォーマンスオーバーヘッドを13%以下に抑えるが、将来のDRAMチップではパフォーマンスオーバーヘッドが最大94%に達する。 第4に,PRACの性能オーバーヘッドを増大させ,メモリ性能攻撃を行うためのアベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティー・アクセス・パターンを定義し,このようなアベイラビリティ・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー(Availabilityアベイラビリティ・アベイラビリティ・アベイラビリティー)を定義した。 PRACの今後のシステムへの影響と今後の研究方向性について論じる。 将来の研究を支援するため、私たちはhttps://github.com/CMU-SAFARI/ramulator2で実装とスクリプトをオープンソース化しました。

We present the first rigorous security, performance, energy, and cost analyses of the state-of-the-art on-DRAM-die read disturbance mitigation method, Per Row Activation Counting (PRAC), described in JEDEC DDR5 specification's April 2024 update. Unlike prior state-of-the-art that advises the memory controller to periodically issue refresh management (RFM) commands, which provides the DRAM chip with time to perform refreshes, PRAC introduces a new back-off signal. PRAC's back-off signal propagates from the DRAM chip to the memory controller and forces the memory controller to 1) stop serving requests and 2) issue RFM commands. As a result, RFM commands are issued when needed as opposed to periodically, reducing RFM's overheads. We analyze PRAC in four steps. First, we define an adversarial access pattern that represents the worst-case for PRAC's security. Second, we investigate PRAC's configurations and security implications. Our analyses show that PRAC can be configured for secure operation as long as no bitflip occurs before accessing a memory location 10 times. Third, we evaluate the performance impact of PRAC and compare it against prior works using Ramulator 2.0. Our analysis shows that while PRAC incurs less than 13% performance overhead for today's DRAM chips, its performance overheads can reach up to 94% for future DRAM chips that are more vulnerable to read disturbance bitflips. Fourth, we define an availability adversarial access pattern that exacerbates PRAC's performance overhead to perform a memory performance attack, demonstrating that such an adversarial pattern can hog up to 94% of DRAM throughput and degrade system throughput by up to 95%. We discuss PRAC's implications on future systems and foreshadow future research directions. To aid future research, we open-source our implementations and scripts at https://github.com/CMU-SAFARI/ramulator2.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# 言語モデルの最適スケーリングにおける不一致の解消

Resolving Discrepancies in Compute-Optimal Scaling of Language Models ( http://arxiv.org/abs/2406.19146v2 )

ライセンス: Link先を確認
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon, (参考訳) Kaplan et al と Hoffmann et al は計算予算の関数として最適なモデルサイズに関する効果的なスケーリング法則を開発したが、これらの法則は実質的に異なる予測をもたらす。 本稿では,2つのデータセット(OpenWebText2とRefinedWeb)上でKaplanスケーリング法則を再現し,その差の原因となる3つの要因(最終層計算コスト,ウォームアップ期間,スケール依存オプティマイザチューニング)を特定することによって,その相違を説明している。 これらの因子を補正し、ホフマン・エ・アル(すなわち「チンチラ」)のスケーリング法と良好な合意を得る。 ホフマンらによる仮説から、注意深い学習率の減衰は、スケーリング法則の妥当性に必須ではないことが分かる。 その結果,AdamW $\beta_2$パラメータのチューニングはバッチサイズが低い場合に必須であることが判明し,最適学習率とバッチサイズに対するスケーリング法則を導出する。

Kaplan et al. and Hoffmann et al. developed influential scaling laws for the optimal model size as a function of the compute budget, but these laws yield substantially different predictions. We explain the discrepancy by reproducing the Kaplan scaling law on two datasets (OpenWebText2 and RefinedWeb) and identifying three factors causing the difference: last layer computational cost, warmup duration, and scale-dependent optimizer tuning. With these factors corrected, we obtain excellent agreement with the Hoffmann et al. (i.e., "Chinchilla") scaling law. Counter to a hypothesis of Hoffmann et al., we find that careful learning rate decay is not essential for the validity of their scaling law. As a secondary result, we derive scaling laws for the optimal learning rate and batch size, finding that tuning the AdamW $\beta_2$ parameter is essential at lower batch sizes.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-25
# YOLOv10」から「YOLO」へ:「YOLO」シリーズの詳細と総括

YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once (YOLO) Series ( http://arxiv.org/abs/2406.19407v4 )

ライセンス: Link先を確認
Ranjan Sapkota, Rizwan Qureshi, Marco Flores Calero, Chetan Badjugar, Upesh Nepal, Alwin Poulose, Peter Zeno, Uday Bhanu Prakash Vaddevolu, Sheheryar Khan, Maged Shoman, Hong Yan, Manoj Karkee, (参考訳) このレビューは、YOLOv1から最近公開されたYOLOv10までの、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進歩を体系的に検証する。 逆時間解析を用いて, YOLOv10からYOLOv9, YOLOv8, その後のバージョンを経由し, リアルタイム物体検出における速度, 精度, 計算効率の向上に寄与する各バージョンについて検討した。 この研究は、自動車安全、医療、工業製造、監視、農業の5つの重要な分野におけるYOLOの変革的な影響を強調している。 後続のYOLOバージョンにおける段階的な技術的進歩を詳述することにより、このレビューはYOLOの進化を詳述し、各以前のバージョンにおける課題と限界について論じる。 この進化は、今後10年間、YOLOをマルチモーダル、コンテキスト認識、一般人工知能(AGI)システムに統合する道のりを示している。

This review systematically examines the progression of the You Only Look Once (YOLO) object detection algorithms from YOLOv1 to the recently unveiled YOLOv10. Employing a reverse chronological analysis, this study examines the advancements introduced by YOLO algorithms, beginning with YOLOv10 and progressing through YOLOv9, YOLOv8, and subsequent versions to explore each version's contributions to enhancing speed, accuracy, and computational efficiency in real-time object detection. The study highlights the transformative impact of YOLO across five critical application areas: automotive safety, healthcare, industrial manufacturing, surveillance, and agriculture. By detailing the incremental technological advancements in subsequent YOLO versions, this review chronicles the evolution of YOLO, and discusses the challenges and limitations in each earlier versions. The evolution signifies a path towards integrating YOLO with multimodal, context-aware, and General Artificial Intelligence (AGI) systems for the next YOLO decade, promising significant implications for future developments in AI-driven applications.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# 非対称円錐最適化による量子鍵分布速度

Quantum key distribution rates from non-symmetric conic optimization ( http://arxiv.org/abs/2407.00152v2 )

ライセンス: Link先を確認
Andrés González Lorente, Pablo V. Parellada, Miguel Castillo-Celeita, Mateus Araújo, (参考訳) 量子鍵分布(QKD)における鍵レートの計算は、より高度な測定ベースまたはより高次元の量子システムを使用するより強力なプロトコルをアンロックするためには、数値的に不可欠である。 これは、凸非線型函数、すなわち(量子)相対エントロピーの最小化に依存する、難しい最適化問題である。 標準円錐最適化技術は、非対称円錐であるため、相対エントロピーコーンを扱うことができず、標準アルゴリズムは対称錐しか扱えない。 しかし、近年、相対エントロピーを含む非対称錐体を最適化する実用的なアルゴリズムが発見されている。 ここでは、このアルゴリズムを鍵レートの計算問題に適用し、それらを下げるための効率的な手法を得る。 従来のテクニックと比較して、柔軟性、使いやすさ、そしてすべてのパフォーマンスの利点があります。

Computing key rates in quantum key distribution (QKD) numerically is essential to unlock more powerful protocols, that use more sophisticated measurement bases or quantum systems of higher dimension. It is a difficult optimization problem, that depends on minimizing a convex non-linear function: the (quantum) relative entropy. Standard conic optimization techniques have for a long time been unable to handle the relative entropy cone, as it is a non-symmetric cone, and the standard algorithms can only handle symmetric ones. Recently, however, a practical algorithm has been discovered for optimizing over non-symmetric cones, including the relative entropy. Here we adapt this algorithm to the problem of computation of key rates, obtaining an efficient technique for lower bounding them. In comparison to previous techniques it has the advantages of flexibility, ease of use, and above all performance.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# JailbreakZoo:大規模言語と視覚言語モデルのジェイルブレイクにおける調査、景観、ホライズン

JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models ( http://arxiv.org/abs/2407.01599v2 )

ライセンス: Link先を確認
Haibo Jin, Leyang Hu, Xinuo Li, Peiyan Zhang, Chonghan Chen, Jun Zhuang, Haohan Wang, (参考訳) 大規模言語モデル(LLMs)と視覚言語モデル(VLMs)の発展による人工知能(AI)の急速な進化は、様々な技術領域で大きな進歩をもたらした。 これらのモデルが自然言語処理や視覚的対話タスクの能力を高める一方で、それらの採用の増加は、セキュリティと倫理的整合性に関する重要な懸念を提起する。 本調査は, LLM と VLM の倫理的・運用的境界を未然に回避し, そして, 防衛機構の発達の進展を概観するものである。 今回の研究は、ジェイルブレイクを7つの異なるタイプに分類し、これらの脆弱性に対処する防衛戦略を精査する。 この総合的な調査を通じて,研究のギャップを特定し,LLMとVLMのセキュリティフレームワークを強化するための今後の研究の方向性を提案する。 我々の発見は、次世代の言語モデルのための堅牢でセキュアで信頼性の高い環境を育むために、ジェイルブレイク戦略と防御ソリューションの両方を統合する統一的な視点の必要性を浮き彫りにしている。 詳細は、私たちのWebサイト(リンク)で確認できます。

The rapid evolution of artificial intelligence (AI) through developments in Large Language Models (LLMs) and Vision-Language Models (VLMs) has brought significant advancements across various technological domains. While these models enhance capabilities in natural language processing and visual interactive tasks, their growing adoption raises critical concerns regarding security and ethical alignment. This survey provides an extensive review of the emerging field of jailbreaking--deliberately circumventing the ethical and operational boundaries of LLMs and VLMs--and the consequent development of defense mechanisms. Our study categorizes jailbreaks into seven distinct types and elaborates on defense strategies that address these vulnerabilities. Through this comprehensive examination, we identify research gaps and propose directions for future studies to enhance the security frameworks of LLMs and VLMs. Our findings underscore the necessity for a unified perspective that integrates both jailbreak strategies and defensive solutions to foster a robust, secure, and reliable environment for the next generation of language models. More details can be found on our website: \url{https://chonghan-chen.com/llm-jailbreak-zoo-survey/}.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# 深部画像を用いたトリグリセリドの化学シフトエンコーディングに基づく二重結合定量

Chemical Shift Encoding based Double Bonds Quantification in Triglycerides using Deep Image Prior ( http://arxiv.org/abs/2407.01926v3 )

ライセンス: Link先を確認
Chaoxing Huang, Ziqiang Yu, Zijian Gao, Qiuyi Shen, Queenie Chan, Vincent Wai-Sun Wong, Winnie Chiu-Wing Chu, Weitian Chen, (参考訳) 本研究では,Deep Image Prior (DIP) を用いた深層学習による化学シフト符号化多面勾配エコー画像からのトリグリセリド二重結合の定量化について検討した。 信号制約に基づいたコスト関数を用いて、ニューラルネットワークを1つのデータセットで反復的に更新する。 本法はファントム実験と生体内スキャンを用いて検証した。 結果は測定値と基準二重結合値の密接な一致を示し、ファントム実験によりピアソン相関係数は 0.96 (p = .0005) となった。 In vivoでは皮下脂肪が良好であった。 Deep Image Priorは, 化学シフト型多面体MRIから二重結合および脂肪酸含有量を定量化できる可能性が示唆された。

This study evaluated a deep learning-based method using Deep Image Prior (DIP) to quantify triglyceride double bonds from chemical-shift encoded multi-echo gradient echo images without network training. We employed a cost function based on signal constraints to iteratively update the neural network on a single dataset. The method was validated using phantom experiments and in vivo scans. Results showed close alignment between measured and reference double bond values, with phantom experiments yielding a Pearson correlation coefficient of 0.96 (p = .0005). In vivo results demonstrated good agreement in subcutaneous fat. We conclude that Deep Image Prior shows feasibility for quantifying double bonds and fatty acid content from chemical-shift encoded multi-echo MRI.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# 教師付きローカルラーニングのためのモーメント補助ネットワーク

Momentum Auxiliary Network for Supervised Local Learning ( http://arxiv.org/abs/2407.05623v3 )

ライセンス: Link先を確認
Junhao Su, Changpeng Cai, Feiyu Zhu, Chenghao He, Xiaojie Xu, Dongzhi Guan, Chenyang Si, (参考訳) ディープニューラルネットワークは従来、トレーニングプロセスにエンドツーエンドのバックプロパゲーションを採用しており、生物学的信頼性が欠如し、ネットワークパラメータの更新中にロックジレンマを引き起こし、GPUメモリの使用が大幅に増加する。 ネットワークを独立した補助ネットワークによって更新された複数のローカルブロックに分割する。 しかし、これらの手法は、局所ブロック内でのみ勾配が伝播し、ブロック間の情報交換の欠如が生じるため、より低い精度でエンドツーエンドのトレーニングを置き換えることはできない。 この問題に対処し,ブロック間の情報伝達を確立するために,動的相互作用機構を確立するMomentum Auxiliary Network (MAN)を提案する。 MANは、隣接するローカルブロックからパラメータの指数移動平均(EMA)を利用して情報の流れを強化する。 EMAによって更新されたこの補助ネットワークは、ブロック間の情報ギャップをブリッジするのに役立つ。 それにもかかわらず、EMAパラメータの直接適用には、局所ブロック間の特徴の相違による一定の制限がある。 これを解決するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上します。 我々は,4つの画像分類データセット (CIFAR-10, STL-10, SVHN, ImageNet) で本手法の有効性を検証した。 特に,本手法は,エンドツーエンドのトレーニングに比べ,イメージネットデータセット上でのGPUメモリ使用率を45%以上削減し,高性能化を実現している。 そこで、Momentum Auxiliary Networkは、教師付きローカル学習の新しい視点を提供する。 私たちのコードは、https://github.com/JunhaoSu0/MAN.comで利用可能です。

Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: https://github.com/JunhaoSu0/MAN.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# レイアウトに従わない大規模言語モデル

Large Language Models Understand Layout ( http://arxiv.org/abs/2407.05750v2 )

ライセンス: Link先を確認
Weiming Li, Manni Duan, Dong An, Yan Shao, (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 本稿では,テキスト理解機能以外に,空間マーカーで表されるテキストレイアウトをLLMで処理できることを示す。 元のデータから空間マーカーを除外した場合に、劇的な性能低下が観察される一方で、明示的な空間知覚と推論を必要とする質問に答えることができる。 我々は,GPT-3.5,Baichuan2,Llama2,ChatGLM3モデルを用いて,様々なタイプのレイアウトに敏感なデータセットを用いて実験を行い,さらなる分析を行った。 実験結果から, LLMのレイアウト理解能力は, 事前学習のためのコーディングデータによって主に導入され, 指導訓練段階でさらに強化されていることがわかった。 さらに、新しいテキストゲームによってアプローチされた低コストで自動生成されたデータを統合することで、レイアウト理解を向上させることができる。 最後に,視覚的質問応答(VQA)システムを構築する上で,レイアウト理解能力が有用であることを示す。

Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# 確率的変動環境における量子デコヒーレンスダイナミクス

Quantum decoherence dynamics in stochastically fluctuating environments ( http://arxiv.org/abs/2407.06074v2 )

ライセンス: Link先を確認
Xiangji Cai, Yanyan Feng, Jing Ren, Yonggang Peng, Yujun Zheng, (参考訳) 理論的には、2段階の量子系のデコヒーレンスを、確率的リウヴィル方程式の枠組み内で線形で二次的なゆらぎを示す雑音環境に結合する。 量子系の固有エネルギー準位は、環境騒音の線形あるいは二次的な影響の下で再正規化されることが示されている。 二次的依存の場合、環境騒音が定常的な統計的性質を示したとしても、系のエネルギー準位の正規化が生じる。 これは、線形の影響下でのケースとは対照的であり、環境ノイズが非定常統計を表示する場合にのみ、システムの内在エネルギーレベルが正規化される。 周波数差の変動が非定常オルンシュタイン・ウレンベックノイズ(OUN)とランダムテレグラフノイズ(RTN)の過程に依存する場合のデコヒーレンス関数の解析式を導出する。 OUNの線形依存の場合、環境非定常統計特性は動的デコヒーレンスを高めることができる。 しかし、環境騒音の非定常統計は、OUNの二次的影響の下で、この場合の量子デコヒーレンスを抑制することができる。 RTNの存在下では、環境騒音の二次的な影響はデコヒーレンスを引き起こすのではなく、動的進化において決定的な周波数再正規化を引き起こすだけである。 環境非定常統計特性は、RTNの線形影響下でのケースの量子デコヒーレンスを抑制することができる。

We theoretically study the decoherence of a two-level quantum system coupled to noisy environments exhibiting linear and quadratic fluctuations within the framework of a stochastic Liouville equation. It is shown that the intrinsic energy levels of the quantum system renormalize under either the linear or quadratic influence of the environmental noise. In the case of quadratic dependence, the renormalization of the energy levels of the system emerges even if the environmental noise exhibits stationary statistical properties. This is in contrast to the case under linear influence, where the intrinsic energy levels of the system renormalize only if the environmental noise displays nonstationary statistics. We derive the analytical expressions of the decoherence function in the cases where the fluctuation of the frequency difference depends linearly and quadratically on the nonstationary Ornstein-Uhlenbeck noise (OUN) and random telegraph noise (RTN) processes, respectively. In the case of the linear dependence of the OUN, the environmental nonstationary statistical property can enhance the dynamical decoherence. However, the nonstationary statistics of the environmental noise can suppress the quantum decoherence in this case under the quadratic influence of the OUN. In the presence of the RTN, the quadratic influence of the environmental noise does not give rise to decoherence but only causes a determinate frequency renormalization in dynamical evolution. The environmental nonstationary statistical property can suppress the quantum decoherence of the case under the linear influence of the RTN.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# 視覚言語モデルは盲目です

Vision language models are blind ( http://arxiv.org/abs/2407.06581v4 )

ライセンス: Link先を確認
Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen, (参考訳) 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、様々な画像テキストアプリケーションに電力を供給し、多くの視覚に基づくベンチマークで高いスコアを得ているが、それでも驚くほど人間にとって容易な低レベルの視覚タスクに苦戦している。 具体的には、BlindTestでは、識別のような非常に単純な7つのタスクからなるスイートです。 (a) 2つの円が重複するか否か (b)二つの線が交差するか否か (c)どの文字が一言で丸められているか、 (d) オリンピックのようなロゴの円を数えると、4つの最先端のVLMは平均して58.57%しか正確ではない。 クロード3.5 ソネットは74.01%の精度で最高の成績を収めているが、これは人間の予想した100%の精度とは程遠い。 画像解像度と線幅の異なるVLMは、正確な空間情報を必要とし、重なり合う、または近接している幾何学的プリミティブを認識するタスクに一貫して苦労する。 コードとデータは、https://vlmsareblind.github.ioで公開されている。

While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.01% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# SvANet:小さな医療用オブジェクトセグメンテーションのためのスケール可変アテンションベースネットワーク

SvANet: A Scale-variant Attention-based Network for Small Medical Object Segmentation ( http://arxiv.org/abs/2407.07720v3 )

ライセンス: Link先を確認
Wei Dai, Rui Liu, Zixuan Wu, Tianyi Wu, Min Wang, Junxian Zhou, Yixuan Yuan, Jun Liu, (参考訳) 早期発見と正確な診断は悪性疾患の再発のリスクを予測し、効果的治療の確率を高めることができる。 軽度の感染部位を有する軽度の症候群は、異常な警告であり、疾患の早期診断の最前線である。 畳み込みニューラルネットワーク(CNN)のようなディープラーニングアルゴリズムは、自然または医学的なオブジェクトを分割するために使われ、有望な結果を示している。 しかし、画像内の小さな領域の医療対象を分析することは、CNNにおける畳み込みやプール操作によって引き起こされる情報損失と圧縮欠陥のため、依然として課題である。 これらの損失と欠陥は、ネットワークが深まるにつれて、特に小さな医療オブジェクトにとって、ますます顕著になる。 これらの課題に対処するために,医用画像における小型物体分割を正確に行うための,新しいスケール可変アテンションベースネットワーク(SvANet)を提案する。 SvANetはモンテカルロ・アテンション、スケール可変アテンション、ビジョン・トランスフォーマーで構成されており、クロススケールな特徴を取り入れ、小さな医療オブジェクトの識別を強化するために圧縮アーティファクトを緩和している。 定量的実験の結果、SvANetは96.12%、96.11%、89.79%、84.15%、80.25%、73.05%、および72.58%を達成し、それぞれKiTS23、ISIC 2018、ATLAS、PolypGen、TioNet、FIVES、SpermHealthの各データセットの画像領域の1%未満を占める腎臓腫瘍、皮膚病変、肝腫瘍、ポリープ、外科切除細胞、網膜血管、精子の分画係数を推定した。

Early detection and accurate diagnosis can predict the risk of malignant disease transformation, thereby increasing the probability of effective treatment. A mild syndrome with small infected regions is an ominous warning and is foremost in the early diagnosis of diseases. Deep learning algorithms, such as convolutional neural networks (CNNs), have been used to segment natural or medical objects, showing promising results. However, analyzing medical objects of small areas in images remains a challenge due to information losses and compression defects caused by convolution and pooling operations in CNNs. These losses and defects become increasingly significant as the network deepens, particularly for small medical objects. To address these challenges, we propose a novel scale-variant attention-based network (SvANet) for accurate small-scale object segmentation in medical images. The SvANet consists of Monte Carlo attention, scale-variant attention, and vision transformer, which incorporates cross-scale features and alleviates compression artifacts for enhancing the discrimination of small medical objects. Quantitative experimental results demonstrate the superior performance of SvANet, achieving 96.12%, 96.11%, 89.79%, 84.15%, 80.25%, 73.05%, and 72.58% in mean Dice coefficient for segmenting kidney tumors, skin lesions, hepatic tumors, polyps, surgical excision cells, retinal vasculatures, and sperms, which occupy less than 1% of the image areas in KiTS23, ISIC 2018, ATLAS, PolypGen, TissueNet, FIVES, and SpermHealth datasets, respectively.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# 窒素空孔中心を用いたマルチパルス量子センシングにおけるあいまいな共鳴

Ambiguous Resonances in Multipulse Quantum Sensing with Nitrogen Vacancy Centers ( http://arxiv.org/abs/2407.09411v2 )

ライセンス: Link先を確認
Lucas Tsunaki, Anmol Singh, Kseniia Volkova, Sergei Trofimov, Tommaso Pregnolato, Tim Schröder, Boris Naydenov, (参考訳) 動的デカップリング多重パルス列は、近傍の単一核スピンから弱い振動場を感知する固体スピンに応用することができる。 周期的に探査システムの進化を反転させることで、他のノイズは反作用し、全進化にわたって除去される。 しかし、この手法は複雑な相互作用を伴って追加の共鳴応答を生じさせ、測定対象の実際の信号と誤解釈することができる。 ダイヤモンド中の単一窒素空孔中心に存在するこれらの3つの効果を実験的に評価し, 回転波近似を伴わない数値シミュレーションモデルを開発し, 実験データとの堅牢な相関性を示した。 約$^{15}$Nの窒素同位体を持つ中心では、バイアス磁場の小さな誤配が、窒素核スピンの沈着を中心の電子スピンによって感知することを発見した。 ここでは、エコー変調周波数に基づいて相互作用ハミルトニアンを再構成し、このハミルトニアンを用いて多重パルス列をシミュレートした。 最後に、有限パルス時間における量子系の自由進化の影響を計測し、シミュレーションした。 大規模なデータ量と、これらの曖昧な共鳴と特定の実験パラメータとの強い依存のため、ユーザフレンドリーなグラフィカルインタフェースを用いたシミュレーションデータセットを提供し、ユーザはシミュレーションを自身の実験データと比較してスペクトルの曖昧さを識別する。 窒素空孔中心と動的デカップリング配列に焦点が当てられているが、これらの結果と開発モデルは他の固体スピンや量子センシング技術にも適用できる可能性がある。

Dynamical decoupling multipulse sequences can be applied to solid state spins for sensing weak oscillating fields from nearby single nuclear spins. By periodically reversing the probing system's evolution, other noises are counteracted and filtered out over the total evolution. However, the technique is subject to intricate interactions resulting in additional resonant responses, which can be misinterpreted with the actual signal intended to be measured. We experimentally characterized three of these effects present in single nitrogen vacancy centers in diamond, where we also developed a numerical simulations model without rotating wave approximations, showing robust correlation to the experimental data. Regarding centers with the $^{15}$N nitrogen isotope, we observed that a small misalignment in the bias magnetic field causes the precession of the nitrogen nuclear spin to be sensed by the electronic spin of the center. Another studied case of ambiguous resonances comes from the coupling with lattice $^{13}$C nuclei, where we reconstructed the interaction Hamiltonian based on echo modulation frequencies and used this Hamiltonian to simulate multipulse sequences. Finally, we also measured and simulated the effects from the free evolution of the quantum system during finite pulse durations. Due to the large data volume and the strong dependency of these ambiguous resonances with specific experimental parameters, we provide a simulations dataset with a user-friendly graphical interface, where users can compare simulations with their own experimental data for spectral disambiguation. Although focused with nitrogen vacancy centers and dynamical decoupling sequences, these results and the developed model can potentially be applied to other solid state spins and quantum sensing techniques.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-25
# PARSE-Ego4D:エゴセントリックビデオのためのパーソナライズ・アクション・レコメンデーション

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos ( http://arxiv.org/abs/2407.09503v2 )

ライセンス: Link先を確認
Steven Abreu, Tiffany D. Do, Karan Ahuja, Eric J. Gonzalez, Lee Payne, Daniel McDuff, Mar Gonzalez-Franco, (参考訳) 知的援助は理解だけでなく行動も含む。 既存のエゴ中心のビデオデータセットには、ビデオの豊富なアノテーションが含まれているが、現時点ではインテリジェントアシスタントが実行可能なアクションは含まれていない。 このギャップに対処するため、私たちは、Ego4Dデータセット用の新しい個人的なアクションレコメンデーションアノテーションであるPARSE-Ego4Dをリリースします。 これらのアノテーションの生成と評価には,多段階的なアプローチを採用しています。 まず、プロンプトエンジニアリングされた大規模言語モデル(LLM)を用いて、コンテキスト認識されたアクション提案を生成し、18,000以上のアクション提案を特定した。 これらの合成作用提案は有用であるが、LLMの本質的な制限は人間の評価を必要とする。 高品質でユーザ中心のレコメンデーションを確保するため, PARSE-Ego4Dの全嗜好の基盤となる大規模な人文アノテーション研究を行った。 我々は,レイター間の合意を分析し,参加者の主観的嗜好を評価する。 合成データセットと完全な人間のアノテーションに基づいて、エゴ中心のビデオに基づくアクション提案のための新しいタスクをいくつか提案する。 レイテンシとエネルギー要求を改善する新しいソリューションを推奨します。 PARSE-Ego4Dのアノテーションは、拡張現実および仮想現実システムのためのアクションレコメンデーションシステムの構築に取り組んでいる研究者や開発者をサポートする。

Intelligent assistance involves not only understanding but also action. Existing ego-centric video datasets contain rich annotations of the videos, but not of actions that an intelligent assistant could perform in the moment. To address this gap, we release PARSE-Ego4D, a new set of personal action recommendation annotations for the Ego4D dataset. We take a multi-stage approach to generating and evaluating these annotations. First, we used a prompt-engineered large language model (LLM) to generate context-aware action suggestions and identified over 18,000 action suggestions. While these synthetic action suggestions are valuable, the inherent limitations of LLMs necessitate human evaluation. To ensure high-quality and user-centered recommendations, we conducted a large-scale human annotation study that provides grounding in human preferences for all of PARSE-Ego4D. We analyze the inter-rater agreement and evaluate subjective preferences of participants. Based on our synthetic dataset and complete human annotations, we propose several new tasks for action suggestions based on ego-centric videos. We encourage novel solutions that improve latency and energy requirements. The annotations in PARSE-Ego4D will support researchers and developers who are working on building action recommendation systems for augmented and virtual reality systems.
翻訳日:2024-07-26 18:27:53 公開日:2024-07-25
# ヒストグラム変換器による逆気象条件の復元

Restoring Images in Adverse Weather Conditions via Histogram Transformer ( http://arxiv.org/abs/2407.10172v2 )

ライセンス: Link先を確認
Shangquan Sun, Wenqi Ren, Xinwei Gao, Rui Wang, Xiaochun Cao, (参考訳) 気象条件下でのトランスフォーマーによる画像復元法は大きな進歩を遂げた。 それらの多くは、計算負荷を減らすためにチャネル次元や空間的に固定されたブロックに沿って自己アテンションを使用する。 しかし、このような妥協は、長距離空間的特徴を捉える際の限界をもたらす。 本研究は, 気象に起因した劣化要因が, 主に類似の閉塞や明るさを引き起こすという観測に触発され, 悪天候による画像の復元に有効なヒストグラム変換器 (Histoformer) を提案する。 これはヒストグラム自己アテンション( histogram self-attention)と呼ばれるメカニズムで、空間的特徴を強度ベースのビンに分類し、セグメント化する。 次に、各ビンまたは各ビンに自己注意を適用して、ダイナミックレンジの空間的特徴に選択的に焦点を合わせ、長い範囲の同様の劣化画素を一緒に処理する。 ヒストグラムの自己アテンションを高めるため,従来のコンボリューションにより,隣接画素ではなく類似画素上での操作が可能となるダイナミックレンジ・コンボリューションを提案する。 また, 共通画素の損失は, 線形関係や, 出力と接地構造との相関を無視する。 そこで本研究では,Pearson相関係数を損失関数として利用して,地上構造と同一の順序で復元された画素を強制する。 実験の結果,提案手法の有効性と優位性を示した。 ソースコードはGithubで公開しています。

Transformer-based image restoration methods in adverse weather have achieved significant progress. Most of them use self-attention along the channel dimension or within spatially fixed-range blocks to reduce computational load. However, such a compromise results in limitations in capturing long-range spatial features. Inspired by the observation that the weather-induced degradation factors mainly cause similar occlusion and brightness, in this work, we propose an efficient Histogram Transformer (Histoformer) for restoring images affected by adverse weather. It is powered by a mechanism dubbed histogram self-attention, which sorts and segments spatial features into intensity-based bins. Self-attention is then applied across bins or within each bin to selectively focus on spatial features of dynamic range and process similar degraded pixels of the long range together. To boost histogram self-attention, we present a dynamic-range convolution enabling conventional convolution to conduct operation over similar pixels rather than neighbor pixels. We also observe that the common pixel-wise losses neglect linear association and correlation between output and ground-truth. Thus, we propose to leverage the Pearson correlation coefficient as a loss function to enforce the recovered pixels following the identical order as ground-truth. Extensive experiments demonstrate the efficacy and superiority of our proposed method. We have released the codes in Github.
翻訳日:2024-07-26 18:27:53 公開日:2024-07-25
# CIBench: コードインタープリタプラグインによるLLMの評価

CIBench: Evaluating Your LLMs with a Code Interpreter Plugin ( http://arxiv.org/abs/2407.10499v2 )

ライセンス: Link先を確認
Songyang Zhang, Chuyu Zhang, Yingfan Hu, Haowen Shen, Kuikun Liu, Zerun Ma, Fengzhe Zhou, Wenwei Zhang, Xuming He, Dahua Lin, Kai Chen, (参考訳) 複雑な問題を解決するために外部ツールを使用するLCMベースのエージェントは大きな進歩を遂げているが、それらの能力のベンチマークは困難であり、それによってそれらの制限を明確に理解するのを妨げる。 本稿では,データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。 評価フレームワークは評価データセットと2つの評価モードを含む。 評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。 2つの評価モードは、LLMの人的援助なしでの能力を評価する。 コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。

While LLM-Based agents, which use external tools to solve complex problems, have made significant progress, benchmarking their ability is challenging, thereby hindering a clear understanding of their limitations. In this paper, we propose an interactive evaluation framework, named CIBench, to comprehensively assess LLMs' ability to utilize code interpreters for data science tasks. Our evaluation framework includes an evaluation dataset and two evaluation modes. The evaluation dataset is constructed using an LLM-human cooperative approach and simulates an authentic workflow by leveraging consecutive and interactive IPython sessions. The two evaluation modes assess LLMs' ability with and without human assistance. We conduct extensive experiments to analyze the ability of 24 LLMs on CIBench and provide valuable insights for future LLMs in code interpreter utilization.
翻訳日:2024-07-26 18:27:53 公開日:2024-07-25
# ユニタリ四面体量子ゲート

Unitary tetrahedron quantum gates ( http://arxiv.org/abs/2407.10731v2 )

ライセンス: Link先を確認
Vivek Kumar Singh, Akash Sinha, Pramod Padmanabhan, Vladimir Korepin, (参考訳) 2量子ビットYang-Baxterゲートを用いた多体システムの量子シミュレーションは、量子ハードウェアのベンチマークを提供する。 これは、$n$-複素作用素と呼ばれるヤン・バクスターゲートの$n$-量子一般化を持つ高次元ケースにまで拡張することができる。 このようなマルチキュービットゲートは、より浅く、より効率的な量子回路にも繋がる可能性がある。 それらを見つけることは、高次元可積分系の構成要素である$n$-シプレックス方程式のユニタリ解を特定することに等しい。 これらは非常に非線型で過度に決定された方程式の集合であり、局所ヒルベルト空間が qubit で張られているときでさえ解くのが難しいと悪名高い。 我々は、クリフォード代数とヤン・バクスター作用素を持ち上げるという2つの方法を用いて構築された高次単純作用素に対して、これを体系的に克服する。 n=3$またはテトラヘドロンの場合を詳細に解析する。 qubitの場合、我々の手法はユニタリ四面体作用素の13の同値な族を生成する。 これらの族のうち12は、ダイ・ヒエタリンタの4つの定数ヤン・バクスター作用素の5つのユニタリ族を1つのキュービット作用素で付加することによって得られる。 応用として、単一、2、3個のキュービットゲートの普遍集合は、そのようなユニタリ四面体作用素を用いて実現される。 この研究で提示された考えは、自然に高次単純格にまで拡張することができる。

Quantum simulations of many-body systems using 2-qubit Yang-Baxter gates offer a benchmark for quantum hardware. This can be extended to the higher dimensional case with $n$-qubit generalisations of Yang-Baxter gates called $n$-simplex operators. Such multi-qubit gates potentially lead to shallower and more efficient quantum circuits as well. Finding them amounts to identifying unitary solutions of the $n$-simplex equations, the building blocks of higher dimensional integrable systems. These are a set of highly non-linear and over determined system of equations making it notoriously hard to solve even when the local Hilbert spaces are spanned by qubits. We systematically overcome this for higher simplex operators constructed using two methods: from Clifford algebras and by lifting Yang-Baxter operators. The $n=3$ or the tetrahedron case is analyzed in detail. For the qubit case our methods produce 13 inequivalent families of unitary tetrahedron operators. 12 of these families are obtained by appending the 5 unitary families of 4 by 4 constant Yang-Baxter operators of Dye-Hietarinta, with a single qubit operator. As applications, universal sets of single, two and three qubit gates are realized using such unitary tetrahedron operators. The ideas presented in this work can be naturally extended to the higher simplex cases.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# 位相制御のない準決定論的量子探索アルゴリズム

Near-deterministic quantum search algorithm without phase control ( http://arxiv.org/abs/2407.10748v2 )

ライセンス: Link先を確認
Zhen Wang, Kun Zhang, Vladimir Korepin, (参考訳) グロバーのアルゴリズムは、構造化されていない探索問題を解く。 グローバーのアルゴリズムは、4つのうち1つを検索した場合にのみ、ターゲット項目を確実に見つけることができる。 グローバーのアルゴリズムは、オラクルまたは拡散作用素の位相が微妙に設計されている場合、決定論的である。 位相の精度は問題になるかもしれない。 位相制御のないほぼ決定論的量子探索アルゴリズムを提案する。 我々のアルゴリズムはGroverのアルゴリズムと同じオラクルと拡散演算子を持つ。 さらに1つのコンポーネントは、再スケール拡散演算子である。 部分的にはデータベース上で動作します。 部分拡散演算子によるグローバーのアルゴリズムの成功確率を2つの異なる方法で改善する方法を示す。 可能なコストは、オラクルへの1つまたは2つ以上のクエリである。 また,8,16,32のうち1つを探索する場合に決定論的探索アルゴリズムを設計する。

Grover's algorithm solves the unstructured search problem. Grover's algorithm can find the target item with certainty only if searching one out of four. Grover's algorithm can be deterministic if the phase of the oracle or the diffusion operator is delicately designed. The precision of the phases could be a problem. We propose a near-deterministic quantum search algorithm without the phase control. Our algorithm has the same oracle and diffusion operators as Grover's algorithm. One additional component is the rescaled diffusion operator. It acts partially on the database. We show how to improve the success probability of Grover's algorithm by the partial diffusion operator in two different ways. The possible cost is one or two more queries to the oracle. We also design the deterministic search algorithm when searching one out of eight, sixteen, and thirty-two.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# 交通衝突検出のための統一理論と統計的学習手法

A unified theory and statistical learning approach for traffic conflict detection ( http://arxiv.org/abs/2407.10959v2 )

ライセンス: Link先を確認
Yiru Jiao, Simeon C. Calvert, Sander van Cranenburgh, Hans van Lint, (参考訳) 本研究は,道路利用者の衝突リスクを評価するための一貫した包括的方法論を求めて,交通衝突検出のための統一的理論と統計的学習手法を提案する。 提案理論は、文脈依存的な確率的衝突リスクを仮定し、日々の相互作用における極端な事象の統計的学習により、このリスクを評価する。 実世界の軌道データを用いた実験は、ドイツ高速道路における車線変更の相互作用で衝突の統一計量を訓練し、米国における100-Car Naturalistic Driving Studyのほぼクラッシュな出来事に適用する。実験の結果、この測定基準が効果的な衝突警告を提供し、異なるデータセットや交通環境をまたいだ一般化を提供し、幅広い紛争をカバーし、紛争強度の長期分布を提供することを示した。 これらの結果を反映して,道路利用者の移動状態や環境条件,参加者特性といった要因を総合的に考慮し,交通紛争の仮定を包含した総合的な定式化による一貫した評価が可能である。 したがって、理論と学習のアプローチは、異なる道路利用者間および様々な相互作用シナリオ間での衝突検出のための説明可能な、適応可能な方法論を共同で提供する。 これにより、交通インフラの安全性評価の強化、自動運転のためのより効果的な衝突警告システム、異なる交通状況における道路利用者の行動のより深い理解などにより、事故の低減と交通安全全体の改善が期待できる。

This study proposes a unified theory and statistical learning approach for traffic conflict detection, addressing the long-existing call for a consistent and comprehensive methodology to evaluate the collision risk emerging in road user interactions. The proposed theory assumes context-dependent probabilistic collision risk and frames conflict detection as assessing this risk by statistical learning of extreme events in daily interactions. Experiments using real-world trajectory data are conducted in this study, where a unified metric of conflict is trained with lane-changing interactions on German highways and applied to near-crash events from the 100-Car Naturalistic Driving Study in the U.S. Results of the experiments demonstrate that the trained metric provides effective collision warnings, generalises across distinct datasets and traffic environments, covers a broad range of conflicts, and delivers a long-tailed distribution of conflict intensity. Reflecting on these results, the unified theory ensures consistent evaluation by a generic formulation that encompasses varying assumptions of traffic conflicts; the statistical learning approach then enables a comprehensive consideration of influencing factors such as motion states of road users, environment conditions, and participant characteristics. Therefore, the theory and learning approach jointly provide an explainable and adaptable methodology for conflict detection among different road users and across various interaction scenarios. This promises to reduce accidents and improve overall traffic safety, by enhanced safety assessment of traffic infrastructures, more effective collision warning systems for autonomous driving, and a deeper understanding of road user behaviour in different traffic conditions.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# 低レイテンシ推論における知識向上

Knowledge boosting during low-latency inference ( http://arxiv.org/abs/2407.11055v3 )

ライセンス: Link先を確認
Vidya Srinivas, Malek Itani, Tuochao Chen, Sefik Emre Eskimez, Takuya Yoshioka, Shyamnath Gollakota, (参考訳) 低レイテンシのストリーミングアプリケーションは、より大きなモデルの知識能力の恩恵を受けることができるが、エッジデバイスはリソース制約のためにこれらのモデルを実行できない。 可能な解決策は、リモートで実行される大きなモデルからデバイス上で実行される小さなモデルへの推論中にヒントを転送することである。 しかし、これはリアルタイムの要求を破る通信遅延を引き起こし、両方のモデルが同時に同じデータ上で動作することを保証しない。 提案手法は,大規模モデルを推論中に時間遅延入力で動作させながら,小型モデルの性能を向上する新しい手法であるナレッジ・ブーイングを提案する。 8msのチャンクを処理するストリーミングニューラルネットワークを用いて、最大6チャンクまたは48msの通信遅延を伴う異なる音声分離および強化タスクを評価し、この結果から、小型モデルと大規模モデルのパフォーマンスギャップが広くなる大きなゲインを示し、低レイテンシアプリケーションのための大規模モデルコラボレーションのための有望な方法を示す。 コード、データセット、オーディオサンプルはhttps://knowledgeboosting.cs.washington.edu/で公開されている。

Models for low-latency, streaming applications could benefit from the knowledge capacity of larger models, but edge devices cannot run these models due to resource constraints. A possible solution is to transfer hints during inference from a large model running remotely to a small model running on-device. However, this incurs a communication delay that breaks real-time requirements and does not guarantee that both models will operate on the same data at the same time. We propose knowledge boosting, a novel technique that allows a large model to operate on time-delayed input during inference, while still boosting small model performance. Using a streaming neural network that processes 8 ms chunks, we evaluate different speech separation and enhancement tasks with communication delays of up to six chunks or 48 ms. Our results show larger gains where the performance gap between the small and large models is wide, demonstrating a promising method for large-small model collaboration for low-latency applications. Code, dataset, and audio samples available at https://knowledgeboosting.cs.washington.edu/.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# 多部交絡用モジュラーコンピュレータの幾何学的付加性

Geometric additivity of modular commutator for multipartite entanglement ( http://arxiv.org/abs/2407.11130v2 )

ライセンス: Link先を確認
Sung-Min Park, Isaac H. Kim, Eun-Gook Moon, (参考訳) 最近の多体量子絡み合いの研究で、量子多体系の興味深い性質が明らかになった。 主な例としてモジュラー可換作用素があり、単一の波動関数から位相不変量を取り出すことができる。 ここでは,2次元ギャップ量子多体系のモジュラー共振器による多体絡みの新たな幾何学的性質を明らかにする。 モジュラー可換器の幾何学的加法性は、多部系に対するモジュラー可換器が三部系に対する可換作用素の整数倍であることを示す。 加法式を用いて、ある種の共形場理論のクラスにおいて、不連結区間を含むモジュラー可換作用素に対して興味深い恒等式を導出する。 さらに、Haldaneモデルと$\pi$-fluxモデルの数値計算を用いて、バルクサブシステムとエッジサブシステムの両方に対してこの幾何学的付加性を説明する。

A recent surge of research in many-body quantum entanglement has uncovered intriguing properties of quantum many-body systems. A prime example is the modular commutator, which can extract a topological invariant from a single wave function. Here, we unveil novel geometric properties of many-body entanglement via a modular commutator of two-dimensional gapped quantum many-body systems. We obtain the geometric additivity of a modular commutator, indicating that modular commutator for a multipartite system may be an integer multiple of the one for tripartite systems. Using our additivity formula, we also derive a curious identity for the modular commutators involving disconnected intervals in a certain class of conformal field theories. We further illustrate this geometric additivity for both bulk and edge subsystems using numerical calculations of the Haldane and $\pi$-flux models.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# SES: グラフニューラルネットワークの説明可能性と予測のギャップを埋める

SES: Bridging the Gap Between Explainability and Prediction of Graph Neural Networks ( http://arxiv.org/abs/2407.11358v2 )

ライセンス: Link先を確認
Zhenhua Huang, Kunhao Li, Shaojie Wang, Zhaohong Jia, Wentao Zhu, Sharad Mehrotra, (参考訳) グラフニューラルネットワーク(GNN)のグラフデータを解析する習熟度にもかかわらず、高精度で解釈可能な予測を実現することは依然として困難である。 既存のGNNインタプリタは、通常、GNNの予測から外れたポストホックな説明を提供し、誤った表現をもたらす。 自己説明可能なGNNは、トレーニングプロセス中にビルトインの説明を提供する。 しかし、予測性能を向上させるために説明結果を利用することができず、ノードの特徴の高品質な説明を提供しず、説明可能な部分グラフを生成するために追加のプロセスを必要とするため、コストがかかる。 上記の制限に対処するため、説明可能性と予測のギャップを埋める自己説明型自己教師型グラフニューラルネットワーク(SES)を提案する。 SESは説明可能なトレーニングと予測学習の2つのプロセスから構成される。 説明可能なトレーニングの間、SESはグラフエンコーダと共同でトレーニングされたグローバルマスクジェネレータを使用し、重要な構造と特徴マスクを直接生成し、時間消費を低減し、ノードの特徴とサブグラフの説明を提供する。 強化された予測学習フェーズでは、マスクベースの正負のペアが3重項損失を計算し、対照的な学習によってノード表現を強化するために説明を利用して構築される。

Despite the Graph Neural Networks' (GNNs) proficiency in analyzing graph data, achieving high-accuracy and interpretable predictions remains challenging. Existing GNN interpreters typically provide post-hoc explanations disjointed from GNNs' predictions, resulting in misrepresentations. Self-explainable GNNs offer built-in explanations during the training process. However, they cannot exploit the explanatory outcomes to augment prediction performance, and they fail to provide high-quality explanations of node features and require additional processes to generate explainable subgraphs, which is costly. To address the aforementioned limitations, we propose a self-explained and self-supervised graph neural network (SES) to bridge the gap between explainability and prediction. SES comprises two processes: explainable training and enhanced predictive learning. During explainable training, SES employs a global mask generator co-trained with a graph encoder and directly produces crucial structure and feature masks, reducing time consumption and providing node feature and subgraph explanations. In the enhanced predictive learning phase, mask-based positive-negative pairs are constructed utilizing the explanations to compute a triplet loss and enhance the node representations by contrastive learning.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# CCVA-FL:医療画像のための適応的フェデレーション学習

CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging ( http://arxiv.org/abs/2407.11652v2 )

ライセンス: Link先を確認
Sunny Gupta, Amit Sethi, (参考訳) Federated Learning(FL)は、分散データ上でモデルをトレーニングするためのプライバシ保護アプローチを提供する。 医療におけるそのポテンシャルは重要であるが、制限されたアノテーションによって悪化する医療画像データの横断的変動によって、課題が生じる。 本稿では,これらの問題に対処するため,CCVA-FL(Cross-Client Variations Adaptive Federated Learning)を提案する。 CCVA-FLは、画像を共通の特徴空間に変換することで、クロスクライアントの変動を最小限にすることを目的としている。 各クライアントからのイメージのサブセットを専門的にアノテーションし、続いてターゲットとして最もデータ複雑性の低いクライアントを選択する。 次に、ターゲットクライアントの注釈付き画像に基づいて、変換器付きスケーラブル拡散モデル(DiT)を用いて合成医療画像を生成する。 これらの合成画像は多様性を捉え、元のデータを表現し、他のクライアントと共有する。 各クライアントは、画像から画像への変換を使用して、そのローカル画像を対象のイメージ空間に変換する。 翻訳された画像は、その後、サーバモデルを開発するための連合学習設定で使用される。 その結果、CCVA-FLはプライバシーを損なうことなく、クライアント間でのデータ分散の違いを効果的に解決することで、Vanilla Federated Averagingよりも優れていることが示された。

Federated Learning (FL) offers a privacy-preserving approach to train models on decentralized data. Its potential in healthcare is significant, but challenges arise due to cross-client variations in medical image data, exacerbated by limited annotations. This paper introduces Cross-Client Variations Adaptive Federated Learning (CCVA-FL) to address these issues. CCVA-FL aims to minimize cross-client variations by transforming images into a common feature space. It involves expert annotation of a subset of images from each client, followed by the selection of a client with the least data complexity as the target. Synthetic medical images are then generated using Scalable Diffusion Models with Transformers (DiT) based on the target client's annotated images. These synthetic images, capturing diversity and representing the original data, are shared with other clients. Each client then translates its local images into the target image space using image-to-image translation. The translated images are subsequently used in a federated learning setting to develop a server model. Our results demonstrate that CCVA-FL outperforms Vanilla Federated Averaging by effectively addressing data distribution differences across clients without compromising privacy.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# CCoE: 専門家の協力によるコンパクトなLLM

CCoE: A Compact LLM with Collaboration of Experts ( http://arxiv.org/abs/2407.11686v3 )

ライセンス: Link先を確認
Shaomang Huang, Jianfeng Pan, Hanzhong Zheng, (参考訳) 大規模言語モデル(LLM)の領域では、LLMは自然言語の理解と生成において重要な能力を示す。 様々なドメインにLLMを適用する必要性が高まっている中で、異なるドメインの専門知識を持つモデルをどのように効率的に訓練し、構築するかという研究の課題である。 本稿では,複数の強力なドメインエキスパートを結合して大きなLLMに融合するフレームワークであるCCoEアーキテクチャを提案する。 さらに、複数の専門家による大規模な共同作業のトレーニングには、トレーニングソースに対する高い要求が必要である。 CCoEは、他の専門家を分離し、各専門家を個別に訓練することで、この問題を回避します。 CCoEの設計は、CoE(Collaboration of Experts)レイヤを通じて複数の専門家のLCMを組み立てる。 各CoE層は1つ以上の専門LSMを持つことができる。 専門家のLLMは異なるレイヤ数を持ち、異なるドメインタスクに対して十分に訓練されている。 各エキスパートは、SOTAドメインのLLMで同等の結果を得ることができるように微調整される。 Code, Math, Law, text-to-SQL, Medicalの5つの分野の専門家から始めます。 その結果、我々のCCoEフレームワークは、異なるドメインにおける元のベースモデルで10%-20%近いパフォーマンスを容易かつ効率的に向上できるが、トレーニングのリソースは少なく、推論も少ないことが示唆された。

In the domain of Large Language Model (LLM), LLMs demonstrate significant capabilities in natural language understanding and generation. With the growing needs of applying LLMs on various domains, it is a research question that how to efficiently train and build a model that has expertise in different domains but with a low training cost. We propose CCoE architecture, a framework of easily coupling multiple strong domain experts together to fuse into a big LLM, provides a collective way of utilizing the different domain expert LLMs. Besides, training a large collaborative of multiple expert LLMs requires a high requirements on training sources. CCoE bypasses this problem through isolating other experts and train each expert separately. The design of CCoE assembles multiple expert LLMs through the CoE (Collaboration of Experts) layer. Each CoE layer could have one or more expert LLMs. Expert LLMs have different number of layers and have been well-trained for different domain tasks. Each expert is fine-tuned to be able to achieve the comparable results with SOTA domain LLMs. We start from 5 experts in the domain of Code, Math, Law, text-to-SQL and Medical. The results indicate that our CCoE framework can easily and efficiently boost nearly 10%-20% performance on original base model in different domains but using less resources on training, as well as inference.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# ソフトロボットインタラクションのための解釈可能なビジュオ触覚予測モデルを目指して

Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions ( http://arxiv.org/abs/2407.12197v2 )

ライセンス: Link先を確認
Enrico Donato, Thomas George Thuruthel, Egidio Falotico, (参考訳) 自律システムは予測不可能な環境をナビゲートし、外部オブジェクトと対話するという、複雑な課題に直面します。 ロボットエージェントを現実世界の状況にうまく統合することは、世界モデルと予測スキルの融合を含む知覚能力に依存している。 効果的な知覚モデルは、周囲を探索するために様々な感覚モダリティの融合の上に構築される。 生の感覚モダリティに応用されたディープラーニングは、実行可能な選択肢を提供する。 しかし、学習に基づく知覚表現は解釈が困難になる。 この課題はソフトロボットにおいて特に顕著であり、構造や素材のコンプライアンスが予測をさらに困難にしている。 我々の研究は、生成モデルを利用してソフトロボットのためのマルチモーダル認識モデルを構築し、対外物体との接触を予測・解釈するために、受容的・視覚的情報を活用することで、この複雑さに対処する。 知覚モデルを理解するための一連のツールが提供され、学習段階の後に複数の感覚入力の融合と予測プロセスに光を当てる。 我々は、知覚モデルとその制御目的への含意の展望を掘り下げる。

Autonomous systems face the intricate challenge of navigating unpredictable environments and interacting with external objects. The successful integration of robotic agents into real-world situations hinges on their perception capabilities, which involve amalgamating world models and predictive skills. Effective perception models build upon the fusion of various sensory modalities to probe the surroundings. Deep learning applied to raw sensory modalities offers a viable option. However, learning-based perceptive representations become difficult to interpret. This challenge is particularly pronounced in soft robots, where the compliance of structures and materials makes prediction even harder. Our work addresses this complexity by harnessing a generative model to construct a multi-modal perception model for soft robots and to leverage proprioceptive and visual information to anticipate and interpret contact interactions with external objects. A suite of tools to interpret the perception model is furnished, shedding light on the fusion and prediction processes across multiple sensory inputs after the learning phase. We will delve into the outlooks of the perception model and its implications for control purposes.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# CHOSEN: 効率的な視覚変換器推論のためのハードウェア最適化スタックへのコンパイル

CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference ( http://arxiv.org/abs/2407.12736v3 )

ライセンス: Link先を確認
Mohammad Erfan Sadeghi, Arash Fayyazi, Suhas Somashekar, Massoud Pedram, (参考訳) ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。 従来のアプローチとは異なり、ViTは自然言語処理で広く使われている自己認識機構を使って画像パッチを分析する。 ビジュアルタスクのモデリングにおける利点にもかかわらず、ハードウェアプラットフォーム、特にFPGA(Field-Programmable Gate Arrays)にViTをデプロイすることは、大きな課題をもたらす。 これらの課題は、主に非線形計算と、ViTの高計算およびメモリ要求に起因する。 本稿では,これらの課題に対処するソフトウェア・ハードウェアの共同設計フレームワークであるCHOSENを紹介する。 我々のフレームワークは,帯域幅を最大化するためのマルチカーネル設計,最小精度の劣化を示す非線形関数,FPGA上で利用可能な論理ブロックの効率的な利用,および最適スループットとレイテンシを実現するための設計空間探索のための新しいアルゴリズムを提示することにより,コンピュータカーネルの性能とメモリ効率を最大化するための効率的なコンパイラの3つの基本的コントリビューションに基づいて構築されている。 最先端のViTアクセラレータと比較して、CHOSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。

Vision Transformers (ViTs) represent a groundbreaking shift in machine learning approaches to computer vision. Unlike traditional approaches, ViTs employ the self-attention mechanism, which has been widely used in natural language processing, to analyze image patches. Despite their advantages in modeling visual tasks, deploying ViTs on hardware platforms, notably Field-Programmable Gate Arrays (FPGAs), introduces considerable challenges. These challenges stem primarily from the non-linear calculations and high computational and memory demands of ViTs. This paper introduces CHOSEN, a software-hardware co-design framework to address these challenges and offer an automated framework for ViT deployment on the FPGAs in order to maximize performance. Our framework is built upon three fundamental contributions: multi-kernel design to maximize the bandwidth, mainly targeting benefits of multi DDR memory banks, approximate non-linear functions that exhibit minimal accuracy degradation, and efficient use of available logic blocks on the FPGA, and efficient compiler to maximize the performance and memory-efficiency of the computing kernels by presenting a novel algorithm for design space exploration to find optimal hardware configuration that achieves optimal throughput and latency. Compared to the state-of-the-art ViT accelerators, CHOSEN achieves a 1.5x and 1.42x improvement in the throughput on the DeiT-S and DeiT-B models.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-25
# リハビリテーショントレーニング:大規模言語モデルの訓練における実データの価値

Regurgitative Training: The Value of Real Data in Training Large Language Models ( http://arxiv.org/abs/2407.12835v2 )

ライセンス: Link先を確認
Jinghui Zhang, Dandan Qiao, Mochen Yang, Qiang Wei, (参考訳) 他のLLMによって少なくとも部分的に生成されるデータを使って、新しいLarge Language Model(LLM)をトレーニングした場合、どうなるでしょう? LLMの爆発的な成功は、オンライン上のかなりの量のコンテンツが人間ではなくLCMによって生成されることを意味する。 LLM性能に対するこのような「相対的学習」の影響について検討した。 GPT-3.5を機械翻訳タスクで生成したデータを用いて微調整することにより,LLMの性能が向上することを示す強い証拠が得られた。 私たちがゼロからトレーニングするトランスフォーマーモデルでは、同じパフォーマンスの低下が見られます。 その結果,(1) 誤り率の増加と(2) LLM 生成データにおける語彙の多様性の低下の2つのメカニズムが,実データと比較できる可能性が示唆された。 本研究は,これらのメカニズムを基礎として,学習能力の低下を緩和するための3つの戦略を提案し,評価する。 まず、LLMの生成する各データインスタンスの品質を計測するために、データ駆動メトリクスを考案し、次に、高品質なデータを低品質のデータの前に追加する順序付きトレーニングプロセスを実行します。 第二に、複数の異なるLSMによって生成されたデータを組み合わせる(語彙の多様性を高めるために)。 第3に、LLMと人間生成データとを区別するためにAI検出分類器を訓練し、人生成データと類似した順にLLM生成データを含む。 これら3つの戦略は、ある程度のリグルジティブトレーニングのパフォーマンスを改善することができるが、実際のデータによるトレーニングのギャップを完全に埋めることはできない。 この結果から,LLM 生成データに置き換えることができない LLM の学習において,実際の人為的データの価値が浮き彫りになった。

What happens if we train a new Large Language Model (LLM) using data that are at least partially generated by other LLMs? The explosive success of LLMs means that a substantial amount of content online will be generated by LLMs rather than humans, which will inevitably enter the training datasets of next-generation LLMs. We evaluate the implications of such "regurgitative training" on LLM performance. Through fine-tuning GPT-3.5 with data generated either by itself or by other LLMs in a machine translation task, we find strong evidence that regurgitative training clearly handicaps the performance of LLMs. The same performance loss of regurgitative training is observed on transformer models that we train from scratch. We find suggestive evidence that the performance disadvantage of regurgitative training can be attributed to at least two mechanisms: (1) higher error rates and (2) lower lexical diversity in LLM-generated data as compared to real data. Based on these mechanisms, we propose and evaluate three different strategies to mitigate the performance loss of regurgitative training. First, we devise data-driven metrics to gauge the quality of each LLM-generated data instance, and then carry out an ordered training process where high-quality data are added before low-quality ones. Second, we combine data generated by multiple different LLMs (as an attempt to increase lexical diversity). Third, we train an AI detection classifier to differentiate between LLM- and human-generated data, and include LLM-generated data in the order of resemblance to human-generated data. All three strategies can improve the performance of regurgitative training to some extent but are not always able to fully close the gap from training with real data. Our results highlight the value of real, human-generated data in training LLMs, which cannot be easily substituted by synthetic, LLM-generated data.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# MeshSegmenter: テクスチャ合成によるゼロショットメッシュセマンティックセマンティックセグメンテーション

MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis ( http://arxiv.org/abs/2407.13675v3 )

ライセンス: Link先を確認
Ziming Zhong, Yanxu Xu, Jing Li, Jiale Xu, Zhengxin Li, Chaohui Yu, Shenghua Gao, (参考訳) ゼロショット3Dセマンティックセグメンテーション用に設計されたシンプルで効果的なフレームワークであるMeshSegmenterを提案する。 このモデルは、2Dセグメンテーションモデルの強力な能力を3Dメッシュに拡張し、さまざまなメッシュとセグメント記述の正確な3Dセグメンテーションを実現する。 具体的には,Segment Anything Model(SAM)モデルを用いて,対象領域を3次元形状から描画した画像から分割する。 セグメンテーションにおけるテクスチャの重要性を鑑み,事前訓練した安定拡散モデルを用いて3次元形状のテクスチャ画像を生成し,SAMを利用してテクスチャ画像からターゲット領域をセグメンテーションする。 テクスチャはセグメンテーションの形状を補い、カーメッシュ内の車のドアをセグメンテーションするなど、幾何学的に不明瞭な領域でも正確な3Dセグメンテーションを促進する。 3Dセグメントを実現するために、異なるビューから2D画像を描画し、テクスチャ化された画像と非テクスチャ化された画像の両方に対してセグメンテーションを行う。 最後に,2次元セグメンテーション結果と様々なビューからの信頼スコアを3次元メッシュに統合し,セグメンテーション結果の3次元一貫性を確保し,特定の視点からの不正確さを解消する多視点リボッティング手法を開発した。 これらのイノベーションを通じて、MeshSegmenterは安定的で信頼性の高い3Dセグメンテーションの結果を定量的かつ質的に提供し、3Dゼロショットセグメンテーションの分野におけるトランスフォーメーションツールとしての可能性を強調している。 コードは \url{https://github.com/zimingzhong/MeshSegmenter} で公開されている。

We present MeshSegmenter, a simple yet effective framework designed for zero-shot 3D semantic segmentation. This model successfully extends the powerful capabilities of 2D segmentation models to 3D meshes, delivering accurate 3D segmentation across diverse meshes and segment descriptions. Specifically, our model leverages the Segment Anything Model (SAM) model to segment the target regions from images rendered from the 3D shape. In light of the importance of the texture for segmentation, we also leverage the pretrained stable diffusion model to generate images with textures from 3D shape, and leverage SAM to segment the target regions from images with textures. Textures supplement the shape for segmentation and facilitate accurate 3D segmentation even in geometrically non-prominent areas, such as segmenting a car door within a car mesh. To achieve the 3D segments, we render 2D images from different views and conduct segmentation for both textured and untextured images. Lastly, we develop a multi-view revoting scheme that integrates 2D segmentation results and confidence scores from various views onto the 3D mesh, ensuring the 3D consistency of segmentation results and eliminating inaccuracies from specific perspectives. Through these innovations, MeshSegmenter offers stable and reliable 3D segmentation results both quantitatively and qualitatively, highlighting its potential as a transformative tool in the field of 3D zero-shot segmentation. The code is available at \url{https://github.com/zimingzhong/MeshSegmenter}.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# 街路景観:自己回帰ビデオ拡散を用いた大規模一貫したストリートビュー生成

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion ( http://arxiv.org/abs/2407.13759v2 )

ライセンス: Link先を確認
Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein, (参考訳) そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。 私たちの世代は、言語入力(例えば、都市名、天気)と、所望の軌跡をホストするマップ/レイアウトによって条件付けられています。 近年の映像生成モデルや3Dビュー合成モデルと比較して,映像品質と一貫性を維持しつつ,複数の都市ブロックにまたがるより長い範囲のカメラトラジェクトリにスケールすることができる。 この目的を達成するために、我々は、ビデオ拡散に関する最近の研究に基づいて、長いシーケンスに容易にスケールできる自動回帰フレームワークを用いて構築した。 特に,現実的な都市イメージの分布から自己回帰的アプローチが漂流することを防ぐ新しい時間的計算手法を提案する。 われわれのストリートスケープシステムは、Googleストリートビューの魅力的な画像ソースとコンテキストマップデータに基づいて訓練されており、ユーザーは任意の都市レイアウトで設定された都市ビューを、コントロール可能なカメラのポーズで生成することができる。 詳細はプロジェクトのページhttps://boyangdeng.com/streetscapes.comで確認してください。

We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# 負のプロンプト誘導を用いた言語駆動型6-DoFグラフ検出

Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance ( http://arxiv.org/abs/2407.13842v2 )

ライセンス: Link先を確認
Toan Nguyen, Minh Nhat Vu, Baoru Huang, An Vuong, Quan Vuong, Ngan Le, Thieu Vo, Anh Nguyen, (参考訳) 6-DoFグリップ検出はロボットビジョンの基本的かつ困難な問題である。 従来の研究は安定性の把握に重点を置いていたが、人間の意図が自然言語を通して伝達されることを考慮せず、複雑な3D環境でロボットとユーザの効果的なコラボレーションを妨げることが多かった。 本稿では,乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。 最初にGrasp-Anything-6Dを紹介した。これは1Mポイントクラウドシーンと2億以上の言語関連3Dグリップポーズを備えた言語駆動型6-DoFグリップ検出タスクのための大規模データセットである。 さらに,新たなネガティブな指導指導戦略を取り入れた新しい拡散モデルを導入する。 提案した負のプロンプト戦略は、言語入力を与えられた不要なオブジェクトから切り離したまま、所望のオブジェクトに対して検出プロセスを指示する。 そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。 ベンチマーク実験と実世界のシナリオの両方において,本手法が他のベースラインを上回る効果を示した。 さらに,実世界のロボット応用におけるアプローチの実践性を実証する。 私たちのプロジェクトはhttps://airvlab.github.io/grasp-anything.comで利用可能です。

6-DoF grasp detection has been a fundamental and challenging problem in robotic vision. While previous works have focused on ensuring grasp stability, they often do not consider human intention conveyed through natural language, hindering effective collaboration between robots and users in complex 3D environments. In this paper, we present a new approach for language-driven 6-DoF grasp detection in cluttered point clouds. We first introduce Grasp-Anything-6D, a large-scale dataset for the language-driven 6-DoF grasp detection task with 1M point cloud scenes and more than 200M language-associated 3D grasp poses. We further introduce a novel diffusion model that incorporates a new negative prompt guidance learning strategy. The proposed negative prompt strategy directs the detection process toward the desired object while steering away from unwanted ones given the language input. Our method enables an end-to-end framework where humans can command the robot to grasp desired objects in a cluttered scene using natural language. Intensive experimental results show the effectiveness of our method in both benchmarking experiments and real-world scenarios, surpassing other baselines. In addition, we demonstrate the practicality of our approach in real-world robotic applications. Our project is available at https://airvlab.github.io/grasp-anything.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの

Longhorn: State Space Models are Amortized Online Learners ( http://arxiv.org/abs/2407.14207v2 )

ライセンス: Link先を確認
Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu, (参考訳) LLM(Large Language Models)のような現代のAIメソッドの最も基本的な能力は、'sequence modeling'として知られる長いトークン列で次のトークンを予測する能力である。 「トランスフォーマーモデルは、現在、シーケンスモデリングにおいて支配的なアプローチであるが、シーケンス長に関する2次計算コストは、大きな欠点である。 ステートスペースモデル(SSM)は、線形復号効率と訓練中の高い並列化性のために、有望な代替手段を提供する。 しかし、既存のSSMは、しばしばアドホックな線形リカレンス設計に依存している。 本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。 このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を最適化した状態遷移規則を導出する。 この知見に基づいて,オンライン回帰目標を最適化するための暗黙の更新に基づく,新しい深層SSMアーキテクチャを提案する。 実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,Mambaモデルを含む最先端のSSMよりも優れていることがわかった。

The most fundamental capability of modern AI methods such as Large Language Models (LLMs) is the ability to predict the next token in a long sequence of tokens, known as ``sequence modeling." Although the Transformers model is the current dominant approach to sequence modeling, its quadratic computational cost with respect to sequence length is a significant drawback. State-space models (SSMs) offer a promising alternative due to their linear decoding efficiency and high parallelizability during training. However, existing SSMs often rely on seemingly ad hoc linear recurrence designs. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from optimizing these objectives. Based on this insight, we introduce a novel deep SSM architecture based on the implicit update for optimizing an online regression objective. Our experimental results show that our models outperform state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks and language modeling tasks.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# 連続的パノプティカル知覚:リモートセンシング画像の多モードインクリメンタル解釈に向けて

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images ( http://arxiv.org/abs/2407.14242v2 )

ライセンス: Link先を確認
Bo Yuan, Danpei Zhao, Zhuoran Liu, Wentao Li, Tian Li, (参考訳) 継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。 しかし、現在のCLメソッドは主に単一タスクに焦点を当てている。 さらに、CLモデルは、複雑な粒度のセマンティクスのためにしばしばリモートセンシングの解釈で起こる古いデータがないため、破滅的な忘れと意味の漂流に悩まされている。 本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,画像レベルの認識を網羅したマルチタスク共同学習モデルであるContinuous Panoptic Perception (CPP)を提案する。 具体的には、画素分類とキャプション生成を同期的にサポートする、入力画像の特徴を抽出するコラボレーティブなクロスモーダルエンコーダ(CCE)を提案する。 メモリを使用せずに古いモデルから知識を継承するために,クロスモーダル最適化とタスク非対称な擬似ラベル(TPL)を利用したタスク対話型知識蒸留(TKD)手法を提案する。 さらに,エンド・ツー・エンドのマルチモーダル・パノプティブ知覚を実現するための共同最適化機構を提案する。 また,提案モデルの有効性を検証し,その精度を13%以上向上させることで,共同最適化によってサブタスクCLの効率が向上することが実証された。

Continual learning (CL) breaks off the one-way training manner and enables a model to adapt to new data, semantics and tasks continuously. However, current CL methods mainly focus on single tasks. Besides, CL models are plagued by catastrophic forgetting and semantic drift since the lack of old data, which often occurs in remote-sensing interpretation due to the intricate fine-grained semantics. In this paper, we propose Continual Panoptic Perception (CPP), a unified continual learning model that leverages multi-task joint learning covering pixel-level classification, instance-level segmentation and image-level perception for universal interpretation in remote sensing images. Concretely, we propose a collaborative cross-modal encoder (CCE) to extract the input image features, which supports pixel classification and caption generation synchronously. To inherit the knowledge from the old model without exemplar memory, we propose a task-interactive knowledge distillation (TKD) method, which leverages cross-modal optimization and task-asymmetric pseudo-labeling (TPL) to alleviate catastrophic forgetting. Furthermore, we also propose a joint optimization mechanism to achieve end-to-end multi-modal panoptic perception. Experimental results on the fine-grained panoptic perception dataset validate the effectiveness of the proposed model, and also prove that joint optimization can boost sub-task CL efficiency with over 13\% relative improvement on panoptic quality.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# フェデレーション学習におけるSOTA攻撃防御を破る学習ベースアタックフレームワーク

A Learning-Based Attack Framework to Break SOTA Poisoning Defenses in Federated Learning ( http://arxiv.org/abs/2407.15267v2 )

ライセンス: Link先を確認
Yuxin Yang, Qiang Li, Chenfei Nie, Yuan Hong, Meng Pang, Binghui Wang, (参考訳) Federated Learning(FL)は、データプライバシを保護する新しいクライアントサーバ分散学習フレームワークである。 しかし最近の研究では、FLは毒殺攻撃に弱いことが示されている。 堅牢なアグリゲータ(AGR)を備えた多くの防衛策がこの問題を軽減するために提案されているが、いずれも先進的な攻撃によって破壊されている。 最近になって、いくつかの新しい堅牢なAGRが設計され、通常、斬新なクリッピングや濾過ストラテジーで設計され、先進的な毒殺攻撃に対する防衛性能が期待できる。 本稿では,これらの新規なロバストなAGRも,慎重に設計された毒殺攻撃に対して脆弱であることを示す。 具体的には、これらの堅牢なAGRを壊すことで、悪意のあるクライアントの切断やフィルタリングを回避し、この観察を活用するための最適化ベースのアタックフレームワークを提案する。 フレームワークでは、それぞれのロバストなAGRに対してカスタマイズされた攻撃を設計します。 複数のデータセットと脅威モデルに対する大規模な実験により、提案した最適化ベースの攻撃がSOTA AGRを壊す可能性がある。 そこで我々はFLに対する毒殺攻撃に対する新たな防御を要請した。 コードは、https://github.com/Yuxin104/ BreakSTOAPoisoningDefenses.comで入手できる。

Federated Learning (FL) is a novel client-server distributed learning framework that can protect data privacy. However, recent works show that FL is vulnerable to poisoning attacks. Many defenses with robust aggregators (AGRs) are proposed to mitigate the issue, but they are all broken by advanced attacks. Very recently, some renewed robust AGRs are designed, typically with novel clipping or/and filtering strate-gies, and they show promising defense performance against the advanced poisoning attacks. In this paper, we show that these novel robust AGRs are also vulnerable to carefully designed poisoning attacks. Specifically, we observe that breaking these robust AGRs reduces to bypassing the clipping or/and filtering of malicious clients, and propose an optimization-based attack framework to leverage this observation. Under the framework, we then design the customized attack against each robust AGR. Extensive experiments on multiple datasets and threat models verify our proposed optimization-based attack can break the SOTA AGRs. We hence call for novel defenses against poisoning attacks to FL. Code is available at: https://github.com/Yuxin104/ BreakSTOAPoisoningDefenses.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# 無バイアスシーングラフ生成のための意味的多様性を考慮したプロトタイプベース学習

Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2407.15396v2 )

ライセンス: Link先を確認
Jaehyeong Jeon, Kibum Kim, Kanghoon Yoon, Chanyoung Park, (参考訳) シーングラフ生成(SGG)タスクは、画像内のオブジェクトを検出し、オブジェクト間の関係を表す述語を予測する。 しかし、SGGベンチマークデータセットでは、1つの述語が多様な意味論(セマンティック多様性)を示すとしても、各対象物対に1つの述語が注釈付けされ、既存のSGGモデルは1つの述語と1つの述語のみを予測するように訓練されている。 この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落とし、バイアスのある予測へと繋がる。 本稿では,述語の意味的多様性の理解に基づいて,偏りのない予測を可能にする,モデルに依存しない意味的多様性を意識したプロトタイプベース学習(DPL)フレームワークを提案する。 具体的には、DPLは各述語がカバーする意味空間内の領域を学習し、単一の述語が表現できる様々な意味論を区別する。 提案したモデルに依存しないDPLフレームワークは,既存のSGGモデルに対して大幅な性能向上をもたらし,述語の意味的多様性を効果的に理解することを示した。

The scene graph generation (SGG) task involves detecting objects within an image and predicting predicates that represent the relationships between the objects. However, in SGG benchmark datasets, each subject-object pair is annotated with a single predicate even though a single predicate may exhibit diverse semantics (i.e., semantic diversity), existing SGG models are trained to predict the one and only predicate for each pair. This in turn results in the SGG models to overlook the semantic diversity that may exist in a predicate, thus leading to biased predictions. In this paper, we propose a novel model-agnostic Semantic Diversity-aware Prototype-based Learning (DPL) framework that enables unbiased predictions based on the understanding of the semantic diversity of predicates. Specifically, DPL learns the regions in the semantic space covered by each predicate to distinguish among the various different semantics that a single predicate can represent. Extensive experiments demonstrate that our proposed model-agnostic DPL framework brings significant performance improvement on existing SGG models, and also effectively understands the semantic diversity of predicates.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# 非相対論的タキオン:ガリレイ群の新しい表現

Non-relativistic tachyons: a new representation of the Galilei group ( http://arxiv.org/abs/2407.15466v2 )

ライセンス: Link先を確認
Victor Aldaya, Julio Guerrero, Francisco F. López-Ruiz, (参考訳) ポアンカルイ群の縮約の代数的特徴づけは、そのタキオン表現の非相対論的極限の適切な構成を可能にする。 我々はガリレイ群の一貫した非標準表現にたどり着くが、これは古くから非物理的性質によって無視されていた。 対応する量子(および古典)理論は、その基本となる相対論的理論と共通しており、タキオン表現の異常な振る舞いをよりよく理解するためのおもちゃモデルとして機能する。 例えば、相対論的タキオンのように時間ではなく空間座標で進化が起こるのが分かるが、3モーメントのモジュラリティはガリレオの観測者全員に同じであり、ガリレオ系の新しい分散関係をもたらす。 さらに、新しい表現によって記述されるタキオンオブジェクトは、標準的な意味ではローカライズできない。

An algebraic characterization of the contractions of the Poincar\'e group permits a proper construction of a non-relativistic limit of its tachyonic representation. We arrive at a consistent, nonstandard representation of the Galilei group which was disregarded long ago by supposedly unphysical properties. The corresponding quantum (and classical) theory shares with the relativistic one their fundamentals, and serves as a toy model to better comprehend the unusual behavior of the tachyonic representation. For instance, we see that evolution takes place in a spatial coordinate rather than time, as for relativistic tachyons, but the modulus of the three-momentum is the same for all Galilean observers, leading to a new dispersion relation for a Galilean system. Furthermore, the tachyonic objects described by the new representation cannot be regarded as localizable in the standard sense.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# 効率的な骨格に基づく行動認識のための多モード共学習

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v3 )

ライセンス: Link先を確認
Jinfu Liu, Chen Chen, Mengyuan Liu, (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。 それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。 そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。 私たちのMMCLフレームワークは主に2つのモジュールで構成されています。 まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。 第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。 これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。 一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。 私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。

Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-25
# チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト事前学習

Spatial-Temporal Cross-View Contrastive Pre-training for Check-in Sequence Representation Learning ( http://arxiv.org/abs/2407.15899v3 )

ライセンス: Link先を確認
Letian Gong, Huaiyu Wan, Shengnan Guo, Xiucheng Li, Yan Lin, Erwen Zheng, Tianyi Wang, Zeyu Zhou, Youfang Lin, (参考訳) 位置情報サービス(LBS)の急速な成長は、人間の移動性に関する膨大なデータを生み出している。 ユーザ生成したチェックインシーケンスに対する意味のある表現を効果的に抽出することは、さまざまなダウンストリームサービスを容易にする上で重要である。 しかし、ユーザ生成チェックインデータは、周囲の客観的状況とユーザの主観的意図に同時に影響される。 具体的には、チェックインデータに現れる時間的不確実性と空間的多様性は、ユーザのマクロな空間的時間的パターンを捉え、ユーザのモビリティ活動の意味を理解するのを困難にしている。 さらに、チェックインシーケンスにおける時間的・空間的な情報の異なる特徴は、これらの2種類の情報を効果的に融合する方法を要求する。 本稿では,チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト表現(STCCR)フレームワークを提案する。 具体的には、STCCRは「空間的話題」と「時間的意図」の視点から自己スーパービジョンを取り入れ、意味レベルでの空間的情報と時間的情報を効果的に融合させることによって、上記の課題に対処する。 さらに、STCCRはコントラッシブクラスタリングを活用し、多様なモビリティ活動からユーザの共有空間トピックを明らかにすると同時に、時間的不確実性やノイズの影響を軽減するために、角度運動量を利用する。 実世界の3つのデータセット上でSTCCRを広範囲に評価し、3つの下流タスクにおいて優れた性能を示す。

The rapid growth of location-based services (LBS) has yielded massive amounts of data on human mobility. Effectively extracting meaningful representations for user-generated check-in sequences is pivotal for facilitating various downstream services. However, the user-generated check-in data are simultaneously influenced by the surrounding objective circumstances and the user's subjective intention. Specifically, the temporal uncertainty and spatial diversity exhibited in check-in data make it difficult to capture the macroscopic spatial-temporal patterns of users and to understand the semantics of user mobility activities. Furthermore, the distinct characteristics of the temporal and spatial information in check-in sequences call for an effective fusion method to incorporate these two types of information. In this paper, we propose a novel Spatial-Temporal Cross-view Contrastive Representation (STCCR) framework for check-in sequence representation learning. Specifically, STCCR addresses the above challenges by employing self-supervision from "spatial topic" and "temporal intention" views, facilitating effective fusion of spatial and temporal information at the semantic level. Besides, STCCR leverages contrastive clustering to uncover users' shared spatial topics from diverse mobility activities, while employing angular momentum contrast to mitigate the impact of temporal uncertainty and noise. We extensively evaluate STCCR on three real-world datasets and demonstrate its superior performance across three downstream tasks.
翻訳日:2024-07-26 18:18:08 公開日:2024-07-25
# 重み付きスコアリングルールを用いた統計的後処理モデルの訓練による極端風速の確率的予測の改善

Improving probabilistic forecasts of extreme wind speeds by training statistical post-processing models with weighted scoring rules ( http://arxiv.org/abs/2407.15900v2 )

ライセンス: Link先を確認
Jakob Benjamin Wessel, Christopher A. T. Ferro, Gavin R. Evans, Frank Kwasniok, (参考訳) 極端な風速の正確な予測は多くの応用において非常に重要である。 このような予測は通常、数値天気予報(NWP)モデルのアンサンブルによって生成されるが、バイアスがあり、分散の誤差があり、統計的後処理技術を適用する必要がある。 本研究では,極端風速の確率論的予測のための統計的後処理モデルの改善を目的とする。 我々は、アンサンブルモデル出力統計(EMOS)モデルに適合させる訓練手順を調整し、しきい値の予測に特に重点を置く適切なスコアルールである閾値重み付き連続ランク確率スコア(twCRPS)を用いてパラメータを推定することを提案する。 twCRPSを用いたトレーニングにより,様々なしきい値に対する後処理モデルの極端なイベント性能が向上することを示す。 極端事象の確率論的予測の性能が向上し,分布物体の予測性能が低下する分布体テールトレードオフが発見された。 しかし,重み付きトレーニングと線形プールに基づいて,このトレードオフを緩和する戦略を導入する。 最後に,twCRPSの学習効果を説明するための合成実験と,複数の分布に対するtwCRPSのクローズドフォーム表現の導出について考察する。 その結果、研究者や実践者は、極端や他の関心事に対する確率的予測モデルの性能を向上させることができる。

Accurate forecasts of extreme wind speeds are of high importance for many applications. Such forecasts are usually generated by ensembles of numerical weather prediction (NWP) models, which however can be biased and have errors in dispersion, thus necessitating the application of statistical post-processing techniques. In this work we aim to improve statistical post-processing models for probabilistic predictions of extreme wind speeds. We do this by adjusting the training procedure used to fit ensemble model output statistics (EMOS) models - a commonly applied post-processing technique - and propose estimating parameters using the so-called threshold-weighted continuous ranked probability score (twCRPS), a proper scoring rule that places special emphasis on predictions over a threshold. We show that training using the twCRPS leads to improved extreme event performance of post-processing models for a variety of thresholds. We find a distribution body-tail trade-off where improved performance for probabilistic predictions of extreme events comes with worse performance for predictions of the distribution body. However, we introduce strategies to mitigate this trade-off based on weighted training and linear pooling. Finally, we consider some synthetic experiments to explain the training impact of the twCRPS and derive closed-form expressions of the twCRPS for a number of distributions, giving the first such collection in the literature. The results will enable researchers and practitioners alike to improve the performance of probabilistic forecasting models for extremes and other events of interest.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-25
# マルチパーティ量子システムにおける量子相互情報と相互作用情報のファミリー

Family of Quantum Mutual Information and Interaction Information in Multiparty Quantum Systems ( http://arxiv.org/abs/2407.16365v2 )

ライセンス: Link先を確認
Asutosh Kumar, (参考訳) マルチパーティシステムで情報を特徴付けることは非常に重要だが、面倒だ。 我々は条件付き相互情報の概念をマルチパーティシステムに拡張し、真のマルチパーティ量子相互情報のファミリーを導入する。 この文献で知られている多党間の量子相互情報の2つのバージョンは、このファミリーの一部である。 また、量子暗号に有用な秘密のモノトンを推測する。 我々は解釈を与え、それらの性質といくつかの未解決問題について議論する。

Characterizing information in a multiparty system is crucial but cumbersome. We extend the notion of conditional mutual information to multiparty systems and introduce a family of genuinely multiparty quantum mutual information. The two versions of multiparty quantum mutual information known in the literature are part of this family. We also conjecture them to qualify for secrecy monotones useful in quantum cryptography. We give interpretations and discuss their properties and some unresolved issues.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-25
# 時系列予測は自動化できるか?ベンチマークと分析

Can time series forecasting be automated? A benchmark and analysis ( http://arxiv.org/abs/2407.16445v2 )

ライセンス: Link先を確認
Anvitha Thirthapura Sreedhara, Joaquin Vanschoren, (参考訳) 機械学習と人工知能の分野では、時系列予測は金融、医療、気象といった様々な分野において重要な役割を担っている。 しかし、与えられたデータセットに対して最適な予測方法を選択するタスクは、データパターンや特徴の多様性のために複雑なタスクである。 本研究は,幅広いデータセットを対象とした時系列予測手法の評価とランキングのための総合ベンチマークを提案することにより,この問題に対処することを目的とする。 本研究では,2つの著名な時系列予測フレームワークであるAutoGluon-Timeseriesとsktimeから得られた多くの手法の比較性能について検討した。 本研究は,厳密なベンチマーク手法を提供することにより時系列予測の分野に寄与し,最適予測を達成するための予測方法を選択する際の情報決定を容易にする。

In the field of machine learning and artificial intelligence, time series forecasting plays a pivotal role across various domains such as finance, healthcare, and weather. However, the task of selecting the most suitable forecasting method for a given dataset is a complex task due to the diversity of data patterns and characteristics. This research aims to address this challenge by proposing a comprehensive benchmark for evaluating and ranking time series forecasting methods across a wide range of datasets. This study investigates the comparative performance of many methods from two prominent time series forecasting frameworks, AutoGluon-Timeseries, and sktime to shed light on their applicability in different real-world scenarios. This research contributes to the field of time series forecasting by providing a robust benchmarking methodology and facilitating informed decision-making when choosing forecasting methods for achieving optimal prediction.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-25
# 女性のコンピューティングへの参加 : 研究方法の進化

Women's Participation in Computing: Evolving Research Methods ( http://arxiv.org/abs/2407.17677v1 )

ライセンス: Link先を確認
Thomas J. Misa, (参考訳) 2022年、ACMヒストリー委員会「なぜSIGヒストリー・マターズ: ACM's Founding SIGs 1970-2000」におけるジェンダーバイアスの新しいデータ」の基調講演では、ACM Special Interest Groups 13の初期の研究・アーティクルの著者として女性の参加を記述し、1970-2000年における女性の参加の著しい増加と、SIG間の女性の参加の顕著な相違が明らかになった。 このプレゼンテーションは、IT部門における女性の労働統計局(BLS)データの入手に先立ち、[a]コンピュータにおける様々なサブフィールドの調査を集中的に行うための、女性コンピュータ科学者の数を時系列的に評価する研究手法を開発した、いくつかの初期の出版物に基づくものである。 本報告では、これらのアーティクルと、その進化する研究方法について、ACM SIGヘリテージのプレゼンテーションに関連づける。 また、現在検討中の研究の拡張とともに、「混合手法」の研究(量的および質的アプローチの両方を用いて)の開発と精錬における選択と考察について概説している。

A 2022 keynote for the ACM History Committee on "Why SIG History Matters: New Data on Gender Bias in ACM's Founding SIGs 1970-2000" presented new data describing women's participation as research-article authors in 13 early ACM Special Interest Groups, finding significant growth in women's participation across 1970-2000 and, additionally, remarkable differences in women's participation between the SIGs. That presentation built on several earlier publications that developed a research method for assessing the number of women computer scientists that [a] are chronologically prior to the availability of the Bureau of Labor Statistics (BLS) data on women in the IT workforce; and [b] permit focused investigation of varied sub-fields within computing. This present report expands on these earlier articles, and their evolving research method, connecting them to the ACM SIG Heritage presentation. It also outlines some of the choices and considerations made in developing and refining "mixed methods" research (using both quantitative and qualitative approaches) as well as extensions of the research being currently explored.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-25
# 意図的頭部の不均質なコンテキストシャーディングによる効率的なLDM訓練と訓練

Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads ( http://arxiv.org/abs/2407.17678v1 )

ライセンス: Link先を確認
Xihui Lin, Yunan Zhang, Suyu Ge, Barun Patra, Vishrav Chaudhary, Xia Song, (参考訳) 既存のLLMトレーニングと推論フレームワークは、コンテキストとモデルアーキテクチャの整合性を維持しながら、疎結合で効率を高めるのに苦労しています。 データベースにおけるシャーディングの概念と,アテンションがアクセル上のヘッドを並列化するという事実に着想を得て,アテンションアルゴリズムであるSparsely-Sharded (S2) アテンション(注意)を提案する。 S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。 注目ヘッドは別個のスレッドブロックで処理されるため、各ヘッドのコンテキスト削減はエンドツーエンドのスピードアップとメモリ削減をもたらす。 推測すると、S2-Attentionで訓練されたLLMは、KVキャッシュの削減をモデル品質の保証された無料の食事とすることができる。 実験では,(1)S2-Attentioncanは,(1)FlashAttention-2より25.3倍の注目速度を実現し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍に削減し,(2)既定のアテンションに比べてモデルのトレーニング品質が向上し,(3)32Kコンテキストウインドウ上での良質なニードル検索精度が向上した。 アルゴリズムの上にDKernelというLLMトレーニングおよび推論カーネルライブラリを構築し、ユーザが自身のモデルに対してスパーシティパターンをカスタマイズできるようにする。 私たちはDKernelandをオープンソースにしてMegatron、Pytorch、vLLMと互換性のあるものにしました。

Existing LLM training and inference frameworks struggle in boosting efficiency with sparsity while maintaining the integrity of context and model architecture. Inspired by the sharding concept in database and the fact that attention parallelizes over heads on accelerators, we propose Sparsely-Sharded (S2) Attention, an attention algorithm that allocates heterogeneous context partitions for different attention heads to divide and conquer. S2-Attention enforces each attention head to only attend to a partition of contexts following a strided sparsity pattern, while the full context is preserved as the union of all the shards. As attention heads are processed in separate thread blocks, the context reduction for each head can thus produce end-to-end speed-up and memory reduction. At inference, LLMs trained with S2-Attention can then take the KV cache reduction as free meals with guaranteed model quality preserve. In experiments, we show S2-Attentioncan provide as much as (1) 25.3X wall-clock attention speed-up over FlashAttention-2, resulting in 6X reduction in end-to-end training time and 10X inference latency, (2) on-par model training quality compared to default attention, (3)perfect needle retrieval accuracy over 32K context window. On top of the algorithm, we build DKernel, an LLM training and inference kernel library that allows users to customize sparsity patterns for their own models. We open-sourced DKerneland make it compatible with Megatron, Pytorch, and vLLM.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# Instagram対カラー女性:なぜInstagramのアルゴリズム変更に抗議しているのか?

Instagram versus women of color: Why are women of color protesting Instagram's algorithmic changes? ( http://arxiv.org/abs/2407.17679v1 )

ライセンス: Link先を確認
Ankolika De, (参考訳) Instagramは、いくつかの現代の社会的闘争のためにコミュニティによって適格化され、しばしば現実世界のアクションに翻訳された。 同様に、有色人種の女性(WOC)は、抗議活動、情報共有、そして様々な余裕を通じてお互いを支え合うためにそれを使用している。 しかし、Instagramは頻繁なアップデートで知られており、最近はアップデートが劇的になった。 最新のアップデートでは、ユーザのネットワークからの静的メディア上の未知のアカウントからビデオ指向のコンテンツ(リール)を表示するようにレコメンデーションアルゴリズムを変更した。 いくつかの辺境化コミュニティ、特にWACはこの変化に抵抗し、それにつながった。 反発のため、Instagramは変更をロールバックした。 地域コミュニティのデジタルプラットフォームにおける過去のHCIの取り組みから、WOCがこのような変化に抵抗している理由を理解するためのオープンリサーチ戦略による質的研究を提案し、最終的には、より包括的に変化を実装できる設計に意味を与えます。

Instagram has been appropriated by communities for several contemporary social struggles, often translating into real world action. Likewise, women of color (WOC) have used it to protest, share information and support one another through its various affordances. However, Instagram is known to have frequent updates, and recently the updates have been more drastic. The newest update changed the recommendation algorithm such that it showed video-oriented content (reels) from unknown accounts over static media from a user's own network. Several marginalized communities, and especially WOC resisted this change and others that led to it. Due to the backlash, Instagram rolled back its changes. Drawing from past HCI work on digital platforms for marginalised communities, I propose a qualitative study informed by the open research strategy to understand why WOC are resisting these changes, and eventually provide implications for design that can help implement changes in a more inclusive manner.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 半圧縮CryStalS-Kyber

Semi-Compressed CRYSTALS-Kyber ( http://arxiv.org/abs/2407.17684v1 )

ライセンス: Link先を確認
Shuiyin Liu, Amin Sakzad, (参考訳) 本稿では,国立標準技術研究所(NIST)が最近標準化したキーバーの通信オーバーヘッドについて検討する。 同一の復号化失敗率(DFR)とセキュリティ引数から、Kyberの通信オーバーヘッドを54%削減できることを示す。 この改良は、暗号文量子化と平文符号化という2つの技術に基づいている。 まず、Lyd-Max量子化は復号化復号化ノイズを最小限に抑えるのに最適であることを示す。 オリジナルのキーバー圧縮関数は最適ではない。 次に、Pulse-Amplitude Modulation (PAM)、Gray Mapping、バイナリエラー訂正コードを組み合わせた符号化方式を提案する。 DFRの明示的な発現が導出される。 最小限の通信オーバーヘッドも導出される。 最後に,Lyd-Max量子化,8-PAM,グレイマッピング,短縮バイナリBCH(768,638,13)符号を用いて,提案方式は638ビット(例:2.5AESキー)を単一暗号文でカプセル化することを示した。

In this paper, we investigate the communication overhead of the Kyber, which has recently been standardized by the National Institute of Standards and Technology (NIST). Given the same decryption failure rate (DFR) and security argument, we show it is feasible to reduce the communication overhead of the Kyber by 54%. The improvement is based on two technologies: ciphertext quantization and plaintext encoding. First, we prove that the Lloyd-Max quantization is optimal to minimize the decryption decoding noise. The original Kyber compression function is not optimal. Second, we propose an encoding scheme, which combines Pulse-Amplitude Modulation (PAM), Gray mapping, and a binary error correcting code. An explicit expression for the DFR is derived. The minimum possible communication overhead is also derived. Finally, we demonstrate that with the Lloyd-Max quantization, 8-PAM, Gray mapping, and a shortened binary BCH(768,638,13) code, the proposed scheme encapsulates 638 bits (e.g., 2.5 AES keys) in a single ciphertext.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# Markovデータ上のトランスフォーマー: 一定の深さで十分

Transformers on Markov Data: Constant Depth Suffices ( http://arxiv.org/abs/2407.17686v1 )

ライセンス: Link先を確認
Nived Rajaraman, Marco Bondaschi, Kannan Ramchandran, Michael Gastpar, Ashok Vardhan Makkuva, (参考訳) アテンションベースのトランスフォーマーは、様々な領域やモダリティにわたる生成プロセスをモデル化することに成功した。 本稿では,次のシンボルの列における条件分布が観測された以前の$k$のシンボルに依存するような,<kth Markov>プロセスから引き出されたデータに対する変換器の挙動について検討する。 十分な長さで訓練すると,1層あたり1ドルずつの深さを持つ変圧器は,k$が成長しても,kth Markovソースから引き出されたシーケンスに対して低い試験損失を達成できる。 さらに、この低いテスト損失は、コンテクスト内条件付き経験分布を表現および学習するトランスフォーマーの能力によって達成される。 理論的には、1つの頭部と3つの層を持つ変圧器は、我々の経験的観察と一致して、kth Markov源の文脈内条件付き経験的分布を表現できる。 その過程で、$O(\log_2(k))$レイヤを持つ \textit{attention-only} 変換器は、インジェクションヘッドを構成することで、シーケンス内の以前の$k$シンボルを追跡することで、コンテキスト内の条件付き経験的分布を表現できることを示す。 これらの結果は、マルコフ源の行動を理解することによって、トランスフォーマーが文脈を捉えることを学習するメカニズムの現在の理解について、より深い洞察を与えてくれる。

Attention-based transformers have been remarkably successful at modeling generative processes across various domains and modalities. In this paper, we study the behavior of transformers on data drawn from \kth Markov processes, where the conditional distribution of the next symbol in a sequence depends on the previous $k$ symbols observed. We observe a surprising phenomenon empirically which contradicts previous findings: when trained for sufficiently long, a transformer with a fixed depth and $1$ head per layer is able to achieve low test loss on sequences drawn from \kth Markov sources, even as $k$ grows. Furthermore, this low test loss is achieved by the transformer's ability to represent and learn the in-context conditional empirical distribution. On the theoretical side, our main result is that a transformer with a single head and three layers can represent the in-context conditional empirical distribution for \kth Markov sources, concurring with our empirical observations. Along the way, we prove that \textit{attention-only} transformers with $O(\log_2(k))$ layers can represent the in-context conditional empirical distribution by composing induction heads to track the previous $k$ symbols in the sequence. These results provide more insight into our current understanding of the mechanisms by which transformers learn to capture context, by understanding their behavior on Markov sources.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 理論的保証者による真剣な群集距離によるNSGA-IIの難しさの克服

Overcome the Difficulties of NSGA-II via Truthful Crowding Distance with Theoretical Guarantees ( http://arxiv.org/abs/2407.17687v1 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr, (参考訳) NSGA-IIは2つ以上の目的のために困難に直面することが証明されており、推定された理由は、異なる目的に関して計算された群集距離である。 NSGA-IIIとSMS-EMOAの最近の理論的効率は、どちらのアルゴリズムも、非支配的なソート後の第2基準における目的の依存関係を複雑な構造や難解な計算で考慮しているため、推論された理由も支持している。 しかし、もともとの群集距離の単純な変更が役立つかどうかはまだ疑問が残る。 本稿では,真偽群集距離という,そのような変種を提案する。 この変種は、各目的のためにコンポーネントをまとめるという単純な構造を継承する。 各目的に対して、まず対象値の順に解の集合をソートし、ソートされたリストの以前の位置にある現在の解と解の間の最小の正規化L1距離を成分として使用する。 すべてのコンポーネントをまとめることで、真に群がる距離の価値が得られます。 我々は、NSGA-II-TによるこのNSGA-II変種を、本来の群集距離を真に置き換え、削除後の群集距離値を逐次更新するNSGA-II-Tと呼ぶ。 NSGA-II-T は、元の NSGA-II の指数ランタイムとは対照的に、多目的 mOneMinMax と mOJZJ のパレートフロント全体を効率的にカバーできることを示す。 また,理論上は,1MinMaxのパレートフロントの精度が,NSGA-IIの逐次生存選択よりも若干向上していることも証明した。 加えて、NSGA-II は理論的な保証のある多くの目的に対してよく機能する単純な構造を持つ最初の NSGA-II 変種である。

The NSGA-II is proven to encounter difficulties for more than two objectives, and the deduced reason is the crowding distance computed by regarding the different objectives independently. The recent theoretical efficiency of the NSGA-III and the SMS-EMOA also supports the deduced reason as both algorithms consider the dependencies of objectives in the second criterion after the non-dominated sorting but with complicated structure or difficult computation. However, there is still a question of whether a simple modification of the original crowding distance can help. This paper proposes such a variant, called truthful crowding distance. This variant inherits the simple structure of summing the component for each objective. For each objective, it first sorts the set of solutions in order of descending objective values, and uses the smallest normalized L1 distance between the current solution and solutions in the earlier positions of the sorted list as the component. Summing up all components gives the value of truthful crowding distance. We call this NSGA-II variant by NSGA-II-T that replaces the original crowding distance with the truthful one, and that sequentially updates the crowding distance value after each removal. We prove that the NSGA-II-T can efficiently cover the full Pareto front for many-objective mOneMinMax and mOJZJ, in contrast to the exponential runtime of the original NSGA-II. Besides, we also prove that it theoretically achieves a slightly better approximation of the Pareto front for OneMinMax than the original NSGA-II with sequential survival selection. Besides, it is the first NSGA-II variant with a simple structure that performs well for many objectives with theoretical guarantees.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# スタンス分類における大規模言語モデル性能に対する政治的バイアスの影響の検討

Examining the Influence of Political Bias on Large Language Model Performance in Stance Classification ( http://arxiv.org/abs/2407.17688v1 )

ライセンス: Link先を確認
Lynnette Hui Xian Ng, Iain Cruickshank, Roy Ka-Wei Lee, (参考訳) 大規模言語モデル(LLM)は、自然言語クエリに基づいてタスクを実行する際、顕著な能力を示した。 しかし、これらのモデルは訓練されたデータセットに基づいて訓練され、本質的に人種的から民族的、性別的バイアスまで幅広いバイアスを具現化している。 これらのバイアスが特定のタスクにおけるLLMの性能に影響を及ぼすかどうかは不明である。 本研究では,姿勢分類課題におけるLCMの政治的バイアスについて検討し,これらのモデルが政治的に補充された姿勢をより正確に分類する傾向を示すかを検討した。 3つのデータセットと7つのLCMと4つの異なるプロンプトスキームを用いて、政治的に指向したステートメントとターゲット上でのLCMの性能を分析した。 本研究は,様々な政治的指向性姿勢分類課題において,LSMの性能に統計的に有意な差が認められた。 さらに、この差はデータセットレベルで主に現れており、異なるスタンス分類データセット間で統計的に類似したパフォーマンスを示すモデルとプロンプトスキームがある。 最後に、文が目的とする対象にあいまいさがある場合、LCMは分類精度が低くなることを観察する。

Large Language Models (LLMs) have demonstrated remarkable capabilities in executing tasks based on natural language queries. However, these models, trained on curated datasets, inherently embody biases ranging from racial to national and gender biases. It remains uncertain whether these biases impact the performance of LLMs for certain tasks. In this study, we investigate the political biases of LLMs within the stance classification task, specifically examining whether these models exhibit a tendency to more accurately classify politically-charged stances. Utilizing three datasets, seven LLMs, and four distinct prompting schemes, we analyze the performance of LLMs on politically oriented statements and targets. Our findings reveal a statistically significant difference in the performance of LLMs across various politically oriented stance classification tasks. Furthermore, we observe that this difference primarily manifests at the dataset level, with models and prompting schemes showing statistically similar performances across different stance classification datasets. Lastly, we observe that when there is greater ambiguity in the target the statement is directed towards, LLMs have poorer stance classification accuracy.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# SAM-MIL:全スライド画像分類のための空間文脈認識型マルチインスタンス学習手法

SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification ( http://arxiv.org/abs/2407.17689v1 )

ライセンス: Link先を確認
Heng Fang, Sheng Huang, Wenhao Tang, Luwen Huangfu, Bo Liu, (参考訳) MIL(Multiple Instance Learning)は、WSI(Whole Slide Image)分類において、サブタイピングや診断などの側面をカバーする主要なフレームワークである。 現在のMILモデルは、主にResNetのような事前訓練されたモデルから派生したインスタンスレベルの機能に依存している。 これらのモデルは各WSIを独立したパッチに分割し、これらのローカルパッチから特徴を抽出する。 本稿では,空間的文脈認識を重視し,包括的画像レベルの情報を抽出することによって空間的文脈を明示的に組み込む新しいMILフレームワークであるSAM-MILを提案する。 Segment Anything Model (SAM)は、セグメンテーション機能を追加の微調整なしにキャプチャできる先駆的なビジュアルセグメンテーション基盤モデルであり、生のWSIから直接空間コンテキストを抽出するための優れたツールである。 提案手法は,空間的文脈に基づくグループ特徴抽出と,クラス不均衡を緩和するためのSAM-Guided Group Masking戦略を含む。 分類分類の異なるカテゴリに対して動的マスク比を実装し,これらをカテゴリの代表群特徴で補足する。 さらに、SAM-MILはインスタンスを分割して追加の擬似バグを生成し、トレーニングセットを増強し、擬似バグ間の空間コンテキストの整合性を導入し、モデルの性能をさらに向上させる。 CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。 私たちのオープンソース実装コードはhttps://github.com/FangHeng/SAM-MIL.comで公開されています。

Multiple Instance Learning (MIL) represents the predominant framework in Whole Slide Image (WSI) classification, covering aspects such as sub-typing, diagnosis, and beyond. Current MIL models predominantly rely on instance-level features derived from pretrained models such as ResNet. These models segment each WSI into independent patches and extract features from these local patches, leading to a significant loss of global spatial context and restricting the model's focus to merely local features. To address this issue, we propose a novel MIL framework, named SAM-MIL, that emphasizes spatial contextual awareness and explicitly incorporates spatial context by extracting comprehensive, image-level information. The Segment Anything Model (SAM) represents a pioneering visual segmentation foundational model that can capture segmentation features without the need for additional fine-tuning, rendering it an outstanding tool for extracting spatial context directly from raw WSIs. Our approach includes the design of group feature extraction based on spatial context and a SAM-Guided Group Masking strategy to mitigate class imbalance issues. We implement a dynamic mask ratio for different segmentation categories and supplement these with representative group features of categories. Moreover, SAM-MIL divides instances to generate additional pseudo-bags, thereby augmenting the training set, and introduces consistency of spatial context across pseudo-bags to further enhance the model's performance. Experimental results on the CAMELYON-16 and TCGA Lung Cancer datasets demonstrate that our proposed SAM-MIL model outperforms existing mainstream methods in WSIs classification. Our open-source implementation code is is available at https://github.com/FangHeng/SAM-MIL.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 生成ニューラルネットワークを用いた二重ロバスト条件独立試験

Doubly Robust Conditional Independence Testing with Generative Neural Networks ( http://arxiv.org/abs/2407.17694v1 )

ライセンス: Link先を確認
Yi Zhang, Linjun Huang, Yun Yang, Xiaofeng Shao, (参考訳) 本稿では、統計的および機械学習アプリケーションにおいて重要な役割を果たす第3のランダムベクトルである$Z$を与えられた2つのジェネリックランダムベクトル$X$と$Y$の条件独立性をテストする問題に対処する。 条件分布を明示的に推定しない新しい非パラメトリックテスト手順を提案するが、代わりに、$X$と$Y$$$$$$$Z$の2つの限界条件分布からサンプリングする必要がある。 さらに、これらの近似された境界条件分布から、生成ニューラルネットワーク(GNN)フレームワークを用いて、その低次元構造への適応性とデータに基づく滑らかさによる次元の呪いを軽減する傾向がある。 理論的には、我々の検定統計学はGNN近似誤差に対して二重に頑健な性質を持つことが示され、つまり、検定統計学は、2つの近似誤差の積がパラメトリック速度よりも0に早く減衰する限り、真の限界条件分布を利用するオラクル検定統計学の全ての望ましい性質を保っている。 我々の統計学の漸近特性とブートストラップ手順の整合性は、ヌルおよび局所的な選択肢の両方に基づいて導出される。 大規模な数値実験と実データ解析は,提案試験の有効性と適用性を示すものである。

This article addresses the problem of testing the conditional independence of two generic random vectors $X$ and $Y$ given a third random vector $Z$, which plays an important role in statistical and machine learning applications. We propose a new non-parametric testing procedure that avoids explicitly estimating any conditional distributions but instead requires sampling from the two marginal conditional distributions of $X$ given $Z$ and $Y$ given $Z$. We further propose using a generative neural network (GNN) framework to sample from these approximated marginal conditional distributions, which tends to mitigate the curse of dimensionality due to its adaptivity to any low-dimensional structures and smoothness underlying the data. Theoretically, our test statistic is shown to enjoy a doubly robust property against GNN approximation errors, meaning that the test statistic retains all desirable properties of the oracle test statistic utilizing the true marginal conditional distributions, as long as the product of the two approximation errors decays to zero faster than the parametric rate. Asymptotic properties of our statistic and the consistency of a bootstrap procedure are derived under both null and local alternatives. Extensive numerical experiments and real data analysis illustrate the effectiveness and broad applicability of our proposed test.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 世界ダイナミクスモデリングによるエージェント学習の強化

Enhancing Agent Learning through World Dynamics Modeling ( http://arxiv.org/abs/2407.17695v1 )

ライセンス: Link先を確認
Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan, Bang Liu, (参考訳) 大きな言語モデル(LLM)は、言語理解と対話的な意思決定のタスクにまたがってますますデプロイされているが、その印象的なパフォーマンスは、その内部に包括的で深いドメイン知識が組み込まれているためである。 しかし、この知識の程度はドメインによって異なる。 既存の手法では、LLMは環境に関する包括的で深い知識を既に持っていると仮定し、現実の世界力学の理解における潜在的なギャップを見越す。 このギャップに対処するために、Discover, Verify, and Evolve(DiVE)という、少数のデモから世界ダイナミクスを発見し、これらのダイナミクスの正しさを検証し、現在の状況に合わせて新しい高度なダイナミクスを進化させるフレームワークを紹介します。 広範囲な評価を通じて、各コンポーネントがパフォーマンスに与える影響を分析し、DiVEから自動生成されたダイナミクスと人間の注釈付き世界ダイナミクスを比較した。 以上の結果から,DiVE が指導する LLM が,クラフト環境における人間プレイヤーに匹敵する報酬を得られることを示す。

While large language models (LLMs) have been increasingly deployed across tasks in language understanding and interactive decision-making, their impressive performance is largely due to the comprehensive and in-depth domain knowledge embedded within them. However, the extent of this knowledge can vary across different domains. Existing methods often assume that LLMs already possess such comprehensive and in-depth knowledge of their environment, overlooking potential gaps in their understanding of actual world dynamics. To address this gap, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the correctness of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we analyze the impact of each component on performance and compare the automatically generated dynamics from DiVE with human-annotated world dynamics. Our results demonstrate that LLMs guided by DiVE can make better decisions, achieving rewards comparable to human players in the Crafter environment.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 単ラベル多クラス分類タスクの確率的評価のための上位スコーリングルール

Superior Scoring Rules for Probabilistic Evaluation of Single-Label Multi-Class Classification Tasks ( http://arxiv.org/abs/2407.17697v1 )

ライセンス: Link先を確認
Rouhollah Ahmadian, Mehdi Ghatee, Johan Wahlström, (参考訳) 本研究では, PLL (Penalized Brier Score) と PLL (Penalized Logarithmic Loss) と呼ばれる新たな優れたスコアリングルールを導入し, 確率的分類のモデル評価を改善する。 Brier ScoreやLogarithmic Lossのような伝統的なスコアリングルールは、正しい分類と比較すると、誤分類により良いスコアを割り当てることがある。 正しい分類に報いるという実際の好みとの違いは、最適なモデル選択につながる。 誤分類のための罰則を統合することで、PBSとPLLは従来の適切なスコアリングルールを変更して、常により良いスコアを正しい予測に割り当てる。 形式的証明は、PBSとPLLが厳密な適切なスコアリングルール特性を満足すると同時に、正確な分類を優先的に報いることを示している。 実験では、モデル選択、モデルチェックポイント、早期停止にPBSとPLLを使用することの利点が示されている。 PBSはトレーニング中のBrier Scoreと比較してF1スコアと高い負の相関を示す。 したがって、PBSはより効果的に最適なチェックポイントと早期停止ポイントを識別し、F1スコアを改善する。 比較分析は、PBSとPLLが選択したモデルが優れたF1スコアを達成することを検証する。 したがって、PBSとPLLは、真の分類に対する適切なスコアリング原理と明示的な選好の両方をカプセル化することにより、不確かさの定量化と精度の最大化のギャップに対処する。 提案手法は,信頼性の高い確率的分類のためのモデル評価と選択を促進できる。

This study introduces novel superior scoring rules called Penalized Brier Score (PBS) and Penalized Logarithmic Loss (PLL) to improve model evaluation for probabilistic classification. Traditional scoring rules like Brier Score and Logarithmic Loss sometimes assign better scores to misclassifications in comparison with correct classifications. This discrepancy from the actual preference for rewarding correct classifications can lead to suboptimal model selection. By integrating penalties for misclassifications, PBS and PLL modify traditional proper scoring rules to consistently assign better scores to correct predictions. Formal proofs demonstrate that PBS and PLL satisfy strictly proper scoring rule properties while also preferentially rewarding accurate classifications. Experiments showcase the benefits of using PBS and PLL for model selection, model checkpointing, and early stopping. PBS exhibits a higher negative correlation with the F1 score compared to the Brier Score during training. Thus, PBS more effectively identifies optimal checkpoints and early stopping points, leading to improved F1 scores. Comparative analysis verifies models selected by PBS and PLL achieve superior F1 scores. Therefore, PBS and PLL address the gap between uncertainty quantification and accuracy maximization by encapsulating both proper scoring principles and explicit preference for true classifications. The proposed metrics can enhance model evaluation and selection for reliable probabilistic classification.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# SOK:プロヴァンスのためのブロックチェーン

SOK: Blockchain for Provenance ( http://arxiv.org/abs/2407.17699v1 )

ライセンス: Link先を確認
Asma Jodeiri Akbarfam, Hoda Maleki, (参考訳) Provenanceは、データ生成から操作まで追跡するので、データの整合性、信頼性、信頼性を確保するには不可欠だ。 シングルユーザアプリケーション、組織内のコラボレーション、組織全体にとって価値がある。 ブロックチェーン技術は、分散的で透明で不変な性質のため、証明の実装において一般的な選択肢となっている。 ブロックチェーン設計に関する多くの研究は、特に証明に特化しており、この分野に特化している。 私たちのゴールは、直面する課題を特定し、将来の研究方向性を提案することで、ブロックチェーンベースの証明分野における新たな視点を提供することです。 本稿では、問題文を3つの主要な研究課題に分類し、主要な問題を包括的に調査し、ブロックチェーンの利用に関する新たな展望を提案する。 第1は、非コラボレーション、単一ソース環境における課題に焦点を当て、第2は、サプライチェーン、科学的コラボレーション、デジタル法医学といったさまざまな領域と、異なるブロックチェーンを使用する組織間のコミュニケーションとデータ交換の課題を分析する。 これらの研究課題の相互接続の性質は、証明要求の徹底的な探索を保証し、より効果的で安全なシステムへと繋がる。 異なる環境における証明の要件を分析した後、ブロックチェーンタイプ、クエリメカニズム、プロファイランスキャプチャメソッド、ドメイン固有の考慮を含む、プロファイランスベースのブロックチェーンに関する将来の設計考察を提供する。 また、この分野での今後の作業や拡張の可能性についても論じる。

Provenance, which traces data from its creation to manipulation, is crucial for ensuring data integrity, reliability, and trustworthiness. It is valuable for single-user applications, collaboration within organizations, and across organizations. Blockchain technology has become a popular choice for implementing provenance due to its distributed, transparent, and immutable nature. Numerous studies on blockchain designs are specifically dedicated to provenance, and specialize in this area. Our goal is to provide a new perspective in blockchain based provenance field by identifying the challenges faced and suggesting future research directions. In this paper, we categorize the problem statement into three main research questions to investigate key issues comprehensively and propose a new outlook on the use of blockchains. The first focuses on challenges in non-collaborative, single-source environments, the second examines implications in collaborative environments and different domains such as supply chain, scientific collaboration and digital forensic, and the last one analyzes communication and data exchange challenges between organizations using different blockchains. The interconnected nature of these research questions ensures a thorough exploration of provenance requirements, leading to more effective and secure systems. After analyzing the requirements of provenance in different environments, we provide future design considerations for provenance-based blockchains, including blockchain type, query mechanisms, provenance capture methods, and domain-specific considerations. We also discuss future work and possible extensions in this field.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# グラフニューラルネットワークを用いた交通速度予測のためのコンテキスト対応知識グラフフレームワーク

Context-aware knowledge graph framework for traffic speed forecasting using graph neural network ( http://arxiv.org/abs/2407.17703v1 )

ライセンス: Link先を確認
Yatao Zhang, Yi Wang, Song Gao, Martin Raubal, (参考訳) 人間の移動性は、交通システムを理解する上で不可欠なドメイン知識を構成する、空間的・時間的に都市環境の影響を複雑に受けている。 既存の交通予測モデルは、主に生の交通データと高度な深層学習技術に依存しているが、効果的な統合フレームワークの欠如と都市環境の複雑さのために、文脈情報の統合は未探索のままである。 本研究では,空間的・時間的文脈を効果的にモデル化し,交通速度予測を強化するための新しい文脈対応知識グラフ(CKG)フレームワークを提案する。 関係依存型統合戦略を用いて、CKGの空間的・時間的単位から文脈認識表現を生成し、都市環境の時空間的依存関係を捉える。 CKG-GNNモデルは、CKG、デュアルビューマルチヘッド自己注意(MHSA)、グラフニューラルネットワーク(GNN)を組み合わせて、これらのコンテキスト認識表現を用いてトラフィック速度を予測するように設計されている。 実験の結果, CKGの構成が組込み性能に大きく影響し, ComplEx と KG2E がそれぞれ空間単位と時間単位の組込みに最適であることがわかった。 CKG-GNNモデルはベンチマークモデルを超え、平均3.46 pm0.01ドルと14.76 pm0.09 %のMAPEを10分から120分で達成している。 二重ビューMHSA分析は、コンテキストベースの視点から、関係に依存した特徴の重要な役割と、シーケンスベースの視点から予測する際に、最新の時間スロットを優先順位付けするモデルの能力を明らかにする。 CKGフレームワークのモデルに依存しない性質は、インテリジェントトランスポートシステムの様々な応用に適用可能であることを示唆している。 本研究は、トラフィック予測にドメイン固有のコンテキストを組み込むことの重要性と、ニューラルネットワークにコンテキスト認識知識グラフをマージして精度を高めることの重要性を強調した。

Human mobility is intricately influenced by urban contexts spatially and temporally, constituting essential domain knowledge in understanding traffic systems. While existing traffic forecasting models primarily rely on raw traffic data and advanced deep learning techniques, incorporating contextual information remains underexplored due to the lack of effective integration frameworks and the complexity of urban contexts. This study proposes a novel context-aware knowledge graph (CKG) framework to enhance traffic speed forecasting by effectively modeling spatial and temporal contexts. Employing a relation-dependent integration strategy, the framework generates context-aware representations from the spatial and temporal units of CKG to capture spatio-temporal dependencies of urban contexts. A CKG-GNN model, combining the CKG, dual-view multi-head self-attention (MHSA), and graph neural network (GNN), is then designed to predict traffic speed using these context-aware representations. Our experiments demonstrate that CKG's configuration significantly influences embedding performance, with ComplEx and KG2E emerging as optimal for embedding spatial and temporal units, respectively. The CKG-GNN model surpasses benchmark models, achieving an average MAE of $3.46\pm0.01$ and a MAPE of $14.76\pm0.09\%$ for traffic speed predictions from 10 to 120 minutes. The dual-view MHSA analysis reveals the crucial role of relation-dependent features from the context-based view and the model's ability to prioritize recent time slots in prediction from the sequence-based view. The CKG framework's model-agnostic nature suggests its potential applicability in various applications of intelligent transportation systems. Overall, this study underscores the importance of incorporating domain-specific contexts into traffic forecasting and merging context-aware knowledge graphs with neural networks to enhance accuracy.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# ALMRR: 特徴再構成と微細化を伴う産業用テクスチャ表面上の異常局所化マンバ

ALMRR: Anomaly Localization Mamba on Industrial Textured Surface with Feature Reconstruction and Refinement ( http://arxiv.org/abs/2407.17705v1 )

ライセンス: Link先を確認
Shichen Qu, Xian Tao, Zhen Qu, Xinyi Gong, Zhengtao Zhang, Mukesh Prasad, (参考訳) 産業用テクスチャ画像における教師なし異常な局所化は, 再構成に基づく手法によって顕著な成果を上げてきたが, 画像再構成と特徴再構成に基づく既存のアプローチには, それぞれに欠点がある。 まず、画像に基づく手法は、正常領域と異常領域の両方をよく再構成する傾向にあり、過度な一般化につながる。 特徴に基づく手法には大量の不連続な意味情報が含まれているが、その特徴構造は冗長であり、異常な情報を欠いているため、大幅な復元ミスにつながる。 本稿では,マンバをベースとした意味的特徴を再構成し,特徴改善モジュールを通じて洗練する特徴再構成・再構成(ALMRR)を備えたマンバに基づく異常局所化手法を提案する。 そこで,本研究では,従来の画像に擬似的異常を加えることで,従来の異常の知識に則ってモデルを改良する。 画像再構成や修復とは異なり、合成された欠陥の特徴は通常の領域と並んで修復される。 最後に、リッチな意味情報を含む整列した特徴を精製モジュールに入力し、異常マップを得る。 MVTec-AD-Texturedデータセットや他の実世界の産業データセットで大規模な実験が行われ、最新技術(SOTA)法に比較して優れた性能を示している。

Unsupervised anomaly localization on industrial textured images has achieved remarkable results through reconstruction-based methods, yet existing approaches based on image reconstruction and feature reconstruc-tion each have their own shortcomings. Firstly, image-based methods tend to reconstruct both normal and anomalous regions well, which lead to over-generalization. Feature-based methods contain a large amount of distin-guishable semantic information, however, its feature structure is redundant and lacks anomalous information, which leads to significant reconstruction errors. In this paper, we propose an Anomaly Localization method based on Mamba with Feature Reconstruction and Refinement(ALMRR) which re-constructs semantic features based on Mamba and then refines them through a feature refinement module. To equip the model with prior knowledge of anomalies, we enhance it by adding artificially simulated anomalies to the original images. Unlike image reconstruction or repair, the features of synthesized defects are repaired along with those of normal areas. Finally, the aligned features containing rich semantic information are fed in-to the refinement module to obtain the anomaly map. Extensive experiments have been conducted on the MVTec-AD-Textured dataset and other real-world industrial dataset, which has demonstrated superior performance com-pared to state-of-the-art (SOTA) methods.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 変分量子回路におけるバレンプラトーの調査と緩和:サーベイ

Investigating and Mitigating Barren Plateaus in Variational Quantum Circuits: A Survey ( http://arxiv.org/abs/2407.17706v1 )

ライセンス: Link先を確認
Jack Cunningham, Jun Zhuang, (参考訳) 近年、変分量子回路(VQC)は、量子化学や量子機械学習など、様々な領域の古典的モデルに対して量子回路を進化させるために広く研究されている。 古典的な機械学習モデルと同様に、VQCは勾配に基づくアプローチによって最適化できる。 しかしながら、VQCsの勾配のばらつきは、量子ビットや層の数が増えるにつれて劇的に消える可能性がある。 この問題、すなわちバレン高原(BP)は、大規模なデータセット上のVQCのスケーリングを著しく妨げている。 指数勾配の消滅を緩和するため、様々な戦略を通じてこの問題に取り組むために広範囲な努力が注がれている。 本調査では,調査と緩和の観点から,最近の研究の体系的な文献レビューを行う。 さらに,既存の緩和戦略を分類する新たな分類法を提案する。 最終的に、BPの今後の方向性について、洞察に富んだ議論を行う。

In recent years, variational quantum circuits (VQCs) have been widely explored to advance quantum circuits against classic models on various domains, such as quantum chemistry and quantum machine learning. Similar to classic machine-learning models, VQCs can be optimized through gradient-based approaches. However, the gradient variance of VQCs may dramatically vanish as the number of qubits or layers increases. This issue, a.k.a. Barren Plateaus (BPs), seriously hinders the scaling of VQCs on large datasets. To mitigate the exponential gradient vanishing, extensive efforts have been devoted to tackling this issue through diverse strategies. In this survey, we conduct a systematic literature review of recent works from both investigation and mitigation perspectives. Besides, we propose a new taxonomy to categorize most existing mitigation strategies. At last, we provide insightful discussion for future directions of BPs.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# 次元アライメントによる機械アンラーニングの再検討

Revisiting Machine Unlearning with Dimensional Alignment ( http://arxiv.org/abs/2407.17710v1 )

ライセンス: Link先を確認
Seonguk Seo, Dongwan Kim, Bohyung Han, (参考訳) データプライバシ規制の遵守に焦点を当てた、新たな研究トピックである機械学習によって、トレーニングされたモデルが、特定のデータから学んだ情報を削除できるようになる。 既存の多くの手法は、意図的に誤った監督を注入することで間接的にこの問題に対処するが、決定境界と特徴空間を劇的に予測不能に変更し、不安定性と望ましくない副作用を訓練する。 この課題に根本的に取り組むために、我々はまず、原型と再訓練されたモデル間の潜在特徴空間の変化を分析し、トレーニングに関わらないサンプルの特徴表現が、トレーニング中の以前に見られたサンプルの特徴多様体と密接に一致していることを確認する。 そこで本研究では, 機械学習のための新しい評価指標である次元アライメント(次元アライメント)を導入し, 集合標本の固有空間間のアライメントを計測する。 我々は、この指標を正則化損失として使用し、堅牢で安定したアンラーニングフレームワークを構築し、自己蒸留損失と交互トレーニングスキームを統合することでさらに強化する。 筆者らの枠組みは, 忘れ物から情報を効果的に排除し, 保持物から知識を保存している。 最後に,機械学習のための確立された評価指標の重大な欠陥を特定し,機械学習の基本目標をより正確に反映する新しい評価ツールを導入する。

Machine unlearning, an emerging research topic focusing on compliance with data privacy regulations, enables trained models to remove the information learned from specific data. While many existing methods indirectly address this issue by intentionally injecting incorrect supervisions, they can drastically and unpredictably alter the decision boundaries and feature spaces, leading to training instability and undesired side effects. To fundamentally approach this task, we first analyze the changes in latent feature spaces between original and retrained models, and observe that the feature representations of samples not involved in training are closely aligned with the feature manifolds of previously seen samples in training. Based on these findings, we introduce a novel evaluation metric for machine unlearning, coined dimensional alignment, which measures the alignment between the eigenspaces of the forget and retain set samples. We employ this metric as a regularizer loss to build a robust and stable unlearning framework, which is further enhanced by integrating a self-distillation loss and an alternating training scheme. Our framework effectively eliminates information from the forget set and preserves knowledge from the retain set. Lastly, we identify critical flaws in established evaluation metrics for machine unlearning, and introduce new evaluation tools that more accurately reflect the fundamental goals of machine unlearning.
翻訳日:2024-07-26 15:37:23 公開日:2024-07-25
# ML予測によるオンラインアルゴリズムの改善

Improving Online Algorithms via ML Predictions ( http://arxiv.org/abs/2407.17712v1 )

ライセンス: Link先を確認
Ravi Kumar, Manish Purohit, Zoya Svitkina, (参考訳) 本研究では,オンラインアルゴリズムの性能向上のために,機械学習による予測を用いることの問題点について検討する。 我々は,スキーレンタルと非好ましくないジョブスケジューリングの2つの古典的問題を考察し,予測を用いて意思決定を行う新しいオンラインアルゴリズムを得る。 これらのアルゴリズムは予測器の性能を損なうものであり、より良い予測で改善するが、予測が貧弱な場合はあまり劣化しない。

In this work we study the problem of using machine-learned predictions to improve the performance of online algorithms. We consider two classical problems, ski rental and non-clairvoyant job scheduling, and obtain new online algorithms that use predictions to make their decisions. These algorithms are oblivious to the performance of the predictor, improve with better predictions, but do not degrade much if the predictions are poor.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 環境のテキスト記述による音声感情認識におけるノイズ・ロバスト性の改善

Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment ( http://arxiv.org/abs/2407.17716v1 )

ライセンス: Link先を確認
Seong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso, (参考訳) 音声感情認識(SER)システムは、周囲ノイズが性能を著しく低下させる現実世界環境でしばしば苦労する。 本稿では,騒音条件下でのSER性能を最大化するために,テスト環境の事前知識を活用する新しい手法を提案する。 この課題に対処するために,SERモデルを汚染音声サンプルとペアノイズ記述を用いて訓練するテキスト誘導型環境認識トレーニングを提案する。 事前学習したテキストエンコーダを用いて、テキストベースの環境埋め込みを抽出し、トレーニングと推論中にトランスフォーマーベースのSERモデルに融合する。 我々は,MPP-PodcastコーパスとFreesoundレポジトリから収集した実世界の付加雑音サンプルを用いて,本手法の有効性を実証した。 実験の結果,大規模言語モデル(LLM)によって処理されたテキストベースの環境記述は,SERシステムのノイズロス性を改善する表現を生成することが示唆された。 さらに,LLMを用いた提案手法は,特に低信号-雑音比(SNR)条件において,環境に依存しないベースラインよりも優れた性能が得られる。 提案手法は,5dB SNRレベルでの試験では,最良ベースラインモデルよりも31.8 %(覚醒),23.5%(支配),9.5%(原子価)の優れた性能を示した。

Speech emotion recognition (SER) systems often struggle in real-world environments, where ambient noise severely degrades their performance. This paper explores a novel approach that exploits prior knowledge of testing environments to maximize SER performance under noisy conditions. To address this task, we propose a text-guided, environment-aware training where an SER model is trained with contaminated speech samples and their paired noise description. We use a pre-trained text encoder to extract the text-based environment embedding and then fuse it to a transformer-based SER model during training and inference. We demonstrate the effectiveness of our approach through our experiment with the MSP-Podcast corpus and real-world additive noise samples collected from the Freesound repository. Our experiment indicates that the text-based environment descriptions processed by a large language model (LLM) produce representations that improve the noise-robustness of the SER system. In addition, our proposed approach with an LLM yields better performance than our environment-agnostic baselines, especially in low signal-to-noise ratio (SNR) conditions. When testing at -5dB SNR level, our proposed method shows better performance than our best baseline model by 31.8 % (arousal), 23.5% (dominance), and 9.5% (valence).
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# フルインバーストモグラフィのためのCNNと物理インフォームドニューラルネットワークを組み合わせた2段階イメージングフレームワーク:電気インピーダンストモグラフィー(EIT)を例として

A Two-Stage Imaging Framework Combining CNN and Physics-Informed Neural Networks for Full-Inverse Tomography: A Case Study in Electrical Impedance Tomography (EIT) ( http://arxiv.org/abs/2407.17721v1 )

ライセンス: Link先を確認
Xuanxuan Yang, Yangming Zhang, Haofeng Chen, Gang Ma, Xiaojie Wang, (参考訳) 物理情報ニューラルネットワーク(英: Physics-Informed Neural Networks, PINN)は、PDEをニューラルネットワークの損失項として取り入れ、トレーニング中の損失関数を最小化することにより、偏微分方程式(PDE)を解く機械学習技術である。 外部計測データから内部特性を再構成する手法であるトモグラフィー画像は,非常に複雑であり,逆問題である。 近年、PINNは計算流体力学(CFD)において有意なポテンシャルを示し、逆問題の解法に長けている。 しかし、既存の研究は主に半逆電気インピーダンストモグラフィ(EIT)に焦点を当てており、そこでは内部電位がアクセス可能である。 境界電圧の測定しかできない現実的なフル逆EIT問題は、依然として困難である。 そこで本研究では,畳み込みニューラルネットワーク(CNN)とPINNを組み合わせた2段階ハイブリッド学習フレームワークを提案する。 このフレームワークは、データ駆動とモデル駆動のアプローチを統合し、教師付き学習と教師なし学習を組み合わせて、EITのPINNフレームワーク内の前方および逆問題を分離する。 ステージI: U-Netは、境界電圧の測定から教師あり学習を用いた内部電位分布へのエンドツーエンドマッピングを構築する。 ステージII: MLP(Multilayer Perceptron)ベースのPINNは、予測内部電位を入力として、教師なし学習を通して導電率分布を解く。

Physics-Informed Neural Networks (PINNs) are a machine learning technique for solving partial differential equations (PDEs) by incorporating PDEs as loss terms in neural networks and minimizing the loss function during training. Tomographic imaging, a method to reconstruct internal properties from external measurement data, is highly complex and ill-posed, making it an inverse problem. Recently, PINNs have shown significant potential in computational fluid dynamics (CFD) and have advantages in solving inverse problems. However, existing research has primarily focused on semi-inverse Electrical Impedance Tomography (EIT), where internal electric potentials are accessible. The practical full inverse EIT problem, where only boundary voltage measurements are available, remains challenging. To address this, we propose a two-stage hybrid learning framework combining Convolutional Neural Networks (CNNs) and PINNs to solve the full inverse EIT problem. This framework integrates data-driven and model-driven approaches, combines supervised and unsupervised learning, and decouples the forward and inverse problems within the PINN framework in EIT. Stage I: a U-Net constructs an end-to-end mapping from boundary voltage measurements to the internal potential distribution using supervised learning. Stage II: a Multilayer Perceptron (MLP)-based PINN takes the predicted internal potentials as input to solve for the conductivity distribution through unsupervised learning.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 紙ソース追跡のためのテキスト駆動型ニューラルコラボレーティブフィルタリングモデル

Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing ( http://arxiv.org/abs/2407.17722v1 )

ライセンス: Link先を確認
Aobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian, (参考訳) 引用知識グラフの複雑な相互関係の中で重要な参照を識別することは困難であり、引用、著者名、キーワード、その他の関係属性を通して接続を包含する。 PST(Paper Source Tracing)タスクは,先進的なデータマイニング技術を利用した学術論文における重要な参照の識別を自動化する。 KDD CUP 2024では、PSTタスクに適したレコメンデーションベースのフレームワークを設計する。 このフレームワークでは、最終的な予測を生成するために、Neural Collaborative Filtering(NCF)モデルを採用している。 論文のテキスト属性を処理し,モデルの入力特徴を抽出するために,事前学習された言語モデルであるSciBERTを利用する。 実験結果によると,本手法は平均精度(MAP)測定値において0.37814のスコアを達成し,ベースラインモデルを上回っ,全参加チームで11位となった。 ソースコードはhttps://github.com/MyLove-XAB/KDDCupFinal.comで公開されている。

Identifying significant references within the complex interrelations of a citation knowledge graph is challenging, which encompasses connections through citations, authorship, keywords, and other relational attributes. The Paper Source Tracing (PST) task seeks to automate the identification of pivotal references for given scholarly articles utilizing advanced data mining techniques. In the KDD CUP 2024, we design a recommendation-based framework tailored for the PST task. This framework employs the Neural Collaborative Filtering (NCF) model to generate final predictions. To process the textual attributes of the papers and extract input features for the model, we utilize SciBERT, a pre-trained language model. According to the experimental results, our method achieved a score of 0.37814 on the Mean Average Precision (MAP) metric, outperforming baseline models and ranking 11th among all participating teams. The source code is publicly available at https://github.com/MyLove-XAB/KDDCupFinal.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# グラフレコメンダは、おそらくシングルビューのグラフコントラスト学習である

Your Graph Recommender is Provably a Single-view Graph Contrastive Learning ( http://arxiv.org/abs/2407.17723v1 )

ライセンス: Link先を確認
Wenjie Yang, Shengzhong Zhang, Jiaxing Guo, Zengfeng Huang, (参考訳) グラフレコメンデータ(GR)は、ユーザとテムの相互作用グラフから情報を抽出するためにカスタマイズされたグラフニューラルネットワーク(GNN)エンコーダの一種である。 このレコメンデーションタスクの強いパフォーマンスのため、最近GRは大きな注目を集めている。 グラフコントラスト学習(GCL)もまた、特定のコントラスト目標を持つGNNを学習し、しばしば教師なしの学習を目的とした、人気のある研究方向である。 汎用グラフ表現学習法として,GRのジョイントトレーニングにおける教師付き推薦損失が広く採用されている。 GRとGCLの研究の交わりにもかかわらず、2つの分野の関係に関する理論的理解は驚くほど少ない。 この空き地は必然的に非効率な科学研究につながる。 本稿では,エンコーダと損失関数の観点から,GRとGCLのギャップを埋めることを目的としている。 軽微な仮定で、グラフレコメンデータが一般的に用いられるシングルビューグラフの対照的なモデルと等価であるという驚くべき事実を理論的に示す。 具体的には、(1)GRの古典エンコーダは、基本的に1ホット入力を持つ線形グラフ畳み込みネットワークであり、(2)GRの損失関数は、特定のハイパーパラメータを持つ単一ビューGCL損失によって十分に拘束されている。 第1の観察により,GRモデルの重要な設計,例えば自己ループの除去,非線形性を説明できる。 そして2つ目の発見は、多くの分野横断研究の方向性を容易に促すことができる。 提案手法は,推奨損失とGCL損失を相互に利用できることを実証的に示す。 GRモデルをGCL損失のみで訓練できるという事実は特に洞察力に富んでいる。 また、我々の理論に触発された将来的な研究についても論じる。

Graph recommender (GR) is a type of graph neural network (GNNs) encoder that is customized for extracting information from the user-item interaction graph. Due to its strong performance on the recommendation task, GR has gained significant attention recently. Graph contrastive learning (GCL) is also a popular research direction that aims to learn, often unsupervised, GNNs with certain contrastive objectives. As a general graph representation learning method, GCLs have been widely adopted with the supervised recommendation loss for joint training of GRs. Despite the intersection of GR and GCL research, theoretical understanding of the relationship between the two fields is surprisingly sparse. This vacancy inevitably leads to inefficient scientific research. In this paper, we aim to bridge the gap between the field of GR and GCL from the perspective of encoders and loss functions. With mild assumptions, we theoretically show an astonishing fact that graph recommender is equivalent to a commonly-used single-view graph contrastive model. Specifically, we find that (1) the classic encoder in GR is essentially a linear graph convolutional network with one-hot inputs, and (2) the loss function in GR is well bounded by a single-view GCL loss with certain hyperparameters. The first observation enables us to explain crucial designs of GR models, e.g., the removal of self-loop and nonlinearity. And the second finding can easily prompt many cross-field research directions. We empirically show a remarkable result that the recommendation loss and the GCL loss can be used interchangeably. The fact that we can train GR models solely with the GCL loss is particularly insightful, since before this work, GCLs were typically viewed as unsupervised methods that need fine-tuning. We also discuss some potential future works inspired by our theory.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 一般化Lefschetz thimble法による量子宇宙論のモンテカルロ研究

Monte Carlo studies of quantum cosmology by the generalized Lefschetz thimble method ( http://arxiv.org/abs/2407.17724v1 )

ライセンス: Link先を確認
Chien-Yu Chou, Jun Nishimura, (参考訳) 量子宇宙論は宇宙の始まりを解明することを目的としています。 80年代初期、ヴィレンキンとハートル・ホーキングは「何もない」と「境界なし」の提案を推進した。 近年、ピカール・レフシェッツ理論を用いてローレンツ量子重力の振動経路積分を定義する観点から、この問題に対する新たな関心が高まっている。 ミニ超空間とサドル点近似を超えていくことを目的として、一般化されたレフシェッツ・ティンブル法を用いてモンテカルロ計算を行い、符号問題を克服する。 特に、パラメータに応じてロビン境界条件を使用する場合、ヴィレンキンあるいはハートル・ホーキング・サドル点が関係することを確認する。 また、量子宇宙論の基本的な問題として、ラプス関数の積分領域に関する問題や、サドル点で得られた複素幾何学から実幾何学を読み取る問題などを明らかにした。

Quantum cosmology aims at elucidating the beginning of our Universe. Back in early 80's, Vilenkin and Hartle-Hawking put forward the "tunneling from nothing'' and "no boundary'' proposals. Recently there has been renewed interest in this subject from the viewpoint of defining the oscillating path integral for Lorentzian quantum gravity using the Picard-Lefschetz theory. Aiming at going beyond the mini-superspace and saddle-point approximations, we perform Monte Carlo calculations using the generalized Lefschetz thimble method to overcome the sign problem. In particular, we confirm that either Vilenkin or Hartle-Hawking saddle point becomes relevant if one uses the Robin boundary condition depending on its parameter. We also clarify some fundamental issues in quantum cosmology, such as an issue related to the integration domain of the lapse function and an issue related to reading off the real geometry from the complex geometry obtained at the saddle point.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 2次元およびポリトピー系のシグナリング次元

The signaling dimension of two-dimensional and polytopic systems ( http://arxiv.org/abs/2407.17725v1 )

ライセンス: Link先を確認
Shuriku Kai, Michele Dall'Arno, (参考訳) 任意の物理系のシグナリング次元は、その古典的なシミュレーションコスト、すなわち、与えられた系のすべての入出力相関を再現できる古典的なシステムの最小次元を表す。 シグナルの次元が量子系以外で知られている唯一の非自明な系はオクタヘドロンと2つの正方形の合成である。 松本,木村,Frenkelによる以前の結果に基づいて、最初の結果は、非対称性のミンコフスキー測度(英語版)の関数として、任意の系のシグナリング次元上の境界を導出したものである。 そのような境界を用いて、任意の2次元系のシグナリング次元(すなわち、ポリゴンや実量子ビットのような2次元の許容状態の集合)が、そのような集合が中心対称であるときと、そうでなければ3つの場合とで、そのような系に対するシグナリング次元の問題を決定的に定めていることを示す。 2次元の場合の対称性の関連性から、任意のポリトープの対称性の正確な計算、頂点数における多項式時間、空間の次元における分解時間に対する分岐および有界な除算自由アルゴリズムを提案する。 第2の結果は,任意のシステムの信号の次元を正確に計算するためのアルゴリズムを提供することで,上記の境界を利用して,そのプルーニング技術を改善し,上記の対称性フィニングアルゴリズムをサブルーチンとして組み込むことにより,従来の提案よりも優れていた。 我々は,すべての有理プラトン,アルキメデス,カタルーニャの固体に対するシグナル伝達次元の正確な値と,5次元までの超八面体系のクラスを求めるアルゴリズムを適用した。

The signaling dimension of any given physical system represents its classical simulation cost, that is, the minimum dimension of a classical system capable of reproducing all the input/output correlations of the given system. The signaling dimension landscape is vastly unexplored; the only non-trivial systems whose signaling dimension is known -- other than quantum systems -- are the octahedron and the composition of two squares. Building on previous results by Matsumoto, Kimura, and Frenkel, our first result consists of deriving bounds on the signaling dimension of any system as a function of its Minkowski measure of asymmetry. We use such bounds to prove that the signaling dimension of any two-dimensional system (i.e. with two-dimensional set of admissible states, such as polygons and the real qubit) is two if and only if such a set is centrally symmetric, and three otherwise, thus conclusively settling the problem of the signaling dimension for such systems. Guided by the relevance of symmetries in the two dimensional case, we propose a branch and bound division-free algorithm for the exact computation of the symmetries of any given polytope, in polynomial time in the number of vertices and in factorial time in the dimension of the space. Our second result then consist of providing an algorithm for the exact computation of the signaling dimension of any given system, that outperforms previous proposals by exploiting the aforementioned bounds to improve its pruning techniques and incorporating as a subroutine the aforementioned symmetries-finding algorithm. We apply our algorithm to compute the exact value of the signaling dimension for all rational Platonic, Archimedean, and Catalan solids, and for the class of hyper-octahedral systems up to dimension five.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 不完全データとアノテーションを用いた生存分析モデルのためのマルチモーダルデータバインディング

Multi-modal Data Binding for Survival Analysis Modeling with Incomplete Data and Annotations ( http://arxiv.org/abs/2407.17726v1 )

ライセンス: Link先を確認
Linhao Qu, Dan Huang, Shaoting Zhang, Xiaosong Wang, (参考訳) 生存分析は、がん治療研究において重要なプロセスであり、患者の生存率を正確に予測するために不可欠である。 データ収集技術の最近の進歩は、複数のモダリティからの情報を統合することにより、生存率予測の強化の道を開いた。 しかし、現実世界のシナリオは、特に検閲されたサバイバルラベルを扱う場合、不完全なデータに関する課題をしばしば提示する。 それまでの研究は、モダリティの欠如に対処してきたが、バイアスやモデルの有効性の制限をもたらす不完全なラベルを見落としていた。 このギャップを埋めるために、モダリティと検閲されたサバイバルラベルにまたがる不完全なデータを同時に扱う新しいフレームワークを導入する。 我々のアプローチでは、高度な基礎モデルを用いて、個々のモダリティを符号化し、それらをシームレスな融合のための普遍的な表現空間に整列させる。 擬似ラベルを生成し,不確実性を取り入れることで,予測精度を大幅に向上させる。 提案手法は,2つのサバイバル分析タスクにおいて,両者が適用したデータセットの予測精度に優れることを示す。 この革新的なアプローチは、異なるモダリティに関連する制限を克服し、複数の大きな基礎モデルを用いた包括的生存分析の実現可能性を向上させる。

Survival analysis stands as a pivotal process in cancer treatment research, crucial for predicting patient survival rates accurately. Recent advancements in data collection techniques have paved the way for enhancing survival predictions by integrating information from multiple modalities. However, real-world scenarios often present challenges with incomplete data, particularly when dealing with censored survival labels. Prior works have addressed missing modalities but have overlooked incomplete labels, which can introduce bias and limit model efficacy. To bridge this gap, we introduce a novel framework that simultaneously handles incomplete data across modalities and censored survival labels. Our approach employs advanced foundation models to encode individual modalities and align them into a universal representation space for seamless fusion. By generating pseudo labels and incorporating uncertainty, we significantly enhance predictive accuracy. The proposed method demonstrates outstanding prediction accuracy in two survival analysis tasks on both employed datasets. This innovative approach overcomes limitations associated with disparate modalities and improves the feasibility of comprehensive survival analysis using multiple large foundation models.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 大規模言語モデルは認知行動療法に有効か?

Are Large Language Models Possible to Conduct Cognitive Behavioral Therapy? ( http://arxiv.org/abs/2407.17730v1 )

ライセンス: Link先を確認
Hao Shen, Zihan Li, Minqiang Yang, Minghui Ni, Yongfeng Tao, Zhengyang Yu, Weihao Zheng, Chen Xu, Bin Hu, (参考訳) 現代社会では、精神疾患の多様化、複雑性、普遍性によって特徴付けられる心理的健康の問題がますます顕著になっている。 認知行動療法 (Cognitive Behavioral Therapy, CBT) は、現在、副作用のない最も影響力があり、臨床的に有効な心理治療方法であり、ほとんどの国でカバー範囲が限られており、品質が劣っている。 近年,大規模言語モデル(LLM)を用いた感情障害の認識と介入に関する研究が検証され,心理的援助療法の可能性が高まっている。 しかし、LLMは本当に認知行動療法を行うことができるのか? 精神保健の専門家は、LSMを治療に使用することについて多くの懸念を抱いている。 そこで我々は,オンラインビデオサイトから実際のCBTコーパスを収集し,生成したテキストの感情傾向,構造化された対話パターン,積極的調査能力の評価を含む自動評価フレームワークを設計,実施した。 感情傾向について,各モデルが生成したCBT対話テキストの感情傾向スコアを算出する。 構造化対話パターンでは、発話スタイルの比較、トピックの一貫性の維持、異なるモデル間のCBTにおける技術利用など、さまざまな自動評価指標を用いている。 PQA(Proactive Questioning Ability)尺度を用いて患者を指導する。 また、CBT知識ベースを統合した上で、LCMのCBT能力を評価し、モデルのCBTカウンセリング能力を高めるための追加知識の導入支援について検討した。 自然言語処理性能に優れた4つのLSM変異体を評価し, 実験結果から, 心理学的カウンセリング領域において, 特に他の技術手法と組み合わせた後において, LLMが大きな可能性を示した。

In contemporary society, the issue of psychological health has become increasingly prominent, characterized by the diversification, complexity, and universality of mental disorders. Cognitive Behavioral Therapy (CBT), currently the most influential and clinically effective psychological treatment method with no side effects, has limited coverage and poor quality in most countries. In recent years, researches on the recognition and intervention of emotional disorders using large language models (LLMs) have been validated, providing new possibilities for psychological assistance therapy. However, are LLMs truly possible to conduct cognitive behavioral therapy? Many concerns have been raised by mental health experts regarding the use of LLMs for therapy. Seeking to answer this question, we collected real CBT corpus from online video websites, designed and conducted a targeted automatic evaluation framework involving the evaluation of emotion tendency of generated text, structured dialogue pattern and proactive inquiry ability. For emotion tendency, we calculate the emotion tendency score of the CBT dialogue text generated by each model. For structured dialogue pattern, we use a diverse range of automatic evaluation metrics to compare speaking style, the ability to maintain consistency of topic and the use of technology in CBT between different models . As for inquiring to guide the patient, we utilize PQA (Proactive Questioning Ability) metric. We also evaluated the CBT ability of the LLM after integrating a CBT knowledge base to explore the help of introducing additional knowledge to enhance the model's CBT counseling ability. Four LLM variants with excellent performance on natural language processing are evaluated, and the experimental result shows the great potential of LLMs in psychological counseling realm, especially after combining with other technological means.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# グローバル経済における最適貿易政策と産業政策--深層学習の枠組み

Optimal Trade and Industrial Policies in the Global Economy: A Deep Learning Framework ( http://arxiv.org/abs/2407.17731v1 )

ライセンス: Link先を確認
Zi Wang, Xingcheng Xu, Yanqing Yang, Xiaodong Zhu, (参考訳) 本稿では,定量的一般均衡取引モデルにおける最適政策の効率的な解法として,ディープラーニングフレームワークであるDL-optを提案する。 DL-opt の統合 (i)最適化問題のネスト固定点(NFXP)の定式化。 二 片側最適政策の解法における勾配降下の促進のための自動暗黙差分法 (iii) Nash equilibria を見つけるための最適応答力学アプローチ。 DL-optを利用することで、7つの経済と44のセクターにわたる非協力的な関税と産業補助を解決し、スケールの分野外経済を取り入れます。 ナッシュ工業補助金は大規模弾力性で増加し、ナッシュ関税は貿易弾力性で減少する。 さらに、関税と工業補助金の双方を含む国際二重競争は、国際関税戦争と比較して低い関税と高い福祉効果をもたらすことを示した。 これらの知見は,グローバル・エコノミクス・コンペティションの理解において,セクター的不均一性と政策の組み合わせを考慮することの重要性を浮き彫りにしている。

We propose a deep learning framework, DL-opt, designed to efficiently solve for optimal policies in quantifiable general equilibrium trade models. DL-opt integrates (i) a nested fixed point (NFXP) formulation of the optimization problem, (ii) automatic implicit differentiation to enhance gradient descent for solving unilateral optimal policies, and (iii) a best-response dynamics approach for finding Nash equilibria. Utilizing DL-opt, we solve for non-cooperative tariffs and industrial subsidies across 7 economies and 44 sectors, incorporating sectoral external economies of scale. Our quantitative analysis reveals significant sectoral heterogeneity in Nash policies: Nash industrial subsidies increase with scale elasticities, whereas Nash tariffs decrease with trade elasticities. Moreover, we show that global dual competition, involving both tariffs and industrial subsidies, results in lower tariffs and higher welfare outcomes compared to a global tariff war. These findings highlight the importance of considering sectoral heterogeneity and policy combinations in understanding global economic competition.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# フォトン分解フロケ理論 I: フロケ系における駆動場のフルカウンティング統計

Photon-resolved Floquet theory I: Full-Counting statistics of the driving field in Floquet systems ( http://arxiv.org/abs/2407.17732v1 )

ライセンス: Link先を確認
Georg Engelhardt, JunYan Luo, Victor M. Bastidas, Gloria Platero, (参考訳) フロケ理論やその他の確立された半古典的アプローチは、外部駆動型量子系の状態を予測するために広く使われているが、フォトニック駆動場の状態を予測することはできない。 この欠点を克服するために、光子分解フロケ理論 (PRFT) が最近開発され(Phys. Rev. Research 6, 013116] 、複数のコヒーレント駆動モード間の光子フラックスの統計を予測するために、フルカウント統計から概念を展開している。 本稿では,半古典的体制におけるPRFTのスケーリング特性について詳細に検討する。 モーメント生成関数の定義には曖昧さがあり、モーメント生成関数の異なるバージョンは半古典的極限において同じフォトニック確率分布を生成し、モーメントと累積の同じ先行項を生成する。 このあいまいさを用いて、光-物質相互作用の結果として現れる駆動量子系のデコヒーレンスダイナミクスを記述する、クラウス作用素の簡単な表現を確立する。 PRFTは、例えば、分光学的量子センシングプロトコル、半導体ナノ構造における反射法、その他の用途において、フォトニック確率分布の詳細な知識を必要とする量子センシング方法の改善の道を開く。

Floquet theory and other established semiclassical approaches are widely used methods to predict the state of externally-driven quantum systems, yet, they do not allow to predict the state of the photonic driving field. To overcome this shortcoming, the photon-resolved Floquet theory (PRFT) has been developed recently [Phys. Rev. Research 6, 013116], which deploys concepts from full-counting statistics to predict the statistics of the photon flux between several coherent driving modes. In this paper, we study in detail the scaling properties of the PRFT in the semiclassical regime. We find that there is an ambiguity in the definition of the moment-generating function, such that different versions of the moment-generating function produce the same photonic probability distribution in the semiclassical limit, and generate the same leading-order terms of the moments and cumulants. Using this ambiguity, we establish a simple expression for the Kraus operators, which describe the decoherence dynamics of the driven quantum system appearing as a consequence of the light-matter interaction. The PRFT will pave the way for improved quantum sensing methods, e.g., for spectroscopic quantum sensing protocols, reflectometry in semiconductor nanostructures and other applications, where the detailed knowledge of the photonic probability distribution is necessary.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 病的ビジョンと言語分析のための費用対効果学習

Cost-effective Instruction Learning for Pathology Vision and Language Analysis ( http://arxiv.org/abs/2407.17734v1 )

ライセンス: Link先を確認
Kaitao Chen, Mianxin Liu, Fang Yan, Lei Ma, Xiaoming Shi, Lilong Wang, Xiaosong Wang, Lifeng Zhu, Zhe Wang, Mu Zhou, Shaoting Zhang, (参考訳) 視覚言語モデルの出現は、AI対応モデルと人間との対話を促進する。 しかし、これらのモデルを診療所に適用するには、大規模なトレーニングデータ、財務、計算資源に関する厄介な課題に対処する必要がある。 本稿では,CLOVER という名称の会話病理学のための費用対効果学習フレームワークを提案する。 CLOVERは軽量モジュールのみをトレーニングし、大きな言語モデルのパラメータを凍結しながら命令チューニングを使用する。 コストのかかるGPT-4を使わず,GPT-3.5で生成命令を作成できるプロンプトを提案し,インターネットから派生した病的知識の有用性を強調した。 そこで我々は,デジタル病理学の文脈において,高品質なテンプレートベースの命令セットを構築する。 2つのベンチマークデータセットから,病理学における視覚的質問応答におけるハイブリッドフォーム命令の強さを明らかにした。 CLOVERは37倍以上のトレーニングパラメータを持つ強いベースラインを上回り、GPT-4から生成された命令データを使用する。 インストラクションチューニングを通じて、CLOVERは、外部臨床データセットにおいて、少数ショット学習の堅牢性を示す。 これらの結果から,CLOVERの費用対効果モデルにより,デジタル病理学の分野での迅速な対話型アプリケーションの導入が促進される可能性が示唆された。

The advent of vision-language models fosters the interactive conversations between AI-enabled models and humans. Yet applying these models into clinics must deal with daunting challenges around large-scale training data, financial, and computational resources. Here we propose a cost-effective instruction learning framework for conversational pathology named as CLOVER. CLOVER only trains a lightweight module and uses instruction tuning while freezing the parameters of the large language model. Instead of using costly GPT-4, we propose well-designed prompts on GPT-3.5 for building generation-based instructions, emphasizing the utility of pathological knowledge derived from the Internet source. To augment the use of instructions, we construct a high-quality set of template-based instructions in the context of digital pathology. From two benchmark datasets, our findings reveal the strength of hybrid-form instructions in the visual question-answer in pathology. Extensive results show the cost-effectiveness of CLOVER in answering both open-ended and closed-ended questions, where CLOVER outperforms strong baselines that possess 37 times more training parameters and use instruction data generated from GPT-4. Through the instruction tuning, CLOVER exhibits robustness of few-shot learning in the external clinical dataset. These findings demonstrate that cost-effective modeling of CLOVER could accelerate the adoption of rapid conversational applications in the landscape of digital pathology.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 直交マッピングによる航空画像のきめ細かい物体検出の促進

Enhancing Fine-grained Object Detection in Aerial Images via Orthogonal Mapping ( http://arxiv.org/abs/2407.17738v1 )

ライセンス: Link先を確認
Haoran Zhu, Yifan Zhou, Chang Xu, Ruixiang Zhang, Wen Yang, (参考訳) 微細物体検出(FGOD)は高分解能空中画像解析において重要な課題である。 本文では,FGOD固有の意味的混乱の解決を目的とした,シンプルかつ効果的な手法であるオルソゴンマッピング(OM)を紹介する。 OM は、クラスワイド直交ベクトル基底で分類枝の最後の層から特徴を分離することで、特徴空間の直交制約を導入する。 これにより意味的混乱が効果的に軽減され、分類精度が向上する。 さらに、OMはメインストリームの物体検出器にシームレスに統合できる。 3つのFGODデータセット(FAIR1M、ShipRSImageNet、MAR20)で実施された大規模な実験は、提案手法の有効性と優位性を示している。 特に、たった1行のコードで、OMはShipRSImageNetデータセット上のFCOSよりも平均精度(mAP)が4.08%向上した。 コードはhttps://github.com/ZhuHaoranEIS/Orthogonal-FGODで公開されている。

Fine-Grained Object Detection (FGOD) is a critical task in high-resolution aerial image analysis. This letter introduces Orthogonal Mapping (OM), a simple yet effective method aimed at addressing the challenge of semantic confusion inherent in FGOD. OM introduces orthogonal constraints in the feature space by decoupling features from the last layer of the classification branch with a class-wise orthogonal vector basis. This effectively mitigates semantic confusion and enhances classification accuracy. Moreover, OM can be seamlessly integrated into mainstream object detectors. Extensive experiments conducted on three FGOD datasets (FAIR1M, ShipRSImageNet, and MAR20) demonstrate the effectiveness and superiority of the proposed approach. Notably, with just one line of code, OM achieves a 4.08% improvement in mean Average Precision (mAP) over FCOS on the ShipRSImageNet dataset. Codes are released at https://github.com/ZhuHaoranEIS/Orthogonal-FGOD.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# コンピュータサイエンス専攻学生のためのデバッグ学習支援環境の提案

A Proposal for a Debugging Learning Support Environment for Undergraduate Students Majoring in Computer Science ( http://arxiv.org/abs/2407.17743v1 )

ライセンス: Link先を確認
Aoi Kanaya, Takuma Migo, Hiroaki Hashiura, (参考訳) ソフトウェア開発では、バグに遭遇することは避けられない。 しかし、バグ除去についてもっと学ぶ機会は限られている。 学生がデバッグタスクを行う際には,デバッガの使い方を知らない,あるいは一度も使わなかったため,印刷文を使うことが多い。 本稿では,視覚言語であるScratchに,正確なブレークポイント配置と系統的なデバッグ手順を自己学習する機能を実装した。

In software development, encountering bugs is inevitable. However, opportunities to learn more about bug removal are limited. When students perform debugging tasks, they often use print statements because students do not know how to use a debugger or have never used one.In this study, among various debugging methods, we focused on debugging using breakpoints. We implemented a function in Scratch, a visual programming language, that allows for self-learning of correct breakpoint placement and systematic debugging procedures.In this paper, we discuss experimental results that clarify the changes that occur in subjects when they learn debugging in Scratch.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# 不完全なマルチビュークラスタリングにおける遅延活性化による相補性と一貫性のバランス

Balancing Complementarity and Consistency via Delayed Activation in Incomplete Multi-view Clustering ( http://arxiv.org/abs/2407.17744v1 )

ライセンス: Link先を確認
Bo Li, (参考訳) 本稿では,他の視点からの貴重な補完情報が常に無視されるような,不完全なマルチビュークラスタリングにおける課題について考察する。 具体的には,不完全なマルチビュークラスタリング(CoCo-IMC)における相補性と一貫性情報を効果的にバランスさせるフレームワークを提案する。 具体的には、遅延活性化の2つのネットワークを設計し、異なる視点の相補性と一貫性のバランスを実現する。 遅れたアクティベーションは、一貫性学習中に無視された相補性情報を強化する可能性がある。 そして、条件エントロピーを最小化し、異なる視点で相互情報を最大化することにより、不完全情報を回復し、一貫性学習を強化する。 これは、遅延活性化を不完全なデータ回復と相補性と一貫性のバランスに組み込む最初の理論的試みかもしれない。 我々は,CoCo-IMCの有効性を,公開された4つのデータセットに対して,12の最先端ベースラインを用いた広範囲な比較実験で証明した。

This paper study one challenging issue in incomplete multi-view clustering, where valuable complementary information from other views is always ignored. To be specific, we propose a framework that effectively balances Complementarity and Consistency information in Incomplete Multi-view Clustering (CoCo-IMC). Specifically, we design a dual network of delayed activation, which achieves a balance of complementarity and consistency among different views. The delayed activation could enriches the complementarity information that was ignored during consistency learning. Then, we recover the incomplete information and enhance the consistency learning by minimizing the conditional entropy and maximizing the mutual information across different views. This could be the first theoretical attempt to incorporate delayed activation into incomplete data recovery and the balance of complementarity and consistency. We have proved the effectiveness of CoCo-IMC in extensive comparative experiments with 12 state-of-the-art baselines on four publicly available datasets.
翻訳日:2024-07-26 15:27:36 公開日:2024-07-25
# エンティティアライメントを超えて:Entity-Relation Synergyによる完全な知識グラフアライメントを目指す

Beyond Entity Alignment: Towards Complete Knowledge Graph Alignment via Entity-Relation Synergy ( http://arxiv.org/abs/2407.17745v1 )

ライセンス: Link先を確認
Xiaohan Fang, Chaozhuo Li, Yi Zhao, Qian Zang, Litian Zhang, Jiquan Peng, Xi Zhang, Jibing Gong, (参考訳) 知識グラフアライメント(KGA)は、個々の知識グラフ(KG)の限界に対応するために複数の情報源からの知識を統合することを目的としている。 しかし、現在のKGAモデルは '`complete'' 知識グラフアライメントを達成するには不十分である。 既存のモデルは、主にクロスグラフエンティティの連結を強調するが、KG間の整合性を見落とし、KGAへの部分解のみを提供する。 関係に埋め込まれた意味的相関は概ね見過ごされ、KG信号の包括的理解を制限する可能性がある。 本稿では,関係アライメントを独立したタスクとして概念化し,それを2つの異なる,高相関なサブタスク,すなわちエンティティアライメントと関係アライメントに分解することでKGAを実行することを提案する。 これらの目的間の相互強化相関を捉えるために,両タスクを反復的に最適化する新しい期待最大化モデルEREMを提案する。 実世界のデータセットによる実験結果から、EREMはエンティティアライメントと関係アライメントタスクの両方において、最先端モデルよりも一貫して優れていることが示された。

Knowledge Graph Alignment (KGA) aims to integrate knowledge from multiple sources to address the limitations of individual Knowledge Graphs (KGs) in terms of coverage and depth. However, current KGA models fall short in achieving a ``complete'' knowledge graph alignment. Existing models primarily emphasize the linkage of cross-graph entities but overlook aligning relations across KGs, thereby providing only a partial solution to KGA. The semantic correlations embedded in relations are largely overlooked, potentially restricting a comprehensive understanding of cross-KG signals. In this paper, we propose to conceptualize relation alignment as an independent task and conduct KGA by decomposing it into two distinct but highly correlated sub-tasks: entity alignment and relation alignment. To capture the mutually reinforcing correlations between these objectives, we propose a novel Expectation-Maximization-based model, EREM, which iteratively optimizes both sub-tasks. Experimental results on real-world datasets demonstrate that EREM consistently outperforms state-of-the-art models in both entity alignment and relation alignment tasks.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# DualFed: 階層的表現によるフェデレーション学習における一般化とパーソナライゼーションの両立

DualFed: Enjoying both Generalization and Personalization in Federated Learning via Hierachical Representations ( http://arxiv.org/abs/2407.17754v1 )

ライセンス: Link先を確認
Guogang Zhu, Xuefeng Liu, Jianwei Niu, Shaojie Tang, Xinghao Wu, Jiayuan Zhang, (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)では、高モデル一般化と効果的なパーソナライゼーションの両方を達成することが、相反する性質のために大きな課題となることが広く認識されている。 その結果、既存のPFL法はこれらの2つの目的の間のトレードオフしか管理できない。 両方の目標を同時に達成できるモデルを開発することは可能か? 本論文は肯定的な回答を示し,深層モデルが本質的に階層的アーキテクチャを示し,様々な段階における一般化とパーソナライゼーションのレベルを表現できることを示す。 この観察から生ずる直接的なアプローチは、これらの層から複数の表現を選択し、それらを組み合わせ、一般化とパーソナライゼーションを同時に達成することである。 しかし、この手法は計算コストが高いために実現不可能であり、この問題を解決するために、一般化とパーソナライゼーションに対応する2つの表現を直接生成できる新しい手法であるDualFedを提案する。 具体的には、DualFedはエンコーダと分類器の間にパーソナライズされたプロジェクションネットワークを挿入する。 プレプロジェクション表現は、クライアント間で共有可能な一般化された情報をキャプチャすることができ、後プロジェクション表現は、ローカルクライアント上のタスク固有の情報をキャプチャするのに効果的である。 この設計は、一般化とパーソナライゼーションの相互干渉を最小限に抑え、勝利の状況を達成する。 大規模な実験により、DualFedは他のFL法よりも優れていることが示された。 コードはhttps://github.com/GuogangZhu/DualFed.comで入手できる。

In personalized federated learning (PFL), it is widely recognized that achieving both high model generalization and effective personalization poses a significant challenge due to their conflicting nature. As a result, existing PFL methods can only manage a trade-off between these two objectives. This raises an interesting question: Is it feasible to develop a model capable of achieving both objectives simultaneously? Our paper presents an affirmative answer, and the key lies in the observation that deep models inherently exhibit hierarchical architectures, which produce representations with various levels of generalization and personalization at different stages. A straightforward approach stemming from this observation is to select multiple representations from these layers and combine them to concurrently achieve generalization and personalization. However, the number of candidate representations is commonly huge, which makes this method infeasible due to high computational costs.To address this problem, we propose DualFed, a new method that can directly yield dual representations correspond to generalization and personalization respectively, thereby simplifying the optimization task. Specifically, DualFed inserts a personalized projection network between the encoder and classifier. The pre-projection representations are able to capture generalized information shareable across clients, and the post-projection representations are effective to capture task-specific information on local clients. This design minimizes the mutual interference between generalization and personalization, thereby achieving a win-win situation. Extensive experiments show that DualFed can outperform other FL methods. Code is available at https://github.com/GuogangZhu/DualFed.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# 深層学習と合成データ拡張による眼疾患診断の強化

Enhancing Eye Disease Diagnosis with Deep Learning and Synthetic Data Augmentation ( http://arxiv.org/abs/2407.17755v1 )

ライセンス: Link先を確認
Saideep Kilaru, Kothamasu Jayachandra, Tanishka Yagneshwar, Suchi Kumari, (参考訳) 近年、機械学習とディープラーニング技術を用いて糖尿病網膜症(DR)の診断を改善することに注力している。 研究者は、高解像度の医療イメージング、畳み込みニューラルネットワーク(CNN)のようなAI駆動アルゴリズム、GAN(Generative Adversarial Network)など、さまざまなアプローチを探求してきた。 利用可能なツールの中で、CNNはより優れた分類精度と効率のために好まれるツールとして登場した。 CNNの精度は比較的優れているが、様々な機械学習モデルとディープラーニングモデルを組み合わせることで、いくつかのハイブリッドモデルを導入することで改善できる。 そこで本研究では,DRの早期検出と管理を高精度に行うためのアンサンブル学習手法を提案する。 提案したモデルはAPTOSデータセット上でテストされ、以前のモデルと比較して検証精度(99\%)の優位性を示している。 したがって、このモデルはDRの早期発見と治療に役立ち、患児に対するケアの全体的な品質を高めることができる。

In recent years, the focus is on improving the diagnosis of diabetic retinopathy (DR) using machine learning and deep learning technologies. Researchers have explored various approaches, including the use of high-definition medical imaging, AI-driven algorithms such as convolutional neural networks (CNNs) and generative adversarial networks (GANs). Among all the available tools, CNNs have emerged as a preferred tool due to their superior classification accuracy and efficiency. Although the accuracy of CNNs is comparatively better but it can be improved by introducing some hybrid models by combining various machine learning and deep learning models. Therefore, in this paper, an ensemble learning technique is proposed for early detection and management of DR with higher accuracy. The proposed model is tested on the APTOS dataset and it is showing supremacy on the validation accuracy ($99\%)$ in comparison to the previous models. Hence, the model can be helpful for early detection and treatment of the DR, thereby enhancing the overall quality of care for affected individuals.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# クローズドループ脳深部刺激のためのニューロモルフィックコントローラ設計とパーキンソン病データセット構築の予備的結果

Preliminary Results of Neuromorphic Controller Design and a Parkinson's Disease Dataset Building for Closed-Loop Deep Brain Stimulation ( http://arxiv.org/abs/2407.17756v1 )

ライセンス: Link先を確認
Ananna Biswas, Hongyu An, (参考訳) パーキンソン病は世界中で何百万人もの個人を苦しめている。 パーキンソン病に対する有望な脳再生療法として、CL-DBS(Clocd-loop Deep Brain Stimulation)は運動障害を緩和することを目的としている。 CL-DBSシステムは、胸部にバッテリ駆動の医療装置を埋め込んだもので、患者の脳に刺激信号を送信する。 これらの電気刺激信号は電極を介して標的の脳領域に伝達され、刺激の大きさは調節可能である。 しかし、現在のCL-DBSシステムは、強化学習、ファジィインタフェース、フィールドプログラマブルゲートアレイ(FPGA)など、エネルギー非効率なアプローチを採用している。 これらのアプローチにより、従来のCL-DBSシステムは、インプラントやウェアラブル医療機器では実用的ではない。 本研究は、PD患者の各種重症度に応じてDBS電気信号の大きさを調整するために、Leaky Integrate and Fire Neuron(LIF)コントローラを用いた新しいニューロモルフィックアプローチを提案する。 我々のニューロモルフィックコントローラ、オンオフLIFコントローラ、デュアルLIFコントローラは、CL-DBSシステムの消費電力をそれぞれ19%と56%減らすことに成功した。 一方、抑制効率は4.7%と6.77%向上した。 さらに、パーキンソン病の症状のデータ不足に対処するため、我々はパーキンソン病の典型的な生理的バイオマーカーであるベータ発振時の視床下核からの生の神経活動を含むパーキンソン病データセットを構築した。

Parkinson's Disease afflicts millions of individuals globally. Emerging as a promising brain rehabilitation therapy for Parkinson's Disease, Closed-loop Deep Brain Stimulation (CL-DBS) aims to alleviate motor symptoms. The CL-DBS system comprises an implanted battery-powered medical device in the chest that sends stimulation signals to the brains of patients. These electrical stimulation signals are delivered to targeted brain regions via electrodes, with the magnitude of stimuli adjustable. However, current CL-DBS systems utilize energy-inefficient approaches, including reinforcement learning, fuzzy interface, and field-programmable gate array (FPGA), among others. These approaches make the traditional CL-DBS system impractical for implanted and wearable medical devices. This research proposes a novel neuromorphic approach that builds upon Leaky Integrate and Fire neuron (LIF) controllers to adjust the magnitude of DBS electric signals according to the various severities of PD patients. Our neuromorphic controllers, on-off LIF controller, and dual LIF controller, successfully reduced the power consumption of CL-DBS systems by 19% and 56%, respectively. Meanwhile, the suppression efficiency increased by 4.7% and 6.77%. Additionally, to address the data scarcity of Parkinson's Disease symptoms, we built Parkinson's Disease datasets that include the raw neural activities from the subthalamic nucleus at beta oscillations, which are typical physiological biomarkers for Parkinson's Disease.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# CRASH:文脈認識と時間的焦点注意によるクラッシュ認識と予測システム

CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions ( http://arxiv.org/abs/2407.17757v1 )

ライセンス: Link先を確認
Haicheng Liao, Haoyu Sun, Huanming Shen, Chengyue Wang, Kahou Tam, Chunlin Tian, Li Li, Chengzhong Xu, Zhenning Li, (参考訳) カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である。 本課題は, 交通事故の予測不能な性質, 長期分布, 交通シーンの力学の複雑化, 搭載カメラの視野の制約など, 重大な課題を提起する。 これらの課題に対処するために,本研究では,CRASHと呼ばれるAVの新たな事故予測フレームワークを導入する。 オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。 具体的には,交通エージェント間の空間的・時間的関係を計算し,複雑で曖昧な環境下での高リスク物体の優先順位付けを行うオブジェクト認識モジュールを開発した。 並行して、コンテキスト認識は、時空間から周波数領域へのグローバルな視覚情報をFFT(Fast Fourier Transform)を使用して拡張し、潜在的なオブジェクトのきめ細かい視覚的特徴と、交通シーン内のより広いコンテキストキューをキャプチャするように設計されている。 より広い範囲の視覚的手がかりを捉えるために,異なるシーン間の時間的依存関係を動的に計算し,異なる視覚的特徴間の相関を正確かつタイムリーな事故予測のために反復的に更新する多層融合を提案する。 Dashcam Accident Dataset(DAD)、Car Crash Dataset(CCD)、AnAn Accident Detection(A3D)データセットなど、実世界のデータセットに基づいて評価する。 重要なことは、その堅牢性と適応性は、訓練データ不足や限られた制限のある運転シナリオにおいて特に顕著であり、現実の自律運転システムにおける応用の可能性を示している。

Accurately and promptly predicting accidents among surrounding traffic agents from camera footage is crucial for the safety of autonomous vehicles (AVs). This task presents substantial challenges stemming from the unpredictable nature of traffic accidents, their long-tail distribution, the intricacies of traffic scene dynamics, and the inherently constrained field of vision of onboard cameras. To address these challenges, this study introduces a novel accident anticipation framework for AVs, termed CRASH. It seamlessly integrates five components: object detector, feature extractor, object-aware module, context-aware module, and multi-layer fusion. Specifically, we develop the object-aware module to prioritize high-risk objects in complex and ambiguous environments by calculating the spatial-temporal relationships between traffic agents. In parallel, the context-aware is also devised to extend global visual information from the temporal to the frequency domain using the Fast Fourier Transform (FFT) and capture fine-grained visual features of potential objects and broader context cues within traffic scenes. To capture a wider range of visual cues, we further propose a multi-layer fusion that dynamically computes the temporal dependencies between different scenes and iteratively updates the correlations between different visual features for accurate and timely accident prediction. Evaluated on real-world datasets--Dashcam Accident Dataset (DAD), Car Crash Dataset (CCD), and AnAn Accident Detection (A3D) datasets--our model surpasses existing top baselines in critical evaluation metrics like Average Precision (AP) and mean Time-To-Accident (mTTA). Importantly, its robustness and adaptability are particularly evident in challenging driving scenarios with missing or limited training data, demonstrating significant potential for application in real-world autonomous driving systems.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# TwIPS: 自閉症ユーザのための会話ニュアンスを簡単にするための大規模言語モデルによるテキストアプリケーション

TwIPS: A Large Language Model Powered Texting Application to Simplify Conversational Nuances for Autistic Users ( http://arxiv.org/abs/2407.17760v1 )

ライセンス: Link先を確認
Rukhshan Haroon, Fahad Dogar, (参考訳) 自閉症の個人はしばしば、感情的な声調や非文学的なニュアンスを伝え、解釈するのに困難を経験する。 多くの人々はコミュニケーションスタイルを隠蔽し、他人によって誤解されるのを避け、その過程でかなりの時間と精神的な努力を費やす。 テキストベースのコミュニケーションにおけるこれらの課題に対処するために,大言語モデル(LLM)を利用したプロトタイプテキストアプリケーションであるTwIPSを紹介した。 a) 受信メッセージのトーンと意味を解読すること b) メッセージの感情的トーンが意図と一致していること、及び c) 他人から否定的に解釈され,受信される可能性のあるメッセージについて,別の言い換えをする。 我々は、AIベースのシミュレーションと会話スクリプトを利用して、TwIPSを8人の自閉症参加者で評価する。 以上の結果から,TwIPSは,参加者が明確化を求めるための便利な方法であり,音調指標の代替として優れた手段であり,文字の技法やスタイルに対する構成的反映を容易にすることが示唆された。 また,インスタントメッセージにおける自己表現と解釈に,自閉症ユーザーが言語をどのように活用しているかを検証し,プロトタイプの強化のためにフィードバックを集める。 我々は、AIメディエーションによるユーザ自律性のバランス、AIシステムにおける適切な信頼レベルの設定、AI支援コミュニケーションの文脈における自閉症ユーザのニーズのカスタマイズに関する議論を締めくくった。

Autistic individuals often experience difficulties in conveying and interpreting emotional tone and non-literal nuances. Many also mask their communication style to avoid being misconstrued by others, spending considerable time and mental effort in the process. To address these challenges in text-based communication, we present TwIPS, a prototype texting application powered by a large language model (LLM), which can assist users with: a) deciphering tone and meaning of incoming messages, b) ensuring the emotional tone of their message is in line with their intent, and c) coming up with alternate phrasing for messages that could be misconstrued and received negatively by others. We leverage an AI-based simulation and a conversational script to evaluate TwIPS with 8 autistic participants in an in-lab setting. Our findings show TwIPS enables a convenient way for participants to seek clarifications, provides a better alternative to tone indicators, and facilitates constructive reflection on writing technique and style. We also examine how autistic users utilize language for self-expression and interpretation in instant messaging, and gather feedback for enhancing our prototype. We conclude with a discussion around balancing user-autonomy with AI-mediation, establishing appropriate trust levels in AI systems, and customization needs if autistic users in the context of AI-assisted communication
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# パーミッションレスストレージによるブロックチェーンの大規模導入に向けて

Towards the Blockchain Massive Adoption with Permissionless Storage ( http://arxiv.org/abs/2407.17761v1 )

ライセンス: Link先を確認
Jia Kan, (参考訳) ブロックチェーン技術は、Bitcoinの出現とともに出現し、ここ数十年で急速に発展し、一般に広く受け入れられ、知られるようになった。 しかし、過去数十年間、ブロックチェーン技術の大規模な採用は行われていない。 スケーラビリティの問題よりも、ブロックチェーンアプリケーションは高価な使用コストに悩まされている。 しかしながら、ブロックチェーン利用の高コストは、ブロックチェーンのコンセンサスとセキュリティメカニズムと深く結びついています。 51%のアタックに対するセキュリティのために、無許可のブロックチェーンは高いコストを維持する必要がある。 ブロックチェーンの利用料金にコインが割り当てられると、チェーンユーザは間接的にコストをカバーします。 この衝突はブロックチェーンの大規模な採用を妨げる。 したがって、ブロックチェーンはこれらの問題を解決するために改善されなければならない。 1. ブロックチェーンの利用コストは十分低くなければならない。 2. ブロックチェーンは引き続き分散化されなければならない。 3. ブロックチェーンのスケーラビリティは需要を満たす必要があります。 私の論文では、上記の問題を解決するために新しいアプローチが適用されています。 重要な貢献は、有用なPoWの発見である。 中本PoWを拡張し、同じ中本Consensus計算中に別のファイルデータエンコーディングを使用して、正直なデータ保存を証明する。 この理論に基づいて、ブロックチェーンの新しいセキュリティエンジンとして、無許可ストレージネットワークが提案されている。 高いブロックチェーンセキュリティコストを、ストレージリソースの支払いを希望する真の要求で、ストレージユーザに橋渡しする。 一方、チェーンユーザーは、低い取引手数料の恩恵を受けることができる。 一方、ブロックチェーンをシャーディングするためのスケーラビリティソリューションも提供しています。 高いTPSを実現し、分散化を維持できる。 この論文のソリューションは、大規模な採用のすべての依存関係に対する答えを提供する。

Blockchain technology emerged with the advent of Bitcoin and rapidly developed over the past few decades, becoming widely accepted and known by the public. However, in the past decades, the massive adoption of blockchain technology has yet to come. Rather than the scalability issue, the blockchain application is challenged by its expensive usage cost. However, the high cost of blockchain usage is deeply connected with the blockchain consensus and security mechanism. The permissionless blockchain must maintain its high cost for security against the 51% Attack. Chain users indirectly cover the cost as coins are appointed for blockchain usage fees. This conflict prevents the massive adoption of blockchain. Thus, blockchain must be improved to solve those problems: 1. The cost of blockchain usage should be low enough. 2. The blockchain should remain decentralized. 3. The scalability of blockchain must meet the demand. In my thesis, new approaches are applied to solve the issues above. The key contribution is the discovery of the useful PoW. It extends the Nakamoto PoW with another usage of file data encoding during the same Nakamoto Consensus computation to prove honest data preservation. Based on this theory, a permissionless storage network is proposed as the new security engine for the blockchain. It bridges the high blockchain security cost to the storage users with real demands who are willing to pay for the storage resource. On the other hand, the chain users can benefit from the low transaction fee. Meanwhile, we also provide a scalability solution to shard the blockchain. It enables high TPS and keeps decentralization. The solutions in this thesis provide the answers to all the dependencies of the massive adoption.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# Mpox Detection Advanced: Rapid Epidemic Response through Synthetic Data

Mpox Detection Advanced: Rapid Epidemic Response Through Synthetic Data ( http://arxiv.org/abs/2407.17762v1 )

ライセンス: Link先を確認
Yudara Kularathne, Prathapa Janitha, Sithira Ambepitiya, Prarththanan Sothyrajah, Thanveer Ahamed, Dinuka Wijesundara, (参考訳) コンピュータビジョンを用いた疾患検出モデルの迅速な開発は、疫病やバイオテロイベントなどの医学的緊急事態への対応に不可欠である。 従来のデータ収集手法はこれらのシナリオでは遅すぎることが多く、最小限のデータから高速で信頼性の高いモデル生成のための革新的なアプローチを必要とする。 本研究は, 総合的なコンピュータビジョンモデルを構築し, 合成データのみを用いてMpox病変を検出する手法を提案する。 当初、これらのモデルはフィッツパトリックスケール(フェア、ブラウン、ダークスキン)で定義される様々な肌の音色(顔、背中、胸、脚、首、腕)にMpoxの病変を表す多様な合成画像を生成した。 次に,この合成データセットを用いて視覚モデルを訓練し,高品質なトレーニングデータの作成における拡散モデルの有効性と,その医用画像認識性能への影響を評価する。 その結果、視覚モデルは97%の精度で、Mpoxの96%の精度とリコールを達成し、同様に正常および他の皮膚疾患の指標も高く、正の正を正しく識別し偽陽性を最小化する能力を示した。 このモデルは、Mpoxの96%、正常およびその他の皮膚疾患の98%のF1スコアを達成し、バランスの取れた精度とリコールの関係を反映し、予測の信頼性と堅牢性を確保した。 提案手法は,将来医療現場において最小限のデータ入力で正確なコンピュータビジョンモデルを開発する可能性を示している。

Rapid development of disease detection models using computer vision is crucial in responding to medical emergencies, such as epidemics or bioterrorism events. Traditional data collection methods are often too slow in these scenarios, requiring innovative approaches for quick, reliable model generation from minimal data. Our study introduces a novel approach by constructing a comprehensive computer vision model to detect Mpox lesions using only synthetic data. Initially, these models generated a diverse set of synthetic images representing Mpox lesions on various body parts (face, back, chest, leg, neck, arm) across different skin tones as defined by the Fitzpatrick scale (fair, brown, dark skin). Subsequently, we trained and tested a vision model with this synthetic dataset to evaluate the diffusion models' efficacy in producing high-quality training data and its impact on the vision model's medical image recognition performance. The results were promising; the vision model achieved a 97% accuracy rate, with 96% precision and recall for Mpox cases, and similarly high metrics for normal and other skin disorder cases, demonstrating its ability to correctly identify true positives and minimize false positives. The model achieved an F1-Score of 96% for Mpox cases and 98% for normal and other skin disorders, reflecting a balanced precision-recall relationship, thus ensuring reliability and robustness in its predictions. Our proposed SynthVision methodology indicates the potential to develop accurate computer vision models with minimal data input for future medical emergencies.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# ブロックチェーンとスマートコントラクトを用いた多信号クレーム処理によるフレード防止と医療保険の最小化

Utilizing Blockchain and Smart Contracts for Enhanced Fraud Prevention and Minimization in Health Insurance through Multi-Signature Claim Processing ( http://arxiv.org/abs/2407.17765v1 )

ライセンス: Link先を確認
Md Al Amin, Rushabh Shah, Hemanth Tummala, Indrajit Ray, (参考訳) 医療保険は、提供者へのタイムリーで保証された支払いを確保しながら、患者の医療サービスにアクセスするための財政的支援を提供する。 保険詐欺は保険会社や政策ステークホルダーにとって重大な課題となり、コストが増加し医療治療やサービス提供が損なわれる。 ファントム請求、アップコード、アンバンドルなど、ほとんどの詐欺は、必要なエンティティへの参加が欠如しているために発生します。 また、クレーム活動は透明性がなく、説明責任もない。 あらゆる実体を巻き込み、透明性と説明責任を持たせることで、詐欺行為を防ぎ、最小化することができる。 本稿では,ブロックチェーンを利用したスマートコントラクトベースの保険請求処理機構を提案する。 患者、提供者、保険会社は、多署名技術を通じて、クレームの提出、承認、承認プロセスに積極的に参加する。 また、すべてのアクティビティは、スマートコントラクトを使用してブロックチェーンにキャプチャされ、記録され、すべてのアクションを透過的かつ説明可能なものにすることで、エンティティがそのアクションと責任を否定することができない。 ブロックチェーンの不変ストレージプロパティと、記録されたアクティビティが変更されないことを保証する強力な完全性。 医療システムや保険会社が詐欺問題に対処し続けていく中で、このアプローチは詐欺行為を著しく削減する可能性を秘めており、最終的には保険会社と政策立案者の両方に利益をもたらす。

Healthcare insurance provides financial support to access medical services for patients while ensuring timely and guaranteed payment for providers. Insurance fraud poses a significant challenge to insurance companies and policyholders, leading to increased costs and compromised healthcare treatment and service delivery. Most frauds, like phantom billing, upcoding, and unbundling, happen due to the lack of required entity participation. Also, claim activities are not transparent and accountable. Fraud can be prevented and minimized by involving every entity and making actions transparent and accountable. This paper proposes a blockchain-powered smart contract-based insurance claim processing mechanism to prevent and minimize fraud in response to this prevailing issue. All entities patients, providers, and insurance companies actively participate in the claim submission, approval, and acknowledgment process through a multi-signature technique. Also, every activity is captured and recorded in the blockchain using smart contracts to make every action transparent and accountable so that no entity can deny its actions and responsibilities. Blockchains' immutable storage property and strong integrity guarantee that recorded activities are not modified. As healthcare systems and insurance companies continue to deal with fraud challenges, this proposed approach holds the potential to significantly reduce fraudulent activities, ultimately benefiting both insurers and policyholders.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# インテントベース6Gネットワークの自律的管理のためのオンライン学習

Online Learning for Autonomous Management of Intent-based 6G Networks ( http://arxiv.org/abs/2407.17767v1 )

ライセンス: Link先を確認
Erciyes Karakaya, Ozgur Ercetin, Huseyin Ozkan, Mehmet Karaca, Elham Dehghan Biyar, Alexandros Palaios, (参考訳) ネットワークの複雑さの増大と、多様でしばしば厳格なパフォーマンス要件を持つ様々な将来のシナリオは、より高度な自動化を必要とします。 インテントベースの管理は、高レベルの自動化を実現するソリューションとして登場し、人間のオペレータが高レベルのインテントを通じてネットワークとのみ通信できるようにする。 インテントは、サービスからの期待(すなわちレイテンシ期待)の形式でのターゲットで構成されており、必要なネットワーク構成をそれに従って行うべきだという期待に基づいている。 ネットワークアクションが1つの意図を満たすために取られると、別の意図のパフォーマンスに悪影響を及ぼし、それが衝突を引き起こすことはほとんど避けられない。 本稿では,意図に基づくネットワークの競合問題と自律的管理に対処することを目的として,階層型マルチアームバンディットアプローチに基づくオンライン学習手法を提案する。 この階層構造のおかげで、動的ネットワーク条件に対するネットワーク構成の効率的な探索と活用を行うことができる。 提案アルゴリズムは,資源配分と意図的期待の満足度に関する効果的なアプローチであることを示す。

The growing complexity of networks and the variety of future scenarios with diverse and often stringent performance requirements call for a higher level of automation. Intent-based management emerges as a solution to attain high level of automation, enabling human operators to solely communicate with the network through high-level intents. The intents consist of the targets in the form of expectations (i.e., latency expectation) from a service and based on the expectations the required network configurations should be done accordingly. It is almost inevitable that when a network action is taken to fulfill one intent, it can cause negative impacts on the performance of another intent, which results in a conflict. In this paper, we aim to address the conflict issue and autonomous management of intent-based networking, and propose an online learning method based on the hierarchical multi-armed bandits approach for an effective management. Thanks to this hierarchical structure, it performs an efficient exploration and exploitation of network configurations with respect to the dynamic network conditions. We show that our algorithm is an effective approach regarding resource allocation and satisfaction of intent expectations.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# BotEval: インタラクティブな人間評価を実現する

BotEval: Facilitating Interactive Human Evaluation ( http://arxiv.org/abs/2407.17770v1 )

ライセンス: Link先を確認
Hyundong Cho, Thamme Gowda, Yuyang Huang, Zixun Lu, Tianli Tong, Jonathan May, (参考訳) 自然言語処理(NLP)モデルの急速な進歩に続いて、言語モデルは交渉や会話のモデレーションといったより複雑な対話的タスクに適用される。 人間の評価者がこれらのNLPモデルと直接対話することは、このような対話的なタスクのパフォーマンスを適切に評価するのに不可欠である。 静的入力の判定を行う人間評価者に対して,評価プロセスの一部として,人間とボットのインタラクションを可能にすることに焦点を当てた,カスタマイズが容易なオープンソースの評価ツールキットであるBotEvalを開発した。 BotEvalは、さまざまな複雑さと一般的なクラウドソーシングプラットフォームとのビルトイン互換性にまたがる一般的なユースケースのためのテンプレートを提供することで、カスタマイズとユーザフレンドリ性の柔軟性をバランスさせる。 チャットボットの性能を対話型モデレーションの有効性で評価し,他のアノテーションツールとBotEvalの相違点について論じる。

Following the rapid progress in natural language processing (NLP) models, language models are applied to increasingly more complex interactive tasks such as negotiations and conversation moderations. Having human evaluators directly interact with these NLP models is essential for adequately evaluating the performance on such interactive tasks. We develop BotEval, an easily customizable, open-source, evaluation toolkit that focuses on enabling human-bot interactions as part of the evaluation process, as opposed to human evaluators making judgements for a static input. BotEval balances flexibility for customization and user-friendliness by providing templates for common use cases that span various degrees of complexity and built-in compatibility with popular crowdsourcing platforms. We showcase the numerous useful features of BotEval through a study that evaluates the performance of various chatbots on their effectiveness for conversational moderation and discuss how BotEval differs from other annotation tools.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# Banyan: 明示的な構造による表現学習の改善

Banyan: Improved Representation Learning with Explicit Structure ( http://arxiv.org/abs/2407.17771v1 )

ライセンス: Link先を確認
Mattia Opper, N. Siddharth, (参考訳) 本稿では,データ上の明示的構造を導くことによって意味表現を学習するための改良されたモデルであるBanyanを提案する。 単一文にまたがる構造を用いた従来のアプローチとは対照的に、バンヤンは複数の構成構造をグローバルな文脈を明示的に取り入れた共有構造に分解することで学習する。 Griffinにインスパイアされた改良されたメッセージパッシングスキームと組み合わせて、Banyanは表現を著しく改善し、対照的な学習を伴う刺激的な偽陰性を避け、そのような明示的な構造化モデルにおけるメモリ効率を大幅に改善する。 私たちはSelf-StrAEフレームワークを使って、Banyanが (a)様々な設定にまたがる感性構造を用いてベースラインを上回る (b)GloVe(+augmentations)やRoBERTa(+simcse)といった非構造化ベースラインが1億のトークンで事前トレーニングされているのに対して、わずかな(非埋め込み)パラメータしか持たないにもかかわらず、マッチまたはパフォーマンスが向上する。 (c)SemRelタスクで測定されたいくつかの低リソース(アジアとアフリカ)言語での効果的な表現も学習する。

We present Banyan, an improved model to learn semantic representations by inducing explicit structure over data. In contrast to prior approaches using structure spanning single sentences, Banyan learns by resolving multiple constituent structures into a shared one explicitly incorporating global context. Combined with an improved message-passing scheme inspired by Griffin, Banyan learns significantly better representations, avoids spurious false negatives with contrastive learning, and drastically improves memory efficiency in such explicit-structured models. Using the Self-StrAE framework, we show that Banyan (a) outperforms baselines using sentential structure across various settings (b) matches or outperforms unstructured baselines like GloVe (+augmentations) and a RoBERTa medium (+simcse) pre-trained on 100M tokens, despite having just a handful of (non-embedding) parameters, and (c) also learns effective representations across several low resource (Asian and African) languages as measured on SemRel tasks.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# 高齢者の感情認識のためのERIT軽量マルチモーダルデータセットとマルチモーダル融合評価

ERIT Lightweight Multimodal Dataset for Elderly Emotion Recognition and Multimodal Fusion Evaluation ( http://arxiv.org/abs/2407.17772v1 )

ライセンス: Link先を確認
Rita Frieske, Bertrand E. Shi, (参考訳) ERITは、軽量なマルチモーダル融合の研究を容易にするために設計された、新しいマルチモーダルデータセットである。 さまざまな状況に反応する高齢者のビデオから収集されたテキストと画像データと、データサンプルごとに7つの感情ラベルが含まれている。 高齢者のラベル付きイメージを感情的に反応させることにより、機械学習の視覚的感情認識において、未表現の年齢層における感情認識の研究も促進されている。 このデータセットは、神経多モード融合研究におけるその重要性を示す包括的な実験によって検証される。

ERIT is a novel multimodal dataset designed to facilitate research in a lightweight multimodal fusion. It contains text and image data collected from videos of elderly individuals reacting to various situations, as well as seven emotion labels for each data sample. Because of the use of labeled images of elderly users reacting emotionally, it is also facilitating research on emotion recognition in an underrepresented age group in machine learning visual emotion recognition. The dataset is validated through comprehensive experiments indicating its importance in neural multimodal fusion research.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# KiVA: 大規模マルチモーダルモデルをテストするためのキッドインスパイアされたビジュアルアナロジー

KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models ( http://arxiv.org/abs/2407.17773v1 )

ライセンス: Link先を確認
Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko, (参考訳) 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。 視覚的類似」とは、ある画像から推論され、別の画像に適用される抽象的な規則である。 LMMで視覚的推論をテストするためのベンチマークは存在するが、高度なスキルを必要とし、幼児でもできる基本的な視覚的類似を省略する。 発達心理学に触発されて,視覚的類推に基づくLMMのテストを行うために,日常的な物体の1,400の視覚的変換のベンチマークを提案し,子供や大人と比較した。 評価は、何を変えたか(例えば、色、番号など)、どのように変わったか(例えば、1つのオブジェクトを追加)、新しいシナリオにルールを適用する3つの段階に分けられます。 以上の結果から, GPT-4V, LLaVA-1.5, MANTIS などのモデルでは「何」を効果的に識別するが, 「方法」の定量化と新たな対象への外挿に苦慮していることが明らかとなった。 対照的に、子供と大人は、全ての3つの段階においてより強い類似の推論を示す。 さらに、最強の試験モデルであるGPT-4Vは、色やサイズなどの単純な視覚的属性を含むタスクにおいて、より速い人間の成人の反応時間と関連している。 逆に、数、回転、反射といったより複雑なタスクは、より広範な認知処理と3D物理世界の理解を必要とし、より重大な課題を提示する。 これらの発見は、主に2D画像とテキストで構成されるデータに対するトレーニングモデルの制限を強調している。

This paper investigates visual analogical reasoning in large multimodal models (LMMs) compared to human adults and children. A "visual analogy" is an abstract rule inferred from one image and applied to another. While benchmarks exist for testing visual reasoning in LMMs, they require advanced skills and omit basic visual analogies that even young children can make. Inspired by developmental psychology, we propose a new benchmark of 1,400 visual transformations of everyday objects to test LMMs on visual analogical reasoning and compare them to children and adults. We structure the evaluation into three stages: identifying what changed (e.g., color, number, etc.), how it changed (e.g., added one object), and applying the rule to new scenarios. Our findings show that while models like GPT-4V, LLaVA-1.5, and MANTIS identify the "what" effectively, they struggle with quantifying the "how" and extrapolating this rule to new objects. In contrast, children and adults exhibit much stronger analogical reasoning at all three stages. Additionally, the strongest tested model, GPT-4V, performs better in tasks involving simple visual attributes like color and size, correlating with quicker human adult response times. Conversely, more complex tasks such as number, rotation, and reflection, which necessitate extensive cognitive processing and understanding of the 3D physical world, present more significant challenges. Altogether, these findings highlight the limitations of training models on data that primarily consists of 2D images and text.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# エンタングリングパワー、ゲート特性および測定誘起相転移

Entangling power, gate typicality and Measurement-induced Phase Transitions ( http://arxiv.org/abs/2407.17776v1 )

ライセンス: Link先を確認
Sourav Manna, Vaibhav Madhok, Arul Lakshminarayan, (参考訳) 非局所的なユニタリ進化を受けると、量子回路内の量子ビットはますます絡み合うようになる。 逆に、個々の量子ビットに応用された測定は、集合系から切り離される。 絡み合いの程度は局所的な射影測定の頻度に依存する。 微妙なバランスは、絡み合いを高めるユニタリ進化と、それを減少させる測定の間に現れる。 熱力学的限界では、測定周波数の臨界値において、体積法則の絡み合いから面積法則の絡み合いへの相転移がある。 この現象は、ユニタリゲートと測定の両方を持つハイブリッド量子回路で発生し、測定誘起相転移(MIPT)と呼ばれる。 カルタン分解によりパラメータ化された2つの量子ユニタリゲートからなる回路におけるMIPTの挙動について検討する。 回路で使用される2ビットの局所ユニタリのエンタングルパワーとゲートの典型性は,回路が維持できる大域的二部絡みの挙動を説明するのに有効であることを示す。 回路内の2つのクビットゲートが同一性であり、測定値が絡み合い挙動の唯一のドライバである場合、数値シミュレーションと顕著な一致を示す絡み合いエントロピーの解析的推定値を得る。 また、エンタングリングパワーとゲートの典型性により、ハイブリッド回路で起こりうる相転移の異なる普遍性クラスによる2量子ユニタリの分類が可能となる。 特定の普遍性クラスのすべてのユニタリに対して、体積から領域法則への遷移は相転移を特徴づける同じ指数で起こる。

When subject to a non-local unitary evolution, qubits in a quantum circuit become increasingly entangled. Conversely, measurements applied to individual qubits lead to their disentanglement from the collective system. The extent of entanglement reduction depends on the frequency of local projective measurements. A delicate balance emerges between unitary evolution, which enhances entanglement, and measurements which diminish it. In the thermodynamic limit, there is a phase transition from volume law entanglement to area law entanglement at a critical value of measurement frequency. This phenomenon, occurring in hybrid quantum circuits with both unitary gates and measurements, is termed as measurement-induced phase transition (MIPT). We study the behavior of MIPT in circuits comprising of two qubit unitary gates parameterized by Cartan decomposition. We show that the entangling power and gate typicality of the two-qubit local unitaries employed in the circuit can be used to explain the behavior of global bipartite entanglement the circuit can sustain. When the two qubit gate throughout the circuit is the identity and measurements are the sole driver of the entanglement behavior, we obtain analytical estimate for the entanglement entropy that shows remarkable agreement with numerical simulations. We also find that the entangling power and gate typicality enable the classification of the two-qubit unitaries by different universality classes of phase transitions that can occur in the hybrid circuit. For all unitaries in a particular universality class, the transition from volume to area law of entanglement occurs with same exponent that characterizes the phase transition.
翻訳日:2024-07-26 15:17:52 公開日:2024-07-25
# 拡張可能なモーダルアライメントによるマルチモーダルセンシングの改善

Advancing Multi-Modal Sensing Through Expandable Modality Alignment ( http://arxiv.org/abs/2407.17777v1 )

ライセンス: Link先を確認
Shenghong Dai, Shiqi Jiang, Yifan Yang, Ting Cao, Mo Li, Suman Banerjee, Lili Qiu, (参考訳) センシング技術は物理世界を理解するために広く使われており、過去数十年で多くのモダリティが探求された。 マルチモダリティ学習にはかなりの研究があるが、すべてのモダリティがペアリングされるデータが必要である。 部分的なペアリングによるマルチモーダリティデータの活用は、依然として未解決の問題である。 この課題に対処するために、ニューラルネットワークアーキテクチャ、データ準備と処理、トレーニング戦略を含むBabelフレームワークを紹介します。 Babelは現在、Wi-Fi、mmWave、IMU、LiDAR、ビデオ、深さの6つのセンシングモードを整列している。 完全なペアデータの不足を克服するために、Babelのキーとなるアイデアは、拡張可能なネットワークアーキテクチャを考案することによって、N-モダリティアライメントを一連の2-モダリティアライメントに変換することである。 この概念は、利用可能なシングルモーダルネットワークを活用する事前訓練されたモーダルタワーや、新たに導入されたモーダルアライメントと以前に確立されたモーダルアライメントの寄与のバランスをとる適応的トレーニング戦略など、一連の新しい手法によっても実現されている。 評価は、トップマルチモーダルセンシングフレームワーク、シングルモーダルセンシングネットワーク、マルチモーダル大言語モデルなど、さまざまなベースラインと比較して、Babelの8つのアクティビティ認識データセットにおける優れたパフォーマンスを示している。 Babelは、複数の利用可能なモダリティ(精度が最大22%向上する)を効果的に融合するだけでなく、個々のモダリティ(精度が平均12%向上する)の性能も向上させる。 ケーススタディでは、Babelによって強化されたエキサイティングなアプリケーションシナリオも強調されている。

Sensing technology is widely used for comprehending the physical world, with numerous modalities explored in past decades. While there has been considerable work on multi-modality learning, they all require data of all modalities be paired. How to leverage multi-modality data with partially pairings remains an open problem. To tackle this challenge, we introduce the Babel framework, encompassing the neural network architecture, data preparation and processing, as well as the training strategies. Babel serves as a scalable pre-trained multi-modal sensing neural network, currently aligning six sensing modalities, namely Wi-Fi, mmWave, IMU, LiDAR, video, and depth. To overcome the scarcity of complete paired data, the key idea of Babel involves transforming the N-modality alignment into a series of two-modality alignments by devising the expandable network architecture. This concept is also realized via a series of novel techniques, including the pre-trained modality tower that capitalizes on available single-modal networks, and the adaptive training strategy balancing the contribution of the newly incorporated modality with the previously established modality alignment. Evaluation demonstrates Babel's outstanding performance on eight human activity recognition datasets, compared to various baselines e.g., the top multi-modal sensing framework, single-modal sensing networks, and multi-modal large language models. Babel not only effectively fuses multiple available modalities (up to 22% accuracy increase), but also enhance the performance of individual modality (12% averaged accuracy improvement). Case studies also highlight exciting application scenarios empowered by Babel, including cross-modality retrieval (i.e., sensing imaging), and bridging LLM for sensing comprehension.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conqueralignment and Correction

DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction ( http://arxiv.org/abs/2407.17779v1 )

ライセンス: Link先を確認
Chaofan Gan, Yuanpeng Tu, Yuxi Li, Weiyao Lin, (参考訳) 近年の2Dおよび3Dデータのバーストにより、クロスモーダル検索が注目されている。 しかし、非専門家による手作業によるラベリングは、あいまいな2D/3Dコンテンツに対して、必然的に破損したアノテーションを導入する。 従来の研究は、手作りの閾値を持つ単純分割戦略を設計することでこの問題に対処してきたが、その性能は一般に閾値に対して非常に敏感である。 さらに、各分割されたサブセット内の貴重な監視信号を完全に活用することができない。 この問題に対処するため,多モード動的分割(MDD)と適応配向補正(AAC)を組み合わせた2D-3Dクロスモーダル配向補正フレームワーク(DAC)を提案する。 具体的には、前者は、多モード損失分布内の補償情報に基づいて、各サンプルに対する適応的信頼度モデリングにより、正確なサンプル分割を行う。 次に、AACでは、異なるサブセットのサンプルを異なるアライメント戦略を用いて、意味的コンパクト性を完全に向上させ、一方、自己補正戦略を導入して表現の質を向上させるため、ノイズラベルへの過度な適合を緩和する。 さらに。 実世界のシナリオにおける有効性を評価するため,1156個の実雑音ラベルを付加した200kレベルのサンプルを含む,難易度の高いObjaverse-N200を提案する。 従来のベンチマークと新たに提案されたベンチマークの両方に対する大規模な実験は、DACが最先端モデルよりも大きなマージンで優れているという、DACの汎用性と優位性を示している。 (つまり、ModelNet40は+5.9%、Objaverse-N200は+5.8%)。

With the recent burst of 2D and 3D data, cross-modal retrieval has attracted increasing attention recently. However, manual labeling by non-experts will inevitably introduce corrupted annotations given ambiguous 2D/3D content. Though previous works have addressed this issue by designing a naive division strategy with hand-crafted thresholds, their performance generally exhibits great sensitivity to the threshold value. Besides, they fail to fully utilize the valuable supervisory signals within each divided subset. To tackle this problem, we propose a Divide-and-conquer 2D-3D cross-modal Alignment and Correction framework (DAC), which comprises Multimodal Dynamic Division (MDD) and Adaptive Alignment and Correction (AAC). Specifically, the former performs accurate sample division by adaptive credibility modeling for each sample based on the compensation information within multimodal loss distribution. Then in AAC, samples in distinct subsets are exploited with different alignment strategies to fully enhance the semantic compactness and meanwhile alleviate over-fitting to noisy labels, where a self-correction strategy is introduced to improve the quality of representation. Moreover. To evaluate the effectiveness in real-world scenarios, we introduce a challenging noisy benchmark, namely Objaverse-N200, which comprises 200k-level samples annotated with 1156 realistic noisy labels. Extensive experiments on both traditional and the newly proposed benchmarks demonstrate the generality and superiority of our DAC, where DAC outperforms state-of-the-art models by a large margin. (i.e., with +5.9% gain on ModelNet40 and +5.8% on Objaverse-N200).
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# HF-Fed:X線イメージングのための階層型カスタマイズ学習フレームワーク

HF-Fed: Hierarchical based customized Federated Learning Framework for X-Ray Imaging ( http://arxiv.org/abs/2407.17780v1 )

ライセンス: Link先を確認
Tajamul Ashraf, Tisha Madame, (参考訳) 臨床応用では、X線技術はマンモグラフィーのような非侵襲的な検査に不可欠であり、重要な解剖学的情報を提供する。 しかしながら、X線治療に伴う放射線リスクは懸念を引き起こす。 X線再構成は、内部構造の詳細な視覚的表現、診断や治療を侵襲的に行うことなく行うための医療画像において重要である。 近年の深層学習(DL)の進歩は,X線再構成における将来性を示しているが,従来のDL手法では大規模なデータセットを集中的に集約する必要があることが多く,ドメインシフトやプライバシの問題に繋がる。 これらの課題に対処するために、我々は、カスタマイズされたX線イメージングのための階層型フレームワークベースのフェデレートラーニング手法(HF-Fed)を紹介した。 HF-Fedは、局所的なデータ適応と総合的なX線イメージングに分解することで、X線イメージングの最適化に取り組む。 病院固有の階層的なフレームワークと、ネットワーク・オブ・ネットワーク(N Network of Networks, NoN)と呼ばれる共通の画像ネットワークを使用して、多様なデータ分布から安定した特徴を取得する。 階層的なハイパーネットワークはドメイン固有のハイパーパラメータを抽出し、カスタマイズされたX線再構成のためにNoNを条件付ける。 実験結果はHF-Fedの競合性能を示し、データ共有なしにX線イメージングを向上するための有望なソリューションを提供する。 本研究は、医療におけるフェデレーション学習に関する文献に大きく貢献し、政策立案者や医療提供者にとって貴重な洞察を提供する。 ソースコードと事前訓練されたHF-Fedモデルは、 \url{https://tisharepo.github.io/Webpage/}で入手できる。

In clinical applications, X-ray technology is vital for noninvasive examinations like mammography, providing essential anatomical information. However, the radiation risk associated with X-ray procedures raises concerns. X-ray reconstruction is crucial in medical imaging for detailed visual representations of internal structures, aiding diagnosis and treatment without invasive procedures. Recent advancements in deep learning (DL) have shown promise in X-ray reconstruction, but conventional DL methods often require centralized aggregation of large datasets, leading to domain shifts and privacy issues. To address these challenges, we introduce the Hierarchical Framework-based Federated Learning method (HF-Fed) for customized X-ray imaging. HF-Fed tackles X-ray imaging optimization by decomposing the problem into local data adaptation and holistic X-ray imaging. It employs a hospital-specific hierarchical framework and a shared common imaging network called Network of Networks (NoN) to acquire stable features from diverse data distributions. The hierarchical hypernetwork extracts domain-specific hyperparameters, conditioning the NoN for customized X-ray reconstruction. Experimental results demonstrate HF-Fed's competitive performance, offering a promising solution for enhancing X-ray imaging without data sharing. This study significantly contributes to the literature on federated learning in healthcare, providing valuable insights for policymakers and healthcare providers. The source code and pre-trained HF-Fed model are available at \url{https://tisharepo.github.io/Webpage/}.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# AIに基づく天気予報モデルClimaXによるアンサンブルカルマンフィルタの統合

Integrating Ensemble Kalman Filter with AI-based Weather Prediction Model ClimaX ( http://arxiv.org/abs/2407.17781v1 )

ライセンス: Link先を確認
Shunji Kotsuki, Kenta Shiraishi, Atsushi Okazaki, (参考訳) 人工知能(AI)ベースの天気予報研究は急速に成長しており、先進的な動的数値気象予報モデルと競合している。 しかし、データ同化システムを評価するためには、長期連続データ同化サイクルが必要であるため、AIベースの天気予報モデルとデータ同化を併用する研究は、部分的には限られている。 本研究では,局所アンサンブル変換カルマンフィルタ(LETKF)とAIに基づく天気予報モデルClimaXの統合について検討する。 実験により,LETKF内における共分散インフレーションと局所化技術を用いて,AIに基づく天気予報モデルにおいて,アンサンブルデータの同化が安定に進行することを示した。 ClimaXは、動的モデルと比較してフロー依存誤差の共分散を捕捉する際のいくつかの制限を示したが、AIベースのアンサンブル予測は、わずかに観察された領域で合理的で有益なエラー共分散を提供した。 これらの結果は、天気予報におけるAIモデルの可能性と、アンサンブルデータ同化の改善における物理的な一貫性と正確なエラー成長表現の重要性を強調している。

Artificial intelligence (AI)-based weather prediction research is growing rapidly and has shown to be competitive with the advanced dynamic numerical weather prediction models. However, research combining AI-based weather prediction models with data assimilation remains limited partially because long-term sequential data assimilation cycles are required to evaluate data assimilation systems. This study explores integrating the local ensemble transform Kalman filter (LETKF) with an AI-based weather prediction model ClimaX. Our experiments demonstrated that the ensemble data assimilation cycled stably for the AI-based weather prediction model using covariance inflation and localization techniques inside the LETKF. While ClimaX showed some limitations in capturing flow-dependent error covariance compared to dynamical models, the AI-based ensemble forecasts provided reasonable and beneficial error covariance in sparsely observed regions. These findings highlight the potential of AI models in weather forecasting and the importance of physical consistency and accurate error growth representation in improving ensemble data assimilation.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# 軽量トランスフォーマーはどんなものか

How Lightweight Can A Vision Transformer Be ( http://arxiv.org/abs/2407.17783v1 )

ライセンス: Link先を確認
Jen Hong Tan, (参考訳) 本稿では,Mixture-of-Experts(MoE)を用いて,視覚変換器の強化ではなく,合理化を図る。 MoE層の各専門家はSwiGLUフィードフォワードネットワークであり、VとW2は層間で共有される。 複雑な注意や進化のメカニズムは採用されていない。 奥行きのスケーリングを適用して、隠蔽層のサイズを徐々に小さくし、段階的に専門家の数が増加する。 グループクエリアテンションが使用される。 提案手法を,小規模なデータセットを事前学習せずに検討し,この規模で転送学習が機能するかどうかを検討した。 アーキテクチャは0.67Mのパラメータでも競合することがわかった。

In this paper, we explore a strategy that uses Mixture-of-Experts (MoE) to streamline, rather than augment, vision transformers. Each expert in an MoE layer is a SwiGLU feedforward network, where V and W2 are shared across the layer. No complex attention or convolutional mechanisms are employed. Depth-wise scaling is applied to progressively reduce the size of the hidden layer and the number of experts is increased in stages. Grouped query attention is used. We studied the proposed approach with and without pre-training on small datasets and investigated whether transfer learning works at this scale. We found that the architecture is competitive even at a size of 0.67M parameters.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# 二元画像の位相保存ダウンサンプリング

Topology-Preserving Downsampling of Binary Images ( http://arxiv.org/abs/2407.17786v1 )

ライセンス: Link先を確認
Chia-Chia Chen, Chi-Han Peng, (参考訳) そこで本研究では,黒色領域のゼロおよび第1ベッチ数で測定された原画像と同一位相を持つことが保証される2値画像のダウンサンプリング版を生成するための,新たな離散最適化手法を提案する。 我々の知る限り、既存のバイナリイメージダウンサンプリング手法は全て、そのようなトポロジ保存保証を持っていない。 また, 常に位相的に正しい結果を生成するベースライン形態的操作(ディレーション)に基づくアプローチも実施した。 しかし、類似点の方がずっと悪いことがわかりました。 このアプローチのいくつかの応用を実演する。 まず、人間の検査を容易にするために、医療画像分割マスクのより小さなバージョンを生成する。 第二に、元の画像を小さい画像に置き換えることで、永続的ホモロジー計算や最短経路計算を含むバイナリ画像操作の効率を向上させる。 特に後者は,本手法の完全なトポロジ保存保証によってのみ実現可能な新しい応用である。

We present a novel discrete optimization-based approach to generate downsampled versions of binary images that are guaranteed to have the same topology as the original, measured by the zeroth and first Betti numbers of the black regions, while having good similarity to the original image as measured by IoU and Dice scores. To our best knowledge, all existing binary image downsampling methods do not have such topology-preserving guarantees. We also implemented a baseline morphological operation (dilation)-based approach that always generates topologically correct results. However, we found the similarity scores to be much worse. We demonstrate several applications of our approach. First, generating smaller versions of medical image segmentation masks for easier human inspection. Second, improving the efficiency of binary image operations, including persistent homology computation and shortest path computation, by substituting the original images with smaller ones. In particular, the latter is a novel application that is made feasible only by the full topology-preservation guarantee of our method.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# HC-GST: Heterophily-Aware Distribution Consistency based Graph Self-training

HC-GST: Heterophily-aware Distribution Consistency based Graph Self-training ( http://arxiv.org/abs/2407.17787v1 )

ライセンス: Link先を確認
Fali Wang, Tianxiang Zhao, Junjie Xu, Suhang Wang, (参考訳) ラベルのないノードに擬似ラベルを選択して割り当てるグラフ自己学習(GST)は、グラフ内のラベルの空間性に対処するために人気がある。 しかし、近年のホモフィリグラフの研究により、GST法は訓練ノードとテストノード間の分散シフトを、彼らが得意とするノードに擬似ラベルを割り当てる傾向にあることを示す。 GNNは一般にホモ親和性ノードにおいてより良い性能を示すため、探索されていないホモ親和性擬似ノードへの潜在的なシフトが存在する可能性がある。 ヘテロフィルグラフに関する予備実験では、これらの手法がホモフィル比分布の変化を引き起こすことを検証し、ヘテロフィル比分布を劣化させながら、ホモフィルノードの性能を向上させるための「textit{training bias}」を導いた。 そこで本研究では, 異種グラフ上での自己学習において, ホモフィリ比分布シフトを減少させる新たな問題について検討する。 鍵となる課題は、広範囲なラベル付きデータを持たないホモフィリー比とその分布の正確な計算である。 そこで本研究では,ソフトラベルを用いたホモフィリー比を推定し,擬似ノードをグローバルなホモフィリー比分布と整合させる選択ベクトルを最適化する,ヘテロフィリー対応配向型グラフ自己学習(HC-GST)フレームワークを提案する。 HC-GSTはトレーニングバイアスを効果的に低減し、自己学習性能を向上させる。

Graph self-training (GST), which selects and assigns pseudo-labels to unlabeled nodes, is popular for tackling label sparsity in graphs. However, recent study on homophily graphs show that GST methods could introduce and amplify distribution shift between training and test nodes as they tend to assign pseudo-labels to nodes they are good at. As GNNs typically perform better on homophilic nodes, there could be potential shifts towards homophilic pseudo-nodes, which is underexplored. Our preliminary experiments on heterophilic graphs verify that these methods can cause shifts in homophily ratio distributions, leading to \textit{training bias} that improves performance on homophilic nodes while degrading it on heterophilic ones. Therefore, we study a novel problem of reducing homophily ratio distribution shifts during self-training on heterophilic graphs. A key challenge is the accurate calculation of homophily ratios and their distributions without extensive labeled data. To tackle them, we propose a novel Heterophily-aware Distribution Consistency-based Graph Self-Training (HC-GST) framework, which estimates homophily ratios using soft labels and optimizes a selection vector to align pseudo-nodes with the global homophily ratio distribution. Extensive experiments on both homophilic and heterophilic graphs show that HC-GST effectively reduces training bias and enhances self-training performance.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# PenHeal: 自動テストと最適修復のための2段階のLLMフレームワーク

PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation ( http://arxiv.org/abs/2407.17788v1 )

ライセンス: Link先を確認
Junjie Huang, Quanyan Zhu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、高度な脅威に対するサイバーセキュリティの防御を強化する大きな可能性を示している。 LLMベースの浸透テストは、脆弱性を特定してシステムセキュリティ評価を自動化するための重要なステップである。 その後の重要なステップである修復は、これらの脆弱性に対処する。 脆弱性、エクスプロイトメソッド、ソフトウェアバージョンの詳細がシステムの弱点に関する重要な洞察を提供するので、脆弱性の修復と侵入テストを統合することは直感的かつ必要である。 本稿では,セキュリティ脆弱性を自律的に識別・緩和する2段階LLMベースのフレームワークであるPenHealを紹介する。 このフレームワークは、システム内の複数の脆弱性を検出するPentest Moduleと、最適な修復戦略を推奨するRemediation Moduleの2つのLCM対応コンポーネントを統合している。 統合は、Counterfactual Promptingと、複数の潜在的な攻撃経路を効果的に探索するために外部知識を使用してLLMをガイドするインストラクタモジュールによって促進される。 実験の結果、PenHealは脆弱性の特定と修復を自動化するだけでなく、脆弱性カバレッジを31%向上させ、修復戦略の有効性を32%向上させ、ベースラインモデルと比較してコストを46%削減することがわかった。 これらの結果は、サイバーセキュリティのプラクティスを変革する上でのLLMの変革の可能性を強調し、サイバー脅威から守る革新的なソリューションを提供する。

Recent advances in Large Language Models (LLMs) have shown significant potential in enhancing cybersecurity defenses against sophisticated threats. LLM-based penetration testing is an essential step in automating system security evaluations by identifying vulnerabilities. Remediation, the subsequent crucial step, addresses these discovered vulnerabilities. Since details about vulnerabilities, exploitation methods, and software versions offer crucial insights into system weaknesses, integrating penetration testing with vulnerability remediation into a cohesive system has become both intuitive and necessary. This paper introduces PenHeal, a two-stage LLM-based framework designed to autonomously identify and mitigate security vulnerabilities. The framework integrates two LLM-enabled components: the Pentest Module, which detects multiple vulnerabilities within a system, and the Remediation Module, which recommends optimal remediation strategies. The integration is facilitated through Counterfactual Prompting and an Instructor module that guides the LLMs using external knowledge to explore multiple potential attack paths effectively. Our experimental results demonstrate that PenHeal not only automates the identification and remediation of vulnerabilities but also significantly improves vulnerability coverage by 31%, increases the effectiveness of remediation strategies by 32%, and reduces the associated costs by 46% compared to baseline models. These outcomes highlight the transformative potential of LLMs in reshaping cybersecurity practices, offering an innovative solution to defend against cyber threats.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# エージェントスコープにおける超大規模マルチエージェントシミュレーション

Very Large-Scale Multi-Agent Simulation in AgentScope ( http://arxiv.org/abs/2407.17789v1 )

ライセンス: Link先を確認
Xuchen Pan, Dawei Gao, Yuexiang Xie, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、大規模シミュレーションにマルチエージェントシステムを適用するための新たな道を開いた。 しかし、スケーラビリティの制限や低効率、不満足なエージェントの多様性、努力集約的な管理プロセスなど、既存のプラットフォームでマルチエージェントシミュレーションを行う際には、いくつかの課題がある。 これらの課題に対処するため、ユーザフレンドリなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発し、非常に大規模なマルチエージェントシミュレーションをサポートするための利便性と柔軟性を高めた。 具体的には,マルチエージェントの並列実行,集中型ワークフローオーケストレーション,エージェント間のエージェント間およびエージェント環境の相互作用などを実現する,さまざまな現実シナリオをシミュレートするための柔軟な環境サポートを提供する。 さらに、AgentScopeに使いやすく設定可能なツールと自動バックグラウンド生成パイプラインを統合し、多様なバックグラウンド設定でエージェントを作成するプロセスを簡単にする。 最後に、私たちは、複数のデバイスにまたがってデプロイされる可能性のある多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供しています。 本稿では,AgentScopeにおける拡張提案の有効性を示すための総合シミュレーションを行い,大規模シミュレーションにおけるマルチエージェントシステムの適用の可能性を明らかにするために,詳細な観察と議論を行う。 ソースコードはGitHubでhttps://github.com/modelscope/agentscopeで公開されている。

Recent advances in large language models (LLMs) have opened new avenues for applying multi-agent systems in very large-scale simulations. However, there remain several challenges when conducting multi-agent simulations with existing platforms, such as limited scalability and low efficiency, unsatisfied agent diversity, and effort-intensive management processes. To address these challenges, we develop several new features and components for AgentScope, a user-friendly multi-agent platform, enhancing its convenience and flexibility for supporting very large-scale multi-agent simulations. Specifically, we propose an actor-based distributed mechanism as the underlying technological infrastructure towards great scalability and high efficiency, and provide flexible environment support for simulating various real-world scenarios, which enables parallel execution of multiple agents, centralized workflow orchestration, and both inter-agent and agent-environment interactions among agents. Moreover, we integrate an easy-to-use configurable tool and an automatic background generation pipeline in AgentScope, simplifying the process of creating agents with diverse yet detailed background settings. Last but not least, we provide a web-based interface for conveniently monitoring and managing a large number of agents that might deploy across multiple devices. We conduct a comprehensive simulation to demonstrate the effectiveness of the proposed enhancements in AgentScope, and provide detailed observations and discussions to highlight the great potential of applying multi-agent systems in large-scale simulations. The source code is released on GitHub at https://github.com/modelscope/agentscope to inspire further research and development in large-scale multi-agent simulations.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# Kolmogorov-Arnoldネットワークの分類における限界を探る:ソフトウェアトレーニングとハードウェア実装への視点

Exploring the Limitations of Kolmogorov-Arnold Networks in Classification: Insights to Software Training and Hardware Implementation ( http://arxiv.org/abs/2407.17790v1 )

ライセンス: Link先を確認
an Duy Tran, Tran Xuan Hieu Le, Thi Diem Tran, Hoai Luan Pham, Vu Trung Duong Le, Tuan Hai Vu, Van Tinh Nguyen, Yasuhiko Nakashima, (参考訳) 新たなタイプのニューラルネットワークであるKolmogorov-Arnold Networks(KAN)は、人工知能(AI)における多層認識(MLP)の精度と相互運用性の向上により、最近人気と注目を集めている。 しかし、カンアセスメントはまだ限られており、特定のドメインの詳細な分析は提供できない。 さらに,ハードウェア設計におけるkanの実装についての研究は行われていない。 そこで本研究では,4種類のデータセットを用いて,AIにおいて一般的だが重要なトピックである分類問題に対するkanの検証に焦点をあてる。 さらに、Vitis High-level synthesis (HLS) ツールを用いて、対応するハードウェアの実装を検討する。 我々の知る限りでは、kan向けのハードウェアを実装する最初の記事である。 以上の結果から,kansは,極めて高いハードウェアリソースを生かしながら,複雑なデータセットのMPPよりも高い精度を達成できないことが示唆された。 したがって、MLPはソフトウェアとハードウェアの実装において精度と効率を達成するための効果的なアプローチであり続けている。

Kolmogorov-Arnold Networks (KANs), a novel type of neural network, have recently gained popularity and attention due to the ability to substitute multi-layer perceptions (MLPs) in artificial intelligence (AI) with higher accuracy and interoperability. However, KAN assessment is still limited and cannot provide an in-depth analysis of a specific domain. Furthermore, no study has been conducted on the implementation of KANs in hardware design, which would directly demonstrate whether KANs are truly superior to MLPs in practical applications. As a result, in this paper, we focus on verifying KANs for classification issues, which are a common but significant topic in AI using four different types of datasets. Furthermore, the corresponding hardware implementation is considered using the Vitis high-level synthesis (HLS) tool. To the best of our knowledge, this is the first article to implement hardware for KAN. The results indicate that KANs cannot achieve more accuracy than MLPs in high complex datasets while utilizing substantially higher hardware resources. Therefore, MLP remains an effective approach for achieving accuracy and efficiency in software and hardware implementation.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# ニューラルネットワークにおける学習非依存的抽象推論の検討

Investigating learning-independent abstract reasoning in artificial neural networks ( http://arxiv.org/abs/2407.17791v1 )

ライセンス: Link先を確認
Tomer Barak, Yonatan Loewenstein, (参考訳) 人間は複雑な抽象的推論テストを解くことができる。 この能力が、新しい未学習問題に適用可能な学習非依存の推論機構を反映しているかどうか、あるいは、それが生涯にわたる広範なトレーニングの顕在化であるかどうかについては、未解決の問題である。 この疑問に人間で対処することは、事前のトレーニングを制御できないため、難しい。 しかしながら、ニューラルネットワーク(ANN)の認知処理と人間との類似性を考えると、ANNの抽象的推論にどの程度のトレーニングが必要であるかは、人間にとってこの疑問に対して有益である。 これまでの研究は、ANNが抽象推論テストを解くことができることを示した。 しかし、この成功は広範な訓練を必要とした。 本研究では,ANNの学習非依存的抽象的推論について検討した。 具体的には、ANNの重みはランダムに初期化され、問題解決の過程でのみ変化する。 ANNモデルは、人間の学習非依存的推論を評価するのと同様に、非自明な視覚的推論テストを解くことができることがわかった。 我々はこの能力を支えるメカニズムをさらに研究した。 本研究は,広範囲な学習を必要としない,学習に依存しない抽象的推論の可能性を示すものである。

Humans are capable of solving complex abstract reasoning tests. Whether this ability reflects a learning-independent inference mechanism applicable to any novel unlearned problem or whether it is a manifestation of extensive training throughout life is an open question. Addressing this question in humans is challenging because it is impossible to control their prior training. However, assuming a similarity between the cognitive processing of Artificial Neural Networks (ANNs) and humans, the extent to which training is required for ANNs' abstract reasoning is informative about this question in humans. Previous studies demonstrated that ANNs can solve abstract reasoning tests. However, this success required extensive training. In this study, we examined the learning-independent abstract reasoning of ANNs. Specifically, we evaluated their performance without any pretraining, with the ANNs' weights being randomly-initialized, and only change in the process of problem solving. We found that naive ANN models can solve non-trivial visual reasoning tests, similar to those used to evaluate human learning-independent reasoning. We further studied the mechanisms that support this ability. Our results suggest the possibility of learning-independent abstract reasoning that does not require extensive training.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# 高度な時間的行動検出のためのハーネスング時間的因果性

Harnessing Temporal Causality for Advanced Temporal Action Detection ( http://arxiv.org/abs/2407.17792v1 )

ライセンス: Link先を確認
Shuming Liu, Lin Sui, Chen-Lin Zhang, Fangzhou Mu, Chen Zhao, Bernard Ghanem, (参考訳) 時系列ビデオ理解の基本的な課題として、時間的行動検出(TAD)は、未編集ビデオにおける固有の時間的関係を捉え、正確な境界を持つ候補行動を特定することを目的としている。 長年にわたり、TADの効果的な時間的モデリングのために、畳み込み、グラフ、変換器などの様々なネットワークが検討されてきた。 しかしながら、これらのモジュールは通常、過去の情報と将来の情報を等しく扱い、アクション境界の変化が本質的に因果事象である重要な事実を見越す。 この知見にインスパイアされた本研究では,行動の時間的因果性を活用して,モデルが過去や将来の文脈にのみアクセスすることを制限し,TAD表現を強化することを提案する。 因果的注意と因果的マンバを組み合わせたCausalTADを提案する。 特に、CausalTADでは、EPIC-Kitchens Challenge 2024において、Action Recognition, Action Detection, and Audio-Based Interaction Detection trackで1位、Ego4D Challenge 2024ではMoment Queries trackで1位にランクインした。 私たちのコードはhttps://github.com/sming256/OpenTAD/causaltad.comで利用可能です。

As a fundamental task in long-form video understanding, temporal action detection (TAD) aims to capture inherent temporal relations in untrimmed videos and identify candidate actions with precise boundaries. Over the years, various networks, including convolutions, graphs, and transformers, have been explored for effective temporal modeling for TAD. However, these modules typically treat past and future information equally, overlooking the crucial fact that changes in action boundaries are essentially causal events. Inspired by this insight, we propose leveraging the temporal causality of actions to enhance TAD representation by restricting the model's access to only past or future context. We introduce CausalTAD, which combines causal attention and causal Mamba to achieve state-of-the-art performance on multiple benchmarks. Notably, with CausalTAD, we ranked 1st in the Action Recognition, Action Detection, and Audio-Based Interaction Detection tracks at the EPIC-Kitchens Challenge 2024, as well as 1st in the Moment Queries track at the Ego4D Challenge 2024. Our code is available at https://github.com/sming256/OpenTAD/causaltad.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# 多目的特徴選択における多様性の促進

Enhancing Diversity in Multi-objective Feature Selection ( http://arxiv.org/abs/2407.17795v1 )

ライセンス: Link先を確認
Sevil Zanjani Miyandoab, Shahryar Rahnamayan, Azam Asilian Bidgoli, Sevda Ebrahimi, Masoud Makrehchi, (参考訳) データ前処理とモデル構築パイプラインにおいて、機能選択は重要な役割を果たす。 個体群に基づく最適化手法では, 多様な個体群の生成は, 特に多目的多目的最適化問題において, 問題を適切に探索する上で最も重要である。 本研究は,いくつかの先行研究論文から得られた知見に則って,クロスオーバーと突然変異操作が一般的であり,高品質な多種多様な個体を生産する能力が欠如しており,各地域において限られた地域に限定される傾向にあることを示す。 本稿では,遺伝的アルゴリズムNSGA-IIの確立された多目的スキームにおける個体群の多様性の向上について紹介する。 この強化は、真の初期化法と、各世代における再初期化アプローチとして、新しいランダムに生成された個人に対する最悪の個人の置換という、2つの重要な構成要素によって達成される。 提案する多目的特徴選択法は,12の現実世界の分類問題に対して,2,400から5万近い特徴量で検証を行う。 以上の結果から,本手法を用いて生み出した個体群を同一数の新規ランダム個体群に置き換えることにより,個体群の品質が著しく向上し,多目的アルゴリズムの性能が向上することが示唆された。

Feature selection plays a pivotal role in the data preprocessing and model-building pipeline, significantly enhancing model performance, interpretability, and resource efficiency across diverse domains. In population-based optimization methods, the generation of diverse individuals holds utmost importance for adequately exploring the problem landscape, particularly in highly multi-modal multi-objective optimization problems. Our study reveals that, in line with findings from several prior research papers, commonly employed crossover and mutation operations lack the capability to generate high-quality diverse individuals and tend to become confined to limited areas around various local optima. This paper introduces an augmentation to the diversity of the population in the well-established multi-objective scheme of the genetic algorithm, NSGA-II. This enhancement is achieved through two key components: the genuine initialization method and the substitution of the worst individuals with new randomly generated individuals as a re-initialization approach in each generation. The proposed multi-objective feature selection method undergoes testing on twelve real-world classification problems, with the number of features ranging from 2,400 to nearly 50,000. The results demonstrate that replacing the last front of the population with an equivalent number of new random individuals generated using the genuine initialization method and featuring a limited number of features substantially improves the population's quality and, consequently, enhances the performance of the multi-objective algorithm.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# 単モーダルモデルとビジョンランゲージ事前学習モデルに関する敵対的脆弱性の統一的理解

A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models ( http://arxiv.org/abs/2407.17797v1 )

ライセンス: Link先を確認
Haonan Zheng, Xinyang Deng, Wen Jiang, Wenrui Li, (参考訳) 強力なマルチモーダルインタラクション能力を示すVision-Language Pre-training (VLP)モデルにより、ニューラルネットワークの応用シナリオは、もはや単調なドメインに限定されるのではなく、より複雑なマルチモーダルV+L下流タスクに拡張されている。 ユニモーダルモデルのセキュリティ脆弱性は広く検討されているが、VLPモデルの脆弱性はいまだに困難なままである。 CVモデルでは、画像の理解は注釈付き情報に由来するが、VLPモデルは生のテキストから直接画像表現を学習するように設計されている。 そこで我々は,クリーンな画像の摂動を指示するテキスト表現を用いた特徴誘導攻撃(FGA)を開発した。 FGAは、ユニモーダル領域における多くの先進的な攻撃戦略と直交しており、ユニモーダルからマルチモーダルシナリオへのリッチな研究成果の直接的な適用を促進する。 テキストアタックをFGAに適切に導入することにより、テキストアタックによる特徴ガイダンス(FGA-T)を構築する。 2つのモードを攻撃することで、FGA-TはVLPモデルに対して優れた攻撃効果を達成する。 さらに、データ拡張と運動量機構を取り入れることで、FGA-Tのブラックボックス転送性が大幅に向上する。 提案手法は, 各種データセット, 下流タスク, ブラックボックス, ホワイトボックス設定にまたがる安定かつ効果的な攻撃能力を実証し, VLPモデルのロバスト性を探るための統一ベースラインを提供する。

With Vision-Language Pre-training (VLP) models demonstrating powerful multimodal interaction capabilities, the application scenarios of neural networks are no longer confined to unimodal domains but have expanded to more complex multimodal V+L downstream tasks. The security vulnerabilities of unimodal models have been extensively examined, whereas those of VLP models remain challenging. We note that in CV models, the understanding of images comes from annotated information, while VLP models are designed to learn image representations directly from raw text. Motivated by this discrepancy, we developed the Feature Guidance Attack (FGA), a novel method that uses text representations to direct the perturbation of clean images, resulting in the generation of adversarial images. FGA is orthogonal to many advanced attack strategies in the unimodal domain, facilitating the direct application of rich research findings from the unimodal to the multimodal scenario. By appropriately introducing text attack into FGA, we construct Feature Guidance with Text Attack (FGA-T). Through the interaction of attacking two modalities, FGA-T achieves superior attack effects against VLP models. Moreover, incorporating data augmentation and momentum mechanisms significantly improves the black-box transferability of FGA-T. Our method demonstrates stable and effective attack capabilities across various datasets, downstream tasks, and both black-box and white-box settings, offering a unified baseline for exploring the robustness of VLP models.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# EEG-SSM:認知症検出のための状態空間モデル

EEG-SSM: Leveraging State-Space Model for Dementia Detection ( http://arxiv.org/abs/2407.17801v1 )

ライセンス: Link先を確認
Xuan-The Tran, Linh Le, Quoc Toan Nguyen, Thomas Do, Chin-Teng Lin, (参考訳) 状態空間モデル(SSM)は、長いデータシーケンスを効果的に処理し、時系列をモデルトレーニングと推論のために短い間隔に分割する必要性を減らすために注目を集めている。 伝統的に、SSMは時系列データの時間的ダイナミクスのみを捉え、等しく重要なスペクトルの特徴を省略する。 本研究では,脳波データを用いた認知症分類のための状態空間モデルに基づく新しいアプローチであるEEG-SSMを紹介する。 脳波-SSM時間成分と脳波-SSMスペクトル成分の2つの主要なイノベーションを特徴とする。 時間成分は様々な長さの脳波シーケンスを効率的に処理するように設計され、スペクトル成分は脳波信号から周波数領域情報を統合することでモデルを強化する。 これらの成分の相乗効果により、EEG-SSMは多変量脳波データの複雑さを積極的に管理し、異なる時間分解能の精度と安定性を大幅に向上させることができる。 EEG-SSMは、Healthy Control(HC)、Frontotemporal Dementia(FTD)、Alzheimer's Disease(AD)の91.0パーセントの精度で、同じデータセット上の既存のモデルよりも優れている。 EEG-SSMの開発は、認知症スクリーニングのための状態空間モデルの使用の改善を意味し、より正確で費用対効果の高い臨床神経科学ツールを提供する。

State-space models (SSMs) have garnered attention for effectively processing long data sequences, reducing the need to segment time series into shorter intervals for model training and inference. Traditionally, SSMs capture only the temporal dynamics of time series data, omitting the equally critical spectral features. This study introduces EEG-SSM, a novel state-space model-based approach for dementia classification using EEG data. Our model features two primary innovations: EEG-SSM temporal and EEG-SSM spectral components. The temporal component is designed to efficiently process EEG sequences of varying lengths, while the spectral component enhances the model by integrating frequency-domain information from EEG signals. The synergy of these components allows EEG-SSM to adeptly manage the complexities of multivariate EEG data, significantly improving accuracy and stability across different temporal resolutions. Demonstrating a remarkable 91.0 percent accuracy in classifying Healthy Control (HC), Frontotemporal Dementia (FTD), and Alzheimer's Disease (AD) groups, EEG-SSM outperforms existing models on the same dataset. The development of EEG-SSM represents an improvement in the use of state-space models for screening dementia, offering more precise and cost-effective tools for clinical neuroscience.
翻訳日:2024-07-26 15:08:06 公開日:2024-07-25
# ソフトウェア脆弱性予測モデルのための自動データラベリング

Automatic Data Labeling for Software Vulnerability Prediction Models: How Far Are We? ( http://arxiv.org/abs/2407.17803v1 )

ライセンス: Link先を確認
Triet H. M. Le, M. Ali Babar, (参考訳) 背景: ソフトウェア脆弱性(SV)の予測には、大規模で高品質なデータが必要である。 現在のSVデータセットは、専門家(人間ラベル付き)による高価なラベル付け作業を必要とするため、サイズは限られている。 一方、大規模に自動SVラベリングの取り組みが増えている。 しかし、SV予測のための自動ラベル付きデータの適合性はほとんど分かっていない。 Aims: SV予測のための最先端の自己ラベル付きSVデータD2Aの質と利用を定量的に定性的に研究する。 方法: 複数ソースと手動検証を用いて, 人ラベル付きSV固定コミットのクリーンなSVデータを2つのよく知られたプロジェクトでキュレートし, 自動ラベル付きコミットを調査した。 結果: 自動ラベル付きSVの50%以上はノイズ(誤ラベル付き)であり, 公表されているSVとほとんど重複しないことがわかった。 しかし、ノイズの多い自動ラベル付きSVを用いたSV予測モデルは、元のモデルに比べて、マシューズ相関係数とリコールの最大22%と90%の性能が向上する。 また,自動ラベル付きSVデータのノイズを自動的に処理し,SV予測のためのデータ利用を最大化するためのノイズ低減手法の適用の約束と難しさを明らかにした。 結論: 本研究は, 自動ラベル付きSVの活用のメリットと課題を明らかにし, 大規模SV予測への道を開いた。

Background: Software Vulnerability (SV) prediction needs large-sized and high-quality data to perform well. Current SV datasets mostly require expensive labeling efforts by experts (human-labeled) and thus are limited in size. Meanwhile, there are growing efforts in automatic SV labeling at scale. However, the fitness of auto-labeled data for SV prediction is still largely unknown. Aims: We quantitatively and qualitatively study the quality and use of the state-of-the-art auto-labeled SV data, D2A, for SV prediction. Method: Using multiple sources and manual validation, we curate clean SV data from human-labeled SV-fixing commits in two well-known projects for investigating the auto-labeled counterparts. Results: We discover that 50+% of the auto-labeled SVs are noisy (incorrectly labeled), and they hardly overlap with the publicly reported ones. Yet, SV prediction models utilizing the noisy auto-labeled SVs can perform up to 22% and 90% better in Matthews Correlation Coefficient and Recall, respectively, than the original models. We also reveal the promises and difficulties of applying noise-reduction methods for automatically addressing the noise in auto-labeled SV data to maximize the data utilization for SV prediction. Conclusions: Our study informs the benefits and challenges of using auto-labeled SVs, paving the way for large-scale SV prediction.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# 二次近似を用いたフィードバックに基づく量子最適化におけるスケーラブル回路深さの低減

Scalable circuit depth reduction in feedback-based quantum optimization with a quadratic approximation ( http://arxiv.org/abs/2407.17810v1 )

ライセンス: Link先を確認
Don Arai, Ken N. Okada, Yuichiro Nakano, Kosuke Mitarai, Keisuke Fujii, (参考訳) 組合せ最適化問題は、短期的なノイズの多い量子コンピュータが古典的コンピュータに対して実用的な優位性を持つ分野の1つである。 最近、Magann \textit{et al} により、フィードバックに基づく新しい量子最適化アルゴリズムが提案されている。 提案手法は, 量子近似最適化アルゴリズムにおいて問題となる古典的パラメータ最適化を回避するために, 測定結果をフィードバックすることで, 量子回路パラメータを明示的に決定する。 一方、フィードバックベースの量子最適化の重大な欠点は、深い回路を必要とすることであり、ノイズの多い量子デバイスには適さない。 本研究では,フィードバックに基づく量子最適化におけるハイパーパラメータである時間間隔に関する2次近似を導入することで,パラメータ決定のための新たなフィードバック法則を提案する。 これにより、より大きな時間間隔を取ることができ、解への収束の加速につながる。 最大カット問題に関する数値シミュレーションにおいて,提案手法は回路の深さを大幅に減少させ,その線形スケーリングを1桁以上小さくすることを示した。 この研究で提案された新たなフィードバック法則は、短期雑音量子コンピュータによるフィードバックに基づく量子最適化の道を開くことを期待する。

Combinatorial optimization problems are one of the areas where near-term noisy quantum computers may have practical advantage against classical computers. Recently a novel feedback-based quantum optimization algorithm has been proposed by Magann \textit{et al}. The method explicitly determines quantum circuit parameters by feeding back measurement results thus avoids classical parameter optimization that is known to cause significant trouble in quantum approximate optimization algorithm, the well-studied near-term algorithm. Meanwhile, a significant drawback of the feedback-based quantum optimization is that it requires deep circuits, rendering the method unsuitable to noisy quantum devices. In this study we propose a new feedback law for parameter determination by introducing the second-order approximation with respect to time interval, a hyperparameter in the feedback-based quantum optimization. This allows one to take larger time interval, leading to acceleration of convergence to solutions. In numerical simulations on the maximum cut problem we demonstrate that our proposal significantly reduces circuit depth, with its linear scaling with the problem size smaller by more than an order of magnitude. We expect that the new feedback law proposed in this work may pave the way for feedback-based quantum optimization with near-term noisy quantum computers.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# モデルパフォーマンスの向上: ビジョンランゲージインストラクションチューニングへのもうひとつのアプローチ

Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning ( http://arxiv.org/abs/2407.17813v1 )

ライセンス: Link先を確認
Vedanshu, MM Tripathi, Bhavnesh Jaint, (参考訳) 大規模言語モデル(LLM)と視覚言語(VL)タスクの統合は、人工知能の領域における変革的な発展であり、汎用チャットボットとしてのLLMの可能性を強調している。 しかし、この進化の現在の傾向は、より多様な実世界の文脈で操作できるモデルを作成するためのビジョンと言語の統合に焦点を当てている。 本稿では,マルチモーダルモデルチューニング(MMT, Multimodal Model Tuning)と呼ばれるプロセスを通じて, マルチモーダル LLM フレームワーク全体の共同最適化を可能にする, 複雑なモデルのマルチモーダル機能の向上を目的とした新しいアプローチである Bottleneck Adapter を提案する。 当社のアプローチでは,大規模で複雑なニューラルネットワークを必要とせず,軽量なアダプタを用いてイメージエンコーダとLCMを接続する。 従来のモジュラートレーニング方式とは異なり,本手法では,アダプタと組み合わせることで,より小さなパラメータセットを用いた共同最適化が容易となるエンドツーエンド最適化方式を採用している。 本手法は,90.12\%の精度で頑健な性能を示し,人間レベルの性能(88.4\%)とLaVIN-7B(89.41\%)の両方に優れていた。

The integration of large language models (LLMs) with vision-language (VL) tasks has been a transformative development in the realm of artificial intelligence, highlighting the potential of LLMs as a versatile general-purpose chatbot. However, the current trend in this evolution focuses on the integration of vision and language to create models that can operate in more diverse and real-world contexts. We present a novel approach, termed Bottleneck Adapter, specifically crafted for enhancing the multimodal functionalities of these complex models, enabling joint optimization of the entire multimodal LLM framework through a process known as Multimodal Model Tuning (MMT). Our approach utilizes lightweight adapters to connect the image encoder and LLM without the need for large, complex neural networks. Unlike the conventional modular training schemes, our approach adopts an end-to-end optimization regime, which, when combined with the adapters, facilitates the joint optimization using a significantly smaller parameter set. Our method exhibits robust performance with 90.12\% accuracy, outperforming both human-level performance (88.4\%) and LaVIN-7B (89.41\%).
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# Nested replicator dynamics, nested logit choice, and similarity-based learning

Nested replicator dynamics, nested logit choice, and similarity-based learning ( http://arxiv.org/abs/2407.17815v1 )

ライセンス: Link先を確認
Panayotis Mertikopoulos, William H. Sandholm, (参考訳) アクションセットに、戦略間の外生的類似性を捉えるための分割ベースの類似性構造を付与したゲームにおいて、学習と進化のモデルを考える。 このモデルでは、修正エージェントは、現在の戦略と類似とみなす他の戦略を比較する確率が高く、彼らは、その支払い過剰に比例する確率で観察された戦略に切り替える。 同様の戦略に対するこの暗黙の偏りから、ネストされた複製子力学と呼ばれる結果のダイナミクスは、模倣ゲーム力学の標準的な単調性仮定を満足しない。 また、誘導力学は、Erev & Roth (1998) の精神における刺激応答モデルと見なすことができ、Ben-Akiva (1973) と McFadden (1978) のネストされたロジット選択則により選択確率が与えられることを示した。 この結果は、オンライン学習における複製子力学と指数重み付けアルゴリズムの既存の関係を一般化し、分析と結果に付加的な解釈層を提供する。

We consider a model of learning and evolution in games whose action sets are endowed with a partition-based similarity structure intended to capture exogenous similarities between strategies. In this model, revising agents have a higher probability of comparing their current strategy with other strategies that they deem similar, and they switch to the observed strategy with probability proportional to its payoff excess. Because of this implicit bias toward similar strategies, the resulting dynamics - which we call the nested replicator dynamics - do not satisfy any of the standard monotonicity postulates for imitative game dynamics; nonetheless, we show that they retain the main long-run rationality properties of the replicator dynamics, albeit at quantitatively different rates. We also show that the induced dynamics can be viewed as a stimulus-response model in the spirit of Erev & Roth (1998), with choice probabilities given by the nested logit choice rule of Ben-Akiva (1973) and McFadden (1978). This result generalizes an existing relation between the replicator dynamics and the exponential weights algorithm in online learning, and provides an additional layer of interpretation to our analysis and results.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# NC-NCD: ノード分類のための新しいクラスディスカバリ

NC-NCD: Novel Class Discovery for Node Classification ( http://arxiv.org/abs/2407.17816v1 )

ライセンス: Link先を確認
Yue Hou, Xueyuan Chen, He Zhu, Romei Liu, Bowen Shi, Jiaheng Liu, Junran Wu, Ke Xu, (参考訳) 新たなクラスディスカバリ(NCD)は、以前に確立されたカテゴリから取得した知識を活用することで、ラベルなしデータ内の新しいカテゴリを識別する。 しかし、既存のNCD手法は、古いカテゴリと新しいカテゴリのパフォーマンスのバランスを維持するのに苦労することが多い。 クラス増進的な方法でラベルのない新しいカテゴリを発見することは、より実践的であるが、古いカテゴリの破滅的な忘れ物や、新しいカテゴリを学べないことによって、しばしば妨げられるため、より難しい。 さらに、連続的なスケーラブルなグラフ構造化データに対するNCDの実装は、まだ探索されていない領域である。 これらの課題に対応するために,我々は,ノード分類のためのより実用的なNCDシナリオ(NC-NCD)を初めて紹介し,プロトタイプの再生と蒸留を行うSWORDをNC-NCD設定に適用した,新しい自己学習フレームワークを提案する。 提案手法は,ラベル付きノードを学習した後,古いカテゴリノードに依存せずに古いカテゴリのパフォーマンスを保ちながら,ラベル付きノードをクラスタリングすることを可能にする。 SWORDは、自己学習戦略を用いて新しいカテゴリーを学習し、機能プロトタイプと知識蒸留を併用することで古いカテゴリを忘れないようにすることで、これを達成している。 4つの共通ベンチマークでの大規模な実験は、他の最先端手法よりもSWORDの方が優れていることを示した。

Novel Class Discovery (NCD) involves identifying new categories within unlabeled data by utilizing knowledge acquired from previously established categories. However, existing NCD methods often struggle to maintain a balance between the performance of old and new categories. Discovering unlabeled new categories in a class-incremental way is more practical but also more challenging, as it is frequently hindered by either catastrophic forgetting of old categories or an inability to learn new ones. Furthermore, the implementation of NCD on continuously scalable graph-structured data remains an under-explored area. In response to these challenges, we introduce for the first time a more practical NCD scenario for node classification (i.e., NC-NCD), and propose a novel self-training framework with prototype replay and distillation called SWORD, adopted to our NC-NCD setting. Our approach enables the model to cluster unlabeled new category nodes after learning labeled nodes while preserving performance on old categories without reliance on old category nodes. SWORD achieves this by employing a self-training strategy to learn new categories and preventing the forgetting of old categories through the joint use of feature prototypes and knowledge distillation. Extensive experiments on four common benchmarks demonstrate the superiority of SWORD over other state-of-the-art methods.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# 大規模言語モデルにおける動詞の暗記のデミスティフィケート

Demystifying Verbatim Memorization in Large Language Models ( http://arxiv.org/abs/2407.17817v1 )

ライセンス: Link先を確認
Jing Huang, Diyi Yang, Christopher Potts, (参考訳) 大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。 多くの先行研究は、観測データを用いて、このような言葉の暗記を研究してきた。 このような作業を補完するために,Pythiaチェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより,制御された環境下での動詞の暗記を学習する枠組みを開発する。 その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後で(おそらくもっとよい) チェックポイントは,配布外シーケンスであっても,動詞の暗記シーケンスを暗記する傾向が強く,(3) ハイレベルな特徴を符号化し,汎用言語モデリング機能を重要な活用を行う分散モデル状態によって,暗記シーケンスの生成が引き起こされることが判明した。 これらの知見に導かれて、未学習の手法を評価するためのストレステストを開発し、冗長な記憶情報を削除するのに失敗すると同時に、LMを劣化させる。 全体として、これらの発見は、動詞の暗記は特定のモデルの重みやメカニズムに由来するという仮説に挑戦する。 むしろ、動詞の暗記はLMの一般的な能力と連動しており、モデルの品質を劣化させることなく分離し、抑制することが非常に困難である。

Large Language Models (LLMs) frequently memorize long sequences verbatim, often with serious legal and privacy implications. Much prior work has studied such verbatim memorization using observational data. To complement such work, we develop a framework to study verbatim memorization in a controlled setting by continuing pre-training from Pythia checkpoints with injected sequences. We find that (1) non-trivial amounts of repetition are necessary for verbatim memorization to happen; (2) later (and presumably better) checkpoints are more likely to verbatim memorize sequences, even for out-of-distribution sequences; (3) the generation of memorized sequences is triggered by distributed model states that encode high-level features and makes important use of general language modeling capabilities. Guided by these insights, we develop stress tests to evaluate unlearning methods and find they often fail to remove the verbatim memorized information, while also degrading the LM. Overall, these findings challenge the hypothesis that verbatim memorization stems from specific model weights or mechanisms. Rather, verbatim memorization is intertwined with the LM's general capabilities and thus will be very difficult to isolate and suppress without degrading model quality.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# アナログ量子コンピュータにおける開系分子動力学のシミュレーション

Simulating open-system molecular dynamics on analog quantum computers ( http://arxiv.org/abs/2407.17819v1 )

ライセンス: Link先を確認
V. C. Olaya-Agudelo, B. Stewart, C. H. Valahu, R. J. MacDonell, M. J. Millican, V. G. Matsos, F. Scuccimarra, T. R. Tan, I. Kassal, (参考訳) 分子と環境の相互作用は、ほとんど全ての化学反応の過程と結果に影響を与える。 しかし、古典的なコンピュータは、分子の大きさと環境の複雑さの両方で計算資源の急激な成長のため、複雑な分子環境相互作用を正確にシミュレートするのに苦労している。 したがって、多くの量子化学シミュレーションは孤立した分子に制限されており、その分子は環境内で起こるものとは大きく異なる。 ここでは、アナログ量子シミュレーターが、シミュレータのネイティブな散逸を利用して、さらに制御可能な散逸を注入することにより、開分子系をシミュレートできることを示す。 自然散逸を利用して分子の散逸をシミュレートし、それを制限と見なすのではなく、我々のアプローチは閉系よりも長い開系のシミュレーションを可能にします。 特に,kudit-boson (MQB)エンコーディングを用いた捕捉イオンシミュレータは,リンドブラッド形式論において広く用いられている散逸過程を実装し,電子的および振動的緩和を両立させることにより,幅広い縮合相の分子をシミュレートできることを示した。 MQBのオープンシステムシミュレーションは、古典的およびデジタル的量子アプローチと比較して、大幅に少ない量子資源を必要とする。

Interactions of molecules with their environment influence the course and outcome of almost all chemical reactions. However, classical computers struggle to accurately simulate complicated molecule-environment interactions because of the steep growth of computational resources with both molecule size and environment complexity. Therefore, many quantum-chemical simulations are restricted to isolated molecules, whose dynamics can dramatically differ from what happens in an environment. Here, we show that analog quantum simulators can simulate open molecular systems by using the native dissipation of the simulator and injecting additional controllable dissipation. By exploiting the native dissipation to simulate the molecular dissipation -- rather than seeing it as a limitation -- our approach enables longer simulations of open systems than are possible for closed systems. In particular, we show that trapped-ion simulators using a mixed qudit-boson (MQB) encoding could simulate molecules in a wide range of condensed phases by implementing widely used dissipative processes within the Lindblad formalism, including pure dephasing and both electronic and vibrational relaxation. The MQB open-system simulations require significantly fewer additional quantum resources compared to both classical and digital quantum approaches.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# フロー制御のための高度な深層強化学習法:群不変および位置符号化ネットワークによる学習速度と品質の向上

Advanced deep-reinforcement-learning methods for flow control: group-invariant and positional-encoding networks improve learning speed and quality ( http://arxiv.org/abs/2407.17822v1 )

ライセンス: Link先を確認
Joogoo Jeon, Jean Rabault, Joel Vasanth, Francisco Alcántara-Ávila, Shilaj Baral, Ricardo Vinuesa, (参考訳) フロー制御は、幅広い応用においてエネルギー効率を最大化する鍵となる。 しかし、従来のフロー制御手法は、非線形システムと高次元データに対処する上で大きな課題に直面し、現実的なエネルギーシステムへの応用を制限している。 本研究では,フロー制御のための深層強化学習法,特にグループ不変ネットワークと位置エンコーディングをDRLアーキテクチャに統合することに焦点を当てた。 提案手法は,マルチエージェント強化学習(MARL)を用いて,局所対称性の不変性を確保するために,群不変ネットワークと組み合わせて空間のポリシー不変性を利用する。 さらに、トランスアーキテクチャにインスパイアされた位置エンコーディングが組み込まれ、エージェントに位置情報を提供し、厳密な不変性からアクション制約を緩和する。 提案手法はレイリー・ブエナード対流のケーススタディを用いて検証され、ヌッセルト数 Nu の最小化が目的である。 グループ不変ニューラルネットワーク(GI-NN)は、ベースMARLよりも高速な収束を示し、平均ポリシー性能が向上する。 GI-NNはDRLトレーニング時間を半分に削減しただけでなく、学習再現性も向上した。 位置エンコーディングはこれらの結果をさらに強化し、最小のNuを効果的に減少させ、収束を安定化させる。 興味深いことに、学習速度の向上を専門とするグループ不変ネットワークと、学習品質の向上を専門とする位置符号化がある。 これらの結果から,各制御問題の特徴と目的に応じて適切な特徴表現法を選択することが不可欠であることが示唆された。 本研究の結果は, 不変かつ一意な表現を持つ新しいDRL法に刺激を与えるだけでなく, 産業応用に有用な洞察を与えるものと考えられる。

Flow control is key to maximize energy efficiency in a wide range of applications. However, traditional flow-control methods face significant challenges in addressing non-linear systems and high-dimensional data, limiting their application in realistic energy systems. This study advances deep-reinforcement-learning (DRL) methods for flow control, particularly focusing on integrating group-invariant networks and positional encoding into DRL architectures. Our methods leverage multi-agent reinforcement learning (MARL) to exploit policy invariance in space, in combination with group-invariant networks to ensure local symmetry invariance. Additionally, a positional encoding inspired by the transformer architecture is incorporated to provide location information to the agents, mitigating action constraints from strict invariance. The proposed methods are verified using a case study of Rayleigh-B\'enard convection, where the goal is to minimize the Nusselt number Nu. The group-invariant neural networks (GI-NNs) show faster convergence compared to the base MARL, achieving better average policy performance. The GI-NNs not only cut DRL training time in half but also notably enhance learning reproducibility. Positional encoding further enhances these results, effectively reducing the minimum Nu and stabilizing convergence. Interestingly, group invariant networks specialize in improving learning speed and positional encoding specializes in improving learning quality. These results demonstrate that choosing a suitable feature-representation method according to the purpose as well as the characteristics of each control problem is essential. We believe that the results of this study will not only inspire novel DRL methods with invariant and unique representations, but also provide useful insights for industrial applications.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# 最適ヘッセン/ヤコビアンフリー非凸-PLバイレベル最適化

Optimal Hessian/Jacobian-Free Nonconvex-PL Bilevel Optimization ( http://arxiv.org/abs/2407.17823v1 )

ライセンス: Link先を確認
Feihu Huang, (参考訳) 双レベル最適化は、ハイパーパラメータ学習、メタ学習、強化学習など、多くの機械学習タスクに広く適用されている。 最近、二段階最適化の問題を解決するために多くのアルゴリズムが開発されているが、それらは一般に(強い)凸な低レベル問題に依存している。 最近では、上層問題は非凸である可能性があり、下層問題はpolyak-{\L}ojasiewicz (PL) 条件を満たしつつも非凸である可能性がある。 しかし、これらの手法は依然として高収束複雑性や計算コストの高いヘッセン/ヤコビアン行列とその逆行列を必要とするような高い計算複雑性を持っている。 そこで本稿では,非凸PL二値問題の解法として,最適収束複雑性をもつヘッセン/ヤコビアン自由法(HJFBiO)を提案する。 理論的には、いくつかの穏やかな条件下で、我々のHJFBiO法が$O(\frac{1}{T})$の最適収束率を証明し、$T$は反復数を表し、$O(\epsilon^{-1})$の最適勾配複雑性を持つ。 提案手法の有効性を実証するために,両レベルPLゲームとハイパー表現学習タスクに関する数値実験を行った。

Bilevel optimization is widely applied in many machine learning tasks such as hyper-parameter learning, meta learning and reinforcement learning. Although many algorithms recently have been developed to solve the bilevel optimization problems, they generally rely on the (strongly) convex lower-level problems. More recently, some methods have been proposed to solve the nonconvex-PL bilevel optimization problems, where their upper-level problems are possibly nonconvex, and their lower-level problems are also possibly nonconvex while satisfying Polyak-{\L}ojasiewicz (PL) condition. However, these methods still have a high convergence complexity or a high computation complexity such as requiring compute expensive Hessian/Jacobian matrices and its inverses. In the paper, thus, we propose an efficient Hessian/Jacobian-free method (i.e., HJFBiO) with the optimal convergence complexity to solve the nonconvex-PL bilevel problems. Theoretically, under some mild conditions, we prove that our HJFBiO method obtains an optimal convergence rate of $O(\frac{1}{T})$, where $T$ denotes the number of iterations, and has an optimal gradient complexity of $O(\epsilon^{-1})$ in finding an $\epsilon$-stationary solution. We conduct some numerical experiments on the bilevel PL game and hyper-representation learning task to demonstrate efficiency of our proposed method.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# Web 3.0におけるブロックチェーンの乗っ取り:Tron-Steemのインシデントに関する実証的研究

Blockchain Takeovers in Web 3.0: An Empirical Study on the TRON-Steem Incident ( http://arxiv.org/abs/2407.17825v1 )

ライセンス: Link先を確認
Chao Li, Runhua Xu, Balaji Palanisamy, Li Duan, Meng Shen, Jiqiang Liu, Wei Wang, (参考訳) Web 3.0の基本的な目標は、分散化されたネットワークとアプリケーションエコシステムを確立することである。 しかし、最近のTron-Steem買収事件は、このビジョンに重大な脅威をもたらす。 本稿では,Tron-Steem乗っ取り事件の徹底的解析について述べる。 最も重要なソーシャル指向ブロックチェーンの1つであるSteemブロックチェーン内のステークホルダと選挙スナップショットの詳細な再構築を行うことで、分散化前における顕著なシフトを定量化し、乗っ取りインシデントをポストすることで、ブロックチェーンネットワークの乗っ取りがWeb 3.0の分散化原則にもたらす深刻な脅威を浮き彫りにします。 さらに, 異例な有権者を特定し, 投票者行動のクラスタリング分析を行うヒューリスティックな手法を用いて, トロン・ステム事件におけるテイクオーバー戦略の基盤となるメカニズムを明らかにし, 将来的な脅威に対するWeb 3.0ネットワークの抵抗強化に寄与する潜在的な緩和戦略を提案する。 この調査から得られた洞察は、Web 3.0時代のブロックチェーンネットワークの乗っ取りによる課題の解明に役立つと信じており、分散技術とガバナンスの発展を促進し、Web 3.0ユーザ権の保護を強化する方法を提案する。

A fundamental goal of Web 3.0 is to establish a decentralized network and application ecosystem, thereby enabling users to retain control over their data while promoting value exchange. However, the recent Tron-Steem takeover incident poses a significant threat to this vision. In this paper, we present a thorough empirical analysis of the Tron-Steem takeover incident. By conducting a fine-grained reconstruction of the stake and election snapshots within the Steem blockchain, one of the most prominent social-oriented blockchains, we quantify the marked shifts in decentralization pre and post the takeover incident, highlighting the severe threat that blockchain network takeovers pose to the decentralization principle of Web 3.0. Moreover, by employing heuristic methods to identify anomalous voters and conducting clustering analyses on voter behaviors, we unveil the underlying mechanics of takeover strategies employed in the Tron-Steem incident and suggest potential mitigation strategies, which contribute to the enhanced resistance of Web 3.0 networks against similar threats in the future. We believe the insights gleaned from this research help illuminate the challenges imposed by blockchain network takeovers in the Web 3.0 era, suggest ways to foster the development of decentralized technologies and governance, as well as to enhance the protection of Web 3.0 user rights.
翻訳日:2024-07-26 14:57:54 公開日:2024-07-25
# 解釈可能な視覚言語アライメントのための統一語彙表現法

Unified Lexical Representation for Interpretable Visual-Language Alignment ( http://arxiv.org/abs/2407.17827v1 )

ライセンス: Link先を確認
Yifan Li, Yikai Wang, Yanwei Fu, Dongyu Ru, Zheng Zhang, Tong He, (参考訳) Visual-Language Alignment (VLA)は、CLIPの画期的な作業以来、多くの注目を集めている。 CLIPはうまく機能するが、典型的な遅延機能アライメントは、その表現と類似性スコアの明確さに欠ける。 一方、語彙のサンプルと単語の類似性を表現した語彙表現は、自然なスパース表現であり、個々の単語の正確な一致を提供する。 しかし、根底的な監督や誤発見の問題がないため、語彙表現の学習は困難であり、効果的に訓練するには複雑な設計が必要である。 本稿では,より解釈しやすいVLAフレームワークであるLexVLAを紹介する。 我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。 誤検出を避けるため,語彙表現が無意味な単語を誤発することを防ぐために,過剰なペナルティを提案する。 これら2つの事前学習されたユニモーダルモデルは、控えめなマルチモーダルデータセットを微調整し、複雑なトレーニング構成を避けることで、適切に整列できることを実証する。 クロスモーダル検索ベンチマークでは、CC-12MマルチモーダルデータセットでトレーニングされたLexVLAが、より大きなデータセット(例えば、YFCC15M)と、さらに大きなデータセット(例えば、CC-12Mを含む1.1Bデータ)でトレーニングされたデータセットのベースラインを微調整した上で、パフォーマンスが向上する。 我々はLexVLAを解析するための広範囲な実験を行った。

Visual-Language Alignment (VLA) has gained a lot of attention since CLIP's groundbreaking work. Although CLIP performs well, the typical direct latent feature alignment lacks clarity in its representation and similarity scores. On the other hand, lexical representation, a vector whose element represents the similarity between the sample and a word from the vocabulary, is a natural sparse representation and interpretable, providing exact matches for individual words. However, lexical representations is difficult to learn due to no ground-truth supervision and false-discovery issues, and thus requires complex design to train effectively. In this paper, we introduce LexVLA, a more interpretable VLA framework by learning a unified lexical representation for both modalities without complex design. We use DINOv2 as our visual model for its local-inclined features and Llama 2, a generative language model, to leverage its in-context lexical prediction ability. To avoid the false discovery, we propose an overuse penalty to refrain the lexical representation from falsely frequently activating meaningless words. We demonstrate that these two pre-trained uni-modal models can be well-aligned by fine-tuning on modest multi-modal dataset and avoid intricate training configurations. On cross-modal retrieval benchmarks, LexVLA, trained on the CC-12M multi-modal dataset, outperforms baselines fine-tuned on larger datasets (e.g., YFCC15M) and those trained from scratch on even bigger datasets (e.g., 1.1B data, including CC-12M). We conduct extensive experiments to analyze LexVLA.
翻訳日:2024-07-26 14:57:53 公開日:2024-07-25
# ディバイシブノーマライゼーションによるイメージセグメンテーション--環境多様性を扱う

Image Segmentation via Divisive Normalization: dealing with environmental diversity ( http://arxiv.org/abs/2407.17829v1 )

ライセンス: Link先を確認
Pablo Hernández-Cámara, Jorge Vila-Tomás, Paula Dauden-Oliver, Nuria Alabau-Bosque, Valero Laparra, Jesús Malo, (参考訳) 自律運転は、制御されていない環境条件の存在と、最終的には失敗の破滅的な結果によって、イメージセグメンテーションの難しいシナリオである。 これまでの研究では、生物学的に動機づけられた計算、いわゆるディビジョン正規化(Divisive Normalization)は、画像の可変性を扱うのに有用であるが、その効果は異なるデータソースや環境要因に対して体系的に研究されていないことが示唆された。 ここでは、Divisive Normalizationで強化されたセグメンテーションU-netをトレーニング条件から遠く離れたところで動作させ、この適応がより重要かを見つける。 シーンは、その放射レベルとダイナミックレンジ(昼夜)、および無彩色/彩色コントラストに基づいて分類する。 また、環境の範囲を広げるために、ビデオゲーム(合成)の画像も検討する。 このような分類の極端なパーセンタイルのパフォーマンスを確認します。 そして、その限界をさらに推し進めるために、知覚的/環境的に関係のある次元(輝度、コントラスト、スペクトル放射率)で画像を人工的に修正する。 その結果、ディバイシブ正規化を伴うニューラルネットワークは、すべてのシナリオにおいてより良い結果を得ることができ、その特性は、ソースの考慮された環境要因や性質に関して、より安定したままであることがわかった。 最後に,(1)分割正規化を含む応答の不変性を定量化し,(2)局所的な活動に依存する異なるレイヤの適応的非線形性を示すことによって,分割性能の向上を2つの方法で説明する。

Autonomous driving is a challenging scenario for image segmentation due to the presence of uncontrolled environmental conditions and the eventually catastrophic consequences of failures. Previous work suggested that a biologically motivated computation, the so-called Divisive Normalization, could be useful to deal with image variability, but its effects have not been systematically studied over different data sources and environmental factors. Here we put segmentation U-nets augmented with Divisive Normalization to work far from training conditions to find where this adaptation is more critical. We categorize the scenes according to their radiance level and dynamic range (day/night), and according to their achromatic/chromatic contrasts. We also consider video game (synthetic) images to broaden the range of environments. We check the performance in the extreme percentiles of such categorization. Then, we push the limits further by artificially modifying the images in perceptually/environmentally relevant dimensions: luminance, contrasts and spectral radiance. Results show that neural networks with Divisive Normalization get better results in all the scenarios and their performance remains more stable with regard to the considered environmental factors and nature of the source. Finally, we explain the improvements in segmentation performance in two ways: (1) by quantifying the invariance of the responses that incorporate Divisive Normalization, and (2) by illustrating the adaptive nonlinearity of the different layers that depends on the local activity.
翻訳日:2024-07-26 14:57:53 公開日:2024-07-25
# コーディネートネットワークにおける正規化によるスペクトルバイアス緩和に向けて

Towards the Spectral bias Alleviation by Normalizations in Coordinate Networks ( http://arxiv.org/abs/2407.17834v1 )

ライセンス: Link先を確認
Zhicheng Cai, Hao Zhu, Qiu Shen, Xinran Wang, Xun Cao, (参考訳) 座標ネットワークを用いた信号の表現は近年逆問題領域を支配しており、様々な科学計算タスクに広く応用されている。 それでも、座標ネットワークにはスペクトルバイアスの問題があり、高周波成分の学習能力が制限されている。 この問題は、座標ネットワークの神経タンジェントカーネル(NTK)固有値の病理分布によって引き起こされる。 この病理分布は古典的正規化法(バッチ正規化法と層正規化法)を用いて改善できるが、畳み込みニューラルネットワークではよく用いられるが、座標ネットワークではめったに使われない。 正規化手法がNTKの固有値の最大値と分散値を著しく低減すると同時に,最大値の最大値が最大値よりもはるかに大きいことを考えると,この分散変化は固有値の分布を下位値から上位値にシフトさせる結果となり,スペクトルバイアスを緩和できることを示した。 さらに,これら2つの手法を異なる方法で組み合わせた2つの新しい正規化手法を提案する。 これらの正規化技術の有効性は、画像圧縮、CT再構成、形状表現、磁気共鳴イメージング、新しいビュー合成、マルチビューステレオ再構成など、様々なタスクに正規化ベースの座標ネットワークを適用することで達成された、大幅な改善と新しい最先端技術によって実証される。

Representing signals using coordinate networks dominates the area of inverse problems recently, and is widely applied in various scientific computing tasks. Still, there exists an issue of spectral bias in coordinate networks, limiting the capacity to learn high-frequency components. This problem is caused by the pathological distribution of the neural tangent kernel's (NTK's) eigenvalues of coordinate networks. We find that, this pathological distribution could be improved using classical normalization techniques (batch normalization and layer normalization), which are commonly used in convolutional neural networks but rarely used in coordinate networks. We prove that normalization techniques greatly reduces the maximum and variance of NTK's eigenvalues while slightly modifies the mean value, considering the max eigenvalue is much larger than the most, this variance change results in a shift of eigenvalues' distribution from a lower one to a higher one, therefore the spectral bias could be alleviated. Furthermore, we propose two new normalization techniques by combining these two techniques in different ways. The efficacy of these normalization techniques is substantiated by the significant improvements and new state-of-the-arts achieved by applying normalization-based coordinate networks to various tasks, including the image compression, computed tomography reconstruction, shape representation, magnetic resonance imaging, novel view synthesis and multi-view stereo reconstruction.
翻訳日:2024-07-26 14:57:53 公開日:2024-07-25
# IsUMap: Vietoris-Ripsろ過を利用したマニフォールド学習とデータの可視化

IsUMap: Manifold Learning and Data Visualization leveraging Vietoris-Rips filtrations ( http://arxiv.org/abs/2407.17835v1 )

ライセンス: Link先を確認
Lukas Silvester Barth, Fatemeh, Fahimi, Parvaneh Joharinad, Jürgen Jost, Janis Keck, (参考訳) 本研究は,UMAP と Isomap の側面と Vietoris-Rips フィルタを統合することで,データ表現を向上させる新しい多様体学習手法 IsUMap を紹介する。 本稿では, 局所的に歪んだ距離空間に対する距離表現の体系的, 詳細な構成について述べる。 提案手法は,非一様データ分布と複雑な局所的ジオメトリの調整により,既存の手法の制約に対処する。 様々な幾何学的オブジェクトの例や実世界のデータセットのベンチマークに関する広範な実験を通じて,その性能を検証し,表現品質の大幅な向上を実証した。

This work introduces IsUMap, a novel manifold learning technique that enhances data representation by integrating aspects of UMAP and Isomap with Vietoris-Rips filtrations. We present a systematic and detailed construction of a metric representation for locally distorted metric spaces that captures complex data structures more accurately than the previous schemes. Our approach addresses limitations in existing methods by accommodating non-uniform data distributions and intricate local geometries. We validate its performance through extensive experiments on examples of various geometric objects and benchmark real-world datasets, demonstrating significant improvements in representation quality.
翻訳日:2024-07-26 14:57:53 公開日:2024-07-25
# UMono: 水中単分子深度推定のための物理モデルインフォームドハイブリッドCNN変換器フレームワーク

UMono: Physical Model Informed Hybrid CNN-Transformer Framework for Underwater Monocular Depth Estimation ( http://arxiv.org/abs/2407.17838v1 )

ライセンス: Link先を確認
Jian Wang, Jing Wang, Shenghui Rong, Bo He, (参考訳) 水中の単分子深度推定は、水中のシーンの3次元再構成などの作業の基礎となる。 しかし、光と媒質の影響により、水中環境は独特の撮像プロセスを行い、単一の画像から深度を正確に推定する課題が提示される。 従来の手法では水中環境の特異な特性を考慮できなかったため,不適切な推定結果と限定的な一般化性能が得られた。 さらに、水中深度推定には、既存の手法では十分に調査されていない局所的特徴と大域的特徴の両方を抽出し、融合する必要がある。 本稿では,水中画像生成モデルの特徴をネットワークアーキテクチャに組み込んだ,水中画像の局所的特徴とグローバル的特徴の両面を効果的に活用する,UMonoと呼ばれる水中単眼深度推定のためのエンドツーエンド学習フレームワークを提案する。 実験により, 提案手法は水中単分子深度推定に有効であり, 定量および定性解析の両方において既存手法より優れていることが示された。

Underwater monocular depth estimation serves as the foundation for tasks such as 3D reconstruction of underwater scenes. However, due to the influence of light and medium, the underwater environment undergoes a distinctive imaging process, which presents challenges in accurately estimating depth from a single image. The existing methods fail to consider the unique characteristics of underwater environments, leading to inadequate estimation results and limited generalization performance. Furthermore, underwater depth estimation requires extracting and fusing both local and global features, which is not fully explored in existing methods. In this paper, an end-to-end learning framework for underwater monocular depth estimation called UMono is presented, which incorporates underwater image formation model characteristics into network architecture, and effectively utilize both local and global features of underwater image. Experimental results demonstrate that the proposed method is effective for underwater monocular depth estimation and outperforms the existing methods in both quantitative and qualitative analyses.
翻訳日:2024-07-26 14:57:53 公開日:2024-07-25
# ライドヒーリングプラットフォームの長期公正性

Long-term Fairness in Ride-Hailing Platform ( http://arxiv.org/abs/2407.17839v1 )

ライセンス: Link先を確認
Yufan Kang, Jeffrey Chan, Wei Shao, Flora D. Salim, Christopher Leckie, (参考訳) 配車サービスなどの二国間市場におけるマッチングは、最近大きな注目を集めている。 しかし、ライドシェアリングに関する既存の研究は主に効率の最適化に重点を置いており、ライドシェアリングにおける公平性の問題も無視されている。 配車サービスにおける公平性の問題には、ドライバー間の大きな収入差や、異なる場所における乗客待ち時間のばらつきが含まれており、経済的および倫理的側面に潜在的に影響を及ぼす可能性がある。 配車サービスにおける公正性に焦点を当てた最近の研究は、効率性と公正性のバランスをとるために、従来の最適化手法とマルコフ決定プロセスを活用している。 しかし、これらの既存の研究には、伝統的な最適化からの短期的な意思決定や、伝統的な最適化とマルコフ決定プロセスに基づく手法から、より長い視野で、公平性の不安定性など、いくつかの問題がある。 これらの問題に対処するため、我々は、現在ライドシェアリングが直面している公正性問題を軽減するための動的マルコフ決定プロセスモデルを提案し、効率性と公正性のバランスを、2つの異なる特性で求めている。 一 従来及び現在のデータパターンのみに基づいて公正を考慮せずに、スケジュール全体に基づいて長期公正を考慮できるように、将来異なる場所から発生する要求数を予測するための予測モジュール。 (II) 効率と公平性のバランスを図る多目的多目的Qラーニングのためのカスタマイズされたスカラー化関数。 公開されている実世界のデータセットに対する大規模な実験により、提案手法が既存の最先端手法より優れていることが示された。

Matching in two-sided markets such as ride-hailing has recently received significant attention. However, existing studies on ride-hailing mainly focus on optimising efficiency, and fairness issues in ride-hailing have been neglected. Fairness issues in ride-hailing, including significant earning differences between drivers and variance of passenger waiting times among different locations, have potential impacts on economic and ethical aspects. The recent studies that focus on fairness in ride-hailing exploit traditional optimisation methods and the Markov Decision Process to balance efficiency and fairness. However, there are several issues in these existing studies, such as myopic short-term decision-making from traditional optimisation and instability of fairness in a comparably longer horizon from both traditional optimisation and Markov Decision Process-based methods. To address these issues, we propose a dynamic Markov Decision Process model to alleviate fairness issues currently faced by ride-hailing, and seek a balance between efficiency and fairness, with two distinct characteristics: (i) a prediction module to predict the number of requests that will be raised in the future from different locations to allow the proposed method to consider long-term fairness based on the whole timeline instead of consider fairness only based on historical and current data patterns; (ii) a customised scalarisation function for multi-objective multi-agent Q Learning that aims to balance efficiency and fairness. Extensive experiments on a publicly available real-world dataset demonstrate that our proposed method outperforms existing state-of-the-art methods.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# 基礎モデルによる大気科学探査の可能性について:ケーススタディ

On the Opportunities of (Re)-Exploring Atmospheric Science by Foundation Models: A Case Study ( http://arxiv.org/abs/2407.17842v1 )

ライセンス: Link先を確認
Lujia Zhang, Hanzhe Cui, Yurong Song, Chenyue Li, Binhang Yuan, Mengqian Lu, (参考訳) 大気科学における最先端のAIアプリケーションは、古典的なディープラーニングアプローチに基づいている。 しかし、個々の機能は独立した気候データセットから学習した別のモデルによって実現されるため、インテリジェントエージェントを構築するための複数の複雑な手順を自動で統合することはできない。 基礎モデル、特にマルチモーダル基礎モデルの出現は、不均一な入力データを処理し、複雑なタスクを実行する能力によって、この課題を克服する大きな機会を提供する。 本報告では, 現状の基盤モデルであるGPT-4oが, 様々な大気科学的タスクをどのように行うか, という, 中心的な課題について検討する。 この目的のために,気候データ処理,身体診断,予測と予測,適応と緩和の4つの主要なクラスにタスクを分類し,ケーススタディを実施している。 各課題について,具体的な議論とともにGPT-4oの性能を総合的に評価した。 このレポートは、将来のAI応用と大気科学の研究に新たな光を当てることを願っている。

Most state-of-the-art AI applications in atmospheric science are based on classic deep learning approaches. However, such approaches cannot automatically integrate multiple complicated procedures to construct an intelligent agent, since each functionality is enabled by a separate model learned from independent climate datasets. The emergence of foundation models, especially multimodal foundation models, with their ability to process heterogeneous input data and execute complex tasks, offers a substantial opportunity to overcome this challenge. In this report, we want to explore a central question - how the state-of-the-art foundation model, i.e., GPT-4o, performs various atmospheric scientific tasks. Toward this end, we conduct a case study by categorizing the tasks into four main classes, including climate data processing, physical diagnosis, forecast and prediction, and adaptation and mitigation. For each task, we comprehensively evaluate the GPT-4o's performance along with a concrete discussion. We hope that this report may shed new light on future AI applications and research in atmospheric science.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# DragText:ポイントベースの画像編集におけるテキスト埋め込みの再考

DragText: Rethinking Text Embedding in Point-based Image Editing ( http://arxiv.org/abs/2407.17843v1 )

ライセンス: Link先を確認
Gayoon Choi, Taejin Jeong, Sujung Hong, Jaehoon Joo, Seong Jae Hwang, (参考訳) ポイントベースの画像編集は、コンテンツドラッグによる正確で柔軟な制御を可能にする。 しかし, 編集プロセスにおけるテキスト埋め込みの役割については, 十分に検討されていない。 探索されていない重要な側面は、テキストと画像の埋め込みの相互作用である。 本研究では,拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みが一定であることを示す。 画像の埋め込みが初期状態から分岐するにつれて、画像とテキストの埋め込みの相違は重大な課題となる。 さらに,本文はドラッギングプロセス,特にコンテンツ整合性の維持と操作の達成に大きく影響していることがわかった。 これらの知見を活用するために、DragTextを提案する。DragTextは、テキストの埋め込みをドラッグ処理と組み合わせて最適化し、修正された画像埋め込みと組み合わせる。 同時に、原文プロンプトの整合性を維持するために、テキスト最適化プロセスの定期化を行う。 私たちのアプローチは、数行のコードだけで、既存の拡散ベースのドラッグメソッドとシームレスに統合できます。

Point-based image editing enables accurate and flexible control through content dragging. However, the role of text embedding in the editing process has not been thoroughly investigated. A significant aspect that remains unexplored is the interaction between text and image embeddings. In this study, we show that during the progressive editing of an input image in a diffusion model, the text embedding remains constant. As the image embedding increasingly diverges from its initial state, the discrepancy between the image and text embeddings presents a significant challenge. Moreover, we found that the text prompt significantly influences the dragging process, particularly in maintaining content integrity and achieving the desired manipulation. To utilize these insights, we propose DragText, which optimizes text embedding in conjunction with the dragging process to pair with the modified image embedding. Simultaneously, we regularize the text optimization process to preserve the integrity of the original text prompt. Our approach can be seamlessly integrated with existing diffusion-based drag methods with only a few lines of code.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# パーキンソン病分類のための革新的音声に基づく深層学習アプローチ : 体系的レビュー

Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review ( http://arxiv.org/abs/2407.17844v1 )

ライセンス: Link先を確認
Lisanne van Gelderen, Cristian Tejedor-García, (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、世界で2番目に多い神経変性疾患である。 近年の人工知能(AI),特に深層学習(DL)の進歩は,音声データの解析を通じてPD診断を大幅に強化している。 それでも研究の進展は、プライバシと倫理上の懸念から、広くアクセス可能な音声ベースのPDデータセットの限定的な利用によって制限されている。 このレビューでは、音声ベースのPD分類のための最新のDLベースのAIアプローチを取り上げ、2020年から2024年3月までに発行された33の科学作品のパフォーマンス、利用可能なリソース、関連する課題に焦点を当てている。 これらのDLアプローチは、エンド・ツー・エンド(E2E)学習、転送学習(TL)、深層音響特徴抽出(DAF)に分類される。 E2Eアプローチの中では、畳み込みニューラルネットワーク(CNN)が一般的だが、トランスフォーマーの人気はますます高まっている。 E2Eアプローチは、特にTransformerにおいて、限られたデータや計算資源といった課題に直面している。 TLは、より堅牢なPD診断と言語間の一般化性を提供することにより、これらの問題に対処する。 DAF抽出は、他のDLアプローチとより伝統的な機械学習(ML)手法の両方に対する深い特徴の具体的な影響を調べることで、結果の説明可能性と解釈可能性を改善することを目的としている。 しかし、E2E や TL に比べて性能が劣ることが多い。 このレビューでは、バイアス、説明可能性、プライバシーに関する未解決の問題についても論じ、今後の研究の必要性を強調している。

Parkinson's disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy and ethical concerns. This review covers the latest DL-based AI approaches for speech-based PD classification, focusing on performance, available resources and associated challenges of 33 scientific works published between 2020 and March 2024. These DL approaches are categorized into end-to-end (E2E) learning, transfer learning (TL) and deep acoustic features (DAF) extraction. Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAF extraction aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches. This review also discusses unresolved issues related to bias, explainability and privacy, highlighting the need for future research.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# Move and Act: 画像編集のためのオブジェクト操作と背景整合性の向上

Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing ( http://arxiv.org/abs/2407.17847v1 )

ライセンス: Link先を確認
Pengfei Jiang, Mingbao Lin, Fei Chao, Rongrong Ji, (参考訳) 現在の手法では、インバージョン、再構成、編集の3分岐構造を利用して、一貫した画像編集作業に取り組んでいる。 しかし,これらの手法は,編集対象の生成位置を制御できず,背景保存に問題がある。 これらの制限を克服するために、インバージョンと編集の2つのブランチのみを持つチューニング不要な手法を提案する。 このアプローチにより、ユーザはオブジェクトのアクションを同時に編集し、編集されたオブジェクトの生成位置を制御することができる。 さらに、背景保存の改善も達成している。 具体的には、対象領域に編集対象情報を転送し、特定のタイミングで反転処理中に他の領域の背景を修復または保存する。 編集段階では、画像の特徴を自己注意で利用して、インバージョンにおける対応する時間ステップのキーと値を問合せ、一貫した画像編集を実現する。 印象的な画像編集結果と定量的評価により,本手法の有効性が示された。 コードはhttps://github.com/mobiushy/move-act.comから入手できる。

Current methods commonly utilize three-branch structures of inversion, reconstruction, and editing, to tackle consistent image editing task. However, these methods lack control over the generation position of the edited object and have issues with background preservation. To overcome these limitations, we propose a tuning-free method with only two branches: inversion and editing. This approach allows users to simultaneously edit the object's action and control the generation position of the edited object. Additionally, it achieves improved background preservation. Specifically, we transfer the edited object information to the target area and repair or preserve the background of other areas during the inversion process at a specific time step. In the editing stage, we use the image features in self-attention to query the key and value of the corresponding time step in the inversion to achieve consistent image editing. Impressive image editing results and quantitative evaluation demonstrate the effectiveness of our method. The code is available at https://github.com/mobiushy/move-act.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# FlexiEdit: 拡張非デジタル編集のための周波数対応遅延リファインメント

FlexiEdit: Frequency-Aware Latent Refinement for Enhanced Non-Rigid Editing ( http://arxiv.org/abs/2407.17850v1 )

ライセンス: Link先を確認
Gwanhyeong Koo, Sunjae Yoon, Ji Woo Hong, Chang D. Yoo, (参考訳) 現在の画像編集法は主にDDIMインバージョンを利用しており、元の画像の属性とレイアウトを保存するために2分岐拡散方式を採用している。 しかし、これらの手法は、画像のレイアウトや構造を変更する非厳密な編集に直面する。 包括的分析の結果,DDIM潜伏成分は原画像の特徴とレイアウトを維持する上で不可欠であり,これらの制約に大きく寄与することが明らかとなった。 これに対応するためにFlexiEditを導入し、ターゲット編集領域の高周波成分を削減し、DDIMラテントを精細化することでテキストプロンプトの入力精度を高める。 FlexiEditは,(1)レイアウト調整の適合性を改善するためにDDIMラテントを修飾するラテントリファインメント,(2)リバージョンによる編集フィデリティ向上,という2つの重要なコンポーネントから構成される。 本手法は画像編集,特に複雑な非剛性編集において顕著な進歩を示し,比較実験によりその拡張能力を示す。

Current image editing methods primarily utilize DDIM Inversion, employing a two-branch diffusion approach to preserve the attributes and layout of the original image. However, these methods encounter challenges with non-rigid edits, which involve altering the image's layout or structure. Our comprehensive analysis reveals that the high-frequency components of DDIM latent, crucial for retaining the original image's key features and layout, significantly contribute to these limitations. Addressing this, we introduce FlexiEdit, which enhances fidelity to input text prompts by refining DDIM latent, by reducing high-frequency components in targeted editing areas. FlexiEdit comprises two key components: (1) Latent Refinement, which modifies DDIM latent to better accommodate layout adjustments, and (2) Edit Fidelity Enhancement via Re-inversion, aimed at ensuring the edits more accurately reflect the input text prompts. Our approach represents notable progress in image editing, particularly in performing complex non-rigid edits, showcasing its enhanced capability through comparative experiments.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# ゼロショット音声認識における簡易手法のスケーリング

Scaling A Simple Approach to Zero-Shot Speech Recognition ( http://arxiv.org/abs/2407.17852v1 )

ライセンス: Link先を確認
Jinming Zhao, Vineel Pratap, Michael Auli, (参考訳) 自動音声認識の言語カバレッジが急速に向上したにもかかわらず、すべての言語を既知のスクリプトでカバーする分野には程遠い。 近年の研究では、わずかなテキストデータしか必要としないゼロショット方式による有望な結果が示されているが、精度は、しばしば目に見えない言語では弱い使用音素の質に大きく依存している。 本稿では,MMS Zero-shotについて,ローマン化に基づく概念的にシンプルなアプローチと,1,078の異なる言語で訓練されたデータに基づく音響モデルを提案する。 MMS Zero-shotは、以前の最高の作業と比較して、平均的な文字エラー率を100言語以上の相対46%削減する。 さらに,提案手法の誤差率はドメイン内教師付きベースラインの2.5倍に過ぎず,評価言語にラベル付きデータを全く用いていない。

Despite rapid progress in increasing the language coverage of automatic speech recognition, the field is still far from covering all languages with a known writing script. Recent work showed promising results with a zero-shot approach requiring only a small amount of text data, however, accuracy heavily depends on the quality of the used phonemizer which is often weak for unseen languages. In this paper, we present MMS Zero-shot a conceptually simpler approach based on romanization and an acoustic model trained on data in 1,078 different languages or three orders of magnitude more than prior art. MMS Zero-shot reduces the average character error rate by a relative 46% over 100 unseen languages compared to the best previous work. Moreover, the error rate of our approach is only 2.5x higher compared to in-domain supervised baselines, while our approach uses no labeled data for the evaluation languages at all.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# Javaソースコードリポジトリにおけるコミット変更のコンパイル

Compilation of Commit Changes within Java Source Code Repositories ( http://arxiv.org/abs/2407.17853v1 )

ライセンス: Link先を確認
Stefan Schott, Wolfram Fischer, Serena Elisa Ponta, Jonas Klauke, Eric Bodden, (参考訳) Javaアプリケーションはバイトコードとしてサードパーティの依存関係を含む。 これらのアプリケーションをセキュアに保つために、既知の脆弱性を含む依存関係を再識別するツールが提案されている。 しかし、そのような再識別を可能にするためには、各脆弱性パッチに対して、最初に各脆弱性を修正するバイトコードを取得する必要がある。 このような依存関係のパッチは、修正コミットの形でデータベースでキュレートされる。 しかし、fixcommitsはソースコードにあり、Javaプロジェクト全体をバイトコードに自動的にコンパイルすることは、特に非現在のバージョンのコードでは、非常に難しい。 本稿では,あるコミット内で修正された関連するコードのみをコンパイルすることで,この問題を回避するアプローチであるJESSを提案する。 JESSは、コミットされた変更参照した部分のみを保持することで、コードを削減します。 名前解決エラーを避けるため、JESSはコンパイラで利用できないエンティティへの参照のスタブを自動的に推論する。 ここでの課題は、上記の再識別を促進するために、JESSは完全なプロジェクトのコンパイルを成功させることで得られるバイトコードとほとんど同じバイトコードを生成する必要があることである。 347のGitHubプロジェクトでの評価によると、JESSは独立して72%のメソッドとコンストラクタをコンパイルできる。 さらに、Project KBの修正コミットデータベースでは、コミット内で修正されたファイルのわずか8%が、提供されるビルドスクリプトでコンパイルできるため、JESSは、コミットが修正した全ファイルの73%をコンパイルすることができる。

Java applications include third-party dependencies as bytecode. To keep these applications secure, researchers have proposed tools to re-identify dependencies that contain known vulnerabilities. Yet, to allow such re-identification, one must obtain, for each vulnerability patch, the bytecode fixing the respective vulnerability at first. Such patches for dependencies are curated in databases in the form of fix-commits. But fixcommits are in source code, and automatically compiling whole Java projects to bytecode is notoriously hard, particularly for non-current versions of the code. In this paper, we thus propose JESS, an approach that largely avoids this problem by compiling solely the relevant code that was modified within a given commit. JESS reduces the code, retaining only those parts that the committed change references. To avoid name-resolution errors, JESS automatically infers stubs for references to entities that are unavailable to the compiler. A challenge is here that, to facilitate the above mentioned reidentification, JESS must seek to produce bytecode that is almost identical to the bytecode which one would obtain by a successful compilation of the full project. An evaluation on 347 GitHub projects shows that JESS is able to compile, in isolation, 72% of methods and constructors, of which 89% have bytecode equal to the original one. Furthermore, on the Project KB database of fix-commits, in which only 8% of files modified within the commits can be compiled with the provided build scripts, JESS is able to compile 73% of all files that these commits modify.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# 共有価値に基づくマルチモーダル情報抽出のためのコントラストアライメント

Shapley Value-based Contrastive Alignment for Multimodal Information Extraction ( http://arxiv.org/abs/2407.17854v1 )

ライセンス: Link先を確認
Wen Luo, Yu Xia, Shen Tianshu, Sujian Li, (参考訳) ソーシャルメディアの興隆とマルチモーダルコミュニケーションの指数的成長は、マルチモーダル情報抽出(MIE)の先進的な技術を必要とする。 しかし、既存の方法論は主にイメージとテキストの相互作用に依存しており、画像とテキスト間のセマンティクスとモダリティのギャップによってしばしば大きな課題に直面している。 本稿では,大規模なマルチモーダルモデル(LMM)を用いて,これらのギャップを埋める記述的テキストコンテキストを生成する,画像-コンテキスト-テキストインタラクションの新しいパラダイムを提案する。 このパラダイムに則り、コンテキストコンテキストとコンテキストイメージのペアを整合させる新しい共有価値に基づくコントラストアライメント(Shap-CA)手法を提案する。 Shap-CAは当初、協調ゲーム理論からShapley値の概念を適用し、コンテキスト、テキスト、画像の集合における各要素の個々のコントリビューションを、全体意味とモダリティのオーバーラップに対して評価する。 この定量的評価の後、コントラスト学習戦略を用いて、コンテキストテキスト/イメージペア間の対話的コントリビューションを強化するとともに、これらのペア間の影響を最小限に抑える。 さらに, 選択的クロスモーダル核融合のための適応核融合モジュールを設計する。 4つのMIEデータセットにわたる大規模な実験により、我々の手法が既存の最先端手法を著しく上回ることを示した。

The rise of social media and the exponential growth of multimodal communication necessitates advanced techniques for Multimodal Information Extraction (MIE). However, existing methodologies primarily rely on direct Image-Text interactions, a paradigm that often faces significant challenges due to semantic and modality gaps between images and text. In this paper, we introduce a new paradigm of Image-Context-Text interaction, where large multimodal models (LMMs) are utilized to generate descriptive textual context to bridge these gaps. In line with this paradigm, we propose a novel Shapley Value-based Contrastive Alignment (Shap-CA) method, which aligns both context-text and context-image pairs. Shap-CA initially applies the Shapley value concept from cooperative game theory to assess the individual contribution of each element in the set of contexts, texts and images towards total semantic and modality overlaps. Following this quantitative evaluation, a contrastive learning strategy is employed to enhance the interactive contribution within context-text/image pairs, while minimizing the influence across these pairs. Furthermore, we design an adaptive fusion module for selective cross-modal fusion. Extensive experiments across four MIE datasets demonstrate that our method significantly outperforms existing state-of-the-art methods.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# MDS-ED:救急部門におけるマルチモーダル意思決定支援 -- 救急医療における診断と劣化予測のためのベンチマークデータセット

MDS-ED: Multimodal Decision Support in the Emergency Department -- a Benchmark Dataset for Diagnoses and Deterioration Prediction in Emergency Medicine ( http://arxiv.org/abs/2407.17856v1 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz, Nils Strodthoff, (参考訳) 背景: 医学的意思決定支援アルゴリズムのベンチマークは、データセットへのアクセスが限られ、予測タスクが狭く、入力モダリティが制限されているため、しばしば苦労する。 これらの制限は、緊急ケア、複製の複雑化、検証、ベンチマークの改善など、高リスク領域における臨床関連性とパフォーマンスに影響を与える。 方法: 救急部門(ED)におけるMIMIC-IV, ベンチマークプロトコル, およびマルチモーダル意思決定支援評価の初期結果に基づくデータセットを提案する。 我々は、人口統計、バイオメトリックス、バイタルサイン、検査値、心電図波形など、最初の1.5時間からさまざまなデータモダリティを使用します。 ICD-10符号による診断の予測と患者の劣化の予測の2つの文脈で1443の臨床ラベルを分析した。 結果: 心筋梗塞などの心疾患, 腎疾患や糖尿病などの非心臓疾患を含む1428例中357例において, AUROCスコアが0.8以上の統計的に有意な値を示した。 劣化モデルでは, 心停止, 機械的換気, ICU入院, 短期的, 長期的死亡などの重要な事象を含む15項目中13項目について, 0.8以上の統計的に有意なスコアが得られた。 生波形データを組み込むことで、モデル性能が大幅に向上し、この効果の最初の堅牢な実演の1つとなる。 結論: 本研究は, 幅広い臨床業務を包含し, 緊急時に早期に収集した包括的特徴を利用するデータセットの特異性を強調した。 AUROCの高得点が診断や劣化の目標に当てはまるように、急性および緊急医療における意思決定に革命をもたらすアプローチの可能性を強調している。

Background: Benchmarking medical decision support algorithms often struggles due to limited access to datasets, narrow prediction tasks, and restricted input modalities. These limitations affect their clinical relevance and performance in high-stakes areas like emergency care, complicating replication, validation, and improvement of benchmarks. Methods: We introduce a dataset based on MIMIC-IV, benchmarking protocol, and initial results for evaluating multimodal decision support in the emergency department (ED). We use diverse data modalities from the first 1.5 hours of patient arrival, including demographics, biometrics, vital signs, lab values, and electrocardiogram waveforms. We analyze 1443 clinical labels across two contexts: predicting diagnoses with ICD-10 codes and forecasting patient deterioration. Results: Our multimodal diagnostic model achieves an AUROC score over 0.8 in a statistically significant manner for 357 out of 1428 conditions, including cardiac issues like myocardial infarction and non-cardiac conditions such as renal disease and diabetes. The deterioration model scores above 0.8 in a statistically significant manner for 13 out of 15 targets, including critical events like cardiac arrest and mechanical ventilation, ICU admission as well as short- and long-term mortality. Incorporating raw waveform data significantly improves model performance, which represents one of the first robust demonstrations of this effect. Conclusions: This study highlights the uniqueness of our dataset, which encompasses a wide range of clinical tasks and utilizes a comprehensive set of features collected early during the emergency after arriving at the ED. The strong performance, as evidenced by high AUROC scores across diagnostic and deterioration targets, underscores the potential of our approach to revolutionize decision-making in acute and emergency medicine.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# Mew: 効率的な多重化ネットワークによる多重蛍光画像解析

Mew: Multiplexed Immunofluorescence Image Analysis through an Efficient Multiplex Network ( http://arxiv.org/abs/2407.17857v1 )

ライセンス: Link先を確認
Sukwon Yun, Jie Peng, Alexandro E. Trevino, Chanyoung Park, Tianlong Chen, (参考訳) マルチプレクシド免疫蛍光(mIF)画像に対するグラフベースのアプローチの最近の進歩は、患者レベルの表現性について深い洞察を与え、その領域を前進させてきた。 しかし,既存の手法がグラフ固有の帰納バイアス,特にセル接続で観察されるホモフィリ特性に適切に対処できないセル状不均一性,高次元画像からのセルグラフの扱いが,多数のセルを管理する上で困難となるスケーラビリティ,の2つの主な課題に直面している。 これらの制限を克服するために,マルチプレックスネットワークのレンズを通してmIF画像を効率的に処理する新しいフレームワークであるMewを紹介した。 Mew は、幾何学情報のための Voronoi ネットワークと、セルワイドの均一性を捉えるセル型ネットワークという、2つの異なる層からなる多重ネットワークを革新的に構築する。 このフレームワークは、トレーニング中にグラフ全体を処理できるスケーラブルで効率的なグラフニューラルネットワーク(GNN)を備えている。 さらに、Mewは、画像分類のための関連レイヤを自律的に識別する解釈可能なアテンションモジュールを統合する。 様々な施設から得られた実世界の患者データセットに関する大規模な実験は、メウの顕著な効果と効率を強調し、mIF画像解析の大幅な進歩を示している。 Mewのソースコードは以下の通りである。

Recent advancements in graph-based approaches for multiplexed immunofluorescence (mIF) images have significantly propelled the field forward, offering deeper insights into patient-level phenotyping. However, current graph-based methodologies encounter two primary challenges: (1) Cellular Heterogeneity, where existing approaches fail to adequately address the inductive biases inherent in graphs, particularly the homophily characteristic observed in cellular connectivity and; (2) Scalability, where handling cellular graphs from high-dimensional images faces difficulties in managing a high number of cells. To overcome these limitations, we introduce Mew, a novel framework designed to efficiently process mIF images through the lens of multiplex network. Mew innovatively constructs a multiplex network comprising two distinct layers: a Voronoi network for geometric information and a Cell-type network for capturing cell-wise homogeneity. This framework equips a scalable and efficient Graph Neural Network (GNN), capable of processing the entire graph during training. Furthermore, Mew integrates an interpretable attention module that autonomously identifies relevant layers for image classification. Extensive experiments on a real-world patient dataset from various institutions highlight Mew's remarkable efficacy and efficiency, marking a significant advancement in mIF image analysis. The source code of Mew can be found here: \url{https://github.com/UNITES-Lab/Mew}
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# 記述型データレスインテント分類の探索

Exploring Description-Augmented Dataless Intent Classification ( http://arxiv.org/abs/2407.17862v1 )

ライセンス: Link先を確認
Ruoyu Hu, Foaad Khosmood, Abbas Edalat, (参考訳) 本研究では,現在最先端(SOTA)テキスト埋め込みモデルを用いたデータレスインテント分類において,記述強化された埋め込み類似性を活用するためのいくつかのスキームを提案する。 提案手法は,4つの目的分類データセットに対して提案手法の結果を報告し,類似した性質の以前の研究と比較した。 我々の研究は、データレス分類のスケーリングを、多くの目に見えない意図に拡張する有望な結果を示している。 競争結果と大幅な改善(+6.12\%Avg)を示す。 ラベル付きデータやタスク固有のデータをトレーニングせずに、強力なゼロショットベースライン上で実行すること。 さらに,本手法の欠点を定性的に解析し,今後の研究の指針となる。

In this work, we introduce several schemes to leverage description-augmented embedding similarity for dataless intent classification using current state-of-the-art (SOTA) text embedding models. We report results of our methods on four commonly used intent classification datasets and compare against previous works of a similar nature. Our work shows promising results for dataless classification scaling to a large number of unseen intents. We show competitive results and significant improvements (+6.12\% Avg.) over strong zero-shot baselines, all without training on labelled or task-specific data. Furthermore, we provide qualitative error analysis of the shortfalls of this methodology to help guide future research in this area.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# factgenie: 生成したテキストのスパンベース評価フレームワーク

factgenie: A Framework for Span-based Evaluation of Generated Texts ( http://arxiv.org/abs/2407.17863v1 )

ライセンス: Link先を確認
Zdeněk Kasner, Ondřej Plátek, Patrícia Schmidtová, Simone Balloccu, Ondřej Dušek, (参考訳) 本稿では,テキストモデル出力における単語スパンのアノテートと可視化のためのフレームワークであるファクトジェニーについて述べる。 アノテーションは意味的な不正確さや無関係なテキストなど、様々なスパンベースの現象をキャプチャすることができる。 ファクトジェニーでは、アノテーションは人間のクラウドワーカーと大きな言語モデルの両方から収集することができる。 我々のフレームワークはデータ視覚化とテキストアノテーションの収集のためのWebインターフェースで構成されており、容易に拡張可能なコードベースをベースとしています。

We present factgenie: a framework for annotating and visualizing word spans in textual model outputs. Annotations can capture various span-based phenomena such as semantic inaccuracies or irrelevant text. With factgenie, the annotations can be collected both from human crowdworkers and large language models. Our framework consists of a web interface for data visualization and gathering text annotations, powered by an easily extensible codebase.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# 大規模言語モデルを用いた財務文書分析

Financial Statement Analysis with Large Language Models ( http://arxiv.org/abs/2407.17866v1 )

ライセンス: Link先を確認
Alex Kim, Maximilian Muhn, Valeri Nikolaev, (参考訳) LLMが専門家の人間アナリストと似た方法で財務諸表分析を成功させるかどうかを検討する。 我々は、標準化された匿名の財務諸表をGPT4に提供し、モデルを解析して将来の収益の方向性を決定するよう指示する。 物語や業界特化情報がないにもかかわらず、LLMは財務アナリストの業績予測能力を上回っている。 LLMは、アナリストが苦労する傾向にある状況において、人間アナリストに対して相対的な優位性を示す。 さらに,LLMの予測精度は,狭義の最先端MLモデルの性能と同等であることがわかった。 LLM予測はトレーニングメモリに由来するものではない。 代わりに、LCMは、企業の将来のパフォーマンスに関する有用な物語的洞察を生成する。 最後に、GPTの予測に基づく貿易戦略は、他のモデルに基づく戦略よりもシャープ比とアルファ率が高い。 その結果,LCMは意思決定において中心的な役割を果たす可能性が示唆された。

We investigate whether an LLM can successfully perform financial statement analysis in a way similar to a professional human analyst. We provide standardized and anonymous financial statements to GPT4 and instruct the model to analyze them to determine the direction of future earnings. Even without any narrative or industry-specific information, the LLM outperforms financial analysts in its ability to predict earnings changes. The LLM exhibits a relative advantage over human analysts in situations when the analysts tend to struggle. Furthermore, we find that the prediction accuracy of the LLM is on par with the performance of a narrowly trained state-of-the-art ML model. LLM prediction does not stem from its training memory. Instead, we find that the LLM generates useful narrative insights about a company's future performance. Lastly, our trading strategies based on GPT's predictions yield a higher Sharpe ratio and alphas than strategies based on other models. Taken together, our results suggest that LLMs may take a central role in decision-making.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# EllipBench: マシンラーニングベースの楕円計測モデリングのための大規模ベンチマーク

EllipBench: A Large-scale Benchmark for Machine-learning based Ellipsometry Modeling ( http://arxiv.org/abs/2407.17869v1 )

ライセンス: Link先を確認
Yiming Ma, Xinjie Li, Xin Sun, Zhiyong Wang, Lionel Z. Wang, (参考訳) エリプソメトリーは、薄膜の光学特性と厚さを間接的に測定するために用いられる。 しかしながら, エリプソメトリーの逆問題の解決には, 人間の専門知識が伴うため, 時間を要する。 多くの研究は、複雑な数学的適合過程をモデル化するために、伝統的な機械学習に基づく手法を使用している。 私たちの研究では、ディープラーニングの観点からこの問題にアプローチしています。 まず,深層学習を容易にするための大規模ベンチマークデータセットを提案する。 提案データセットは, 98種類の薄膜材料と, 金属, 合金, 化合物, 高分子を含む4種類の基板材料を含む。 さらに,残差接続と自己認識機構を利用して大量のデータポイントを学習する深層学習フレームワークを提案する。 また,薄膜厚み予測における複数解の共通課題に対処するために,再構成損失を導入する。 従来の機械学習手法と比較して,提案したデータセット上でのSOTA(State-of-the-art)性能を実現する。 データセットとコードは受け入れ次第利用できる。

Ellipsometry is used to indirectly measure the optical properties and thickness of thin films. However, solving the inverse problem of ellipsometry is time-consuming since it involves human expertise to apply the data fitting techniques. Many studies use traditional machine learning-based methods to model the complex mathematical fitting process. In our work, we approach this problem from a deep learning perspective. First, we introduce a large-scale benchmark dataset to facilitate deep learning methods. The proposed dataset encompasses 98 types of thin film materials and 4 types of substrate materials, including metals, alloys, compounds, and polymers, among others. Additionally, we propose a deep learning framework that leverages residual connections and self-attention mechanisms to learn the massive data points. We also introduce a reconstruction loss to address the common challenge of multiple solutions in thin film thickness prediction. Compared to traditional machine learning methods, our framework achieves state-of-the-art (SOTA) performance on our proposed dataset. The dataset and code will be available upon acceptance.
翻訳日:2024-07-26 14:48:09 公開日:2024-07-25
# LLM時代におけるテキストによる脅威に対するディジタル法医学とインシデント対応パイプラインの準備は可能か?

Is the Digital Forensics and Incident Response Pipeline Ready for Text-Based Threats in LLM Era? ( http://arxiv.org/abs/2407.17870v1 )

ライセンス: Link先を確認
Avanti Bhandarkar, Ronald Wilson, Anushka Swarup, Mengdi Zhu, Damon Woodard, (参考訳) 生成AIの時代において、NTG(Neural Text Generators)の普及は、特にDigital Forensics and Incident Response(DFIR)の領域において、新たなサイバーセキュリティ上の課題を提示している。 これらの課題は主に、ピアフィッシングや偽情報キャンペーンのような先進的な攻撃の背後にある情報源の検出と帰属に関するものである。 NTGが進化するにつれて、人間とNTGによって書かれたテキストを区別する作業は極めて複雑になる。 本稿では,テキストベースのセキュリティシステムに適したDFIRパイプラインを厳格に評価する。 CS-ACTと呼ばれる新しい人間とNTGの共著者によるテキスト攻撃を導入することで、従来のDFIR手法の重大な脆弱性を明らかにし、理想的なシナリオと現実世界の状況の相違を強調した。 14の多様なデータセットと43のユニークなNTGを用いて、最新のGPT-4まで、我々の研究は、法医学的なプロファイリングフェーズにおける重大な脆弱性、特にNTGの作者による脆弱性を特定した。 包括的評価では,これらの脆弱性に対する重要な貢献者として,モデル高度化やNTG内の特異なスタイルの欠如などの要因が指摘されている。 本研究は,NTGの体系化,NTGの体系化,NTG系統のマッピングによる階層的帰属の実施など,より高度で適応性の高い戦略の必要性を浮き彫りにした。 これにより、将来の研究と、より回復力のあるテキストベースのセキュリティシステムの開発のステージが整う。

In the era of generative AI, the widespread adoption of Neural Text Generators (NTGs) presents new cybersecurity challenges, particularly within the realms of Digital Forensics and Incident Response (DFIR). These challenges primarily involve the detection and attribution of sources behind advanced attacks like spearphishing and disinformation campaigns. As NTGs evolve, the task of distinguishing between human and NTG-authored texts becomes critically complex. This paper rigorously evaluates the DFIR pipeline tailored for text-based security systems, specifically focusing on the challenges of detecting and attributing authorship of NTG-authored texts. By introducing a novel human-NTG co-authorship text attack, termed CS-ACT, our study uncovers significant vulnerabilities in traditional DFIR methodologies, highlighting discrepancies between ideal scenarios and real-world conditions. Utilizing 14 diverse datasets and 43 unique NTGs, up to the latest GPT-4, our research identifies substantial vulnerabilities in the forensic profiling phase, particularly in attributing authorship to NTGs. Our comprehensive evaluation points to factors such as model sophistication and the lack of distinctive style within NTGs as significant contributors for these vulnerabilities. Our findings underscore the necessity for more sophisticated and adaptable strategies, such as incorporating adversarial learning, stylizing NTGs, and implementing hierarchical attribution through the mapping of NTG lineages to enhance source attribution. This sets the stage for future research and the development of more resilient text-based security systems.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# LLM生成文脈記述によるドメイン特化ASRの改善

Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions ( http://arxiv.org/abs/2407.17874v1 )

ライセンス: Link先を確認
Jiwon Suh, Injae Na, Woohwan Jung, (参考訳) エンドツーエンド自動音声認識(E2E ASR)システムは、広範囲なデータセットのトレーニングを通じて音声認識を大幅に改善した。 これらの進歩にもかかわらず、適切な名詞や専門用語など、ドメイン固有の単語を正確に認識することは依然として困難である。 この問題に対処するために,アーキテクチャを変更することなく,その一般化性能を保ちながら,記述を効果的に活用する手法を提案する。 さらに,デコーダの微調整とコンテキスト摂動という,ドメイン固有のASRを改善するための2つのトレーニング手法を提案する。 また,説明が不可能な場合には,LLM(Large Language Model)を用いて簡単なメタデータで記述を生成する手法を提案する。 提案手法は実生活データセットにおけるドメイン固有のASR精度を顕著に向上し,LLMによる記述は人為的記述よりも有効であることを示した。

End-to-end automatic speech recognition (E2E ASR) systems have significantly improved speech recognition through training on extensive datasets. Despite these advancements, they still struggle to accurately recognize domain specific words, such as proper nouns and technical terminologies. To address this problem, we propose a method to utilize the state-of-the-art Whisper without modifying its architecture, preserving its generalization performance while enabling it to leverage descriptions effectively. Moreover, we propose two additional training techniques to improve the domain specific ASR: decoder fine-tuning, and context perturbation. We also propose a method to use a Large Language Model (LLM) to generate descriptions with simple metadata, when descriptions are unavailable. Our experiments demonstrate that proposed methods notably enhance domain-specific ASR accuracy on real-life datasets, with LLM-generated descriptions outperforming human-crafted ones in effectiveness.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# 競合的共進化による二元対向最適化の克服

Overcoming Binary Adversarial Optimisation with Competitive Coevolution ( http://arxiv.org/abs/2407.17875v1 )

ライセンス: Link先を確認
Per Kristian Lehre, Shishen Lin, (参考訳) 共進化的アルゴリズム(CoEA)は、テストケースをペアに設計するが、特に設計とテストがバイナリ結果をもたらすバイナリテストベースの問題において、逆最適化に頻繁に使用される。 設計の有効性は、テストに対するパフォーマンスによって決定され、テストの価値は、失敗する設計を特定する能力に基づいており、多くの場合、より洗練されたテストや改善された設計につながる。 しかし、CoEAは、解離のような複雑な、時には病理学的な振る舞いを示すことがある。 実行時解析を通じて、期待多項式ランタイムにおけるテストベース対角最適化問題を効率的に解けるかどうかを厳密に分析することを目的としている。 本稿では,バイナリテストベースの対数最適化問題に対して,$(1,\lambda)$ CoEA の厳密な実行時解析を行う。 特に,双対問題と呼ばれるバイナリテストベースのベンチマーク問題を導入し,この問題に対する競争力のあるCoEAの最初のランタイム解析を開始する。 数学的解析により、$(1,\lambda)$-CoEAは、十分に低い突然変異率と大きな子孫の集団サイズを仮定する期待多項式ランタイムにおいて、対角問題の最適解に対する$\varepsilon$近似を効率的に見つけることができることを示した。 一方、標準の$(1,\lambda)$-EAは多項式ランタイムにおける \Diagonal 問題の最適解に対する$\varepsilon$近似を見つけられなかった。 これは、二元対向最適化問題を解くための共進化の有望な可能性を示している。

Co-evolutionary algorithms (CoEAs), which pair candidate designs with test cases, are frequently used in adversarial optimisation, particularly for binary test-based problems where designs and tests yield binary outcomes. The effectiveness of designs is determined by their performance against tests, and the value of tests is based on their ability to identify failing designs, often leading to more sophisticated tests and improved designs. However, CoEAs can exhibit complex, sometimes pathological behaviours like disengagement. Through runtime analysis, we aim to rigorously analyse whether CoEAs can efficiently solve test-based adversarial optimisation problems in an expected polynomial runtime. This paper carries out the first rigorous runtime analysis of $(1,\lambda)$ CoEA for binary test-based adversarial optimisation problems. In particular, we introduce a binary test-based benchmark problem called \Diagonal problem and initiate the first runtime analysis of competitive CoEA on this problem. The mathematical analysis shows that the $(1,\lambda)$-CoEA can efficiently find an $\varepsilon$ approximation to the optimal solution of the \Diagonal problem, i.e. in expected polynomial runtime assuming sufficiently low mutation rates and large offspring population size. On the other hand, the standard $(1,\lambda)$-EA fails to find an $\varepsilon$ approximation to the optimal solution of the \Diagonal problem in polynomial runtime. This suggests the promising potential of coevolution for solving binary adversarial optimisation problems.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# テキスト空間化のための潜伏埋め込みの大規模感度解析と次元化

A Large-Scale Sensitivity Analysis on Latent Embeddings and Dimensionality Reductions for Text Spatializations ( http://arxiv.org/abs/2407.17876v1 )

ライセンス: Link先を確認
Daniel Atzberger, Tim Cech, Willy Scheibel, Jürgen Döllner, Michael Behrisch, Tobias Schreck, (参考訳) テキストコーパスの文書間のセマンティックな類似性は、2次元のスキャッタプロットレイアウトに基づいてマップのようなメタファを用いて可視化することができる。 これらのレイアウトは、文書終末行列の次元的縮小や、トピックモデルを含む潜在埋め込み内の表現から生じる。 これにより、結果のレイアウトは次元減少の入力データとハイパーパラメータに依存し、従ってそれらの変化に影響される。 さらに、結果のレイアウトは、入力データの変化と次元減少のハイパーパラメータの影響を受けます。 しかし、そのようなレイアウトの変更は、ユーザーによる追加の認知的努力を必要とする。 本研究では,(1)テキストコーパスの変化,(2)ハイパーパラメータの変化,(3)初期化におけるランダム性について,これらのレイアウトの安定性を解析する感度研究を提案する。 このアプローチには、データ計測とデータ分析という2つの段階があります。 まず,3つのテキストコーパスと6つのテキスト埋め込みの組み合わせと,グリッド探索による次元減少のハイパーパラメータ選択のレイアウトを導出した。 その後、局所的・大域的構造とクラス分離に関する10の指標を用いて、レイアウトの類似性を定量化した。 次に,得られた42817個の表データ点を記述的統計解析により解析した。 そこで我々は、レイアウトアルゴリズムに関する情報決定のためのガイドラインを導出し、特定のハイパーパラメータ設定をハイライトする。 https://github.com/hpicgs/Topic-Models-and-dimensionality-reduction-Sensitivity-StudyでGitリポジトリとして実装し、その結果をZenodo Archive at https://doi.org/10.5281/zenodo.12772898で公開しています。

The semantic similarity between documents of a text corpus can be visualized using map-like metaphors based on two-dimensional scatterplot layouts. These layouts result from a dimensionality reduction on the document-term matrix or a representation within a latent embedding, including topic models. Thereby, the resulting layout depends on the input data and hyperparameters of the dimensionality reduction and is therefore affected by changes in them. Furthermore, the resulting layout is affected by changes in the input data and hyperparameters of the dimensionality reduction. However, such changes to the layout require additional cognitive efforts from the user. In this work, we present a sensitivity study that analyzes the stability of these layouts concerning (1) changes in the text corpora, (2) changes in the hyperparameter, and (3) randomness in the initialization. Our approach has two stages: data measurement and data analysis. First, we derived layouts for the combination of three text corpora and six text embeddings and a grid-search-inspired hyperparameter selection of the dimensionality reductions. Afterward, we quantified the similarity of the layouts through ten metrics, concerning local and global structures and class separation. Second, we analyzed the resulting 42817 tabular data points in a descriptive statistical analysis. From this, we derived guidelines for informed decisions on the layout algorithm and highlight specific hyperparameter settings. We provide our implementation as a Git repository at https://github.com/hpicgs/Topic-Models-and-Dimensionality-Reduction-Sensitivity-Study and results as Zenodo archive at https://doi.org/10.5281/zenodo.12772898.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# ディープラーニングによる3Dポイントクラウド理解の促進: 総合的な調査

Advancing 3D Point Cloud Understanding through Deep Transfer Learning: A Comprehensive Survey ( http://arxiv.org/abs/2407.17877v1 )

ライセンス: Link先を確認
Shahab Saquib Sohail, Yassine Himeur, Hamza Kheddar, Abbes Amira, Fodil Fadli, Shadi Atalla, Abigail Copiaco, Wathiq Mansoor, (参考訳) 3Dポイントクラウド(3DPC)は、ディープラーニング(DL)の進歩によって大きく進化し、恩恵を受けている。 しかし後者は、データや注釈付きデータの欠如、トレーニングデータとテストデータの間に大きなギャップがあること、高い計算リソースの必要性など、さまざまな問題に直面している。 そのために,対象データ/タスクのトレーニングにおいて,ソースデータ/タスクから得られた知識を活用して,依存度とコストを削減するディープ・トランスファー・ラーニング(DTL)が広く研究されている。 多数のDTLフレームワークが、同じシーンの複数のスキャンから得られた点雲を整列するために提案されている。 さらに、DTLのサブセットであるDAは、ノイズや欠落点を扱うことで、ポイントクラウドデータの質を高めるために修正されている。 最終的に、微調整とDAアプローチは、ポイントクラウドデータに固有の難しさに対処する上で、その効果を実証した。 本稿は、この点について初めて光を当てたレビューである。 DTLとドメイン適応(DA)を使用して3DPCを理解するための最新の技術の概要を提供する。 したがって、DTLの背景はまずデータセットと評価指標と共に提示される。 明確に定義された分類法を導入し、異なる知識伝達戦略や性能といった異なる側面を考慮して詳細な比較を行う。 本稿では,3DPCオブジェクト検出,セマンティックラベリング,セグメンテーション,分類,登録,ダウンサンプリング/アップサンプリング,デノナイズなど,さまざまな応用について述べる。 さらに、提示されたフレームワークの利点と限界について論じ、オープンな課題を特定し、潜在的研究の方向性を提案する。

The 3D point cloud (3DPC) has significantly evolved and benefited from the advance of deep learning (DL). However, the latter faces various issues, including the lack of data or annotated data, the existence of a significant gap between training data and test data, and the requirement for high computational resources. To that end, deep transfer learning (DTL), which decreases dependency and costs by utilizing knowledge gained from a source data/task in training a target data/task, has been widely investigated. Numerous DTL frameworks have been suggested for aligning point clouds obtained from several scans of the same scene. Additionally, DA, which is a subset of DTL, has been modified to enhance the point cloud data's quality by dealing with noise and missing points. Ultimately, fine-tuning and DA approaches have demonstrated their effectiveness in addressing the distinct difficulties inherent in point cloud data. This paper presents the first review shedding light on this aspect. it provides a comprehensive overview of the latest techniques for understanding 3DPC using DTL and domain adaptation (DA). Accordingly, DTL's background is first presented along with the datasets and evaluation metrics. A well-defined taxonomy is introduced, and detailed comparisons are presented, considering different aspects such as different knowledge transfer strategies, and performance. The paper covers various applications, such as 3DPC object detection, semantic labeling, segmentation, classification, registration, downsampling/upsampling, and denoising. Furthermore, the article discusses the advantages and limitations of the presented frameworks, identifies open challenges, and suggests potential research directions.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# HG-PIPE:ハイブリッドパイプラインを用いたビジョントランス高速化

HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline ( http://arxiv.org/abs/2407.17879v1 )

ライセンス: Link先を確認
Qingyu Guo, Jiayong Wan, Songqiang Xu, Meng Li, Yuan Wang, (参考訳) フィールドプログラマブルゲートアレイ(FPGA)を用いたビジョントランスフォーマー(ViT)アクセラレーションは有望だが難しい。 既存のFPGAベースのViTアクセラレータは主に時間的アーキテクチャに依存しており、同じハードウェアブロックを再利用することで異なる演算子を処理する。 粗粒または細粒のパイプラインアーキテクチャは、メモリアクセス効率のために空間的にViT計算をアンロールする。 しかし、彼らは通常、ViTのグローバルな計算依存性によって引き起こされるハードウェアリソースの制約やパイプラインバブルに悩まされる。 本稿では,高スループットかつ低レイテンシなViT処理のためのパイプラインFPGAアクセラレータHG-PIPEを紹介する。 HG-PIPEは、チップ上のバッファコストを低減し、計算データフローと並列設計を結合してパイプラインバブルを除去する、ハイブリッドなパイプラインアーキテクチャを備えている。 HG-PIPEはさらに、Lookup Tables (LUT) の豊富な線形演算子と非線形演算子の両方を実装するための注意深い近似を導入し、リソース制約を緩和する。 ZCU102 FPGAでは、HG-PIPEは前技術のアクセラレータであるAutoViTAccの2.78倍のスループットと2.52倍のリソース効率を達成する。 VCK190 FPGAでは、HG-PIPEは単一のデバイス上でエンドツーエンドのViTアクセラレーションを実現し、V100 GPUの2.81倍の7118イメージ/sを達成する。

Vision Transformer (ViT) acceleration with field programmable gate array (FPGA) is promising but challenging. Existing FPGA-based ViT accelerators mainly rely on temporal architectures, which process different operators by reusing the same hardware blocks and suffer from extensive memory access overhead. Pipelined architectures, either coarse-grained or fine-grained, unroll the ViT computation spatially for memory access efficiency. However, they usually suffer from significant hardware resource constraints and pipeline bubbles induced by the global computation dependency of ViT. In this paper, we introduce HG-PIPE, a pipelined FPGA accelerator for high-throughput and low-latency ViT processing. HG-PIPE features a hybrid-grained pipeline architecture to reduce on-chip buffer cost and couples the computation dataflow and parallelism design to eliminate the pipeline bubbles. HG-PIPE further introduces careful approximations to implement both linear and non-linear operators with abundant Lookup Tables (LUTs), thus alleviating resource constraints. On a ZCU102 FPGA, HG-PIPE achieves 2.78 times better throughput and 2.52 times better resource efficiency than the prior-art accelerators, e.g., AutoViTAcc. With a VCK190 FPGA, HG-PIPE realizes end-to-end ViT acceleration on a single device and achieves 7118 images/s, which is 2.81 times faster than a V100 GPU.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# DAM:時系列予測の基礎モデルを目指して

DAM: Towards A Foundation Model for Time Series Forecasting ( http://arxiv.org/abs/2407.17880v1 )

ライセンス: Link先を確認
Luke Darlow, Qiwen Deng, Ahmed Hassan, Martin Asenov, Rajkarn Singh, Artjom Joosen, Adam Barker, Amos Storkey, (参考訳) 時系列予測モデルをスケールすることは困難であり、複数の異なるドメインやデータセットに対して正確に予測できる。これらはすべて、潜在的に異なるコレクション手順(例:サンプル解像度)、パターン(例:周期性)、予測要求(例:再構築対予測)を持つ。 私たちはこの一般的なタスクを普遍的な予測と呼ぶ。 既存の手法では、入力データが定期的にサンプリングされ、事前に決定された地平線に予測されるため、トレーニングの範囲外の一般化に失敗する。 本研究では,非固定地平線に予測する時間の連続関数として,ランダムにサンプリングされたヒストリーを抽出し,調整可能な基底組成を出力するニューラルモデルDAMを提案する。 1) 長期分布からランダムにサンプリングされたヒストリーを使用する柔軟なアプローチは、最近の歴史に焦点をあてつつ、基礎となる時間的ダイナミクスの効率的な大局的な視点を可能にし、(2) 積極的にサンプルされたヒストリーに基づいてトレーニングされたトランスフォーマーバックボーンは、表現的出力として、(3) 時間の連続関数の基底係数を生成する。 我々は,25の時系列データセットでトレーニングされた1つの単変量DAMが,データセットと水平の組み合わせを専門に訓練したにもかかわらず,0ショット転送のための8つのホールドアウトを含む18データセットにわたる多変量長期予測において,既存のSoTAモデルよりも優れ,あるいは密に一致していることを示す。 この単一のDAMはゼロショット転送や超長期予測に優れ、計算能力は良好であり、基本関数の構成と注意によって解釈可能であり、異なる推論コストの要求に対して調整可能であり、欠落したサンプルデータに対して堅牢で不規則にサンプリングされたデータ {by design} を設計する。

It is challenging to scale time series forecasting models such that they forecast accurately for multiple distinct domains and datasets, all with potentially different underlying collection procedures (e.g., sample resolution), patterns (e.g., periodicity), and prediction requirements (e.g., reconstruction vs. forecasting). We call this general task universal forecasting. Existing methods usually assume that input data is regularly sampled, and they forecast to pre-determined horizons, resulting in failure to generalise outside of the scope of their training. We propose the DAM - a neural model that takes randomly sampled histories and outputs an adjustable basis composition as a continuous function of time for forecasting to non-fixed horizons. It involves three key components: (1) a flexible approach for using randomly sampled histories from a long-tail distribution, that enables an efficient global perspective of the underlying temporal dynamics while retaining focus on the recent history; (2) a transformer backbone that is trained on these actively sampled histories to produce, as representational output, (3) the basis coefficients of a continuous function of time. We show that a single univariate DAM, trained on 25 time series datasets, either outperformed or closely matched existing SoTA models at multivariate long-term forecasting across 18 datasets, including 8 held-out for zero-shot transfer, even though these models were trained to specialise for each dataset-horizon combination. This single DAM excels at zero-shot transfer and very-long-term forecasting, performs well at imputation, is interpretable via basis function composition and attention, can be tuned for different inference-cost requirements, is robust to missing and irregularly sampled data {by design}.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# ライフサイクルと生き生きとしたプロセスの永遠の結末を語る

Unraveling the Never-Ending Story of Lifecycles and Vitalizing Processes ( http://arxiv.org/abs/2407.17881v1 )

ライセンス: Link先を確認
Stephan A. Fahrenkrog-Petersen, Saimir Bala, Luise Pufahl, Jan Mendling, (参考訳) ビジネスプロセス管理(BPM)は、組織プロセスを発見し、モデル化し、分析し、最適化するために広く使われてきました。 BPMはこれらのプロセスを、明確に定義された開始と終了を前提とした分析手法で見ます。 しかし、すべてのプロセスがこのロジックに準拠しているわけではないため、BPM分析技術によってそれらの振る舞いを適切に捉えられない。 本稿では,この研究問題を概念レベルで論じる。 より具体的には、1つ以上のエンティティのライフサイクルプロセスをターゲットにしたビジネスプロセスを活性化するという概念を紹介します。 我々は,多くの産業におけるライフサイクルプロセスの存在を示し,それらの適切な概念化が適切なモデリングと分析技術の定義の道を開くことを示唆する。 本稿では,それらの分析の要件とライフサイクルと活力化プロセスの概念化について述べる。

Business process management (BPM) has been widely used to discover, model, analyze, and optimize organizational processes. BPM looks at these processes with analysis techniques that assume a clearly defined start and end. However, not all processes adhere to this logic, with the consequence that their behavior cannot be appropriately captured by BPM analysis techniques. This paper addresses this research problem at a conceptual level. More specifically, we introduce the notion of vitalizing business processes that target the lifecycle process of one or more entities. We show the existence of lifecycle processes in many industries and that their appropriate conceptualizations pave the way for the definition of suitable modeling and analysis techniques. This paper provides a set of requirements for their analysis, and a conceptualization of lifecycle and vitalizing processes.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# 変調電子による量子状態準備と読み出し

Quantum state preparation and readout with modulated electrons ( http://arxiv.org/abs/2407.17885v1 )

ライセンス: Link先を確認
Jaime Abad-Arredondo, Antonio I. Fernández-Domínguez, (参考訳) 本稿では、量子エミッタ(QE)の量子状態の準備と読み出しのための変調電子波動関数の能力について包括的に研究する。 まず、QE電子の絡み合いを生じない完全周期電子コムを考察し、QEの純度を保ちながらラビ様のダイナミクスを誘導する。 我々は、我々の研究結果を、現実的で非理想的に変調された電子ウェーブレットに拡張し、現象論が持続することを示すとともに、所望の量子状態でエミッタを準備するためのそれらの使用を探索する。 したがって、実験可能なプラットフォームで私たちのアイデアを実装するためには、電子コムサイズ、エミッタ放射減衰、電子-エミッタ結合強度のバランスを確立する必要がある。 最後に、小さな電子コムの極限に移動すると、これらの波動関数はターゲットの量子状態トモグラフィーを可能にし、人口だけでなくQE密度行列のコヒーレンスにもアクセスする。 我々の理論結果は、変調自由電子を光物質結合に基づく量子技術の非常に有望なツールとして示していると信じている。

We provide a comprehensive study of the capabilities of modulated electron wavefunctions for the preparation and readout of the quantum state of the quantum emitters (QEs) they interact with. First, we consider perfectly periodic electron combs, which do not produce QE-electron entanglement, preserving the purity of the QE while inducing Rabi-like dynamics in it. We extend our findings to realistic, non-ideally modulated electron wavepackets, showing that the phenomenology persists, and exploring their use to prepare the emitter in a desired quantum state. Thus, we establish the balance that electron comb size, emitter radiative decay, and electron-emitter coupling strength must fulfil in order to implement our ideas in experimentally feasible platforms. Finally, moving into the limit of small electron combs, we reveal that these wavefunctions allow for quantum state tomography of their target, providing access not only to the populations, but also the coherences of the QE density matrix. We believe that our theoretical results showcase modulated free-electrons as very promising tools for quantum technologies based on light-matter coupling.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# 強結合型量子熱力学における擬モード処理

Pseudomode treatment of strong-coupling quantum thermodynamics ( http://arxiv.org/abs/2407.17886v1 )

ライセンス: Link先を確認
Francesco Albarelli, Bassano Vacchini, Andrea Smirne, (参考訳) 弱いカップリングを超える量子熱力学系の処理は、関連性を高めるが、非常に難しい。 強いカップリング状態における熱力学量の評価には浴槽力学の非摂動的知識が必要である。 熱ボゾン浴を開放系に線形に結合することを考えると,浴槽の自己相関関数とシステムオペレータの2時間期待値のみを含む熱,仕事,および平均システムバス相互作用エネルギーの式を導出する。 次に, 物理連続ボゾン浴を有限個の減衰モード, おそらく相互作用モードに置き換えた擬モード法を用いて, これらの熱力学量の数値評価を行う。 特に,本手法は,オープンシステムと擬似モデムの1時間予測値を用いて,熱力学量の効率的な数値評価を可能にすることを示す。 この枠組みを2つのパラダイム的状況の調査に適用する。 第1の例では,擬似モデムの相互作用を模擬したオーミック浴に結合した2レベルシステムのエントロピー生産について検討し,時間依存運転を可能とした。 第2に,異なる温度で2つの温浴と相互作用する2レベルシステムからなる量子熱機械について検討し,冷浴とのカップリングの正弦波変調が十分であることを示す。

The treatment of quantum thermodynamic systems beyond weak coupling is of increasing relevance, yet extremely challenging. The evaluation of thermodynamic quantities in strong-coupling regimes requires a nonperturbative knowledge of the bath dynamics, which in turn relies on heavy numerical simulations. To tame these difficulties, considering thermal bosonic baths linearly coupled to the open system, we derive expressions for heat, work, and average system-bath interaction energy that only involve the autocorrelation function of the bath and two-time expectation values of system operators. We then exploit the pseudomode approach, which replaces the physical continuous bosonic bath with a small finite number of damped, possibly interacting, modes, to numerically evaluate these relevant thermodynamic quantities. We show in particular that this method allows for an efficient numerical evaluation of thermodynamic quantities in terms of one-time expectation values of the open system and the pseudomodes. We apply this framework to the investigation of two paradigmatic situations. In the first instance, we study the entropy production for a two-level system coupled to an ohmic bath, simulated via interacting pseudomodes, allowing for the presence of time-dependent driving. Secondly, we consider a quantum thermal machine composed of a two-level system interacting with two thermal baths at different temperatures, showing that an appropriate sinusoidal modulation of the coupling with the cold bath only is enough to obtain work extraction.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# V字型BPSOアルゴリズムの家族の誤り発見と補正

An Error Discovery and Correction for the Family of V-Shaped BPSO Algorithms ( http://arxiv.org/abs/2407.17889v1 )

ライセンス: Link先を確認
Qing Zhao, Chengkui Zhang, Hao Li, Ting Ke, (参考訳) BPSOアルゴリズムはSwarmインテリジェンス最適化アルゴリズムであり、優れた最適化効果、高い効率、実装が容易である。 近年、CNN、LSTM、SVMなど、さまざまな機械学習およびディープラーニングモデルの最適化に使用されている。 しかし、搾取能力の欠如により、ローカルな最適化に陥ることは容易である。 性能不良の原因は, 粒子の異常, カオス的な挙動を生じさせる速度更新関数に存在する誤差である。 これはアルゴリズムを収束させることを難しくするだけでなく、しばしば繰り返し空間を探索する。 そのため、伝統的に、これらのアルゴリズムを収束させるためには、後半段階では低いw値に頼る必要があるが、検索能力を失い、ローカルのオプティマに閉じ込められる傾向にある。 本稿では,V字型BPSOの速度レガシ項補正法を提案する。 0/1knapsack問題に基づく実験では、4つの一般的なV字型BPSOの精度と効率に大きな影響を及ぼすことが示された。 したがって、これは群知能の分野で大きなブレークスルーとなる。

BPSO algorithm is a swarm intelligence optimization algorithm, which has the characteristics of good optimization effect, high efficiency and easy to implement. In recent years, it has been used to optimize a variety of machine learning and deep learning models, such as CNN, LSTM, SVM, etc. But it is easy to fall into local optimum for the lack of exploitation ability. It is found that in the article, which is different from previous studies, The reason for the poor performance is an error existing in their velocity update function, which leads to abnormal and chaotic behavior of particles. This not only makes the algorithm difficult to converge, but also often searches the repeated space. So, traditionally, it has to rely on a low w value in the later stage to force these algorithms to converge, but also makes them quickly lose their search ability and prone to getting trapped in local optima. This article proposes a velocity legacy term correction method for all V-shaped BPSOs. Experimentals based on 0/1 knapsack problems show that it has a significant effect on accuracy and efficiency for all of the 4 commonly used V-Shaped BPSOs. Therefore it is an significant breakthrough in the field of swarm intelligence.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# トピックモデリングへの反復的アプローチ

An Iterative Approach to Topic Modelling ( http://arxiv.org/abs/2407.17892v1 )

ライセンス: Link先を確認
Albert Wong, Florence Wing Yau Cheng, Ashley Keung, Yamileth Hercules, Mary Alexandra Garcia, Yew-Wei Lim, Lien Pham, (参考訳) トピックモデリングは、ソーシャルメディアの投稿や記事などのテキストデータを要約するのにますます人気になっている。 しかし、トピックモデリングは通常1ショットで完了する。 結果のトピックの品質を評価することは難しい。 結果の評価やトピックのさらなる強化のための効果的な方法や対策は開発されていない。 本研究では,本研究で提案するトピックモデリングの反復的プロセスを用いて,プロセス完了時のトピックの完全性の感覚を生じさせるトピックモデリングを提案する。 トピックモデリングにおける一般的な手法であるBERTopicパッケージを用いて、決定基準としてクラスタリング比較を選択した3つの尺度のうちの1つを用いて、さらに改善できないトピックのセットに到達するために、モデルプロセスが反復的に適用可能であることを実証する。 このデモはCOVIDSenti-Aデータセットのサブセットを使用して実施される。 初期の成功は、このアプローチを他のトピックモデリングアルゴリズムと組み合わせることで、さらなる研究が実現可能であると信じている。

Topic modelling has become increasingly popular for summarizing text data, such as social media posts and articles. However, topic modelling is usually completed in one shot. Assessing the quality of resulting topics is challenging. No effective methods or measures have been developed for assessing the results or for making further enhancements to the topics. In this research, we propose we propose to use an iterative process to perform topic modelling that gives rise to a sense of completeness of the resulting topics when the process is complete. Using the BERTopic package, a popular method in topic modelling, we demonstrate how the modelling process can be applied iteratively to arrive at a set of topics that could not be further improved upon using one of the three selected measures for clustering comparison as the decision criteria. This demonstration is conducted using a subset of the COVIDSenti-A dataset. The early success leads us to believe that further research using in using this approach in conjunction with other topic modelling algorithms could be viable.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# ディープラーニングインペインティングによる3次元穴埋め

3D Hole Filling using Deep Learning Inpainting ( http://arxiv.org/abs/2407.17896v1 )

ライセンス: Link先を確認
Marina Hernández-Bautista, F. J. Melero, (参考訳) 本研究は,有意な幾何学的データが不足している場所での3次元ディジタル化技術から生成された3次元表面を仕上げるための新しい手法を提案する。 これらの3次元モデルにおける不完全または欠落したデータは、誤ったあるいは欠陥のあるレンダリングにつながり、可視化、幾何計算、および3Dプリンティングなどの様々なアプリケーションで有用性を制限する。 従来の表面推定手法は、特に複素曲面を扱う場合、しばしば不明瞭な結果をもたらす。 この問題に対処するために,ニューラルネットワークをベースとした2Dインペインティングを組み込んで3次元表面を効果的に再構築する手法を提案する。 カスタマイズされたニューラルネットワークは、100万以上の曲率画像を含むデータセットでトレーニングされました。 これらの画像は2次元の平面表現として頂点の曲率を示す。 さらに, 粗面変形法を用いて, 再構成画像の精度向上と表面適応性確保を行った。 この戦略により,入力データからパターンの学習と一般化が可能となり,正確な3次元表面の開発が可能となった。 本手法は形状完成過程に優れ,三次元表面の複雑な穴を顕著なリアリズムと精度で効果的に埋める。

The current work presents a novel methodology for completing 3D surfaces produced from 3D digitization technologies in places where there is a scarcity of meaningful geometric data. Incomplete or missing data in these three-dimensional (3D) models can lead to erroneous or flawed renderings, limiting their usefulness in a variety of applications such as visualization, geometric computation, and 3D printing. Conventional surface estimation approaches often produce implausible results, especially when dealing with complex surfaces. To address this issue, we propose a technique that incorporates neural network-based 2D inpainting to effectively reconstruct 3D surfaces. Our customized neural networks were trained on a dataset containing over 1 million curvature images. These images show the curvature of vertices as planar representations in 2D. Furthermore, we used a coarse-to-fine surface deformation technique to improve the accuracy of the reconstructed pictures and assure surface adaptability. This strategy enables the system to learn and generalize patterns from input data, resulting in the development of precise and comprehensive three-dimensional surfaces. Our methodology excels in the shape completion process, effectively filling complex holes in three-dimensional surfaces with a remarkable level of realism and precision.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# データと知識の組み合わせの力:GPT-4oは肺癌リンパ節転移の予測に機械学習モデルを効果的に解釈する

The Power of Combining Data and Knowledge: GPT-4o is an Effective Interpreter of Machine Learning Models in Predicting Lymph Node Metastasis of Lung Cancer ( http://arxiv.org/abs/2407.17900v1 )

ライセンス: Link先を確認
Danqing Hu, Bing Liu, Xiaofeng Zhu, Nan Wu, (参考訳) リンパ節転移 (LNM) は肺癌患者の早期治療を決定する重要な因子であるが, 正確な術前診断は困難である。 近年,大きな言語モデル (LLM) が注目されている。 巨大なコーパスから学んだ広範な医学知識を活用して、LLMは臨床上の問題に対する確率を推定できるが、その性能は歴史的にデータ駆動機械学習モデルよりも劣っている。 本稿では,LNM予測性能を向上させるために,LLMが取得した医療知識と機械学習モデルが同定した潜伏パターンを組み合わせた新しいアンサンブル手法を提案する。 当初,患者データを用いた機械学習モデルを開発した。 次に、患者データを機械学習モデルから予測される確率と統合するプロンプトテンプレートを設計した。 その後,OpenAIが開発した最も先進的なLCMであるGPT-4oに,患者データに基づいてLNMの確率を推定し,機械学習出力を用いて推定を調整するように指示した。 最後に,同じプロンプトを用いてGPT-4oから3つのアウトプットを収集し,これらの結果を最終予測としてアンサンブルした。 提案手法を用いて,LNM予測におけるAUC値0.765,AP値0.415を達成し,ベースライン機械学習モデルと比較して予測性能を著しく向上させた。 実験の結果, GPT-4oは, より正確なLNM予測を実現するために, 機械学習モデルによって予測される医療知識と確率を効果的に活用できることが示唆された。 これらの結果から,LSMは臨床リスク予測タスクにおいて良好に機能し,臨床リスク予測に医療知識と患者データを統合するための新たなパラダイムを提供することが明らかとなった。

Lymph node metastasis (LNM) is a crucial factor in determining the initial treatment for patients with lung cancer, yet accurate preoperative diagnosis of LNM remains challenging. Recently, large language models (LLMs) have garnered significant attention due to their remarkable text generation capabilities. Leveraging the extensive medical knowledge learned from vast corpora, LLMs can estimate probabilities for clinical problems, though their performance has historically been inferior to data-driven machine learning models. In this paper, we propose a novel ensemble method that combines the medical knowledge acquired by LLMs with the latent patterns identified by machine learning models to enhance LNM prediction performance. Initially, we developed machine learning models using patient data. We then designed a prompt template to integrate the patient data with the predicted probability from the machine learning model. Subsequently, we instructed GPT-4o, the most advanced LLM developed by OpenAI, to estimate the likelihood of LNM based on patient data and then adjust the estimate using the machine learning output. Finally, we collected three outputs from the GPT-4o using the same prompt and ensembled these results as the final prediction. Using the proposed method, our models achieved an AUC value of 0.765 and an AP value of 0.415 for LNM prediction, significantly improving predictive performance compared to baseline machine learning models. The experimental results indicate that GPT-4o can effectively leverage its medical knowledge and the probabilities predicted by machine learning models to achieve more accurate LNM predictions. These findings demonstrate that LLMs can perform well in clinical risk prediction tasks, offering a new paradigm for integrating medical knowledge and patient data in clinical predictions.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# 外科的コンピュータビジョンのための自己指導型学習におけるデータセットの多様性の影響を探る

Exploring the Effect of Dataset Diversity in Self-Supervised Learning for Surgical Computer Vision ( http://arxiv.org/abs/2407.17904v1 )

ライセンス: Link先を確認
Tim J. M. Jaspers, Ronald L. P. D. de Jong, Yasmina Al Khalil, Tijn Zeelenberg, Carolus H. J. Kusters, Yiping Li, Romy C. van Jaarsveld, Franciscus H. A. Bakker, Jelle P. Ruurda, Willem M. Brinkman, Peter H. N. De With, Fons van der Sommen, (参考訳) 過去10年間で、最小侵襲手術におけるコンピュータビジョンの応用は急速に増加している。 この成長にもかかわらず、外科的コンピュータビジョンの影響は、病理学や放射線学のような他の医学分野と比較しても限られている。 ImageNetのような大規模アノテートデータセットからの転送学習は、従来、高性能なモデルを実現するための標準であったが、近年の自己教師付き学習(SSL)の進歩は、優れたパフォーマンスを示している。 医用画像解析では、ドメイン内SSLプリトレーニングがImageNetベースの初期化よりも優れていることがすでに示されている。 手術用コンピュータビジョンの分野におけるラベルなしデータは豊富であるが、このデータ内の多様性は限られている。 本研究では,手術用コンピュータビジョンにおけるSSLにおけるデータセット多様性の役割について検討し,より異質な外科用データセットと比較した。 その結果、ImageNetの事前トレーニングと比較して、プロシージャ固有のデータのみを使用することで、13.8%、9.5%、36.8%の大幅な改善が達成された。 しかし、このデータをより異質な外科的データで拡張することで、さらなる5.0%、5.2%、および2.5%の性能が向上し、SSLデータ内での多様性の増大がモデルの性能に有益であることが示唆されている。 コードと事前訓練されたモデルウェイトはhttps://github.com/TimJaspers0801/SurgeNetで公開されている。

Over the past decade, computer vision applications in minimally invasive surgery have rapidly increased. Despite this growth, the impact of surgical computer vision remains limited compared to other medical fields like pathology and radiology, primarily due to the scarcity of representative annotated data. Whereas transfer learning from large annotated datasets such as ImageNet has been conventionally the norm to achieve high-performing models, recent advancements in self-supervised learning (SSL) have demonstrated superior performance. In medical image analysis, in-domain SSL pretraining has already been shown to outperform ImageNet-based initialization. Although unlabeled data in the field of surgical computer vision is abundant, the diversity within this data is limited. This study investigates the role of dataset diversity in SSL for surgical computer vision, comparing procedure-specific datasets against a more heterogeneous general surgical dataset across three different downstream surgical applications. The obtained results show that using solely procedure-specific data can lead to substantial improvements of 13.8%, 9.5%, and 36.8% compared to ImageNet pretraining. However, extending this data with more heterogeneous surgical data further increases performance by an additional 5.0%, 5.2%, and 2.5%, suggesting that increasing diversity within SSL data is beneficial for model performance. The code and pretrained model weights are made publicly available at https://github.com/TimJaspers0801/SurgeNet.
翻訳日:2024-07-26 14:38:10 公開日:2024-07-25
# StreamMOS: マルチビューパーセプションとデュアルスパンメモリによる移動オブジェクトセグメンテーションのストリーミング

StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory ( http://arxiv.org/abs/2407.17905v1 )

ライセンス: Link先を確認
Zhiheng Li, Yubo Cui, Jiexi Zhong, Zheng Fang, (参考訳) LiDARをベースとしたオブジェクトセグメンテーションの移動は、自動運転とモバイルロボティクスにとって重要な課題である。 ほとんどのアプローチでは、現在のフレーム内の移動物体を予測するために、LiDARシーケンスから時空間情報を探索する。 しかし、彼らはしばしば1つの推論で時間的手がかりを転送することに集中し、全ての予測を他の予測とは独立していると見なす。 これは異なるフレーム内の同じオブジェクトに対して矛盾したセグメンテーション結果を引き起こす可能性がある。 この問題を克服するために,複数の推論における特徴と予測の関連性を構築するために,StreamMOSと呼ばれるメモリ機構を備えたストリーミングネットワークを提案する。 具体的には,移動物体の空間的先行とみなすことができ,時間的融合による電流推定を高めるために,短期記憶を用いて歴史的特徴を伝達する。 一方、我々は、過去の予測を保存し、それらを活用して、投票によるボクセルやインスタンスレベルでの現在の予測を洗練します。 さらに,様々な表現で物体の運動特徴を抽出するために,カスケードプロジェクションと非対称畳み込みを備えた多視点エンコーダを提案する。 大規模な実験により,SemanticKITTIおよびSipailou Campusデータセット上での競合性能が検証された。 コードはhttps://github.com/NEU-REAL/StreamMOS.gitでリリースされる。

Moving object segmentation based on LiDAR is a crucial and challenging task for autonomous driving and mobile robotics. Most approaches explore spatio-temporal information from LiDAR sequences to predict moving objects in the current frame. However, they often focus on transferring temporal cues in a single inference and regard every prediction as independent of others. This may cause inconsistent segmentation results for the same object in different frames. To overcome this issue, we propose a streaming network with a memory mechanism, called StreamMOS, to build the association of features and predictions among multiple inferences. Specifically, we utilize a short-term memory to convey historical features, which can be regarded as spatial prior of moving objects and adopted to enhance current inference by temporal fusion. Meanwhile, we build a long-term memory to store previous predictions and exploit them to refine the present forecast at voxel and instance levels through voting. Besides, we present multi-view encoder with cascade projection and asymmetric convolution to extract motion feature of objects in different representations. Extensive experiments validate that our algorithm gets competitive performance on SemanticKITTI and Sipailou Campus datasets. Code will be released at https://github.com/NEU-REAL/StreamMOS.git.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 植物病診断のための階層的物体検出・認識フレームワーク

Hierarchical Object Detection and Recognition Framework for Practical Plant Disease Diagnosis ( http://arxiv.org/abs/2407.17906v1 )

ライセンス: Link先を確認
Kohei Iwano, Shogo Shibuya, Satoshi Kagiwada, Hitoshi Iyatomi, (参考訳) 近年,植物病の診断にオブジェクト検出法(OD; eg, YOLOモデル)が広く用いられている。 これらの手法は, 分類法 (CL; eg , CNN モデル) と比較して, 距離変化に対する堅牢性を示し, 微小病変の検出に優れていた。 しかし, 診断能力の低下や, 診断コストの低下などの問題がある。 さらに、健康なケースは明示的に訓練できないため、偽陽性のリスクがある。 植物病診断におけるODとCLの強度を組み合わせた高度に統合された2段階システムである階層的物体検出認識フレームワーク(HODRF)を提案する。 第1段階では、HODRFは病原体を特定することなく、ODを使用して関心領域(ROI)を識別する。 第2段階では、CLはROIを取り巻く疾患を診断する。 1) ODRFは1種類のROIしか検出しないため、HODRFは他の病変を識別する能力を活用して、訓練画像の限られた疾患を検出できる。 2) ODは健康な症例を過度に検出するが,HODRFは第2段階でCLを用いてこれらの誤りを著しく低減する。 (3) CLの精度は、ROIとして与えられる診断目標を特定することにより、HODRFの精度が向上し、サイズの変化に対する脆弱さが低下する。 (4)HODRFはCLのアノテーションコストの低さから恩恵を受け、より多くの画像から学習することができる。 我々は, YOLOv7 for ODとEfficientNetV2 for CLを用いてHODRFを実装し, 大規模データセット(4つの作物, 20の病気と健康なクラス, 281K画像)の性能評価を行った。 HODRFは健康データを5.8から21.5ポイント、マクロF1スコアを0.6から7.5ポイント、マクロF1を1.1から7.2ポイント改善した。

Recently, object detection methods (OD; e.g., YOLO-based models) have been widely utilized in plant disease diagnosis. These methods demonstrate robustness to distance variations and excel at detecting small lesions compared to classification methods (CL; e.g., CNN models). However, there are issues such as low diagnostic performance for hard-to-detect diseases and high labeling costs. Additionally, since healthy cases cannot be explicitly trained, there is a risk of false positives. We propose the Hierarchical object detection and recognition framework (HODRF), a sophisticated and highly integrated two-stage system that combines the strengths of both OD and CL for plant disease diagnosis. In the first stage, HODRF uses OD to identify regions of interest (ROIs) without specifying the disease. In the second stage, CL diagnoses diseases surrounding the ROIs. HODRF offers several advantages: (1) Since OD detects only one type of ROI, HODRF can detect diseases with limited training images by leveraging its ability to identify other lesions. (2) While OD over-detects healthy cases, HODRF significantly reduces these errors by using CL in the second stage. (3) CL's accuracy improves in HODRF as it identifies diagnostic targets given as ROIs, making it less vulnerable to size changes. (4) HODRF benefits from CL's lower annotation costs, allowing it to learn from a larger number of images. We implemented HODRF using YOLOv7 for OD and EfficientNetV2 for CL and evaluated its performance on a large-scale dataset (4 crops, 20 diseased and healthy classes, 281K images). HODRF outperformed YOLOv7 alone by 5.8 to 21.5 points on healthy data and 0.6 to 7.5 points on macro F1 scores, and it improved macro F1 by 1.1 to 7.2 points over EfficientNetV2.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# Diffusion prestillation によるAmortized Posterior Smpling の1例

Amortized Posterior Sampling with Diffusion Prior Distillation ( http://arxiv.org/abs/2407.17907v1 )

ライセンス: Link先を確認
Abbas Mammadov, Hyungjin Chung, Jong Chul Ye, (参考訳) 逆問題の解法として, 後方分布からのサンプルの変分推論手法を提案する。 事前学習した拡散モデルから,提案した変動分布と拡散モデルによって暗黙的に定義された後続分布とのばらつきを最小限に抑えるために,条件付き流れモデルを訓練する。 トレーニングが完了すると、フローモデルは単一のNFEで後部分布からサンプリングすることができ、測定値に対して償却される。 提案手法は, 効率の良い後方サンプリングに先立って, 拡散を蒸留するための新しい経路を舗装する。 本手法はユークリッド空間の標準信号や多様体上の信号に適用可能であることを示す。

We propose a variational inference approach to sample from the posterior distribution for solving inverse problems. From a pre-trained diffusion model, our approach trains a conditional flow model to minimize the divergence between the proposal variational distribution and the posterior distribution implicitly defined through the diffusion model. Once trained, the flow model is capable of sampling from the posterior distribution with a single NFE, amortized with respect to the measurement. The proposed method paves a new path for distilling a diffusion prior for efficient posterior sampling. We show that our method is applicable to standard signals in Euclidean space, as well as signals on manifold.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 論理的異常検出のための新しい特徴の分離:一方向的かつ効果的なアプローチ

Separating Novel Features for Logical Anomaly Detection: A Straightforward yet Effective Approach ( http://arxiv.org/abs/2407.17909v1 )

ライセンス: Link先を確認
Kangil Lee, Geonuk Kim, (参考訳) 視覚に基づく検査アルゴリズムは、特に大量生産で普及するデントや汚染などの構造的欠陥に対処するために、産業環境での品質管理に大きく貢献している。 大規模な研究努力がMVTec AD (Bergmann et al , 2019)のような関連するベンチマークの開発につながっている。 しかし、産業環境では、不適切な場所で許容できるアイテムが見つかったり、製品ペアが期待通りに一致しないような論理的欠陥の例がある。 論理的欠陥に対処する最近の手法は、知識蒸留を効果的に活用して差分マップを生成する。 知識蒸留(KD)は、教師なしの方法で通常のデータ分布を学習するために用いられる。 その効果にもかかわらず、これらの方法はしばしば潜在的な偽陰性を見落としている。 教師ネットワークと学生ネットワークとの過剰な類似性は、論理的異常検出に適した差分マップの生成を妨げる可能性がある。 この技術的報告は、KDに基づく論理異常検出法における単純な制約を利用して、潜在的な偽陰性を扱う際の知見を提供する。 我々は、最先端のベースラインとしてEfficientADを選択し、その教師なし学習スキームにマージンベースの制約を適用した。 この制約を適用して、MVTec LOCO ADのAUROCを1.3%改善できる。

Vision-based inspection algorithms have significantly contributed to quality control in industrial settings, particularly in addressing structural defects like dent and contamination which are prevalent in mass production. Extensive research efforts have led to the development of related benchmarks such as MVTec AD (Bergmann et al., 2019). However, in industrial settings, there can be instances of logical defects, where acceptable items are found in unsuitable locations or product pairs do not match as expected. Recent methods tackling logical defects effectively employ knowledge distillation to generate difference maps. Knowledge distillation (KD) is used to learn normal data distribution in unsupervised manner. Despite their effectiveness, these methods often overlook the potential false negatives. Excessive similarity between the teacher network and student network can hinder the generation of a suitable difference map for logical anomaly detection. This technical report provides insights on handling potential false negatives by utilizing a simple constraint in KD-based logical anomaly detection methods. We select EfficientAD as a state-of-the-art baseline and apply a margin-based constraint to its unsupervised learning scheme. Applying this constraint, we can improve the AUROC for MVTec LOCO AD by 1.3 %.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 空間的・時空間的干渉下における非政治評価のための因果的深度

Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences ( http://arxiv.org/abs/2407.17910v1 )

ライセンス: Link先を確認
Runpeng Dai, Jianing Wang, Fan Zhou, Shikai Luo, Zhiwei Qin, Chengchun Shi, Hongtu Zhu, (参考訳) オフ・ポリティィ・アセスメント(OPE)は、医薬品や電子商取引などの分野において、新規製品の有効性やオフラインデータセットからのポリシーを評価するために広く適用されている。 本稿では、時空間干渉を扱う既存のOPE手法に代表される、いくつかの重要な構造的仮定、主に平均場仮定を緩和する因果的深層化フレームワークを提案する。 これらの従来の仮定は、実世界の環境では不十分であることがしばしば証明され、それによって、複雑な干渉効果に効果的に対処する現在のOPEメソッドの能力が制限される。 これに対し、置換不変性(PI)の仮定の実装を提唱する。 この革新的なアプローチは平均場関数のデータ駆動適応学習を可能にし、従来の平均値を超えるより柔軟な推定方法を提供する。 さらに、PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し、その理論的基礎を徹底的に検証する。 数値解析により,本手法は既存のベースラインアルゴリズムよりも精度が高く,OPE手法の実用性や有効性を大幅に向上することが示された。 提案手法のPython実装はhttps://github.com/BIG-S2/Causal-Deepsetsで公開されている。

Off-policy evaluation (OPE) is widely applied in sectors such as pharmaceuticals and e-commerce to evaluate the efficacy of novel products or policies from offline datasets. This paper introduces a causal deepset framework that relaxes several key structural assumptions, primarily the mean-field assumption, prevalent in existing OPE methodologies that handle spatio-temporal interference. These traditional assumptions frequently prove inadequate in real-world settings, thereby restricting the capability of current OPE methods to effectively address complex interference effects. In response, we advocate for the implementation of the permutation invariance (PI) assumption. This innovative approach enables the data-driven, adaptive learning of the mean-field function, offering a more flexible estimation method beyond conventional averaging. Furthermore, we present novel algorithms that incorporate the PI assumption into OPE and thoroughly examine their theoretical foundations. Our numerical analyses demonstrate that this novel approach yields significantly more precise estimations than existing baseline algorithms, thereby substantially improving the practical applicability and effectiveness of OPE methodologies. A Python implementation of our proposed method is available at https://github.com/BIG-S2/Causal-Deepsets.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# ReCorD:HOI生成のための推論と修正拡散

ReCorD: Reasoning and Correcting Diffusion for HOI Generation ( http://arxiv.org/abs/2407.17911v1 )

ライセンス: Link先を確認
Jian-Yu Jiang-Lin, Kang-Yang Huang, Ling Lo, Yi-Ning Huang, Terence Lin, Jhih-Ciang Wu, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) 拡散モデルは、自然言語を利用してマルチメディアコンテンツの作成をガイドすることで、画像生成に革命をもたらす。 このような生成モデルに大きな進歩があったにも拘わらず、特にポーズや物体の配置の正確さに関して、詳細な人間と物体の相互作用を描写することの課題は続いている。 これらの課題に対処するために,Reasoning and Correcting Diffusion (ReCorD) というトレーニングフリー手法を導入する。 我々のモデルは、潜在拡散モデルと視覚言語モデルを結合して生成プロセスを洗練し、HOIの正確な描写を確実にする。 本稿では,インタラクションの解釈を改善するためのインタラクション対応推論モジュールと,より精密なHOI生成のために出力画像を洗練するためのインタラクション修正モジュールを提案する。 ReCorDは、ポーズ選択とオブジェクト位置決めの綿密なプロセスを通じて、効率的な計算要求を低減しつつ、生成された画像の忠実度を向上する。 我々は,テキスト・画像生成タスクの大幅な進歩を示すために,HOI分類スコアの既存手法,FID,Verb CLIP-Scoreを上回り,複雑なインタラクションを正確にレンダリングするReCorDの能力を示すために,3つのベンチマークで包括的な実験を行った。 プロジェクトのWebサイトはhttps://alberthkyhky.github.io/ReCorD/ で公開されている。

Diffusion models revolutionize image generation by leveraging natural language to guide the creation of multimedia content. Despite significant advancements in such generative models, challenges persist in depicting detailed human-object interactions, especially regarding pose and object placement accuracy. We introduce a training-free method named Reasoning and Correcting Diffusion (ReCorD) to address these challenges. Our model couples Latent Diffusion Models with Visual Language Models to refine the generation process, ensuring precise depictions of HOIs. We propose an interaction-aware reasoning module to improve the interpretation of the interaction, along with an interaction correcting module to refine the output image for more precise HOI generation delicately. Through a meticulous process of pose selection and object positioning, ReCorD achieves superior fidelity in generated images while efficiently reducing computational requirements. We conduct comprehensive experiments on three benchmarks to demonstrate the significant progress in solving text-to-image generation tasks, showcasing ReCorD's ability to render complex interactions accurately by outperforming existing methods in HOI classification score, as well as FID and Verb CLIP-Score. Project website is available at https://alberthkyhky.github.io/ReCorD/ .
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 視覚・言語モデルを用いた概念処理におけるマルチモーダル統合のモデル化

Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models ( http://arxiv.org/abs/2407.17914v1 )

ライセンス: Link先を確認
Anna Bavaresco, Marianne de Heer Kloots, Sandro Pezzelle, Raquel Fernández, (参考訳) ディープニューラルネットワーク(DNN)からの表現は、視覚処理と言語処理の両方に関わる神経活動の顕著な予測を証明している。 これらの成功にもかかわらず、今日のほとんどの研究は、視覚的またはテキスト的な入力を符号化するが両方ではない、単調なDNNに関するものである。 しかし、人間の意味表現が言語情報と感覚運動情報を統合している証拠が増えている。 本稿では、現在の視覚・言語DNNモデル(VLM)が運用するマルチモーダル情報の統合が、言語のみおよび視覚のみのDNNよりも人間の脳活動に整合した表現をもたらすかどうかを検討する。 参加者は、全文または付随画像の文脈で概念語を読みながら記録されたfMRI応答に注目した。 以上の結果から,VLM表現は言語と視覚のみのDNNよりも強く相関し,言語処理と機能的に関連する脳領域で活性化することが明らかとなった。 異なるタイプのビジュオ言語アーキテクチャの比較では、近年のVLMは従来のアーキテクチャに比べて脳の整合性が低く、下流アプリケーションでは性能が低い傾向が示されている。 さらに、複数のVLMにまたがって脳と行動整合性を比較する追加分析により、行動判断と強い整合性を示す表現が、脳の反応と高く相関しないことが示される。 これは、脳の類似性は行動の類似性と密接に関連せず、その逆であることを示している。

Representations from deep neural networks (DNNs) have proven remarkably predictive of neural activity involved in both visual and linguistic processing. Despite these successes, most studies to date concern unimodal DNNs, encoding either visual or textual input but not both. Yet, there is growing evidence that human meaning representations integrate linguistic and sensory-motor information. Here we investigate whether the integration of multimodal information operated by current vision-and-language DNN models (VLMs) leads to representations that are more aligned with human brain activity than those obtained by language-only and vision-only DNNs. We focus on fMRI responses recorded while participants read concept words in the context of either a full sentence or an accompanying picture. Our results reveal that VLM representations correlate more strongly than language- and vision-only DNNs with activations in brain areas functionally related to language processing. A comparison between different types of visuo-linguistic architectures shows that recent generative VLMs tend to be less brain-aligned than previous architectures with lower performance on downstream applications. Moreover, through an additional analysis comparing brain vs. behavioural alignment across multiple VLMs, we show that -- with one remarkable exception -- representations that strongly align with behavioural judgments do not correlate highly with brain responses. This indicates that brain similarity does not go hand in hand with behavioural similarity, and vice versa.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 関数呼び出しのダークサイド:大規模言語モデルの脱獄への道

The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models ( http://arxiv.org/abs/2407.17915v1 )

ライセンス: Link先を確認
Zihui Wu, Haichang Gao, Jianping He, Ping Wang, (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示しているが、そのパワーには重大なセキュリティ上の配慮が伴っている。 チャットモードにおけるLLMの安全性について広範な研究が行われてきたが、その機能呼び出し機能のセキュリティへの影響は概ね見過ごされている。 本稿では,LCMの関数呼び出しプロセスにおける重大な脆弱性を明らかにし,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-proを含む6つの最先端LCMで実施した実証実験の結果、この攻撃に対する平均成功率は90%以上であることが判明した。 本稿では,このような攻撃に対して関数呼び出しがどのような影響を受けやすいのかを包括的に分析し,防御的プロンプトの使用を含む防衛戦略を提案する。 本研究は,LLMの機能呼び出し機能におけるセキュリティ対策の迅速化の必要性を浮き彫りにし,これまで探索されていなかったリスクを特定し,効果的な攻撃手法を設計し,実用的な防御対策を提案することによって,AIの安全性の分野に寄与している。 私たちのコードはhttps://github.com/wooozihui/jailbreakfunction.comで利用可能です。

Large language models (LLMs) have demonstrated remarkable capabilities, but their power comes with significant security considerations. While extensive research has been conducted on the safety of LLMs in chat mode, the security implications of their function calling feature have been largely overlooked. This paper uncovers a critical vulnerability in the function calling process of LLMs, introducing a novel "jailbreak function" attack method that exploits alignment discrepancies, user coercion, and the absence of rigorous safety filters. Our empirical study, conducted on six state-of-the-art LLMs including GPT-4o, Claude-3.5-Sonnet, and Gemini-1.5-pro, reveals an alarming average success rate of over 90\% for this attack. We provide a comprehensive analysis of why function calls are susceptible to such attacks and propose defensive strategies, including the use of defensive prompts. Our findings highlight the urgent need for enhanced security measures in the function calling capabilities of LLMs, contributing to the field of AI safety by identifying a previously unexplored risk, designing an effective attack method, and suggesting practical defensive measures. Our code is available at https://github.com/wooozihui/jailbreakfunction.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# ブルーデチュードレジームにおける2レベルナノメカニクス

Two-Level System Nanomechanics in the Blue-Detuned Regime ( http://arxiv.org/abs/2407.17916v1 )

ライセンス: Link先を確認
Guillaume Bertel, Clement Dutreix, Fabio Pistolesi, (参考訳) 本研究では,2レベルシステムに結合したメカニカル発振器について検討した。 弱い機械的減衰では、力学的な不安定さがサイクルの制限につながる。 それらは、大きなファノ因子を持つ発光光子の数の強いゆらぎによってシグナルを受ける。 フォノン数の変動は驚くほど類似した振る舞いを示す。 結合強度が機械周波数に匹敵するようになると、非古典的な機械状態が現れる。 本稿では空洞光学系との関係について論じる。 これらの効果を観測するための候補としては、超伝導量子ビット、NV中心、振動子に結合した単一分子などがある。

We study a mechanical oscillator coupled to a two-level system driven by a blue-detuned coherent source in the resolved sideband regime. For weak mechanical damping, we find dynamical instabilities leading to limit cycles. They are signaled by strong fluctuations in the number of emitted photons, with a large Fano factor. The phonon-number fluctuations exhibit a strikingly similar behavior. When the coupling strength becomes comparable to the mechanical frequency, non-classical mechanical states appear. We discuss the relation with cavity optomechanical systems. Candidates for observing these effects include superconducting qubits, NV centers, and single molecules coupled to oscillators.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 複雑ネットワーク構造におけるフォノンの境界と相転移

Bounds and Phase Transitions for Phonons in Complex Network Structures ( http://arxiv.org/abs/2407.17919v1 )

ライセンス: Link先を確認
Riccardo Bonetto, (参考訳) ネットワーク化された原子や分子が平衡位置を振動するモデルについて検討する。 モデルは相互作用の調和近似を仮定する。 我々は、フォノンの総数と、ネットワークの平均的なウィナー容量(抵抗)の観点から、特定の熱に対するバウンダリを提供する。 このような境界により、ネットワーク構造だけでは定性的に異なる振る舞いを区別できる。

We study a model of networked atoms or molecules oscillating around their equilibrium positions. The model assumes the harmonic approximation of the interactions. We provide bounds for the total number of phonons, and for the specific heat, in terms of the average Wiener capacity, or resistance, of the network. Thanks to such bounds, we can distinguish qualitatively different behaviours in terms of the network structure alone.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# B型ゴールドストーンモードによるフラクタルと自発対称性の破断--絡み合いの観点から

Fractals and spontaneous symmetry breaking with type-B Goldstone modes: a perspective from entanglement ( http://arxiv.org/abs/2407.17925v1 )

ライセンス: Link先を確認
Huan-Qiang Zhou, Qian-Qian Shi, John O. Fjærestad, Ian P. McCulloch, (参考訳) 1次元スピン=s$$${\rm SU}(2)$ 強磁性ハイゼンベルク模型は、タイプBゴールドストーンモード(GM)を持つ自然対称性破壊(SSB)のパラダイム的な例として、基底状態部分空間の下の抽象フラクタルを示すことが期待されている。 この内在的な抽象フラクタルは、カントール集合の集合に分解可能なフラクタル上の因子化(アンタングル化)基底状態の線形結合に対する絡み合いエントロピーの体系的な研究から明らかである。 絡み合いエントロピーはブロックサイズと対数的にスケールし、プレファクタがフラクタルのフラクタル次元の半分であり、線形結合のノルムが各ステップ$k$に保持される自己相似ビルディングブロックの平方根としてスケールする限り、線形結合の係数の最大絶対値が1付近であることが仮定され、線形結合の係数はビルディングブロック内のほぼ定数である。 実際、すべてのカントール集合に対するフラクタル次元の集合は、区間 $[0,1]$ で {\it dense} 部分集合を形成する。 その結果、基底状態部分空間は数え切れないほど多くの領域の非結合結合に分離され、それぞれが分解可能なフラクタルによってラベル付けされる。 したがって、プレファクターをフラクタル次元の半分として解釈することはフラクタル以外の任意の支持に対して有効であり、したがって正則基底状態に対するタイプBGMの数とフラクタル次元の識別につながる。 我々の議論は、SSBとタイプBGMの量子多体系に拡張することができる。

The one-dimensional spin-$s$ ${\rm SU}(2)$ ferromagnetic Heisenberg model, as a paradigmatic example for spontaneous symmetry breaking (SSB) with type-B Goldstone modes (GMs), is expected to exhibit an abstract fractal underlying the ground state subspace. This intrinsic abstract fractal is here revealed from a systematic investigation into the entanglement entropy for a linear combination of factorized (unentangled) ground states on a fractal decomposable into a set of the Cantor sets. The entanglement entropy scales logarithmically with the block size, with the prefactor being half the fractal dimension of a fractal, as long as the norm for the linear combination scales as the square root of the number of the self-similar building blocks kept at each step $k$ for a fractal, under an assumption that the maximum absolute value of the coefficients in the linear combination is chosen to be around one, and the coefficients in the linear combination are almost constants within the building blocks. Actually, the set of the fractal dimensions for all the Cantor sets forms a {\it dense} subset in the interval $[0,1]$. As a consequence, the ground state subspace is separated into a disjoint union of countably infinitely many regions, each of which is labeled by a decomposable fractal. Hence, the interpretation of the prefactor as half the fractal dimension is valid for any support beyond a fractal, which in turn leads to the identification of the fractal dimension with the number of type-B GMs for the orthonormal basis states. Our argument may be extended to any quantum many-body systems undergoing SSB with type-B GMs.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# アフィン変換に対する深部画像品質指標の不変性

Invariance of deep image quality metrics to affine transformations ( http://arxiv.org/abs/2407.17927v1 )

ライセンス: Link先を確認
Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo, (参考訳) ディープアーキテクチャは、主観的な画像品質を予測する現在の最先端技術である。 通常、これらのモデルは、デジタルメディアに現れる様々な歪みを持つデータベースにおいて、人間の意見と相関する能力に基づいて評価される。 しかし、これらのアフィン変換は、自然条件下で実際に起こっている画像の変化をより良く表す可能性がある。 人間は、デジタルトランスフォーメーションとは対照的に、これらの自然なトランスフォーメーションに特に不変である。 本研究では,アフィン変換の不均一性,特に回転,変換,スケーリング,スペクトル照明の変化を評価することにより,最先端の深部画像品質指標を評価する。 本稿では,任意の知覚的指標に対して可視性閾値を割り当てる手法を提案する。 この手法は、任意の計量によって測定された距離を、利用可能な主観評価データベースに基づいて共通の距離表現に変換することを含む。 我々は、その共通表現における絶対検出閾値を心理物理学的に測定し、各計量について各アフィン変換の物理単位で表現する。 これにより、分析されたメトリクスが実際の人間の閾値と直接比較できるようになります。 この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。 これは、一般的な歪みの可視性を予測するためにのみモデルをチューニングすることは、例えば不変性や可視性しきい値のような人間の視覚の他の特性を無視する可能性があることを意味する。

Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. We propose a methodology to assign invisibility thresholds for any perceptual metric. This methodology involves transforming the distance measured by an arbitrary metric to a common distance representation based on available subjectively rated databases. We psychophysically measure an absolute detection threshold in that common representation and express it in the physical units of each affine transform for each metric. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 物体中心学習のためのガイド付き潜在スロット拡散

Guided Latent Slot Diffusion for Object-Centric Learning ( http://arxiv.org/abs/2407.17929v1 )

ライセンス: Link先を確認
Krishnakant Singh, Simone Schaub-Meyer, Stefan Roth, (参考訳) スロットアテンションは、入力画像を意味のあるオブジェクトファイル(スロット)の集合に分解することを目的としている。 これらの潜在オブジェクト表現は、様々な下流タスクを可能にする。 しかし、これらのスロットはオブジェクト自身ではなく、特に現実世界のデータセットに結合することが多い。 GLASSは、生成されたキャプションを誘導信号として使用して、スロットとオブジェクトとの整合性を向上するオブジェクト中心モデルである。 我々の重要な洞察は、生成された画像の空間におけるスロットアテンションモジュールを学習することである。 これにより、事前に訓練された拡散デコーダモデルを再利用し、スロットからイメージを再構成し、生成されたキャプションに基づいてセマンティックマスクジェネレータとして使用することができる。 GLASSは,複数のタスク,例えばセグメンテーション,画像生成,プロパティ予測などの同時処理に適したオブジェクトレベルの表現を学習し,従来の手法より優れている。 オブジェクト発見では、GLASSは近似を達成する。 従来のVOCデータセットとCOCOデータセットのSOTA(State-of-the-art)メソッドと比較して,mIoUの35%,+10%の相対的な改善を実現し,スロットアテンションに基づく条件付き画像生成のための新たなSOTA FIDスコアを確立する。 セグメンテーションタスクでは、GLASSはそのタスク用に特別に設計されたSOTAの弱い教師付きおよび言語ベースのセグメンテーションモデルを上回っている。

Slot attention aims to decompose an input image into a set of meaningful object files (slots). These latent object representations enable various downstream tasks. Yet, these slots often bind to object parts, not objects themselves, especially for real-world datasets. To address this, we introduce Guided Latent Slot Diffusion - GLASS, an object-centric model that uses generated captions as a guiding signal to better align slots with objects. Our key insight is to learn the slot-attention module in the space of generated images. This allows us to repurpose the pre-trained diffusion decoder model, which reconstructs the images from the slots, as a semantic mask generator based on the generated captions. GLASS learns an object-level representation suitable for multiple tasks simultaneously, e.g., segmentation, image generation, and property prediction, outperforming previous methods. For object discovery, GLASS achieves approx. a +35% and +10% relative improvement for mIoU over the previous state-of-the-art (SOTA) method on the VOC and COCO datasets, respectively, and establishes a new SOTA FID score for conditional image generation amongst slot-attention-based methods. For the segmentation task, GLASS surpasses SOTA weakly-supervised and language-based segmentation models, which were specifically designed for the task.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# Bitcoin価格予測のための異なるニューラルネットワークの比較

Comparison of different Artificial Neural Networks for Bitcoin price forecasting ( http://arxiv.org/abs/2407.17930v1 )

ライセンス: Link先を確認
Silas Baumann, Karl A. Busch, Hamza A. A. Gardi, (参考訳) 本研究では,ANN(Artificial Neural Networks)を用いて,様々なシーケンス長が暗号通貨のリターンを予測する精度に与える影響について検討した。 平均絶対誤差(MAE)をしきい値基準として、このしきい値より小さいリターンを排除して予測精度を高めることを目的としており、これにより、マイナーリターンに伴うエラーの軽減を図る。 その後の評価は、この閾値を超える予測されたリターンの精度に焦点を当てる。 168時間(7日)、72時間(3日)、24時間(24時間)、12時間(12時間)の4つのシーケンス長を2時間間隔で比較した。 本研究は,シーケンス長が予測精度に与える影響を明らかにし,財務予測モデルにおける最適化シーケンス構成の可能性を明らかにする。

This study investigates the impact of varying sequence lengths on the accuracy of predicting cryptocurrency returns using Artificial Neural Networks (ANNs). Utilizing the Mean Absolute Error (MAE) as a threshold criterion, we aim to enhance prediction accuracy by excluding returns that are smaller than this threshold, thus mitigating errors associated with minor returns. The subsequent evaluation focuses on the accuracy of predicted returns that exceed this threshold. We compare four sequence lengths 168 hours (7 days), 72 hours (3 days), 24 hours, and 12 hours each with a return prediction interval of 2 hours. Our findings reveal the influence of sequence length on prediction accuracy and underscore the potential for optimized sequence configurations in financial forecasting models.
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# 5つの参照画像を用いた登録可能なSAMプロンプトエンジニアリングによるセグメンテーション

Segmentation by registration-enabled SAM prompt engineering using five reference images ( http://arxiv.org/abs/2407.17933v1 )

ライセンス: Link先を確認
Yaxi Chen, Aleksandra Ivanova, Shaheer U. Saeed, Rikin Hargunani, Jie Huang, Chaozong Liu, Yipeng Hu, (参考訳) 最近提案されたSegment Anything Model(SAM)は画像セグメンテーションの一般的なツールであるが、特に小さな、不規則な形状の、そしてこの研究に興味のある膝軟骨のような境界あいまいな解剖学的構造に対して、医療画像セグメンテーションのための追加の適応と注意深い微調整が必要である。 修復軟骨は、特定の外科手術の後に、事前訓練に見えない画像パターンを示し、SAMのようなモデルに汎用的な微調整を施すか、それ以上の課題を提起する。 そこで本研究では,SAMを用いた医用画像分割のための新規な登録ベースプロンプトエンジニアリングフレームワークを提案する。 このアプローチでは、セグメンテーションラベルを必要とせずに、確立した画像登録アルゴリズムを使用して、新しい画像(分割)と少数の参照画像の整列を行う。 登録によって生成された空間変換は、SAMへの入力として使用する前に、新しい画像または予め定義されたポイントベースのプロンプトを整列する。 この戦略は、定義されたポイントプロンプトを持つ5つまでの参照イメージを必要とするため、セグメンテーションラベルを必要とせずに、実質的にSAMに新しいイメージの推論を促せる。 軟骨幹細胞治療を受けた患者のMR画像の評価では, 大腿骨, 大腿骨, 大腿骨, 骨軟骨の分節化にそれぞれ0.89, 0.87, 0.53, 0.52のDiceスコアが得られた。 これはアトラスベースのラベル融合よりも優れており、このアプリケーションでは上界のフェアベースラインであるnnUNetと同等であり、どちらも参照サンプルの完全なセグメンテーションラベルを必要とする。 コードは、https://github.com/chrissyinreallife/KneeSegmentWithSAM.gitで入手できる。

The recently proposed Segment Anything Model (SAM) is a general tool for image segmentation, but it requires additional adaptation and careful fine-tuning for medical image segmentation, especially for small, irregularly-shaped, and boundary-ambiguous anatomical structures such as the knee cartilage that is of interest in this work. Repaired cartilage, after certain surgical procedures, exhibits imaging patterns unseen to pre-training, posing further challenges for using models like SAM with or without general-purpose fine-tuning. To address this, we propose a novel registration-based prompt engineering framework for medical image segmentation using SAM. This approach utilises established image registration algorithms to align the new image (to-be-segmented) and a small number of reference images, without requiring segmentation labels. The spatial transformations generated by registration align either the new image or pre-defined point-based prompts, before using them as input to SAM. This strategy, requiring as few as five reference images with defined point prompts, effectively prompts SAM for inference on new images, without needing any segmentation labels. Evaluation of MR images from patients who received cartilage stem cell therapy yielded Dice scores of 0.89, 0.87, 0.53, and 0.52 for segmenting femur, tibia, femoral- and tibial cartilages, respectively. This outperforms atlas-based label fusion and is comparable to supervised nnUNet, an upper-bound fair baseline in this application, both of which require full segmentation labels for reference samples. The codes are available at: https://github.com/chrissyinreallife/KneeSegmentWithSAM.git
翻訳日:2024-07-26 14:28:24 公開日:2024-07-25
# グラフと永続ホモロジーを用いた脳腫瘍コネトミクスの解析

Analyzing Brain Tumor Connectomics using Graphs and Persistent Homology ( http://arxiv.org/abs/2407.17938v1 )

ライセンス: Link先を確認
Debanjali Bhattacharya, Ninad Aithal, Manish Jayswal, Neelam Sinha, (参考訳) 分子および遺伝研究の最近の進歩は、その分子機構、異質性、起源の違いについて様々な種類の脳腫瘍のサブタイプを特定している。 本研究では拡散強調画像を用いた全脳コネクトーム解析を行った。 これを達成するために、グラフ理論と永続的ホモロジー(英語版)の両方、つまりトポロジカルデータ解析における顕著なアプローチを用いて、脳腫瘍患者における全脳コネクトームの構造的接続の変化を定量化している。 確率的トラクトグラフィーは、FreeSurferのDesikan-Killiany atlasによって示されるように、84の異なる脳領域を繋ぐ流線型の数をマッピングするために用いられる。 これらの流線型マッピングはコネクトームマトリックスを形成し、持続的ホモロジーに基づく解析とグラフ理論解析が実行され、髄膜腫とグリオーマを含む腫瘍サブタイプの識別能力を評価する。 研究グループ間の違いが統計的に有意な脳領域を特定するために、永続的ホモロジー由来のトポロジ的特徴とグラフィカルな特徴について詳細な統計分析を行った(p < 0.05)。 分類の目的のためにグラフベースの局所的特徴が利用され、高い精度が88%に達する。 腫瘍サブタイプの分類では、80%の精度が達成される。 本研究から得られた知見は,脳腫瘍に特異的な構造的結合パターンの変化を検出する上で,脳全体コネクトームの持続的ホモロジーとグラフ理論的解析の可能性を明らかにするものである。

Recent advances in molecular and genetic research have identified a diverse range of brain tumor sub-types, shedding light on differences in their molecular mechanisms, heterogeneity, and origins. The present study performs whole-brain connectome analysis using diffusionweighted images. To achieve this, both graph theory and persistent homology - a prominent approach in topological data analysis are employed in order to quantify changes in the structural connectivity of the wholebrain connectome in subjects with brain tumors. Probabilistic tractography is used to map the number of streamlines connecting 84 distinct brain regions, as delineated by the Desikan-Killiany atlas from FreeSurfer. These streamline mappings form the connectome matrix, on which persistent homology based analysis and graph theoretical analysis are executed to evaluate the discriminatory power between tumor sub-types that include meningioma and glioma. A detailed statistical analysis is conducted on persistent homology-derived topological features and graphical features to identify the brain regions where differences between study groups are statistically significant (p < 0.05). For classification purpose, graph-based local features are utilized, achieving a highest accuracy of 88%. In classifying tumor sub-types, an accuracy of 80% is attained. The findings obtained from this study underscore the potential of persistent homology and graph theoretical analysis of the whole-brain connectome in detecting alterations in structural connectivity patterns specific to different types of brain tumors.
翻訳日:2024-07-26 14:18:41 公開日:2024-07-25
# マルチストラテジー最適化による正のテキストリフレーミング

Positive Text Reframing under Multi-strategy Optimization ( http://arxiv.org/abs/2407.17940v1 )

ライセンス: Link先を確認
Shutong Jia, Biwei Cao, Qingqing Gao, Jiuxin Cao, Bo Liu, (参考訳) 感情伝達から逸脱したポジティブリフレーミングは、本来の意味を保ちながら、ネガティブな視点をポジティブな表現に置き換えようとしている。 プレトレーニング言語モデル (PLM) の出現により, PLM を微調整することで, 許容可能な結果が得られる。 それでも、流動的で多様なタスク制約のあるリフレーミングテキストを生成することは大きな課題である。 この問題に対処するため,本稿では,textbf{m}ulti-\textbf{s}trategy \textbf{o}ptimization \textbf{f}ramework (MSOF)を提案する。 ポジティブリフレーミングの目的から、まずポジティブな感情報酬とコンテンツ保存報酬を設計し、セマンティクスの整合性と整合性を確保しつつ、原文のネガティブな表現を変換するようモデルに促す。 そして、テキスト生成の品質を向上させるために、異なる復号最適化手法を導入する。 最後に、ポジティブリフレーミングのモデル化式に基づいて、戦略整合性、テキスト類似性、流布性の3次元から候補文を更に選択する多次元リグレード手法を提案する。 2つのSeq2Seq PLM(BARTとT5)の大規模な実験により、我々のフレームワークは、制約なしおよび制御されたポジティブリフレーミングタスクにおいて、大幅な改善を達成できることを示した。

Differing from sentiment transfer, positive reframing seeks to substitute negative perspectives with positive expressions while preserving the original meaning. With the emergence of pre-trained language models (PLMs), it is possible to achieve acceptable results by fine-tuning PLMs. Nevertheless, generating fluent, diverse and task-constrained reframing text remains a significant challenge. To tackle this issue, a \textbf{m}ulti-\textbf{s}trategy \textbf{o}ptimization \textbf{f}ramework (MSOF) is proposed in this paper. Starting from the objective of positive reframing, we first design positive sentiment reward and content preservation reward to encourage the model to transform the negative expressions of the original text while ensuring the integrity and consistency of the semantics. Then, different decoding optimization approaches are introduced to improve the quality of text generation. Finally, based on the modeling formula of positive reframing, we propose a multi-dimensional re-ranking method that further selects candidate sentences from three dimensions: strategy consistency, text similarity and fluency. Extensive experiments on two Seq2Seq PLMs, BART and T5, demonstrate our framework achieves significant improvements on unconstrained and controlled positive reframing tasks.
翻訳日:2024-07-26 14:18:41 公開日:2024-07-25
# RDFGraphGen: SHACL制約に基づく合成RDFグラフジェネレータ

RDFGraphGen: A Synthetic RDF Graph Generator based on SHACL Constraints ( http://arxiv.org/abs/2407.17941v1 )

ライセンス: Link先を確認
Marija Vecovska, Milos Jovanovik, (参考訳) 本稿では、SHACL制約に基づく合成RDFグラフの汎用的ドメイン非依存生成であるRDFGraphGenを紹介する。 形状制約言語 (Shapes Constraint Language, SHACL) は、制約形状を定義してRDFグラフ内のデータを検証する方法を指定するW3C標準である。 しかし、SHACLの主な目的は、既存のRDFデータの検証であるが、複数のRDFベースのアプリケーション開発プロセスで利用可能なRDFデータセットが不足している問題を解決するため、SHACLの逆の役割を構想し、実装した。 生成プロセスは、SHACL形状から制約を抽出し、指定された制約をルールに変換し、これらのルールに基づいて、予め定義されたRDFエンティティの数のための人工データを生成する。 RDFGraphGenの目的は、RDF、Linked Data、Semantic Webドメインからのアプリケーションのためのベンチマーク、テスト、品質管理、トレーニングなどの目的で、小規模、中規模のRDF知識グラフを作成することである。 RDFGraphGenはオープンソースで、Pythonパッケージとして利用可能である。

This paper introduces RDFGraphGen, a general-purpose, domain-independent generator of synthetic RDF graphs based on SHACL constraints. The Shapes Constraint Language (SHACL) is a W3C standard which specifies ways to validate data in RDF graphs, by defining constraining shapes. However, even though the main purpose of SHACL is validation of existing RDF data, in order to solve the problem with the lack of available RDF datasets in multiple RDF-based application development processes, we envisioned and implemented a reverse role for SHACL: we use SHACL shape definitions as a starting point to generate synthetic data for an RDF graph. The generation process involves extracting the constraints from the SHACL shapes, converting the specified constraints into rules, and then generating artificial data for a predefined number of RDF entities, based on these rules. The purpose of RDFGraphGen is the generation of small, medium or large RDF knowledge graphs for the purpose of benchmarking, testing, quality control, training and other similar purposes for applications from the RDF, Linked Data and Semantic Web domain. RDFGraphGen is open-source and is available as a ready-to-use Python package.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 機能サブセット選択のための量子インスパイアされた進化的アルゴリズム:包括的調査

Quantum-Inspired Evolutionary Algorithms for Feature Subset Selection: A Comprehensive Survey ( http://arxiv.org/abs/2407.17946v1 )

ライセンス: Link先を確認
Yelleti Vivek, Vadlamani Ravi, P. Radha Krishna, (参考訳) 量子コンピューティングの概念と進化アルゴリズム(EA)の巧妙なハイブリッド化により、量子インスパイアされた進化アルゴリズム(QIEAs)と呼ばれる新しい分野が生まれた。 従来のEAとは異なり、QIEAsは与えられた解における特徴の状態の確率的表現を採用するために量子ビットを用いる。 この前例のない特徴により、彼らはより良い多様性を達成し、グローバルな探索を行え、探検と搾取のトレードオフを効果的に得ることができる。 各種出版社を包括的に調査し,56紙を収集した。 我々はこれらの論文を網羅的に分析し、現在提案されている量子インスピレーション進化アルゴリズム(QIEAs)が採用している特徴部分選択(FSS)問題に焦点をあてた。 重要な点として、各文献で採用されている様々な目的関数と一般的な量子ゲート、すなわち回転ゲートの詳細な分析を行った。 さらに,研究者の注意を引くために,いくつかのオープンな研究課題を提案した。

The clever hybridization of quantum computing concepts and evolutionary algorithms (EAs) resulted in a new field called quantum-inspired evolutionary algorithms (QIEAs). Unlike traditional EAs, QIEAs employ quantum bits to adopt a probabilistic representation of the state of a feature in a given solution. This unprecedented feature enables them to achieve better diversity and perform global search, effectively yielding a tradeoff between exploration and exploitation. We conducted a comprehensive survey across various publishers and gathered 56 papers. We thoroughly analyzed these publications, focusing on the novelty elements and types of heuristics employed by the extant quantum-inspired evolutionary algorithms (QIEAs) proposed to solve the feature subset selection (FSS) problem. Importantly, we provided a detailed analysis of the different types of objective functions and popular quantum gates, i.e., rotation gates, employed throughout the literature. Additionally, we suggested several open research problems to attract the attention of the researchers.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 対数的ソボレフ不等式下での期待最大化アルゴリズムの高速収束

Fast convergence of the Expectation Maximization algorithm under a logarithmic Sobolev inequality ( http://arxiv.org/abs/2407.17949v1 )

ライセンス: Link先を確認
Rocco Caprio, Adam M Johansen, (参考訳) 近年開発されたワッサーシュタイン空間上の勾配流構築ツールを利用することで、ユークリッド空間上の交互最小化アルゴリズムを、そのユークリッド空間の積とNeal and Hinton (1998)による確率分布の空間の座標ワイド最小化として表現することで、期待最大化(EM)アルゴリズムへと拡張する。 このようにして、対数ソボレフ不等式の自然な一般化の下で、有限サンプル誤差境界とEMアルゴリズムの指数収束を得る。 さらに,解析手法が十分に柔軟であることから,EMアルゴリズムのいくつかの変種も解析可能であることを実証した。

By utilizing recently developed tools for constructing gradient flows on Wasserstein spaces, we extend an analysis technique commonly employed to understand alternating minimization algorithms on Euclidean space to the Expectation Maximization (EM) algorithm via its representation as coordinate-wise minimization on the product of a Euclidean space and a space of probability distributions due to Neal and Hinton (1998). In so doing we obtain finite sample error bounds and exponential convergence of the EM algorithm under a natural generalisation of a log-Sobolev inequality. We further demonstrate that the analysis technique is sufficiently flexible to allow also the analysis of several variants of the EM algorithm.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# Yolo-v9を用いた実時間アメリカ手話検出

Real Time American Sign Language Detection Using Yolo-v9 ( http://arxiv.org/abs/2407.17950v1 )

ライセンス: Link先を確認
Amna Imran, Meghana Shashishekhara Hulikal, Hamza A. A. Gardi, (参考訳) 本稿では,リアルタイムのアメリカ手話検出に焦点をあてる。 YOLOは、2015年に初めてリリースされた畳み込みニューラルネットワーク(CNN)ベースのモデルである。 近年、リアルタイム検出機能で人気を博している。 本研究は,2024年にリリースされたYOLO-v9モデルを対象としている。 モデルが新たに導入されたため、特に手話検出では、あまり作業が行われていない。 我々の論文は、YOLO- v9が以前のモデルよりどのように、より良く機能するかについて深い洞察を与えます。

This paper focuses on real-time American Sign Language Detection. YOLO is a convolutional neural network (CNN) based model, which was first released in 2015. In recent years, it gained popularity for its real-time detection capabilities. Our study specifically targets YOLO-v9 model, released in 2024. As the model is newly introduced, not much work has been done on it, especially not in Sign Language Detection. Our paper provides deep insight on how YOLO- v9 works and better than previous model.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# Tseitin-Awarenessによるブールd-DNNF回路の動作

Pruning Boolean d-DNNF Circuits Through Tseitin-Awareness ( http://arxiv.org/abs/2407.17951v1 )

ライセンス: Link先を確認
Vincent Derkinderen, (参考訳) d-DNNF形式のブール回路は、抽出可能な確率的推論を可能にする。 しかし、この研究の重要な知見として、よく使われるd-DNNFコンパイル手法が無関係なサブ回路を導入していることを示す。 このサブ回路は、Tseitin変換ステップによって導入されたもので、任意の回路を複数のd-DNNF知識コンパイラが必要とするCNFフォーマットに変換するための確立された手順です。 本稿では,Tseitin変数とTseitinアーティファクトの両方を検出し,除去する方法について議論し,より簡潔な回路を実現する。 ティチン変数とアーティファクトの両方を取り除いた場合, 平均サイズが77.5%減少するのを実証的に観察した。 ティチンのアーティファクトが加わったことにより、サイズは平均で22.2%縮小する。 これにより、より簡潔な回路、例えば確率的推論タスクの恩恵を受ける下流タスクが大幅に改善される。

Boolean circuits in d-DNNF form enable tractable probabilistic inference. However, as a key insight of this work, we show that commonly used d-DNNF compilation approaches introduce irrelevant subcircuits. We call these subcircuits Tseitin artifacts, as they are introduced due to the Tseitin transformation step -- a well-established procedure to transform any circuit into the CNF format required by several d-DNNF knowledge compilers. We discuss how to detect and remove both Tseitin variables and Tseitin artifacts, leading to more succinct circuits. We empirically observe an average size reduction of 77.5% when removing both Tseitin variables and artifacts. The additional pruning of Tseitin artifacts reduces the size by 22.2% on average. This significantly improves downstream tasks that benefit from a more succinct circuit, e.g., probabilistic inference tasks.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# BetterDepth:ゼロショット単眼深度推定のためのプラグアンドプレイ拡散精錬器

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation ( http://arxiv.org/abs/2407.17952v1 )

ライセンス: Link先を確認
Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers, (参考訳) 大規模データセット上でのトレーニングにより、ゼロショット単眼深度推定(MDE)手法は、野生では堅牢な性能を示すが、正確な詳細が不十分な場合が多い。 拡散に基づく最近のMDE手法は、細部抽出能力に優れているが、多様なデータセットから堅牢な幾何学的先行性を得るのが困難であるため、幾何的に困難な場面に苦戦している。 両世界の相補的な利点を活用するため,精密な詳細を捉えつつ,幾何的に正しいアフィン不変のMDE性能を実現するためのBetterDepthを提案する。 具体的には、BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件付けとして、大域深度コンテキストを適切にキャプチャし、入力画像に基づいて詳細を反復的に洗練する条件拡散ベースの精錬機である。 このようなリファインダのトレーニングのために,細かなシーンの詳細を捉えながら深度条件付けにBetterDepthの忠実さを確保するために,グローバルな事前調整と局所パッチマスキング手法を提案する。 小規模の合成データセットの効率的なトレーニングにより、BetterDepthは、さまざまなパブリックデータセットとインザワイルドシーン上で、最先端のゼロショットMDEパフォーマンスを達成する。 さらに、BetterDepthは他のMDEモデルの性能を追加のトレーニングなしでプラグアンドプレイで改善することができる。

By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 損失画像圧縮によるトレーニングデータのスケーリング

Scaling Training Data with Lossy Image Compression ( http://arxiv.org/abs/2407.17954v1 )

ライセンス: Link先を確認
Katherine L. Mentzer, Andrea Montanari, (参考訳) 経験的に決定されたスケーリング法則は、トレーニングデータとパラメータの数で大規模な機械学習モデルの進化を予測することに成功している。 結果として、限られたリソース、特に計算時間の割り当てを最適化するのに有用である。 特定のアプリケーションでは、ストレージスペースは重要な制約であり、結果としてデータフォーマットを慎重に選択する必要があります。 画像は本質的にアナログであるが、常に有限ビットでデジタル形式で保存される。 デジタル画像のデータセットが与えられた場合、各ビットを格納するビット数$L$は、損失の多いデータ圧縮によってさらに削減することができる。 しかし、各例は解像度が低いため、このような画像で訓練されたモデルの品質を劣化させることができる。 このトレードオフを捉え、トレーニングデータの保存を最適化するために、サンプルサイズと画像当たりのビット数でテストエラーの共進化を記述した「ストレージスケーリング法則」を提案する。 我々は,この法則が画像圧縮のスタイリングモデル内に保持されていることを証明し,関連するパラメータを抽出して2つのコンピュータビジョンタスクで実証的に検証する。 次に、この法則を用いて、損失のある圧縮レベルを最適化できることを示す。 与えられたストレージにおいて、最適な圧縮画像に基づいてトレーニングされたモデルは、元のデータでトレーニングされたモデルに対して、はるかに小さなテストエラーを示す。 最後に,圧縮レベルをランダム化する利点について検討する。

Empirically-determined scaling laws have been broadly successful in predicting the evolution of large machine learning models with training data and number of parameters. As a consequence, they have been useful for optimizing the allocation of limited resources, most notably compute time. In certain applications, storage space is an important constraint, and data format needs to be chosen carefully as a consequence. Computer vision is a prominent example: images are inherently analog, but are always stored in a digital format using a finite number of bits. Given a dataset of digital images, the number of bits $L$ to store each of them can be further reduced using lossy data compression. This, however, can degrade the quality of the model trained on such images, since each example has lower resolution. In order to capture this trade-off and optimize storage of training data, we propose a `storage scaling law' that describes the joint evolution of test error with sample size and number of bits per image. We prove that this law holds within a stylized model for image compression, and verify it empirically on two computer vision tasks, extracting the relevant parameters. We then show that this law can be used to optimize the lossy compression level. At given storage, models trained on optimally compressed images present a significantly smaller test error with respect to models trained on the original data. Finally, we investigate the potential benefits of randomizing the compression level.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# SaccadeDet:ギガピクセル画像の高速かつ高精度検出のための新しいデュアルステージアーキテクチャ

SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images ( http://arxiv.org/abs/2407.17956v1 )

ライセンス: Link先を確認
Wenxi Li, Ruxin Zhang, Haozhe Lin, Yuchen Guo, Chao Ma, Xiaokang Yang, (参考訳) 物体検出における深層学習の進歩は、主にメガピクセル画像に焦点を当てており、ギガピクセル画像の効率的な処理において重要なギャップを残している。 これらの超高解像度画像は、その巨大なサイズと計算要求のためにユニークな課題を呈している。 そこで我々は,人間の眼球運動に触発された,ギガピクセルレベルの物体検出のための革新的なアーキテクチャであるSaccadeDetを紹介した。 SaccadeDetの基盤は、画像領域を戦略的に選択し、処理し、計算負荷を劇的に削減する能力である。 これは、2段階のプロセスによって達成される: 確率的な興味のある領域を特定する「サケード」段階と、これらの対象領域における検出を洗練させる「ゲイズ」段階である。 我々のアプローチはPANDAデータセットに基づいて評価され、最先端の手法よりも8倍の速度向上を達成するだけでなく、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。

The advancement of deep learning in object detection has predominantly focused on megapixel images, leaving a critical gap in the efficient processing of gigapixel images. These super high-resolution images present unique challenges due to their immense size and computational demands. To address this, we introduce 'SaccadeDet', an innovative architecture for gigapixel-level object detection, inspired by the human eye saccadic movement. The cornerstone of SaccadeDet is its ability to strategically select and process image regions, dramatically reducing computational load. This is achieved through a two-stage process: the 'saccade' stage, which identifies regions of probable interest, and the 'gaze' stage, which refines detection in these targeted areas. Our approach, evaluated on the PANDA dataset, not only achieves an 8x speed increase over the state-of-the-art methods but also demonstrates significant potential in gigapixel-level pathology analysis through its application to Whole Slide Imaging.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# トポロジ最適化における局所最適性向上のためのニューラルネットワーク

Neural Networks for Generating Better Local Optima in Topology Optimization ( http://arxiv.org/abs/2407.17957v1 )

ライセンス: Link先を確認
Leon Herrmann, Ole Sigmund, Viola Muning Li, Christian Vogl, Stefan Kollmannsberger, (参考訳) ニューラルネットワークは、最近、逆問題やトポロジ最適化のための随伴最適化フレームワークにおいて、物質的離散化として採用されている。 いくつかの逆問題に対して、有利な正規化効果とより良い最適化が発見されているが、トポロジ最適化の利点は限られており、調査の焦点がコンプライアンスの問題となっている。 ニューラルネットワークの材料離散化が、特定の条件下で、より困難な最適化問題において、より局所的な最適性を見出すことを実証し、音響トポロジ最適化を特に検討する。 ニューラルネットワークの初期化の異なる複数の部分最適化を実行することで、より良い最適化を識別する可能性が大幅に向上する。 さらに、ニューラルネットワーク素材の離散化の利点は、Adamオプティマイザとの相互作用によるものであり、制約のある高階最適化技術と競合する際の現在の制限を強調していることを示す。 現時点では、この離散化は制約のない一階最適化にのみ有用であることが示されている。

Neural networks have recently been employed as material discretizations within adjoint optimization frameworks for inverse problems and topology optimization. While advantageous regularization effects and better optima have been found for some inverse problems, the benefit for topology optimization has been limited -- where the focus of investigations has been the compliance problem. We demonstrate how neural network material discretizations can, under certain conditions, find better local optima in more challenging optimization problems, where we here specifically consider acoustic topology optimization. The chances of identifying a better optimum can significantly be improved by running multiple partial optimizations with different neural network initializations. Furthermore, we show that the neural network material discretization's advantage comes from the interplay with the Adam optimizer and emphasize its current limitations when competing with constrained and higher-order optimization techniques. At the moment, this discretization has only been shown to be beneficial for unconstrained first-order optimization.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 表現的アライメントの奇抜な事例--創発的コミュニケーションにおけるヴィシオ言語的課題の解明

The Curious Case of Representational Alignment: Unravelling Visio-Linguistic Tasks in Emergent Communication ( http://arxiv.org/abs/2407.17960v1 )

ライセンス: Link先を確認
Tom Kouwenhoven, Max Peeperkorn, Bram van Dijk, Tessa Verhoef, (参考訳) 自然言語は構成的であり、現実に根ざした普遍的な性質を持つ。 言語特性の出現は、しばしば参照ゲームにおける創発的コミュニケーションのシミュレーションを通して研究される。 しかし、これらの実験は、人間の言語の言語的特性に対処する同様の実験と比較して、混合の結果をもたらしている。 ここでは、表現的アライメントをこれらの結果に潜在的に寄与する要因として扱う。 具体的には、エージェント画像表現とエージェント表現と入力画像との表現アライメントを評価する。 エージェント画像表現は,エージェント間のアライメントが増大する一方,入力から遠ざかっているため,創発言語が人間の視覚的特徴をコード化していないことが確認された。 さらに, 歯間アライメントと地形的類似性, 構成性の共通指標との強い関係を同定し, その結果に対処する。 これらの問題に対処するために,表現的ドリフトを防止するアライメントペナルティを導入するが,興味深いことに,構成的識別タスクの性能は向上しない。 そこで本研究では,言語出現のシミュレーションにおいて,表現的アライメントが果たす重要な役割を強調した。

Natural language has the universal properties of being compositional and grounded in reality. The emergence of linguistic properties is often investigated through simulations of emergent communication in referential games. However, these experiments have yielded mixed results compared to similar experiments addressing linguistic properties of human language. Here we address representational alignment as a potential contributing factor to these results. Specifically, we assess the representational alignment between agent image representations and between agent representations and input images. Doing so, we confirm that the emergent language does not appear to encode human-like conceptual visual features, since agent image representations drift away from inputs whilst inter-agent alignment increases. We moreover identify a strong relationship between inter-agent alignment and topographic similarity, a common metric for compositionality, and address its consequences. To address these issues, we introduce an alignment penalty that prevents representational drift but interestingly does not improve performance on a compositional discrimination task. Together, our findings emphasise the key role representational alignment plays in simulations of language emergence.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 意味不明な意味: 算数的推論課題における生成モデルの一般化の原理的理解

Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks ( http://arxiv.org/abs/2407.17963v1 )

ライセンス: Link先を確認
Xingcheng Xu, Zibo Zhao, Haipeng Zhang, Yanqing Yang, (参考訳) 大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。 これらの振る舞いを調べるために、算術的なタスクは重要な場所として機能する。 従来の研究では,(1) 適切な位置埋め込みを持つモデルでは,加算などの未確認の演算を正しく行うことができるが,その効果は乗算のようなより複雑なタスクによって変化する。(2) 特定のモジュライ(例 , modulo 100) の下では,モジュール追加において,より長い未確認ケースに対して,モデルが良好に動作するが,(例 , modulo 101) 位置符号化によらず非常に近いモジュライ(例 , modulo 101) の下では苦労する。これまでの研究では,根本原因に対処するのではなく,症状を治療してきたと我々は信じている。一方で,実際のドライバである可能性のあるタスク特性の違いを見越して,モデルコンポーネントの改善に過度な注意を払ってきた。 これは、異なる算術シナリオのための統合理論フレームワークによって確認される。 例えば、乗法とは異なり、デジタル加算タスクは変換不変性を持ち、相対的な位置エンコーディングと自然に一致する。 操作変調100、101の相違は基地から生じる。 101とは異なり、モデュロ100は十進系(ベース10)と互換性があり、単位桁を超え、十進数は実際にはそのタスクには必要ない。 GPTのようなモデルによる大規模な実験は、我々の理論予測を検証する。 これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。

Large language models (LLMs) have demonstrated impressive versatility across numerous tasks, yet their generalization capabilities remain poorly understood. To investigate these behaviors, arithmetic tasks serve as important venues. In previous studies, seemingly unrelated mysteries still exist -- (1) models with appropriate positional embeddings can correctly perform longer unseen arithmetic operations such as addition, but their effectiveness varies in more complex tasks like multiplication; (2) models perform well for longer unseen cases in modular addition under specific moduli (e.g., modulo 100) but struggle under very close moduli (e.g., modulo 101), regardless of the positional encoding used. We believe previous studies have been treating the symptoms rather than addressing the root cause -- they have paid excessive attention to improving model components, while overlooking the differences in task properties that may be the real drivers. This is confirmed by our unified theoretical framework for different arithmetic scenarios. For example, unlike multiplication, the digital addition task has the property of translation invariance which naturally aligns with the relative positional encoding, and this combination leads to successful generalization of addition to unseen longer domains. The discrepancy in operations modulo 100 and 101 arises from the base. Modulo 100, unlike 101, is compatible with the decimal system (base 10), such that unseen information in digits beyond the units digit and the tens digit is actually not needed for the task. Extensive experiments with GPT-like models validate our theoretical predictions. These findings deepen our understanding of the generalization mechanisms, and facilitate more data-efficient model training and objective-oriented AI alignment.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 量子回路最適化のための条件付きクリーンアンシラの立ち上がり

Rise of conditionally clean ancillae for optimizing quantum circuits ( http://arxiv.org/abs/2407.17966v1 )

ライセンス: Link先を確認
Tanuj Khattar, Craig Gidney, (参考訳) 我々は、最近[NZS24]によって記述された条件付きクリーンアンシラが、量子回路設計キットの標準ツールとなることを例示して論じる。 いくつかの回路構成のゲート数と深さを低減するために, 条件付きクリーンアンシラを用いている。 特に, (a) 2n Toffolis と O(log n) の深さを2つのクリーンアンシラで制御したNOTについて述べる。 b) 3n Toffolis を用いた n-qubit インクリメント器は log*(n) クリーンアンシラを付与する。 (c)log*(n)クリーンアンシラを与えられた3n Toffolisを用いたn-量子ビット量子古典コンパレータ。 (d) 2.5Nトフォリスを用いた [0, N) 上の一様反復により, 2つのクリーンアンシラが得られた。 (e) n 個の汚れたアンシラを与えられた 1.25 N のトフォリスを用いて、[0, N) 上のスキューツリーを経由した一意的な反復。 また, クリーンアンシラを汚れたアンシラに置き換えるスラグ付きトグル検出技術について述べる。 提案手法は, サブリニアアンシラの要求により, 最下位のゲート数を実現し, 早期耐故障性の低量子状態の回路を最適化するためのビルディングブロックとして有用である。

We argue by example that conditionally clean ancillae, recently described by [NZS24], should become a standard tool in the quantum circuit design kit. We use conditionally clean ancillae to reduce the gate counts and depths of several circuit constructions. In particular, we present: (a) n-controlled NOT using 2n Toffolis and O(log n) depth given 2 clean ancillae. (b) n-qubit incrementer using 3n Toffolis given log*(n) clean ancillae. (c) n-qubit quantum-classical comparator using 3n Toffolis given log*(n) clean ancillae. (d) unary iteration over [0, N) using 2.5N Toffolis given 2 clean ancillae. (e) unary iteration via skew tree over [0, N) using 1.25 N Toffolis given n dirty ancillae. We also describe a technique for laddered toggle detection to replace clean ancillae with dirty ancillae in all our constructions with a 2x Toffoli overhead. Our constructions achieve the lowest gate counts to date with sublinear ancilla requirements and should be useful building blocks to optimize circuits in the low-qubit regime of Early Fault Tolerance.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# 条件整合性モデルを用いた軽量言語によるグラフ検出

Lightweight Language-driven Grasp Detection using Conditional Consistency Model ( http://arxiv.org/abs/2407.17967v1 )

ライセンス: Link先を確認
Nghia Nguyen, Minh Nhat Vu, Baoru Huang, An Vuong, Ngan Le, Thieu Vo, Anh Nguyen, (参考訳) 言語駆動型グリップ検出は、様々な産業応用を持つロボティクスにおいて、基本的かつ困難な課題である。 本研究では,高速な推論時間を実現するために,軽量拡散モデルの概念を活用する言語駆動型把握検出手法を提案する。 本手法は,拡散過程を自然言語の把握プロンプトと統合することにより,視覚情報やテキスト情報を効果的に符号化し,テキストクエリとよく整合したより正確で多目的な把握位置決めを可能にする。 拡散モデルにおける長い推測時間の問題を克服するため、画像とテキストの特徴を一貫性モデルにおける条件として利用し、推論中のノイズ発生時間を減少させる。 集中的な実験結果から,本手法は,他のグリップ検出法や軽量拡散モデルよりも明確なマージンで優れていることが示された。 実世界におけるロボット実験における本手法の有効性を検証し,その高速推論能力を実証する。

Language-driven grasp detection is a fundamental yet challenging task in robotics with various industrial applications. In this work, we present a new approach for language-driven grasp detection that leverages the concept of lightweight diffusion models to achieve fast inference time. By integrating diffusion processes with grasping prompts in natural language, our method can effectively encode visual and textual information, enabling more accurate and versatile grasp positioning that aligns well with the text query. To overcome the long inference time problem in diffusion models, we leverage the image and text features as the condition in the consistency model to reduce the number of denoising timesteps during inference. The intensive experimental results show that our method outperforms other recent grasp detection methods and lightweight diffusion models by a clear margin. We further validate our method in real-world robotic experiments to demonstrate its fast inference time capability.
翻訳日:2024-07-26 14:18:40 公開日:2024-07-25
# キキはどのように見えるか : 視覚・言語モデルにおける音声音と視覚形状の相互関連

What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models ( http://arxiv.org/abs/2407.17974v1 )

ライセンス: Link先を確認
Tessa Verhoef, Kiana Shahrasbi, Tom Kouwenhoven, (参考訳) 人間は、特定の新しい単語を視覚的な形に合わせる際に、明らかに横断的な嗜好を持つ。 エビデンスでは、これらの嗜好が言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っていることを示唆している。 視覚と言語(VLM)モデルのようなAIにおけるマルチモーダルモデルの増加に伴い、これらのモデルが符号化する視覚言語的関連や、それらが人間の表現と整合するかどうかを明らかにすることがますます重要になっている。 人体による実験によって得られた情報を用いて、4つのVLMを、よく知られた人間の相互選好であるブバキキ効果を探索・比較する。 この効果の確定的な証拠は見つからないが、結果はアーキテクチャ設計やモデルサイズ、トレーニングの詳細といったモデルの特徴に依存する可能性があることを示唆している。 本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。

Humans have clear cross-modal preferences when matching certain novel words to visual shapes. Evidence suggests that these preferences play a prominent role in our linguistic processing, language learning, and the origins of signal-meaning mappings. With the rise of multimodal models in AI, such as vision- and-language (VLM) models, it becomes increasingly important to uncover the kinds of visio-linguistic associations these models encode and whether they align with human representations. Informed by experiments with humans, we probe and compare four VLMs for a well-known human cross-modal preference, the bouba-kiki effect. We do not find conclusive evidence for this effect but suggest that results may depend on features of the models, such as architecture design, model size, and training details. Our findings inform discussions on the origins of the bouba-kiki effect in human cognition and future developments of VLMs that align well with human cross-modal associations.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# エッジ支援車両のパーソナライズ・コンテクストを考慮した経路計画

Personalized and Context-aware Route Planning for Edge-assisted Vehicles ( http://arxiv.org/abs/2407.17980v1 )

ライセンス: Link先を確認
Dinesh Cyril Selvaraj, Falko Dressler, Carla Fabiana Chiasserini, (参考訳) 従来のルートプランニングサービスは、一般的にすべてのドライバーに同じルートを提供しており、主に運転者の好みを見渡すために、旅行距離や時間などのいくつかの標準化された要素に焦点を当てている。 今後数年間に自動運転車の登場が予想され、こうしたプランナーが決めるルートに依存しているため、各ドライバーの特定の好みを取り入れ、パーソナライズされたナビゲーション体験を確保する必要がある。 本研究では,グラフニューラルネットワーク(GNN)と深部強化学習(DRL)に基づく新たなアプローチを提案する。 運転者の過去の軌跡を解析することにより、運転行動の分類を行い、運転嗜好の指標として関連する道路属性を関連づける。 GNNは、道路ネットワークをグラフ構造化データとして効果的に表現でき、DRLは、旅行コスト、渋滞レベル、運転者の満足度などの要因による経路選択を最適化するための報酬メカニズムを利用した決定を行うことができる。 提案したGNNベースのDRLフレームワークを実環境の道路ネットワークを用いて評価し,運転者の嗜好に適合する機能を示し,運転者に合わせて様々な経路オプションを提供する。 その結果, 一般経路プランナーに比べて最大17%改善した運転者の嗜好に対応する経路を選択することができ, 走行時間を33%(正午以降)と46%(最短距離ベースアプローチ)に短縮できることがわかった。

Conventional route planning services typically offer the same routes to all drivers, focusing primarily on a few standardized factors such as travel distance or time, overlooking individual driver preferences. With the inception of autonomous vehicles expected in the coming years, where vehicles will rely on routes decided by such planners, there arises a need to incorporate the specific preferences of each driver, ensuring personalized navigation experiences. In this work, we propose a novel approach based on graph neural networks (GNNs) and deep reinforcement learning (DRL), aimed at customizing routes to suit individual preferences. By analyzing the historical trajectories of individual drivers, we classify their driving behavior and associate it with relevant road attributes as indicators of driver preferences. The GNN is capable of representing the road network as graph-structured data effectively, while DRL is capable of making decisions utilizing reward mechanisms to optimize route selection with factors such as travel costs, congestion level, and driver satisfaction. We evaluate our proposed GNN-based DRL framework using a real-world road network and demonstrate its ability to accommodate driver preferences, offering a range of route options tailored to individual drivers. The results indicate that our framework can select routes that accommodate driver's preferences with up to a 17% improvement compared to a generic route planner, and reduce the travel time by 33% (afternoon) and 46% (evening) relatively to the shortest distance-based approach.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 結合チャネル系におけるトンネル時間

Tunneling time in coupled-channel systems ( http://arxiv.org/abs/2407.17981v1 )

ライセンス: Link先を確認
Peng Guo, Vladimir Gasparian, Antonio Pérez-Garrido, Esther Jódar, (参考訳) 本稿では, 量子粒子のトンネル時間を記述するために, 複数のエネルギーレベルを持つ複合化合物や, 準1次元の多重チャネル系に還元可能な複素構造体を用いて, 量子粒子のトンネル時間を記述するための2チャネル形式について述べる。

In present work, we present a couple-channel formalism for the description of tunneling time of a quantum particle through a composite compound with multiple energy levels or a complex structure that can be reduced to a quasi-one-dimensional multiple-channel system.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# タンパク質間の固体伝導に対するキャリアカスケードモデルの実験データ

Experimental Data Confirm Carrier-Cascade Model for Solid-State Conductance across Proteins ( http://arxiv.org/abs/2407.17982v1 )

ライセンス: Link先を確認
Eszter Papp, Gabor Vattay, Carlos Romero-Muniz, Linda A. Zotti, Jerry A. Fereiro, Mordechai Sheves, David Cahen, (参考訳) 金属電極間の超薄型タンパク質膜間の電子伝導が室温からわずか数度までほぼ一定であることが、ケルビンの課題となっている。 一般化されたランダウアー式に基づくモデルでは、ほぼ一定の伝導が説明され、低温に対するアレニウスのような依存が予測される。 このモデルの重要な側面は、コンダクタンスの活性化エネルギーが、HOMOとHOMO-1、またはLUMO+1とLUMOエネルギーの差である。 実験データの解析により、アレニウスの法則が確定し、活性化エネルギーを抽出することができる。 次に、実験で用いられるタンパク質の高度なDFT法を用いてエネルギー差を計算する。 我々の主な結果は、これらの3つの異なるタンパク質と3つの異なる調製された固体接合の実験的および理論的活性化エネルギーがほぼ完全に一致し、メカニズムの妥当性が示唆されたことである。

The finding that electronic conductance across ultra-thin protein films between metallic electrodes remains nearly constant from room temperature to just a few degrees Kelvin has posed a challenge. We show that a model based on a generalized Landauer formula explains the nearly constant conductance and predicts an Arrhenius-like dependence for low temperatures. A critical aspect of the model is that the relevant activation energy for conductance is either the difference between the HOMO and HOMO-1 or the LUMO+1 and LUMO energies instead of the HOMO-LUMO gap of the proteins. Analysis of experimental data confirm the Arrhenius-like law and allows us to extract the activation energies. We then calculate the energy differences with advanced DFT methods for proteins used in the experiments. Our main result is that the experimental and theoretical activation energies for these three different proteins and three differently prepared solid-state junctions match nearly perfectly, implying the mechanism's validity.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 生きたソフトウェアアーキテクチャ図を目指して

Towards Living Software Architecture Diagrams ( http://arxiv.org/abs/2407.17990v1 )

ライセンス: Link先を確認
Filipe F. Correia, Ricardo Ferreira, Paulo G. G Queiroz, Henrique Nunes, Matilde Barra, Duarte Figueiredo, (参考訳) ソフトウェアアーキテクチャは、しばしばソースコードやその他の開発成果物にまたがって分散された相互接続されたコンポーネントから構成される。 一部のツールは自動的にアーキテクチャ図を生成することができるが、これらはほとんどシステムのアーキテクチャを反映していない。 本稿では,複数のソフトウェアアーティファクトから自動的にアーキテクチャを復元する価値と,復元したモデルを手動で調整し,リカバリプロセスを自動化する能力を組み合わせることを提案する。 本稿では,ソフトウェアアーチファクトを解析し,それらを包括的システム表現に統合することによって,ソフトウェアシステムのアーキテクチャ図を生成するツールについて述べる。 この表現は、更新時にダイアグラムに再統合されることを保証しながら、手動で修正することができる。 他の種類のドキュメンテーションツールにも同様のアプローチを採用することは可能であり、同様のメリットをもたらすことができる、と私たちは主張する。

Software architecture often consists of interconnected components dispersed across source code and other development artifacts, making visualization difficult without costly additional documentation. Although some tools can automatically generate architectural diagrams, these hardly fully reflect the architecture of the system. We propose the value of automatic architecture recovery from multiple software artifacts, combined with the ability to manually adjust recovered models and automate the recovery process. We present a general approach to achieve this and describe a tool that generates architectural diagrams for a software system by analyzing its software artifacts and unifying them into a comprehensive system representation. This representation can be manually modified while ensuring that changes are reintegrated into the diagram when it is regenerated. We argue that adopting a similar approach in other types of documentation tools is possible and can render similar benefits.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 非パラメトリック関数に対する補正型アクティブラーニング

Amortized Active Learning for Nonparametric Functions ( http://arxiv.org/abs/2407.17992v1 )

ライセンス: Link先を確認
Cen-You Li, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer, (参考訳) アクティブラーニング(英: Active Learning, AL)は、最も情報性の高いデータを選択するためのシーケンシャルラーニングスキームである。 ALはデータ消費を減らし、大量のデータをラベル付けするコストを回避する。 しかし、ALはモデルをトレーニングし、各選択に対する取得最適化を解決する。 モデルのトレーニングや取得の最適化が難しい場合には、コストがかかります。 本稿では,金標準ガウス過程 (GP) のアプローチが3次時間複雑性に悩まされるような,アクティブな非パラメトリック関数学習に焦点を当てる。 本稿では,実データなしで事前トレーニングを行うニューラルネットワークを用いて,新たなデータを提案するアモータイズAL法を提案する(第1報)。 提案手法は繰り返しモデルトレーニングを回避し,ALデプロイメント中に取得最適化を必要としない。 我が家 i) 関数先行としてGPを使用し、ALシミュレータを構築する。 二 シミュレーションから非パラメトリック関数の実学習問題へのゼロショット一般化が可能なALポリシーを訓練し、 三 リアルタイムデータ選択と学習性能を時間消費ベースライン法に匹敵するものにすること。

Active learning (AL) is a sequential learning scheme aiming to select the most informative data. AL reduces data consumption and avoids the cost of labeling large amounts of data. However, AL trains the model and solves an acquisition optimization for each selection. It becomes expensive when the model training or acquisition optimization is challenging. In this paper, we focus on active nonparametric function learning, where the gold standard Gaussian process (GP) approaches suffer from cubic time complexity. We propose an amortized AL method, where new data are suggested by a neural network which is trained up-front without any real data (Figure 1). Our method avoids repeated model training and requires no acquisition optimization during the AL deployment. We (i) utilize GPs as function priors to construct an AL simulator, (ii) train an AL policy that can zero-shot generalize from simulation to real learning problems of nonparametric functions and (iii) achieve real-time data selection and comparable learning performances to time-consuming baseline methods.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# モバイル写真における共同RGBスペクトル分解モデルによる画像強調

Joint RGB-Spectral Decomposition Model Guided Image Enhancement in Mobile Photography ( http://arxiv.org/abs/2407.17996v1 )

ライセンス: Link先を確認
Kailai Zhou, Lijing Cai, Yibo Wang, Mengya Zhang, Bihan Wen, Qiu Shen, Xun Cao, (参考訳) 小型の分光計をモバイルデバイスに統合することで、画質向上のための新たな道が生まれ、新しい下流タスクが促進される。 しかし、モバイル写真におけるスペクトルセンサの幅広い応用は、スペクトル画像の本質的な複雑さとスペクトルイメージング能力の制約によって妨げられている。 これらの課題を克服するため、我々は、共同分解と事前誘導強化の2段階からなる共同RGBスペクトル分解モデル誘導拡張フレームワークを提案する。 まず、RGBと低分解能マルチスペクトル画像(Lr-MSI)の相補性を利用して、シェーディング、リフレクタンス、マテリアルセマンティクスの事前予測を行う。 その後、これらの事前情報は、動的範囲拡張、カラーマッピング、グリッドエキスパート学習を促進するために、確立されたHDRNetにシームレスに統合される。 さらに,本研究を支援するための高品質なMobile-Specデータセットを構築し,Lr-MSIの有効性を検証する。 この研究は、モバイル写真におけるスペクトルビジョンの進歩のための確かな基盤を確立することを目的としている。 コードは \url{https://github.com/CalayZhou/JDM-HDRNet} で公開されている。

The integration of miniaturized spectrometers into mobile devices offers new avenues for image quality enhancement and facilitates novel downstream tasks. However, the broader application of spectral sensors in mobile photography is hindered by the inherent complexity of spectral images and the constraints of spectral imaging capabilities. To overcome these challenges, we propose a joint RGB-Spectral decomposition model guided enhancement framework, which consists of two steps: joint decomposition and prior-guided enhancement. Firstly, we leverage the complementarity between RGB and Low-resolution Multi-Spectral Images (Lr-MSI) to predict shading, reflectance, and material semantic priors. Subsequently, these priors are seamlessly integrated into the established HDRNet to promote dynamic range enhancement, color mapping, and grid expert learning, respectively. Additionally, we construct a high-quality Mobile-Spec dataset to support our research, and our experiments validate the effectiveness of Lr-MSI in the tone enhancement task. This work aims to establish a solid foundation for advancing spectral vision in mobile photography. The code is available at \url{https://github.com/CalayZhou/JDM-HDRNet}.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 異なる音声認識アーキテクチャにおける純合成学習データの効果について

On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures ( http://arxiv.org/abs/2407.17997v1 )

ライセンス: Link先を確認
Nick Rossenbach, Benedikt Hilmes, Ralf Schlüter, (参考訳) 本研究では,自動音声認識(ASR)の学習における合成データの有用性を評価する。 我々は、ASRトレーニングデータを用いて、FastSpeech-2に似たテキスト音声合成システム(TTS)を訓練する。 このTTSにより、我々は元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。 ASRでは、アテンションベースのエンコーダデコーダ、ハイブリッドディープニューラルネットワーク隠蔽マルコフモデル、ガウス混合隠蔽マルコフモデルという3つの異なるアーキテクチャを使用し、合成データ生成に対するモデルの異なる感度を示す。 これまでの研究を拡大するために,ASRのための合成と実のトレーニングデータの有効性について,多くのアブレーション研究を行った。 特に、話者埋め込みの変化やモデルサイズの拡大によって、合成データと実データ間のトレーニングのギャップがどのように変化するかに焦点を当てる。 後者については、トレーニングスコアが過度な適合を示す場合であっても、TSモデルがうまく一般化されていることを示す。

In this work we evaluate the utility of synthetic data for training automatic speech recognition (ASR). We use the ASR training data to train a text-to-speech (TTS) system similar to FastSpeech-2. With this TTS we reproduce the original training data, training ASR systems solely on synthetic data. For ASR, we use three different architectures, attention-based encoder-decoder, hybrid deep neural network hidden Markov model and a Gaussian mixture hidden Markov model, showing the different sensitivity of the models to synthetic data generation. In order to extend previous work, we present a number of ablation studies on the effectiveness of synthetic vs. real training data for ASR. In particular we focus on how the gap between training on synthetic and real data changes by varying the speaker embedding or by scaling the model size. For the latter we show that the TTS models generalize well, even when training scores indicate overfitting.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# iNNspector: ビジュアルでインタラクティブなディープモデルデバッグ

iNNspector: Visual, Interactive Deep Model Debugging ( http://arxiv.org/abs/2407.17998v1 )

ライセンス: Link先を確認
Thilo Spinner, Daniel Fürst, Mennatallah El-Assady, (参考訳) ディープラーニングモデル設計、開発、デバッグは、ベストプラクティス、ガイドライン、試行錯誤、そしてモデル開発者の個人的な経験によって駆動されるプロセスである。 このプロセスの複数の段階で、パフォーマンスと内部モデルデータのログ化と利用が可能である。 しかしながら、このデータとプロセスの複雑さとスケールのため、モデル開発者は、精度や損失といった抽象的な指標に基づいて、モデルのパフォーマンスを評価することに頼ることが多い。 モデルアーキテクチャと複数の抽象化レベルで、構造化されたデータ解析は、デバッグプロセスをかなり合理化できる、と我々は主張する。 このような体系的な分析は、ディベロッパの設計選択とモデル行動への影響をさらに結びつけ、深層学習モデルの理解、診断、洗練を促進する。 そこで本研究では,1)深層学習実験のデータ空間を構造化する概念的枠組みを提案する。 文献分析と要求インタビューを基盤とした我々のフレームワークは、設計の次元を捉え、このデータを探索可能かつ抽出可能にするためのメカニズムを提案する。 フレームワークを使えるアプリケーションで運用するには、(2)iNNspectorシステムを提案する。 iNNspectorは、ディープラーニング実験の追跡を可能にし、複数のモデルから個々のニューロンまで、あらゆるレベルの抽象化に関するデータのインタラクティブな可視化を提供する。 最後に,3つの実世界のユースケースと,ディープラーニング開発者とデータアナリストによるユーザスタディによるアプローチの評価を行い,その有効性とユーザビリティを実証した。

Deep learning model design, development, and debugging is a process driven by best practices, guidelines, trial-and-error, and the personal experiences of model developers. At multiple stages of this process, performance and internal model data can be logged and made available. However, due to the sheer complexity and scale of this data and process, model developers often resort to evaluating their model performance based on abstract metrics like accuracy and loss. We argue that a structured analysis of data along the model's architecture and at multiple abstraction levels can considerably streamline the debugging process. Such a systematic analysis can further connect the developer's design choices to their impacts on the model behavior, facilitating the understanding, diagnosis, and refinement of deep learning models. Hence, in this paper, we (1) contribute a conceptual framework structuring the data space of deep learning experiments. Our framework, grounded in literature analysis and requirements interviews, captures design dimensions and proposes mechanisms to make this data explorable and tractable. To operationalize our framework in a ready-to-use application, we (2) present the iNNspector system. iNNspector enables tracking of deep learning experiments and provides interactive visualizations of the data on all levels of abstraction from multiple models to individual neurons. Finally, we (3) evaluate our approach with three real-world use-cases and a user study with deep learning developers and data analysts, proving its effectiveness and usability.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 不均一資産のための軽量産業コホーテッド・フェデレーションラーニング

Lightweight Industrial Cohorted Federated Learning for Heterogeneous Assets ( http://arxiv.org/abs/2407.17999v1 )

ライセンス: Link先を確認
Madapu Amarlingam, Abhishek Wani, Adarsh NL, (参考訳) フェデレートラーニング(FL)は、データを共有することなくクライアント間で学習を交換し、プライバシを妥協することによって、分散機械学習(ML)モデルをトレーニングするための最も広く採用されているコラボレーティブラーニングアプローチである。 しかし、すべてのFLタスクにおいて、大きなデータ類似性や均質性は認められているため、FLは産業環境では特に設計されていない。 産業データには、マシンタイプ、ファームウェアバージョン、運用条件、環境要因、従ってデータ分散の違いがあるため、これはまれである。 その人気にもかかわらず、クライアントが不均一なデータ分布を持つ場合、FL性能は低下する。 そこで,本研究では,標準FLよりも高度な(クライアントレベルの)計算や通信を行うことなく,コホーティングのためのモデルパラメータを用いた軽量産業用コホートFL (licFL) アルゴリズムを提案し,産業応用におけるデータ不均一性の欠点を軽減した。 このアプローチは、クライアントと協力し、より専門的でパーソナライズされたモデルをトレーニングすることで、クライアントレベルのモデルパフォーマンスを向上させる。 また,アダプティブ・アグリゲーション・アルゴリズムを提案する。このアルゴリズムは,大域的なモデル性能の向上と収束の高速化を目的として,適応的 LICFL (Adaptive LICFL) に拡張する。 実時間データに対する数値実験により,提案アルゴリズムの有効性を実証し,既存の手法と比較した。

Federated Learning (FL) is the most widely adopted collaborative learning approach for training decentralized Machine Learning (ML) models by exchanging learning between clients without sharing the data and compromising privacy. However, since great data similarity or homogeneity is taken for granted in all FL tasks, FL is still not specifically designed for the industrial setting. Rarely this is the case in industrial data because there are differences in machine type, firmware version, operational conditions, environmental factors, and hence, data distribution. Albeit its popularity, it has been observed that FL performance degrades if the clients have heterogeneous data distributions. Therefore, we propose a Lightweight Industrial Cohorted FL (LICFL) algorithm that uses model parameters for cohorting without any additional on-edge (clientlevel) computations and communications than standard FL and mitigates the shortcomings from data heterogeneity in industrial applications. Our approach enhances client-level model performance by allowing them to collaborate with similar clients and train more specialized or personalized models. Also, we propose an adaptive aggregation algorithm that extends the LICFL to Adaptive LICFL (ALICFL) for further improving the global model performance and speeding up the convergence. Through numerical experiments on real-time data, we demonstrate the efficacy of the proposed algorithms and compare the performance with existing approaches.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 植物害虫の識別に関する重要な3つの疑問に答えるための調査と実践的識別枠組みの開発

Investigation to answer three key questions concerning plant pest identification and development of a practical identification framework ( http://arxiv.org/abs/2407.18000v1 )

ライセンス: Link先を確認
Ryosuke Wayama, Yuki Sasaki, Satoshi Kagiwada, Nobusuke Iwasaki, Hitoshi Iyatomi, (参考訳) 植物害虫を同定するための実用的で堅牢な自動診断システムの開発は、効率的な農業生産に不可欠である。 本稿では,画像に基づく植物害虫識別の分野において,これまで解決されていない3つの重要な研究課題(RQ)について検討する。 得られた知見に基づいて, 4つの植物部分(葉先, 葉先, 果実, キュウリ, トマト, イチゴ, ナス)78種と27の農場で捕獲された20種からなる334K画像を用いて, 正確な, 堅牢かつ高速な植物害虫識別フレームワークを構築した。 その結果,以下のことが判明した。 1)モデルの適切な評価には,トレーニング画像が収集されたフィールドの画像を含めるべきではない。 2)葉や果実などのROIの事前抽出は,識別精度の向上に寄与する。 (3)同じ害虫に対する同一制御法とクロスクロップ訓練法を用いた近縁種の統合が有効である。 この2段階の植物害虫識別フレームワークはROI検出と畳み込みニューラルネットワーク(CNN)に基づく識別が可能であり, 平均精度が91.0%, マクロF1スコアが88.5%, 未確認フィールドから収集した21種類のテストデータ12,223件に対して, 平均識別時間は476ms/imageであった。

The development of practical and robust automated diagnostic systems for identifying plant pests is crucial for efficient agricultural production. In this paper, we first investigate three key research questions (RQs) that have not been addressed thus far in the field of image-based plant pest identification. Based on the knowledge gained, we then develop an accurate, robust, and fast plant pest identification framework using 334K images comprising 78 combinations of four plant portions (the leaf front, leaf back, fruit, and flower of cucumber, tomato, strawberry, and eggplant) and 20 pest species captured at 27 farms. The results reveal the following. (1) For an appropriate evaluation of the model, the test data should not include images of the field from which the training images were collected, or other considerations to increase the diversity of the test set should be taken into account. (2) Pre-extraction of ROIs, such as leaves and fruits, helps to improve identification accuracy. (3) Integration of closely related species using the same control methods and cross-crop training methods for the same pests, are effective. Our two-stage plant pest identification framework, enabling ROI detection and convolutional neural network (CNN)-based identification, achieved a highly practical performance of 91.0% and 88.5% in mean accuracy and macro F1 score, respectively, for 12,223 instances of test data of 21 classes collected from unseen fields, where 25 classes of images from 318,971 samples were used for training; the average identification time was 476 ms/image.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# 畳み込みニューラルネットのネットワークインバージョン

Network Inversion of Convolutional Neural Nets ( http://arxiv.org/abs/2407.18002v1 )

ライセンス: Link先を確認
Pirzada Suhail, Amit Sethi, (参考訳) ニューラルネットワークは様々なアプリケーションにまたがる強力なツールとして登場したが、意思決定プロセスはしばしば不透明であり、「ブラックボックス」と認識される。 この不透明さは、特に安全クリティカルなシナリオにおいて、その解釈可能性と信頼性に関する懸念を提起する。 ネットワークの反転技術は、これらのブラックボックスの中を覗き見し、意思決定プロセスの背後にあるネットワークによって得られた特徴とパターンを明らかにし、ニューラルネットワークが結論に達する方法に関する貴重な洞察を提供することで、より解釈可能で信頼性の高いものになります。 本稿では、トレーニングされたニューラルネットワークの入力空間におけるデータ分布を学習し、所望の出力につながる可能性のある入力の再構成を可能にする、注意深く条件付けされたジェネレータを用いて、ネットワークインバージョンに対する単純かつ効果的なアプローチを提案する。 与えられた出力に対する入力空間の多様性を、単に条件ラベルを生成元に公開する代わりに、条件ラベル情報をベクトルに隠れてエンコードし、生成過程における重降下と、生成された画像に対応する特徴間のコサイン類似性の最小化によりさらに実証する。 本稿では,解釈可能性,説明可能性,対向サンプルの生成など,ネットワーク変換の即時適用について述べる。

Neural networks have emerged as powerful tools across various applications, yet their decision-making process often remains opaque, leading to them being perceived as "black boxes." This opacity raises concerns about their interpretability and reliability, especially in safety-critical scenarios. Network inversion techniques offer a solution by allowing us to peek inside these black boxes, revealing the features and patterns learned by the networks behind their decision-making processes and thereby provide valuable insights into how neural networks arrive at their conclusions, making them more interpretable and trustworthy. This paper presents a simple yet effective approach to network inversion using a carefully conditioned generator that learns the data distribution in the input space of the trained neural network, enabling the reconstruction of inputs that would most likely lead to the desired outputs. To capture the diversity in the input space for a given output, instead of simply revealing the conditioning labels to the generator, we hideously encode the conditioning label information into vectors, further exemplified by heavy dropout in the generation process and minimisation of cosine similarity between the features corresponding to the generated images. The paper concludes with immediate applications of Network Inversion including in interpretability, explainability and generation of adversarial samples.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# コストを下げ続ける - LLMのKVキャッシュ消費を最適化する方法のレビュー

Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption ( http://arxiv.org/abs/2407.18003v1 )

ライセンス: Link先を確認
Shi Luohe, Zhang Hongyi, Yao Yao, Li Zuchao, Zhao Hai, (参考訳) 2022年末にChatGPTがリリースした大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。 しかし、その効率性はTransformerアーキテクチャの長文処理に苦慮しているため、課題となる。 KV-Cacheは、会話の長さに比例したGPUメモリオーバーヘッドの増加にもかかわらず、2次から線形へのトークン生成の時間的複雑さを変換する、この問題に対する重要なソリューションとして登場した。 LLMコミュニティとアカデミアの発展に伴い、様々なKVキャッシュ圧縮手法が提案されている。 本稿では、KVキャッシュの諸特性を解析し、現在LLMのKVキャッシュ空間利用を最適化するために使われている様々な手法について詳述する。 これらの手法は, 事前学習フェーズ, 展開フェーズ, 推論フェーズにまたがっており, これらの手法の共通点と相違点を要約する。 さらに、効率性と能力の観点から、大規模言語モデルの長文能力を評価するための指標をいくつか挙げる。 本稿では, LLM最適化の進化する展望を概観し, このダイナミックな分野における今後の進歩について考察する。

Large Language Models (LLMs), epitomized by ChatGPT' s release in late 2022, have revolutionized various industries with their advanced language comprehension. However, their efficiency is challenged by the Transformer architecture' s struggle with handling long texts. KV-Cache has emerged as a pivotal solution to this issue, converting the time complexity of token generation from quadratic to linear, albeit with increased GPU memory overhead proportional to conversation length. With the development of the LLM community and academia, various KV-Cache compression methods have been proposed. In this review, we dissect the various properties of KV-Cache and elaborate on various methods currently used to optimize the KV-Cache space usage of LLMs. These methods span the pre-training phase, deployment phase, and inference phase, and we summarize the commonalities and differences among these methods. Additionally, we list some metrics for evaluating the long-text capabilities of large language models, from both efficiency and capability perspectives. Our review thus sheds light on the evolving landscape of LLM optimization, offering insights into future advancements in this dynamic field.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# ブロックチェーンシステムの開発に関する実証的研究 : 実践者の視点から

An Exploration Study on Developing Blockchain Systems the Practitioners Perspective ( http://arxiv.org/abs/2407.18005v1 )

ライセンス: Link先を確認
Bakheet Aljedaani, Aakash Ahmad, Mahdi Fahmideh, Arif Ali Khan, Jun Shen, (参考訳) コンテキスト: ブロックチェーンベースのソフトウェア(BBS)は、セキュリティクリティカルおよびトランザクションクリティカルシステムのための不変コンテンツを備えた分散トランザクション台帳を提供する暗号通貨によって普及した概念と技術を利用する。 近年の研究では、サイバーセキュリティ、医療、教育、金融技術など、さまざまな分野におけるBBSの戦略的メリットと技術的制限について検討されている。 学界や産業からの関心が高まりつつあるにもかかわらず、実証的な証拠が不足しており、体系的なBBS開発に必要なプロセス、方法、技術が不完全な理解につながっている。 目的: 既存の研究には統合された見解が欠如しており、特に出版されたエビデンスと開発プラクティスに基づいた実証的なガイドラインが欠落している。 本研究は,BBSシステムを設計,実装,検証するための既存のプロセス,パターン,モデルを導出し,活用するための実証的エビデンスと開発プラクティスを統合することで,このギャップを解決することを目的とする。 方法: この知識ギャップに関連して, 2段階の研究プロジェクトを実施した。 まず, BBSシステムのための23のタスクからなる開発プロセスを特定するため, 58研究の系統的な文献レビューを行った。 第2に、BBSシステム開発プロセスを検証するために、6大陸35カ国から102人のブロックチェーン実践者を調査した。 結果: BBS課題26項目中24項目において, 統計的に有意な差 (p-value <.001) を認めた。 統計的に重要でない2つのタスクは、インセンティブプロトコル設計と粒度設計である。 結論:我々の研究はブロックチェーンベースのシステムの開発プロセスの側面について理解を深める最初のものであり、研究者や実践者がBBSシステムの開発に関連する課題や勧告を探求するのに役立つ。

Context: Blockchain-based software (BBS) exploits the concepts and technologies popularized by cryptocurrencies offering decentralized transaction ledgers with immutable content for security-critical and transaction critical systems. Recent research has explored the strategic benefits and technical limitations of BBS in various fields, including cybersecurity, healthcare, education, and financial technologies. Despite growing interest from academia and industry, there is a lack of empirical evidence, leading to an incomplete understanding of the processes, methods, and techniques necessary for systematic BBS development. Objectives: Existing research lacks a consolidated view, particularly empirically driven guidelines based on published evidence and development practices. This study aims to address the gap by consolidating empirical evidence and development practices to derive or leverage existing processes, patterns, and models for designing, implementing, and validating BBS systems. Method: Tied to this knowledge gap, we conducted a two-phase research project. First, a systematic literature review of 58 studies was performed to identify a development process comprising 23 tasks for BBS systems. Second, a survey of 102 blockchain practitioners from 35 countries across six continents was conducted to validate the BBS system development process. Results: Our results revealed a statistically significant difference (p-value <.001) in the importance ratings of 24 out of 26 BBS tasks by our participants. The only two tasks that were not statistically significant were incentive protocol design and granularity design. Conclusion: Our research is among the first to advance understanding on the aspect of development process for blockchain-based systems and helps researchers and practitioners in their quests on challenges and recommendations associated with the development of BBS systems
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# GermanPartiesQA: 政治的バイアスとシコファンシーのための商用大規模言語モデルのベンチマーク

GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy ( http://arxiv.org/abs/2407.18008v1 )

ライセンス: Link先を確認
Jan Batzner, Volker Stocker, Stefan Schmid, Gjergji Kasneci, (参考訳) LLMは、人間がコンテンツを作成し、対話する方法を変えており、市民の政治的意見や投票決定に影響を与える可能性がある。 LLMが私たちのデジタル情報エコシステムをますます形成していくにつれて、バイアス、薬効、または操縦性を評価する監査が研究の活発な分野として現れています。 本論文では,OpenAI, Anthropic, Cohere による6つの LLM とドイツ政党の位置のアライメントを評価し, 即時実験に基づいて薬効評価を行う。 我々は,大手商業LLMにおける多党制における政治的偏見と梅毒症の評価に貢献する。 まず,2021年から2023年にかけての10の州と1の国民選挙を対象とする投票支援アプリケーションWahl-o-Matに基づくベンチマークデータセット GermanPartiesQA を開発した。 本研究は,全LLMの左緑化傾向について検討した。 次に,ドイツの国会議員のベンチマークデータと社会デマトグラフィーデータを用いて,LSMの反応の変化を評価する。 「私は(政治X)、あなたは(政治X)...」と「あなたは(政治X)...」のプロンプトを使う。 期待に反して、我々は「私」と「あなた」との顕著な相違を観察しない。 その結果, LLMの反応は政治的ペルソナによってイデオロギー的に評価できることが示されたが, LLMのアウトプットの変化は, 梅毒ではなく, 与えられた文脈に対するパーソナライズとして説明できる可能性が示唆された。

LLMs are changing the way humans create and interact with content, potentially affecting citizens' political opinions and voting decisions. As LLMs increasingly shape our digital information ecosystems, auditing to evaluate biases, sycophancy, or steerability has emerged as an active field of research. In this paper, we evaluate and compare the alignment of six LLMs by OpenAI, Anthropic, and Cohere with German party positions and evaluate sycophancy based on a prompt experiment. We contribute to evaluating political bias and sycophancy in multi-party systems across major commercial LLMs. First, we develop the benchmark dataset GermanPartiesQA based on the Voting Advice Application Wahl-o-Mat covering 10 state and 1 national elections between 2021 and 2023. In our study, we find a left-green tendency across all examined LLMs. We then conduct our prompt experiment for which we use the benchmark and sociodemographic data of leading German parliamentarians to evaluate changes in LLMs responses. To differentiate between sycophancy and steerabilty, we use 'I am [politician X], ...' and 'You are [politician X], ...' prompts. Against our expectations, we do not observe notable differences between prompting 'I am' and 'You are'. While our findings underscore that LLM responses can be ideologically steered with political personas, they suggest that observed changes in LLM outputs could be better described as personalization to the given context rather than sycophancy.
翻訳日:2024-07-26 14:08:56 公開日:2024-07-25
# HANNA:一貫した活動係数予測のためのハードコントラストニューラルネットワーク

HANNA: Hard-constraint Neural Network for Consistent Activity Coefficient Prediction ( http://arxiv.org/abs/2407.18011v1 )

ライセンス: Link先を確認
Thomas Specht, Mayank Nagda, Sophie Fellenz, Stephan Mandt, Hans Hasse, Fabian Jirasek, (参考訳) 本稿では, 熱力学的混合特性である活動係数(HANNA)を予測するための最初のハードコントラストニューラルネットワークについて述べる。 物理法則を無視し、一貫性のない予測をもたらす従来のニューラルネットワークとは異なり、我々のモデルはすべての熱力学的整合性基準に厳密に準拠するように設計されている。 ディープセットニューラルネットワークを活用することで、HANNAはコンポーネントの置換の下で対称性を維持する。 さらに、ネットワークアーキテクチャにおける物理的制約をハードコーディングすることにより、ギブス・デュヘム方程式との整合性を確保し、純粋なコンポーネントをモデル化する。 このモデルはドルトムント・データバンクから得られた2成分混合物の活性係数を317,421データポイントで評価し,現在の最先端モデルUNIFACよりも予測精度が有意に高かった。 さらに、HANNAはコンポーネントのSMILESを入力としてのみ必要としており、任意のバイナリ混合物に適用される。 HANNAは完全にオープンソースで、無料で利用できる。

We present the first hard-constraint neural network for predicting activity coefficients (HANNA), a thermodynamic mixture property that is the basis for many applications in science and engineering. Unlike traditional neural networks, which ignore physical laws and result in inconsistent predictions, our model is designed to strictly adhere to all thermodynamic consistency criteria. By leveraging deep-set neural networks, HANNA maintains symmetry under the permutation of the components. Furthermore, by hard-coding physical constraints in the network architecture, we ensure consistency with the Gibbs-Duhem equation and in modeling the pure components. The model was trained and evaluated on 317,421 data points for activity coefficients in binary mixtures from the Dortmund Data Bank, achieving significantly higher prediction accuracies than the current state-of-the-art model UNIFAC. Moreover, HANNA only requires the SMILES of the components as input, making it applicable to any binary mixture of interest. HANNA is fully open-source and available for free use.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 自己スーパービジョンによるタブラルデータインプットの拡散モデルの改善

Self-Supervision Improves Diffusion Models for Tabular Data Imputation ( http://arxiv.org/abs/2407.18013v1 )

ライセンス: Link先を確認
Yixin Liu, Thalaiyasingam Ajanthan, Hisham Husain, Vu Nguyen, (参考訳) 欠落したデータの多様さが大きな注目を集め、表形式のデータ計算方法に焦点が当てられている。 データ生成の最先端技術として認識されている拡散モデルは、表形式のデータ計算タスクにおいて有意なポテンシャルを示す。 しかしながら、多様性の追求において、バニラ拡散モデルはしばしば初期化ノイズに対する感度を示し、モデルが安定かつ正確な計算結果を生成するのを妨げる。 さらに、表形式のデータに固有の空間性は、データ多様体を正確にモデル化する際の拡散モデルの課題を生じさせ、データ計算のためのこれらのモデルの堅牢性に影響を与える。 これらの課題に対処するため,本稿では,表型データ計算タスクに特化して,自己教師型インパルス拡散モデル(SimpDM)という高度な拡散モデルを提案する。 ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。 さらに,SimpDM内部で慎重に考案された状態依存型データ拡張戦略を導入し,限られたデータを扱う際の拡散モデルの堅牢性を高める。 大規模な実験により、SimpDMは様々なシナリオで最先端の計算手法と一致または性能を向上することが示された。

The ubiquity of missing data has sparked considerable attention and focus on tabular data imputation methods. Diffusion models, recognized as the cutting-edge technique for data generation, demonstrate significant potential in tabular data imputation tasks. However, in pursuit of diversity, vanilla diffusion models often exhibit sensitivity to initialized noises, which hinders the models from generating stable and accurate imputation results. Additionally, the sparsity inherent in tabular data poses challenges for diffusion models in accurately modeling the data manifold, impacting the robustness of these models for data imputation. To tackle these challenges, this paper introduces an advanced diffusion model named Self-supervised imputation Diffusion Model (SimpDM for brevity), specifically tailored for tabular data imputation tasks. To mitigate sensitivity to noise, we introduce a self-supervised alignment mechanism that aims to regularize the model, ensuring consistent and stable imputation predictions. Furthermore, we introduce a carefully devised state-dependent data augmentation strategy within SimpDM, enhancing the robustness of the diffusion model when dealing with limited data. Extensive experiments demonstrate that SimpDM matches or outperforms state-of-the-art imputation methods across various scenarios.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 混合状態多部絡み合い特性へのデータ駆動的アプローチ

Data-driven approach to mixed-state multipartite entanglement characterisation ( http://arxiv.org/abs/2407.18014v1 )

ライセンス: Link先を確認
Eric Brunner, Aaron Xie, Gabriel Dufour, Andreas Buchleitner, (参考訳) 本研究では, 混合量子状態の多部絡み合い構造の特徴を, 量子コンピュータの計測可能な相関データから抽出するために, 多様体学習埋め込みに基づく統計フレームワークを開発した。 測定された相関器の統計は、絡み合いを特徴付けるのに十分な情報を含み、コンピュータのレジスタの状態の混合性を定量化する。 埋め込み空間における最大混合状態への遷移は、絡み合った状態と分離可能な状態の間の鋭い境界を示す。 この境界から外れて、多重粒子の絡み合い構造は有限ノイズに対して頑丈である。

We develop a statistical framework, based on a manifold learning embedding, to extract relevant features of multipartite entanglement structures of mixed quantum states from the measurable correlation data of a quantum computer. We show that the statistics of the measured correlators contains sufficient information to characterise the entanglement, and to quantify the mixedness of the state of the computer's register. The transition to the maximally mixed regime, in the embedding space, displays a sharp boundary between entangled and separable states. Away from this boundary, the multipartite entanglement structure is robust to finite noise.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# セルオートマタと不均質トポロジーネットワークの感度解析:部分局所セルオートマタと均一均一ランダムブールネットワーク

A Sensitivity Analysis of Cellular Automata and Heterogeneous Topology Networks: Partially-Local Cellular Automata and Homogeneous Homogeneous Random Boolean Networks ( http://arxiv.org/abs/2407.18017v1 )

ライセンス: Link先を確認
Tom Eivind Glover, Ruben Jahren, Francesco Martinuzzi, Pedro Gonçalves Lind, Stefano Nichele, (参考訳) 初等セルラーオートマタ(プライマリセルラーオートマタ、英: elementary Cellular Automata、ECA)は、単純な構成にもかかわらず、計算の多様性に優れるよく研究された宇宙である。 この計算を有用な方法で解くことは歴史的に困難であることが示されてきたが、貯水池計算(RC)と組み合わせれば、より実現可能となる。 さらに、RCとECAはエネルギー効率のよいAIを可能にし、Edge AIの有望なコンセプトとなっている。 本研究では、ECAを部分局所CA(PLCA)と均質均一ランダムブールネットワーク(HHRBN)の基板と比較する。 対照的に、それらはECAのトポロジカルなヘテロジニアスである。 これはECAからより生物学的に解明可能な基質へのステップである。 我々はこれらの基板をRCベンチマーク(5ビットメモリ)を用いて解析し、時間的デリダプロットを用いて感度を推定し、欠陥崩壊率を評価する。 逆に、乱れたトポロジーは必ずしも乱れた計算を意味しない。 トポロジーの不完全性の計算的「力」は高い崩壊率(順序)をもたらすが、考慮すれば初期状態に対する感度が増大する。 これらの観測は共に、限界範囲の縮小を示唆している。

Elementary Cellular Automata (ECA) are a well-studied computational universe that is, despite its simple configurations, capable of impressive computational variety. Harvesting this computation in a useful way has historically shown itself to be difficult, but if combined with reservoir computing (RC), this becomes much more feasible. Furthermore, RC and ECA enable energy-efficient AI, making the combination a promising concept for Edge AI. In this work, we contrast ECA to substrates of Partially-Local CA (PLCA) and Homogeneous Homogeneous Random Boolean Networks (HHRBN). They are, in comparison, the topological heterogeneous counterparts of ECA. This represents a step from ECA towards more biological-plausible substrates. We analyse these substrates by testing on an RC benchmark (5-bit memory), using Temporal Derrida plots to estimate the sensitivity and assess the defect collapse rate. We find that, counterintuitively, disordered topology does not necessarily mean disordered computation. There are countering computational "forces" of topology imperfections leading to a higher collapse rate (order) and yet, if accounted for, an increased sensitivity to the initial condition. These observations together suggest a shrinking critical range.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 量子ランダム化平滑化による2次アドバンテージの時系列解析への応用

Quadratic Advantage with Quantum Randomized Smoothing Applied to Time-Series Analysis ( http://arxiv.org/abs/2407.18021v1 )

ライセンス: Link先を確認
Nicola Franco, Marie Kempkes, Jakob Spiegelberg, Jeanette Miriam Lorenz, (参考訳) 量子機械学習は急速に発展し続けるため、量子アルゴリズムの堅牢性と効率性を保証することの重要性は過大評価されない。 本研究では、量子ランダム化平滑化の解析を行い、データエンコーディングと摂動モデリングのアプローチが有意義な堅牢性証明を実現するためにどのように適合するかを示す。 グロバーのアルゴリズムを統合する革新的な手法を利用することで、古典的なランダムな平滑化よりも2次サンプリングの利点が得られる。 この戦略は基底状態の符号化を必要とするため、意味のある摂動の空間を制限する。 拘束されたハミング重量の摂動がここで適切な雑音分布であることを示し、量子コンピュータ上でどのように構築できるかを明らかにする。 提案手法の有効性は,Bag-of-Wordsによる時系列分類タスクにおいて実証される。 二次的なサンプル還元の利点は、特に多くのサンプルを持つ体制において回収される。 これにより、量子コンピュータは、古典的手法の範囲を超えて、より複雑なタスクにランダム化されたスムーシングを効率的にスケールすることができる。

As quantum machine learning continues to develop at a rapid pace, the importance of ensuring the robustness and efficiency of quantum algorithms cannot be overstated. Our research presents an analysis of quantum randomized smoothing, how data encoding and perturbation modeling approaches can be matched to achieve meaningful robustness certificates. By utilizing an innovative approach integrating Grover's algorithm, a quadratic sampling advantage over classical randomized smoothing is achieved. This strategy necessitates a basis state encoding, thus restricting the space of meaningful perturbations. We show how constrained $k$-distant Hamming weight perturbations are a suitable noise distribution here, and elucidate how they can be constructed on a quantum computer. The efficacy of the proposed framework is demonstrated on a time series classification task employing a Bag-of-Words pre-processing solution. The advantage of quadratic sample reduction is recovered especially in the regime with large number of samples. This may allow quantum computers to efficiently scale randomized smoothing to more complex tasks beyond the reach of classical methods.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 自己観察による精神状態推定の学習--心の理論の深層学習モデルにおける意図と信念表現の発達的相乗効果

Learning mental states estimation through self-observation: a developmental synergy between intentions and beliefs representations in a deep-learning model of Theory of Mind ( http://arxiv.org/abs/2407.18022v1 )

ライセンス: Link先を確認
Francesca Bianco, Silvia Rigato, Maria Laura Filippetti, Dimitri Ognibene, (参考訳) 心の理論 (Theory of Mind, ToM) は、信念、意図、精神状態を他人に関連付ける能力であり、人間の社会的相互作用の重要な特徴である。 人間の感覚システムが限界に達する複雑な環境では、行動は私たちの周りの世界の状態に対する私たちの信念によって強く推進されます。 他人の精神状態、例えば信念や意図にアクセスすることは、自然の文脈におけるより効果的な社会的相互作用を可能にする。 しかし、これらの変数は直接観察できないため、ToMを理解することは心理学、機械学習、ロボット工学など、さまざまな分野への関心の追求に挑戦する。 本稿では,低レベル精神状態(例えば,意図,目標)を予測する学習と,高レベル精神状態(すなわち信念)に寄与する学習の発達的相乗効果を示すことによって,この話題に寄与する。 具体的には, 学習信念の帰属は, 部分的に観察可能な環境において, 信念を含む自己決定過程を観察することによって生じると仮定する。 簡単なフィードフォワード深層学習モデルを用いて、他人の意図や行動を予測する学習において、信念が同時に学習されると、より正確な予測がより早く得られることを示す。 さらに,観察者が観察者と異なる体格を持つ場合であっても,学習性能が向上し,信念駆動行動の塊を観察する場合の利得が向上することを示した。 我々は,人間の社会認知発達の理解を深め,新しい自然環境やタスクにおいて,人間のインタラクションパートナーから自律的に理解し,支援し,学習できる未来の適応型社会ロボットの設計に関連付けることを提案する。

Theory of Mind (ToM), the ability to attribute beliefs, intentions, or mental states to others, is a crucial feature of human social interaction. In complex environments, where the human sensory system reaches its limits, behaviour is strongly driven by our beliefs about the state of the world around us. Accessing others' mental states, e.g., beliefs and intentions, allows for more effective social interactions in natural contexts. Yet, these variables are not directly observable, making understanding ToM a challenging quest of interest for different fields, including psychology, machine learning and robotics. In this paper, we contribute to this topic by showing a developmental synergy between learning to predict low-level mental states (e.g., intentions, goals) and attributing high-level ones (i.e., beliefs). Specifically, we assume that learning beliefs attribution can occur by observing one's own decision processes involving beliefs, e.g., in a partially observable environment. Using a simple feed-forward deep learning model, we show that, when learning to predict others' intentions and actions, more accurate predictions can be acquired earlier if beliefs attribution is learnt simultaneously. Furthermore, we show that the learning performance improves even when observed actors have a different embodiment than the observer and the gain is higher when observing beliefs-driven chunks of behaviour. We propose that our computational approach can inform the understanding of human social cognitive development and be relevant for the design of future adaptive social robots able to autonomously understand, assist, and learn from human interaction partners in novel natural environments and tasks.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 量子フーリエ変換を用いたマルチコントロールXゲートの実装

Implementing multi-controlled X gates using the quantum Fourier transform ( http://arxiv.org/abs/2407.18024v1 )

ライセンス: Link先を確認
Vladimir V. Arsoski, (参考訳) 量子コンピューティングは、最適化、算術、構造探索、財務リスク分析、機械学習、画像処理などの分野において、多くの複雑なアルゴリズムを解く可能性がある。 これらのアルゴリズムを実装するために構築された量子回路は、通常、マルチコントロールゲートを基本構成ブロックとして要求する。 量子ハードウェアの実装には、これらのゲートを多くの基本ゲートに分解する必要がある。 しかし、中程度に深い量子回路でさえ、デコヒーレンス効果による忠実度が低いため、出力結果のほぼ完全に均一な分布を返すことができる。 本稿では,量子フーリエ変換を用いた高効率なマルチコントロールゲートの実装法を提案する。 回路の深さがわずか数ビットのアンシラ量子ビットで大幅に低減できることを示し、ノイズの多い中間スケール量子コンピュータに適用可能なアプローチを示す。 この量子演算に基づくアプローチは、多くの複雑な量子ゲートを実装するのに効果的に利用できる。

Quantum computing has the potential to solve many complex algorithms in the domains of optimization, arithmetics, structural search, financial risk analysis, machine learning, image processing, and others. Quantum circuits built to implement these algorithms usually require multi-controlled gates as fundamental building blocks, where the multi-controlled Toffoli stands out as the primary example. For implementation in quantum hardware, these gates should be decomposed into many elementary gates, which results in a large depth of the final quantum circuit. However, even moderately deep quantum circuits have low fidelity due to decoherence effects and, thus, may return an almost perfectly uniform distribution of the output results. This paper proposes a different approach for efficient cost multi-controlled gates implementation using the quantum Fourier transform. We show how the depth of the circuit can be significantly reduced using only a few ancilla qubits, making our approach viable for application to noisy intermediate-scale quantum computers. This quantum arithmetic-based approach can be efficiently used to implement many complex quantum gates.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 有意な多彩な再建のための分割誘導MRI再建法

Segmentation-guided MRI reconstruction for meaningfully diverse reconstructions ( http://arxiv.org/abs/2407.18026v1 )

ライセンス: Link先を確認
Jan Nikolas Morshuis, Matthias Hein, Christian F. Baumgartner, (参考訳) 加速MRI再構成のような逆問題には問題があり、無限に可能な解が存在している。 これは、再構成された画像に不確実性をもたらすだけでなく、セマンティックセグメンテーションのような下流タスクにも繋がる可能性がある。 しかし、この不確実性は、確率的復元モデルが一般的に使われているにもかかわらず、文献ではほとんど分析されていない。 これらのモデルは、稀な病理のような、もっともらしいがありそうもない解決策を無視する傾向がある。 拡散モデルに基づくMRI再構成手法の構築により, 推定時の拡散過程のガイダンスを付加し, 上下境界セグメンテーションに対応する有意義な2つの再構成を生成する。 再構成の不確実性は、これらの境界の差によって定量化することができ、「不確かさ境界」を造る。 我々は, 広範囲の加速因子に対する上下境界セグメンテーションの挙動を解析し, 繰り返しサンプリングと比較して, 不確実性境界がより信頼性が高く, より正確であることを見出した。 コードはhttps://github.com/NikolasMorshuis/SGRで公開されている。

Inverse problems, such as accelerated MRI reconstruction, are ill-posed and an infinite amount of possible and plausible solutions exist. This may not only lead to uncertainty in the reconstructed image but also in downstream tasks such as semantic segmentation. This uncertainty, however, is mostly not analyzed in the literature, even though probabilistic reconstruction models are commonly used. These models can be prone to ignore plausible but unlikely solutions like rare pathologies. Building on MRI reconstruction approaches based on diffusion models, we add guidance to the diffusion process during inference, generating two meaningfully diverse reconstructions corresponding to an upper and lower bound segmentation. The reconstruction uncertainty can then be quantified by the difference between these bounds, which we coin the 'uncertainty boundary'. We analyzed the behavior of the upper and lower bound segmentations for a wide range of acceleration factors and found the uncertainty boundary to be both more reliable and more accurate compared to repeated sampling. Code is available at https://github.com/NikolasMorshuis/SGR
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 疾患特異的注意に基づく深層学習モデルを用いた心電図不整脈検出

ECG Arrhythmia Detection Using Disease-specific Attention-based Deep Learning Model ( http://arxiv.org/abs/2407.18033v1 )

ライセンス: Link先を確認
Linpeng Jin, (参考訳) 心電図(Electrocardiogram, ECG)は、心血管疾患を臨床的に診断するための最も一般的なツールの1つである。 ディープラーニングモデルは、自動心電図解析の分野で非常に大きな成功を収めてきたが、医療アプリケーションにおいて重要なモデル解釈能力が欠如していることが多い。 この目的のために、汎用的な注意機構、Grad-CAM技術、ECG知識グラフなどの多くのスキームが深層学習モデルに統合されるように提案された。 しかし,心電図を解釈する場合は,心電図の分類性能が低下するか,心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図の心電図 本研究では,心電図の短い記録から不整脈を検出するための,病原性注意に基づく新しい深層学習モデル(DANet)を提案する。 新たなアイデアは、既存のディープニューラルネットワークにソフトコーディングまたはハードコーディングの波形拡張モジュールを導入することである。これは、分類モジュールに入力される前に、所定の疾患のタイプを診断するためのルールのガイダンスで、元のECG信号を修正するものだ。 DANetをソフトコーディングするためには、自己教師付き事前学習と2段階教師付きトレーニングを組み合わせた学習フレームワークも開発する。 提案するDANetの有効性を検証するため, 心房性早期収縮検出問題に適用し, 実験結果から, ベンチマークモデルよりも優れた性能を示した。 さらに、モデルの意思決定プロセスにおいて特に注目に値する波形領域も提供し、医師のための医療診断アシスタントとなる。

The electrocardiogram (ECG) is one of the most commonly-used tools to diagnose cardiovascular disease in clinical practice. Although deep learning models have achieved very impressive success in the field of automatic ECG analysis, they often lack model interpretability that is significantly important in the healthcare applications. To this end, many schemes such as general-purpose attention mechanism, Grad-CAM technique and ECG knowledge graph were proposed to be integrated with deep learning models. However, they either result in decreased classification performance or do not consist with the one in cardiologists' mind when interpreting ECG. In this study, we propose a novel disease-specific attention-based deep learning model (DANet) for arrhythmia detection from short ECG recordings. The novel idea is to introduce a soft-coding or hard-coding waveform enhanced module into existing deep neural networks, which amends original ECG signals with the guidance of the rule for diagnosis of a given disease type before being fed into the classification module. For the soft-coding DANet, we also develop a learning framework combining self-supervised pre-training with two-stage supervised training. To verify the effectiveness of our proposed DANet, we applied it to the problem of atrial premature contraction detection and the experimental results shows that it demonstrates superior performance compared to the benchmark model. Moreover, it also provides the waveform regions that deserve special attention in the model's decision-making process, allowing it to be a medical diagnostic assistant for physicians.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# AttentionHand:野生における3Dハンドコンストラクションのためのテキスト駆動制御可能なハンドイメージ生成

AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild ( http://arxiv.org/abs/2407.18034v1 )

ライセンス: Link先を確認
Junho Park, Kyeongbo Kong, Suk-Ju Kang, (参考訳) 近年,人-コンピュータインタラクションの様々な形態を利用する3次元手指再建に関する研究が盛んに行われている。 しかし、Wild 3Dハンドデータセットが極端に不足しているため、野生での3Dハンド再構築は困難である。 特に、手の相互作用のような複雑なポーズの場合、外見の類似性、自手咬合、奥行きのあいまいさといった問題はより困難になる。 これらの問題を解決するために,テキスト駆動による手動画像生成の新しい手法であるAttentionHandを提案する。 AttentionHandは3Dハンドラベルに整合した多種多様な手画像を生成することができるため、新しい3Dハンドデータセットを取得でき、屋内と屋外のシーン間のドメインギャップを緩和できる。 提案手法では,RGB画像,3次元ラベルのハンドメッシュ画像,バウンディングボックス,テキストプロンプトの4つのモードが容易に利用できる。 これらのモダリティは符号化フェーズによって潜在空間に埋め込まれる。 そして、テキストアテンション段階を通じて、所定のテキストプロンプトから手関連トークンを受け取り、潜伏埋め込みの手関連領域をハイライトする。 強調した埋め込みを視覚的注意ステージに供給した後、拡散ベースのパイプラインでグローバルおよびローカルハンドメッシュイメージを条件付けして、埋め込み中の手関連領域を参加させる。 復号フェーズでは、最終機能は、与えられたハンドメッシュイメージとテキストプロンプトと整合した新しいハンドイメージにデコードされる。 その結果、AttentionHandはテキスト・ツー・ハンド画像生成モデルの間で最先端の技術を達成し、AttentionHandが生成した手動画像による3次元手動メッシュ再構成の性能が向上した。

Recently, there has been a significant amount of research conducted on 3D hand reconstruction to use various forms of human-computer interaction. However, 3D hand reconstruction in the wild is challenging due to extreme lack of in-the-wild 3D hand datasets. Especially, when hands are in complex pose such as interacting hands, the problems like appearance similarity, self-handed occclusion and depth ambiguity make it more difficult. To overcome these issues, we propose AttentionHand, a novel method for text-driven controllable hand image generation. Since AttentionHand can generate various and numerous in-the-wild hand images well-aligned with 3D hand label, we can acquire a new 3D hand dataset, and can relieve the domain gap between indoor and outdoor scenes. Our method needs easy-to-use four modalities (i.e, an RGB image, a hand mesh image from 3D label, a bounding box, and a text prompt). These modalities are embedded into the latent space by the encoding phase. Then, through the text attention stage, hand-related tokens from the given text prompt are attended to highlight hand-related regions of the latent embedding. After the highlighted embedding is fed to the visual attention stage, hand-related regions in the embedding are attended by conditioning global and local hand mesh images with the diffusion-based pipeline. In the decoding phase, the final feature is decoded to new hand images, which are well-aligned with the given hand mesh image and text prompt. As a result, AttentionHand achieved state-of-the-art among text-to-hand image generation models, and the performance of 3D hand mesh reconstruction was improved by additionally training with hand images generated by AttentionHand.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# RestoreAgent:マルチモーダル大言語モデルによる自律的画像復元エージェント

RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models ( http://arxiv.org/abs/2407.18035v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbo Li, Jinjin Gu, Jingjing Ren, Sixiang Chen, Tian Ye, Renjing Pei, Kaiwen Zhou, Fenglong Song, Lei Zhu, (参考訳) モバイルデバイスが捉えた自然画像は、ノイズ、ぼかし、低光など、複数のタイプの劣化に悩まされることが多い。 従来の画像復元法では、特定のタスク、アルゴリズム、実行シーケンスを手動で選択する必要がある。 オールインワンモデルは複数のタスクを処理できるが、通常は限られた範囲しかサポートせず、データ分散の幅が広いため、非常にスムーズで低忠実な結果をもたらすことが多い。 これらの課題に対処するために、まず複数の劣化を伴う画像復元のための新しいパイプラインを定義し、次にマルチモーダルな大規模言語モデルを活用したインテリジェントな画像復元システムであるRestoreAgentを紹介した。 RestoreAgentは、入力画像の劣化の種類と程度を自律的に評価し、(1)適切な復元タスクを決定すること、(2)タスクシーケンスを最適化すること、(3)最も適切なモデルを選択すること、(4)復元を実行することを通じて復元を行う。 実験結果は,RestoreAgentの複雑な劣化処理における優れた性能を示し,人間の専門家を上回った。 さらに、システムモジュール設計により、新しいタスクやモデルの迅速な統合が容易になり、様々なアプリケーションに対する柔軟性とスケーラビリティが向上する。

Natural images captured by mobile devices often suffer from multiple types of degradation, such as noise, blur, and low light. Traditional image restoration methods require manual selection of specific tasks, algorithms, and execution sequences, which is time-consuming and may yield suboptimal results. All-in-one models, though capable of handling multiple tasks, typically support only a limited range and often produce overly smooth, low-fidelity outcomes due to their broad data distribution fitting. To address these challenges, we first define a new pipeline for restoring images with multiple degradations, and then introduce RestoreAgent, an intelligent image restoration system leveraging multimodal large language models. RestoreAgent autonomously assesses the type and extent of degradation in input images and performs restoration through (1) determining the appropriate restoration tasks, (2) optimizing the task sequence, (3) selecting the most suitable models, and (4) executing the restoration. Experimental results demonstrate the superior performance of RestoreAgent in handling complex degradation, surpassing human experts. Furthermore, the system modular design facilitates the fast integration of new tasks and models, enhancing its flexibility and scalability for various applications.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# TiCoSS: 共同学習フレームワークにおけるセマンティックセグメンテーションとステレオマッチングの結合を強化する

TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework ( http://arxiv.org/abs/2407.18038v1 )

ライセンス: Link先を確認
Guanfeng Tang, Zhiyuan Wu, Rui Fan, (参考訳) セマンティックセグメンテーション(Semantic segmentation)とステレオマッチング(ステレオマッチング)は、それぞれ人間の脳の腹側と背側の流れに類似しており、自律運転認識システムの2つの重要な構成要素である。 これら2つのタスクに別々のネットワークで対処することは、コンピュータービジョンアルゴリズムの開発においてもはや主流の方向ではない。 この傾向は、共同学習フレームワーク内でそれらを組み合わせること、特に2つのタスク間の機能共有を強調することにシフトしている。 本研究の主な貢献は,セマンティックセグメンテーションとステレオマッチングの結合を包括的に強化することにある。 具体的には,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。 これらの技術的コントリビューションの併用により、TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。 KITTIとvKITTI2データセットに関する広範な実験を通じて、定性的かつ定量的な分析とともに、発達した戦略と損失関数の有効性を検証し、mIoUを9%以上増加させ、先行技術よりも優れた性能を示す。 ソースコードは公開後、mias.group/TiCoSSで公開されます。

Semantic segmentation and stereo matching, respectively analogous to the ventral and dorsal streams in our human brain, are two key components of autonomous driving perception systems. Addressing these two tasks with separate networks is no longer the mainstream direction in developing computer vision algorithms, particularly with the recent advances in large vision models and embodied artificial intelligence. The trend is shifting towards combining them within a joint learning framework, especially emphasizing feature sharing between the two tasks. The major contributions of this study lie in comprehensively tightening the coupling between semantic segmentation and stereo matching. Specifically, this study introduces three novelties: (1) a tightly coupled, gated feature fusion strategy, (2) a hierarchical deep supervision strategy, and (3) a coupling tightening loss function. The combined use of these technical contributions results in TiCoSS, a state-of-the-art joint learning framework that simultaneously tackles semantic segmentation and stereo matching. Through extensive experiments on the KITTI and vKITTI2 datasets, along with qualitative and quantitative analyses, we validate the effectiveness of our developed strategies and loss function, and demonstrate its superior performance compared to prior arts, with a notable increase in mIoU by over 9%. Our source code will be publicly available at mias.group/TiCoSS upon publication.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# フェデレート蒸留におけるピーク制御ロジット中毒

Peak-Controlled Logits Poisoning Attack in Federated Distillation ( http://arxiv.org/abs/2407.18039v1 )

ライセンス: Link先を確認
Yuhan Tang, Aoxu Zhang, Zhiyuan Wu, Bo Gao, Tian Wen, Yuwei Wang, Sheng Sun, (参考訳) フェデレート蒸留(Federated Distillation, FD)は、分散機械学習に対する革新的なアプローチであり、中央サーバへの広範なモデルパラメータのアップロードを必要とせずに、知識蒸留を効率的かつ柔軟なデバイス間知識転送に活用する。 FDの人気は高まっているが、毒殺攻撃の脆弱性はいまだに解明されていない。 このギャップに対処するため、我々は以前FDLA(Federated Distillation Logits Attack)を導入しました。 しかし、異なるアイデンティティを持つ被験者に対するFDLAの影響や、知識伝達の様々な段階における悪意のある修正の影響は未解明のままである。 そこで本研究では,FDのより高度な,よりステルスなロジット中毒攻撃法であるPCFDLA(Peak-Controlled Federated Distillation Logits Attack)を提案する。 PCFDLAは、ロジットのピーク値を慎重に制御することでFDLAの有効性を高め、非常に誤解を招くが目立たない修正を生み出す。 さらに,PCFDLAは,攻撃効果を評価するための新しい指標を導入し,PCFDLAのステルスを維持しつつも,前者に比べて被害者モデルよりもはるかに破壊的であることを実証した。 各種データセットに対する実験結果から,PCFDLAのモデル精度への影響は良好であることが確認された。

Federated Distillation (FD) offers an innovative approach to distributed machine learning, leveraging knowledge distillation for efficient and flexible cross-device knowledge transfer without necessitating the upload of extensive model parameters to a central server. While FD has gained popularity, its vulnerability to poisoning attacks remains underexplored. To address this gap, we previously introduced FDLA (Federated Distillation Logits Attack), a method that manipulates logits communication to mislead and degrade the performance of client models. However, the impact of FDLA on participants with different identities and the effects of malicious modifications at various stages of knowledge transfer remain unexplored. To this end, we present PCFDLA (Peak-Controlled Federated Distillation Logits Attack), an advanced and more stealthy logits poisoning attack method for FD. PCFDLA enhances the effectiveness of FDLA by carefully controlling the peak values of logits to create highly misleading yet inconspicuous modifications. Furthermore, we introduce a novel metric for better evaluating attack efficacy, demonstrating that PCFDLA maintains stealth while being significantly more disruptive to victim models compared to its predecessors. Experimental results across various datasets confirm the superior impact of PCFDLA on model accuracy, solidifying its potential threat in federated distillation systems.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# 効果的な知識蒸留のための教師モデルの訓練方法

How to Train the Teacher Model for Effective Knowledge Distillation ( http://arxiv.org/abs/2407.18041v1 )

ライセンス: Link先を確認
Shayan Mohajer Hamidi, Xizhen Deng, Renhao Tan, Linfeng Ye, Ahmed Hussein Salamah, (参考訳) 近年,知識蒸留(KD)における教師の役割は,学生に真のベイズ条件付き確率密度(BCPD)の推定値を提供することが示されている。 特に,教師の出力とBCPDとの間の平均二乗誤差(MSE)により,生徒の誤差率を上限にすることができることが示唆された。 したがって、KD効果を高めるために、MSE感覚において出力がBCPDに近いように教師を訓練すべきである。 本稿では,MSE損失による教師モデルの訓練が,MSEの出力とBCPDの間のMSEの最小化に等しいことを明らかにする。 この点に関して、総合的な実験を通して、最先端KD法でMSE損失を訓練した教師にクロスエントロピー損失を訓練した教師に代えて、生徒の精度を継続的に向上させ、最大2.6\%の改善をもたらすことを実証した。

Recently, it was shown that the role of the teacher in knowledge distillation (KD) is to provide the student with an estimate of the true Bayes conditional probability density (BCPD). Notably, the new findings propose that the student's error rate can be upper-bounded by the mean squared error (MSE) between the teacher's output and BCPD. Consequently, to enhance KD efficacy, the teacher should be trained such that its output is close to BCPD in MSE sense. This paper elucidates that training the teacher model with MSE loss equates to minimizing the MSE between its output and BCPD, aligning with its core responsibility of providing the student with a BCPD estimate closely resembling it in MSE terms. In this respect, through a comprehensive set of experiments, we demonstrate that substituting the conventional teacher trained with cross-entropy loss with one trained using MSE loss in state-of-the-art KD methods consistently boosts the student's accuracy, resulting in improvements of up to 2.6\%.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# ニューラルネットワークによる生涯グラフ要約 - 2012年、2022年、タイムワープ

Lifelong Graph Summarization with Neural Networks: 2012, 2022, and a Time Warp ( http://arxiv.org/abs/2407.18042v1 )

ライセンス: Link先を確認
Jonatan Frank, Marcel Hoffmann, Nicolas Lell, David Richerby, Ansgar Scherp, (参考訳) Webグラフの要約は、モデル化された情報の均一性とその時間的変化のために困難である。 生涯グラフ要約におけるニューラルネットワークの利用について検討する。 一定時間でWebグラフを観察すると仮定すると、グラフ頂点を要約するためにネットワークを訓練する。 このトレーニングされたネットワークを用いて、変更したグラフの頂点を次の時点で要約する。 その後、生涯グラフ要約を行うためのネットワークのトレーニングと評価を継続する。 我々は、時間グラフを要約するために、GNNs Graph-MLP と GraphSAINT と MLP ベースラインを使用します。 ホップ1ドルとホップ2ドルを比較する。 本稿では,前回のスナップショットからパラメータを再利用することの影響を,ニューラルネットワークの後方転送と前方転送と無視率を計測することによって検討する。 2012年と2022年にサンプリングされた1億ドルを超えるエッジを持つWebグラフの10週間のスナップショットに関する大規模な実験では、すべてのネットワークが、主に$$$hopの情報を、たとえ$$$hopの要約を実行したとしても、要約を決定するために1ドルホップの情報を使用していることが示されている。 ウェブグラフの不均一性のため、いくつかのスナップショットでは、$$$hopサマリーは$$$hopサマリーの10倍以上の頂点サマリーを生成する。 2012年の最後のスナップショットでトレーニングされたネットワークを使用し、2022年の最初のスナップショットに適用すると、精度が大幅に低下するのを観察する。 この10年間のワープの減少は、2022年のWebグラフの不均一性の増大によるものだと考えています。

Summarizing web graphs is challenging due to the heterogeneity of the modeled information and its changes over time. We investigate the use of neural networks for lifelong graph summarization. Assuming we observe the web graph at a certain time, we train the networks to summarize graph vertices. We apply this trained network to summarize the vertices of the changed graph at the next point in time. Subsequently, we continue training and evaluating the network to perform lifelong graph summarization. We use the GNNs Graph-MLP and GraphSAINT, as well as an MLP baseline, to summarize the temporal graphs. We compare $1$-hop and $2$-hop summaries. We investigate the impact of reusing parameters from a previous snapshot by measuring the backward and forward transfer and the forgetting rate of the neural networks. Our extensive experiments on ten weekly snapshots of a web graph with over $100$M edges, sampled in 2012 and 2022, show that all networks predominantly use $1$-hop information to determine the summary, even when performing $2$-hop summarization. Due to the heterogeneity of web graphs, in some snapshots, the $2$-hop summary produces over ten times more vertex summaries than the $1$-hop summary. When using the network trained on the last snapshot from 2012 and applying it to the first snapshot of 2022, we observe a strong drop in accuracy. We attribute this drop over the ten-year time warp to the strongly increased heterogeneity of the web graph in 2022.
翻訳日:2024-07-26 13:58:54 公開日:2024-07-25
# YOCO:LiDAR-Cameraシステムにおける正確な外部パラメータのキャリブレーションを一度だけ行う

YOCO: You Only Calibrate Once for Accurate Extrinsic Parameter in LiDAR-Camera Systems ( http://arxiv.org/abs/2407.18043v1 )

ライセンス: Link先を確認
Tianle Zeng, Dengke He, Feifan Yan, Meixi He, (参考訳) カメラとLiDARからなるマルチセンサー融合システムでは、正確な外部キャリブレーションがシステムの長期的な安定性と環境の正確な認識に寄与する。 しかしながら、対応する点を抽出し、登録する手法は、自動化と精度の観点からも依然として課題に直面している。 本稿では,LiDARカメラシステムにおいて,対応点登録の必要性を回避するための完全自動外部校正手法を提案する。 本稿では,必要なLiDAR対応点を抽出する新しいアルゴリズムを提案する。 この方法は、平面点雲の向きを計算し、距離と密度に基づく閾値を適用して点を抽出することにより、無関係な点を効果的にフィルタリングすることができる。 我々は、抽出された点の投影にLiDARとカメラの間に外部パラメータを導入し、コプラナー制約を構築することで、対応する点登録の必要性を回避する。 これらのパラメータは、外在的な問題の解法に最適化される。 我々は,LiDARカメラシステムの複数セットにまたがって本手法の有効性を検証した。 合成実験では, 現在の校正法と比較して優れた性能を示す。 実世界のデータ実験により提案アルゴリズムの精度とロバスト性がさらに確認され、それぞれ0.05度未満のLiDARとカメラ間の平均回転校正誤差と翻訳校正誤差が0.015mである。 この方法は,LiDARカメラシステムキャリブレーションの自動化と精度を高めるために,対応する点登録以外のキャリブレーションアルゴリズムの可能性を強調し,一つのステップで自動的かつ正確なキャリブレーションを可能にする。

In a multi-sensor fusion system composed of cameras and LiDAR, precise extrinsic calibration contributes to the system's long-term stability and accurate perception of the environment. However, methods based on extracting and registering corresponding points still face challenges in terms of automation and precision. This paper proposes a novel fully automatic extrinsic calibration method for LiDAR-camera systems that circumvents the need for corresponding point registration. In our approach, a novel algorithm to extract required LiDAR correspondence point is proposed. This method can effectively filter out irrelevant points by computing the orientation of plane point clouds and extracting points by applying distance- and density-based thresholds. We avoid the need for corresponding point registration by introducing extrinsic parameters between the LiDAR and camera into the projection of extracted points and constructing co-planar constraints. These parameters are then optimized to solve for the extrinsic. We validated our method across multiple sets of LiDAR-camera systems. In synthetic experiments, our method demonstrates superior performance compared to current calibration techniques. Real-world data experiments further confirm the precision and robustness of the proposed algorithm, with average rotation and translation calibration errors between LiDAR and camera of less than 0.05 degree and 0.015m, respectively. This method enables automatic and accurate extrinsic calibration in a single one step, emphasizing the potential of calibration algorithms beyond using corresponding point registration to enhance the automation and precision of LiDAR-camera system calibration.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# クエリの幾何学: 検索型生成におけるクエリベースのイノベーション

The Geometry of Queries: Query-Based Innovations in Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.18044v1 )

ライセンス: Link先を確認
Eric Yang, Jonathan Amar, Jong Ha Lee, Bhawesh Kumar, Yugang Jia, (参考訳) LLM(Large Language Models)を利用したデジタルヘルスチャットボットは、アクセス可能でオンデマンドなヘルスコーチングと質問応答を提供することで、慢性的な状態における個人の健康管理を大幅に改善する可能性がある。 しかし、これらのチャットボットは、多様なインターネットデータから学習したパターンに基づいて、LSMが応答を生成するため、不確実で不正確な情報を提供するリスクがある。 Retrieval Augmented Generation (RAG) は、LLM応答における幻覚や不正確性を軽減し、信頼性の高い内容に基づいて解決する。 しかし、リアルタイムユーザーの質問に対して最も関連性の高いコンテンツを効率よく正確に検索することは、依然として課題である。 本研究では、LLMを用いてコンテンツベースから潜在的クエリのデータベースを事前計算する新しいアプローチである、クエリベースの検索拡張生成(QB-RAG)を紹介する。 入所患者の質問に対して、QB-RAGはベクターサーチを用いて、前生成したクエリデータベースと効率よくマッチングし、ユーザの質問とコンテンツとの整合性を改善する。 我々はQB-RAGの理論的基盤を確立し、RAGシステムにおける既存の検索強化技術の比較分析を行う。 最後に、我々はQB-RAGが医療質問応答の精度を大幅に向上させ、デジタルヘルスにおける堅牢で信頼性の高いLCM応用の道を開くことを実証した。

Digital health chatbots powered by Large Language Models (LLMs) have the potential to significantly improve personal health management for chronic conditions by providing accessible and on-demand health coaching and question-answering. However, these chatbots risk providing unverified and inaccurate information because LLMs generate responses based on patterns learned from diverse internet data. Retrieval Augmented Generation (RAG) can help mitigate hallucinations and inaccuracies in LLM responses by grounding it on reliable content. However, efficiently and accurately retrieving most relevant set of content for real-time user questions remains a challenge. In this work, we introduce Query-Based Retrieval Augmented Generation (QB-RAG), a novel approach that pre-computes a database of potential queries from a content base using LLMs. For an incoming patient question, QB-RAG efficiently matches it against this pre-generated query database using vector search, improving alignment between user questions and the content. We establish a theoretical foundation for QB-RAG and provide a comparative analysis of existing retrieval enhancement techniques for RAG systems. Finally, our empirical evaluation demonstrates that QB-RAG significantly improves the accuracy of healthcare question answering, paving the way for robust and trustworthy LLM applications in digital health.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# GaussianSR: 任意スケール超解像のための高忠実度2Dガウススプラッティング

GaussianSR: High Fidelity 2D Gaussian Splatting for Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2407.18046v1 )

ライセンス: Link先を確認
Jintong Hu, Bin Xia, Bin Chen, Wenming Yang, Lei Zhang, (参考訳) 入射神経表現(INR)は、画像の任意のスケールの超解像(ASSR)の分野を大幅に進歩させた。 既存のINRベースのASSRネットワークは、まずエンコーダを用いて与えられた低解像度画像から特徴を抽出し、次に多層パーセプトロンデコーダを用いて超解像結果をレンダリングする。 これらの手法は有望な結果を示しているが、それらの性能は符号化された特徴における離散潜在符号の限定的な表現能力によって制約されている。 本稿では,この制限を2次元ガウススティング (2DGS) で克服する新しいASSR法を提案する。 画素を離散点として扱う伝統的な方法とは異なり、ガウスSRは各画素を連続ガウス体として表現する。 符号化された特徴は、互いに積み重ねられたガウス場をレンダリングすることによって同時に洗練され、増幅される。 その結果、表現能力を高めるために長距離依存が確立される。 さらに、ガウスカーネルを全ピクセルに動的に割り当て、柔軟性をさらに向上させる分類器が開発された。 ガウスSRのすべてのコンポーネント(エンコーダ、分類器、ガウスカーネル、デコーダ)は、共に学習されたエンドツーエンドである。 実験により、ガウスSRは既存の手法よりも少ないパラメータで優れたASSR性能を達成し、解釈可能な特徴集約とコンテンツ認識機能アグリゲーションを享受できることが示されている。

Implicit neural representations (INRs) have significantly advanced the field of arbitrary-scale super-resolution (ASSR) of images. Most existing INR-based ASSR networks first extract features from the given low-resolution image using an encoder, and then render the super-resolved result via a multi-layer perceptron decoder. Although these approaches have shown promising results, their performance is constrained by the limited representation ability of discrete latent codes in the encoded features. In this paper, we propose a novel ASSR method named GaussianSR that overcomes this limitation through 2D Gaussian Splatting (2DGS). Unlike traditional methods that treat pixels as discrete points, GaussianSR represents each pixel as a continuous Gaussian field. The encoded features are simultaneously refined and upsampled by rendering the mutually stacked Gaussian fields. As a result, long-range dependencies are established to enhance representation ability. In addition, a classifier is developed to dynamically assign Gaussian kernels to all pixels to further improve flexibility. All components of GaussianSR (i.e., encoder, classifier, Gaussian kernels, and decoder) are jointly learned end-to-end. Experiments demonstrate that GaussianSR achieves superior ASSR performance with fewer parameters than existing methods while enjoying interpretable and content-aware feature aggregations.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# LKCell: 大きなコンボリューションカーネルを持つ効率的なセル核インスタンスセグメンテーション

LKCell: Efficient Cell Nuclei Instance Segmentation with Large Convolution Kernels ( http://arxiv.org/abs/2407.18054v1 )

ライセンス: Link先を確認
Ziwei Cui, Jingfeng Yao, Lunbin Zeng, Juan Yang, Wenyu Liu, Xinggang Wang, (参考訳) 血液色素ヘマトキシリンおよびエオシン(H$\&$E)で染色した組織像中の細胞核の分画は、様々な臨床応用と分析に不可欠である。 細胞形態の複雑な特徴により、高い品質のセグメンテーションを生み出すために大きな受容野が重要であると考えられている。 しかし, 従来の手法では, 受容場と計算負荷のバランスをとることが困難であった。 そこで本研究では,高精度で効率的なセル分割法であるLKCellを提案する。 その中心となる洞察は、計算効率のよい大きな受容場を達成するために、大きな畳み込みカーネルのポテンシャルを解き放つことである。 具体的には,(1) 予め訓練した大きな畳み込みカーネルモデルを初めて医療領域に移植し, 細胞分節化の有効性を実証する。 2) 従来の手法の冗長性を解析し, 大規模な畳み込みカーネルをベースとした新しいセグメンテーションデコーダを設計する。 高いパフォーマンスを実現し、パラメータの数を著しく削減します。 提案手法を最も難しいベンチマークで評価し, 細胞核インスタンスのセグメンテーションにおける最新結果(0.5080 mPQ)を, 従来の先行手法と比較して21.6%のFLOPで達成した。 ソースコードとモデルはhttps://github.com/hustvl/LKCell.comで公開されています。

The segmentation of cell nuclei in tissue images stained with the blood dye hematoxylin and eosin (H$\&$E) is essential for various clinical applications and analyses. Due to the complex characteristics of cellular morphology, a large receptive field is considered crucial for generating high-quality segmentation. However, previous methods face challenges in achieving a balance between the receptive field and computational burden. To address this issue, we propose LKCell, a high-accuracy and efficient cell segmentation method. Its core insight lies in unleashing the potential of large convolution kernels to achieve computationally efficient large receptive fields. Specifically, (1) We transfer pre-trained large convolution kernel models to the medical domain for the first time, demonstrating their effectiveness in cell segmentation. (2) We analyze the redundancy of previous methods and design a new segmentation decoder based on large convolution kernels. It achieves higher performance while significantly reducing the number of parameters. We evaluate our method on the most challenging benchmark and achieve state-of-the-art results (0.5080 mPQ) in cell nuclei instance segmentation with only 21.6% FLOPs compared with the previous leading method. Our source code and models are available at https://github.com/hustvl/LKCell.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# 臨界量子センシングにおける集団量子増強

Collective quantum enhancement in critical quantum sensing ( http://arxiv.org/abs/2407.18055v1 )

ライセンス: Link先を確認
Uesli Alushi, Alessandro Coppo, Valentina Brosco, Roberto Di Candia, Simone Felicetti, (参考訳) 臨界系は量子センシングと気象学において貴重な資源である。 臨界量子センシング(CQS)プロトコルは、有限成分相転移(英語版)を用いて実現することができる。 特に、パラメトリックカー共振器の2階位相遷移は、現在利用可能な様々な量子技術で実装および制御できるため、高い実験的関連性を有する。 ここでは、弱非線形極限におけるパラメトリック結合Kerr共振器チェーンに基づいて、多部臨界量子センサを用いて、集合量子優位性を実現できることを示す。 我々は、この非伝統的な量子多体系の低エネルギースペクトルに対する解析的解を導出し、これは \emph{locally} 臨界要素からなる。 次に,アディバティックCQSプロトコルの性能評価を行い,結合共振器チェーンと独立臨界センサの等価アンサンブルを比較した。 我々は,基本資源に対する量子フィッシャー情報のスケーリングを評価し,臨界鎖が共振器の数に対して二次的な拡張を達成することを発見した。 ゼロカーの場合の利点の他に、有限カーの非線形性のシナリオにおいても集合的拡張が存在することが分かる。

Critical systems represent a valuable resource in quantum sensing and metrology. Critical quantum sensing (CQS) protocols can be realized using finite-component phase transitions, where criticality is not due to the thermodynamic limit but rather to the rescaling of the system parameters. In particular, the second-order phase transitions of parametric Kerr resonators are of high experimental relevance, as they can be implemented and controlled with various quantum technologies currently available. Here, we show that collective quantum advantage can be achieved with a multipartite critical quantum sensor based on a parametrically coupled Kerr resonators chain in the weak-nonlinearity limit. We derive analytical solutions for the low-energy spectrum of this unconventional quantum many-body system, which is composed of \emph{locally} critical elements. We then assess the performance of an adiabatic CQS protocol, comparing the coupled-resonator chain with an equivalent ensemble of independent critical sensors. We evaluate the scaling of the quantum Fisher information with respect to fundamental resources, and find that the critical chain achieves a quadratic enhancement in the number of resonators. Beyond the advantage found in the case of zero Kerr, we find that there is a collective enhancement even in the scenario of finite Kerr nonlinearity.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# 物理インフォームド非線形ベクトル自己回帰モデルによる力学系の予測

Physics-informed nonlinear vector autoregressive models for the prediction of dynamical systems ( http://arxiv.org/abs/2407.18057v1 )

ライセンス: Link先を確認
James H. Adler, Samuel Hocking, Xiaozhe Hu, Shafiqul Islam, (参考訳) 機械学習技術は近年、微分方程式の解法において大きな関心を集めている。 これらのモデルをトレーニングすることは、古典的にはデータ適合タスクであるが、微分方程式の表現に関する知識は、トレーニングの目的を補うために使用することができ、物理インフォームドな科学機械学習の開発に繋がる。 本稿では、通常の微分方程式(ODE)を解くために非線形ベクトル自己回帰(NVAR)と呼ばれるモデルの1つのクラスに焦点を当てる。 数値積分と物理インフォームドニューラルネットワークとの接続により、NVARの構成にかかわらず、基礎となる微分方程式の右辺を強制する物理インフォームドNVAR(piNVAR)を明示的に導出する。 NVARとpiNVARは学習パラメータを完全に共有するため、我々は2つのモデルを共同で訓練するための拡張手順を提案する。 そして、データ駆動とODE駆動の両方を用いて、損傷のないバネ、ロトカ・ボルテラ・プレデター・プリー非線形モデル、カオスロレンツシステムなどの様々なODEシステムに対する解を予測できるpiNVARモデルの有効性を評価する。

Machine learning techniques have recently been of great interest for solving differential equations. Training these models is classically a data-fitting task, but knowledge of the expression of the differential equation can be used to supplement the training objective, leading to the development of physics-informed scientific machine learning. In this article, we focus on one class of models called nonlinear vector autoregression (NVAR) to solve ordinary differential equations (ODEs). Motivated by connections to numerical integration and physics-informed neural networks, we explicitly derive the physics-informed NVAR (piNVAR) which enforces the right-hand side of the underlying differential equation regardless of NVAR construction. Because NVAR and piNVAR completely share their learned parameters, we propose an augmented procedure to jointly train the two models. Then, using both data-driven and ODE-driven metrics, we evaluate the ability of the piNVAR model to predict solutions to various ODE systems, such as the undamped spring, a Lotka-Volterra predator-prey nonlinear model, and the chaotic Lorenz system.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# 聴けるが読めない:楽器認識のための2towerマルチモーダルシステムの評価

I can listen but cannot read: An evaluation of two-tower multimodal systems for instrument recognition ( http://arxiv.org/abs/2407.18058v1 )

ライセンス: Link先を確認
Yannis Vasilakis, Rachel Bittner, Johan Pauwels, (参考訳) 音楽2towerマルチモーダルシステムは、音声とテキストのモダリティを共同の音声テキスト空間に統合し、曲とそのラベルの直接比較を可能にする。 これらのシステムは、両方のモダリティを活用することによって、分類と検索の新しいアプローチを可能にする。 ゼロショット分類と検索タスクの有望な結果にもかかわらず、埋め込みの綿密な検査が必要である。 本稿では,楽器認識のケーススタディとして,ジョイントオーディオテキスト空間のゼロショット特性について検討する。 ゼロショット・インスツルメンツ認識のための2towerシステムの評価と解析を行い、プレジョイントおよびジョイント埋め込み空間の特性を詳細に解析する。 以上の結果から,音声エンコーダだけでは良好な品質を示しつつ,テキストエンコーダや共同空間投影には課題が残っていることが示唆された。 具体的には、2-towerシステムは特定の単語に対する感度を示し、音楽的に情報を得たものよりもジェネリックなプロンプトを好む。 テキストエンコーダは大きいが、追加のテキストコンテキストを利用していない。 最後に,楽器オントロジーを利用したテキスト空間の意味論的意味を定量化する手法を提案する。 本手法は,楽器に対するシステム理解の欠陥を明らかにし,音楽データに対する微調整テキストエンコーダの必要性を示す。

Music two-tower multimodal systems integrate audio and text modalities into a joint audio-text space, enabling direct comparison between songs and their corresponding labels. These systems enable new approaches for classification and retrieval, leveraging both modalities. Despite the promising results they have shown for zero-shot classification and retrieval tasks, closer inspection of the embeddings is needed. This paper evaluates the inherent zero-shot properties of joint audio-text spaces for the case-study of instrument recognition. We present an evaluation and analysis of two-tower systems for zero-shot instrument recognition and a detailed analysis of the properties of the pre-joint and joint embeddings spaces. Our findings suggest that audio encoders alone demonstrate good quality, while challenges remain within the text encoder or joint space projection. Specifically, two-tower systems exhibit sensitivity towards specific words, favoring generic prompts over musically informed ones. Despite the large size of textual encoders, they do not yet leverage additional textual context or infer instruments accurately from their descriptions. Lastly, a novel approach for quantifying the semantic meaningfulness of the textual space leveraging an instrument ontology is proposed. This method reveals deficiencies in the systems' understanding of instruments and provides evidence of the need for fine-tuning text encoders on musical data.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# コンピュータ支援診断のための放射能に基づく機械学習モデルのクロスベンダ再現性

Cross-Vendor Reproducibility of Radiomics-based Machine Learning Models for Computer-aided Diagnosis ( http://arxiv.org/abs/2407.18060v1 )

ライセンス: Link先を確認
Jatin Chaudhary, Ivan Jambor, Hannu Aronen, Otto Ettala, Jani Saunavaara, Peter Boström, Jukka Heikkonen, Rajeev Kanth, Harri Merisaari, (参考訳) 背景: 異なるMRIベンダーにわたる前立腺癌検出における機械学習モデルの再現性は、依然として大きな課題である。 方法:本研究では,T2強調MRI画像から放射能特性を学習した支援ベクトルマシン(SVM)とランダムフォレスト(RF)モデルについて,ピラディオミクスおよびMRCラジオミクスライブラリーを用いて検討した。 MRMR法を用いて特徴選択を行った。 マルチモーダル学習と機能融合による臨床診断支援の強化を目指していた。 結果: このSVMモデルはPhilipsテストセットでは0.60に減少したが,Multi-Improdデータセット(シーメンススキャナ)では0.74のAUCを達成した。 RFモデルも同様の傾向を示し、ピラディオミクスの特徴のみを用いたモデル(フィリップスのAUC 0.78)で顕著な堅牢性を示した。 結論: 本研究は, 前立腺癌検出における臨床診断支援のための機械学習モデルの堅牢性と一般化性を向上させるために, マルチモーダル機能統合の可能性を示すものである。 この研究は、様々な画像プラットフォームで有効性を維持する信頼性の高いAI駆動診断ツールを開発するための重要なステップである。

Background: The reproducibility of machine-learning models in prostate cancer detection across different MRI vendors remains a significant challenge. Methods: This study investigates Support Vector Machines (SVM) and Random Forest (RF) models trained on radiomic features extracted from T2-weighted MRI images using Pyradiomics and MRCradiomics libraries. Feature selection was performed using the maximum relevance minimum redundancy (MRMR) technique. We aimed to enhance clinical decision support through multimodal learning and feature fusion. Results: Our SVM model, utilizing combined features from Pyradiomics and MRCradiomics, achieved an AUC of 0.74 on the Multi-Improd dataset (Siemens scanner) but decreased to 0.60 on the Philips test set. The RF model showed similar trends, with notable robustness for models using Pyradiomics features alone (AUC of 0.78 on Philips). Conclusions: These findings demonstrate the potential of multimodal feature integration to improve the robustness and generalizability of machine-learning models for clinical decision support in prostate cancer detection. This study marks a significant step towards developing reliable AI-driven diagnostic tools that maintain efficacy across various imaging platforms.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# LLMを用いたフランス語テキストの難易度推定と簡易化

Difficulty Estimation and Simplification of French Text Using LLMs ( http://arxiv.org/abs/2407.18061v1 )

ライセンス: Link先を確認
Henri Jamet, Yash Raj Shrestha, Michalis Vlachos, (参考訳) 我々は、外国語テキストの難易度を推定し、難易度を下げることに集中して、言語学習アプリケーションに生成可能な大規模言語モデルを活用する。 両タスクを予測問題とみなし,ラベル付き例,移動学習,および大規模言語モデルを用いた難易度分類モデルを構築し,従来の手法と比較して精度が高いことを示す。 単純化のために, 単純化品質と意味保存のトレードオフを評価し, 大規模言語モデルのゼロショットと微調整性能を比較した。 そこで本研究では,微調整を限定して意味のあるテキストの簡易化が可能であることを示す。 我々の実験はフランス語のテキストで行われているが、我々の手法は言語に依存しず、他の外国語にも直接適用できる。

We leverage generative large language models for language learning applications, focusing on estimating the difficulty of foreign language texts and simplifying them to lower difficulty levels. We frame both tasks as prediction problems and develop a difficulty classification model using labeled examples, transfer learning, and large language models, demonstrating superior accuracy compared to previous approaches. For simplification, we evaluate the trade-off between simplification quality and meaning preservation, comparing zero-shot and fine-tuned performances of large language models. We show that meaningful text simplifications can be obtained with limited fine-tuning. Our experiments are conducted on French texts, but our methods are language-agnostic and directly applicable to other foreign languages.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# 5G RANにおけるレジリエンス最適化のためのマルチエージェント深部強化学習

Multi-Agent Deep Reinforcement Learning for Resilience Optimization in 5G RAN ( http://arxiv.org/abs/2407.18066v1 )

ライセンス: Link先を確認
Soumeya Kaada, Dinh-Hieu Tran, Nguyen Van Huynh, Marie-Line Alberi Morel, Sofiene Jelassi, Gerardo Rubino, (参考訳) レジリエンス(Resilience)とは、ネットワークが障害に対して抵抗し、適応し、迅速に回復し、ユーザの視点から許容できるレベルのサービスを維持する能力である。 先進的な5Gや次の6Gを含む将来の無線ネットワークが出現すると、重要なサービスは将来のネットワークにとって不可欠なものとなり、エンドユーザーには未断のサービス提供が必要になる。 残念ながら、ネットワークの複雑さ、ユーザモビリティ、多様性の増大により、大規模なネットワーク展開へのローカル最適化に依存する現在のレジリエンス管理テクニックをスケールすることは難しくなっています。 本稿では,多エージェント深層強化学習に基づく高密度マルチセルネットワークのレジリエンスをグローバルに最適化し,この問題に対処することを目的とする。 具体的には,セルアンテナを動的に傾けて送信電力を再構成することで,障害を軽減し,カバー範囲とサービス可用性を向上することができる。 ネットワーク領域におけるサービス品質を最大化しながら、近接するセルに対する障害の影響を最小限に抑えつつ、レジリエンス制約を同時に満たすために、多目的最適化問題を定式化する。 その結果,提案したソリューションでは,ユーザスループットの観点から平均サービス可用性を50~60%向上し,ベストケースでは99%のカバレッジを達成できることがわかった。

Resilience is defined as the ability of a network to resist, adapt, and quickly recover from disruptions, and to continue to maintain an acceptable level of services from users' perspective. With the advent of future radio networks, including advanced 5G and upcoming 6G, critical services become integral to future networks, requiring uninterrupted service delivery for end users. Unfortunately, with the growing network complexity, user mobility and diversity, it becomes challenging to scale current resilience management techniques that rely on local optimizations to large dense network deployments. This paper aims to address this problem by globally optimizing the resilience of a dense multi-cell network based on multi-agent deep reinforcement learning. Specifically, our proposed solution can dynamically tilt cell antennas and reconfigure transmit power to mitigate outages and increase both coverage and service availability. A multi-objective optimization problem is formulated to simultaneously satisfy resiliency constraints while maximizing the service quality in the network area in order to minimize the impact of outages on neighbouring cells. Extensive simulations then demonstrate that with our proposed solution, the average service availability in terms of user throughput can be increased by up to 50-60% on average, while reaching a coverage availability of 99% in best cases.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# HVM-1: 5000時間近い人間のようなビデオデータで事前訓練された大規模ビデオモデル

HVM-1: Large-scale video models pretrained with nearly 5000 hours of human-like video data ( http://arxiv.org/abs/2407.18067v1 )

ライセンス: Link先を確認
A. Emin Orhan, (参考訳) 我々は,時空間マスク付きオートエンコーダ(ST-MAE)アルゴリズムを用いて,人型ビデオデータ(主に自我中心的,時間的拡張,連続的なビデオ記録)を5000時間近く事前訓練した大規模ビデオモデルであるHVM-1を紹介する。 空間解像度224x224と448x448の2つの633Mパラメータモデルをリリースする。 我々は,これらのモデルの性能を下流の数ショットビデオおよび画像認識タスクで評価し,YouTube (Kinetics-700) から1330時間のショートアクション指向ビデオクリップを事前訓練したモデルと比較した。 HVM-1モデルは、対応する事前学習データセットの時空間特性に実質的な質的な差異があるにもかかわらず、下流評価においてキネティクス-700事前学習モデルと競争的に機能する。 HVM-1モデルは、同じデータ上で画像ベースMAEアルゴリズムで事前訓練されたモデルと比較して、より正確で堅牢なオブジェクト表現も学習する。

We introduce Human-like Video Models (HVM-1), large-scale video models pretrained with nearly 5000 hours of curated human-like video data (mostly egocentric, temporally extended, continuous video recordings), using the spatiotemporal masked autoencoder (ST-MAE) algorithm. We release two 633M parameter models trained at spatial resolutions of 224x224 and 448x448 pixels. We evaluate the performance of these models in downstream few-shot video and image recognition tasks and compare them against a model pretrained with 1330 hours of short action-oriented video clips from YouTube (Kinetics-700). HVM-1 models perform competitively against the Kinetics-700 pretrained model in downstream evaluations despite substantial qualitative differences between the spatiotemporal characteristics of the corresponding pretraining datasets. HVM-1 models also learn more accurate and more robust object representations compared to models pretrained with the image-based MAE algorithm on the same data, demonstrating the potential benefits of learning to predict temporal regularities in natural videos for learning better object representations.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# CSWin-UNet: 医療画像セグメンテーションのためのクロスシェイプWindowsを用いたトランスフォーマーUNet

CSWin-UNet: Transformer UNet with Cross-Shaped Windows for Medical Image Segmentation ( http://arxiv.org/abs/2407.18070v1 )

ライセンス: Link先を確認
Xiao Liu, Peng Gao, Tao Yu, Fei Wang, Ru-Yue Yuan, (参考訳) 深層学習、特に畳み込みニューラルネットワーク(CNN)とトランスフォーマーアーキテクチャは、医用画像セグメンテーションにおける広範な研究の焦点となり、印象的な成果を上げている。 しかし、CNNはより複雑で多様なセグメンテーションシナリオにおいて、その効果を制限する誘導バイアスを伴っている。 逆に、Transformerベースの手法は、グローバルおよび長距離のセマンティックな詳細を捉えるのに優れているが、高い計算要求に悩まされている。 本研究では,CSWin自己保持機構をUNetに組み込んで,水平および垂直のストライプの自己保持を容易にする新しいU字分割手法CSWin-UNetを提案する。 この方法は、計算効率と受容場相互作用の両方を大幅に向上させる。 さらに、我々の革新的なデコーダは、予測されたカーネルによって誘導される特徴を戦略的に再構成するコンテンツ認識再組み立て演算子を用いて、正確な画像解像度の復元を行う。 シナプス多臓器CT, 心臓MRI, 皮膚病変など, 多様なデータセットに対する広範な実験により, CSWin-UNetは高いセグメンテーション精度を達成しつつ, 低モデルの複雑さを維持していることが示された。

Deep learning, especially convolutional neural networks (CNNs) and Transformer architectures, have become the focus of extensive research in medical image segmentation, achieving impressive results. However, CNNs come with inductive biases that limit their effectiveness in more complex, varied segmentation scenarios. Conversely, while Transformer-based methods excel at capturing global and long-range semantic details, they suffer from high computational demands. In this study, we propose CSWin-UNet, a novel U-shaped segmentation method that incorporates the CSWin self-attention mechanism into the UNet to facilitate horizontal and vertical stripes self-attention. This method significantly enhances both computational efficiency and receptive field interactions. Additionally, our innovative decoder utilizes a content-aware reassembly operator that strategically reassembles features, guided by predicted kernels, for precise image resolution restoration. Our extensive empirical evaluations on diverse datasets, including synapse multi-organ CT, cardiac MRI, and skin lesions, demonstrate that CSWin-UNet maintains low model complexity while delivering high segmentation accuracy.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# 主エージェント強化学習

Principal-Agent Reinforcement Learning ( http://arxiv.org/abs/2407.18074v1 )

ライセンス: Link先を確認
Dima Ivanov, Paul Dütting, Inbal Talgam-Cohen, Tonghan Wang, David C. Parkes, (参考訳) 契約は、代理人の行動を直接観察することなく、不一致の利益にもかかわらず、首長がエージェントにタスクを委譲することを可能にする経済的な枠組みである。 多くの近代的な強化学習環境において、自己関心のあるエージェントは、プリンシパルによって委譲された多段階的なタスクを実行することを学習する。 我々は、契約を利用してエージェントにインセンティブを与える大きな可能性を探求する。 我々は、委任されたタスクをMDPとしてモデル化し、プリンシパルとエージェントの間の確率ゲームにおいて、プリンシパルが使用するコントラクトを学習し、エージェントが応答してMDPポリシーを学習する。 本稿では,プリンシパル・エージェント・ゲームのサブゲーム完全均衡に確実に収束する,プリンシパルの契約を最適化するための学習に基づくアルゴリズムを提案する。 より深いRL実装により、未知の遷移ダイナミクスを持つ非常に大きなMDPにメソッドを適用することができる。 我々は、複数のエージェントへのアプローチを拡張し、エージェント報酬に対する最小の介入で、正統的な社会的ジレンマを解決することとの関連性を実証する。

Contracts are the economic framework which allows a principal to delegate a task to an agent -- despite misaligned interests, and even without directly observing the agent's actions. In many modern reinforcement learning settings, self-interested agents learn to perform a multi-stage task delegated to them by a principal. We explore the significant potential of utilizing contracts to incentivize the agents. We model the delegated task as an MDP, and study a stochastic game between the principal and agent where the principal learns what contracts to use, and the agent learns an MDP policy in response. We present a learning-based algorithm for optimizing the principal's contracts, which provably converges to the subgame-perfect equilibrium of the principal-agent game. A deep RL implementation allows us to apply our method to very large MDPs with unknown transition dynamics. We extend our approach to multiple agents, and demonstrate its relevance to resolving a canonical sequential social dilemma with minimal intervention to agent rewards.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# PEFT-U:ユーザパーソナライゼーションのためのパラメータ効率の良いファインチューニング

PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization ( http://arxiv.org/abs/2407.18078v1 )

ライセンス: Link先を確認
Christopher Clarke, Yuzhao Heng, Lingjia Tang, Jason Mars, (参考訳) 近年のLarge Language Models(LLM)の出現は、人間とAIの相互作用の新しい時代を告げている。 Chat-GPTとその後継者によって実証されたこれらの洗練されたモデルは、言語理解において顕著な能力を示した。 しかし、これらのLSMは指数的な成長を遂げているため、これらのモデルのパーソナライズがまだ検討されている重要な次元である。 GPT-3のような大規模な基盤モデルは、幅広いタスクやユーザに役立つ普遍的なモデルを作ることに重点を置いている。 このアプローチはモデルの一般化機能を強調し、ユーザを個別の個人ではなく集合として扱う。 多くの一般的な用途で実用的であるが、このワンサイズのアプローチは、人間の多様性と個人のニーズの豊富なタペストリーに対処できないことが多い。 ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-U Benchmarkを紹介した。 \datasetname{} は多様で個別化された表現を含むユーザ中心の一連のタスクで構成され、ユーザの好みは同じ入力に対して潜在的に異なる可能性がある。 PEFT-Uを用いて、多様なユーザ中心タスクのコンテキストにおいて、ユーザ固有の嗜好に対応するために、LLMを効率よくパーソナライズする課題について検討する。

The recent emergence of Large Language Models (LLMs) has heralded a new era of human-AI interaction. These sophisticated models, exemplified by Chat-GPT and its successors, have exhibited remarkable capabilities in language understanding. However, as these LLMs have undergone exponential growth, a crucial dimension that remains understudied is the personalization of these models. Large foundation models such as GPT-3 etc. focus on creating a universal model that serves a broad range of tasks and users. This approach emphasizes the model's generalization capabilities, treating users as a collective rather than as distinct individuals. While practical for many common applications, this one-size-fits-all approach often fails to address the rich tapestry of human diversity and individual needs. To explore this issue we introduce the PEFT-U Benchmark: a new dataset for building and evaluating NLP models for user personalization. \datasetname{} consists of a series of user-centered tasks containing diverse and individualized expressions where the preferences of users can potentially differ for the same input. Using PEFT-U, we explore the challenge of efficiently personalizing LLMs to accommodate user-specific preferences in the context of diverse user-centered tasks.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# Ethereumデータアベイラビリティサンプリングの設計について:包括的シミュレーション研究

On the Design of Ethereum Data Availability Sampling: A Comprehensive Simulation Study ( http://arxiv.org/abs/2407.18085v1 )

ライセンス: Link先を確認
Arunima Chaudhuri, Sudipta Basak, Csaba Kiraly, Dmitriy Ryajov, Leonardo Bautista-Gomez, (参考訳) 本稿では,データアベイラビリティサンプリング(DAS)と分散システム内のシャーディング機構をシミュレーションに基づく解析により詳細に調査する。 ブロックチェーン技術と分散ネットワークにおける重要な概念であるDASは、その複雑さを解明し、システムパフォーマンスへの影響を評価するために、徹底的に調査されている。 本研究では,DASに適したシミュレータの開発を通じて,システム挙動や効率に影響を及ぼすパラメータを包括的に調査する。 シミュレーション環境で一連の実験を行い、理論的な定式化を検証し、DASパラメータの相互作用を識別する。 これには、行単位の保持、ノード毎のバリデータの変化、悪意のあるノードなどのアプローチの調査が含まれる。 これらの実験の結果、DASプロトコルの有効性に関する洞察を与え、分散ネットワーク性能の向上を目的とした最適化戦略の定式化の道を開いた。 さらに、この発見は将来の研究のガイドラインとして機能し、分散システムに固有の複雑さの微妙な理解を提供する。 本研究は,DASの理論的理解に寄与するだけでなく,分散システムの設計,実装,最適化に実用的な意味を与える。

This paper presents an in-depth exploration of Data Availability Sampling (DAS) and sharding mechanisms within decentralized systems through simulation-based analysis. DAS, a pivotal concept in blockchain technology and decentralized networks, is thoroughly examined to unravel its intricacies and assess its impact on system performance. Through the development of a simulator tailored explicitly for DAS, we embark on a comprehensive investigation into the parameters that influence system behavior and efficiency. A series of experiments are conducted within the simulated environment to validate theoretical formulations and dissect the interplay of DAS parameters. This includes an exploration of approaches such as custody by row, variations in validators per node, and malicious nodes. The outcomes of these experiments furnish insights into the efficacy of DAS protocols and pave the way for the formulation of optimization strategies geared towards enhancing decentralized network performance. Moreover, the findings serve as guidelines for future research endeavors, offering a nuanced understanding of the complexities inherent in decentralized systems. This study not only contributes to the theoretical understanding of DAS but also offers practical implications for the design, implementation, and optimization of decentralized systems.
翻訳日:2024-07-26 13:49:09 公開日:2024-07-25
# 非線形貯水池工学を用いたキャット状態多様体の安定化

Stabilization of cat-state manifolds using nonlinear reservoir engineering ( http://arxiv.org/abs/2407.18087v1 )

ライセンス: Link先を確認
Ivan Rojkov, Matteo Simoni, Elias Zapusek, Florentin Reiter, Jonathan Home, (参考訳) 我々は,多成分シュリンガーの猫多様体を安定化するための新しい貯水池工学手法を導入する。 この方法の基本原理は、発振器とゼロ温度補助系の結合における利得項と損失項の交差における破壊的干渉であり、発振器のエネルギーに関して非線形である。 これらのゲイン・アンド・ロス項の性質は、結果として得られる安定化多様体の回転対称性、エネルギー分布、退化を決定づける。 これらのシステムをボソニックな誤り訂正符号として考慮し、自律的誤り訂正と受動的誤り訂正の両方を含む様々なエラーに関して、それらの特性を分析する。 本研究では,ランブ・ディッケ系外におけるトラップイオンの非調和レーザー-イオンカップリングと非線形超伝導回路を用いた実装例を示す。 標準の猫多様体と新しい回転対称符号の散逸安定化の他に、我々の定式化は、四重化猫のようなユニタリ変換を通して猫の状態と結びついたボゾン符号の安定化を可能にすることを実証する。 我々の研究は、非線形性を利用してコードを作成し、利用するための設計アプローチを確立し、様々な物理システムにまたがる新しい量子状態やプロセスへのアクセスを提供する。

We introduce a novel reservoir engineering approach for stabilizing multi-component Schr\"odinger's cat manifolds. The fundamental principle of the method lies in the destructive interference at crossings of gain and loss Hamiltonian terms in the coupling of an oscillator to a zero-temperature auxiliary system, which are nonlinear with respect to the oscillator's energy. The nature of these gain and loss terms is found to determine the rotational symmetry, energy distributions, and degeneracy of the resulting stabilized manifolds. Considering these systems as bosonic error-correction codes, we analyze their properties with respect to a variety of errors, including both autonomous and passive error correction, where we find that our formalism gives straightforward insights into the nature of the correction. We give example implementations using the anharmonic laser-ion coupling of a trapped ion outside the Lamb-Dicke regime as well as nonlinear superconducting circuits. Beyond the dissipative stabilization of standard cat manifolds and novel rotation symmetric codes, we demonstrate that our formalism allows for the stabilization of bosonic codes linked to cat states through unitary transformations, such as quadrature-squeezed cats. Our work establishes a design approach for creating and utilizing codes using nonlinearity, providing access to novel quantum states and processes across a range of physical systems.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# モード内在型量子エンタングルメントの検出

Detection of mode-intrinsic quantum entanglement ( http://arxiv.org/abs/2407.18095v1 )

ライセンス: Link先を確認
Carlos E. Lopetegui, Mathieu Isoard, Nicolas Treps, Mattia Walschaers, (参考訳) 量子相関は量子情報の力の核であり、量子計算の優位性に到達するために必要なものである。 連続変数量子系の文脈では、量子上の利点のための別の必要資源は非ガウス性である。 本研究では,非ガウス状態のみが持つ強い絡み合いを検出し,すべてのモードベースにおける絡み合いを受動光学的操作によって解き放つことができないことを示す。 任意のモードで絡み合いをチェックするのに、1つの基準で測定することしか必要とせず、ホモダイン測定を用いて実験的に適用することができ、また、状態の完全なトモグラフィーを必要としない。

Quantum correlations are at the core of the power of quantum information and are necessary to reach a quantum computational advantage. In the context of continuous-variable quantum systems, another necessary ressource for quantum advantages is non-Gaussianity. In this work, we propose a witness, based on previously known relations between metrological power and quantum correlations, to detect a strong form of entanglement that only non-Gaussian states possess and that cannot be undone by passive optical operations, i.e., entanglement in all mode bases. The strength of our witness is two-fold: it only requires measurements in one basis to check entanglement in any arbitrary mode basis; it can be made applicable experimentally using homodyne measurements and without requiring a full tomography of the state.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# モノのインターネットのためのフェデレーション学習におけるプライバシの脅威と対策:システムレビュー

Privacy Threats and Countermeasures in Federated Learning for Internet of Things: A Systematic Review ( http://arxiv.org/abs/2407.18096v1 )

ライセンス: Link先を確認
Adel ElZemity, Budi Arief, (参考訳) モノのインターネット(IoT)環境におけるフェデレートラーニング(FL)は、分散データを利用することで機械学習を強化することができるが、同時に、IoTデバイスの制約された性質のために、重要なプライバシとセキュリティ上の懸念を導入する可能性がある。 これは我々が本論文で目指す研究課題である。 我々は最近の文献を体系的に分析し、IoT環境内のFLにおけるプライバシーの脅威を特定し、これらの脅威を軽減するために使用できる防御策を評価した。 SLR(Systematic Literature Review)アプローチを用いて、2017年から2024年4月までのFL導入期間の関連論文を照合した5つのパブリッシュデータベース(Scopus、IEEE Xplore、Wiley、ACM、Science Direct)を検索した。 PRISMAプロトコルでガイドされた我々は、体系的なレビューに焦点を合わせるために49の論文を選択した。 これらの論文を分析して、最近の進歩と批判的な洞察を強調するために、包括的および排他的基準を使用して、プライバシーの脅威と防衛措置(特にIoTのコンテキスト内で)に特に注意を払っています。 我々は、推測攻撃、毒殺攻撃、盗聴などの様々なプライバシー上の脅威と、差分プライバシーやセキュア多人数計算などの防御策を特定した。 これらの防御は、IoT設定におけるFLの機能的整合性を損なうことなく、プライバシ保護の有効性を評価した。 われわれのレビューは、IoT環境に適した堅牢で効率的なプライバシー保護戦略の必要性を強調している。 特に、リプレイ、回避、モデル盗難攻撃に対する戦略が必要である。 軽量な防御策やブロックチェーンなどの新興テクノロジの探索は、IoTにおけるFLのプライバシ向上に役立つ可能性がある。

Federated Learning (FL) in the Internet of Things (IoT) environments can enhance machine learning by utilising decentralised data, but at the same time, it might introduce significant privacy and security concerns due to the constrained nature of IoT devices. This represents a research challenge that we aim to address in this paper. We systematically analysed recent literature to identify privacy threats in FL within IoT environments, and evaluate the defensive measures that can be employed to mitigate these threats. Using a Systematic Literature Review (SLR) approach, we searched five publication databases (Scopus, IEEE Xplore, Wiley, ACM, and Science Direct), collating relevant papers published between 2017 and April 2024, a period which spans from the introduction of FL until now. Guided by the PRISMA protocol, we selected 49 papers to focus our systematic review on. We analysed these papers, paying special attention to the privacy threats and defensive measures -- specifically within the context of IoT -- using inclusion and exclusion criteria tailored to highlight recent advances and critical insights. We identified various privacy threats, including inference attacks, poisoning attacks, and eavesdropping, along with defensive measures such as Differential Privacy and Secure Multi-Party Computation. These defences were evaluated for their effectiveness in protecting privacy without compromising the functional integrity of FL in IoT settings. Our review underscores the necessity for robust and efficient privacy-preserving strategies tailored for IoT environments. Notably, there is a need for strategies against replay, evasion, and model stealing attacks. Exploring lightweight defensive measures and emerging technologies such as blockchain may help improve the privacy of FL in IoT, leading to the creation of FL models that can operate under variable network conditions.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# SSTD:シングルポイントスーパービジョンを用いたStripeライクな空間ターゲット検出

SSTD: Stripe-Like Space Target Detection using Single-Point Supervision ( http://arxiv.org/abs/2407.18097v1 )

ライセンス: Link先を確認
Zijian Zhu, Ali Zia, Xuesong Li, Bingbing Dan, Yuebo Ma, Enhai Liu, Rujin Zhao, (参考訳) Stripeライクな宇宙目標検出(SSTD)は、宇宙状況の認識を高め、宇宙船の挙動を評価する上で重要な役割を果たしている。 このドメインは、公開データセットの欠如、光や星からの干渉、およびピクセルレベルのアノテーションを複雑にするストライプのようなターゲットの多様性の3つの課題に直面している。 そこで我々は,SSTDのための先駆的データセットである ‘AstroStripeSet’ を紹介し,学術資源のギャップを埋めることと,SSTDにおける研究を前進させることを目的としている。 さらに,シングルポイント・インスペクティブを用いた疑似ラベル進化型教師学習フレームワークを提案する。 このフレームワークは、Segment Anything Model(SAM)のゼロショット機能を使って、単一ポイント設定で初期擬似ラベルを生成し、これらのラベルを反復的に洗練することから始まる。 本フレームワークでは,教員として,新たに開発したStripeNetを学生として利用し,擬似ラベルの品質向上によりセグメンテーション性能を継続的に向上する。 また、ストライプライクなターゲットの線形特性に合わせてカスタマイズされた新しい損失関数である「GeoDice」も導入する。 大規模な実験により,提案手法の性能はすべての評価指標で完全に教師付き手法と一致し,新たなSOTA(State-of-the-art)ベンチマークが確立された。 データセットとコードは公開されます。

Stripe-like space target detection (SSTD) plays a key role in enhancing space situational awareness and assessing spacecraft behaviour. This domain faces three challenges: the lack of publicly available datasets, interference from stray light and stars, and the variability of stripe-like targets, which complicates pixel-level annotation. In response, we introduces `AstroStripeSet', a pioneering dataset designed for SSTD, aiming to bridge the gap in academic resources and advance research in SSTD. Furthermore, we propose a novel pseudo-label evolution teacher-student framework with single-point supervision. This framework starts with generating initial pseudo-labels using the zero-shot capabilities of the Segment Anything Model (SAM) in a single-point setting, and refines these labels iteratively. In our framework, the fine-tuned StripeSAM serves as the teacher and the newly developed StripeNet as the student, consistently improving segmentation performance by improving the quality of pseudo-labels. We also introduce `GeoDice', a new loss function customized for the linear characteristics of stripe-like targets. Extensive experiments show that the performance of our approach matches fully supervised methods on all evaluation metrics, establishing a new state-of-the-art (SOTA) benchmark. Our dataset and code will be made publicly available.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# 偽情報のウェブ:Twitter上での国家支援による影響キャンペーンのより大きな文脈を探る

Unraveling the Web of Disinformation: Exploring the Larger Context of State-Sponsored Influence Campaigns on Twitter ( http://arxiv.org/abs/2407.18098v1 )

ライセンス: Link先を確認
Mohammad Hammas Saeed, Shiza Ali, Pujan Paudel, Jeremy Blackburn, Gianluca Stringhini, (参考訳) ソーシャルメディアプラットフォームは、インターネット接続やアイデア交換の先例のない機会を提供するが、情報の拡散の場としても機能する。 長年にわたり、偽情報を広め、トロルアカウントと呼ばれる指定されたアカウントを通じてセンシティブな話題に関する世論を揺るがそうとする国家支援キャンペーンが増えている。 州が支援するオペレーションに属するアカウントの検出に関する過去の作業は、1つのキャンペーンに重点を置いていた。 キャンペーン固有の検出技術は構築が容易だが、キャンペーン非依存で、特定のキャンペーンのバイアスの影響を受けないトロルアカウントの汎用的な検出を提供するシステムの開発は行われていない。 本稿では、異なる州アクターにまたがって採用されている複数の戦略を特定し、それを利用してこれまで見つからなかったキャンペーンからアカウントを検知するシステムを提案する。 我々は、様々な国を起源とする19の国が支援する偽情報キャンペーンをTwitterで調査した。 この戦略には、一般的なスケジューリングサービスによる自動メッセージの送信、選択されたコンテンツのリツイートと共有、コンテンツプッシュのための検証済みアプリケーションの偽バージョンの使用が含まれる。 これらの特徴を機能セットに翻訳することで、未知のキャンペーンから最大94%のアカウントを正しく識別できる機械学習ベースの分類器を構築する。 さらに、私たちはシステムを荒野で実行し、州が支援するオペレーションに属する可能性のあるアカウントをもっと見つけます。 また,本システムで発見されたアカウントとTwitterで発見されたアカウントの類似性を明らかにするケーススタディを提案する。

Social media platforms offer unprecedented opportunities for connectivity and exchange of ideas; however, they also serve as fertile grounds for the dissemination of disinformation. Over the years, there has been a rise in state-sponsored campaigns aiming to spread disinformation and sway public opinion on sensitive topics through designated accounts, known as troll accounts. Past works on detecting accounts belonging to state-backed operations focus on a single campaign. While campaign-specific detection techniques are easier to build, there is no work done on developing systems that are campaign-agnostic and offer generalized detection of troll accounts unaffected by the biases of the specific campaign they belong to. In this paper, we identify several strategies adopted across different state actors and present a system that leverages them to detect accounts from previously unseen campaigns. We study 19 state-sponsored disinformation campaigns that took place on Twitter, originating from various countries. The strategies include sending automated messages through popular scheduling services, retweeting and sharing selective content and using fake versions of verified applications for pushing content. By translating these traits into a feature set, we build a machine learning-based classifier that can correctly identify up to 94% of accounts from unseen campaigns. Additionally, we run our system in the wild and find more accounts that could potentially belong to state-backed operations. We also present case studies to highlight the similarity between the accounts found by our system and those identified by Twitter.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability

DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability ( http://arxiv.org/abs/2407.18100v1 )

ライセンス: Link先を確認
Florent Brondolo, Samuel Beaussant, (参考訳) 本研究では,岩石試料のCTスキャン画像の解釈可能性,分類,セグメンテーションについて検討し,特に地球科学におけるDINOv2の適用性に着目した。 地質画像解析において, その有効性, 効率, 適応性を評価するために, 様々なセグメンテーション手法を比較した。 評価方法は、大津しきい値法、クラスタリング技術(K平均とファジィC平均)、教師付き機械学習アプローチ(ランドムフォレスト)、ディープラーニング手法(UNetとDINOv2)などである。 10個の砂岩データセットと3つの多クラスカルサイトデータセットを用いてこれらの手法を検証した。 まず,DINOv2の特徴を地質学的文脈で網羅的に解析し,その適合性と,CTスキャンによる岩石データの処理能力について論じる。 分類の面では、DINOv2は、CTスキャンが元のトレーニングセットから外れている場合でも、ロック画像を完璧に分類する能力を示している。 セグメンテーション、しきい値設定、教師なしの手法は、高速ながら画像前処理に拘わらず性能が良くないが、教師付き手法はより良い結果を示す。 深層学習の計算的要求を過小評価するが、画像前処理を必要とせず、最小限の介入、高度な一般化、性能を強調している。 さらに,ネットワークの深さとパラメータ数と性能との相関関係の欠如も観察する。 以上の結果から,LoRA微調整DINOv2は分布外セグメンテーションにおいて優れ,マルチクラスセグメンテーションにおいて他の手法よりも優れていた。 これらの手法を体系的に比較することにより、精巧かつ精巧なセグメンテーションタスクの最も効率的な戦略を特定する。 DINOv2は、比較的小さな訓練セットに対して「地道より優れている」と表現できるセグメンテーションを達成するという利点を証明している。

This study investigates the interpretability, classification, and segmentation of CT-scan images of rock samples, with a particular focus on the application of DINOv2 within Geosciences. We compared various segmentation techniques to evaluate their efficacy, efficiency, and adaptability in geological image analysis. The methods assessed include the Otsu thresholding method, clustering techniques (K-means and fuzzy C-means), a supervised machine learning approach (Random Forest), and deep learning methods (UNet and DINOv2). We tested these methods using ten binary sandstone datasets and three multi-class calcite datasets. To begin, we provide a thorough interpretability analysis of DINOv2's features in the geoscientific context, discussing its suitability and inherent ability to process CT-scanned rock data. In terms of classification, the out-of-the-box DINOv2 demonstrates an impressive capability to perfectly classify rock images, even when the CT scans are out of its original training set. Regarding segmentation, thresholding and unsupervised methods, while fast, perform poorly despite image preprocessing, whereas supervised methods show better results. We underscore the computational demands of deep learning but highlight its minimal intervention, superior generalization, and performance without additional image preprocessing. Additionally, we observe a lack of correlation between a network's depth or the number of parameters and its performance. Our results show that a LoRA fine-tuned DINOv2 excels in out-of-distribution segmentation and significantly outperforms other methods in multi-class segmentation. By systematically comparing these methods, we identify the most efficient strategy for meticulous and laborious segmentation tasks. DINOv2 proves advantageous, achieving segmentations that could be described as "better than ground-truth" against relatively small training sets.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# ニューズフローを用いたストックリターン予測のための微調整大言語モデル

Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow ( http://arxiv.org/abs/2407.18103v1 )

ライセンス: Link先を確認
Tian Guo, Emmanuel Hauptmann, (参考訳) 大規模言語モデル(LLM)とその微調整技術は、様々な言語理解および生成タスクにおいて優れた性能を示している。 本稿では,金融ニュースフローを用いた株価リターン予測のための微調整LDMについて検討する。 量的投資において、リターン予測は、株式の選定やポートフォリオの最適化といったその後のタスクに不可欠である。 テキスト表現と予測モジュールを含むようにモデルを定式化する。 本稿では,エンコーダのみのLLMとデコーダのみのLLMを比較し,異なる方法でテキスト表現を生成することを提案する。 これらの異なる表現が予測性能に与える影響は、まだ明らかな疑問である。 一方、LLMのトークンレベルの表現を予測モジュールに統合する2つの簡単な方法を比較する。 1) LLMのトークンレベルの埋め込みから集約された表現は、一般的には、長短のポートフォリオと長短のポートフォリオのパフォーマンスを高めるリターン予測を生成する。(2) 比較的大きな投資宇宙では、デコーダのLSMベースの予測モデルがより強力なポートフォリオをもたらすのに対し、小さな宇宙では、一貫した勝者は存在しない。 研究された3つのLSM(DeBERTa, Mistral, Llama)のうち、Mistralは異なる宇宙でより堅牢に動作し、(3) LLMのテキスト表現から導かれる戻り予測はポートフォリオ構築の強いシグナルであり、従来の感情スコアよりも優れている。

Large language models (LLMs) and their fine-tuning techniques have demonstrated superior performance in various language understanding and generation tasks. This paper explores fine-tuning LLMs for stock return forecasting with financial newsflow. In quantitative investing, return forecasting is fundamental for subsequent tasks like stock picking, portfolio optimization, etc. We formulate the model to include text representation and forecasting modules. We propose to compare the encoder-only and decoder-only LLMs, considering they generate text representations in distinct ways. The impact of these different representations on forecasting performance remains an open question. Meanwhile, we compare two simple methods of integrating LLMs' token-level representations into the forecasting module. The experiments on real news and investment universes reveal that: (1) aggregated representations from LLMs' token-level embeddings generally produce return predictions that enhance the performance of long-only and long-short portfolios; (2) in the relatively large investment universe, the decoder LLMs-based prediction model leads to stronger portfolios, whereas in the small universes, there are no consistent winners. Among the three LLMs studied (DeBERTa, Mistral, Llama), Mistral performs more robustly across different universes; (3) return predictions derived from LLMs' text representations are a strong signal for portfolio construction, outperforming conventional sentiment scores.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# 卵巣癌サブタイプ別マルチリゾリューション・ヒストロジーパッチグラフ

Multi-Resolution Histopathology Patch Graphs for Ovarian Cancer Subtyping ( http://arxiv.org/abs/2407.18105v1 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Nicolas M. Orsi, Nishant Ravikumar, (参考訳) コンピュータビジョンモデルは卵巣上皮癌サブタイプを分類する能力はますます高まっているが、単一の解像度で小さな組織パッチを処理することで病理学者と異なる。 マルチレゾリューショングラフモデルは、パッチの空間的関係を複数の倍率で利用し、各パッチのコンテキストを学習する。 本研究では,現在までの卵巣癌サブタイプに対するグラフモデルについて,最も徹底的な検証を行っている。 リーズ・インストラクション・インスティテュートで治療を受けた434人の患者を対象に,1864年のスライド画像(WSI)の5倍のクロスバリデーションを用いて7つのモデルを調整,訓練した。 クロスバリデーションモデルは,30例の100 WSIと80例の80 WSIを用いて,バランスの取れたホールドアウトテストセットを用いて,アンサンブルおよび評価を行った。 10x+20倍の倍率データを用いたグラフモデルでは,クロスバリデーション,ホールドアウトテスト,外部バリデーションのバランスが73%,88%,99%であった。 しかし、これは、外部バリデーションにおける注意ベースの多重インスタンス学習のパフォーマンスを93%の精度で上回っただけである。 グラフモデルは、ImageNetで事前訓練されたResNet50ではなく、UNIファンデーションモデルを使用することで、大きな恩恵を受けました。 基礎モデルとマルチレゾリューショングラフネットワークの組み合わせの精度は、これらのモデルの臨床的適用性への一歩であり、このタスクには新たな最高のパフォーマンスが報告されているが、モデルの堅牢性とユーザビリティを保証するためには、さらなる検証が必要である。

Computer vision models are increasingly capable of classifying ovarian epithelial cancer subtypes, but they differ from pathologists by processing small tissue patches at a single resolution. Multi-resolution graph models leverage the spatial relationships of patches at multiple magnifications, learning the context for each patch. In this study, we conduct the most thorough validation of a graph model for ovarian cancer subtyping to date. Seven models were tuned and trained using five-fold cross-validation on a set of 1864 whole slide images (WSIs) from 434 patients treated at Leeds Teaching Hospitals NHS Trust. The cross-validation models were ensembled and evaluated using a balanced hold-out test set of 100 WSIs from 30 patients, and an external validation set of 80 WSIs from 80 patients in the Transcanadian Study. The best-performing model, a graph model using 10x+20x magnification data, gave balanced accuracies of 73%, 88%, and 99% in cross-validation, hold-out testing, and external validation, respectively. However, this only exceeded the performance of attention-based multiple instance learning in external validation, with a 93% balanced accuracy. Graph models benefitted greatly from using the UNI foundation model rather than an ImageNet-pretrained ResNet50 for feature extraction, with this having a much greater effect on performance than changing the subsequent classification approach. The accuracy of the combined foundation model and multi-resolution graph network offers a step towards the clinical applicability of these models, with a new highest-reported performance for this task, though further validations are still required to ensure the robustness and usability of the models.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# 粗粒社会経済ダイナミクスのグラフニューラル正規微分方程式

Graph Neural Ordinary Differential Equations for Coarse-Grained Socioeconomic Dynamics ( http://arxiv.org/abs/2407.18108v1 )

ライセンス: Link先を確認
James Koch, Pranab Roy Chowdhury, Heng Wan, Parin Bhaduri, Jim Yoon, Vivek Srikrishnan, W. Brent Daniel, (参考訳) 時空間社会経済力学をモデル化するためのデータ駆動型機械学習手法を提案する。 粗粒微細な観察を通して、我々のモデリングフレームワークは、これらの複雑なシステムを通常の微分方程式の形で、抽出可能な機械的関係の集合に単純化し、臨界系の挙動を保存します。 このアプローチは、情報的政策決定に不可欠な「もし」研究と感度分析の迅速化を可能にする。 我々の研究結果は、ボルチモアのケーススタディから、この機械学習で強化された粗粒度モデルが、社会要因、地理、および外因性ストレスの複雑な相互作用を解明するための強力な手段であり、システムの予測とレジリエンス計画に有用な資産であることを示している。

We present a data-driven machine-learning approach for modeling space-time socioeconomic dynamics. Through coarse-graining fine-scale observations, our modeling framework simplifies these complex systems to a set of tractable mechanistic relationships -- in the form of ordinary differential equations -- while preserving critical system behaviors. This approach allows for expedited 'what if' studies and sensitivity analyses, essential for informed policy-making. Our findings, from a case study of Baltimore, MD, indicate that this machine learning-augmented coarse-grained model serves as a powerful instrument for deciphering the complex interactions between social factors, geography, and exogenous stressors, offering a valuable asset for system forecasting and resilience planning.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# MapTune: 強化学習ガイドライブラリチューニングによるASIC技術マッピングの強化

MapTune: Advancing ASIC Technology Mapping via Reinforcement Learning Guided Library Tuning ( http://arxiv.org/abs/2407.18110v1 )

ライセンス: Link先を確認
Mingju Liu, Daniel Robinson, Yingjie Li, Cunxi Yu, (参考訳) 技術マッピングは論理回路をセルのライブラリーにマッピングする。 伝統的に、完全な技術ライブラリが使われており、巨大な検索スペースと潜在的なオーバーヘッドにつながっている。 ランダムにサンプル化した技術マッピングケーススタディにより,この課題に対処するMapTuneフレームワークを提案する。 環境から学習することで、MapTuneは細胞選択プロセスを洗練し、検索スペースが減少し、マッピングの品質が向上する可能性がある。 MapTuneの有効性は、幅広いベンチマーク、さまざまな技術ライブラリ、テクノロジマッパーで評価されている。 実験の結果,MapTuneは様々な回路設計,技術ライブラリ,マッパー間のマッピング精度の向上,遅延/領域の低減を実現していることがわかった。 本稿は、パレート・最適探査についても論じ、恒久的な遅延領域のトレードオフを確認する。 ベンチマークスイートであるISCAS 85/89, ITC/ISCAS 99, VTR8.0, EPFL のベンチマークでは、ポストテクノロジーマッピングとポストサイズ品質 (QoR) が大幅に改善され、MapTune のすべての探索設定の中で平均エリア遅延製品 (ADP) が 22.54 % 改善された。 改良は4つの異なる技術(7nm、45nm、130nm、180nm)と2つの異なるマッパーで一貫して維持されている。

Technology mapping involves mapping logical circuits to a library of cells. Traditionally, the full technology library is used, leading to a large search space and potential overhead. Motivated by randomly sampled technology mapping case studies, we propose MapTune framework that addresses this challenge by utilizing reinforcement learning to make design-specific choices during cell selection. By learning from the environment, MapTune refines the cell selection process, resulting in a reduced search space and potentially improved mapping quality. The effectiveness of MapTune is evaluated on a wide range of benchmarks, different technology libraries and technology mappers. The experimental results demonstrate that MapTune achieves higher mapping accuracy and reducing delay/area across diverse circuit designs, technology libraries and mappers. The paper also discusses the Pareto-Optimal exploration and confirms the perpetual delay-area trade-off. Conducted on benchmark suites ISCAS 85/89, ITC/ISCAS 99, VTR8.0 and EPFL benchmarks, the post-technology mapping and post-sizing quality-of-results (QoR) have been significantly improved, with average Area-Delay Product (ADP) improvement of 22.54\% among all different exploration settings in MapTune. The improvements are consistently remained for four different technologies (7nm, 45nm, 130nm, and 180 nm) and two different mappers.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# キーポイント・プロンプトブル・リデンティフィケーション

Keypoint Promptable Re-Identification ( http://arxiv.org/abs/2407.18112v1 )

ライセンス: Link先を確認
Vladimir Somers, Christophe De Vleeschouwer, Alexandre Alahi, (参考訳) Occluded Person Re-Identification (ReID) は、その外見に基づいて隠蔽された個人をマッチングするメトリクス学習タスクである。 多くの研究は、物体によって引き起こされる隠蔽に取り組んできたが、多人数の隠蔽はいまだに調査されていない。 本研究では,複数の個人が同じバウンディングボックスに表示された場合に発生するマルチパーソン・アンビグニティ(MPA)について,従来のReID手法で見落とされた重要な課題を特定し,対処する。 視覚を刺激する最近の研究から着想を得たキーポイント・プロンプタブル・ReID(KPR)は、入力境界ボックスを意図したターゲットを示すセマンティック・キーポイントのセットで明示的に補完するReID問題の新たな定式化である。 プロンプト可能な再識別は未探索のパラダイムであるため、既存のReIDデータセットにはプロンプトに必要なピクセルレベルのアノテーションが欠けている。 このギャップを埋め、このトピックに関するさらなる研究を促進するために、キーポイントラベルを持つ新しいReIDデータセットであるOccluded-PoseTrack ReIDを紹介します。 さらに、人気のある4つのReIDベンチマーク用のカスタムキーポイントラベルもリリースします。 提案手法は,人物検索だけでなくポーズトラッキングにも応用し,様々なシナリオにおける従来の最先端手法を体系的に超越していることを示す。 私たちのコード、データセット、アノテーションはhttps://github.com/VlSomers/keypoint_promptable_reidentificationで利用可能です。

Occluded Person Re-Identification (ReID) is a metric learning task that involves matching occluded individuals based on their appearance. While many studies have tackled occlusions caused by objects, multi-person occlusions remain less explored. In this work, we identify and address a critical challenge overlooked by previous occluded ReID methods: the Multi-Person Ambiguity (MPA) arising when multiple individuals are visible in the same bounding box, making it impossible to determine the intended ReID target among the candidates. Inspired by recent work on prompting in vision, we introduce Keypoint Promptable ReID (KPR), a novel formulation of the ReID problem that explicitly complements the input bounding box with a set of semantic keypoints indicating the intended target. Since promptable re-identification is an unexplored paradigm, existing ReID datasets lack the pixel-level annotations necessary for prompting. To bridge this gap and foster further research on this topic, we introduce Occluded-PoseTrack ReID, a novel ReID dataset with keypoints labels, that features strong inter-person occlusions. Furthermore, we release custom keypoint labels for four popular ReID benchmarks. Experiments on person retrieval, but also on pose tracking, demonstrate that our method systematically surpasses previous state-of-the-art approaches on various occluded scenarios. Our code, dataset and annotations are available at https://github.com/VlSomers/keypoint_promptable_reidentification.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# エッジデバイスを用いたニューラルセルオートマタの教師なしトレーニング

Unsupervised Training of Neural Cellular Automata on Edge Devices ( http://arxiv.org/abs/2407.18114v1 )

ライセンス: Link先を確認
John Kalkhof, Amin Ranem, Anirban Mukhopadhyay, (参考訳) さまざまな領域にわたる医療画像のための機械学習ツールへのアクセスの格差は、特に遠隔地において、普遍的な医療革新の可能性を著しく制限している。 本研究は, スマートフォンに直接NCA(Neural Cellular Automata)トレーニングを導入し, その課題に対処する。 われわれは、これらの高度なモデルを5つのAndroidデバイスにデプロイし、訓練し、医療診断アクセシビリティを改善し、医療画像における機械学習の利点を低所得国(LMICs)に広げるために、技術分割をブリッジすることの実用性と実現可能性を確認した。 さらに,複数のNAA予測からばらつきを最小化し,ラベルのないデータから効率よく学習する,VWSL(Variance-Weighted Segmentation Loss)を用いた教師なし適応手法により,このアプローチをさらに強化する。 この戦略は、広範囲の計算リソースやラベル付きデータセットを必要とせずに、様々な医療画像コンテキストにおけるモデル適応性とパフォーマンスを改善し、効果的に参加閾値を下げる。 私たちの手法は、3つのマルチサイトX線データセット(Padchest、ChestX-ray8、MIMIC-III)で検証され、古典的なMed-NCAと比較してセグメンテーションDiceの精度が0.7から2.8%向上したことを示す。 さらに、デジタルコピーが入手できず、X線ライトボックスやモニターから撮影しなければならない極端なケースでは、VWSLはDiceの精度を5-20%向上させ、最適な画像ソースであってもその手法の堅牢性を示す。

The disparity in access to machine learning tools for medical imaging across different regions significantly limits the potential for universal healthcare innovation, particularly in remote areas. Our research addresses this issue by implementing Neural Cellular Automata (NCA) training directly on smartphones for accessible X-ray lung segmentation. We confirm the practicality and feasibility of deploying and training these advanced models on five Android devices, improving medical diagnostics accessibility and bridging the tech divide to extend machine learning benefits in medical imaging to low- and middle-income countries (LMICs). We further enhance this approach with an unsupervised adaptation method using the novel Variance-Weighted Segmentation Loss (VWSL), which efficiently learns from unlabeled data by minimizing the variance from multiple NCA predictions. This strategy notably improves model adaptability and performance across diverse medical imaging contexts without the need for extensive computational resources or labeled datasets, effectively lowering the participation threshold. Our methodology, tested on three multisite X-ray datasets -- Padchest, ChestX-ray8, and MIMIC-III -- demonstrates improvements in segmentation Dice accuracy by 0.7 to 2.8%, compared to the classic Med-NCA. Additionally, in extreme cases where no digital copy is available and images must be captured by a phone from an X-ray lightbox or monitor, VWSL enhances Dice accuracy by 5-20%, demonstrating the method's robustness even with suboptimal image sources.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# ターゲットスペーサー化による変圧器による文埋め込みにおける言語情報追跡

Tracking linguistic information in transformer-based sentence embeddings through targeted sparsification ( http://arxiv.org/abs/2407.18119v1 )

ライセンス: Link先を確認
Vivi Nastase, Paola Merlo, (参考訳) トランスフォーマーモデルの解析により、テキスト入力から様々な言語情報をエンコードしていることが示されている。 これらの分析は、一方の言語情報と他方の内的構造とパラメータの関係に光を当てているが、疑問が残る:この言語情報はどのように文の埋め込みに反映されているか? 既知の構造を持つ文からなるデータセットを用いて、文法的数や意味的役割などのチャンクに関する情報(特に名詞、動詞、前置詞句)が、文の埋め込みの中でどの程度に局所化できるかをテストする。 以上の結果から,これらの情報は文の埋め込み全体に分散するのではなく,特定の領域にエンコードされていることが明らかとなった。 入力テキストからの情報が文の埋め込みにどのように圧縮されるかを理解することは、現在のトランスフォーマーモデルを理解し、将来の説明可能なニューラルモデルを構築するのに役立つ。

Analyses of transformer-based models have shown that they encode a variety of linguistic information from their textual input. While these analyses have shed a light on the relation between linguistic information on one side, and internal architecture and parameters on the other, a question remains unanswered: how is this linguistic information reflected in sentence embeddings? Using datasets consisting of sentences with known structure, we test to what degree information about chunks (in particular noun, verb or prepositional phrases), such as grammatical number, or semantic role, can be localized in sentence embeddings. Our results show that such information is not distributed over the entire sentence embedding, but rather it is encoded in specific regions. Understanding how the information from an input text is compressed into sentence embeddings helps understand current transformer models and help build future explainable neural models.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# 弾性キャッシュを用いた視覚指示追従モデルの効率的な推論

Efficient Inference of Vision Instruction-Following Models with Elastic Cache ( http://arxiv.org/abs/2407.18121v1 )

ライセンス: Link先を確認
Zuyan Liu, Benlin Liu, Jiahui Wang, Yuhao Dong, Guangyi Chen, Yongming Rao, Ranjay Krishna, Jiwen Lu, (参考訳) 命令追従型大規模視覚言語モデル(LVLM)の分野では、これらのモデルの効率的なデプロイは、特にキー値(KV)キャッシュの高メモリ要求のため、課題に直面している。 LLMの従来のキャッシュ管理戦略はキャッシュの排除に重点を置いており、マルチモーダル命令追従モデルの特定のニーズに対処できないことが多い。 本稿では、このギャップを認識して、命令エンコーディングと出力生成の段階に異なるアクセラレーション手法を適用することによる、新しいアプローチであるElastic Cacheを紹介する。 異なる段階における重要度の測定値について検討し、冗長性キャッシュを創出するための重要度駆動型キャッシュマージ戦略を提案する。 重要でないキャッシュを捨てるのではなく、重要なキー/値ベクトルをアンカーポイントとして識別する。 その後、あまり重要でないキャッシュをこれらのアンカーにマージし、任意の加速度比を確保しながら、KVキャッシュ内のコンテキスト情報の保存を強化する。 命令符号化では,キャッシュの重要性を評価するために周波数を利用する。 出力生成に関しては、初期トークンと最新のトークンの両方が保持されるオフセットで、その距離に基づいてトークンを優先順位付けする。 様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、様々なタスクにわたる言語生成における既存のプルーニングメソッドよりも優れていることを示している。 コードはhttps://github.com/liuzuyan/ElasticCacheで入手できる。

In the field of instruction-following large vision-language models (LVLMs), the efficient deployment of these models faces challenges, notably due to the high memory demands of their key-value (KV) caches. Conventional cache management strategies for LLMs focus on cache eviction, which often fails to address the specific needs of multimodal instruction-following models. Recognizing this gap, in this paper, we introduce Elastic Cache, a novel approach that benefits from applying distinct acceleration methods for instruction encoding and output generation stages. We investigate the metrics of importance in different stages and propose an importance-driven cache merging strategy to prune redundancy caches. Instead of discarding less important caches, our strategy identifies important key/value vectors as anchor points. Surrounding less important caches are then merged with these anchors, enhancing the preservation of contextual information in the KV caches while yielding an arbitrary acceleration ratio. For instruction encoding, we utilize the frequency to evaluate the importance of caches. Regarding output generation, we prioritize tokens based on their distance with an offset, by which both the initial and most recent tokens are retained. Results on a range of LVLMs demonstrate that Elastic Cache not only boosts efficiency but also notably outperforms existing pruning methods in language generation across various tasks. Code is available at https://github.com/liuzuyan/ElasticCache
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# 拡散モデルを用いたX線画像における少数ショットランドマーク検出のための自己教師付き事前学習

Self-supervised pre-training with diffusion model for few-shot landmark detection in x-ray images ( http://arxiv.org/abs/2407.18125v1 )

ライセンス: Link先を確認
Roberto Di Via, Francesca Odone, Vito Paolo Pastore, (参考訳) ここ数年、ディープニューラルネットワークは、画像分類やセグメンテーションからランドマーク検出まで、さまざまなタスクのために医療領域に広く適用されてきた。 しかし、医療分野におけるこれらの技術の応用は、利用可能なアノテーションと画像の両方において、データの不足によってしばしば妨げられる。 本研究では,X線画像のランドマーク検出のための拡散モデルに基づく自己教師付き事前学習プロトコルを提案する。 提案した自己教師付きフレームワークは,利用可能なアノテート画像の最小数(最大50)で正確なランドマーク検出が可能であり,ImageNetの教師付き事前トレーニングおよび3つの人気のあるX線ベンチマークデータセットに対する最先端の自己教師付き事前トレーニングよりも優れていた。 我々の知る限り、これはランドマーク検出における自己教師型学習のための拡散モデルの最初の探索であり、データの不足を緩和するために、少数の状況下で貴重な事前学習アプローチを提供する可能性がある。

In the last few years, deep neural networks have been extensively applied in the medical domain for different tasks, ranging from image classification and segmentation to landmark detection. However, the application of these technologies in the medical domain is often hindered by data scarcity, both in terms of available annotations and images. This study introduces a new self-supervised pre-training protocol based on diffusion models for landmark detection in x-ray images. Our results show that the proposed self-supervised framework can provide accurate landmark detection with a minimal number of available annotated training images (up to 50), outperforming ImageNet supervised pre-training and state-of-the-art self-supervised pre-trainings for three popular x-ray benchmark datasets. To our knowledge, this is the first exploration of diffusion models for self-supervised learning in landmark detection, which may offer a valuable pre-training approach in few-shot regimes, for mitigating data scarcity.
翻訳日:2024-07-26 13:39:06 公開日:2024-07-25
# タイターパラメタライズドモノガミー関係

Tighter parameterized monogamy relations ( http://arxiv.org/abs/2407.18127v1 )

ライセンス: Link先を確認
Yue Cao, Naihuan Jing, Kailash Misra, Yiling Wang, (参考訳) 我々は、多部量子系におけるある測度に対する一夫一婦関係を表現するための体系的な締め付け方法を模索する。 パラメタライズド境界の族を導入することにより、最近発見された関係と比較して、モノガミー関係のより厳密な下限が得られる。 我々は、なぜ境界が良いのかを説明するための詳細な例を提示する。

We seek a systematic tightening method to represent the monogamy relation for some measure in multipartite quantum systems. By introducing a family of parametrized bounds, we obtain tighter lowering bounds for the monogamy relation compared with the most recently discovered relations. We provide detailed examples to illustrate why our bounds are better.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# センチネル-1画像のランク付けによる地震マグニチュードの推定

Estimating Earthquake Magnitude in Sentinel-1 Imagery via Ranking ( http://arxiv.org/abs/2407.18128v1 )

ライセンス: Link先を確認
Daniele Rege Cambrin, Isaac Corley, Paolo Garza, Peyman Najafirad, (参考訳) 地震は一般に物理地震観測所を用いて推定されるが、これらの駅の設置要件とコストのため、世界的なカバー範囲は急速に非現実的になる。 効率的で低コストな代替手段は、地球観測データを世界規模で監視する機械学習モデルを開発し、これらの自然災害の影響を受けやすい領域に配置することである。 しかし, 歴史的に記録された地震の量が少なかったため, 地震の規模を縮小する学習において, ピーク性能を達成するために, アルゴリズム改良を必要とする低データ構造問題となる。 本稿では, 地震の規模を計量学習問題として推定し, センチネル-1衛星画像から地震の規模を推定するだけでなく, 対角サンプルのランク付けを行うためのトレーニングモデルを提案する。 実験の結果,従来の回帰のみに基づく手法,特にトランスフォーマーに基づくアーキテクチャに比べて,最大30%以上のMAEの改善が見られた。

Earthquakes are commonly estimated using physical seismic stations, however, due to the installation requirements and costs of these stations, global coverage quickly becomes impractical. An efficient and lower-cost alternative is to develop machine learning models to globally monitor earth observation data to pinpoint regions impacted by these natural disasters. However, due to the small amount of historically recorded earthquakes, this becomes a low-data regime problem requiring algorithmic improvements to achieve peak performance when learning to regress earthquake magnitude. In this paper, we propose to pose the estimation of earthquake magnitudes as a metric-learning problem, training models to not only estimate earthquake magnitude from Sentinel-1 satellite imagery but to additionally rank pairwise samples. Our experiments show at max a 30%+ improvement in MAE over prior regression-only based methods, particularly transformer-based architectures.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# Dallah: アラビア語の対話型マルチモーダル大言語モデル

Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic ( http://arxiv.org/abs/2407.18129v1 )

ライセンス: Link先を確認
Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed, (参考訳) 近年,画像からテキストコンテンツの生成・理解において,MLLM(Multimodal Large Language Models)の能力が大幅に向上している。 これらの成功にもかかわらず、他の言語で高品質なマルチモーダルリソースが不足しているため、進歩は英語に限られている。 この制限はアラビア語などの言語における競争モデルの発展を妨げる。 この状況を緩和するために,LLaMA-2に基づく先進言語モデルを用いて多モーダルインタラクションを容易にする,効率の良いアラビア多モーダルアシスタントであるDallahを導入する。 Dallah氏はアラビア語のMLLMで最先端のパフォーマンスをデモしている。 ダッラーは6つのアラビア方言を微調整することで、テキスト要素と視覚要素の両方を取り入れた複雑な方言の相互作用を扱う能力を示した。 このモデルは2つのベンチマークテストで優れており、1つは現代標準アラビア語(MSA)の性能を評価するもので、もう1つは方言の反応を評価するために特別に設計されたものである。 マルチモーダルな相互作用タスクにおける堅牢なパフォーマンスに加えて、ダッラーは方言を意識したアラビア・MLLMのさらなる発展の道を開くことができる。

Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# $\mathbb{X}$-Sample Contrastive Loss: サンプル類似グラフによるコントラスト学習の改善

$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs ( http://arxiv.org/abs/2407.18134v1 )

ライセンス: Link先を確認
Vlad Sobal, Mark Ibrahim, Randall Balestriero, Vivien Cabannes, Diane Bouchacourt, Pietro Astolfi, Kyunghyun Cho, Yann LeCun, (参考訳) 優れた表現を学ぶには、データサンプルが関係するさまざまな方法を取得する必要がある。 コントラスト損失(Contrastive Los) - 自己管理からマルチモーダル学習への手法を、客観的にマッチングするサンプル。 しかし、対照的な損失は、サンプルが埋め込み空間にどのように関係するかを示す類似性グラフを変更するものとして、より広範に見ることができる。 この見解は対照的な学習の欠点を明らかにしている:類似性グラフは二項であり、1つのサンプルのみが関連する正のサンプルであるからである。 重要な点として、類似性 \textit{across} サンプルは無視される。 この観察に基づいて、サンプルが他とどのように関連しているかを明示的に符号化するために、標準のコントラスト損失を補正する。 我々はこの新たな目的である$\mathbb{X}$-Sample Contrastiveを試行し、クラスやテキストキャプションの記述の類似性に基づいて視覚モデルを訓練する。 ImageNet-1kは100万、CC3Mは300万、CC12Mは1200万である。 目的によって学習された表現は、さまざまなタスクで同じデータで訓練された対照的な自己監督モデルと視覚言語モデルの両方より優れています。 CC12Mでのトレーニングでは、ImageNetとImageNet Realの両方でCLIPを$0.6\%で上回ります。 CC3Mでトレーニングすると、ImageNetでCLIPが$16.8\%、ImageNet Realで$18.1\%だった。 最後に、私たちの目標は、モデルが属性や背景からオブジェクトを分離する表現を学ぶことを奨励しているように思える。 提案手法は,基礎モデルにおけるサンプル関係を理解するために,よりリッチな学習目標の開発に向けて,少しの一歩を踏み出したいと願っている。

Learning good representations involves capturing the diverse ways in which data samples relate. Contrastive loss - an objective matching related samples - underlies methods from self-supervised to multimodal learning. Contrastive losses, however, can be viewed more broadly as modifying a similarity graph to indicate how samples should relate in the embedding space. This view reveals a shortcoming in contrastive learning: the similarity graph is binary, as only one sample is the related positive sample. Crucially, similarities \textit{across} samples are ignored. Based on this observation, we revise the standard contrastive loss to explicitly encode how a sample relates to others. We experiment with this new objective, called $\mathbb{X}$-Sample Contrastive, to train vision models based on similarities in class or text caption descriptions. Our study spans three scales: ImageNet-1k with 1 million, CC3M with 3 million, and CC12M with 12 million samples. The representations learned via our objective outperform both contrastive self-supervised and vision-language models trained on the same data across a range of tasks. When training on CC12M, we outperform CLIP by $0.6\%$ on both ImageNet and ImageNet Real. Our objective appears to work particularly well in lower-data regimes, with gains over CLIP of $16.8\%$ on ImageNet and $18.1\%$ on ImageNet Real when training with CC3M. Finally, our objective seems to encourage the model to learn representations that separate objects from their attributes and backgrounds, with gains of $3.3$-$5.6$\% over CLIP on ImageNet9. We hope the proposed solution takes a small step towards developing richer learning objectives for understanding sample relations in foundation models.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# XS-VID:超小型ビデオオブジェクト検出データセット

XS-VID: An Extremely Small Video Object Detection Dataset ( http://arxiv.org/abs/2407.18137v1 )

ライセンス: Link先を確認
Jiahao Guo, Ziyang Xu, Lianjun Wu, Fei Gao, Wenyu Liu, Xinggang Wang, (参考訳) SVOD(Small Video Object Detection)は、現代のコンピュータビジョンにおいて重要なサブフィールドであり、早期発見と検出に必須である。 しかし、既存のSVODデータセットは乏しく、不十分な小さなオブジェクト、限られたオブジェクトカテゴリ、シーンの多様性の欠如といった問題に悩まされており、対応するメソッドに対する一元的なアプリケーションシナリオにつながっている。 このギャップに対処するために、様々な期間や場面の航空データを含むXS-VIDデータセットを開発し、8つの主要な対象カテゴリに注釈を付ける。 XS-VIDは、非常に小さなオブジェクトを検出する既存の方法を評価するために、非常に小さな(\textit{es}, $0\sim12^2$)、比較的小さな(\textit{rs}, $112^2\sim20^2$)、一般に小さい(\textit{gs}, 20^2\sim32^2$)の3種類のオブジェクトを広範囲に収集する。 XS-VIDは、極小天体のカバーと定量化において前例のない幅と深さを提供し、データセットのシーンとオブジェクトの多様性を著しく高めている。 XS-VIDと一般公開されているVisDrone2019VIDデータセットの大規模な検証は、既存の手法が小さな物体の検出に苦しむとともに、一般的な物体検出器と比較して著しく性能が劣っていることを示している。 従来の手法の強みを生かし,その弱さに対処し,局所的特徴関連性を高め,時間的運動特徴を統合し,SVODの精度と安定性を大幅に向上させるYOLOFTを提案する。 データセットとベンチマークは \url{https://gjhhust.github.io/XS-VID/} で公開しています。

Small Video Object Detection (SVOD) is a crucial subfield in modern computer vision, essential for early object discovery and detection. However, existing SVOD datasets are scarce and suffer from issues such as insufficiently small objects, limited object categories, and lack of scene diversity, leading to unitary application scenarios for corresponding methods. To address this gap, we develop the XS-VID dataset, which comprises aerial data from various periods and scenes, and annotates eight major object categories. To further evaluate existing methods for detecting extremely small objects, XS-VID extensively collects three types of objects with smaller pixel areas: extremely small (\textit{es}, $0\sim12^2$), relatively small (\textit{rs}, $12^2\sim20^2$), and generally small (\textit{gs}, $20^2\sim32^2$). XS-VID offers unprecedented breadth and depth in covering and quantifying minuscule objects, significantly enriching the scene and object diversity in the dataset. Extensive validations on XS-VID and the publicly available VisDrone2019VID dataset show that existing methods struggle with small object detection and significantly underperform compared to general object detectors. Leveraging the strengths of previous methods and addressing their weaknesses, we propose YOLOFT, which enhances local feature associations and integrates temporal motion features, significantly improving the accuracy and stability of SVOD. Our datasets and benchmarks are available at \url{https://gjhhust.github.io/XS-VID/}.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# IRIS:視覚ベースのスマートホームインタラクションのためのワイヤレスリング

IRIS: Wireless Ring for Vision-based Smart Home Interaction ( http://arxiv.org/abs/2407.18141v1 )

ライセンス: Link先を確認
Maruchi Kim, Antonio Glenn, Bandhav Veluri, Yunseo Lee, Eyoel Gebre, Aditya Bagaria, Shwetak Patel, Shyamnath Gollakota, (参考訳) カメラをワイヤレスのスマートリングに統合することは、サイズと電力の制約により困難である。 IRISは、スマートホームインタラクションのための初のワイヤレスビジョン対応スマートリングシステムである。 カメラ、Bluetoothラジオ、慣性測定ユニット(IMU)、搭載バッテリーを備えたIRISは、リングデバイスの小型、軽量、パワー(SWaP)要件を満たす。 IRISはコンテキスト対応で、検出されたデバイスにジェスチャーセットを適応し、1回の充電で16~24時間持続できる。 IRISはシーンセマンティクスを利用してインスタンスレベルのデバイス認識を実現する。 23人の参加者を対象とした調査では、IRISは音声コマンドを一貫して上回り、デバイスの状態、粒度制御、社会的受容性に関する音声コマンドよりもIRISを優先的に表現する参加者の割合が高い。 我々の研究は、リングフォームファクターデバイスでできることの境界を押し上げ、システムの課題に対処し、新しい相互作用能力を開く。

Integrating cameras into wireless smart rings has been challenging due to size and power constraints. We introduce IRIS, the first wireless vision-enabled smart ring system for smart home interactions. Equipped with a camera, Bluetooth radio, inertial measurement unit (IMU), and an onboard battery, IRIS meets the small size, weight, and power (SWaP) requirements for ring devices. IRIS is context-aware, adapting its gesture set to the detected device, and can last for 16-24 hours on a single charge. IRIS leverages the scene semantics to achieve instance-level device recognition. In a study involving 23 participants, IRIS consistently outpaced voice commands, with a higher proportion of participants expressing a preference for IRIS over voice commands regarding toggling a device's state, granular control, and social acceptability. Our work pushes the boundary of what is possible with ring form-factor devices, addressing system challenges and opening up novel interaction capabilities.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# エントロピーアドバンテージ推定による最大エントロピーオンポリシィアクター臨界

Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation ( http://arxiv.org/abs/2407.18143v1 )

ライセンス: Link先を確認
Jean Seong Bjorn Choe, Jong-Kook Kim, (参考訳) エントロピー規則化(Entropy Regularization)は、政策最適化のパフォーマンスと安定性を高める広く採用されている手法である。 エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。 最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。 しかし、政治上のアクター批判的設定における実践的応用は、驚くほど過小評価されている。 これは、実際にはエントロピー報酬を管理するのが難しいためである、という仮説を立てる。 本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。 MaxEnt フレームワーク内で PPO と TRPO を拡張することで, MuJoCo と Procgen の両タスクにおける政策最適化性能が向上することを示す。 さらに, 一般化を促進するMaxEnt RLの能力についても検討した。

Entropy Regularisation is a widely adopted technique that enhances policy optimisation performance and stability. A notable form of entropy regularisation is augmenting the objective with an entropy term, thereby simultaneously optimising the expected return and the entropy. This framework, known as maximum entropy reinforcement learning (MaxEnt RL), has shown theoretical and empirical successes. However, its practical application in straightforward on-policy actor-critic settings remains surprisingly underexplored. We hypothesise that this is due to the difficulty of managing the entropy reward in practice. This paper proposes a simple method of separating the entropy objective from the MaxEnt RL objective, which facilitates the implementation of MaxEnt RL in on-policy settings. Our empirical evaluations demonstrate that extending Proximal Policy Optimisation (PPO) and Trust Region Policy Optimisation (TRPO) within the MaxEnt framework improves policy optimisation performance in both MuJoCo and Procgen tasks. Additionally, our results highlight MaxEnt RL's capacity to enhance generalisation.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# オープンワールド認知のための双曲空間における分類学-連続的セマンティックセマンティックセグメンテーション

Taxonomy-Aware Continual Semantic Segmentation in Hyperbolic Spaces for Open-World Perception ( http://arxiv.org/abs/2407.18145v1 )

ライセンス: Link先を確認
Julia Hindel, Daniele Cattaneo, Abhinav Valada, (参考訳) セマンティックセグメンテーションモデルは通常、固定されたクラスのセットでトレーニングされ、オープンワールドシナリオにおける適用性を制限する。 クラスインクリメンタルセマンティックセグメンテーションは、新しくなったクラスでモデルを更新することを目的としている。 しかし、既存の手法は古いクラスに厳格な厳格さを課し、新しいインクリメンタルクラスを学ぶ上での有効性を低下させる。 本研究では, 明らかに分類木構造に従って, 双曲空間における特徴埋め込みを学習するTOPICS(Taxonomy-Oriented Poincar\'e-regularized Incremental-Class Segmentation)を提案する。 この監督は、古いクラスに対して可塑性を提供し、新しいクラスに基づいて祖先を更新し、新しいクラスを適合位置で統合する。 さらに、ポアンカーの球面の幾何学的根拠に基づいて、暗黙的なクラス関係の制約を維持できる。 これにより、潜在空間は新しい制約に継続的に適応しつつ、破滅的な忘れ物と戦う頑丈な構造を維持することができる。 また、自律走行シナリオのための8つの現実的なインクリメンタル学習プロトコルを構築し、新しいクラスは既知のクラスやバックグラウンドから生まれることができる。 CityscapesとMapillary Vistas 2.0ベンチマークにおけるTOPICSの大規模な評価は、最先端のパフォーマンスを実現していることを示している。 コードとトレーニングされたモデルをhttp://topics.cs.uni-freiburg.deで公開しています。

Semantic segmentation models are typically trained on a fixed set of classes, limiting their applicability in open-world scenarios. Class-incremental semantic segmentation aims to update models with emerging new classes while preventing catastrophic forgetting of previously learned ones. However, existing methods impose strict rigidity on old classes, reducing their effectiveness in learning new incremental classes. In this work, we propose Taxonomy-Oriented Poincar\'e-regularized Incremental-Class Segmentation (TOPICS) that learns feature embeddings in hyperbolic space following explicit taxonomy-tree structures. This supervision provides plasticity for old classes, updating ancestors based on new classes while integrating new classes at fitting positions. Additionally, we maintain implicit class relational constraints on the geometric basis of the Poincar\'e ball. This ensures that the latent space can continuously adapt to new constraints while maintaining a robust structure to combat catastrophic forgetting. We also establish eight realistic incremental learning protocols for autonomous driving scenarios, where novel classes can originate from known classes or the background. Extensive evaluations of TOPICS on the Cityscapes and Mapillary Vistas 2.0 benchmarks demonstrate that it achieves state-of-the-art performance. We make the code and trained models publicly available at http://topics.cs.uni-freiburg.de.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# The FIGNEWS Shared Task on News Media Narratives

The FIGNEWS Shared Task on News Media Narratives ( http://arxiv.org/abs/2407.18147v1 )

ライセンス: Link先を確認
Wajdi Zaghouani, Mustafa Jarrar, Nizar Habash, Houda Bouamor, Imed Zitouni, Mona Diab, Samhaa R. El-Beltagy, Muhammed AbuOdeh, (参考訳) ACL 2024と共同で開催されるアラビアNLP 2024会議の一環として組織されたFIGNEWS共有タスクの概要を紹介する。 共有タスクは多言語ニュース投稿におけるバイアスとプロパガンダアノテーションに対処する。 我々はイスラエル戦争初期のガザに関するケーススタディに焦点をあてる。 この課題は,潜在的な偏見とプロパガンダを強調した多様な物語を分析するためのフレームワークを作成することで,主観的タスクのためのガイドライン開発におけるコラボレーションを促進することを目的としている。 多様性を育み、奨励する精神において、我々は多言語の観点からこの問題に対処する:英語、フランス語、アラビア語、ヘブライ語、ヒンディー語。 合計17チームが、バイアス(16チーム)とプロパガンダ(6チーム)の2つのアノテーションサブタスクに参加した。 チームは、ガイドライン開発、アノテーションの品質、アノテーション量、一貫性の4つの評価トラックで競った。 合計して、チームは129,800のデータポイントを生成した。 この分野における重要な発見と意味について論じる。

We present an overview of the FIGNEWS shared task, organized as part of the ArabicNLP 2024 conference co-located with ACL 2024. The shared task addresses bias and propaganda annotation in multilingual news posts. We focus on the early days of the Israel War on Gaza as a case study. The task aims to foster collaboration in developing annotation guidelines for subjective tasks by creating frameworks for analyzing diverse narratives highlighting potential bias and propaganda. In a spirit of fostering and encouraging diversity, we address the problem from a multilingual perspective, namely within five languages: English, French, Arabic, Hebrew, and Hindi. A total of 17 teams participated in two annotation subtasks: bias (16 teams) and propaganda (6 teams). The teams competed in four evaluation tracks: guidelines development, annotation quality, annotation quantity, and consistency. Collectively, the teams produced 129,800 data points. Key findings and implications for the field are discussed.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# StraightLine: 機械学習アプリケーションリクエストのためのエンド・ツー・エンドのリソース・アウェア・スケジューリング

StraightLine: An End-to-End Resource-Aware Scheduler for Machine Learning Application Requests ( http://arxiv.org/abs/2407.18148v1 )

ライセンス: Link先を確認
Cheng-Wei Ching, Boyuan Guan, Hailu Xu, Liting Hu, (参考訳) 機械学習(ML)アプリケーションのライフサイクルは、モデル開発とモデルデプロイメントの2つのステージから構成される。 しかし、従来のMLシステム(トレーニング固有のシステムや推論固有のシステム)は、MLアプリケーションのライフサイクルの特定のステージまたはフェーズにフォーカスする。 これらのシステムは、モデルトレーニングの最適化やモデル推論の加速を目標としており、クラウドデータセンタやローカルサーバ、コンテナ、サーバレスプラットフォームなど、現実のシナリオを常に反映しているとは限りません。 StraightLineは、ハイブリッドインフラストラクチャにおけるさまざまなMLアプリケーションリクエストに対して最適なリソース(コンテナ、仮想マシン、サーバレスなど)をスケジュールする、エンドツーエンドのリソース対応スケジューラです。 鍵となるイノベーションは、ユニークな特徴(例えば、要求頻度、入力データサイズ、データ分散)に基づいてリクエストをインテリジェントに配置する経験的動的配置アルゴリズムである。 既存のMLシステムとは対照的に、StraightLineはエンドツーエンドのリソース対応の配置を提供しており、ハイブリッドインフラストラクチャで異なるコンピューティングリソースに直面する場合、モデルデプロイメントのレスポンス時間と失敗率を大幅に削減することができる。

The life cycle of machine learning (ML) applications consists of two stages: model development and model deployment. However, traditional ML systems (e.g., training-specific or inference-specific systems) focus on one particular stage or phase of the life cycle of ML applications. These systems often aim at optimizing model training or accelerating model inference, and they frequently assume homogeneous infrastructure, which may not always reflect real-world scenarios that include cloud data centers, local servers, containers, and serverless platforms. We present StraightLine, an end-to-end resource-aware scheduler that schedules the optimal resources (e.g., container, virtual machine, or serverless) for different ML application requests in a hybrid infrastructure. The key innovation is an empirical dynamic placing algorithm that intelligently places requests based on their unique characteristics (e.g., request frequency, input data size, and data distribution). In contrast to existing ML systems, StraightLine offers end-to-end resource-aware placement, thereby it can significantly reduce response time and failure rate for model deployment when facing different computing resources in the hybrid infrastructure.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# ArtA: スピン量子アーキテクチャの設計空間探索を自動化する

ArtA: Automating Design Space Exploration of Spin Qubit Architectures ( http://arxiv.org/abs/2407.18151v1 )

ライセンス: Link先を確認
Nikiforos Paraskevopoulos, David Hamel, Aritra Sarkar, Carmen G. Almudever, Sebastian Feld, (参考訳) 量子コンピューティングの分野では、量子プロセッサが様々な量子アルゴリズムで高い性能を達成できるようなアーキテクチャ的特徴を識別することが大きな課題である。 そこで本研究では,量子ドット型スピンキュービットアーキテクチャのためのDSE(Design Space Exploration)を提案する。 改良されたSpinQコンパイルフレームワークを用いて,29,312のスピンキュービットアーキテクチャからなる設計空間を探索し,設計空間を高速にするために,革新的な最適化ツールArtA(Artificial Architect)を適用した。 ArtAは17の最適化手法の構成を利用することができ、同じ結果の品質を維持しながら、従来のブルートフォースアプローチと比較して探索時間を最大99.1%削減できる。 量子回路毎の最適整合最適化構成の包括的な評価の後、ArtAは、より多くのクロストーク干渉を犠牲にして量子ゲートの並列化を最大化することの重要性を強調し、全ての試験回路で最適に動作する普遍的なアーキテクチャ特徴を提案する。

In the fast-paced field of quantum computing, identifying the architectural characteristics that will enable quantum processors to achieve high performance across a diverse range of quantum algorithms continues to pose a significant challenge. Given the extensive and costly nature of experimentally testing different designs, this paper introduces the first Design Space Exploration (DSE) for quantum-dot spin-qubit architectures. Utilizing the upgraded SpinQ compilation framework, this study explores a substantial design space comprising 29,312 spin-qubit-based architectures and applies an innovative optimization tool, ArtA (Artificial Architect), to speed up the design space traversal. ArtA can leverage seventeen optimization method configurations, significantly reducing exploration times by up to 99.1% compared to a traditional brute force approach while maintaining the same result quality. After a comprehensive evaluation of best-matching optimization configurations per quantum circuit, ArtA suggests universal architectural features that perform optimally across all examined circuits, emphasizing the importance of maximizing quantum gate parallelization at the expense of more crosstalk interference.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# 量子調和振動子における隠れオントロジーの変動

The Hidden Ontological Variable in Quantum Harmonic Oscillators ( http://arxiv.org/abs/2407.18153v1 )

ライセンス: Link先を確認
Gerard t Hooft, (参考訳) すべての量子調和振動子は、古典論理の観点から解釈できるような存在論的変数を持つ。 多くの量子モデルは量子調和振動子に基づいているため、この観測は量子力学の解釈方法の理解を深める道を開く可能性がある。

All quantum harmonic oscillators possess an ontological variable, which implies that they may be interpreted in terms of classical logic. Since many quantum models are based on quantum harmonic oscillators, this observation may open pathways towards a better understanding of how to interpret quantum mechanics.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# Test2VA: モバイルアプリケーションにおける音声アシスタント機能開発のためのGUIテストケースの再利用

Test2VA: Reusing GUI Test Cases for Voice Assistant Features Development in Mobile Applications ( http://arxiv.org/abs/2407.18155v1 )

ライセンス: Link先を確認
Garrett Weaver, Xue Qin, (参考訳) スマートフォンのVoice Assistant(VA)は、今や何百万人ものユーザーの間で非常に人気がある。 重要なトレンドは、ユーザがお気に入りのアプリのカスタマイズされたタスクを音声コントロールで実行できるようにする、カスタムVA埋め込みの台頭である。 しかし、そのような大きな需要により、VA開発におけるアプリ開発者をサポートする努力はほとんど行われていない。 さらに、多くのユーザ指向のVAコントロールアプローチは、開発者のプログラミング負担を増大させる。 本稿では,作業負荷の低減とコード効率の向上を目的として,アプリケーションのテストコードを再利用してVA開発を支援する新しいアプローチであるTest2VAを提案する。 特に、Test2VAはGUIテストコードからタスク完了パターンを抽出し、それから実行メソッドを生成して、一般的に同じタスクを実行する。 パターンを識別するために、Test2VAは突然変異に基づく探索を使用して、テストケースの可変GUIイベントを検出し、後にVAメソッドでパラメータ化する。 8つの実世界のアプリケーションから48のテストケースについて評価を行った。 結果は、Test2VAが48のオリジナルのテストケースから75.68%の修正可能なイベントを正しく検出し、33のメソッドを生成し、それらを正常に実行し、手動で検査することを示した。

Voice Assistant (VA) in smartphones has become very popular with millions of users nowadays. A key trend is the rise of custom VA embedding, which enables users to perform the customized tasks of their favorite app through voice control. However, with such a great demand, little effort has been made to support app developers in VA development. Moreover, many user-oriented VA control approaches even increase the programming burden on developers. To reduce the workload and improve code efficiency, in this paper, we propose a novel approach, Test2VA, that reuses the test code of an application to support its VA development. Specifically, Test2VA extracts the task completion pattern from the GUI test code and then generates an execution method to perform the same task in general. To identify the pattern, Test2VA uses a mutation-based exploration to detect the mutable GUI event in the test case and later parameterize it in the VA method. We conducted an evaluation on 48 test cases from eight real-world applications. The results show that Test2VA correctly detects 75.68% of the mutable events from 48 original test cases and then generates 33 methods and have them successfully executed and manually examined.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# パーソナライズされたプライバシを持つシャッフルモデルのためのプライバシー境界の強化

Enhanced Privacy Bound for Shuffle Model with Personalized Privacy ( http://arxiv.org/abs/2407.18157v1 )

ライセンス: Link先を確認
Yixuan Liu, Yuhan Liu, Li Xiong, Yujie Gu, Hong Chen, (参考訳) 差別化プライバシ(DP)のシャッフルモデル(shuffle model of Differential Privacy)は、ローカルユーザと中央データキュレーターの間の中間信頼サーバを導入する、強化されたプライバシプロトコルである。 これは、局所的にランダム化されたデータを匿名化しシャッフルすることで、中央のDP保証を著しく増幅する。 しかし、複雑なランダム化プロトコルのため、厳密なプライバシー境界の導出は難しい。 既存の作業の多くは、統一されたローカルプライバシ設定に重点を置いているが、この作業は、各ユーザがパーソナライズされたローカルプライバシを必要とする、より実践的な設定のために、中央のプライバシバウンドを導出することに焦点を当てている。 シャッフル後にプライバシをバインドするには、まず、各ユーザが近隣のデータポイントのクローンを生成する確率をキャプチャする必要がある。 第二に、近隣のデータセット上のクローン数の2つの分布の区別不可能性を定量化する必要がある。 既存の作業は、確率を不正確にキャプチャするか、近隣のデータセット間の不明瞭さを過小評価する。 そこで我々は,任意のDP機構に対してより汎用的で厳密な境界を持つ,より精密な解析法を開発した。 まず、確率化器固有の視点から仮説テストによってクローン生成確率を導出し、その確率をより正確に評価する。 第二に、$f$-DPのコンテキストにおいて、分散の凸性を利用してより厳密なプライバシー境界を達成する不明瞭性を分析する。 理論的および数値的な結果は、文献の既存の結果を著しく上回っていることを示している。

The shuffle model of Differential Privacy (DP) is an enhanced privacy protocol which introduces an intermediate trusted server between local users and a central data curator. It significantly amplifies the central DP guarantee by anonymizing and shuffling the local randomized data. Yet, deriving a tight privacy bound is challenging due to its complicated randomization protocol. While most existing work are focused on unified local privacy settings, this work focuses on deriving the central privacy bound for a more practical setting where personalized local privacy is required by each user. To bound the privacy after shuffling, we first need to capture the probability of each user generating clones of the neighboring data points. Second, we need to quantify the indistinguishability between two distributions of the number of clones on neighboring datasets. Existing works either inaccurately capture the probability, or underestimate the indistinguishability between neighboring datasets. Motivated by this, we develop a more precise analysis, which yields a general and tighter bound for arbitrary DP mechanisms. Firstly, we derive the clone-generating probability by hypothesis testing %from a randomizer-specific perspective, which leads to a more accurate characterization of the probability. Secondly, we analyze the indistinguishability in the context of $f$-DP, where the convexity of the distributions is leveraged to achieve a tighter privacy bound. Theoretical and numerical results demonstrate that our bound remarkably outperforms the existing results in the literature.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# 大規模言語モデルにおける一般化境界のデータポイントとしてのアンロックトークン

Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models ( http://arxiv.org/abs/2407.18158v1 )

ライセンス: Link先を確認
Sanae Lotfi, Yilun Kuang, Brandon Amos, Micah Goldblum, Marc Finzi, Andrew Gordon Wilson, (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、シーケンス内の次のトークンを予測するのに優れている。 最近の研究は、LLMの非空圧縮に基づく一般化境界を計算するが、この境界は10億パラメータスケールの大規模モデルでは空である。 さらに、これらのバウンダリは、低品質テキストを生成する圧縮モデルのバウンダリによる制限圧縮技術によって得られる。 さらに、これらの既存の境界の厳密性は、非IID成分トークンの数よりもトレーニングセット内のIDDドキュメントの数に依存し、未解決のポテンシャルはより厳密な境界に残される。 本研究では, LLM トレーニングセットにおける多数のトークンの恩恵を受ける一般化境界を導出するために, マルティンガレの性質を用いる。 データセットは文書よりもはるかに多くのトークンを含んでいるので、一般化は許容できるだけでなく、制約の少ない圧縮スキームの恩恵を受ける。 モナール行列、クロネッカー分解、後学習量子化により、LLaMA2-70B の LLM に対して非空一般化境界が得られる。 従来のアプローチとは異なり、我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。

Large language models (LLMs) with billions of parameters excel at predicting the next token in a sequence. Recent work computes non-vacuous compression-based generalization bounds for LLMs, but these bounds are vacuous for large models at the billion-parameter scale. Moreover, these bounds are obtained through restrictive compression techniques, bounding compressed models that generate low-quality text. Additionally, the tightness of these existing bounds depends on the number of IID documents in a training set rather than the much larger number of non-IID constituent tokens, leaving untapped potential for tighter bounds. In this work, we instead use properties of martingales to derive generalization bounds that benefit from the vast number of tokens in LLM training sets. Since a dataset contains far more tokens than documents, our generalization bounds not only tolerate but actually benefit from far less restrictive compression schemes. With Monarch matrices, Kronecker factorizations, and post-training quantization, we achieve non-vacuous generalization bounds for LLMs as large as LLaMA2-70B. Unlike previous approaches, our work achieves the first non-vacuous bounds for models that are deployed in practice and generate high-quality text.
翻訳日:2024-07-26 13:29:21 公開日:2024-07-25
# 統計的最適輸送

Statistical optimal transport ( http://arxiv.org/abs/2407.18163v1 )

ライセンス: Link先を確認
Sinho Chewi, Jonathan Niles-Weed, Philippe Rigollet, (参考訳) 本稿では,「エコール・デ・エティエ・ド・プロバビリット・デ・サン=フルールXLIX」の講義に基づいて,統計的最適輸送の分野を紹介する。

We present an introduction to the field of statistical optimal transport, based on lectures given at \'Ecole d'\'Et\'e de Probabilit\'es de Saint-Flour XLIX.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 開発者によるリファクタリングレコメンデーションのガイドライン作成のためのメトリクスの探索

In Search of Metrics to Guide Developer-Based Refactoring Recommendations ( http://arxiv.org/abs/2407.18169v1 )

ライセンス: Link先を確認
Mikel Robredo, Matteo Esposito, Fabio Palomba, Rafael Peñaloza, Valentina Lenarduzzi, (参考訳) コンテキスト。 ソースコードリファクタリングは、外部の振る舞いを損なうことなく、ソースコードの品質を改善するための確立されたアプローチである。 モチベーション。 文献ではリファクタリングの利点を説明しているが、実際にはその適用は、高いコストの時間、リソース割り当て、継続的な実行に必要な労力によって脅かされている。 開発者が関連するものとして感じているものに近いリファクタリングレコメンデーションを提供することで、実践におけるリファクタリングの広範な適用を支援し、優先順位付けの取り組みを促進することができる。 エイム。 本稿では,開発者によるリファクタリングレコメンデータの設計を促進することを目的として,リファクタリング操作の適用意欲を調査する指標に関する実証的研究を提案する。 私たちは、リファクタリングに対する開発者のモチベーションを説明し、製品とプロセスのメトリクスがこれらのモチベーションをどのように把握するかを調べます。 期待結果。 リファクタリングを行う開発者のモチベーションを把握する上で、製品とプロセスのメトリクスの価値を定量化し、開発者ベースのリファクタリングレコメンデータが使用するメトリクスのカタログを提供します。

Context. Source code refactoring is a well-established approach to improving source code quality without compromising its external behavior. Motivation. The literature described the benefits of refactoring, yet its application in practice is threatened by the high cost of time, resource allocation, and effort required to perform it continuously. Providing refactoring recommendations closer to what developers perceive as relevant may support the broader application of refactoring in practice and drive prioritization efforts. Aim. In this paper, we aim to foster the design of a developer-based refactoring recommender, proposing an empirical study into the metrics that study the developer's willingness to apply refactoring operations. We build upon previous work describing the developer's motivations for refactoring and investigate how product and process metrics may grasp those motivations. Expected Results. We will quantify the value of product and process metrics in grasping developers' motivations to perform refactoring, thus providing a catalog of metrics for developer-based refactoring recommenders to use.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# RIDA:不完全グラフのロバスト攻撃フレームワーク

RIDA: A Robust Attack Framework on Incomplete Graphs ( http://arxiv.org/abs/2407.18170v1 )

ライセンス: Link先を確認
Jianke Yu, Hanchen Wang, Chen Chen, Xiaoyang Wang, Wenjie Zhang, Ying Zhang, (参考訳) グラフニューラルネットワーク(GNN)はデータサイエンスにおいて不可欠だが、敵の攻撃の影響を受けやすくなっている。 研究者がより堅牢なGNNモデルを開発するのを助けるために、強力な攻撃モデルを基礎ベンチマークとして設計し、参照を導くことに重点を置くことが不可欠である。 敵対的な攻撃の中で、グレーボックス中毒は、その効果と制約の少ないために注目に値する。 これらの攻撃はGNNの更新データの再トレーニングの必要性を悪用し、これらのデータセットを摂動させることでパフォーマンスに影響を与える。 しかし、このギャップに対処するため、ロバスト不完全なディープアタックフレームワーク(RIDA)を導入する。 これは、不完全グラフに対する堅牢なグレーボックス中毒攻撃のための最初のアルゴリズムである。 提案手法は,3つの実世界のデータセットに対する9SOTAベースラインに対する拡張テストにより,不完全性や不完全性に対処する上で,RIDAが優れていることを示す。

Graph Neural Networks (GNNs) are vital in data science but are increasingly susceptible to adversarial attacks. To help researchers develop more robust GNN models, it's essential to focus on designing strong attack models as foundational benchmarks and guiding references. Among adversarial attacks, gray-box poisoning attacks are noteworthy due to their effectiveness and fewer constraints. These attacks exploit GNNs' need for retraining on updated data, thereby impacting their performance by perturbing these datasets. However, current research overlooks the real-world scenario of incomplete graphs.To address this gap, we introduce the Robust Incomplete Deep Attack Framework (RIDA). It is the first algorithm for robust gray-box poisoning attacks on incomplete graphs. The approach innovatively aggregates distant vertex information and ensures powerful data utilization.Extensive tests against 9 SOTA baselines on 3 real-world datasets demonstrate RIDA's superiority in handling incompleteness and high attack performance on the incomplete graph.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# Quasar-ViT: ハードウェア指向の量子化-視覚変換器のアーキテクチャ探索

Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers ( http://arxiv.org/abs/2407.18175v1 )

ライセンス: Link先を確認
Zhengang Li, Alec Lu, Yanyue Xie, Zhenglun Kong, Mengshu Sun, Hao Tang, Zhong Jia Xue, Peiyan Dong, Caiwen Ding, Yanzhi Wang, Xue Lin, Zhenman Fang, (参考訳) 視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。 しかし、ViTモデルはリソース制限されたエッジデバイスへの効率的なデプロイに計算集約的であることが多い。 本研究では、ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案し、精度を保ちながらハードウェア実装のための効率的なViTモデルを設計する。 第一に、Quasar-ViTは、我々の行単位で柔軟な混合精度量子化スキーム、混合精度重み絡み、およびスーパーネット層スケーリング技術を用いてスーパーネットを訓練する。 次に、ハードウェア遅延とリソースモデリングを統合した効率的なハードウェア指向探索アルゴリズムを適用し、異なる推論遅延ターゲットの下でスーパーネットから最適なサブネットのシリーズを決定する。 最後に,FPGAプラットフォーム上でのモデル適応設計を提案し,アーキテクチャ探索を支援し,理論計算の削減と実用的な推論高速化のギャップを緩和する。 AMD/Xilinx ZCU102 FPGAの101.5, 159.6, 251.6フレーム/秒 (FPS) 推定速度は80.4%, 78.6%, 74.9%, ImageNetデータセットでは74.9%であった。

Vision transformers (ViTs) have demonstrated their superior accuracy for computer vision tasks compared to convolutional neural networks (CNNs). However, ViT models are often computation-intensive for efficient deployment on resource-limited edge devices. This work proposes Quasar-ViT, a hardware-oriented quantization-aware architecture search framework for ViTs, to design efficient ViT models for hardware implementation while preserving the accuracy. First, Quasar-ViT trains a supernet using our row-wise flexible mixed-precision quantization scheme, mixed-precision weight entanglement, and supernet layer scaling techniques. Then, it applies an efficient hardware-oriented search algorithm, integrated with hardware latency and resource modeling, to determine a series of optimal subnets from supernet under different inference latency targets. Finally, we propose a series of model-adaptive designs on the FPGA platform to support the architecture search and mitigate the gap between the theoretical computation reduction and the practical inference speedup. Our searched models achieve 101.5, 159.6, and 251.6 frames-per-second (FPS) inference speed on the AMD/Xilinx ZCU102 FPGA with 80.4%, 78.6%, and 74.9% top-1 accuracy, respectively, for the ImageNet dataset, consistently outperforming prior works.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 因果ダイヤモンドのコンフォーマル量子力学:経路積分関数による時間発展と熱性

Conformal quantum mechanics of causal diamonds: Time evolution and thermality via path integral functionals ( http://arxiv.org/abs/2407.18177v1 )

ライセンス: Link先を確認
H. E. Camblong, A. Chakraborty, P. Lopez-Duque, C. Ordóñez, (参考訳) 有限寿命の $\mathcal{T}$ の観測者は、ミンコフスキー真空を温度 $T_D = 2 \hbar/(\pi \mathcal{T})$ の熱状態として知覚する。 本稿では、デ・アルファロ・フビニ・フルランモデルと一般化の中で、(0+1)次元の共形場理論として共形量子力学(CQM)の対称性が果たす役割から、因果ダイヤモンドの温度の出現を考察する。 この文脈において、CQM の SO(2,1) 対称性の双曲作用素 $S$ は、ダイヤモンド観測者の時間発展の生成であり、その動的挙動は予測された熱的性質をもたらす。 提案手法は, 半古典的議論によって補足された標準およびマイクロカノニカル形式のCQMジェネレータの経路積分表現の包括的枠組みに基づく。 作用素 $S$ の性質は、対応する楕円作用素 $R$ との双対性に重点を置いて研究され、実効スケール不変の逆二乗ポテンシャルと逆調和振動子ポテンシャルとを組み合わせて表現する。

An observer with a finite lifetime $\mathcal{T}$ perceives the Minkowski vacuum as a thermal state at temperature $T_D = 2 \hbar/(\pi \mathcal{T})$, as a result of being constrained to a double-coned-shaped region known as a causal diamond. In this paper, we explore the emergence of thermality in causal diamonds due to the role played by the symmetries of conformal quantum mechanics (CQM) as a (0+1)-dimensional conformal field theory, within the de Alfaro-Fubini-Furlan model and generalizations. In this context, the hyperbolic operator $S$ of the SO(2,1) symmetry of CQM is the generator of the time evolution of a diamond observer, and its dynamical behavior leads to the predicted thermal nature. Our approach is based on a comprehensive framework of path-integral representations of the CQM generators in canonical and microcanonical forms, supplemented by semiclassical arguments. The properties of the operator $S$ are studied with emphasis on an operator duality with the corresponding elliptic operator $R$, using a representation in terms of an effective scale-invariant inverse square potential combined with inverted and ordinary harmonic oscillator potentials.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# PianoMime:インターネットのデモからジェネラリスト、Dexterous Piano Playerを学ぶ

PianoMime: Learning a Generalist, Dexterous Piano Player from Internet Demonstrations ( http://arxiv.org/abs/2407.18178v1 )

ライセンス: Link先を確認
Cheng Qian, Julen Urain, Kevin Zakka, Jan Peters, (参考訳) そこで本研究では,インターネットデモを用いたピアノ演奏エージェントのトレーニングフレームワークであるPianoMimeを紹介する。 インターネットは、ロボットエージェントを訓練するための大規模なデモの、有望な情報源だ。 特にピアノ演奏の場合、Youtubeはプロのピアニストが無数の曲を弾くビデオでいっぱいだ。 本研究では,任意の曲を演奏できるジェネラリストピアノ演奏エージェントを学習するために,これらのデモを活用している。 本フレームワークは,Youtubeビデオから情報的特徴を抽出するデータ作成フェーズ,デモから歌固有の専門家ポリシーを訓練するポリシー学習フェーズ,政策を1つのジェネラリストエージェントに分解するポリシー蒸留フェーズの3つに分けられる。 エージェントを表現するための異なるポリシー設計を探索し、データセットにない新曲に対するエージェントの一般化能力に対するトレーニングデータの量の影響を評価する。 56\%のF1スコアを持つポリシーを、目に見えない曲で学習できることを示します。

In this work, we introduce PianoMime, a framework for training a piano-playing agent using internet demonstrations. The internet is a promising source of large-scale demonstrations for training our robot agents. In particular, for the case of piano-playing, Youtube is full of videos of professional pianists playing a wide myriad of songs. In our work, we leverage these demonstrations to learn a generalist piano-playing agent capable of playing any arbitrary song. Our framework is divided into three parts: a data preparation phase to extract the informative features from the Youtube videos, a policy learning phase to train song-specific expert policies from the demonstrations and a policy distillation phase to distil the policies into a single generalist agent. We explore different policy designs to represent the agent and evaluate the influence of the amount of training data on the generalization capability of the agent to novel songs not available in the dataset. We show that we are able to learn a policy with up to 56\% F1 score on unseen songs.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 共同グラフ学習を用いた単セルトランスクリプトーム変換器の遺伝子制御ネットワーク推定

Gene Regulatory Network Inference from Pre-trained Single-Cell Transcriptomics Transformer with Joint Graph Learning ( http://arxiv.org/abs/2407.18181v1 )

ライセンス: Link先を確認
Sindhura Kommu, Yizhi Wang, Yue Wang, Xuan Wang, (参考訳) 単一細胞RNAシークエンシング(scRNA-seq)データから遺伝子制御ネットワーク(GRN)を推定することは、遺伝子とそれらの制御相互作用の間の複雑な関係を捉えなければならない複雑な課題である。 本研究では,単一セルBERTをベースとした事前学習型トランスフォーマモデル(scBERT)を用いて,既存のGRNから構造化された生物学的知識を増強する。 本稿では,事前学習した単一セル言語モデルから学習した豊富な文脈表現と,グラフニューラルネットワーク(GNN)を用いてGRNに符号化された構造化知識を組み合わせた,新しい共同グラフ学習手法を提案する。 これらの2つのモダリティを統合することにより、cRNA-seqデータによって提供される遺伝子発現レベルの制約と、GRNに固有の構造的生物学的知識の両方を効果的に原因付けることができる。 本手法は,BEELINEによる細胞型特異的な地層真理ネットワークを用いたヒト細胞ベンチマークデータセットを用いて評価する。 その結果、現在の最先端ベースラインよりも優れた性能を示し、細胞制御機構のより深い理解を提供することができた。

Inferring gene regulatory networks (GRNs) from single-cell RNA sequencing (scRNA-seq) data is a complex challenge that requires capturing the intricate relationships between genes and their regulatory interactions. In this study, we tackle this challenge by leveraging the single-cell BERT-based pre-trained transformer model (scBERT), trained on extensive unlabeled scRNA-seq data, to augment structured biological knowledge from existing GRNs. We introduce a novel joint graph learning approach that combines the rich contextual representations learned by pre-trained single-cell language models with the structured knowledge encoded in GRNs using graph neural networks (GNNs). By integrating these two modalities, our approach effectively reasons over boththe gene expression level constraints provided by the scRNA-seq data and the structured biological knowledge inherent in GRNs. We evaluate our method on human cell benchmark datasets from the BEELINE study with cell type-specific ground truth networks. The results demonstrate superior performance over current state-of-the-art baselines, offering a deeper understanding of cellular regulatory mechanisms.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# AsEP: 抗体特異的エピトープ予測のためのディープラーニング手法のベンチマーク

AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction ( http://arxiv.org/abs/2407.18184v1 )

ライセンス: Link先を確認
Chunan Liu, Lilian Denzler, Yihong Chen, Andrew Martin, Brooks Paige, (参考訳) エピトープの同定は抗体の設計に不可欠であるが、抗体の固有の多様性のために困難である。 一般的なタンパク質結合部位予測タスクのために多くの深層学習法が開発されているが、エピトープ予測のために働くかどうかはまだ未研究の課題である。 この課題は、十分なデータセットサイズとエピトープの多様性を備えた、一貫した評価パイプラインの欠如によっても高まっている。 抗体-抗原複合体構造データセット AsEP (Antibody-specific Epitope Prediction) を導入する。 AsEPはその種類の中で最大であり、クラスタ化されたエピトープグループを提供し、コミュニティは新たなエピトープ予測手法を開発し、テストすることができる。 AsEPはPythonで使いやすく、各抗体抗原複合体のグラフ表現を事前に構築し、カスタマイズ可能な埋め込みメソッドもサポートする。 この新たなデータセットに基づいて,様々な一般的なタンパク質結合部位予測法をベンチマークし,その性能がエピトープ予測に期待されるほど満足できないことを発見した。 そこで我々は,タンパク質言語モデルとグラフニューラルネットワークの両方を活用する新しい手法WALLEを提案する。 WALLEは、既存のメソッドよりも5倍のパフォーマンス向上を示す。 実験結果から,エピトープ予測は言語モデルによる逐次埋め込みとグラフ表現からの幾何学的情報を組み合わせることにより,将来の手法設計の指針となることが示唆された。 さらに,タスクをバイパーティイトリンク予測として再構成し,モデル性能の属性と解釈性を容易にする。 当社のデータとコードはhttps://github.com/biochunan/AsEP-dataset.comで公開しています。

Epitope identification is vital for antibody design yet challenging due to the inherent variability in antibodies. While many deep learning methods have been developed for general protein binding site prediction tasks, whether they work for epitope prediction remains an understudied research question. The challenge is also heightened by the lack of a consistent evaluation pipeline with sufficient dataset size and epitope diversity. We introduce a filtered antibody-antigen complex structure dataset, AsEP (Antibody-specific Epitope Prediction). AsEP is the largest of its kind and provides clustered epitope groups, allowing the community to develop and test novel epitope prediction methods. AsEP comes with an easy-to-use interface in Python and pre-built graph representations of each antibody-antigen complex while also supporting customizable embedding methods. Based on this new dataset, we benchmarked various representative general protein-binding site prediction methods and find that their performances are not satisfactory as expected for epitope prediction. We thus propose a new method, WALLE, that leverages both protein language models and graph neural networks. WALLE demonstrate about 5X performance gain over existing methods. Our empirical findings evidence that epitope prediction benefits from combining sequential embeddings provided by language models and geometrical information from graph representations, providing a guideline for future method design. In addition, we reformulate the task as bipartite link prediction, allowing easy model performance attribution and interpretability. We open-source our data and code at https://github.com/biochunan/AsEP-dataset.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 因果ダイヤモンドのコンフォーマル量子力学:量子不安定性と半古典近似

Conformal quantum mechanics of causal diamonds: Quantum instability and semiclassical approximation ( http://arxiv.org/abs/2407.18191v1 )

ライセンス: Link先を確認
H. E. Camblong, A. Chakraborty, P. Lopez-Duque, C. Ordóñez, (参考訳) 因果ダイヤモンドは、エネルギースケール検出器を備えた有限寿命観測者によって探索される熱的挙動を持つことが知られている。 この熱性は、非コンパクト双曲作用素$S$の共形量子力学(CQM)対称性発生器の1つによって支配される因果ダイヤモンド内の観測者の時間進化に起因する。 本稿では、逆調和振動子ポテンシャルによって表される同様の性質の一般化である量子不安定性によって、S$の非有界な性質が実現可能であることを示す。 我々の分析は半古典的であり、これには古典力学の$S$とその双対作用素$R$の詳細な位相空間の研究と、理論の量子的挙動において重要な役割を果たす基本的な不安定性と熱的特性をもたらす一般的な半古典的フレームワークが含まれる。 有限寿命の $\mathcal{T}$ の場合、検出された温度 $T_D = 2 \hbar/(\pi \mathcal{T})$ は Lyapunov 指数 $\lambda_L = \pi T_D/\hbar$ に関連付けられる。

Causal diamonds are known to have thermal behavior that can be probed by finite-lifetime observers equipped with energy-scaled detectors. This thermality can be attributed to the time evolution of observers within the causal diamond, governed by one of the conformal quantum mechanics (CQM) symmetry generators: the noncompact hyperbolic operator $S$. In this paper, we show that the unbounded nature of $S$ endows it with a quantum instability, which is a generalization of a similar property exhibited by the inverted harmonic oscillator potential. Our analysis is semiclassical, including a detailed phase-space study of the classical dynamics of $S$ and its dual operator $R$, and a general semiclassical framework yielding basic instability and thermality properties that play a crucial role in the quantum behavior of the theory. For an observer with a finite lifetime $\mathcal{T}$, the detected temperature $T_D = 2 \hbar/(\pi \mathcal{T})$ is associated with a Lyapunov exponent $\lambda_L = \pi T_D/\hbar$, which is half the upper saturation bound of the information scrambling rate.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# マルチホップフェデレーション学習におけるスパースインクリメンタルアグリゲーション

Sparse Incremental Aggregation in Multi-Hop Federated Learning ( http://arxiv.org/abs/2407.18200v1 )

ライセンス: Link先を確認
Sourav Mukherjee, Nasrin Razmi, Armin Dekorsy, Petar Popovski, Bho Matthiesen, (参考訳) 本稿では,衛星間リンクを持つ星座などのマルチホップ通信システムにおけるフェデレーションラーニング(FL)について検討する。 このセットアップでは、FLクライアントの一部が他のクライアントの結果をパラメータサーバに転送する責任を負います。 従来のルーティングを使用する代わりに、インクリメンタルアグリゲーション(IA)として知られる各中間ホップでネットワークモデルアグリゲーションを使用することで、通信効率を大幅に改善することができる。 先行研究[1]は、勾配のスペーサー化下でのIAの利得の減少を示唆している。 そこで本研究では,IAに対する新しい相関スペーサー化法を提案する。 数値的な結果は、これらのアルゴリズムのいくつかでは、IAの完全なポテンシャルは、収束を損なうことなく、まだスパシフィケーション下で利用できることを示している。 本研究では,従来のルーティングよりも通信効率が15倍向上し,最先端(SoA)スパースIAよりも11倍向上したことを示す。

This paper investigates federated learning (FL) in a multi-hop communication setup, such as in constellations with inter-satellite links. In this setup, part of the FL clients are responsible for forwarding other client's results to the parameter server. Instead of using conventional routing, the communication efficiency can be improved significantly by using in-network model aggregation at each intermediate hop, known as incremental aggregation (IA). Prior works [1] have indicated diminishing gains for IA under gradient sparsification. Here we study this issue and propose several novel correlated sparsification methods for IA. Numerical results show that, for some of these algorithms, the full potential of IA is still available under sparsification without impairing convergence. We demonstrate a 15x improvement in communication efficiency over conventional routing and a 11x improvement over state-of-the-art (SoA) sparse IA.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 半古典部分空間、非同期法等

Semi-Classical Subspaces, The No Synchronization Law, and More ( http://arxiv.org/abs/2407.18201v1 )

ライセンス: Link先を確認
Samuel Epstein, (参考訳) 本稿では,アルゴリズム情報理論と物理,すなわち量子力学,熱力学,ブラックホールの交わりについて考察する。 量子世界と古典的領域の間の障壁を特徴づける定理について議論する。 半古典的部分空間」の概念が導入された。 No Synchronization Law (No Synchronization Law) の詳細は、時間とともに進化する分離された物理的システムは、シンクしている熱力学的アルゴリズムのエントロピーを持つことができない、と述べている。 我々は、ブラックホールのコルモゴロフ複雑性に関する今後の研究について考察する。

This paper looks at the intersection of algorithmic information theory and physics, namely quantum mechanics, thermodynamics, and black holes. We discuss theorems which characterize the barrier between the quantum world and the classical realm. The notion of a "semi-classical subspace" is introduced. The No Synchronization Law is detailed, which says separate and isolated physical systems evolving over time cannot have thermodynamic algorithmic entropies that are in synch. We look at future work involving the Kolmogorov complexity of black holes.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 非同期量子強化学習における微分可能な量子アーキテクチャ探索

Differentiable Quantum Architecture Search in Asynchronous Quantum Reinforcement Learning ( http://arxiv.org/abs/2407.18202v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, (参考訳) 量子強化学習(QRL)の出現は、量子コンピューティング(QC)と機械学習(ML)の進歩、特に変分量子回路(VQC)上に構築された量子ニューラルネットワーク(QNN)によって促進される。 これらの進歩は、シーケンシャルな意思決定タスクに対処することに成功している。 しかし、効果的なQRLモデルの構築には、データエンコーディングやパラメータ化回路など、量子回路アーキテクチャを設計する上での課題から、重要な専門知識が必要である。 本稿では,微分可能な量子アーキテクチャ探索(DiffQAS)によるこの問題に対処し,勾配に基づく最適化によるトレーニング可能な回路パラメータと構造重み付けを実現することを提案する。 さらに,並列学習を容易にする非同期強化学習(RL)手法により,学習効率を向上させる。 DiffQAS-QRL法は,提案手法を用いて,検討対象の環境にまたがる手作業による回路アーキテクチャに匹敵する性能を実現し,様々なシナリオにおける安定性を示す。 この手法は、広範な量子知識を必要とせずにQRLモデルを設計し、堅牢な性能を確保し、より広範なQRLの応用を促進するための経路を提供する。

The emergence of quantum reinforcement learning (QRL) is propelled by advancements in quantum computing (QC) and machine learning (ML), particularly through quantum neural networks (QNN) built on variational quantum circuits (VQC). These advancements have proven successful in addressing sequential decision-making tasks. However, constructing effective QRL models demands significant expertise due to challenges in designing quantum circuit architectures, including data encoding and parameterized circuits, which profoundly influence model performance. In this paper, we propose addressing this challenge with differentiable quantum architecture search (DiffQAS), enabling trainable circuit parameters and structure weights using gradient-based optimization. Furthermore, we enhance training efficiency through asynchronous reinforcement learning (RL) methods facilitating parallel training. Through numerical simulations, we demonstrate that our proposed DiffQAS-QRL approach achieves performance comparable to manually-crafted circuit architectures across considered environments, showcasing stability across diverse scenarios. This methodology offers a pathway for designing QRL models without extensive quantum knowledge, ensuring robust performance and fostering broader application of QRL.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 球面画像の幾何学的忠実度

Geometry Fidelity for Spherical Images ( http://arxiv.org/abs/2407.18207v1 )

ライセンス: Link先を確認
Anders Christensen, Nooshin Mojab, Khushman Patel, Karan Ahuja, Zeynep Akata, Ole Winther, Mar Gonzalez-Franco, Andrea Colaco, (参考訳) 球面または全方位の画像は、幅広いコンピュータビジョンアプリケーションにアピールする没入的な視覚形式を提供する。 しかし、球面画像の幾何学的性質は、通常の2次元画像のために設計されたモデルやメトリクスにとって大きな課題となっている。 ここでは,Fr'echet Inception Distance(FID)の直接適用は球面画像の幾何学的忠実度を定量化するには不十分であることを示す。 幾何学的制約,すなわち,Omnidirectional FID (OmniFID) と Discontinuity Score (DS) の2つの定量的指標を導入する。 OmniFID(オムニFID)は、球面形状のフィールド・オブ・ビュー要件をキューブマップ・プロジェクションを利用して捉えるFIDの拡張である。 DSは、球面画像の2次元表現の境界を越えた連続性のカーネルベースのシームアライメントスコアである。 実験では、OmniFID と DS は FID で検出されていない幾何学的忠実度問題を定量化する。

Spherical or omni-directional images offer an immersive visual format appealing to a wide range of computer vision applications. However, geometric properties of spherical images pose a major challenge for models and metrics designed for ordinary 2D images. Here, we show that direct application of Fr\'echet Inception Distance (FID) is insufficient for quantifying geometric fidelity in spherical images. We introduce two quantitative metrics accounting for geometric constraints, namely Omnidirectional FID (OmniFID) and Discontinuity Score (DS). OmniFID is an extension of FID tailored to additionally capture field-of-view requirements of the spherical format by leveraging cubemap projections. DS is a kernel-based seam alignment score of continuity across borders of 2D representations of spherical images. In experiments, OmniFID and DS quantify geometry fidelity issues that are undetected by FID.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# LLMロバストネスのスケーリング動向

Exploring Scaling Trends in LLM Robustness ( http://arxiv.org/abs/2407.18213v1 )

ライセンス: Link先を確認
Nikolhaus Howe, Michał Zajac, Ian McKenzie, Oskar Hollinsworth, Tom Tseng, Pierre-Luc Bacon, Adam Gleave, (参考訳) 言語モデル機能は、モデルのサイズとトレーニングデータのスケーリングから、予測可能な改善を行う。 これに触発されて、ますます大きな言語モデルが訓練され、印象的な能力を持つようになりました。 しかし、これらのモデルは、好ましくない行動を実行するためにハイジャックモデルを実行する「ジェイルブレイク」のような敵のプロンプトに対して脆弱であり、誤用のかなりのリスクを生じさせる。 以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。 本研究では,より大規模なモデルが敵の訓練にかなり効果があることを実証的に研究するが,明確な防御がなければ,モデルスケールのメリットはほとんど見つからない。

Language model capabilities predictably improve from scaling a model's size and training data. Motivated by this, increasingly large language models have been trained, yielding an array of impressive capabilities. Yet these models are vulnerable to adversarial prompts, such as "jailbreaks" that hijack models to perform undesired behaviors, posing a significant risk of misuse. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically, finding that larger models respond substantially better to adversarial training, but there is little to no benefit from model scale in the absence of explicit defenses.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# 計算量削減のためのツール支援学習

Tool-Assisted Learning of Computational Reductions ( http://arxiv.org/abs/2407.18215v1 )

ライセンス: Link先を確認
Tristan Kneisel, Elias Radtke, Marko Schmellenkamp, Fabian Vehlken, Thomas Zeume, (参考訳) 計算機科学において計算量削減は重要かつ強力な概念である。 しかし、多くの学生には理解が難しい。 本稿では,削減学習が教育支援システムによってどのように支援されるか,という概念を概説する。 本稿では,そのようなシステムにおける概念の具体的実装について述べるとともに,理論計算機科学の入門講座において,その教材を用いた経験を報告する。

Computational reductions are an important and powerful concept in computer science. However, they are difficult for many students to grasp. In this paper, we outline a concept for how the learning of reductions can be supported by educational support systems. We present an implementation of the concept within such a system, concrete web-based and interactive learning material for reductions, and report on our experiences using the material in a large introductory course on theoretical computer science.
翻訳日:2024-07-26 13:19:20 公開日:2024-07-25
# NKCSモデルによるブックチンズ・コミュナリズムのモデル化

An NKCS Model of Bookchins Communalism ( http://arxiv.org/abs/2407.18218v1 )

ライセンス: Link先を確認
Larry Bull, (参考訳) NKCSモデルは、共進化系、すなわち複数の種が密接な相互接続された系を探索するために導入された。 種のフィットネスランドスケープはコントロール可能な量に結合され、個々のランドスケープの基本的な特性もコントロールできる。 モデル内の階層的制御の使用について、これまでの研究は行われていない。 本論では,ブッチンス共産主義とグローバルコントロールの単一点を基礎として,コンフェデレーションの活用の効果について考察する。 従来のモデルからの大きな変化は、パラメータ空間全体に見られます。

The NKCS model was introduced to explore coevolutionary systems, that is, systems in which multiple species are closely interconnected. The fitness landscapes of the species are coupled to a controllable amount, where the underlying properties of the individual landscapes are also controllable. No previous work has explored the use of hierarchical control within the model. This paper explores the effects of using a confederation, based on Bookchins communalism, and a single point of global control. Significant changes in behaviour from the traditional model are seen across the parameter space.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# 帰納的イントロスペクション:言語モデルエージェントに自己改善の仕方を教える

Recursive Introspection: Teaching Language Model Agents How to Self-Improve ( http://arxiv.org/abs/2407.18219v1 )

ライセンス: Link先を確認
Yuxiao Qu, Tianjun Zhang, Naman Garg, Aviral Kumar, (参考訳) ファンデーションモデルにおけるインテリジェントなエージェント的行動を可能にするための中心的な要素は、より多くの計算や相互作用が利用可能であるように、彼らの振る舞いをイントロスペクションし、推論し、誤りを修正することができるようにすることである。 最強のプロプライエタリな大規模言語モデル(LLM)でさえ、過ちを明示的に告げられるシナリオであっても、連続的に応答を改善する能力は十分に示されていない。 本稿では,この能力を達成できないと仮定した先行研究にもかかわらず,微調整型LLMの手法であるRISE: Recursive IntroSpEctionを開発する。 提案手法は,テストタイムの難解な問題を事前に実行した後,モデルに応答の修正方法を教えるための反復的な微調整手順を規定し,任意に環境フィードバックを付加する。 RISEは、初期状態がプロンプトであるマルチターンマルコフ決定プロセス(MDP)の解決として、シングルターンプロンプトの微調整を行う。 オンラインの模倣学習と強化学習の原則に着想を得て, 複数ターンのデータ収集と学習の戦略を提案し, 繰り返し繰り返しの誤りを再帰的に検出し, 修正する能力を持つLLMを組み込む。 実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,算数推論タスクのターン数を増やすことで自己改善を実現している。 また、RISEはうまくスケールし、より有能なモデルでより大きなメリットを得ることができることもわかりました。 解析の結果、RISEはより複雑な分布を表現した結果、一ターンの能力を損なうことなく、正しい解にたどり着くための応答を有意義に改善していることがわかった。

A central piece in enabling intelligent agentic behavior in foundation models is to make them capable of introspecting upon their behavior, reasoning, and correcting their mistakes as more computation or interaction is available. Even the strongest proprietary large language models (LLMs) do not quite exhibit the ability of continually improving their responses sequentially, even in scenarios where they are explicitly told that they are making a mistake. In this paper, we develop RISE: Recursive IntroSpEction, an approach for fine-tuning LLMs to introduce this capability, despite prior work hypothesizing that this capability may not be possible to attain. Our approach prescribes an iterative fine-tuning procedure, which attempts to teach the model how to alter its response after having executed previously unsuccessful attempts to solve a hard test-time problem, with optionally additional environment feedback. RISE poses fine-tuning for a single-turn prompt as solving a multi-turn Markov decision process (MDP), where the initial state is the prompt. Inspired by principles in online imitation learning and reinforcement learning, we propose strategies for multi-turn data collection and training so as to imbue an LLM with the capability to recursively detect and correct its previous mistakes in subsequent iterations. Our experiments show that RISE enables Llama2, Llama3, and Mistral models to improve themselves with more turns on math reasoning tasks, outperforming several single-turn strategies given an equal amount of inference-time computation. We also find that RISE scales well, often attaining larger benefits with more capable models. Our analysis shows that RISE makes meaningful improvements to responses to arrive at the correct solution for challenging prompts, without disrupting one-turn abilities as a result of expressing more complex distributions.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# 文脈自由文法の同値性の検出と説明

Detecting and explaining (in)equivalence of context-free grammars ( http://arxiv.org/abs/2407.18220v1 )

ライセンス: Link先を確認
Marko Schmellenkamp, Thomas Zeume, Sven Argo, Sandra Kiefer, Cedric Siems, Fynn Stebel, (参考訳) 文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。 本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。 文脈自由言語の同値問題は一般には決定できないが、このフレームワークはこれらのデータセットの大部分を処理できる。 抽象文法変換言語(英語版)による等価文法の同定や、十分に類似した同値な文法の同定、文脈自由言語の大規模なクラスに対する理論に基づく比較アルゴリズム、同型文法の効率的な識別を可能にするグラフ理論に着想を得た文法の正準化など、いくつかの分野からの技術を導入し、組み合わせている。

We propose a scalable framework for deciding, proving, and explaining (in)equivalence of context-free grammars. We present an implementation of the framework and evaluate it on large data sets collected within educational support systems. Even though the equivalence problem for context-free languages is undecidable in general, the framework is able to handle a large portion of these datasets. It introduces and combines techniques from several areas, such as an abstract grammar transformation language to identify equivalent grammars as well as sufficiently similar inequivalent grammars, theory-based comparison algorithms for a large class of context-free languages, and a graph-theory-inspired grammar canonization that allows to efficiently identify isomorphic grammars.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# 医療用マルチモーダル機械学習の自動化

Automated Ensemble Multimodal Machine Learning for Healthcare ( http://arxiv.org/abs/2407.18227v1 )

ライセンス: Link先を確認
Fergus Imrie, Stefan Denner, Lucas S. Brunschwig, Klaus Maier-Hein, Mihaela van der Schaar, (参考訳) 医学や医療における機械学習の応用は、多くの診断および予後モデルの作成につながった。 しかし、その成功にもかかわらず、現在のアプローチは一般に単一のモダリティのデータを用いて予測を発行する。 これは、複数の情報源から多様な情報を利用する臨床医の意思決定とは対照的である。 いくつかのマルチモーダル機械学習アプローチが存在するが、マルチモーダルシステムの開発における重要な課題は、臨床応用を妨げている。 本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを提案する。 AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。 マルチモーダル皮膚病変データセットを用いたイラストレーションアプリケーションでは,マルチモーダル機械学習の重要性と,アンサンブル学習を用いたマルチフュージョン戦略を組み合わせる能力を強調した。 コミュニティのためのツールとして当社のフレームワークをオープンソースとして公開し、医療におけるマルチモーダル機械学習の獲得を加速し、さらなるイノベーションを促進することを期待しています。

The application of machine learning in medicine and healthcare has led to the creation of numerous diagnostic and prognostic models. However, despite their success, current approaches generally issue predictions using data from a single modality. This stands in stark contrast with clinician decision-making which employs diverse information from multiple sources. While several multimodal machine learning approaches exist, significant challenges in developing multimodal systems remain that are hindering clinical adoption. In this paper, we introduce a multimodal framework, AutoPrognosis-M, that enables the integration of structured clinical (tabular) data and medical imaging using automated machine learning. AutoPrognosis-M incorporates 17 imaging models, including convolutional neural networks and vision transformers, and three distinct multimodal fusion strategies. In an illustrative application using a multimodal skin lesion dataset, we highlight the importance of multimodal machine learning and the power of combining multiple fusion strategies using ensemble learning. We have open-sourced our framework as a tool for the community and hope it will accelerate the uptake of multimodal machine learning in healthcare and spur further innovation.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# LION: 点雲における3次元物体検出のための線形群RNN

LION: Linear Group RNN for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2407.18232v1 )

ライセンス: Link先を確認
Zhe Liu, Jinghua Hou, Xinyu Wang, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai, (参考訳) 3次元物体検出などの大規模3次元点雲認識タスクにおける変換器の利点は、長距離関係をモデル化する際の2次計算コストによって制限される。 対照的に線形RNNは計算複雑性が低く、長距離モデリングに適している。 この目的に向けて,LInear grOup RNN(つまり,グループ化された特徴に対して線形RNNを実行する)をベースとした,正確な3次元オブジェクト検出のための簡易かつ効果的なウィンドウベースフレームワーク(LION)を提案する。 鍵となる性質は、トランスフォーマーベースの方法よりもはるかに大きなグループにおける十分な機能相互作用を可能にすることである。 しかし,3次元物体検出に線形群 RNN を効果的に適用することは,空間モデル処理の限界により容易ではない。 この問題に対処するため、3次元空間特徴記述子を導入し、それを線形群RNN演算子に統合することで、ボクセル特徴の走査オーダー数を盲目的に増やすのではなく、それらの空間特徴を増強する。 高分散点雲の課題をさらに解決するために, 線形群 RNN が自己回帰モデルの自然特性である事により, 前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。 大規模な実験により,提案したコンポーネントの有効性と,Mamba,RWKV,RetNetなどの線形群 RNN 演算子に対する LION の一般化が検証された。 さらに、私たちのLION-MambaはWaymo、nuScenes、Argoverse V2、ONCEデータセットの最先端を実現しています。 最後に、我々の手法は、線形RNNベースのフレームワークを素早く体験するために、小さなが人気のあるKITTIデータセット上で、先進線形RNN演算子(例えば、RetNet、RWKV、Mamba、xLSTM、TTT)をサポートしている。

The benefit of transformers in large-scale 3D point cloud perception tasks, such as 3D object detection, is limited by their quadratic computation cost when modeling long-range relationships. In contrast, linear RNNs have low computational complexity and are suitable for long-range modeling. Toward this goal, we propose a simple and effective window-based framework built on LInear grOup RNN (i.e., perform linear RNN for grouped features) for accurate 3D object detection, called LION. The key property is to allow sufficient feature interaction in a much larger group than transformer-based methods. However, effectively applying linear group RNN to 3D object detection in highly sparse point clouds is not trivial due to its limitation in handling spatial modeling. To tackle this problem, we simply introduce a 3D spatial feature descriptor and integrate it into the linear group RNN operators to enhance their spatial features rather than blindly increasing the number of scanning orders for voxel features. To further address the challenge in highly sparse point clouds, we propose a 3D voxel generation strategy to densify foreground features thanks to linear group RNN as a natural property of auto-regressive models. Extensive experiments verify the effectiveness of the proposed components and the generalization of our LION on different linear group RNN operators including Mamba, RWKV, and RetNet. Furthermore, it is worth mentioning that our LION-Mamba achieves state-of-the-art on Waymo, nuScenes, Argoverse V2, and ONCE dataset. Last but not least, our method supports kinds of advanced linear RNN operators (e.g., RetNet, RWKV, Mamba, xLSTM and TTT) on small but popular KITTI dataset for a quick experience with our linear RNN-based framework.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# CodedVO: Coded Visual Odometry

CodedVO: Coded Visual Odometry ( http://arxiv.org/abs/2407.18240v1 )

ライセンス: Link先を確認
Sachin Shah, Naitri Rajyaguru, Chahat Deep Singh, Christopher Metzler, Yiannis Aloimonos, (参考訳) 自律ロボットはしばしば、計測とナビゲーションのために単眼カメラに頼っている。 しかし、スケールのあいまいさの問題は、効果的な単眼視覚計測にとって重要な障壁となる。 本稿では,一眼レフの視線深度情報を物理的に画像にエンコードするカスタム光学を用いて,視線あいさを克服する新しい単眼視覚計測手法であるCodedVOを提案する。 この情報をオドメトリパイプラインに組み込むことで,モノクローナル・ビジュアル・オドメトリにおける最先端の性能を既知のスケールで達成する。 本手法を屋内環境の多様さで評価し,その堅牢性と適応性を示す。 ICL-NUIM屋内検体を用いた検体評価において平均軌道誤差0.08mを達成した。

Autonomous robots often rely on monocular cameras for odometry estimation and navigation. However, the scale ambiguity problem presents a critical barrier to effective monocular visual odometry. In this paper, we present CodedVO, a novel monocular visual odometry method that overcomes the scale ambiguity problem by employing custom optics to physically encode metric depth information into imagery. By incorporating this information into our odometry pipeline, we achieve state-of-the-art performance in monocular visual odometry with a known scale. We evaluate our method in diverse indoor environments and demonstrate its robustness and adaptability. We achieve a 0.08m average trajectory error in odometry evaluation on the ICL-NUIM indoor odometry dataset.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# リンク予測における数値リテラル:モデルとデータセットの批判的検証

Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets ( http://arxiv.org/abs/2407.18241v1 )

ライセンス: Link先を確認
Moritz Blum, Basil Ell, Hannes Ill, Philipp Cimiano, (参考訳) リンク予測(LP)は知識グラフ(KG)よりも重要なタスクであり、伝統的にエンティティ間の関係の使用と予測に重点を置いている。 テキストエンティティ記述は、すでに有用であることが示されているが、数値リテラルを組み込んだモデルは、既存のベンチマークデータセットに対してわずかに改善されている。 モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。 これにより、これらの手法の有効性や既存のベンチマークデータセットの適合性に疑問が生じる。 本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。 特集にあたって 一 これらのモデルがいかに数値リテラルを用いているかをよりよく理解するための新しい合成データセット 二 既存のデータセットの潜在的な困難を調査するためのデータセット短縮戦略 多くのモデルはリテラル情報を過小評価し、性能向上のために追加のパラメータに依存する可能性がある。 我々の調査は、新しいモデルやデータセットをリリースする際の、より広範な評価の必要性を強調しています。

Link Prediction(LP) is an essential task over Knowledge Graphs(KGs), traditionally focussed on using and predicting the relations between entities. Textual entity descriptions have already been shown to be valuable, but models that incorporate numerical literals have shown minor improvements on existing benchmark datasets. It is unclear whether a model is actually better in using numerical literals, or better capable of utilizing the graph structure. This raises doubts about the effectiveness of these methods and about the suitability of the existing benchmark datasets. We propose a methodology to evaluate LP models that incorporate numerical literals. We propose i) a new synthetic dataset to better understand how well these models use numerical literals and ii) dataset ablations strategies to investigate potential difficulties with the existing datasets. We identify a prevalent trend: many models underutilize literal information and potentially rely on additional parameters for performance gains. Our investigation highlights the need for more extensive evaluations when releasing new models and datasets.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# LoRA-Pro: 低ランクアダプタは適切に最適化されているか?

LoRA-Pro: Are Low-Rank Adapters Properly Optimized? ( http://arxiv.org/abs/2407.18242v1 )

ライセンス: Link先を確認
Zhengbo Wang, Jian Liang, (参考訳) LoRAとしても知られるローランド適応は、元の行列を2つの低ランク行列の積に再パラメータ化することでパラメータ効率の良い微調整基礎モデルの顕著な方法として登場した。 効率性にもかかわらず、LoRAはフル微調整に比べて性能が劣ることが多い。 本稿では,この性能ギャップを埋めるためにLoRA-Proを提案する。 まず、LoRAの最適化プロセスとフル微調整について調べる。 LoRAは低ランク近似を用いるが、完全な微調整の最適化プロセスは無視する。 これを解決するために、我々は「等価勾配」と呼ばれる新しい概念を導入する。 この仮想勾配は、LoRAと完全微調整の違いを定量化するために使用可能な、LoRAと等価な再パラメータ化行列上の最適化プロセスを生成する。 等価勾配は行列の勾配$A$と$B$から導かれる。 性能ギャップを狭めるため,最適化プロセス中の全微調整から得られる等価勾配と勾配の差を最小限に抑える。 この目的を解くことにより、行列を$A$と$B$に更新する最適な閉形式解を導出する。 提案手法は最適化過程を制約し,LoRAとフル微調整性能の差を小さくする。 自然言語処理タスクに関する大規模な実験により,本手法の有効性が検証された。

Low-Rank Adaptation, also known as LoRA, has emerged as a prominent method for parameter-efficient fine-tuning foundation models by re-parameterizing the original matrix into the product of two low-rank matrices. Despite its efficiency, LoRA often yields inferior performance compared to full fine-tuning. In this paper, we propose LoRA-Pro to bridge this performance gap. Firstly, we delve into the optimization processes in LoRA and full fine-tuning. We reveal that while LoRA employs low-rank approximation, it neglects to approximate the optimization process of full fine-tuning. To address this, we introduce a novel concept called the "equivalent gradient." This virtual gradient makes the optimization process on the re-parameterized matrix equivalent to LoRA, which can be used to quantify the differences between LoRA and full fine-tuning. The equivalent gradient is derived from the gradients of matrices $A$ and $B$. To narrow the performance gap, our approach minimizes the differences between the equivalent gradient and the gradient obtained from full fine-tuning during the optimization process. By solving this objective, we derive optimal closed-form solutions for updating matrices $A$ and $B$. Our method constrains the optimization process, shrinking the performance gap between LoRA and full fine-tuning. Extensive experiments on natural language processing tasks validate the effectiveness of our method.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# BIV-Priv-Seg:視覚障害者が撮影した画像中のプライベートコンテンツ

BIV-Priv-Seg: Locating Private Content in Images Taken by People With Visual Impairments ( http://arxiv.org/abs/2407.18243v1 )

ライセンス: Link先を確認
Yu-Yun Tseng, Tanusree Sharma, Lotus Zhang, Abigale Stangl, Leah Findlater, Yang Wang, Danna Gurari Yu-Yun Tseng, Tanusree Sharma, Lotus Zhang, Abigale Stangl, Leah Findlater, Yang Wang, Danna Gurari, (参考訳) 盲目または低視力(BLV)を持つ個人は、撮影した写真を共有する場合、プライベート情報を共有するリスクが高くなる。 BIV-Priv-Segは、プライベートコンテンツを表示する視覚障害を持つ人々から生まれた、最初のローカライゼーションデータセットである。 16のプライベートオブジェクトカテゴリ用のセグメンテーションアノテーションを備えた1,028のイメージが含まれている。 まず、BIV-Priv-Segを特徴付けるとともに、データセット内のプライベートコンテンツを特定するためのモダンモデルの性能を評価する。 現代モデルは、画像からプライベートコンテンツが欠落していることを認識できるだけでなく、健全で小さく、テキストが欠けているプライベートオブジェクトの発見に最も苦労している。 我々は、新しいデータセットをhttps://vizwiz.org/tasks-and-datasets/object-localizationで評価サーバと共有することで、将来の拡張を容易にする。

Individuals who are blind or have low vision (BLV) are at a heightened risk of sharing private information if they share photographs they have taken. To facilitate developing technologies that can help preserve privacy, we introduce BIV-Priv-Seg, the first localization dataset originating from people with visual impairments that shows private content. It contains 1,028 images with segmentation annotations for 16 private object categories. We first characterize BIV-Priv-Seg and then evaluate modern models' performance for locating private content in the dataset. We find modern models struggle most with locating private objects that are not salient, small, and lack text as well as recognizing when private content is absent from an image. We facilitate future extensions by sharing our new dataset with the evaluation server at https://vizwiz.org/tasks-and-datasets/object-localization.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# RefMask3D:3次元参照セグメンテーションのための言語ガイド変換器

RefMask3D: Language-Guided Transformer for 3D Referring Segmentation ( http://arxiv.org/abs/2407.18244v1 )

ライセンス: Link先を確認
Shuting He, Henghui Ding, (参考訳) 3D参照セグメンテーションは、自然言語で記述されたオブジェクトをポイントクラウドシーンでセグメント化することを目的とした、新しくて挑戦的な視覚言語タスクである。 このタスクの鍵となる課題は、視覚言語による機能の融合とアライメントである。 本稿では,RefMask3Dを提案する。 まず,幾何的コヒーレントなサブクラウドと言語を相互に連結したグループワードアテンションを提案し,ポイントクラウドのスパースで不規則な性質によって生じる課題を効果的に解決する。 そこで本稿では,意味的属性を表す意味的プリミティブを生成する言語的プリミティブ構築手法を提案する。 さらに,言語的プリミティブ間の相互関係を解析し,それらの知見を統合し,共通の特徴を指摘し,包括的情報を捕捉し,目標同定の精度を高めるために,Object Cluster Moduleを導入する。 提案したRefMask3Dは,3次元参照分割,3次元視覚的グラウンド化,および2次元参照画像セグメンテーションにおける最先端性能を実現する。 特にRefMask3Dは、挑戦的なScanReferデータセットに対して3.16% mIoU}という大きなマージンで、従来の最先端手法よりも優れている。 コードはhttps://github.com/heshuting555/RefMask3Dで入手できる。

3D referring segmentation is an emerging and challenging vision-language task that aims to segment the object described by a natural language expression in a point cloud scene. The key challenge behind this task is vision-language feature fusion and alignment. In this work, we propose RefMask3D to explore the comprehensive multi-modal feature interaction and understanding. First, we propose a Geometry-Enhanced Group-Word Attention to integrate language with geometrically coherent sub-clouds through cross-modal group-word attention, which effectively addresses the challenges posed by the sparse and irregular nature of point clouds. Then, we introduce a Linguistic Primitives Construction to produce semantic primitives representing distinct semantic attributes, which greatly enhance the vision-language understanding at the decoding stage. Furthermore, we introduce an Object Cluster Module that analyzes the interrelationships among linguistic primitives to consolidate their insights and pinpoint common characteristics, helping to capture holistic information and enhance the precision of target identification. The proposed RefMask3D achieves new state-of-the-art performance on 3D referring segmentation, 3D visual grounding, and also 2D referring image segmentation. Especially, RefMask3D outperforms previous state-of-the-art method by a large margin of 3.16% mIoU} on the challenging ScanRefer dataset. Code is available at https://github.com/heshuting555/RefMask3D.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# VGGHeads:3D人間の頭部のための大規模合成データセット

VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads ( http://arxiv.org/abs/2407.18245v1 )

ライセンス: Link先を確認
Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht, (参考訳) 人間の頭部検出、キーポイント推定、および3次元頭部モデルフィッティングは多くの応用において重要な課題である。 しかし、従来の現実世界のデータセットはバイアス、プライバシー、倫理的懸念に悩まされることが多く、実験室で記録されているため、訓練されたモデルを一般化することは困難である。 本稿では,人間の頭部検出と3次元メッシュ推定のための拡散モデルを用いた大規模合成データセットであるVGGHeadsを紹介する。 私たちのデータセットは100万以上の高解像度画像で構成されており、それぞれに詳細な3Dヘッドメッシュ、顔のランドマーク、バウンディングボックスがアノテートされている。 このデータセットを用いて、1ステップで1つの画像から頭部検出と頭部メッシュ再構築を同時に行うことができる新しいモデルアーキテクチャを導入する。 実験により,我々の合成データに基づいて訓練したモデルが実画像上で強い性能を発揮することを示す。 さらに、我々のデータセットの汎用性により、幅広いタスクに適用でき、人間の頭部を包括的かつ包括的に表現できる。 さらに、合成データ生成パイプラインに関する詳細な情報を提供し、他のタスクやドメインに再使用できるようにします。

Human head detection, keypoint estimation, and 3D head model fitting are important tasks with many applications. However, traditional real-world datasets often suffer from bias, privacy, and ethical concerns, and they have been recorded in laboratory environments, which makes it difficult for trained models to generalize. Here, we introduce VGGHeads -- a large scale synthetic dataset generated with diffusion models for human head detection and 3D mesh estimation. Our dataset comprises over 1 million high-resolution images, each annotated with detailed 3D head meshes, facial landmarks, and bounding boxes. Using this dataset we introduce a new model architecture capable of simultaneous heads detection and head meshes reconstruction from a single image in a single step. Through extensive experimental evaluations, we demonstrate that models trained on our synthetic data achieve strong performance on real images. Furthermore, the versatility of our dataset makes it applicable across a broad spectrum of tasks, offering a general and comprehensive representation of human heads. Additionally, we provide detailed information about the synthetic data generation pipeline, enabling it to be re-used for other tasks and domains.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# RegionDrag: 拡散モデルによる高速領域ベース画像編集

RegionDrag: Fast Region-Based Image Editing with Diffusion Models ( http://arxiv.org/abs/2407.18247v1 )

ライセンス: Link先を確認
Jingyi Lu, Xinghui Li, Kai Han, (参考訳) DragDiffusionのようなポイントドラッグベースの画像編集手法は注目されている。 しかし、ポイントドラッグベースのアプローチは、ポイントベースの編集命令のばらつきにより、計算オーバーヘッドとユーザの意図の誤解釈に悩まされる。 本稿では,これらの制約を克服するために,地域ベースのコピー・アンド・ペーストドラッグ手法であるRereaDragを提案する。 RegionDragは、ユーザがハンドルとターゲットリージョンの形式で編集命令を表現し、より正確なコントロールとあいまいさの緩和を可能にする。 さらに、リージョンベースの操作は1イテレーションで完全な編集を行い、ポイントドラッグベースのメソッドよりもはるかに高速である。 また,アテンションスワッピング技術を用いて編集時の安定性を向上する。 このアプローチを検証するために、既存のポイントドラッグベースのデータセットを拡張して、リージョンベースのドラッグング命令を適用します。 実験結果から、RereaDragは既存のポイントドラッグベースのアプローチよりも、スピード、正確性、ユーザの意図との整合性が優れていることが示された。 注目すべきは、RereaDragが解像度512x512の画像を2秒未満で編集することです。 プロジェクトページ: https://visual-ai.github.io/ Regionaldrag.com

Point-drag-based image editing methods, like DragDiffusion, have attracted significant attention. However, point-drag-based approaches suffer from computational overhead and misinterpretation of user intentions due to the sparsity of point-based editing instructions. In this paper, we propose a region-based copy-and-paste dragging method, RegionDrag, to overcome these limitations. RegionDrag allows users to express their editing instructions in the form of handle and target regions, enabling more precise control and alleviating ambiguity. In addition, region-based operations complete editing in one iteration and are much faster than point-drag-based methods. We also incorporate the attention-swapping technique for enhanced stability during editing. To validate our approach, we extend existing point-drag-based datasets with region-based dragging instructions. Experimental results demonstrate that RegionDrag outperforms existing point-drag-based approaches in terms of speed, accuracy, and alignment with user intentions. Remarkably, RegionDrag completes the edit on an image with a resolution of 512x512 in less than 2 seconds, which is more than 100x faster than DragDiffusion, while achieving better performance. Project page: https://visual-ai.github.io/regiondrag.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# 直接選好最適化による自己学習による階層推論の改善

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning ( http://arxiv.org/abs/2407.18248v1 )

ライセンス: Link先を確認
Tianduo Wang, Shichen Li, Wei Lu, (参考訳) 数学的推論タスクのための言語モデル(LM)の効果的なトレーニングには、高品質な教師付き微調整データが必要である。 人間の専門家からアノテーションを得るのに加えて、より大きくより強力なLMからサンプルをサンプリングするのが一般的な方法である。 しかし、この知識蒸留手法は高価で不安定であり、特にGPT-4のようなクローズドソースでプロプライエタリなLMに依存している場合、その振る舞いは予測不可能である。 本研究では,モデルが自身の出力から学習するプロセスである自己学習によって,小規模LMの推論能力を向上できることを実証する。 また、従来の自己学習は、DPO(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。 DPOを自己学習に統合することにより、好みデータを活用して、より正確で多様な思考の連鎖推論に向けてLMを誘導する。 本手法は,様々な基礎モデルを用いて,様々な数学的推論タスクにまたがって評価する。 実験の結果、このアプローチはLMの推論性能を向上するだけでなく、大規模プロプライエタリなLMよりもコスト効率が高くスケーラブルなソリューションを提供することがわかった。

Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# ファウショット行動認識のための軌道整列型時空間トークン

Trajectory-aligned Space-time Tokens for Few-shot Action Recognition ( http://arxiv.org/abs/2407.18249v1 )

ライセンス: Link先を確認
Pulkit Kumar, Namitha Padmanabhan, Luke Luo, Sai Saketh Rambhatla, Abhinav Shrivastava, (参考訳) 動作と外観表現の絡み合いを強調した,数発の動作認識のための簡易かつ効果的なアプローチを提案する。 近年の追跡,特に点軌跡と自己教師付き表現学習の進歩を活用して,運動情報と外観情報をキャプチャするトラジェクトリ整列トークン(TAT)を構築する。 このアプローチは、本質的な情報を保持しながら、データ要求を大幅に削減します。 これらの表現の処理にはMasked Space-time Transformer(仮称時変圧器)を用いる。 複数のデータセットにまたがる数発のアクション認識について、最先端の結果を示す。 私たちのプロジェクトページはhttps://www.cs.umd.edu/~pulkit/tatsで公開されています。

We propose a simple yet effective approach for few-shot action recognition, emphasizing the disentanglement of motion and appearance representations. By harnessing recent progress in tracking, specifically point trajectories and self-supervised representation learning, we build trajectory-aligned tokens (TATs) that capture motion and appearance information. This approach significantly reduces the data requirements while retaining essential information. To process these representations, we use a Masked Space-time Transformer that effectively learns to aggregate information to facilitate few-shot action recognition. We demonstrate state-of-the-art results on few-shot action recognition across multiple datasets. Our project page is available at https://www.cs.umd.edu/~pulkit/tats
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# マルチモーダルモデルにおけるスパース対相対レンズ摂動:経験的解析

Sparse vs Contiguous Adversarial Pixel Perturbations in Multimodal Models: An Empirical Analysis ( http://arxiv.org/abs/2407.18251v1 )

ライセンス: Link先を確認
Cristian-Alexandru Botocan, Raphael Meier, Ljiljana Dolamic, (参考訳) マルチモーダルモデルの敵例に対する堅牢性を評価することは、ユーザの安全にとって重要な側面である。 我々は前処理した入力画像に対してL0-norm摂動攻撃を行う。 4つのマルチモーダルモデルと2つのユニモーダルDNNに対して、ターゲットと未ターゲットの両方の誤分類を考慮してブラックボックスで起動する。 我々の攻撃対象は摂動画像領域の0.04%未満であり、乱視された画素の空間的位置決めを異なる連続した形状(ロー、コラム、斜め、パッチ)で分割したスパース位置決めと画素に統合する。 我々の知る限り、我々は3つの最先端マルチモーダルモデル(ALIGN、AltCLIP、GroupViT)の様々なスパースおよび連続した画素分布摂動に対する堅牢性を初めて評価した。 その結果,DNNはマルチモーダルモデルよりも頑健であることが示唆された。 さらに、CNNベースの Image Encoder を用いたモデルでは、ViT を用いたモデルよりも脆弱であり、標的外攻撃では、画像領域の0.02%未満を摂動することで、99%の成功率を得る。

Assessing the robustness of multimodal models against adversarial examples is an important aspect for the safety of its users. We craft L0-norm perturbation attacks on the preprocessed input images. We launch them in a black-box setup against four multimodal models and two unimodal DNNs, considering both targeted and untargeted misclassification. Our attacks target less than 0.04% of perturbed image area and integrate different spatial positioning of perturbed pixels: sparse positioning and pixels arranged in different contiguous shapes (row, column, diagonal, and patch). To the best of our knowledge, we are the first to assess the robustness of three state-of-the-art multimodal models (ALIGN, AltCLIP, GroupViT) against different sparse and contiguous pixel distribution perturbations. The obtained results indicate that unimodal DNNs are more robust than multimodal models. Furthermore, models using CNN-based Image Encoder are more vulnerable than models with ViT - for untargeted attacks, we obtain a 99% success rate by perturbing less than 0.02% of the image area.
翻訳日:2024-07-26 13:09:36 公開日:2024-07-25
# 大規模言語モデルを用いた低・高資源言語に対する機械翻訳幻覚検出

Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models ( http://arxiv.org/abs/2407.16470v2 )

ライセンス: Link先を確認
Kenza Benkirane, Laura Gongas, Shahar Pelles, Naomi Fuchs, Joshua Darmon, Pontus Stenetorp, David Ifeoluwa Adelani, Eduardo Sánchez, (参考訳) 近年の多言語機械翻訳システムの進歩は翻訳精度を大幅に向上させたが、優れた演奏システムでさえも幻覚を発生させ、ユーザの信頼を著しく損なう。 機械翻訳(MT)における幻覚の検出は、特に高リソース言語(HRL)が優れているが、低リソース言語(LRL)に適用した場合、かなりの制限があるため、依然として重要な課題である。 本稿では,Large Language Models (LLM) を用いた幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。 本研究は、HRL、LRL、多種多様なスクリプトを含む16の言語方向を対象としている。 モデルの選択がパフォーマンスに不可欠であることに気付きました。 HRLでは、Llama3-70Bは前回の最先端を0.16 MCC(マシューズ相関係数)で上回る。 しかし、LRLでは、Claude Sonnet は平均 0.03 MCC で他の LLM よりも優れていた。 我々の研究から得られた重要な点は、LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成できるということです。 しかし、LRLにとってその優位性はそれほど大きくない。

Recent advancements in massively multilingual machine translation systems have significantly enhanced translation accuracy; however, even the best performing systems still generate hallucinations, severely impacting user trust. Detecting hallucinations in Machine Translation (MT) remains a critical challenge, particularly since existing methods excel with High-Resource Languages (HRLs) but exhibit substantial limitations when applied to Low-Resource Languages (LRLs). This paper evaluates hallucination detection approaches using Large Language Models (LLMs) and semantic similarity within massively multilingual embeddings. Our study spans 16 language directions, covering HRLs, LRLs, with diverse scripts. We find that the choice of model is essential for performance. On average, for HRLs, Llama3-70B outperforms the previous state of the art by as much as 0.16 MCC (Matthews Correlation Coefficient). However, for LRLs we observe that Claude Sonnet outperforms other LLMs on average by 0.03 MCC. The key takeaway from our study is that LLMs can achieve performance comparable or even better than previously proposed models, despite not being explicitly trained for any machine translation task. However, their advantage is less significant for LRLs.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# Cheems: 素晴らしい行列がより効率的で効果的なアーキテクチャになる

Cheems: Wonderful Matrices More Efficient and More Effective Architecture ( http://arxiv.org/abs/2407.16958v2 )

ライセンス: Link先を確認
Jingze Shi, Lu He, Yuhan Wang, Tianyu He, Bingheng Wu, Mingkun Hou, (参考訳) 近年の研究では、相対的な位置符号化は選択的な状態空間モデルスキャンアルゴリズムにおいて良好に機能し、SSMと注意のバランスをとるアーキテクチャはアルゴリズムの効率と有効性を高める一方で、専門家の混合物の疎活性化はトレーニングコストを削減することが示されている。 構造化状態空間双対アルゴリズムにおける異なる位置符号化の有効性と、より効率的なSSD-Attn内部および外部関数混合法について検討し、より効率的なクロスドメイン混合の設計を行った。 同じマトリックスは、異なるアルゴリズムで非常に素晴らしいので、新しいハイブリッドスパースアーキテクチャ(Cheems)を確立することができます。 他のハイブリッドアーキテクチャと比較すると、言語モデリングタスクではより効率的で効果的です。

Recent studies have shown that, relative position encoding performs well in selective state space model scanning algorithms, and the architecture that balances SSM and Attention enhances the efficiency and effectiveness of the algorithm, while the sparse activation of the mixture of experts reduces the training cost. I studied the effectiveness of using different position encodings in structured state space dual algorithms, and the more effective SSD-Attn internal and external function mixing method, and designed a more efficient cross domain mixture of experts. I found that the same matrix is very wonderful in different algorithms, which allows us to establish a new hybrid sparse architecture: Cheems. Compared with other hybrid architectures, it is more efficient and more effective in language modeling tasks.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# マルチスペクトルイメージングによる環境モニタリングの強化:湖岸廃棄物のセマンティックセグメンテーションのための廃棄物MSデータセット

Enhancing Environmental Monitoring through Multispectral Imaging: The WasteMS Dataset for Semantic Segmentation of Lakeside Waste ( http://arxiv.org/abs/2407.17028v2 )

ライセンス: Link先を確認
Qinfeng Zhu, Ningxin Weng, Lei Fan, Yuanzhi Cai, (参考訳) 湖岸緑地の環境モニタリングは環境保護に不可欠である。 手動検査と比較して、コンピュータビジョン技術は、現場に配備された場合、より効率的なソリューションを提供する。 マルチスペクトルイメージングは、異なるスペクトル下での物体についての多様な情報を提供し、廃棄物と湖岸の芝生の環境の分化に寄与する。 本研究では,湖岸廃棄物のセマンティックセグメンテーションのために確立された最初のマルチスペクトルデータセットであるDesteMSを紹介する。 WasteMSは、様々な照明条件下で捕獲された芝生の環境において、さまざまな種類の廃棄物を含む。 画像中の無駄をラベル付けするための厳密なアノテーションプロセスを実装した。 WasteMSを用いてセグメンテーションの精度を評価するために,代表的セグメンテーションフレームワークを用いた。 湖岸芝生における廃棄物処理における廃棄物処理の課題について考察した。 WasteMSデータセットはhttps://github.com/zhuqinfeng 1999/WasteMSで公開されている。

Environmental monitoring of lakeside green areas is crucial for environmental protection. Compared to manual inspections, computer vision technologies offer a more efficient solution when deployed on-site. Multispectral imaging provides diverse information about objects under different spectrums, aiding in the differentiation between waste and lakeside lawn environments. This study introduces WasteMS, the first multispectral dataset established for the semantic segmentation of lakeside waste. WasteMS includes a diverse range of waste types in lawn environments, captured under various lighting conditions. We implemented a rigorous annotation process to label waste in images. Representative semantic segmentation frameworks were used to evaluate segmentation accuracy using WasteMS. Challenges encountered when using WasteMS for segmenting waste on lakeside lawns were discussed. The WasteMS dataset is available at https://github.com/zhuqinfeng1999/WasteMS.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# コード中心のソフトウェア脆弱性の自動評価: どれくらいの距離にあるか? C/C++における実証的研究

Automated Code-centric Software Vulnerability Assessment: How Far Are We? An Empirical Study in C/C++ ( http://arxiv.org/abs/2407.17053v2 )

ライセンス: Link先を確認
Anh The Nguyen, Triet Huynh Minh Le, M. Ali Babar, (参考訳) 背景: C言語とC++言語は、実際に広く使われているため、ソフトウェア工学の研究において重要な役割を担っている。 機械学習(ML)とディープラーニング(DL)技術を使って、これらの言語で書かれたソースコードのソフトウェア脆弱性(SV)を検出する。 しかし,これらの手法を機能レベルのSV評価に適用することは,ほとんど研究されていない。 SVアセスメントは、セキュリティ欠陥の悪用性、影響、深刻さに関する詳細な情報を提供するため、ますます重要になっている。 Aims: C/C++における関数レベルのSV評価において,MLモデルとDLモデルの性能を調査・比較するための最初の実証的研究を行い,その多くをSV検出に用いた。 方法:9,993個の脆弱なC/C++関数を用いて,CVSS(Common Vulnerability Scoring System)に基づいて,SV評価のための6つの多クラスMLモデルと5つの多クラスDLモデルの性能評価を行った。 さらに、共通の脆弱なコードを利用して、単一のモデルで全てのSV評価出力を同時に予測できるマルチタスク学習について検討し、このモデルの有効性と効率を元のマルチクラスモデルと比較する。 結果: ML は,関数レベルの SV 評価のためのマルチクラス DL モデルと比較して,学習時間を大幅に短縮した,整合性や性能が向上していることが示唆された。 マルチタスク学習を利用することで、DLモデルは大幅に改善され、平均してマシューズ相関係数(MCC)は8-22%増加した。 結論: C/C++における関数レベルのSV評価にデータ駆動技術を用いるプラクティスを精査する。 これにより、この領域における将来の仕事の強力な基盤が確立できる。

Background: The C and C++ languages hold significant importance in Software Engineering research because of their widespread use in practice. Numerous studies have utilized Machine Learning (ML) and Deep Learning (DL) techniques to detect software vulnerabilities (SVs) in the source code written in these languages. However, the application of these techniques in function-level SV assessment has been largely unexplored. SV assessment is increasingly crucial as it provides detailed information on the exploitability, impacts, and severity of security defects, thereby aiding in their prioritization and remediation. Aims: We conduct the first empirical study to investigate and compare the performance of ML and DL models, many of which have been used for SV detection, for function-level SV assessment in C/C++. Method: Using 9,993 vulnerable C/C++ functions, we evaluated the performance of six multi-class ML models and five multi-class DL models for the SV assessment at the function level based on the Common Vulnerability Scoring System (CVSS). We further explore multi-task learning, which can leverage common vulnerable code to predict all SV assessment outputs simultaneously in a single model, and compare the effectiveness and efficiency of this model type with those of the original multi-class models. Results: We show that ML has matching or even better performance compared to the multi-class DL models for function-level SV assessment with significantly less training time. Employing multi-task learning allows the DL models to perform significantly better, with an average of 8-22% increase in Matthews Correlation Coefficient (MCC). Conclusions: We distill the practices of using data-driven techniques for function-level SV assessment in C/C++, including the use of multi-task DL to balance efficiency and effectiveness. This can establish a strong foundation for future work in this area.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# SAFETY-J:批判による安全性の評価

SAFETY-J: Evaluating Safety with Critique ( http://arxiv.org/abs/2407.17075v2 )

ライセンス: Link先を確認
Yixiu Liu, Yuxiang Zheng, Shijie Xia, Yuan Guo, Jiajun Li, Yi Tu, Chaoling Song, Pengfei Liu, (参考訳) コンテンツ生成におけるLLM(Large Language Models)の展開は、特にコンテンツ評価の透明性と解釈可能性に関して、重要な安全性上の懸念を提起する。 現在の方法は、主に二元的安全性の分類に焦点を当てており、詳細な批判のためのメカニズムが欠如しており、モデルの改善とユーザ信頼のための実用性を制限している。 これらの制約に対処するために、批判に基づく判断を伴う英語と中国語のバイリンガル生成安全評価器であるSAFETY-Jを紹介する。 SAFETY-Jは、多様な対話と拡張されたクエリ応答ペアを含む堅牢なトレーニングデータセットを使用して、さまざまなシナリオの安全性を総合的に評価する。 我々は,人間の介入を最小限に抑えて批評の質を客観的に評価し,スケーラブルで継続的な改善を促進する自動メタ評価ベンチマークを確立する。 さらに、SAFETY-Jはメタ評価や批判に基づいて安全性評価を動的に洗練するために反復的な選好学習技術を採用している。 SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。 SAFETY-Jのトレーニングプロトコル、データセット、コードを, \url{https://github.com/GAIR-NLP/Safety-J}でオープンソース化した。

The deployment of Large Language Models (LLMs) in content generation raises significant safety concerns, particularly regarding the transparency and interpretability of content evaluations. Current methods, primarily focused on binary safety classifications, lack mechanisms for detailed critique, limiting their utility for model improvement and user trust. To address these limitations, we introduce SAFETY-J, a bilingual generative safety evaluator for English and Chinese with critique-based judgment. SAFETY-J utilizes a robust training dataset that includes diverse dialogues and augmented query-response pairs to assess safety across various scenarios comprehensively. We establish an automated meta-evaluation benchmark that objectively assesses the quality of critiques with minimal human intervention, facilitating scalable and continuous improvement. Additionally, SAFETY-J employs an iterative preference learning technique to dynamically refine safety assessments based on meta-evaluations and critiques. Our evaluations demonstrate that SAFETY-J provides more nuanced and accurate safety evaluations, thereby enhancing both critique quality and predictive reliability in complex content scenarios. To facilitate further research and application, we open-source SAFETY-J's training protocols, datasets, and code at \url{https://github.com/GAIR-NLP/Safety-J}.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# 振る舞いテスト: 大規模言語モデルは曖昧なエンティティを暗黙的に解決できるか?

Behavioral Testing: Can Large Language Models Implicitly Resolve Ambiguous Entities? ( http://arxiv.org/abs/2407.17125v2 )

ライセンス: Link先を確認
Anastasiia Sedova, Robert Litschko, Diego Frassinelli, Benjamin Roth, Barbara Plank, (参考訳) 大規模言語モデル(LLM)の顕著な性能に寄与する主要な側面の1つは、事前学習中に蓄積された膨大な事実知識である。 しかし、多くのLDMは自己整合性に悩まされており、信頼性と信頼性に疑問を呈している。 本稿では,エンティティ型あいまいさに着目し,その能力と一貫性について現状のLCMを解析し,あいまいさのあるエンティティに対して,現実的な知識を適用した。 そこで本研究では,49個のエンティティ上で,知識の適用から知識を逸脱する評価プロトコルを提案し,最先端のLCMをテストした。 実験の結果,LSMは不明瞭なプロンプトで性能が悪く,80%の精度しか達成できないことがわかった。 以上の結果から,LLMの行動の系統的相違や,情報の一貫した適用の失敗が示され,このモデルが活用不可能な知識,好ましくない読みのバイアス,自己の不整合を呈する可能性が示唆された。 我々の研究は、より信頼性の高いLCMのための将来におけるエンティティ曖昧性を扱うことの重要性を強調している。

One of the major aspects contributing to the striking performance of large language models (LLMs) is the vast amount of factual knowledge accumulated during pre-training. Yet, many LLMs suffer from self-inconsistency, which raises doubts about their trustworthiness and reliability. In this paper, we focus on entity type ambiguity and analyze current state-of-the-art LLMs for their proficiency and consistency in applying their factual knowledge when prompted for entities under ambiguity. To do so, we propose an evaluation protocol that disentangles knowing from applying knowledge, and test state-of-the-art LLMs on 49 entities. Our experiments reveal that LLMs perform poorly with ambiguous prompts, achieving only 80% accuracy. Our results further demonstrate systematic discrepancies in LLM behavior and their failure to consistently apply information, indicating that the models can exhibit knowledge without being able to utilize it, significant biases for preferred readings, as well as self inconsistencies. Our study highlights the importance of handling entity ambiguity in future for more trustworthy LLMs
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# SWIN変換器を用いた領域一般化再キャプチャ画像識別

Domain Generalized Recaptured Screen Image Identification Using SWIN Transformer ( http://arxiv.org/abs/2407.17170v2 )

ライセンス: Link先を確認
Preeti Mehta, Aman Sagar, Suchi Kumari, (参考訳) イメージリブロードキャストと再適応の問題、保険詐欺、顔の偽造、ビデオ海賊行為の標準的な攻撃戦略に対処するために、多くの分類手法が開発されている。 しかし、そのほとんどはスケールのバリエーションやドメインの一般化のシナリオを無視し、ドメインシフトを伴うインスタンスではパフォーマンスが悪く、ドメイン間とドメイン間のスケールのばらつきによって一般的に悪化した。 これらの課題を克服するために,本研究では,データセット表現の相違について検討し,現在研究中のデータ拡張とSWIN変換器領域一般化フレームワーク(DAST-DG)を提案する。 特徴生成装置は、様々な領域の正像を識別不能にするために訓練される。 このプロセスは、再適応された画像に適用され、二重対角学習セットを生成する。 大規模な実験により、我々のアプローチは実用的であり、異なるデータベースにまたがる最先端の手法を超越していることが示された。 提案モデルでは,高分散データセット上で約82 %の精度を95 %の精度で達成する。

An increasing number of classification approaches have been developed to address the issue of image rebroadcast and recapturing, a standard attack strategy in insurance frauds, face spoofing, and video piracy. However, most of them neglected scale variations and domain generalization scenarios, performing poorly in instances involving domain shifts, typically made worse by inter-domain and cross-domain scale variances. To overcome these issues, we propose a cascaded data augmentation and SWIN transformer domain generalization framework (DAST-DG) in the current research work Initially, we examine the disparity in dataset representation. A feature generator is trained to make authentic images from various domains indistinguishable. This process is then applied to recaptured images, creating a dual adversarial learning setup. Extensive experiments demonstrate that our approach is practical and surpasses state-of-the-art methods across different databases. Our model achieves an accuracy of approximately 82\% with a precision of 95\% on high-variance datasets.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# LPGen:拡散モデルによる高忠実景観絵画の創出

LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model ( http://arxiv.org/abs/2407.17229v2 )

ライセンス: Link先を確認
Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao, (参考訳) 風景画の生成は、芸術的創造性と想像力の可能性を拡大する。 伝統的な風景画法では、紙に墨や彩色墨を用い、かなりの時間と労力を要する。 これらの手法は誤りや不整合に影響を受けやすく、線や色を正確に制御できない。 本稿では,画像プロンプトを拡散モデルに統合する新しいマルチモーダルフレームワーク,LPGenを提案する。 対象のランドスケープ画像からキャニーエッジを計算し,そのエッジと輪郭を抽出する。 これらは、自然言語のテキストプロンプトや描画スタイルの参照とともに、潜在拡散モデルに条件として入力される。 我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。 デコーダは最終画像を生成する。 定量的・定性的な分析により,本手法は風景画の既存の手法よりも優れており,現状を超越していることが示された。 LPGenネットワークは、ランドスケープ絵画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習に基づくランドスケープ絵画生成のさらなる研究を支援する。

Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# 統計的バッチに基づく軸受故障検出

Statistical Batch-Based Bearing Fault Detection ( http://arxiv.org/abs/2407.17236v2 )

ライセンス: Link先を確認
Victoria Jorry, Zina-Sabrina Duma, Tuomas Sihvonen, Satu-Pia Reinikainen, Lassi Roininen, (参考訳) 回転機械の領域では、ベアリングはボール、インナーおよびアウターレース断層を含む異なる機械的断層に対して脆弱である。 古典的な信号分析から深層学習まで、様々な手法が条件に基づくモニタリングに利用できる。 回転機械の複雑な作業条件に基づいて、Hotellingの$T^2$やSquared Prediction Errorのような多変量統計処理制御チャートは早期警告を提供するのに有用である。 しかし、これらの手法は、データセットの単変量性のため、回転機械の状態監視にはほとんど適用されない。 本稿では,固定時間バッチに対して抽出したフーリエ変換特徴からなる多変量データを用いた多変量統計処理制御に基づく故障検出手法を提案する。 本手法では, 早期の欠陥検出と診断を向上するために, マシンの状態に関するより詳細な情報を記録するフーリエ変換特性の多次元特性を利用する。 様々な振動測定地点(ファンエンド,ドライブエンド)、断層タイプ(ボール,インナーおよびアウターレースフォールト)およびモータ負荷(0-3馬力)を用いて提案手法の有効性を検証する。 その結果, 異常検出における本手法の有効性が示され, 産業保守における幅広い利用の可能性が示唆された。

In the domain of rotating machinery, bearings are vulnerable to different mechanical faults, including ball, inner, and outer race faults. Various techniques can be used in condition-based monitoring, from classical signal analysis to deep learning methods. Based on the complex working conditions of rotary machines, multivariate statistical process control charts such as Hotelling's $T^2$ and Squared Prediction Error are useful for providing early warnings. However, these methods are rarely applied to condition monitoring of rotating machinery due to the univariate nature of the datasets. In the present paper, we propose a multivariate statistical process control-based fault detection method that utilizes multivariate data composed of Fourier transform features extracted for fixed-time batches. Our approach makes use of the multidimensional nature of Fourier transform characteristics, which record more detailed information about the machine's status, in an effort to enhance early defect detection and diagnosis. Experiments with varying vibration measurement locations (Fan End, Drive End), fault types (ball, inner, and outer race faults), and motor loads (0-3 horsepower) are used to validate the suggested approach. The outcomes illustrate our method's effectiveness in fault detection and point to possible broader uses in industrial maintenance.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# SoK: ブロックチェーンへの信頼のブリッジ。オンチェーンアイデンティティに関するシステムレビュー

SoK: Bridging Trust into the Blockchain. A Systematic Review on On-Chain Identity ( http://arxiv.org/abs/2407.17276v2 )

ライセンス: Link先を確認
Awid Vaziry, Kaustabh Barman, Patrick Herbke, (参考訳) ブロックチェーンベースのサービスとアプリケーションの継続的な規制は、ブロックチェーンにトランザクションを発行しているユーザの識別を必要とする。 この体系的なレビューは、現在の状況を調査し、研究ギャップを特定し、ブロックチェーン(オンチェーンID)上の信頼性とプライバシに準拠したアイデンティティを確立するための今後の研究の方向性を概説する。 体系的な検索用語が様々な科学データベースに適用され、2232の潜在的研究論文が収集された。 これらの論文は、2つの方法論的に実行されたステップで98、最終的に13の関連資料に絞られた。 関連する記事は、一連のスクリーニング質問に基づいて体系的に分析される。 選択された研究の結果は、オンチェーンのアイデンティティのメカニズムに関する洞察に富んだ知見を与えている。 オンチェーンのアイデンティティは、ゼロ知識証明、公開鍵インフラストラクチャ/認証、信頼のWebを使って確立される。 著者が使用する技術やアーキテクチャも強調されている。 信頼は重要な研究ギャップとして現れ、まず、物理的な人間のデジタルアイデンティティー表現を信頼する方法のギャップ、そして、アイデンティティー確認をチェーン上で発行するアイデンティティープロバイダを信頼する方法のギャップである。 将来的な研究の道は、信頼とオンチェーンのアイデンティティを確立する際の現在のギャップを埋めるのに役立つと提案されている。

The ongoing regulation of blockchain-based services and applications requires the identification of users who are issuing transactions on the blockchain. This systematic review explores the current status, identifies research gaps, and outlines future research directions for establishing trusted and privacy-compliant identities on the blockchain (on-chain identity). A systematic search term was applied across various scientific databases, collecting 2232 potentially relevant research papers. These papers were narrowed down in two methodologically executed steps to 98 and finally to 13 relevant sources. The relevant articles were then systematically analyzed based on a set of screening questions. The results of the selected studies have provided insightful findings on the mechanisms of on-chain identities. On-chain identities are established using zero-knowledge proofs, public key infrastructure/certificates, and web of trust approaches. The technologies and architectures used by the authors are also highlighted. Trust has emerged as a key research gap, manifesting in two ways: firstly, a gap in how to trust the digital identity representation of a physical human; secondly, a gap in how to trust identity providers that issue identity confirmations on-chain. Potential future research avenues are suggested to help fill the current gaps in establishing trust and on-chain identities.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# LangOcc: ボリュームレンダリングによる自己監督型オープン語彙職業推定

LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering ( http://arxiv.org/abs/2407.17310v2 )

ライセンス: Link先を確認
Simon Boeder, Fabian Gigengack, Benjamin Risse, (参考訳) 近年、視覚に基づく自動運転の分野では、3D占有率推定タスクが重要な課題となっている。 しかし、既存のカメラベースのほとんどの手法は、訓練に費用がかかる3DボクセルラベルやLiDARスキャンに依存しており、実用性とスケーラビリティを制限している。 さらに、ほとんどのメソッドは事前に定義されたクラスのセットに結び付けられており、検出することができる。 本研究では,LangOccと呼ばれる開語彙占有度推定のための新しい手法を提案する。 特に,強力な視覚言語対応エンコーダCLIPの知識を,可変ボリュームレンダリングにより3次元占有モデルに抽出する。 本モデルでは,画像のみを用いた3次元ボクセルグリッドの視覚言語対応機能を推定する。 2次元空間に推定をレンダリングすることで、自己教師型で訓練し、そこでは、基底的特徴を計算できる。 このトレーニングメカニズムは、シーンの幾何学を自動で監視し、明確な幾何学的監督なしに、ストレートフォワードで強力なトレーニング方法を実現できる。 LangOccは、オープンボキャブラリの占有率でLiDARが監督する競合他社よりも、視覚ベースのトレーニングにのみ依存している。 また,Occ3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の結果を,特定のカテゴリに限らず達成し,提案したビジョン言語学習の有効性を実証した。

The 3D occupancy estimation task has become an important challenge in the area of vision-based autonomous driving recently. However, most existing camera-based methods rely on costly 3D voxel labels or LiDAR scans for training, limiting their practicality and scalability. Moreover, most methods are tied to a predefined set of classes which they can detect. In this work we present a novel approach for open vocabulary occupancy estimation called LangOcc, that is trained only via camera images, and can detect arbitrary semantics via vision-language alignment. In particular, we distill the knowledge of the strong vision-language aligned encoder CLIP into a 3D occupancy model via differentiable volume rendering. Our model estimates vision-language aligned features in a 3D voxel grid using only images. It is trained in a self-supervised manner by rendering our estimations back to 2D space, where ground-truth features can be computed. This training mechanism automatically supervises the scene geometry, allowing for a straight-forward and powerful training method without any explicit geometry supervision. LangOcc outperforms LiDAR-supervised competitors in open vocabulary occupancy by a large margin, solely relying on vision-based training. We also achieve state-of-the-art results in self-supervised semantic occupancy estimation on the Occ3D-nuScenes dataset, despite not being limited to a specific set of categories, thus demonstrating the effectiveness of our proposed vision-language training.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# 高齢者の認知症診断における深層学習法とMRI選択法

Enhanced Deep Learning Methodologies and MRI Selection Techniques for Dementia Diagnosis in the Elderly Population ( http://arxiv.org/abs/2407.17324v2 )

ライセンス: Link先を確認
Nikolaos Ntampakis, Konstantinos Diamantaras, Ioanna Chouvarda, Vasileios Argyriou, Panagiotis Sarigianndis, (参考訳) 認知症 (Dementia) は、世界中の何百万もの人に影響を及ぼす神経疾患である。 本研究では3次元脳磁気共鳴画像(MRI)を用いた認知症・非高齢高齢者の分類法について紹介する。 提案手法は,MRIスライスを選択的に処理し,最も関連性の高い脳領域に着目し,少ない情報領域を除外するユニークな手法である。 この方法論は、Dem3D ResNet、Dem3D CNN、Dem3D EfficientNetという3つのカスタムディープラーニングモデルからなる信頼性ベースの分類委員会によって補完されている。 これらのモデルは、総合的な強みを活用して、意思決定の精度を高めるために相乗的に機能する。 OASIS(Open Access Series of Imaging Studies)データセットを用いて,既存の手法を超越した94.12%の精度を達成した。 さらに、アルツハイマー病神経画像イニシアチブ(ADNI)データセットの検証により、我々のアプローチの堅牢性と一般化性が確認された。 説明可能なAI(XAI)技術と包括的アブレーション研究の使用は、我々の技術の有効性をさらに裏付け、意思決定プロセスと方法論の重要性に関する洞察を提供する。 本研究は、認知症診断の大幅な進歩を提供し、臨床応用に極めて正確かつ効率的なツールを提供する。

Dementia, a debilitating neurological condition affecting millions worldwide, presents significant diagnostic challenges. In this work, we introduce a novel methodology for the classification of demented and non-demented elderly patients using 3D brain Magnetic Resonance Imaging (MRI) scans. Our approach features a unique technique for selectively processing MRI slices, focusing on the most relevant brain regions and excluding less informative sections. This methodology is complemented by a confidence-based classification committee composed of three custom deep learning models: Dem3D ResNet, Dem3D CNN, and Dem3D EfficientNet. These models work synergistically to enhance decision-making accuracy, leveraging their collective strengths. Tested on the Open Access Series of Imaging Studies(OASIS) dataset, our method achieved an impressive accuracy of 94.12%, surpassing existing methodologies. Furthermore, validation on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset confirmed the robustness and generalizability of our approach. The use of explainable AI (XAI) techniques and comprehensive ablation studies further substantiate the effectiveness of our techniques, providing insights into the decision-making process and the importance of our methodology. This research offers a significant advancement in dementia diagnosis, providing a highly accurate and efficient tool for clinical applications.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# 凸集合グラフの$A^*$

$A^*$ for Graphs of Convex Sets ( http://arxiv.org/abs/2407.17413v2 )

ライセンス: Link先を確認
Kaarthik Sundar, Sivakumar Rathinam, (参考訳) 本稿では,既存の凸プログラミングに基づくアプローチをヒューリスティック情報と融合して,グラフ・オブ・凸集合(SPP-GCS)における最短経路問題に対する最適性保証と準最適経路を求めるアルゴリズムを提案する。 我々の方法は$A^*$にインスパイアされ、指定された頂点の部分集合から最優先的な手順を開始し、さらなる成長が不可能かつ有益になるまで反復的に拡張する。 伝統的に、最適化問題に対する境界付き解を得るには、緩和を解くこと、緩和された解を実現可能なものに修正すること、そして2つの解を比較して境界を確立することが含まれる。 しかし、SPP-GCSでは、特にユークリッド旅行コストにおいて、このプロセスの逆転の方が有利であることを示す。 言い換えれば、まず最初に$A^*$ を用いて SPP-GCS の実現可能な解を求め、次に、$A^*$ で探索された頂点に制限された凸緩和を解いて緩和解を得る。 本稿では,コンベックスプログラムのサイズや計算時間の観点から,既存手法に対するアルゴリズムの利点を明らかにするために,数値計算結果を提案する。

We present a novel algorithm that fuses the existing convex-programming based approach with heuristic information to find optimality guarantees and near-optimal paths for the Shortest Path Problem in the Graph of Convex Sets (SPP-GCS). Our method, inspired by $A^*$, initiates a best-first-like procedure from a designated subset of vertices and iteratively expands it until further growth is neither possible nor beneficial. Traditionally, obtaining solutions with bounds for an optimization problem involves solving a relaxation, modifying the relaxed solution to a feasible one, and then comparing the two solutions to establish bounds. However, for SPP-GCS, we demonstrate that reversing this process can be more advantageous, especially with Euclidean travel costs. In other words, we initially employ $A^*$ to find a feasible solution for SPP-GCS, then solve a convex relaxation restricted to the vertices explored by $A^*$ to obtain a relaxed solution, and finally, compare the solutions to derive bounds. We present numerical results to highlight the advantages of our algorithm over the existing approach in terms of the sizes of the convex programs solved and computation time.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25
# 異常検出レンズによるモデル偏差の検討

Looking at Model Debiasing through the Lens of Anomaly Detection ( http://arxiv.org/abs/2407.17449v2 )

ライセンス: Link先を確認
Vito Paolo Pastore, Massimiliano Ciranni, Davide Marinelli, Francesca Odone, Vittorio Murino, (参考訳) ディープニューラルネットワークはデータのバイアスに敏感であることが広く認識されている。 これは、トレーニング中にこれらのモデルがデータとラベルの間に急激な相関関係を学習し、結果として一般化能力が制限され、性能が低下することを意味する。 この文脈では、モデル偏見のアプローチは、バイアス情報の知識を活用するか、そうでないかのどちらかを使って、そのような望ましくない相関関係へのモデルの依存を減らすことを目的として考案することができる。 本研究は, 偏りの緩和に有効な性能を得るために, 偏りと偏りの一致したサンプルを正確に予測することの重要性を示す, 後者の現実的なシナリオに焦点をあてる。 そこで本研究では,異常検出に基づく新しいバイアス識別手法を導入し,分布外の観点からモデルバイアスの問題を考察する。 偏りがほとんどの場合、偏りのあるサンプルは偏りのあるモデルの特徴空間における偏りの分布に対して外れ値と見なすことができ、異常検出法で正確に検出することができる。 偏見識別手法とバイアス強調データアップサンプリングと拡張を2段階の戦略で組み合わせることで、合成および実ベンチマークデータセット上で最先端のパフォーマンスを達成できる。 最終的に、我々の提案した手法は、正確なバイアス識別手順が定義されていることを考えると、データバイアス問題は必ずしも複雑なバイアス法を必要としないことを示している。

It is widely recognized that deep neural networks are sensitive to bias in the data. This means that during training these models are likely to learn spurious correlations between data and labels, resulting in limited generalization abilities and low performance. In this context, model debiasing approaches can be devised aiming at reducing the model's dependency on such unwanted correlations, either leveraging the knowledge of bias information or not. In this work, we focus on the latter and more realistic scenario, showing the importance of accurately predicting the bias-conflicting and bias-aligned samples to obtain compelling performance in bias mitigation. On this ground, we propose to conceive the problem of model bias from an out-of-distribution perspective, introducing a new bias identification method based on anomaly detection. We claim that when data is mostly biased, bias-conflicting samples can be regarded as outliers with respect to the bias-aligned distribution in the feature space of a biased model, thus allowing for precisely detecting them with an anomaly detection method. Coupling the proposed bias identification approach with bias-conflicting data upsampling and augmentation in a two-step strategy, we reach state-of-the-art performance on synthetic and real benchmark datasets. Ultimately, our proposed approach shows that the data bias issue does not necessarily require complex debiasing methods, given that an accurate bias identification procedure is defined.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-25